首页分享算法狗2

算法狗2

来源：萌宠菠菠乐园时间：2026-01-05 21:09

Kling-Omni Technical Report 解读快手科技团队发布的Kling-Omni技术报告提出了一种统一的多模态视频生成框架，旨在解决当前视频生成领域多模态集成困难、任务分散等挑战。该框架采用Multi-Modal Visual Language理念，通过Prompt Enhancer、Omni-Generator和Multimodal Super-Resolution三大核心模块，实现了文本、图像、视频等多种输入的协同处理。实验表明，Kling-Omni在复杂场景生成与编辑任务中表现优异，尤其在多模态控制场景下具有显著优势。未来研究将聚焦于增强推理原创博文更新于 1 小时前 · 469 阅读 · 11 点赞 · 0 评论 · 4 收藏

面试题：大模型sft为什么第二个epoch的时候loss会突然下降摘要：研究发现大语言模型(LLM)在监督微调(SFT)过程中存在过拟合和输出单一化问题。实验显示随着微调epoch增加，训练损失阶梯式下降但验证损失上升，表明模型过度记忆训练数据。论文指出交叉熵损失(CE)导致模型过于自信、重复训练数据模式，削弱生成多样性。Fastai实验证实该现象具有普遍性，不同框架下均观察到模型在第二轮epoch时快速记忆数据、验证损失不稳定的特征。这种现象与微调方法(LoRA/全参)无关，是大模型训练中的普遍问题。原创博文更新于 7 小时前 · 207 阅读 · 2 点赞 · 0 评论 · 5 收藏

大模型面试题：PPO等RL算法中怎么算KL散度的，KL散度不对称？本文分析了PPO等强化学习算法中KL散度的计算方法及其不对称性。重点比较了正向KL和反向KL的数学形式与行为特性：正向KL对小概率事件敏感，倾向于广泛覆盖目标分布；反向KL对高概率区域敏感，更适用于生成任务。研究指出，在语言模型等生成任务中通常采用反向KL，因其能提高生成质量和稳定性。文中通过数学推导展示了两种KL散度的计算过程，并解释了它们在策略优化中的不同影响。原创博文更新于昨天 15:25 · 257 阅读 · 2 点赞 · 0 评论 · 4 收藏

大模型面试题：大模型FFN中用SwiGLU为啥设置FFN的映射为8/3*d呢？ SwiGLU是大模型FFN层广泛采用的激活函数，结合Swish的非线性特性和GLU的门控机制，提升模型表达能力。其映射维度设为8/3d是为了保持参数总量与普通ReLU-FFN相当。具体推导：普通FFN参数量为2dffn_dim（通常ffn_dim=4d），而SwiGLU参数量为3d*mid_dim。令两者相等可得mid_dim=(8/3)d。工程实现中会进一步对齐到256的倍数以优化GPU计算。这一设计纯粹是为了公平比较时保持计算量一致，并非特殊优化。原创博文更新于 2026.01.01 · 497 阅读 · 11 点赞 · 0 评论 · 19 收藏

LiveTalk：实时交互的视频生成系统论文分享本文提出了一种改进的实时多模态交互视频生成方法LiveTalk。针对现有扩散模型在多模态条件下生成速度慢、质量不稳定的问题，研究团队设计了改进的on-policy蒸馏机制，通过条件输入筛选、优化调度和增强训练策略，显著提升了生成效率和质量。实验表明，该方法在保持视觉质量的同时，将推理延迟从60-120秒降低到接近实时水平，在多轮交互测试中优于现有SOTA模型。该系统为构建实时AI交互应用提供了有效解决方案，未来可进一步扩展到更复杂的场景和设备环境。论文链接：https://arxiv.org/abs/251 原创博文更新于 2025.12.31 · 608 阅读 · 30 点赞 · 0 评论 · 9 收藏

大模型面试题：使用大模型进行打分时为何要掉换位置多次打分呢？大模型评测中的位置偏差问题：当使用大模型（如GPT）进行回答质量比较时，系统性地存在位置偏差（position bias），即排在前面的回答更容易被判定为更好。研究表明，这种偏差源于自回归模型的生成机制、训练数据分布和注意力机制的非对称性。实验数据显示，即使是GPT-4，在交换回答顺序后也有约35%的判例会改变结果。为缓解这一问题，标准做法包括交换回答位置多次打分、随机排序或结合自洽投票等统计去偏方法。这已成为LLM评测的标准流程，而非简单的工程技巧。相关研究详见Zheng等人在NeurIPS 2023发表原创博文更新于 2025.12.31 · 568 阅读 · 7 点赞 · 0 评论 · 14 收藏

一文读懂9中RAG的架构本文详细介绍了9种RAG（检索增强生成）架构及其应用场景。标准RAG作为基础方案适用于简单查询，对话式RAG加入记忆层实现多轮对话，CorrectiveRAG通过校验机制确保数据准确性，AdaptiveRAG根据问题复杂度动态调整资源。此外，Self-RAG具备自我审计能力，FusionRAG采用多视角检索，HyDE通过生成假答案优化检索，AgenticRAG支持复杂问题求解，GraphRAG擅长关系推理。每种架构各有优劣，开发者应根据具体需求选择合适方案，从简单方案入手，在明确需求后再增加复杂度。RAG能原创博文更新于 2025.12.30 · 621 阅读 · 20 点赞 · 0 评论 · 28 收藏

面试题：推导一下softmax中为啥要除以根号d 本文推导了softmax中除以√d的原因：当查询矩阵Q和键矩阵K维度为d时，其点积QK^T的方差随d线性增长。为使方差稳定为1，需将点积除以√d。这避免了softmax输入值过大导致的梯度消失问题。通过代码实验验证，当d=64时，未缩放点积方差约为64，缩放后约为1，与理论推导一致。该缩放因子能有效稳定softmax的输入分布，确保梯度正常传播。原创博文更新于 2025.12.29 · 573 阅读 · 14 点赞 · 0 评论 · 5 收藏

大模型面试题：说一下GQA的原理？摘要：Grouped Query Attention (GQA) 是一种改进的多头注意力机制，通过将查询头分组并共享键/值头来提高效率。其核心是将H个查询头分为G组，每组共享键值头，既保持了多头注意力的质量，又提升了计算性能。实现上使用einops库进行张量操作，约16行代码即可完成。GQA在模型质量(MHA)和处理速度(MQA)之间取得了平衡，实验显示能获得接近MHA的质量，同时达到MQA的3倍处理速度，对高负载系统具有重要意义。原创博文更新于 2025.12.28 · 627 阅读 · 11 点赞 · 0 评论 · 19 收藏

大模型推理中超出训练长度的外推方式有哪些？本文总结了Transformer模型长度外推问题的几种主要解决方法。ALiBi通过添加不可学习的线性偏置实现外推，但受限于网络层数。位置内插法(PI)通过缩放位置编码因子实现长度扩展，但会压缩邻近Token距离。NTK-aware方法动态调整RoPE的base参数，实现高频外推和低频内插。Yarn采用灵活进制设计，对不同维度采取不同处理策略。此外，还介绍了动态NTK、ReRoPE等方法。这些技术旨在解决预训练使用短序列但需要泛化到长序列的问题，当前仍是Transformer亟待解决的挑战。原创博文更新于 2025.12.27 · 745 阅读 · 29 点赞 · 0 评论 · 12 收藏

我的总结的大模型面试题整理好的1000+面试题在这里，懂得都懂哈，回复"资料"就可以获取啦。原创博文更新于 2025.12.27 · 115 阅读 · 2 点赞 · 0 评论 · 0 收藏

总结一下KL的原创博文更新于 2025.12.17 · 77 阅读 · 1 点赞 · 0 评论 · 0 收藏

大模型面试题：大模型使用几十条数据微调后为啥性能差的很多？一个很有意思的回答：大模型的Loss Landscape 是由多个“Basin”（盆地）组成的，而不是一个平滑的曲面。如果微调（Fine-Tuning）的优化方向偏离了Basic Capacity Basin，就可能容易训崩掉，虽然训崩的概率不大。，但少数方向（如过大的学习率、错误的优化目标）会让模型“滑出”Basin。内，SFT 通常不会损害模型的整体能力，只是调整其行为分布。在这个Basin 内，模型的参数变化对性能影响不大（即。），因为模型已经收敛到一个较优的泛化状态。原创博文更新于 2025.07.01 · 358 阅读 · 3 点赞 · 0 评论 · 8 收藏

大模型面试题：解释下minimax中lighting attention的由来摘要：本文介绍了LightningAttention技术在解决传统注意力机制O(n²)复杂度问题上的演进。传统SoftmaxAttention难以处理长序列，线性注意力通过激活函数替换降低复杂度至O(nd²)。重点分析了LightningAttention-2的创新：采用分块策略，将注意力分为块内（传统左乘+掩码）和块间（缓存KV右乘）处理，首次实现因果模型的线性复杂度。该技术通过SRAM优化和缓存机制，有效平衡了计算效率与模型性能，支持超长序列训练。原始内容详见大模型面试题总结（CSDN博客或Gitee 原创博文更新于 2025.06.21 · 795 阅读 · 9 点赞 · 0 评论 · 13 收藏

大模型面试题：RL Scaling Law 中的“过优化”现象及其缓解方法是啥? 《大模型面试题与RLHF过优化问题》摘要：文章提供了AI面试题资源链接，重点讨论了强化学习人类反馈(RLHF)中的过优化现象。当策略模型过度优化奖励模型时，可能导致输出偏离人类偏好。解决方法包括：1)提前停止训练；2)使用KL惩罚项限制模型偏离；3)改进奖励模型(多目标机制/对抗训练)。完整内容可通过文末链接获取。原创博文更新于 2025.06.21 · 191 阅读 · 2 点赞 · 0 评论 · 0 收藏

大模型面试题：pretrain和test阶段的scaling law的资源分配策略区别是啥？ 1. **Pre-train Scaling Law** 的资源分配是预先规划的，主要在模型规模（N）、数据集大小（D）和训练计算量（C）之间进行平衡（例如，Chinchilla 定律建议 N 与 D 成正比，即模型的大小应与数据量同步扩展）。2. **Test Time Scaling Law** 的资源分配是实时进行的，通过动态调整单次推理的计算成本（例如增加采样次数或优化 Prompt 设计的复杂度）来提升效果。例如，在对延迟要求较高的场景中，可能仅采样一次；原创博文更新于 2025.06.21 · 349 阅读 · 3 点赞 · 0 评论 · 7 收藏

大模型面试题：请简要解释Pre-train、RL和Test Time三种 Scaling Law 的核心观点，在对应的阶段起到的作用本文系统梳理了AI模型三个阶段的核心扩展规律。预训练阶段(Pre-train Scaling Law)揭示模型性能与计算量、数据规模呈幂律关系，但边际效益递减；强化学习阶段(RL Scaling Law)指出模型会经历先升后降的"过优化"现象；推理阶段(Test Time Scaling Law)表明增加计算资源会提升性能但收益递减。三大扩展律从训练到推理全过程，为资源分配与性能优化提供了重要理论指导。原创博文更新于 2025.06.21 · 300 阅读 · 5 点赞 · 0 评论 · 7 收藏

大模型面试题总结原创博文更新于 2025.06.21 · 128 阅读 · 3 点赞 · 0 评论 · 0 收藏

大模型面试题：多模态处理多分辨率输入有哪些方法？本文介绍了处理多模态多分辨率输入的两种策略：1）切片方法，通过将图像分割为基准分辨率子块并在批量维度组合，同时保留全局信息；2）组合方法，受NLP序列组合技术启发，在不同分辨率图像特征分割后于序列维度组合，并使用块对角掩码实现并行处理。两种方法分别通过固定形状ViT和注意力机制优化实现了动态分辨率推理。更多面试题详见指定Git仓库。原创博文更新于 2025.06.12 · 228 阅读 · 1 点赞 · 0 评论 · 0 收藏

大模型面试题：大模型真的有self-correct能力吗？摘要：研究表明大型模型缺乏自我纠正能力，监督微调（SFT）等方法收效甚微，仅提升1.8%。作者实验发现，SFT主要减少将正确答案错误修改的情况，但未能显著提升错误答案的纠正率。提出的SCoRe模型首次实现显著正向自我纠正增益（4.4%），准确率提升23%，同时降低正确答案被修改的概率（1.4%）。当前挑战包括：保留正确答案、有效纠正错误答案，以及确保训练中第一步答案的准确性。该研究揭示了模型自我纠正机制的关键问题和发展方向。原创博文更新于 2025.06.12 · 663 阅读 · 8 点赞 · 0 评论 · 18 收藏

算法狗2

推荐分享

缅因猫能长多大一种体型较大的猫

警惕狗贩的骗人损招星期狗的症状特征

算法狗2

推荐分享

缅因猫能长多大 一种体型较大的猫

警惕狗贩的骗人损招 星期狗的症状特征

缅因猫能长多大一种体型较大的猫

警惕狗贩的骗人损招星期狗的症状特征