首页 分享 算法狗2

算法狗2

来源:萌宠菠菠乐园 时间:2026-01-05 21:09
Kling-Omni Technical Report 解读 快手科技团队发布的Kling-Omni技术报告提出了一种统一的多模态视频生成框架,旨在解决当前视频生成领域多模态集成困难、任务分散等挑战。该框架采用Multi-Modal Visual Language理念,通过Prompt Enhancer、Omni-Generator和Multimodal Super-Resolution三大核心模块,实现了文本、图像、视频等多种输入的协同处理。实验表明,Kling-Omni在复杂场景生成与编辑任务中表现优异,尤其在多模态控制场景下具有显著优势。未来研究将聚焦于增强推理 原创 博文更新于 1 小时前 · 469 阅读 · 11 点赞 · 0 评论 · 4 收藏
面试题:大模型sft为什么第二个epoch的时候loss会突然下降 摘要:研究发现大语言模型(LLM)在监督微调(SFT)过程中存在过拟合和输出单一化问题。实验显示随着微调epoch增加,训练损失阶梯式下降但验证损失上升,表明模型过度记忆训练数据。论文指出交叉熵损失(CE)导致模型过于自信、重复训练数据模式,削弱生成多样性。Fastai实验证实该现象具有普遍性,不同框架下均观察到模型在第二轮epoch时快速记忆数据、验证损失不稳定的特征。这种现象与微调方法(LoRA/全参)无关,是大模型训练中的普遍问题。 原创 博文更新于 7 小时前 · 207 阅读 · 2 点赞 · 0 评论 · 5 收藏
大模型面试题:PPO等RL算法中怎么算KL散度的,KL散度不对称? 本文分析了PPO等强化学习算法中KL散度的计算方法及其不对称性。重点比较了正向KL和反向KL的数学形式与行为特性:正向KL对小概率事件敏感,倾向于广泛覆盖目标分布;反向KL对高概率区域敏感,更适用于生成任务。研究指出,在语言模型等生成任务中通常采用反向KL,因其能提高生成质量和稳定性。文中通过数学推导展示了两种KL散度的计算过程,并解释了它们在策略优化中的不同影响。 原创 博文更新于 昨天 15:25 · 257 阅读 · 2 点赞 · 0 评论 · 4 收藏
大模型面试题:大模型FFN中用SwiGLU为啥设置FFN的映射为8/3*d呢? SwiGLU是大模型FFN层广泛采用的激活函数,结合Swish的非线性特性和GLU的门控机制,提升模型表达能力。其映射维度设为8/3d是为了保持参数总量与普通ReLU-FFN相当。具体推导:普通FFN参数量为2dffn_dim(通常ffn_dim=4d),而SwiGLU参数量为3d*mid_dim。令两者相等可得mid_dim=(8/3)d。工程实现中会进一步对齐到256的倍数以优化GPU计算。这一设计纯粹是为了公平比较时保持计算量一致,并非特殊优化。 原创 博文更新于 2026.01.01 · 497 阅读 · 11 点赞 · 0 评论 · 19 收藏
LiveTalk:实时交互的视频生成系统论文分享 本文提出了一种改进的实时多模态交互视频生成方法LiveTalk。针对现有扩散模型在多模态条件下生成速度慢、质量不稳定的问题,研究团队设计了改进的on-policy蒸馏机制,通过条件输入筛选、优化调度和增强训练策略,显著提升了生成效率和质量。实验表明,该方法在保持视觉质量的同时,将推理延迟从60-120秒降低到接近实时水平,在多轮交互测试中优于现有SOTA模型。该系统为构建实时AI交互应用提供了有效解决方案,未来可进一步扩展到更复杂的场景和设备环境。论文链接:https://arxiv.org/abs/251 原创 博文更新于 2025.12.31 · 608 阅读 · 30 点赞 · 0 评论 · 9 收藏
大模型面试题:使用大模型进行打分时为何要掉换位置多次打分呢? 大模型评测中的位置偏差问题:当使用大模型(如GPT)进行回答质量比较时,系统性地存在位置偏差(position bias),即排在前面的回答更容易被判定为更好。研究表明,这种偏差源于自回归模型的生成机制、训练数据分布和注意力机制的非对称性。实验数据显示,即使是GPT-4,在交换回答顺序后也有约35%的判例会改变结果。为缓解这一问题,标准做法包括交换回答位置多次打分、随机排序或结合自洽投票等统计去偏方法。这已成为LLM评测的标准流程,而非简单的工程技巧。相关研究详见Zheng等人在NeurIPS 2023发表 原创 博文更新于 2025.12.31 · 568 阅读 · 7 点赞 · 0 评论 · 14 收藏
一文读懂9中RAG的架构 本文详细介绍了9种RAG(检索增强生成)架构及其应用场景。标准RAG作为基础方案适用于简单查询,对话式RAG加入记忆层实现多轮对话,CorrectiveRAG通过校验机制确保数据准确性,AdaptiveRAG根据问题复杂度动态调整资源。此外,Self-RAG具备自我审计能力,FusionRAG采用多视角检索,HyDE通过生成假答案优化检索,AgenticRAG支持复杂问题求解,GraphRAG擅长关系推理。每种架构各有优劣,开发者应根据具体需求选择合适方案,从简单方案入手,在明确需求后再增加复杂度。RAG能 原创 博文更新于 2025.12.30 · 621 阅读 · 20 点赞 · 0 评论 · 28 收藏
面试题:推导一下softmax中为啥要除以根号d 本文推导了softmax中除以√d的原因:当查询矩阵Q和键矩阵K维度为d时,其点积QK^T的方差随d线性增长。为使方差稳定为1,需将点积除以√d。这避免了softmax输入值过大导致的梯度消失问题。通过代码实验验证,当d=64时,未缩放点积方差约为64,缩放后约为1,与理论推导一致。该缩放因子能有效稳定softmax的输入分布,确保梯度正常传播。 原创 博文更新于 2025.12.29 · 573 阅读 · 14 点赞 · 0 评论 · 5 收藏
大模型面试题:说一下GQA的原理? 摘要:Grouped Query Attention (GQA) 是一种改进的多头注意力机制,通过将查询头分组并共享键/值头来提高效率。其核心是将H个查询头分为G组,每组共享键值头,既保持了多头注意力的质量,又提升了计算性能。实现上使用einops库进行张量操作,约16行代码即可完成。GQA在模型质量(MHA)和处理速度(MQA)之间取得了平衡,实验显示能获得接近MHA的质量,同时达到MQA的3倍处理速度,对高负载系统具有重要意义。 原创 博文更新于 2025.12.28 · 627 阅读 · 11 点赞 · 0 评论 · 19 收藏
大模型推理中超出训练长度的外推方式有哪些? 本文总结了Transformer模型长度外推问题的几种主要解决方法。ALiBi通过添加不可学习的线性偏置实现外推,但受限于网络层数。位置内插法(PI)通过缩放位置编码因子实现长度扩展,但会压缩邻近Token距离。NTK-aware方法动态调整RoPE的base参数,实现高频外推和低频内插。Yarn采用灵活进制设计,对不同维度采取不同处理策略。此外,还介绍了动态NTK、ReRoPE等方法。这些技术旨在解决预训练使用短序列但需要泛化到长序列的问题,当前仍是Transformer亟待解决的挑战。 原创 博文更新于 2025.12.27 · 745 阅读 · 29 点赞 · 0 评论 · 12 收藏
我的总结的大模型面试题 整理好的1000+面试题在这里,懂得都懂哈,回复"资料"就可以获取啦。 原创 博文更新于 2025.12.27 · 115 阅读 · 2 点赞 · 0 评论 · 0 收藏
总结一下KL的 原创 博文更新于 2025.12.17 · 77 阅读 · 1 点赞 · 0 评论 · 0 收藏
大模型面试题:大模型使用几十条数据微调后为啥性能差的很多? 一个很有意思的回答:大模型的Loss Landscape 是由多个“Basin”(盆地)组成的,而不是一个平滑的曲面。如果微调(Fine-Tuning)的优化方向 偏离了Basic Capacity Basin,就可能容易训崩掉,虽然训崩的概率不大。,但少数方向(如过大的学习率、错误的优化目标)会让模型“滑出”Basin。内,SFT 通常不会损害模型的整体能力,只是调整其行为分布。在这个Basin 内,模型的参数变化对性能影响不大(即。),因为模型已经收敛到一个较优的泛化状态。 原创 博文更新于 2025.07.01 · 358 阅读 · 3 点赞 · 0 评论 · 8 收藏
大模型面试题:解释下minimax中lighting attention的由来 摘要: 本文介绍了LightningAttention技术在解决传统注意力机制O(n²)复杂度问题上的演进。传统SoftmaxAttention难以处理长序列,线性注意力通过激活函数替换降低复杂度至O(nd²)。重点分析了LightningAttention-2的创新:采用分块策略,将注意力分为块内(传统左乘+掩码)和块间(缓存KV右乘)处理,首次实现因果模型的线性复杂度。该技术通过SRAM优化和缓存机制,有效平衡了计算效率与模型性能,支持超长序列训练。原始内容详见大模型面试题总结(CSDN博客或Gitee 原创 博文更新于 2025.06.21 · 795 阅读 · 9 点赞 · 0 评论 · 13 收藏
大模型面试题:RL Scaling Law 中的“过优化”现象及其缓解方法是啥? 《大模型面试题与RLHF过优化问题》摘要:文章提供了AI面试题资源链接,重点讨论了强化学习人类反馈(RLHF)中的过优化现象。当策略模型过度优化奖励模型时,可能导致输出偏离人类偏好。解决方法包括:1)提前停止训练;2)使用KL惩罚项限制模型偏离;3)改进奖励模型(多目标机制/对抗训练)。完整内容可通过文末链接获取。 原创 博文更新于 2025.06.21 · 191 阅读 · 2 点赞 · 0 评论 · 0 收藏
大模型面试题:pretrain和test阶段的scaling law的资源分配策略区别是啥? 1. **Pre-train Scaling Law** 的资源分配是预先规划的,主要在模型规模(N)、数据集大小(D)和训练计算量(C)之间进行平衡(例如,Chinchilla 定律建议 N 与 D 成正比,即模型的大小应与数据量同步扩展)。2. **Test Time Scaling Law** 的资源分配是实时进行的,通过动态调整单次推理的计算成本(例如增加采样次数或优化 Prompt 设计的复杂度)来提升效果。例如,在对延迟要求较高的场景中,可能仅采样一次; 原创 博文更新于 2025.06.21 · 349 阅读 · 3 点赞 · 0 评论 · 7 收藏
大模型面试题:请简要解释Pre-train、RL和Test Time三种 Scaling Law 的核心观点,在对应的阶段起到的作用 本文系统梳理了AI模型三个阶段的核心扩展规律。预训练阶段(Pre-train Scaling Law)揭示模型性能与计算量、数据规模呈幂律关系,但边际效益递减;强化学习阶段(RL Scaling Law)指出模型会经历先升后降的"过优化"现象;推理阶段(Test Time Scaling Law)表明增加计算资源会提升性能但收益递减。三大扩展律从训练到推理全过程,为资源分配与性能优化提供了重要理论指导。 原创 博文更新于 2025.06.21 · 300 阅读 · 5 点赞 · 0 评论 · 7 收藏
大模型面试题总结 原创 博文更新于 2025.06.21 · 128 阅读 · 3 点赞 · 0 评论 · 0 收藏
大模型面试题:多模态处理多分辨率输入有哪些方法? 本文介绍了处理多模态多分辨率输入的两种策略:1)切片方法,通过将图像分割为基准分辨率子块并在批量维度组合,同时保留全局信息;2)组合方法,受NLP序列组合技术启发,在不同分辨率图像特征分割后于序列维度组合,并使用块对角掩码实现并行处理。两种方法分别通过固定形状ViT和注意力机制优化实现了动态分辨率推理。更多面试题详见指定Git仓库。 原创 博文更新于 2025.06.12 · 228 阅读 · 1 点赞 · 0 评论 · 0 收藏
大模型面试题:大模型真的有self-correct能力吗? 摘要:研究表明大型模型缺乏自我纠正能力,监督微调(SFT)等方法收效甚微,仅提升1.8%。作者实验发现,SFT主要减少将正确答案错误修改的情况,但未能显著提升错误答案的纠正率。提出的SCoRe模型首次实现显著正向自我纠正增益(4.4%),准确率提升23%,同时降低正确答案被修改的概率(1.4%)。当前挑战包括:保留正确答案、有效纠正错误答案,以及确保训练中第一步答案的准确性。该研究揭示了模型自我纠正机制的关键问题和发展方向。 原创 博文更新于 2025.06.12 · 663 阅读 · 8 点赞 · 0 评论 · 18 收藏

相关知识

算法狗2
提升树算法
阿尔法狗的利器:蒙特卡洛算法,看完就懂了!
宠物声源定位算法设计
ABC英语角宠物助手算法
宠物图像识别算法研究
ID3算法(含实例)
猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法
DFA 算法实现敏感词过滤(字典树)
粒子群算法学习(PSO)

网址: 算法狗2 https://www.mcbbbk.com/newsview1334659.html

所属分类:萌宠日常
上一篇: 狗生模拟器移植版下载
下一篇: 纠正狗狗行为,从耐心训练开始。

推荐分享