2026/4/25 22:09:30
网站建设
项目流程
网吧网站怎么做的,广西建工集团冶金建设公司的网站,哈尔滨市建设网,wordpress付费阅读文章功能本文详解了构建推理模型的四种方法#xff1a;推理时扩展#xff08;增加计算资源提升输出#xff09;、纯强化学习#xff08;让推理能力自然涌现#xff09;、监督微调强化学习#xff08;结合SFT和RL提升性能#xff09;以及纯监督微调与蒸馏#xff08;大型模型数据…本文详解了构建推理模型的四种方法推理时扩展增加计算资源提升输出、纯强化学习让推理能力自然涌现、监督微调强化学习结合SFT和RL提升性能以及纯监督微调与蒸馏大型模型数据训练小模型。同时分析了推理模型的优缺点、应用场景及低预算开发策略助力开发者提升LLM推理能力。本文介绍了构建推理模型的四种主要方法或者说我们如何增强 LLM 的推理能力。我希望这能提供有价值的见解帮助你理解这一主题中快速演进的文献与相关炒作。在 2024 年LLM 领域出现了日益增强的专业化趋势。除了预训练与微调之外我们还见证了专用应用的兴起从 RAG 到代码助手不一而足。我预计这一趋势将在 2025 年进一步加速并更加侧重于面向领域与应用的特定优化即“专业化”。阶段 1–3 是开发 LLM 的通用步骤。阶段 4 则是针对特定使用场景对 LLM 进行专业化推理模型的开发正是这些专业化方向之一。这意味着我们会对 LLM 进行精炼使其在需要通过中间步骤才能最好解决的复杂任务上表现出色例如谜题、高等数学以及编程挑战。然而这种专业化并不会取代其他 LLM 应用。因为将 LLM 转变为推理模型也会引入一些特定的缺点我将在后文中进行讨论。为了让你对下文的内容有一个简要的概览在本文中我将解释“推理模型”的含义讨论推理模型的优势与劣势概述 DeepSeek R1 背后的方法论描述构建与改进推理模型的四种主要方法分享在 DeepSeek V3 与 R1 发布之后我对 LLM 生态格局的看法提供在预算有限的情况下开发推理模型的建议希望你能发现这篇文章对你有所帮助随着 AI 在今年持续快速发展如何定义“推理模型”如果你从事 AI或更广义的机器学习相关工作你很可能已经熟悉这些模糊且长期存在激烈争论的定义。“推理模型”这一术语也不例外。最终总会有人在一篇论文中对它进行形式化定义但很快又会在下一篇论文中被重新定义如此反复。在本文中我将“推理”定义为这样一种过程回答那些需要复杂、多步骤生成并包含中间步骤的问题。例如像“法国的首都是什么”这样的事实型问答并不涉及推理。相反像“如果一列火车以每小时 60 英里的速度行驶 3 小时它会行驶多远”这样的问题则需要一些简单的推理。比如它要求在得出答案之前先识别距离、速度和时间之间的关系。普通的 LLM 可能只会给出一个简短的答案如左图所示而推理模型通常会包含中间步骤从而揭示部分思考过程。需要注意的是许多并非专门为推理任务而开发的 LLM也能够在回答中提供中间推理步骤。普通的 LLM 可能只会给出一个简短的答案如左图所示而推理模型通常会包含中间步骤从而揭示部分思考过程。需要注意的是许多并非专门为推理任务而开发的 LLM也能够在回答中提供中间推理步骤。大多数现代 LLM 都具备基本的推理能力并且可以回答诸如“如果一列火车以每小时 60 英里的速度行驶 3 小时它会行驶多远”这样的问题。因此在今天当我们提到推理模型时通常指的是那些在更复杂推理任务上表现出色的 LLM例如解谜题、脑筋急转弯以及数学证明。此外当今大多数被标榜为推理模型的 LLM都会在其响应中包含某种“思考”或“思维”过程。至于 LLM 是否真的在“思考”以及它是如何“思考”的则是另一个独立的话题。推理模型中的中间步骤可以通过两种方式出现。第一种它们可能会像前图所示那样被明确地包含在响应中。第二种一些推理型 LLM例如 OpenAI 的 o1会在内部运行多次迭代包含中间步骤但这些步骤并不会展示给用户。“推理”在两个不同层面上被使用 1在处理输入并通过多个中间步骤进行生成的过程层面 2在向用户提供响应时将某种形式的推理作为输出内容的一部分。什么时候应该使用推理模型现在我们已经定义了什么是推理模型接下来就可以进入更有意思的部分如何为推理任务构建和改进 LLM。不过在深入技术细节之前有一个问题非常重要那就是——推理模型究竟在什么时候才是必要的。什么时候我们需要推理模型推理模型被设计用于擅长复杂任务例如解谜、高等数学问题以及具有挑战性的编程任务。然而对于诸如摘要、翻译或基于知识的问答这类更简单的任务它们并不是必需的。事实上将推理模型用于所有任务往往既低效又昂贵。例如推理模型通常使用成本更高、输出更冗长并且有时会因为“过度思考”而更容易出错。在这里同样适用一条简单的原则为任务选择合适的工具或合适类型的 LLM。推理模型的关键优势与局限性总结如下图所示。推理模型的关键优势与劣势简要了解 DeepSeek 的训练流水线在下一节讨论构建和改进推理模型的四种主要方法之前我想先简要概述一下 DeepSeek R1 的训练流水线该流程在 DeepSeek R1 技术报告中有所描述。这份报告既是一个有趣的案例研究同时也可以被视为开发推理型 LLM 的一份蓝图。需要注意的是DeepSeek 并未只发布一个单一的 R1 推理模型而是推出了三种不同的变体DeepSeek-R1-Zero、DeepSeek-R1 以及 DeepSeek-R1-Distill。基于技术报告中的描述我在下图中总结了这些模型的开发过程。DeepSeek R1 技术报告中讨论的三种不同推理模型的开发流程接下来我们简要回顾一下上图所示的流程。更多细节将在下一节中介绍届时我们将讨论构建和改进推理模型的四种主要方法。1DeepSeek-R1-Zero该模型基于 2024 年 12 月发布的、拥有 671B 参数的预训练 DeepSeek-V3 基础模型。研究团队使用强化学习RL对其进行训练并采用了两种奖励类型。这种方法被称为“冷启动”训练因为其中并未包含监督微调SFT阶段而监督微调通常是基于人类反馈的强化学习RLHF流程的一部分。2DeepSeek-R1这是 DeepSeek 的旗舰推理模型构建于 DeepSeek-R1-Zero 之上。团队通过额外的 SFT 阶段以及进一步的强化学习训练对其进行了精炼从而在“冷启动”的 R1-Zero 模型基础上进一步提升性能。3DeepSeek-R1-Distill利用前述步骤中生成的 SFT 数据DeepSeek 团队对 Qwen 和 Llama 模型进行了微调以增强它们的推理能力。虽然这在严格意义上并不属于传统的蒸馏但这一过程确实涉及到使用更大的 DeepSeek-R1 671B 模型的输出对更小的模型Llama 8B 和 70B以及 Qwen 1.5B–30B进行训练。构建与改进推理模型的四种主要方式在本节中我将概述当前用于增强 LLM 推理能力、以及构建专用推理模型如 DeepSeek-R1、OpenAI 的 o1 与 o3 等的关键技术。注意o1 和 o3 的具体工作机制在 OpenAI 之外仍然未知。不过有传言称它们结合使用了推理阶段与训练阶段的多种技术。1推理时扩展Inference-time scaling提升 LLM 推理能力或者更广义地说提升任何能力的一种方式是推理时扩展。这个术语可以有多种含义但在这里它指的是在推理阶段增加计算资源以提高输出质量。一个粗略的类比是人类在面对复杂问题时通常在拥有更多思考时间的情况下能够给出更好的回答。类似地我们也可以采用一些技术鼓励 LLM 在生成答案时“多思考”。当然LLM 是否真的在“思考”是另一个话题。推理时扩展的一种直接方法是巧妙的提示词工程。一个经典示例是思维链Chain-of-ThoughtCoT提示在输入提示中加入诸如“逐步思考think step by step”之类的短语。这会鼓励模型生成中间推理步骤而不是直接跳到最终答案这在更复杂的问题上通常但并非总是能够带来更准确的结果。需要注意的是对于更简单的基于知识的问题例如“法国的首都是什么”使用这种策略并没有意义。这同样是判断某个输入查询是否适合使用推理模型的一条经验法则。来自 2022 年论文 Large Language Models are Zero-Shot Reasonershttps://arxiv.org/abs/2205.11916的一个经典 CoT 提示示例上述 CoT 方法可以被视为一种推理时扩展因为它通过生成更多输出 token使推理过程变得更加昂贵。另一种推理时扩展的方法是使用投票和搜索策略。一个简单的例子是多数投票让 LLM 生成多个答案然后通过多数票来选择正确答案。类似地我们还可以使用束搜索beam search以及其他搜索算法来生成更优的回答。我强烈推荐我在之前的《2024 年值得关注的 AI 研究论文第二部分》文章中介绍过的论文Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parametershttps://arxiv.org/abs/2408.03314以获取有关这些不同策略的更多细节。不同的基于搜索的方法依赖于基于过程奖励的模型来选择最佳答案。该图为论文 *LLM Test-Time Compute*https://arxiv.org/abs/2408.03314中的标注图DeepSeek R1 技术报告将常见的推理时扩展方法例如基于过程奖励模型的方法以及基于蒙特卡洛树搜索的方法归类为“未成功的尝试”。这表明除了 R1 模型本身相较于 V3 基础模型更倾向于生成更长响应、从而形成一种隐式的推理时扩展之外DeepSeek 并未显式地使用这些技术。不过显式的推理时扩展通常是在应用层实现的而不是直接在 LLM 本身内部实现的因此 DeepSeek 仍然可能在其应用中使用了这些技术。我猜测 OpenAI 的 o1 和 o3 模型使用了推理时扩展这也解释了为什么它们相较于 GPT-4o 等模型价格更高。除了推理时扩展之外o1 和 o3 很可能还采用了与 DeepSeek R1 类似的强化学习训练流水线。关于强化学习的更多内容将在下面两个小节中继续讨论。2纯强化学习Pure Reinforcement LearningRL在 DeepSeek R1 论文中我个人认为最引人注目的发现之一是推理作为一种行为可以从纯强化学习RL中自然涌现。下面我们更详细地探讨这一点意味着什么。如前所述DeepSeek 开发了三种不同类型的 R1 模型。其中第一种是DeepSeek-R1-Zero它构建于 DeepSeek-V3 基础模型之上。DeepSeek-V3 是一个标准的预训练 LLM于 2024 年 12 月发布。与典型的 RL 流水线通常会在 RL 之前先进行监督微调SFT不同DeepSeek-R1-Zero完全仅通过强化学习进行训练在初始阶段并未包含任何 SFT这一点如下图所示。DeepSeek-R1-Zero 模型的开发流程尽管如此这一 RL 过程在整体结构上仍然类似于常见的 RLHF 方法而 RLHF 通常用于对 LLM 进行偏好对齐。我在另一篇文章《LLM Training: RLHF and Its Alternatives》中对 RLHF 做过更详细的介绍。然而如前所述DeepSeek-R1-Zero 的关键差异在于它跳过了用于指令调优的监督微调SFT阶段。正因如此作者将其称为“纯”RL。当然需要指出的是LLM 场景下的 RL 与传统意义上的强化学习有着显著差异这本身又是另一个话题。在奖励设计方面他们并未使用基于人类偏好训练的奖励模型而是采用了两种奖励类型准确性奖励和格式奖励。•准确性奖励通过使用 LeetCode 编译器来验证代码类问题的答案并使用一个确定性系统来评估数学题的回答是否正确。•格式奖励则依赖一个 LLM 评审模型用于确保输出遵循预期的格式例如要求将推理步骤放置在think标签之中。令人惊讶的是仅凭这种设置就足以让 LLM 发展出基本的推理能力。研究人员观察到了一个被称为 “Aha!” 的时刻尽管模型并未被显式训练去生成推理过程但它开始在回答中自发地产生推理轨迹如下图所示。来自 DeepSeek R1 技术报告https://arxiv.org/abs/2501.12948的一张图展示了“Aha”时刻的出现尽管 R1-Zero 并不是性能最强的推理模型但它确实通过生成中间“思考”步骤展现了推理能力如上图所示。这一结果证实了仅依靠纯强化学习也可以构建出具备推理能力的模型而 DeepSeek 团队是第一个展示或至少是第一个公开发表这一方法的研究团队。3监督微调与强化学习SFT RL接下来我们来看DeepSeek-R1的开发过程。DeepSeek-R1 是 DeepSeek 的旗舰推理模型可作为构建推理模型的一个蓝图。该模型在 DeepSeek-R1-Zero 的基础上通过引入额外的监督微调SFT和强化学习RL进一步提升了其推理性能。需要注意的是在 RL 之前加入一个 SFT 阶段实际上是很常见的做法正如标准的 RLHF 流水线所示。OpenAI 的 o1 很可能也是采用了类似的方法进行开发。DeepSeek-R1 模型的开发流程如上图所示DeepSeek 团队使用 DeepSeek-R1-Zero 生成了他们称之为“冷启动cold-start”的 SFT 数据。“冷启动”这一术语指的是这些数据由 DeepSeek-R1-Zero 生成而 DeepSeek-R1-Zero 本身并未在任何监督微调SFT数据上进行过训练。利用这些冷启动 SFT 数据DeepSeek 随后首先通过指令微调对模型进行训练接着又进行了一个新的强化学习RL阶段。该 RL 阶段沿用了 DeepSeek-R1-Zero 在 RL 过程中使用的准确性奖励和格式奖励。不过他们额外加入了一种一致性奖励用于防止语言混合即模型在一次响应中在多种语言之间来回切换的现象。在这一 RL 阶段之后又进行了一轮 SFT 数据收集。在该阶段中研究人员使用最新的模型检查点生成了 60 万条思维链Chain-of-ThoughtCoTSFT 示例同时还使用 DeepSeek-V3 基础模型额外生成了 20 万条基于知识的 SFT 示例。随后这 60 万 20 万条 SFT 样本被用于对 DeepSeek-V3 基础模型进行指令微调之后再接上一轮最终的 RL 训练。在这一阶段中对于数学和编程类问题他们再次使用基于规则的方法来提供准确性奖励而对于其他类型的问题则使用人类偏好标注。总体而言这一流程与常规的 RLHF 非常相似只不过这里的 SFT 数据包含了更多的思维链示例并且 RL 阶段除了基于人类偏好的奖励之外还引入了可验证的奖励。最终模型DeepSeek-R1由于额外的 SFT 与 RL 阶段相较于 DeepSeek-R1-Zero 获得了显著的性能提升如下表所示。OpenAI O1 与 DeepSeek R1 模型的基准对比。图示改编自 DeepSeek-R1 技术报告https://arxiv.org/abs/2501.129484纯监督微调Pure Supervised FinetuningSFT与蒸馏到目前为止我们已经介绍了三种构建和改进推理模型的关键方法1. 推理时扩展Inference-time scaling一种无需训练或修改底层模型、即可提升推理能力的技术。2. 纯强化学习Pure RL以 DeepSeek-R1-Zero 为代表展示了在不进行监督微调的情况下推理能力可以作为一种可学习行为自然涌现。3. 监督微调SFT 强化学习RL该方法催生了 DeepSeek 的旗舰推理模型 DeepSeek-R1。那么还剩下什么答案是模型“蒸馏distillation”。令人惊讶的是DeepSeek 还发布了一系列通过其称之为“蒸馏”的过程训练得到的小模型。然而在 LLM 的语境下这里的蒸馏并不一定遵循深度学习中经典的知识蒸馏方法。传统的知识蒸馏我在我的著作《Machine Learning Q and AI》第 6 章中曾简要介绍过通常是让一个较小的学生模型同时在一个较大教师模型的 logits 输出以及一个目标数据集上进行训练。而在这里所谓的蒸馏指的是使用由更大 LLM 生成的 SFT 数据集对较小的 LLM 进行指令微调。这些较小的模型包括 Llama 8B 与 70B以及 Qwen 2.5 系列模型0.5B 到 32B。具体而言用于生成这些 SFT 数据的更大模型是 DeepSeek-V3 以及 DeepSeek-R1 的一个中间检查点。事实上用于该蒸馏过程的 SFT 数据正是上一节中用于训练 DeepSeek-R1 的同一份数据集。为了更清楚地说明这一过程我在下图中高亮标出了蒸馏对应的部分。DeepSeek-R1-Distill 模型的开发流程为什么要开发这些蒸馏模型在我看来主要有两个关键原因1. 更小的模型更高效。这意味着它们的运行成本更低同时也可以在配置更低的硬件上运行这使得它们对许多研究人员和像我这样的技术爱好者而言尤为有吸引力。2. 纯 SFT 的案例研究。这些蒸馏模型提供了一个有趣的基准用来展示在不使用强化学习的情况下单靠纯监督微调SFT究竟可以将模型能力推进到什么程度。下表比较了这些蒸馏模型与其他流行模型以及 DeepSeek-R1-Zero 和 DeepSeek-R1 之间的性能差异。蒸馏模型与非蒸馏模型的基准对比。图示改编自 DeepSeek-R1 技术报告https://arxiv.org/abs/2501.12948正如我们所看到的蒸馏模型的性能明显弱于 DeepSeek-R1但在模型规模小了几个数量级的前提下它们相对于 DeepSeek-R1-Zero 却表现得异常强大。同样值得注意的是这些模型相较于 o1 mini 的表现也非常出色我猜测 o1-mini 本身可能也是 o1 的一个类似蒸馏版本。在用结论收尾这一节之前还有一个值得一提的有趣对比。DeepSeek 团队测试了在 DeepSeek-R1-Zero 中观察到的推理涌现行为是否也会出现在更小的模型中。为此他们将 DeepSeek-R1-Zero 中采用的同一套纯 RL 方法直接应用到了 Qwen-32B 上。该实验的结果总结如下表其中 QwQ-32B-Preview 作为一个参考推理模型它基于 Qwen 团队开发的 Qwen 2.5 32B我认为其训练细节从未公开披露。这一对比为“仅凭纯 RL 是否足以在远小于 DeepSeek-R1-Zero 的模型中诱导出推理能力”这一问题提供了额外的洞见。在更小的 32B 模型上蒸馏与 RL 的基准对比。图示改编自 DeepSeek-R1 技术报告https://arxiv.org/abs/2501.12948有意思的是结果表明对于较小模型而言蒸馏的效果远优于纯强化学习。这与这样一种观点相一致单靠 RL 可能不足以在这一规模的模型中诱导出强大的推理能力而在高质量推理数据上的监督微调SFT在小模型场景下可能是一种更有效的策略。为了完整起见如果表格中还能加入以下对比将会更有价值1. 使用 SFT RL 训练的 Qwen-32B类似于 DeepSeek-R1 的开发方式。这将有助于判断在纯 RL 与纯 SFT 之外将 RL 与 SFT 结合究竟还能带来多大的提升空间。2. 仅使用纯 SFT 训练的 DeepSeek-V3类似于蒸馏模型的构建方式。这将有助于直接比较RL SFT 相较于纯 SFT 的效果究竟提升了多少。结论在本节中我们探讨了构建和改进推理模型的四种不同策略1. 推理时扩展Inference-time scaling不需要额外训练但会增加推理成本随着用户数量或查询量的增长使大规模部署变得更加昂贵。尽管如此对于提升已经较为强大的模型性能而言它仍然是一个显而易见的选择。我强烈怀疑 o1 利用了推理时扩展这也有助于解释为什么与 DeepSeek-R1 相比它在单 token 成本上更高。2. 纯强化学习Pure RL在研究层面上很有吸引力因为它为理解“推理作为一种涌现行为”提供了洞见。然而在实际的模型开发中RL SFT才是更优的选择因为它能够产出更强的推理模型。我也强烈怀疑 o1 是通过RL SFT进行训练的。更具体地说我认为 o1 起始于一个比 DeepSeek-R1 更弱、更小的基础模型但通过RL SFT以及推理时扩展弥补了这一差距。3. RL SFT是构建高性能推理模型的关键方法。DeepSeek-R1 是一个很好的蓝图展示了这一过程应当如何实施。4. 蒸馏Distillation是一种颇具吸引力的方法尤其适用于创建更小、更高效的模型。然而其局限性在于蒸馏并不会推动创新也无法产出下一代推理模型。例如蒸馏始终依赖于一个已有的、更强的模型来生成监督微调SFT数据。我接下来最期待看到的一点是将RL SFT方法 3与推理时扩展方法 1相结合。这很可能正是 OpenAI 的 o1 所采用的方式只不过它可能基于一个比 DeepSeek-R1 更弱的基础模型这也解释了为什么 DeepSeek-R1 在保持相对较低推理成本的同时仍然能够取得如此出色的性能。关于 DeepSeek R1 的一些想法近几周许多人向我询问我对 DeepSeek-R1 模型的看法。简而言之我认为它们是一项了不起的成就。作为一名研究工程师我尤其欣赏那份详尽的技术报告它提供了关于其方法论的深入见解让我能够从中学习。其中最令人着迷的一点是推理如何作为一种行为从纯强化学习RL中涌现出来。此外DeepSeek 在一个宽松的开源 MIT 许可证下将其模型开源也令人印象深刻该许可证的限制甚至比 Meta 的 Llama 模型还要少。它与 o1 相比如何DeepSeek-R1 是否优于 o1我会说两者大致处在同一水平。然而真正引人注目的是DeepSeek-R1 在推理时效率更高。这表明DeepSeek 很可能在训练阶段投入了更多资源而 OpenAI 在 o1 上可能更多依赖了推理时扩展。不过直接比较 o1 和 DeepSeek-R1 仍然相当困难因为 OpenAI 并未披露太多关于 o1 的信息。例如我们并不知道• o1 是否同样采用了专家混合Mixture of ExpertsMoE架构• o1 的模型规模有多大• o1 是否可能只是 GPT-4o 的一个略微改进版本仅使用了极少量的 RL SFT而主要依赖大量的推理时扩展在不了解这些细节的情况下任何直接对比都不可避免地变成“苹果对橘子”的比较。DeepSeek-R1 的训练成本另一个讨论焦点是 DeepSeek-R1 的开发成本。有些人提到大约 600 万美元的训练费用但他们很可能将 DeepSeek-V3去年 12 月发布的基础模型与 DeepSeek-R1 混为一谈。这 600 万美元的估算基于每 GPU 小时 2 美元的假设价格以及完成 DeepSeek-V3 最终一次训练所需的 GPU 小时数——这一点最早是在 2024 年 12 月被讨论的。然而DeepSeek 团队从未公开披露 R1 所需的具体 GPU 小时数或开发成本因此任何成本估计都仍然只是纯粹的猜测。无论如何DeepSeek-R1 无疑是开放权重推理模型领域中的一个重要里程碑而其在推理阶段的高效率也使其成为 OpenAI o1 的一个颇具吸引力的替代方案。在有限预算下开发推理模型即使从像 DeepSeek-V3 这样的开源权重基础模型起步开发一个达到 DeepSeek-R1 水平的推理模型也很可能需要数十万到数百万美元的投入。这对于预算有限的研究人员或工程师来说难免会令人感到沮丧。好消息是蒸馏可以走得很远幸运的是模型蒸馏提供了一种更具成本效益的替代方案。DeepSeek 团队通过其 R1-Distill 模型展示了这一点尽管这些模型在规模上远小于 DeepSeek-R1但却取得了出乎意料地强的推理性能。不过即便如此这种方法也并非完全低成本。他们的蒸馏过程使用了 80 万条 SFT 样本这仍然需要相当可观的计算资源。有意思的是就在 DeepSeek-R1 发布前几天我偶然看到了一篇关于 Sky-T1 的文章。这是一个非常引人注目的项目一个小型团队仅使用 1.7 万条 SFT 样本就训练了一个开源权重的 32B 模型。总成本是多少仅 450 美元甚至低于大多数 AI 学术会议的注册费用。这个例子突出了一个事实尽管大规模训练依然昂贵但规模更小、目标更明确的微调工作依然可以以极低的成本取得令人印象深刻的成果。图示来自文章《Sky-T1: Train your own O1 preview model within $450》https://novasky-ai.github.io/posts/sky-t1/根据其基准测试结果Sky-T1 的整体表现大致与 o1 相当——考虑到其极低的训练成本这一点尤为令人印象深刻。预算受限下的纯 RLTinyZeroSky-T1 主要聚焦于模型蒸馏而我还注意到在“纯 RL”方向上也有一些非常有趣的工作。其中一个值得一提的例子是 TinyZero这是一个 30 亿参数的模型复现了 DeepSeek-R1-Zero 的方法顺带一提它的训练成本不到 30 美元。令人惊讶的是即便只有 30 亿参数TinyZero 也展现出了一定程度的自验证self-verification涌现能力这进一步支持了这样一种观点即使在小模型中推理能力也可以通过纯强化学习自然涌现。TinyZero 的代码仓库提到其研究报告仍在撰写中我也会持续关注后续的更多细节。来自 TinyZero 仓库的一张图https://github.com/Jiayi-Pan/TinyZero展示了模型具备自验证能力。如果能同时展示基础模型的响应进行对比可能会更有意思上述两个项目表明即便在预算有限的情况下围绕推理模型依然可以开展非常有价值的研究工作。这两种方法都在复现 DeepSeek-R1 的思路但一个侧重于纯 RLTinyZero另一个侧重于纯 SFTSky-T1。如果能进一步探索如何在此基础上继续扩展这些思路将会非常有意思。超越传统 SFTJourney Learning“旅程学习”去年我还接触到了一种特别有趣的方法发表于论文《O1 Replication Journey: A Strategic Progress Report – Part 1》。尽管标题如此这篇论文实际上并没有真正复现 o1而是提出了一种改进蒸馏即纯 SFT过程的不同思路。该论文的核心思想是用“旅程学习journey learning”来替代“捷径学习shortcut learning”。• 所谓捷径学习是指传统指令微调中的常见做法模型只在正确的解题路径上进行训练。• 而旅程学习则不同它同时包含错误的解题路径使模型能够从错误中学习。这种方法在某种程度上与 TinyZero 的纯 RL 训练中观察到的自验证能力相呼应但它完全聚焦于通过 SFT 来改进模型。通过让模型接触错误的推理路径及其修正过程旅程学习也可能强化模型的自我纠错能力从而以这种方式提升推理模型的可靠性。旅程学习与传统捷径学习的对比示意图在 SFT 数据中包含错误的解题路径。标注图来自《O1 Replication Journey: A Strategic Progress Report – Part 1》https://arxiv.org/abs/2410.18982这可能是一个非常令人兴奋的未来研究方向尤其适用于低预算的推理模型开发场景——在这些场景下基于 RL 的方法在计算成本上可能并不现实。总之目前在推理模型方向上正在发生大量有趣的研究工作我也相信在接下来的几个月里我们将看到更多令人兴奋的进展。如何学习AI大模型如果你对AI大模型入门感兴趣那么你需要的话可以点击这里大模型重磅福利入门进阶全套104G学习资源包免费分享这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】这是一份大模型从零基础到进阶的学习路线大纲全览小伙伴们记得点个收藏第一阶段从大模型系统设计入手讲解大模型的主要方法第二阶段在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用第三阶段大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统第四阶段大模型知识库应用开发以LangChain框架为例构建物流行业咨询智能问答系统第五阶段大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型第六阶段以SD多模态大模型为主搭建了文生图小程序案例第七阶段以大模型平台应用与开发为主通过星火大模型文心大模型等成熟大模型构建大模型行业应用。100套AI大模型商业化落地方案大模型全套视频教程200本大模型PDF书籍学会后的收获• 基于大模型全栈工程实现前端、后端、产品经理、设计、数据分析等通过这门课可获得不同能力• 能够利用大模型解决相关实际项目需求 大数据时代越来越多的企业和机构需要处理海量数据利用大模型技术可以更好地处理这些数据提高数据分析和决策的准确性。因此掌握大模型应用开发技能可以让程序员更好地应对实际项目需求• 基于大模型和企业数据AI应用开发实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能 学会Fine-tuning垂直训练大模型数据准备、数据蒸馏、大模型部署一站式掌握• 能够完成时下热门大模型垂直领域模型训练能力提高程序员的编码能力 大模型应用开发需要掌握机器学习算法、深度学习框架等技术这些技术的掌握可以提高程序员的编码能力和分析能力让程序员更加熟练地编写高质量的代码。LLM面试题合集大模型产品经理资源合集大模型项目实战合集获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】