基础模型

DeepSeek-R1：通过强化学习激励大语言模型的推理能力

在开始之前，需要了解以下术语。

什么是强化学习？

强化学习（RL）是一种机器学习方式，人工智能通过采取行动，并根据这些行动获得奖励或惩罚来进行学习，其目标是在一段时间内最大化奖励。

举个例子：想象教一个机器人玩游戏，机器人尝试不同的动作，每做出一个好的动作（比如得分），它就能获得奖励（比如加1分）；而做出不好的动作（比如失分），就会受到惩罚（比如扣1分）。随着时间推移，机器人会逐渐学会哪些动作能带来最高分，从而更擅长玩这个游戏。

什么是SFT微调？

微调模型，就是在一个已经预训练好的人工智能模型基础上，进行一些小的调整，让它在特定任务上表现得更好。这种方式不用从头开始训练模型，而是通过额外的数据对模型进行“调校”，以提升其在特定应用场景中的性能。

SFT（监督式微调）是一种特殊的微调方式，模型会在有标记的数据集上进行训练。这意味着，模型会被提供包含输入数据（如图像或文本）和正确答案（标签）的示例，它通过学习这些有标记的示例来进行预测，从而提高在特定任务上的准确性。

什么是知识蒸馏？

模型蒸馏是一种将大型复杂模型（教师模型）的知识，转移到更小、更简单模型（学生模型）的方法。

其目的是开发出一个更紧凑的模型，这个模型既能保留大型模型的大部分性能，又能在计算能力、内存使用和推理速度方面提高效率。

现在，准备好深入探讨论文的详细内容（逐节讲解）。

介绍

大型语言模型（LLM）发展迅速，正日益接近通用人工智能（AGI）—— 那种能够像人类一样思考和推理的人工智能。

近年来，大型语言模型最大的进步之一就是后训练，这是在模型初始训练完成后的一个步骤。后训练能帮助大型语言模型：

更好地思考（提升推理能力）；
与人类价值观保持一致（减少有害输出）；
根据用户偏好实现个性化回复；
完成上述所有任务，且无需像从头开始训练那样消耗大量计算资源。

OpenAI的o1模型取得了一项突破，它在推理时（即模型生成回复的时候）扩展了推理过程。这意味着模型在回答问题前会花更多时间思考，从而显著提升了在数学、编程、科学推理等任务上的表现。

然而，在实时使用（测试时扩展）中有效提升这种推理能力，仍然是一个有待解决的难题。

研究人员尝试过多种方法来增强推理能力，其中包括：

奖励模型（评估回复质量）；
强化学习（RL）（通过试错来训练模型）；
搜索算法（蒙特卡洛树搜索、束搜索等）。

但到目前为止，这些方法在推理能力上都还无法与OpenAI的o1模型相媲美。

本文介绍

本文探索了一种利用纯强化学习（RL）提升推理能力的新方法，这种方法不依赖监督数据（人工标记的示例）。相反，模型通过一个名为GRPO的强化学习框架自主学习。

研究人员以DeepSeek-V3-Base为基础，训练出了一个名为DeepSeek-R1-Zero的模型。经过数千次强化学习步骤，这个模型：

培养出了强大的推理能力；
将2024年美国数学邀请赛（AIME）的基准测试成绩从15.6% 提升到了71.0%（在多数投票的情况下，甚至能达到86.7%）；
达到了与OpenAI-o1–0912相当的推理能力。

不过，DeepSeek-R1-Zero也存在一些问题：

可读性较差；
语言混杂（难以保证回复的一致性）。

为了解决这些问题，研究人员推出了DeepSeek-R1，它结合了以下几种方法：

冷启动微调（使用少量标记数据进行训练）；
专注于推理的强化学习；
使用高质量人工标记数据进行监督式微调（SFT）。

经过这些步骤，DeepSeek-R1在推理能力上达到了与OpenAI-o1-1217相当的水平。

最终贡献：模型蒸馏

研究人员还将DeepSeek-R1的知识蒸馏到更小的模型（如Qwen2.5-32B）中，这证明了：

更大的模型能够学习到更好的推理模式；
较小的模型无需复杂的强化学习训练，就能继承这些知识。

他们的140亿参数蒸馏模型甚至超越了最好的开源模型，为密集型模型的推理性能设立了新的基准。

因此，DeepSeek发布了两款主要模型：DeepSeek-R1和DeepSeek-R1-Zero。

此外，他们还发布了一些DeepSeek的蒸馏版本，主要用于模型部署。

这项研究的主要发现是，直接利用强化学习可以有效提升模型的推理能力。

方法

下面将对此进行解释。

训练DeepSeek所采用的方法，涉及一种全新的强化学习（RL）框架。该框架能够在不高度依赖监督式微调（SFT）的情况下，显著提升模型的推理能力。训练过程主要分为两个变体：DeepSeek-R1-Zero和DeepSeek-R1，之后再将模型蒸馏成更小的版本。

1. DeepSeek-R1-Zero：纯强化学习

目标：使用纯强化学习训练基础模型，不使用任何监督式微调（SFT）数据。
算法：采用组相对策略优化（GRPO）算法。对于每个问题，GRPO会对一组输出进行采样，计算奖励，并通过带有KL散度约束的截断目标来优化策略，以此确保更新的稳定性。
奖励系统：
- 准确性奖励：针对正确答案给予基于规则的奖励（例如，对于有确定答案的数学问题）。
- 格式奖励：确保模型在<think>和</think>标签内构建推理过程。
- 自我进化：随着时间推移，模型能够自主提升推理能力，在无需显式编程的情况下，展现出反思和采用替代解题策略等行为。

2. DeepSeek-R1：冷启动强化学习

目标：通过引入少量高质量的冷启动数据，提升推理性能和回复的可读性。

冷启动数据是指少量高质量的监督数据，用于初始化或 “启动” 机器学习模型的训练，尤其适用于模型从头开始训练或转向新任务的场景。

冷启动数据就像是一颗 “种子”，用来初始化模型，让模型对任务有一个基本的理解，确保强化学习过程更加顺畅、高效。

冷启动：使用数千个长思维链（CoT）示例对基础模型进行微调，以此提高回复的可读性和推理质量。
强化学习训练：将GRPO应用于微调后的模型，重点关注推理密集型任务（如数学、编程、逻辑）。同时引入语言一致性奖励机制，减少语言混杂现象，提高回复的可读性。
拒绝采样和监督式微调：强化学习收敛后，通过拒绝采样收集高质量的推理和非推理数据（如写作、角色扮演相关数据），并利用这些高质量数据对模型进行微调，使其能够处理通用任务。

拒绝采样是一种通过过滤掉模型输出中的低质量或错误结果，来生成高质量数据的技术。其工作流程如下：

对于给定的输入（如推理问题），模型生成多个回复；
使用奖励函数或基于规则的标准（如正确性、可读性或与人类偏好的一致性）对每个回复进行评估；
仅保留最佳回复（如奖励最高或符合特定标准的回复），其余回复则被舍弃。

第二轮强化学习阶段：进行第二轮强化学习，使模型更符合人类偏好，在保持强大推理能力的同时，提高回复的实用性和无害性。

为什么DeepSeek-R1需要进行第二轮强化学习训练？

对DeepSeek-R1进行第二轮强化学习（RL）训练，是为了进一步优化模型性能，使其更符合人类偏好。具体原因如下：

在完成初始强化学习训练后，模型在推理任务（如数学、编程、逻辑）方面已经表现出色。第一轮强化学习主要采用基于规则的奖励机制（如数学问题的准确性奖励）。

然而，在写作、角色扮演和事实问答等通用任务方面，模型仍有待提升。

第二轮强化学习旨在扩展模型除推理之外的能力，使其在更多场景中发挥作用。在这一阶段，引入了奖励模型，用于捕捉人类在复杂、微妙场景中的偏好（如回复的帮助性、无害性、连贯性）。

3. 蒸馏：将推理能力转移到更小的模型

目标：将DeepSeek-R1的推理能力蒸馏到更小、更高效的模型中。
方法：使用DeepSeek-R1整理的数据集，对开源模型（如Qwen、Llama）进行微调。
结果：较小模型的推理能力得到显著提升，证明了蒸馏方法的有效性。

指标和性能

这些模型，尤其是DeepSeek-R1，在各种基准测试中击败了一些当前最优的大语言模型（SOTA LLMs）。由于之前已经讨论过相关内容，这里就不再赘述。

讨论

本文的这部分内容探讨了一些未成功的尝试，以及蒸馏为何是实现可扩展解决方案的有效途径：

对于较小模型，蒸馏优于强化学习：从大型模型中提取知识，比使用大规模强化学习训练小型模型更高效、更经济。
强化学习资源消耗大，但可能是突破的关键：尽管蒸馏方法有效，但要突破当前的限制，可能仍需要更强大的基础模型和大规模的强化学习。
PRM和MCTS面临重大挑战：PRM（强化学习中的过程奖励模型）和MCTS（蒙特卡洛树搜索，强化学习的一种）虽展现出潜力，但最终受限于可扩展性、计算成本和令牌生成的复杂性。

结论

通过强化学习增强推理能力

DeepSeek-R1-Zero使用纯强化学习（GRPO），无需冷启动数据，就取得了出色的性能。
DeepSeek-R1借助冷启动数据和强化学习微调，达到了与OpenAI-o1–1217相当的性能。

蒸馏成功

DeepSeek-R1的推理能力被蒸馏到更小的模型（如Qwen-1.5B）中，这些小模型在数学基准测试中的表现优于GPT-4o和Claude-3.5-Sonnet。

未来研究方向

通用能力：提升在函数调用、多轮交互和复杂任务方面的性能。
语言混合：解决非英文/中文查询中的语言混合问题。
提示工程：优化零样本提示，提高模型性能。
软件工程：应用拒绝采样或异步评估，提升软件相关任务的效率。

近日热文：全网最全的神经网络数学原理（代码和公式）直观解释
欢迎关注知乎和公众号的专栏内容
LLM架构专栏
 知乎LLM专栏
 知乎【柏企】
公众号【柏企科技说】【柏企阅文】

如果觉得文章对你有用，请随意赞赏

DeepSeek 论文

DeepSeek-R1：通过强化学习激励大语言模型的推理能力

https://www.chenbaiqi.com/archives/DeepSeek-R1%EF%BC%9A%E9%80%9A%E8%BF%87%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E6%BF%80%E5%8A%B1%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E7%9A%84%E6%8E%A8%E7%90%86%E8%83%BD%E5%8A%9B

作者

柏企

发布于

2025-04-12

更新于

2025-04-12

许可协议

CC BY 4.0

DeepSeek-R1：通过强化学习激励大语言模型的推理能力

DeepSeek-R1：通过强化学习激励大语言模型的推理能力

什么是强化学习？

什么是SFT微调？

什么是知识蒸馏？

介绍

本文介绍

最终贡献：模型蒸馏

方法

1. DeepSeek-R1-Zero：纯强化学习

2. DeepSeek-R1：冷启动强化学习

为什么DeepSeek-R1需要进行第二轮强化学习训练？

3. 蒸馏：将推理能力转移到更小的模型

指标和性能

讨论

结论

通过强化学习增强推理能力

蒸馏成功

未来研究方向

作者

发布于

更新于

许可协议

评论