RL for LLM:为什么强化学习训练大模型这么难?
为什么 DeepSeek-R1 用 RL 能成功,但大多数学术界复现全失败?从 pass@k 的视角理解 RL 训练 LLM 的本质限制、五大失败模式和 entropy collapse 现象。
文档定位:这是一份面向所有人(无论是否接触过 RL)的学习文档。它将帮助你理解:
- 什么是 LLM 的强化学习(RL)训练?
- 为什么 DeepSeek-R1 用 RL 能成功,但大多数学术界复现却 work 不了?
- 如何判断 RL 在你的场景下是否有效?
背景:2025 年以来,以 DeepSeek-R1 为标志,RL 训练 LLM 成为热点。但实践中,大量论文仅在 Qwen 系列模型上”work”,换到其他模型则完全失败。本文分析这一现象的根本原因。
Part 1:背景 — 什么是 LLM 的 RL 训练?
从 SFT 到 RL:后训练的三个阶段
大模型从”预训练完成”到”可以使用”,要经历**后训练(Post-Training)**阶段:
| 阶段 | 方法 | 做什么 | 类比 |
|---|---|---|---|
| Stage 1 | SFT(监督微调) | 学习指令格式和回答范式 | 学生读教科书,学解题格式 |
| Stage 2 | RLHF / DPO | 学习偏好,避免有害输出 | 老师批改作业,标出好坏 |
| Stage 3 | RL (GRPO/DAPO) | 在可验证任务上自我强化 | 学生刷题,对答案,强化正确思路 |
关键区分:
- SFT:告诉模型”正确答案长什么样” — 模仿学习
- RLHF/DPO:告诉模型”哪个更好” — 偏好学习
- RL (reasoning):让模型”自己试,对答案” — 探索 + 强化
为什么 RL 突然变热了?
2025 年 1 月,DeepSeek-R1 论文展示了一个惊人结果:
纯 RL 训练(GRPO),不需要 SFT 数据,就能让 671B MoE 模型在 AIME 数学竞赛上达到 96.3% 准确率,接近 OpenAI o1 水平。
这让整个学术界疯狂:如果不需要昂贵的人工标注数据,只需要一个 reward 函数就能提升推理能力,那岂不是”无限刷题”就能变强?
Part 2:目前的进展 — 谁在做,效果如何?
主流 RL 算法一览
| 算法 | 核心思想 | 代表作 | 关键特点 |
|---|---|---|---|
| PPO | 策略梯度 + 裁剪 + Critic | InstructGPT, o1 | 需要 4 个模型,稳定但昂贵 |
| DPO | 偏好对直接优化策略 | Zephyr, Mistral | 离线,简单,但无法探索 |
| GRPO | 组内相对优势估计 | DeepSeek-R1 | 无 Critic,在线采样,容易 entropy collapse |
| DAPO | 解耦 KL + 动态温度 | ByteDance proRL | 缓解 entropy collapse,但仍需强 base |
| RLOO | Leave-one-out 基线 | 学术研究 | PPO 的简化变体 |
工业界实际成果
| 模型 | 规模 | RL 方法 | AIME 2024 | 是否公开验证 |
|---|---|---|---|---|
| OpenAI o1 | ~200B+(传闻) | PPO + PRM | 96.4% | 否 |
| DeepSeek-R1 | 671B MoE | GRPO | 96.3% | 是(开源) |
| Qwen3 (A3B MoE) | A3B (30B+ total) | RL few steps | 90+ | 部分 |
| Qwen 2.5 72B | 72B Dense | RL | ~80+ | 部分 |
学术界”复现”现状
大量论文声称用 GRPO/DAPO 在小模型(7B/8B)上取得了”显著提升”。但存在严重问题:
核心争议:几乎所有能”work”的学术 RL 论文,都是在 Qwen 2.5 或 Qwen 3 上跑的。换到 Llama 等其他模型,同样的算法效果为零。
原因分析:
- Wu et al. (2026) 的研究表明,Qwen 系列在 AIME 等 benchmark 上可能存在数据泄露(benchmark contamination)
- 如果模型已经”背下了”部分答案,RL 只是在强化记忆,不是真正学会推理
- Llama 3.2 用 DAPO 跑 AIME:准确率始终为 0
Part 3:为什么 RL 在大多数场景下 work 不了?
根本原因:RL 不能教会模型新能力
这是理解 RL for LLM 最重要的一句话:
RL 只能强化模型已经(偶尔)能做到的事情。如果 pass@k = 0,RL 没有任何梯度信号。
解释:
- pass@k:采样 k 次,至少有一次正确的概率
- GRPO 的工作方式:对每个 prompt 采样 k 个回答,正确的给正优势,错误的给负优势
- 如果 k 个回答全部错误:优势全为 0,梯度为 0,什么都学不到
- 如果 k 个回答全部正确:优势也全为 0,同样学不到新东西
费曼解释:RL 像一个教练,只能说”这个好,那个不好”。如果运动员根本跳不过横杆(pass@k=0),教练说再多也没用 — 问题不在策略,在能力。
GRPO 的具体机制与局限
for prompt in dataset:
responses = model.sample(prompt, k=64) # 采样 k 个回答
rewards = [verify(r) for r in responses] # 0 or 1
mean_r = mean(rewards)
std_r = std(rewards)
advantages = [(r - mean_r) / std_r for r in rewards]
# 如果 rewards 全为 0: advantages 全为 0 -> 无更新
# 如果 rewards 全为 1: advantages 全为 0 -> 无更新
# 只有"有的对有的错"时,才有梯度信号
policy_gradient_update(model, responses, advantages)
五大失败模式
| 失败模式 | 现象 | 根因 |
|---|---|---|
| 1. 零信号 | Acc 始终为 0,loss 不变 | Base model 太弱,pass@k=0,无梯度 |
| 2. Entropy Collapse | Entropy 急剧下降,输出重复 | 策略过早收敛到少数高奖励路径 |
| 3. pass@k 下降 | mean@1 上升但 pass@k 下降 | RL 杀死了多样性 |
| 4. Reward Hacking | Reward 上升但实际质量下降 | 模型找到 reward 漏洞 |
| 5. 假性提升 | 仅在特定 benchmark 提升 | Base model 已”背”了答案 |
Entropy Collapse 详解
Entropy(熵)衡量模型输出的多样性。正常 RL 训练的 entropy 变化:
- 健康:entropy 缓慢下降(策略在聚焦),但保持在合理范围
- 不健康:entropy 急剧降到接近 0(策略退化为确定性输出)
从实验数据看:
- Qwen3 8B + GRPO:entropy 从 ~6 快速降到 ~2,对应的 acc 在上升 — 这是正常学习
- Qwen3 8B + DAPO:entropy 先降后升(DAPO 的动态温度在对抗 collapse)
- Llama + DAPO/GRPO:entropy 保持 ~6 不变 — 因为 acc=0,没有信号推动策略变化
关键洞察:Llama 的 entropy 不降不是”好事”(保持了多样性),而是”坏事”(模型根本没在学)。GRPO 不 entropy collapse 的前提是 entropy collapse 才代表有问题 — 如果从未开始学习,entropy 自然不会变。
为什么只有 Qwen 系列”work”?
- Qwen3 预训练质量极高:A3B MoE 即使不 RL,base model 的 pass@64 已经不为零
- AIME benchmark 泄露嫌疑:Wu et al. (2026) 指出 Qwen 系列在 AIME 等 benchmark 上表现异常好
- GPT-class 120B+ 才是真正分界线:只有达到这个规模的模型,RL calibration 才有效
- 学术界用 Qwen 小模型做的 RL paper 应该被质疑
Part 4:正确的心智模型 — 如何理解 RL for LLM
RL 不是魔法,是选拔机制
把 RL 想象成一个选拔考试,而不是一个教学过程:
| RL 的实际作用 | RL 不能做的 | |
|---|---|---|
| 能力维度 | 把 pass@64 的偶尔正确变成 pass@1 | 让 pass@64=0 的任务变得可解 |
| 策略维度 | 强化高概率正确路径 | 创造全新的推理路径 |
| 知识维度 | 更好地调用已有知识 | 注入新知识 |
什么时候 RL 有效?
满足以下全部条件:
- Base model 足够强:pass@k > 0(模型”偶尔”能做对)
- Reward 可验证:有明确的对错判断(数学答案、代码执行、逻辑推理)
- 模型足够大:20B+ 或 large MoE — 小模型能力天花板太低
- 训练基础设施完善:大规模在线采样、分布式 rollout 生成
pass@k 与 RL 效果的关系
| pass@64 范围 | RL 效果 | 解释 |
|---|---|---|
| 0% | 完全无效 | 无正样本 -> 无梯度 -> Acc 永远为 0 |
| 1~10% | 困难但可能 | 稀疏信号,需大量采样和长时间训练 |
| 10~50% | 理想区间 | 有明确的好/坏对比,梯度信号充足 |
| 50~90% | 收益递减 | 模型已经很好了,提升空间小 |
| >90% | 几乎无效 | 全部正确时 advantage=0,同样无梯度 |
Part 5:学习路线图 — 怎么入门 RL for LLM
Level 1:概念理解(1-2 天)
- 读 DeepSeek-R1 论文的 Section 2-3(GRPO 方法描述)
- 理解 policy gradient 基本公式
- 理解 GRPO 和 PPO 的区别(有无 Critic)
Level 2:动手实验(1-2 周)
- 用 OpenRLHF 或 veRL 框架跑一个简单实验
- 选一个足够强的 base model(建议 Qwen3-30B+ 或 DeepSeek 系列)
- 在简单数学任务(GSM8K)上验证 RL 流程
- 观察 entropy、reward、KL divergence 的变化曲线
Level 3:深入理解(1 个月+)
- 读 DAPO 论文 — 理解 entropy collapse 的对抗机制
- 读 proRL (ByteDance) — 理解工业界如何稳定训练
- 实验不同 base model(对比 Qwen vs Llama),亲自观察”不 work”的现象
- 研究 Process Reward Model (PRM) vs Outcome Reward Model (ORM)
Level 4:前沿问题(持续关注)
- RL 能否真正扩展模型能力边界?还是只能在已有能力范围内优化?
- 如何设计更好的 reward(beyond binary correct/incorrect)?
- VLM(视觉语言模型)的 RL 为何特别难?
- 大 MoE 模型跑 RL 的工程挑战(router collapse, expert imbalance)
Part 5.5:GRPO 算法推导 — 从 Policy Gradient 到组内优势
Policy Gradient 的标准形式
强化学习的核心目标是最大化期望回报:
J(theta) = E[sum of rewards]
Policy Gradient: nabla J = E[nabla log pi(a|s) * A(s,a)]
其中 A(s,a) 是 advantage function — 衡量这个 action 比”平均”好多少。
PPO 的 Critic 问题
PPO 用一个独立的 Value Network (Critic) 来估计 advantage:
A(s,a) = R(s,a) - V(s) (Critic 估计的 baseline)
问题:训练 Critic 需要第 5 个大模型(Actor + Reference + Reward + Critic),显存和计算成本翻倍。
GRPO 的核心洞察
DeepSeek 的解法:不用 Critic,用同组采样的统计量代替 baseline。
对于每个 prompt x,采样 k 个回答 (y_1, …, y_k),计算各自的 reward (r_1, …, r_k):
GRPO Advantage:
A_i = (r_i - mean(r_1..k)) / std(r_1..k)
对比 PPO:
A_i = r_i - V(s) (需要额外网络)
GRPO 的 A_i 完全由同组样本的统计量决定,不需要额外参数。
梯度更新公式
L_GRPO = -E[ min(rho * A, clip(rho, 1-eps, 1+eps) * A) ] + beta * KL(pi || pi_ref)
其中:
rho = pi_theta(y|x) / pi_old(y|x) -- 重要性采样比
A = GRPO advantage (组内标准化)
beta * KL = 与 reference model 的距离惩罚
为什么 KL 惩罚至关重要
没有 KL 项,模型会快速退化(reward hacking):
无 KL 惩罚:
Step 100: 模型发现某种输出格式总得高分
Step 500: 所有输出变成同一种格式 (entropy collapse)
Step 1000: 输出完全丧失多样性,即使 reward 很高
有 KL 惩罚:
pi_theta 不能偏离 pi_ref 太远
= 强制保留 base model 的语言能力和多样性
Part 5.6:如何设计一个有效的 RL 实验
实验 Checklist
| 步骤 | 内容 | 不做的后果 |
|---|---|---|
| 1. 验证 pass@k | 测 base model 的 pass@64 是否 > 0 | RL 完全无信号 |
| 2. Reward 验证 | 确认 reward function 区分度足够 | Reward hacking |
| 3. Baseline 对比 | SFT on positive samples vs RL | 无法证明 RL 有额外价值 |
| 4. Entropy 监控 | 实时画 entropy 曲线 | 不知道何时该停 |
| 5. 多 seed 重复 | 至少 3 个 random seed | 结果不可复现 |
最小可行实验配置
model: Qwen3-30B-A3B (或更大)
dataset: GSM8K (数学, 可验证)
reward: exact_match(predicted_answer, ground_truth)
sampling:
k: 64 (每 prompt 采样数)
temperature: 1.0 (保证多样性)
max_tokens: 2048
training:
lr: 1e-6
batch_size: 128 prompts (= 128 * 64 = 8192 samples/step)
kl_coeff: 0.05
clip_eps: 0.2
epochs: 3-5
monitoring:
- entropy (should decrease slowly, NOT crash)
- mean_reward (should increase)
- pass@1 (target metric)
- pass@64 (diversity check - should NOT decrease)
常见错误
- k 太小:k=4 几乎肯定 rewards 全 0 或全 1,无梯度
- 温度太低:temperature=0.3 让 pass@k 接近 pass@1,失去探索
- 学习率太高:lr=1e-5 直接 entropy collapse
- 忘记监控 pass@k:mean@1 上升但 pass@k 下降 = 策略退化
Part 5.7:VLM(视觉语言模型)RL 的特殊挑战
为什么 VLM RL 更难
| 维度 | LLM RL | VLM RL |
|---|---|---|
| Reward 设计 | 数学/代码有精确验证器 | 视觉问答主观性强 |
| 采样效率 | 纯文本 token,生成快 | 图像 + 文本,forward pass 慢 3-5x |
| 搜索空间 | token 序列 | token 序列 + spatial reasoning |
| 失败模式 | entropy collapse | hallucination amplification |
VLM 特有的失败模式:Hallucination Amplification
正常 VLM: 偶尔编造图中不存在的物体 (hallucination rate ~15%)
RL 后的风险:
如果 reward 只验证"答案正确性"而不验证"图像一致性":
模型学会编造更多细节来提高答案命中率
-> hallucination rate 可能从 15% 升到 40%
-> "更对但更假"
当前可行方向
- Grounding Reward:奖励时额外验证”答案是否来自图像证据”
- OCR/Detection Verification:用外部检测器验证视觉 claim
- Rejection Sampling + SFT:先 RL 采样高质量样本,再 SFT(更安全但更慢)
Part 6:关键论文与资源
必读论文
- DeepSeek-R1 (2025) — GRPO 方法和大规模 RL 训练的完整描述
- DAPO (ByteDance, 2025) — 解耦对齐策略优化,解决 entropy collapse
- DPO (Rafailov et al., 2023) — Direct Preference Optimization 原始论文
- InstructGPT (Ouyang et al., 2022) — RLHF 的开山之作
- Wu et al., 2026 — Qwen AIME benchmark contamination 分析
框架与工具
- OpenRLHF — 开源 RLHF/GRPO 训练框架
- veRL (Volcano Engine) — 字节跳动的 RL 训练框架
- TRL (Hugging Face) — Transformer Reinforcement Learning 库
- DeepSpeed-Chat — 微软的 RLHF 训练方案
推荐阅读顺序
- InstructGPT -> 理解为什么需要 RLHF
- DPO -> 理解”不需要 RL 也能做偏好学习”
- DeepSeek-R1 -> 理解”为什么又需要 RL 了”
- DAPO -> 理解”RL 的坑和修复方案”
- Wu et al. -> 理解”为什么很多结果不可信”
结论与思考
核心结论:
- RL 不是万能药:它只能强化已有能力,不能创造新能力
- 模型规模是前提:7B 模型在难任务上 pass@k=0,RL 完全无效
- 学术界 vs 工业界的鸿沟:工业界用 200B+ 模型 + 大规模基础设施;学术界用 7B + 单机 — 根本不在同一个赛道
- Qwen 实验结论需谨慎:可能存在 benchmark contamination,结论不一定可推广
- Entropy collapse 是关键指标:监控训练过程中的 entropy 变化,是判断 RL 是否正常工作的核心手段
留给你的思考题:
- 如果 RL 只能强化已有能力,那 DeepSeek-R1 展示的”emergent reasoning”是怎么来的?
- 为什么 OpenAI 坚持用 PPO(更贵),而不像学术界一样转向 GRPO(更便宜)?
- 如果 Qwen 的 AIME 分数是”背出来的”,怎么设计一个不可能被污染的 benchmark?
- RL 在代码生成(可执行验证)领域是否比数学推理更有前景?为什么?
相关文章
- AI Inference 学习 Roadmap 2026 全景图 — 更宏观的 AI 推理工程学习路线,包含训练与推理的关系