RL for LLM：为什么强化学习训练大模型这么难？

文档定位：这是一份面向所有人（无论是否接触过 RL）的学习文档。它将帮助你理解：

什么是 LLM 的强化学习（RL）训练？
为什么 DeepSeek-R1 用 RL 能成功，但大多数学术界复现却 work 不了？
如何判断 RL 在你的场景下是否有效？

背景：2025 年以来，以 DeepSeek-R1 为标志，RL 训练 LLM 成为热点。但实践中，大量论文仅在 Qwen 系列模型上”work”，换到其他模型则完全失败。本文分析这一现象的根本原因。

Part 1：背景 — 什么是 LLM 的 RL 训练？

从 SFT 到 RL：后训练的三个阶段

大模型从”预训练完成”到”可以使用”，要经历**后训练（Post-Training）**阶段：

阶段	方法	做什么	类比
Stage 1	SFT（监督微调）	学习指令格式和回答范式	学生读教科书，学解题格式
Stage 2	RLHF / DPO	学习偏好，避免有害输出	老师批改作业，标出好坏
Stage 3	RL (GRPO/DAPO)	在可验证任务上自我强化	学生刷题，对答案，强化正确思路

关键区分：

SFT：告诉模型”正确答案长什么样” — 模仿学习
RLHF/DPO：告诉模型”哪个更好” — 偏好学习
RL (reasoning)：让模型”自己试，对答案” — 探索 + 强化

为什么 RL 突然变热了？

2025 年 1 月，DeepSeek-R1 论文展示了一个惊人结果：

纯 RL 训练（GRPO），不需要 SFT 数据，就能让 671B MoE 模型在 AIME 数学竞赛上达到 96.3% 准确率，接近 OpenAI o1 水平。

这让整个学术界疯狂：如果不需要昂贵的人工标注数据，只需要一个 reward 函数就能提升推理能力，那岂不是”无限刷题”就能变强？

Part 2：目前的进展 — 谁在做，效果如何？

主流 RL 算法一览

算法	核心思想	代表作	关键特点
PPO	策略梯度 + 裁剪 + Critic	InstructGPT, o1	需要 4 个模型，稳定但昂贵
DPO	偏好对直接优化策略	Zephyr, Mistral	离线，简单，但无法探索
GRPO	组内相对优势估计	DeepSeek-R1	无 Critic，在线采样，容易 entropy collapse
DAPO	解耦 KL + 动态温度	ByteDance proRL	缓解 entropy collapse，但仍需强 base
RLOO	Leave-one-out 基线	学术研究	PPO 的简化变体

工业界实际成果

模型	规模	RL 方法	AIME 2024	是否公开验证
OpenAI o1	~200B+（传闻）	PPO + PRM	96.4%	否
DeepSeek-R1	671B MoE	GRPO	96.3%	是（开源）
Qwen3 (A3B MoE)	A3B (30B+ total)	RL few steps	90+	部分
Qwen 2.5 72B	72B Dense	RL	~80+	部分

学术界”复现”现状

大量论文声称用 GRPO/DAPO 在小模型（7B/8B）上取得了”显著提升”。但存在严重问题：

核心争议：几乎所有能”work”的学术 RL 论文，都是在 Qwen 2.5 或 Qwen 3 上跑的。换到 Llama 等其他模型，同样的算法效果为零。

原因分析：

Wu et al. (2026) 的研究表明，Qwen 系列在 AIME 等 benchmark 上可能存在数据泄露（benchmark contamination）
如果模型已经”背下了”部分答案，RL 只是在强化记忆，不是真正学会推理
Llama 3.2 用 DAPO 跑 AIME：准确率始终为 0

Part 3：为什么 RL 在大多数场景下 work 不了？

根本原因：RL 不能教会模型新能力

这是理解 RL for LLM 最重要的一句话：

RL 只能强化模型已经（偶尔）能做到的事情。如果 pass@k = 0，RL 没有任何梯度信号。

解释：

pass@k：采样 k 次，至少有一次正确的概率
GRPO 的工作方式：对每个 prompt 采样 k 个回答，正确的给正优势，错误的给负优势
如果 k 个回答全部错误：优势全为 0，梯度为 0，什么都学不到
如果 k 个回答全部正确：优势也全为 0，同样学不到新东西

费曼解释：RL 像一个教练，只能说”这个好，那个不好”。如果运动员根本跳不过横杆（pass@k=0），教练说再多也没用 — 问题不在策略，在能力。

GRPO 的具体机制与局限

for prompt in dataset:
    responses = model.sample(prompt, k=64)  # 采样 k 个回答
    rewards = [verify(r) for r in responses]  # 0 or 1

    mean_r = mean(rewards)
    std_r = std(rewards)
    advantages = [(r - mean_r) / std_r for r in rewards]

    # 如果 rewards 全为 0: advantages 全为 0 -> 无更新
    # 如果 rewards 全为 1: advantages 全为 0 -> 无更新
    # 只有"有的对有的错"时，才有梯度信号

    policy_gradient_update(model, responses, advantages)

五大失败模式

失败模式	现象	根因
1. 零信号	Acc 始终为 0，loss 不变	Base model 太弱，pass@k=0，无梯度
2. Entropy Collapse	Entropy 急剧下降，输出重复	策略过早收敛到少数高奖励路径
3. pass@k 下降	mean@1 上升但 pass@k 下降	RL 杀死了多样性
4. Reward Hacking	Reward 上升但实际质量下降	模型找到 reward 漏洞
5. 假性提升	仅在特定 benchmark 提升	Base model 已”背”了答案

Entropy Collapse 详解

Entropy Collapse 现象

健康的 RL 训练 entropy 缓慢下降，不健康的急剧归零

Entropy（熵）衡量模型输出的多样性。正常 RL 训练的 entropy 变化：

健康：entropy 缓慢下降（策略在聚焦），但保持在合理范围
不健康：entropy 急剧降到接近 0（策略退化为确定性输出）

从实验数据看：

Qwen3 8B + GRPO：entropy 从 ~6 快速降到 ~2，对应的 acc 在上升 — 这是正常学习
Qwen3 8B + DAPO：entropy 先降后升（DAPO 的动态温度在对抗 collapse）
Llama + DAPO/GRPO：entropy 保持 ~6 不变 — 因为 acc=0，没有信号推动策略变化

关键洞察：Llama 的 entropy 不降不是”好事”（保持了多样性），而是”坏事”（模型根本没在学）。GRPO 不 entropy collapse 的前提是 entropy collapse 才代表有问题 — 如果从未开始学习，entropy 自然不会变。

为什么只有 Qwen 系列”work”？

Qwen3 预训练质量极高：A3B MoE 即使不 RL，base model 的 pass@64 已经不为零
AIME benchmark 泄露嫌疑：Wu et al. (2026) 指出 Qwen 系列在 AIME 等 benchmark 上表现异常好
GPT-class 120B+ 才是真正分界线：只有达到这个规模的模型，RL calibration 才有效
学术界用 Qwen 小模型做的 RL paper 应该被质疑

Part 4：正确的心智模型 — 如何理解 RL for LLM

RL 不是魔法，是选拔机制

把 RL 想象成一个选拔考试，而不是一个教学过程：

	RL 的实际作用	RL 不能做的
能力维度	把 pass@64 的偶尔正确变成 pass@1	让 pass@64=0 的任务变得可解
策略维度	强化高概率正确路径	创造全新的推理路径
知识维度	更好地调用已有知识	注入新知识

什么时候 RL 有效？

满足以下全部条件：

Base model 足够强：pass@k > 0（模型”偶尔”能做对）
Reward 可验证：有明确的对错判断（数学答案、代码执行、逻辑推理）
模型足够大：20B+ 或 large MoE — 小模型能力天花板太低
训练基础设施完善：大规模在线采样、分布式 rollout 生成

pass@k 与 RL 效果的关系

pass@64 范围	RL 效果	解释
0%	完全无效	无正样本 -> 无梯度 -> Acc 永远为 0
1~10%	困难但可能	稀疏信号，需大量采样和长时间训练
10~50%	理想区间	有明确的好/坏对比，梯度信号充足
50~90%	收益递减	模型已经很好了，提升空间小
>90%	几乎无效	全部正确时 advantage=0，同样无梯度

Part 5：学习路线图 — 怎么入门 RL for LLM

Level 1：概念理解（1-2 天）

读 DeepSeek-R1 论文的 Section 2-3（GRPO 方法描述）
理解 policy gradient 基本公式
理解 GRPO 和 PPO 的区别（有无 Critic）

Level 2：动手实验（1-2 周）

用 OpenRLHF 或 veRL 框架跑一个简单实验
选一个足够强的 base model（建议 Qwen3-30B+ 或 DeepSeek 系列）
在简单数学任务（GSM8K）上验证 RL 流程
观察 entropy、reward、KL divergence 的变化曲线

Level 3：深入理解（1 个月+）

读 DAPO 论文 — 理解 entropy collapse 的对抗机制
读 proRL (ByteDance) — 理解工业界如何稳定训练
实验不同 base model（对比 Qwen vs Llama），亲自观察”不 work”的现象
研究 Process Reward Model (PRM) vs Outcome Reward Model (ORM)

Level 4：前沿问题（持续关注）

RL 能否真正扩展模型能力边界？还是只能在已有能力范围内优化？
如何设计更好的 reward（beyond binary correct/incorrect）？
VLM（视觉语言模型）的 RL 为何特别难？
大 MoE 模型跑 RL 的工程挑战（router collapse, expert imbalance）

Part 5.5：GRPO 算法推导 — 从 Policy Gradient 到组内优势

Policy Gradient 的标准形式

强化学习的核心目标是最大化期望回报：

J(theta) = E[sum of rewards]
Policy Gradient: nabla J = E[nabla log pi(a|s) * A(s,a)]

其中 A(s,a) 是 advantage function — 衡量这个 action 比”平均”好多少。

PPO 的 Critic 问题

PPO 用一个独立的 Value Network (Critic) 来估计 advantage：

A(s,a) = R(s,a) - V(s)  (Critic 估计的 baseline)

问题：训练 Critic 需要第 5 个大模型（Actor + Reference + Reward + Critic），显存和计算成本翻倍。

GRPO 的核心洞察

DeepSeek 的解法：不用 Critic，用同组采样的统计量代替 baseline。

对于每个 prompt x，采样 k 个回答 (y_1, …, y_k)，计算各自的 reward (r_1, …, r_k)：

GRPO Advantage:
  A_i = (r_i - mean(r_1..k)) / std(r_1..k)

对比 PPO:
  A_i = r_i - V(s)  (需要额外网络)

GRPO 的 A_i 完全由同组样本的统计量决定，不需要额外参数。

梯度更新公式

L_GRPO = -E[ min(rho * A, clip(rho, 1-eps, 1+eps) * A) ] + beta * KL(pi || pi_ref)

其中:
  rho = pi_theta(y|x) / pi_old(y|x)  -- 重要性采样比
  A = GRPO advantage (组内标准化)
  beta * KL = 与 reference model 的距离惩罚

为什么 KL 惩罚至关重要

没有 KL 项，模型会快速退化（reward hacking）：

无 KL 惩罚:
  Step 100: 模型发现某种输出格式总得高分
  Step 500: 所有输出变成同一种格式 (entropy collapse)
  Step 1000: 输出完全丧失多样性，即使 reward 很高

有 KL 惩罚:
  pi_theta 不能偏离 pi_ref 太远
  = 强制保留 base model 的语言能力和多样性

Part 5.6：如何设计一个有效的 RL 实验

实验 Checklist

步骤	内容	不做的后果
1. 验证 pass@k	测 base model 的 pass@64 是否 > 0	RL 完全无信号
2. Reward 验证	确认 reward function 区分度足够	Reward hacking
3. Baseline 对比	SFT on positive samples vs RL	无法证明 RL 有额外价值
4. Entropy 监控	实时画 entropy 曲线	不知道何时该停
5. 多 seed 重复	至少 3 个 random seed	结果不可复现

最小可行实验配置

model: Qwen3-30B-A3B (或更大)
dataset: GSM8K (数学, 可验证)
reward: exact_match(predicted_answer, ground_truth)
sampling:
  k: 64 (每 prompt 采样数)
  temperature: 1.0 (保证多样性)
  max_tokens: 2048
training:
  lr: 1e-6
  batch_size: 128 prompts (= 128 * 64 = 8192 samples/step)
  kl_coeff: 0.05
  clip_eps: 0.2
  epochs: 3-5
monitoring:
  - entropy (should decrease slowly, NOT crash)
  - mean_reward (should increase)
  - pass@1 (target metric)
  - pass@64 (diversity check - should NOT decrease)

常见错误

k 太小：k=4 几乎肯定 rewards 全 0 或全 1，无梯度
温度太低：temperature=0.3 让 pass@k 接近 pass@1，失去探索
学习率太高：lr=1e-5 直接 entropy collapse
忘记监控 pass@k：mean@1 上升但 pass@k 下降 = 策略退化

Part 5.7：VLM（视觉语言模型）RL 的特殊挑战

为什么 VLM RL 更难

维度	LLM RL	VLM RL
Reward 设计	数学/代码有精确验证器	视觉问答主观性强
采样效率	纯文本 token，生成快	图像 + 文本，forward pass 慢 3-5x
搜索空间	token 序列	token 序列 + spatial reasoning
失败模式	entropy collapse	hallucination amplification

VLM 特有的失败模式：Hallucination Amplification

正常 VLM: 偶尔编造图中不存在的物体 (hallucination rate ~15%)

RL 后的风险:
  如果 reward 只验证"答案正确性"而不验证"图像一致性":
  模型学会编造更多细节来提高答案命中率
  -> hallucination rate 可能从 15% 升到 40%
  -> "更对但更假"

当前可行方向

Grounding Reward：奖励时额外验证”答案是否来自图像证据”
OCR/Detection Verification：用外部检测器验证视觉 claim
Rejection Sampling + SFT：先 RL 采样高质量样本，再 SFT（更安全但更慢）

Part 6：关键论文与资源

必读论文

DeepSeek-R1 (2025) — GRPO 方法和大规模 RL 训练的完整描述
DAPO (ByteDance, 2025) — 解耦对齐策略优化，解决 entropy collapse
DPO (Rafailov et al., 2023) — Direct Preference Optimization 原始论文
InstructGPT (Ouyang et al., 2022) — RLHF 的开山之作
Wu et al., 2026 — Qwen AIME benchmark contamination 分析

框架与工具

OpenRLHF — 开源 RLHF/GRPO 训练框架
veRL (Volcano Engine) — 字节跳动的 RL 训练框架
TRL (Hugging Face) — Transformer Reinforcement Learning 库
DeepSpeed-Chat — 微软的 RLHF 训练方案

结论与思考

核心结论：

RL 不是万能药：它只能强化已有能力，不能创造新能力
模型规模是前提：7B 模型在难任务上 pass@k=0，RL 完全无效
学术界 vs 工业界的鸿沟：工业界用 200B+ 模型 + 大规模基础设施；学术界用 7B + 单机 — 根本不在同一个赛道
Qwen 实验结论需谨慎：可能存在 benchmark contamination，结论不一定可推广
Entropy collapse 是关键指标：监控训练过程中的 entropy 变化，是判断 RL 是否正常工作的核心手段

留给你的思考题：

如果 RL 只能强化已有能力，那 DeepSeek-R1 展示的”emergent reasoning”是怎么来的？
为什么 OpenAI 坚持用 PPO（更贵），而不像学术界一样转向 GRPO（更便宜）？
如果 Qwen 的 AIME 分数是”背出来的”，怎么设计一个不可能被污染的 benchmark？
RL 在代码生成（可执行验证）领域是否比数学推理更有前景？为什么？

AI Inference 学习 Roadmap 2026 全景图 — 更宏观的 AI 推理工程学习路线，包含训练与推理的关系