RL for LLM:为什么强化学习训练大模型这么难?
为什么 DeepSeek-R1 用 RL 能成功,但大多数学术界复现全失败?从 pass@k 的视角理解 RL 训练 LLM 的本质限制、五大失败模式和 entropy collapse 现象。
4 posts
← All tags为什么 DeepSeek-R1 用 RL 能成功,但大多数学术界复现全失败?从 pass@k 的视角理解 RL 训练 LLM 的本质限制、五大失败模式和 entropy collapse 现象。
Ctx2Skill 提出自演化的多 Agent 自博弈框架,从上下文中自动发现、提炼和选择技能——无需人工标注或外部反馈。核心问题:LLM 真的能从上下文中学习技能,还是只是模式匹配?