#GRPO — AsterZephyr

June 7, 2026

为什么 DeepSeek-R1 用 RL 能成功，但大多数学术界复现全失败？从 pass@k 的视角理解 RL 训练 LLM 的本质限制、五大失败模式和 entropy collapse 现象。