June 7, 2026 RL for LLM:为什么强化学习训练大模型这么难? 为什么 DeepSeek-R1 用 RL 能成功,但大多数学术界复现全失败?从 pass@k 的视角理解 RL 训练 LLM 的本质限制、五大失败模式和 entropy collapse 现象。 #AI #强化学习 #LLM