#LLM

4 posts

June 7, 2026

RL for LLM：为什么强化学习训练大模型这么难？

为什么 DeepSeek-R1 用 RL 能成功，但大多数学术界复现全失败？从 pass@k 的视角理解 RL 训练 LLM 的本质限制、五大失败模式和 entropy collapse 现象。

#AI #强化学习 #LLM

May 12, 2026

Interaction Models：当 AI 模型原生理解「时间」

#LLM #多模态 #语音AI

May 11, 2026

Test-Time Scaling 的下一步：让 LLM 自己发现推理策略

#LLM #推理优化 #深度学习

May 5, 2026

In-Context Learning 能力的真实边界：LLM 从上下文「学会」技能了吗？

Ctx2Skill 提出自演化的多 Agent 自博弈框架，从上下文中自动发现、提炼和选择技能——无需人工标注或外部反馈。核心问题：LLM 真的能从上下文中学习技能，还是只是模式匹配？

#AI #LLM #in-context-learning