Blog
从梯度下降到 Semantic ID:理解 RQ-VAE 所需的全部前序知识
一篇文章补齐从机器学习基础、深度学习、Transformer/LLM、搜广推系统架构到向量量化的全部知识链——读完后直接进入 RQ-VAE Semantic ID 训练那篇文章,不会有任何理解断裂。
码本利用率的骗局:RQ-VAE Semantic ID 训练的七个工程权衡
把码本向量维度改小,利用率飙到 90%+——这说明模型学好了吗?从码本崩塌到 Scaling Law,深入拆解 RQ-VAE Semantic ID 训练中的七个核心工程权衡。
GPU 推理部署学习指南:从显存计算到性能优化
给你 16GB 显存的 GPU,你能部署多大的模型?从显存计算、存储层级、Roofline Model 到量化策略,按 Bloom 认知分类法建立 GPU 推理部署的完整认知框架。
RL for LLM:为什么强化学习训练大模型这么难?
为什么 DeepSeek-R1 用 RL 能成功,但大多数学术界复现全失败?从 pass@k 的视角理解 RL 训练 LLM 的本质限制、五大失败模式和 entropy collapse 现象。
vLLM KV Cache Block Manager 深度教程
从 PagedAttention 原理到多卡部署下的 KV Cache 容量计算,彻底搞懂为什么单卡 metric 显示 52K 却能跑 200K+ 上下文。涵盖 Block Manager 架构、TP/CP 并行策略与 MLA 架构特殊性。
World Model TP 并行深度分析:为什么 TP=N 比 TP=1 还慢
从 SGLang Omni 架构到 DiT/World Model 的并行策略选择,理解何时 TP 是负收益,以及正确的多卡方案 Sequence Parallelism。附大厂技术报告中不对 DiT 开 TP 的实证分析。
视频生成推理的 GPU 算力:从一道算术题说起
1600 张 H100 做视频生成推理,线上只能跑 42 QPS -- 从一道简单的除法出发,拆解视频生成为什么是当前 AI 推理中算力密度最高的任务。
AI 代码质量的实证困境:rsync 事件告诉我们什么
社区凭直觉认定 AI 写的代码更多 bug,但 rsync 的统计分析给出了 p=46% 的结论。问题不在于 AI 写不写 bug,而在于我们根本没有建立衡量 AI 代码质量的科学方法论。
Agent Eval 全景:怎么评、怎么设计、怎么学
评测范式正在断裂。SWE-bench 退役后,Agent 产品团队该如何衡量真实能力?本文从实操流程、设计方法论、学习路径三个维度拆解 Agent Eval 全景。
No matching posts found.