#vLLM — AsterZephyr

June 7, 2026

从 PagedAttention 原理到多卡部署下的 KV Cache 容量计算，彻底搞懂为什么单卡 metric 显示 52K 却能跑 200K+ 上下文。涵盖 Block Manager 架构、TP/CP 并行策略与 MLA 架构特殊性。