vLLM KV Cache Block Manager 深度教程
从 PagedAttention 原理到多卡部署下的 KV Cache 容量计算,彻底搞懂为什么单卡 metric 显示 52K 却能跑 200K+ 上下文。涵盖 Block Manager 架构、TP/CP 并行策略与 MLA 架构特殊性。
1 post
← All tags从 PagedAttention 原理到多卡部署下的 KV Cache 容量计算,彻底搞懂为什么单卡 metric 显示 52K 却能跑 200K+ 上下文。涵盖 Block Manager 架构、TP/CP 并行策略与 MLA 架构特殊性。