#GPU

4 posts

June 7, 2026

给你 16GB 显存的 GPU，你能部署多大的模型？从显存计算、存储层级、Roofline Model 到量化策略，按 Bloom 认知分类法建立 GPU 推理部署的完整认知框架。

June 7, 2026

从 PagedAttention 原理到多卡部署下的 KV Cache 容量计算，彻底搞懂为什么单卡 metric 显示 52K 却能跑 200K+ 上下文。涵盖 Block Manager 架构、TP/CP 并行策略与 MLA 架构特殊性。

June 7, 2026

从 SGLang Omni 架构到 DiT/World Model 的并行策略选择，理解何时 TP 是负收益，以及正确的多卡方案 Sequence Parallelism。附大厂技术报告中不对 DiT 开 TP 的实证分析。

June 7, 2026

1600 张 H100 做视频生成推理，线上只能跑 42 QPS -- 从一道简单的除法出发，拆解视频生成为什么是当前 AI 推理中算力密度最高的任务。