World Model TP 并行深度分析:为什么 TP=N 比 TP=1 还慢
从 SGLang Omni 架构到 DiT/World Model 的并行策略选择,理解何时 TP 是负收益,以及正确的多卡方案 Sequence Parallelism。附大厂技术报告中不对 DiT 开 TP 的实证分析。
2 posts
← All tags从 SGLang Omni 架构到 DiT/World Model 的并行策略选择,理解何时 TP 是负收益,以及正确的多卡方案 Sequence Parallelism。附大厂技术报告中不对 DiT 开 TP 的实证分析。
1600 张 H100 做视频生成推理,线上只能跑 42 QPS -- 从一道简单的除法出发,拆解视频生成为什么是当前 AI 推理中算力密度最高的任务。