World Model TP 并行深度分析:为什么 TP=N 比 TP=1 还慢
从 SGLang Omni 架构到 DiT/World Model 的并行策略选择,理解何时 TP 是负收益,以及正确的多卡方案 Sequence Parallelism。附大厂技术报告中不对 DiT 开 TP 的实证分析。
1 post
← All tags从 SGLang Omni 架构到 DiT/World Model 的并行策略选择,理解何时 TP 是负收益,以及正确的多卡方案 Sequence Parallelism。附大厂技术报告中不对 DiT 开 TP 的实证分析。