GPU 推理部署学习指南:从显存计算到性能优化
给你 16GB 显存的 GPU,你能部署多大的模型?从显存计算、存储层级、Roofline Model 到量化策略,按 Bloom 认知分类法建立 GPU 推理部署的完整认知框架。
16 posts
← All tags给你 16GB 显存的 GPU,你能部署多大的模型?从显存计算、存储层级、Roofline Model 到量化策略,按 Bloom 认知分类法建立 GPU 推理部署的完整认知框架。
为什么 DeepSeek-R1 用 RL 能成功,但大多数学术界复现全失败?从 pass@k 的视角理解 RL 训练 LLM 的本质限制、五大失败模式和 entropy collapse 现象。
从 PagedAttention 原理到多卡部署下的 KV Cache 容量计算,彻底搞懂为什么单卡 metric 显示 52K 却能跑 200K+ 上下文。涵盖 Block Manager 架构、TP/CP 并行策略与 MLA 架构特殊性。
从 SGLang Omni 架构到 DiT/World Model 的并行策略选择,理解何时 TP 是负收益,以及正确的多卡方案 Sequence Parallelism。附大厂技术报告中不对 DiT 开 TP 的实证分析。
1600 张 H100 做视频生成推理,线上只能跑 42 QPS -- 从一道简单的除法出发,拆解视频生成为什么是当前 AI 推理中算力密度最高的任务。
RoundPipe 通过无状态 GPU 池和非对称流水线切分,在 8 张 4090 上实现 235B MoE 模型的 LoRA 微调,吞吐量达到 A800 方案的 76%+。
Claw-Eval-Live 揭示静态 Agent 评估的三种失效模式,提出需求驱动的活 benchmark 设计——季度刷新任务分布,同时保持版本内可复现。
Ctx2Skill 提出自演化的多 Agent 自博弈框架,从上下文中自动发现、提炼和选择技能——无需人工标注或外部反馈。核心问题:LLM 真的能从上下文中学习技能,还是只是模式匹配?
OpenAI 公开了其 Realtime API 背后的 WebRTC 基础设施设计——relay + transceiver 分离架构。本文拆解这套系统如何在 Kubernetes 上解决 WebRTC 的端口爆炸和状态粘性问题,以及无状态转发层的工程哲学。
这是一份完整的 Obsidian 知识库配置攻略,涵盖 Obsidian 作为知识管理前端、Claude Code 作为 AI 编程代理、iCloud 作为跨设备同步方案的全栈配置