#AI

18 posts

← All tags

July 19, 2026

468KB 能做什么——当语音 AI 被逼到 80 美分芯片上

#AI #端侧推理 #模型压缩

July 7, 2026

Building is Easier, Generating Value is Still Hard

#AI #工程师成长 #价值创造

June 7, 2026

GPU 推理部署学习指南：从显存计算到性能优化

给你 16GB 显存的 GPU，你能部署多大的模型？从显存计算、存储层级、Roofline Model 到量化策略，按 Bloom 认知分类法建立 GPU 推理部署的完整认知框架。

#AI #GPU #推理优化

June 7, 2026

RL for LLM：为什么强化学习训练大模型这么难？

为什么 DeepSeek-R1 用 RL 能成功，但大多数学术界复现全失败？从 pass@k 的视角理解 RL 训练 LLM 的本质限制、五大失败模式和 entropy collapse 现象。

#AI #强化学习 #LLM

June 7, 2026

vLLM KV Cache Block Manager 深度教程

从 PagedAttention 原理到多卡部署下的 KV Cache 容量计算，彻底搞懂为什么单卡 metric 显示 52K 却能跑 200K+ 上下文。涵盖 Block Manager 架构、TP/CP 并行策略与 MLA 架构特殊性。

#AI #vLLM #KV Cache

June 7, 2026

World Model TP 并行深度分析：为什么 TP=N 比 TP=1 还慢

从 SGLang Omni 架构到 DiT/World Model 的并行策略选择，理解何时 TP 是负收益，以及正确的多卡方案 Sequence Parallelism。附大厂技术报告中不对 DiT 开 TP 的实证分析。

#AI #推理优化 #GPU

June 7, 2026

视频生成推理的 GPU 算力：从一道算术题说起

1600 张 H100 做视频生成推理，线上只能跑 42 QPS -- 从一道简单的除法出发，拆解视频生成为什么是当前 AI 推理中算力密度最高的任务。

#AI #GPU #视频生成

May 20, 2026

当模型吃掉一切：AI 应用的三层生死线

#AI #产品策略 #创业

May 5, 2026

8 张 4090 微调 235B 模型：RoundPipe 如何打破消费级 GPU 训练的天花板

RoundPipe 通过无状态 GPU 池和非对称流水线切分，在 8 张 4090 上实现 235B MoE 模型的 LoRA 微调，吞吐量达到 A800 方案的 76%+。

#AI #llm #训练优化

May 5, 2026

Agent Benchmark 正在失效：为什么静态评估无法衡量真实的 Agent 能力

Claw-Eval-Live 揭示静态 Agent 评估的三种失效模式，提出需求驱动的活 benchmark 设计——季度刷新任务分布，同时保持版本内可复现。

#AI #agent #evaluation

May 5, 2026

In-Context Learning 能力的真实边界：LLM 从上下文「学会」技能了吗？

Ctx2Skill 提出自演化的多 Agent 自博弈框架，从上下文中自动发现、提炼和选择技能——无需人工标注或外部反馈。核心问题：LLM 真的能从上下文中学习技能，还是只是模式匹配？

#AI #LLM #in-context-learning

May 5, 2026

OpenAI 低延迟语音 AI 的工程架构拆解：当 WebRTC 遇上 Kubernetes

OpenAI 公开了其 Realtime API 背后的 WebRTC 基础设施设计——relay + transceiver 分离架构。本文拆解这套系统如何在 Kubernetes 上解决 WebRTC 的端口爆炸和状态粘性问题，以及无状态转发层的工程哲学。

#AI #infrastructure #real-time

April 20, 2026

December 19, 2025

面向业务的agent后端架构设计

#AI #agent #开发

#AI

468KB 能做什么——当语音 AI 被逼到 80 美分芯片上

Building is Easier, Generating Value is Still Hard

GPU 推理部署学习指南：从显存计算到性能优化

RL for LLM：为什么强化学习训练大模型这么难？

vLLM KV Cache Block Manager 深度教程

World Model TP 并行深度分析：为什么 TP=N 比 TP=1 还慢

视频生成推理的 GPU 算力：从一道算术题说起

当模型吃掉一切：AI 应用的三层生死线

8 张 4090 微调 235B 模型：RoundPipe 如何打破消费级 GPU 训练的天花板

Agent Benchmark 正在失效：为什么静态评估无法衡量真实的 Agent 能力

In-Context Learning 能力的真实边界：LLM 从上下文「学会」技能了吗？

OpenAI 低延迟语音 AI 的工程架构拆解：当 WebRTC 遇上 Kubernetes

本地模型追上 API 的临界点：21GB 模型在什么场景能替代 Claude

Agent Infra 到底在建什么：从模型调用到 Agent 原生基础设施的全景拆解

OpenClaw 爆火背后：开源 Agent 和原生 Agent 的本质分野，以及程序员该怎么想

人们到底给了 AI Agent 多少自主权？Anthropic 用数据回答了这个问题

Obsidian + Claude Code 个人配置最优解

面向业务的agent后端架构设计