Blog

AI API设计 CTR DAPO DeepSeek-R1 GPU GRPO KV Cache Kimi-K3 LLM Mid-Training Roofline Model Serving TinyML Transformer Vibe Coding WebRTC agent ai-coding ai-infra benchmark compute-efficiency deepseek engineering-philosophy evaluation harness-engineering in-context-learning infrastructure llm methodology obsidian productivity real-time software-factory software-quality statistics vLLM web3 writing 产品策略价值创造健康分布式系统创业后端架构基础设施多模态大模型字节跳动工具工程师成长并行计算广告广告系统开发强化学习思考推理优化推荐推荐系统支付系统机器学习架构架构设计模型压缩深度学习端侧推理算力算法视频生成训练训练优化语音AI 语音识别量化金钱阅读

June 7, 2026

World Model TP 并行深度分析：为什么 TP=N 比 TP=1 还慢

从 SGLang Omni 架构到 DiT/World Model 的并行策略选择，理解何时 TP 是负收益，以及正确的多卡方案 Sequence Parallelism。附大厂技术报告中不对 DiT 开 TP 的实证分析。

#AI #推理优化 #GPU

June 7, 2026

视频生成推理的 GPU 算力：从一道算术题说起

1600 张 H100 做视频生成推理，线上只能跑 42 QPS -- 从一道简单的除法出发，拆解视频生成为什么是当前 AI 推理中算力密度最高的任务。

#AI #GPU #视频生成

June 6, 2026

AI 代码质量的实证困境：rsync 事件告诉我们什么

社区凭直觉认定 AI 写的代码更多 bug，但 rsync 的统计分析给出了 p=46% 的结论。问题不在于 AI 写不写 bug，而在于我们根本没有建立衡量 AI 代码质量的科学方法论。

#ai-coding #engineering-philosophy #software-quality

May 22, 2026

Agent Eval 全景：怎么评、怎么设计、怎么学

评测范式正在断裂。SWE-bench 退役后，Agent 产品团队该如何衡量真实能力？本文从实操流程、设计方法论、学习路径三个维度拆解 Agent Eval 全景。

#agent #evaluation #benchmark

May 20, 2026

当模型吃掉一切：AI 应用的三层生死线

#AI #产品策略 #创业

May 17, 2026

Cross-Request KV Caching：推荐系统推理的零成本加速

#推荐系统 #KV Cache #推理优化

May 17, 2026

OneTrans：一个 Transformer 统一特征交互与序列建模的工业落地

#推荐系统 #Transformer #CTR

May 17, 2026

X 开源推荐算法拆解：一个精妙的特化系统，而非通用推荐范式

X (Twitter) 2026 年开源的 For You 推荐算法是一个为自身场景量身定制的特化系统。本文从广告系统工程师视角分析其核心设计，并与字节、快手的通用架构对比，拆解其真实的可迁移价值。

#推荐系统 #Transformer #架构

May 12, 2026

Interaction Models：当 AI 模型原生理解「时间」

#LLM #多模态 #语音AI

May 11, 2026

Test-Time Scaling 的下一步：让 LLM 自己发现推理策略

#LLM #推理优化 #深度学习

May 11, 2026

幂等性没你想的那么简单——当第二个请求和第一个不同时

#分布式系统 #API设计 #后端架构

May 11, 2026

推荐系统的 Mixer 革命：从一篇论文到四家大厂全量上线

#推荐系统 #深度学习 #广告系统