Blog

Pinned December 5, 2025

Pinned September 22, 2025

July 28, 2026

July 26, 2026

DeepSeek 用美国 1/20 的算力做到只落后一到两年。这不是省钱，是约束迫使他们走了一条完全不同的架构路线：MoE 稀疏激活、FP8 全流程训练、自研稀疏注意力、昇腾 Day 0 适配。

July 24, 2026

Harness Engineering 有一个结构性盲区：RL 训练缺少代码可维护性的奖励信号。这让所有试图关灯运行的 Software Factory 在 3-6 个月后被迫重新开灯。

July 19, 2026

July 7, 2026

June 13, 2026

一篇文章补齐从机器学习基础、深度学习、Transformer/LLM、搜广推系统架构到向量量化的全部知识链——读完后直接进入 RQ-VAE Semantic ID 训练那篇文章，不会有任何理解断裂。

June 13, 2026

把码本向量维度改小，利用率飙到 90%+——这说明模型学好了吗？从码本崩塌到 Scaling Law，深入拆解 RQ-VAE Semantic ID 训练中的七个核心工程权衡。

June 7, 2026

给你 16GB 显存的 GPU，你能部署多大的模型？从显存计算、存储层级、Roofline Model 到量化策略，按 Bloom 认知分类法建立 GPU 推理部署的完整认知框架。

June 7, 2026

为什么 DeepSeek-R1 用 RL 能成功，但大多数学术界复现全失败？从 pass@k 的视角理解 RL 训练 LLM 的本质限制、五大失败模式和 entropy collapse 现象。

June 7, 2026

从 PagedAttention 原理到多卡部署下的 KV Cache 容量计算，彻底搞懂为什么单卡 metric 显示 52K 却能跑 200K+ 上下文。涵盖 Block Manager 架构、TP/CP 并行策略与 MLA 架构特殊性。