大模型量化入门 — 从"最小化误差"出发,一步步推导量化公式
2026-05-16
不直接给公式,而是从"我想把 16 位浮点数压缩到 4 位整数,同时尽量少损失精度"这个目标出发,一步步推出 scale、zero_point、GPTQ、AWQ 的量化方案。
4215 字
|
21 分钟
RoPE 旋转位置编码 — 从目标出发,一步步推出旋转矩阵
2026-05-16
不直接给公式,而是从"我希望内积只依赖相对位置"这个目标出发,一步步反推出旋转矩阵形式的推导过程。
3358 字
|
17 分钟
大模型 Decoding 策略 — 从"我该怎么选"出发,一步步推出一套选词方案
2026-05-16
不直接罗列方法,而是从"模型给出概率后,怎么从中选一个词"这个最朴素的问题出发,一步步推出 temperature、top-k、top-p、beam search 的原理。
3237 字
|
16 分钟
大模型推理显存拆解 — 一步步算清你的显存去哪了
2026-05-16
以 Llama-3-8B 为例,从参数怎么算、KV Cache 公式怎么来的、激活值有多大,到每项怎么优化,一步步推导而不是直接扔给你一个数字。
2766 字
|
14 分钟
长上下文扩展 — 从 RoPE 出发,一步步推导 PI、NTK 到 YaRN
2026-05-16
从 RoPE 的 θ 公式出发,先想清楚"为什么 RoPE 在训练长度外效果差",再一步步推出 PI、NTK-aware、YaRN 的改进思路和数学原理。
3291 字
|
16 分钟
Tokenization 完全指南 — 从字符到子词,模型到底是怎么"看懂"文字的
2026-05-16
从"模型只能读数字"这个最朴素的问题出发,一步步推出字符级、词级、BPE、WordPiece、Unigram、SentencePiece 的原理和代码实现。
4701 字
|
24 分钟
Building an Autonomous AI Agent on WSL
2026-05-15
记录在 WSL 上部署 Hermes Agent 的全过程——包括微信网关配置、Windows 保活机制、Camoufox 反爬浏览器的集成与使用。
3510 字
|
18 分钟