A Series on LLMs (I)
2025-12-05
深入讲解 LLM 训练中的 RLHF、PPO、DPO 三种核心方法的原理和伪代码实现,帮助理解大模型对齐技术。
1986 字
|
10 分钟
A Series on LLMs (II)
2025-02-06
对 LLM 推理中的提效技术进行学习,如 KV-Cache、Flash-Attention 的原理、实现及其如何避免注意力机制中的重复计算。
1220 字
|
6 分钟
Deep Reinforcement Learning Series
2024-04-30
系统学习强化学习中的策略梯度与价值方法两大类参数更新算法,涵盖 PPO、Q-Learning 等核心方法的原理与公式推导。
6258 字
|
31 分钟
Causal Inference Series (I)
2024-04-26
因果推断入门系列第一篇,基于 Brady Neal 的课程,从辛普森悖论出发揭示相关性与因果性的本质区别。
2407 字
|
12 分钟
Lang Chain Series
2024-04-24
对 LangChain 框架的核心组件(Prompts、Models、Indexes 等)进行学习记录与解读,加入个人理解与代码注释,方便快速上手。
8436 字
|
42 分钟
L1 and L2 Regularization
2024-04-20
从多个角度探讨 L1 和 L2 正则化的原理,解释其为何能有效防止模型过拟合,涵盖公式推导、几何解释和贝叶斯视角。
1702 字
|
9 分钟
AdmaW(part I) Weight Decay == L2 Regularization?
2024-04-20
探讨 SGD 与 Adam 优化器下 Weight Decay 和 L2 正则化的等价性差异,引入 AdamW 优化器的设计动机与原理。
732 字
|
4 分钟