CHENHUI · 格物

A Series on LLMs (I)

2025-12-05

Deep Learning

reinforcement learning

/

deep learning

/

nlp

/

llm

深入讲解 LLM 训练中的 RLHF、PPO、DPO 三种核心方法的原理和伪代码实现，帮助理解大模型对齐技术。

1986 字

|

10 分钟

A Series on LLMs (II)

2025-02-06

Deep Learning

reinforcement learning

/

deep learning

/

nlp

/

llm

对 LLM 推理中的提效技术进行学习，如 KV-Cache、Flash-Attention 的原理、实现及其如何避免注意力机制中的重复计算。

1220 字

|

6 分钟

Causal Inference Series (II)

2025-02-05

Causal Inference

machine learning

/

mathematics

/

statistics

/

causal inference

因果推断系列第二篇，基于因果推断综述论文，系统介绍因果推断的基本符号、关键假设和核心定义。

1417 字

|

7 分钟

Deep Reinforcement Learning Series

2024-04-30

Deep Learning

reinforcement learning

/

deep learning

系统学习强化学习中的策略梯度与价值方法两大类参数更新算法，涵盖 PPO、Q-Learning 等核心方法的原理与公式推导。

6258 字

|

31 分钟

Causal Inference Series (I)

2024-04-26

Causal Inference

machine learning

/

mathematics

/

statistics

/

causal inference

因果推断入门系列第一篇，基于 Brady Neal 的课程，从辛普森悖论出发揭示相关性与因果性的本质区别。

2407 字

|

12 分钟

Lang Chain Series

2024-04-24

Deep Learning

deep learning

/

llm

/

langchain

/

nlp

对 LangChain 框架的核心组件（Prompts、Models、Indexes 等）进行学习记录与解读，加入个人理解与代码注释，方便快速上手。

8436 字

|

42 分钟

L1 and L2 Regularization

2024-04-20

Machine Learning

machine learning

/

mathematics

/

statistics

从多个角度探讨 L1 和 L2 正则化的原理，解释其为何能有效防止模型过拟合，涵盖公式推导、几何解释和贝叶斯视角。

1702 字

|

9 分钟

AdmaW(part I) Weight Decay == L2 Regularization?

2024-04-20

Deep Learning

machine learning

/

mathematics

/

statistics

/

deep learning

探讨 SGD 与 Adam 优化器下 Weight Decay 和 L2 正则化的等价性差异，引入 AdamW 优化器的设计动机与原理。

732 字

|

4 分钟