拓展阅读
数学推导 · 理论基础 · 可检索知识库 · 共 48 个主题
概率模型
3 篇词向量与表示学习
4 篇神经网络基础
6 篇注意力与Transformer
4 篇预训练与微调
14 篇 BPE 算法完整步骤
L07
探针任务(Probing)
L07
预训练目标函数与架构对比
L07 ← 讲座
RLHF 完整数学推导
L08 ← 讲座
DPO 与 GRPO 完整推导
L08 ← 讲座
SimPO 与 DPO 对比推导
L09
结构化剪枝的一般框架
L09
LoRA、Adapter 与 Prompt Tuning 推导
L09 ← 讲座
字节级(Byte-Level)模型分析
L14
BPE 算法完整伪代码
L14
Tokenization 理论与多语言分析
L14 ← 讲座
Constitutional AI 两阶段算法
L16 ← 讲座
Transfusion 的混合损失函数
L17 ← 讲座
LoRA 的完整数学结构(Guest Lecture)
L18 ← 讲座
推理与评估
17 篇 Chain-of-Thought 的概率论视角
L12 ← 讲座
DeepSeek-R1 训练流程与 RL 方法对比
L12 ← 讲座
Scaling Laws 与 Chinchilla 最优
L01 ← 讲座
Agent 评估的奖励设计
L10
RAG 与 Agent 系统的形式化推导
L10 ← 讲座
Goodhart 定律的形式化
L11
NLP 评估指标与协议
L11 ← 讲座
Speculative Decoding 算法与加速分析
L13
Off-policy 问题与 RoPE Position Scaling
L13
Best-of-N 采样分析
L13
线性表示假说与 CAV
L15
校准模型必须幻觉:信息论证明
L16
算法单一文化(Algorithmic Monoculture)形式化
L16
DAPO 非对称裁剪比率的数学机制
L19
G-Vendi Score:梯度度量数据多样性
L19
RLP Information Gain Reward 推导
L19
GRPO 目标函数与 Pass@K 的关系
L19 ← 讲座