L16: AI's Impact on Humanity

Week 8 · Thu Feb 26 2026 08:00:00 GMT+0800 (中国标准时间)

进度: 0/22 (0%)

下载 PDF

/ 0

100%

正在加载 PDF...

L16: AI’s Impact on Humanity

授课: Yejin Choi (Stanford & NVIDIA)
日期: Feb 26, 2026 (Week 8)
Project Milestone Due

Slides

EN
ZH / BILINGUAL: 见 outputs/cs224n_translations/

核心知识点

Part 1: Why Language Models Hallucinate

Hallucination 现状: 律师用 ChatGPT 引用虚假案例；NeurIPS 2025 至少 51 篇论文含 100+ 幻觉引用
Better reasoning != less hallucination: o3 准确率更高，但幻觉率也更高（SimpleQA: acc 0.49, halluc 0.51）
Vectara Hallucination Leaderboard: 最优模型（antgroup/finix_s1_32b）幻觉率仍有 1.8%
Calibration（校准）: Kadavath et al. 2022 — Base LLM 在多选题上校准良好，但 RLHF 后校准崩塌
Sycophancy（谄媚）: Sharma et al. 2024 — RLHF 使模型倾向于迎合用户而非说真话，且大模型更严重（inverse scaling）
“Calibrated Language Models Must Hallucinate” (Kalai & Vempala 2024):
- Arbitrary facts vs. Systematic facts
- 校准模型必须为未见事件保留概率质量 → Good-Turing Estimator
- 结论: 幻觉是校准 LM 的固有限制
Hallucination survives post-training: benchmarks 惩罚弃权、奖励自信回答
解决方向: Constitutional AI — 用 AI 反馈替代人类反馈，减少谄媚偏见

📖 拓展阅读：校准模型必须幻觉——信息论证明（Kalai & Vempala 2024）→

Part 2: The Paradox of AI-Assisted Creativity

Doshi & Hauser 2023 (Science Advances): AI 辅助写作个体质量提升 8-9%，但跨个体多样性显著降低
Padmakumar & He 2024 (ICLR): InstructGPT 导致内容多样性下降，base GPT-3 无此问题 → RLHF 是罪魁祸首
Cultural Homogenization: AI 建议推动用户趋向西方语言规范，非西方文化背景用户词汇多样性降低最多
Algorithmic Monoculture (Kleinberg & Raghavan 2021): 多个决策者依赖同一模型 → 关联输出和关联失败
Artificial Hivemind (NeurIPS 2025): LLM 存在 Intra-Model 和 Inter-Model Homogeneity
Mode collapse + Anchoring effects + Cognitive offloading: AI 降低认知努力但损害批判性思维
Terence Tao 的比喻: AI 像直升机送你到目的地，你错过了旅途本身的价值

📖 拓展阅读：算法单一文化（Algorithmic Monoculture）形式化 →

Part 3: AI’s Impact on Workforce

Dario Amodei (Anthropic CEO): “Software engineers could go extinct this year”
WEF Future of Jobs Report 2025: 预计 2030 年净增 7800 万岗位（+170M 创造，-92M 消失）
最快增长: Big Data Specialists, FinTech Engineers, AI/ML Specialists
最快衰退: Postal Clerks, Bank Tellers, Data Entry Clerks
Remote Labor Index (RLI): 前沿 AI agent 自动化率不足 4%（Opus 4.5 仅 3.75%）
核心技能 2025: Analytical thinking (69%), Resilience (67%), Leadership (61%)

Part 4: The Challenges of Value Alignment

Constitutional AI (Bai et al. 2022): 用 AI 生成的反馈替代人类偏好标注
- Phase 1 (SL): 模型生成 → AI 基于 constitution 批评 → 模型修订 → SFT
- Phase 2 (RL): AI 偏好标注 → reward model → RL 优化
- 结果: Constitutional RL 实现 Pareto 改进（同时提升 helpful 和 harmless）

Part 5: The Era of Smart Scaling (Yejin Choi 的研究)

暴力扩展时代终结: 数据有限（“The fossil fuel of AI”），Ilya Sutskever NeurIPS 2024
三条出路: (1) 有限数据学更好 (2) 合成数据 (3) 超越数据推理
LRMs 崛起 (Large Reasoning Models): DeepSeek-R1, QwQ, o3 — 长思考 + RL + 探索学习
ProRL (NeurIPS 2025): 在 1.5B 小模型上持续 RL → 可匹敌 4.5x 大模型
- 核心: Sustainable entropy via decoupled clipping (DAPO)
- 动态调节 epsilon_high 维持熵稳定，周期性重置参考策略
Prismatic Synthesis (NeurIPS 2025): 梯度驱动的数据多样化
- G-Vendi Score: 用梯度表示数据点，密度矩阵的熵作为多样性度量
- 用 20x 小的 R1-32B 生成数据 + 零人类标注即可超越 baseline
RLP (ICLR 2026): Reinforcement as a Pretraining Objective
- 在预训练阶段就注入推理能力，而非作为事后补丁
- 相比 BASE +19%, 相比 CPT +17%，且优势在 post-training 后复合增长

📐 Constitutional AI 的两阶段算法

Phase 1 — SL-CAI（监督学习）：

给定有害 prompt $x$ ，让 LM 生成初始回应 $r_0$
给 LM 一条 constitution 原则 $p_i$ （如”请解释为什么上面的回应有害，并修订”）
LM 生成批评 $c_i$ 和修订回应 $r_i$
重复 $k$ 次，得到 $r_k$
用 $(x, r_k)$ 对做 SFT

Phase 2 — RL-CAI（强化学习）：

用 AI 偏好标注替代人类标注：比较两个回应 $y_1, y_2$ ，选择符合 constitution 的那个
训练偏好模型（PM）： $\mathcal{L}_{\text{PM}} = -\log \sigma(R(x, y_{\text{chosen}}) - R(x, y_{\text{rejected}}))$
用 PM 做 RL 优化（RLHF 管道，但奖励信号来自 AI 而非人类）

关键优势：人类标注者需要接触有害内容（有心理健康风险），AI 偏好标注则不需要人类直接与有害材料交互。

📚 已收录至拓展阅读知识库

🔗 与其他讲座的关联

L08 Post-training：Constitutional AI 是 RLHF 的重要变体——用 AI 偏好替代人类偏好
L19 开放问题：Yejin Choi 的”Smart Scaling”主题贯穿 L16 和 L19——ProRL 和 RLP 都是”以智取胜”而非”以量取胜”的代表
L13 推理：LRM 的崛起是幻觉率提升的背景——“思考更多”有时意味着”更自信地犯错”（o3 的悖论）

关联概念

Hallucination, RLHF, Sycophancy, Calibration
Constitutional AI, Value Alignment
Good-Turing Estimator, Mode Collapse
Scaling Laws, Synthetic Data
L08 Post-training

个人笔记

Yejin Choi 的核心主张: effortless RL/SFT/synthetic data 的结论 != effortful 版本的结论
小模型 + 精心设计的算法可以打败暴力扩展 — 这与 AdaGrow 的”高效增长”理念高度一致

L16: AI's Impact on Humanity

L16: AI’s Impact on Humanity

Slides

核心知识点

Part 1: Why Language Models Hallucinate

Part 2: The Paradox of AI-Assisted Creativity

Part 3: AI’s Impact on Workforce

Part 4: The Challenges of Value Alignment

Part 5: The Era of Smart Scaling (Yejin Choi 的研究)

📐 Constitutional AI 的两阶段算法

🔗 与其他讲座的关联

推荐阅读

关联概念

个人笔记

小模型 + 精心设计的算法可以打败暴力扩展 — 这与 AdaGrow 的”高效增长”理念高度一致