CS224N
/
学习笔记
搜索
⌘K
#
偏好优化
共 2 个条目
拓展阅读 (2)
SimPO 与 DPO 对比推导
DPO 与 GRPO 完整推导