CS224N
/
学习笔记
搜索
⌘K
#
奖励设计
共 2 个条目
拓展阅读 (2)
Agent 评估的奖励设计
RLP Information Gain Reward 推导