#强化学习 共 3 个条目 论文 (1) RAMP: Reinforcement Adaptive Mixed-Precision Quantization for Efficient On-Device LLM Inference 拓展阅读 (2) Agent 评估的奖励设计 DeepSeek-R1 训练流程与 RL 方法对比