DeepSeek与清华研究者合作发布新论文,提出自我原则点评调优(SPCT)方法,提升奖励模型在推理阶段的可扩展性。通过点式生成式奖励建模(GRM)和元奖励模型(meta RM),DeepSeek-GRM-27B在多个基准测试中表现优于大规模模型,证明推理时扩展性能优于单纯扩大模型规模。研究为奖励模型优化提供了新思路。