DeepSeek公布推理新论文

DeepSeek与清华研究者合作发布新论文,提出自我原则点评调优(SPCT)方法,提升奖励模型在推理阶段的可扩展性。通过点式生成式奖励建模(GRM)和元奖励模型(meta RM),DeepSeek-GRM-27B在多个基准测试中表现优于大规模模型,证明推理时扩展性能优于单纯扩大模型规模。研究为奖励模型优化提供了新思路。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...