SPCT

共 1 篇文章

排序

浏览更新发布点赞评论收藏下载随机

DeepSeek公布推理新论文

DeepSeek公布推理新论文

DeepSeek与清华研究者合作发布新论文，提出自我原则点评调优（SPCT）方法，提升奖励模型在推理阶段的可扩展性。通过点式生成式奖励建模（GRM）和元奖励模型（meta RM），DeepSeek-G...

热搜 # Deepseek # SPCT # 奖励模型

cbaurl

0700