DeepSeek公布推理新论文DeepSeek与清华研究者合作发布新论文,提出自我原则点评调优(SPCT)方法,提升奖励模型在推理阶段的可扩展性。通过点式生成式奖励建模(GRM)和元奖励模型(meta RM),DeepSeek-G...热搜# Deepseek# SPCT# 奖励模型cbaurl0250