2月10日,清华大学KVCache.AI团队与趋境科技联合发布的KTransformers开源项目迎来重大更新,成功打破大模型推理算力门槛。此次更新支持在24G显存的设备上本地运行671B参数的DeepSeek-R1满血版,预处理速度达286 tokens/s,推理速度最高14 tokens/s。项目整合Intel AMX指令集,提升CPU预填充速度,兼容Hugginface Transformers API与ChatGPT式Web界面,极大降低上手难度。