清华团队突破大模型算力难题

2月10日,清华大学KVCache.AI团队与趋境科技联合发布的KTransformers开源项目迎来重大更新,成功打破大模型推理算力门槛。此次更新支持在24G显存的设备上本地运行671B参数的DeepSeek-R1满血版,预处理速度达286 tokens/s,推理速度最高14 tokens/s。项目整合Intel AMX指令集,提升CPU预填充速度,兼容Hugginface Transformers API与ChatGPT式Web界面,极大降低上手难度。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...