梁文锋带实习生发论文2月18日,DeepSeek和月之暗面分别发布论文,挑战Transformer架构的注意力机制。DeepSeek的NSA(原生稀疏注意力)技术通过动态分层稀疏策略、硬件优化等手段,大幅提升长文本处理效...热搜# Deepseek# NSA# 梁文锋2个月前040
杨植麟和梁文锋论文“撞车”2月18日,DeepSeek发布新论文,介绍原生稀疏注意力(NSA)技术,大幅提升长文本处理速度,最高达11.6倍,并在基准测试中超越传统全注意力模型。创始人梁文锋亲自提交论文。同日,月之暗面创始人杨...热搜# Deepseek# MoBA# NSA2个月前070