2月18日,DeepSeek和月之暗面分别发布论文,挑战Transformer架构的注意力机制。DeepSeek的NSA(原生稀疏注意力)技术通过动态分层稀疏策略、硬件优化等手段,大幅提升长文本处理效率,最高提速11.6倍。月之暗面的MoBA方法则允许模型在全注意力和稀疏注意力间切换。两家公司创始人梁文锋和杨植麟均参与研究。风投公司RAI Digital认为,这些新技术将使AI处理长文本更快、更高效。