梁文锋带实习生发论文2月18日,DeepSeek和月之暗面分别发布论文,挑战Transformer架构的注意力机制。DeepSeek的NSA(原生稀疏注意力)技术通过动态分层稀疏策略、硬件优化等手段,大幅提升长文本处理效...热搜# Deepseek# NSA# 梁文锋cbaurl0290