DeepSeek发布最新技术论文!梁文锋挂名共创

文章正文
发布时间:2025-02-25 01:07

2 月 18 日,DeepSeek 官方在海外社交平台 X 上发布了一篇纯技术论文报告,论文主要内容是关于 NSA(Natively Sparse Attention,原生稀疏注意力),官方介绍这是一种用于超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制。

具体来说,NSA 针对现代硬件进行了优化设计,能够加速推理过程,同时降低预训练成本,且不牺牲性能。它在通用基准测试、长文本任务和基于指令的推理中均能达到或超越全注意力模型的表现。稀疏注意力为提高效率同时保持模型能力提供了一个有前景的方向。

记者注意到,在这篇名为《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的论文署名中,DeepSeek 创始人梁文锋也作为共创在列。

自 1 月 20 日发布 DeepSeek-R1 并搅动 AI 圈以来,DeepSeek 方面一直较为低调,这是这么多天以来 DeepSeek 唯一发布的技术动态。

首页
评论
分享
Top