太震撼了!梁文锋携DeepSeek团队丢出注意力新机制重磅论文,网友:这才是真正的OpenAI

DeepSeek 发布了最新的研究成果——原生稀疏注意力。这项技术有望大幅提升下一代大语言模型处理长文本的能力,同时还能兼顾效率。...

DeepSeek 发布了最新的研究成果——原生稀疏注意力。这项技术有望大幅提升下一代大语言模型处理长文本的能力,同时还能兼顾效率。

太震撼了!梁文锋携DeepSeek团队丢出注意力新机制重磅论文,网友:这才是真正的OpenAI

就在马斯克发布grok3,sam altman 还在犹豫要不要开源时,刚刚梁文锋作为co-authors携deepseek研究团队丢出重磅研究论文成果,DeepSeek 发布了最新的研究成果——原生稀疏注意力(Native Sparse Attention, NSA)! 这项技术有望大幅提升下一代大语言模型处理长文本的能力,同时还能兼顾效率,可谓是 LLM 领域又一里程碑式的进展!

太震撼了!梁文锋携DeepSeek团队丢出注意力新机制重磅论文,网友:这才是真正的OpenAI

简单来说,论文的核心贡献如下:

LLM 长文本能力再突破!DeepSeek 发布原生稀疏注意力 NSA:硬件友好又高效,训推一体化!

废话不多说,我们一起来扒一扒这篇论文:

先了解一下论文的背景

近年来,我们见证了长文本建模在 AI 领域的重要性日益凸显。无论是深度推理、代码库生成、还是多轮对话,都离不开模型对长序列信息的有效处理能力。像 OpenAI 的 o-series 模型、DeepSeek-R1、以及 Google Gemini 1.5 Pro 等,都展现了处理超长文本的强大潜力。

然而,传统 Attention 机制的计算复杂度随着序列长度的增加而呈平方级增长,这成为了制约 LLM 发展的关键瓶颈。计算成本高昂,延迟成为问题, 如何在保证模型性能的同时,提升长文本处理的效率,成为了亟待解决的难题

稀疏注意力应运而生,它被认为是提升效率,同时维持模型能力的有希望的方向。DeepSeek 的 NSA 技术正是在这个方向上迈出了重要一步!

DeepSeek NSA:原生稀疏注意力,训推一体化,硬件友好

DeepSeek 提出的 NSA (Native Sparse Attention,原生稀疏注意力) 机制,巧妙地将算法创新与硬件优化相结合,旨在实现高效的长文本建模。

NSA 的核心亮点可以概括为以下两点:

1.动态分层稀疏策略: NSA 采用了一种动态分层的稀疏策略,结合了粗粒度的 Token 压缩 和 细粒度的 Token 选择。这种策略既能保证模型对全局上下文的感知,又能兼顾局部信息的精确性

2.两大关键创新:

算术强度平衡的算法设计与硬件优化: NSA 通过精巧的算法设计,并针对现代硬件进行了实现优化,显著提升了计算速度

端到端可训练: NSA 支持端到端训练,这意味着它不仅在推理阶段高效,还能减少预训练的计算量,同时不牺牲模型性能!

太震撼了!梁文锋携DeepSeek团队丢出注意力新机制重磅论文,网友:这才是真正的OpenAI

实验效果惊艳:性能不降反升,速度大幅提升!

实验结果令人振奋!如图 1 所示,在通用基准测试、长文本任务和指令推理方面,使用 NSA 预训练的模型性能不仅没有下降,反而超越了 Full Attention 模型!

更重要的是,在处理 64k 长度的序列时,NSA 在解码、前向传播和反向传播等各个阶段都实现了显著的速度提升,最高可达 11.6 倍! 这充分证明了 NSA 在模型生命周期各个阶段的效率优势

太震撼了!梁文锋携DeepSeek团队丢出注意力新机制重磅论文,网友:这才是真正的OpenAI

现有稀疏注意力方法的局限性

论文也深入分析了现有稀疏注意力方法的局限性,主要体现在两个方面:

1.推理效率的“假象”: 很多方法虽然在理论上实现了稀疏计算,但在实际推理延迟方面提升有限。这主要是因为:

• 阶段限制的稀疏性: 例如,有些方法只在自回归解码时应用稀疏性,但在预填充阶段仍然需要大量计算

• 与先进 Attention 架构的不兼容性: 一些稀疏注意力方法难以适配像 MQA 和 GQA 这样的现代高效解码架构,导致内存访问瓶颈依然存在

2.可训练稀疏性的“神话”: 许多方法主要关注推理阶段的稀疏性,而忽略了训练阶段。这导致:

• 性能退化: 后验应用稀疏性可能导致模型偏离预训练的优化轨迹。

• 训练效率需求: 长序列训练对于提升模型能力至关重要,但现有方法在训练效率方面存在不足。

• 不可训练的组件: 一些方法引入了不可微的离散操作,阻碍了梯度传播,限制了模型学习最佳稀疏模式的能力。

• 反向传播效率低下: 一些理论上可训练的方法,在实际训练中效率低下,例如 Token 粒度的选择策略可能导致非连续的内存访问,影响硬件利用率。

NSA 的核心组件:分层稀疏,逐层优化

为了克服上述局限性,NSA 架构采用了分层 Token 建模,并通过三个并行的注意力分支处理输入序列:

1. 压缩注意力 (Compressed Attention): 处理粗粒度的模式,通过压缩 Token 块来捕获全局信息。

2. 选择注意力 (Selected Attention): 处理重要的 Token 块,选择性地保留细粒度的信息。

3. 滑动窗口注意力 (Sliding Window Attention): 处理局部上下文信息。

这三个分支的输出通过一个门控机制进行聚合。为了最大化效率,NSA 还专门设计了硬件优化的 Kernel

太震撼了!梁文锋携DeepSeek团队丢出注意力新机制重磅论文,网友:这才是真正的OpenAI

写在最后:

DeepSeek 的 NSA 技术为长文本建模带来了新的突破。它不仅在性能上超越了传统的 Full Attention 模型,更在效率方面实现了显著的提升,尤其是在长序列场景下。NSA 的 硬件友好设计 和 训推一体化特性,使其在实际应用中更具优势,有望加速下一代 LLM 在长文本处理领域的应用落地。

这项研究无疑为稀疏注意力领域带来了新的思路和方向。未来,我们期待看到更多基于 NSA 技术的创新应用,共同推动 AI 技术的进步!

最后不得不在强调一下,梁文锋不仅是deepseek ceo,很明显他还在研究的最前沿参与研究,这是令我最震撼的,他不仅有管理能力,而且还真正的懂AI,deepseek前途无量

各路网友都在喊,这才是真正的OpenAI。

来源:AI寒武纪,原文标题:《太震撼了!梁文锋携DeepSeek团队丢出注意力新机制重磅论文,网友:这才是真正的OpenAI》

风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

本文来自作者[admin]投稿,不代表竹日号立场,如若转载,请注明出处:https://eodbgbl.cn/post/8033.html

(36)

文章推荐

  • win7旗舰版32位系统哪里可以下载?如何安全下载?

    win7旗舰版32位系统哪里可以下载?如何安全下载?win7旗舰版32位系统哪里可以下载?目前,不建议从非官方渠道下载Windows7系统,因为这样可能会存在版权问题以及安全风险,如包含恶意软件、病毒等。如何安全下载?如果确实需要安装Windows7系统,建议通

    2025年01月16日
    111
  • 感冒药饭前吃还是饭后吃?哪种情况适合饭前或饭后服用感冒药

    感冒药饭前吃还是饭后吃?哪种情况适合饭前或饭后服用感冒药感冒药饭前吃还是饭后吃感冒药饭前吃还是饭后吃,并没有绝对的标准,需要根据具体药物和个人情况来决定。一些感冒药可能对胃肠道有一定刺激性,如含有对乙酰氨基酚等成分的药物,这类药物饭后服用可以减少对胃肠道的刺激,降低不良反应的发生风险。

    2025年01月16日
    60
  • 韩国拟从第二季度开始允许非金融机构开设加密货币账户

      韩国金融服务委员会(FSC)周四表示,将从今年第二季度开始允许企业开设加密货币交易的银行账户。  但该机构表示,仍将禁止金融公司参与虚拟资产市场,这意味着他们的虚拟资产交易所交易基金(ETF)的上市也将暂时被禁止。  韩国金融服务委员会表示,从第二季度开始,大学和加密资产交易所等非营利组织将

    2025年02月13日
    36
  • Mhmarkets迈汇平台:黄金市场回调与长期投资价值

    3月3日,近期黄金市场经历了显著回调,结束了连续八周的上涨趋势。Mhmarkets迈汇平台表示,尽管黄金价格在上周下跌超过3%,但市场对黄金的长期前景仍保持乐观。Mhmarkets迈汇平台认为,黄金市场的回调并非意外。自年初以来,黄金市场的投机性多头头寸大幅增加,导致市场过度拥挤,回调压力逐渐累

    2025年03月03日
    19
  • 光大期货:3月4日能源化工日报

      原油:  周一油价再度下跌,其中WTI4月合约收盘下跌1.39美元至68.37美元/桶,跌幅1.99%。布伦特新换5月合约收盘下跌1.19美元至71.62美元/桶,跌幅1.63%。SC2504以526.5元/桶收盘,下跌12.7元/桶,跌幅为2.36%。OPEC声明称OPEC+将于2

    2025年03月04日
    25
  • 支付端改革和政策延续性同样重要,代表委员热议向新提质“良方”

    来源:@华夏时报微博华夏时报记者杨燕两会报道3月5日,十四届全国人大三次会议在北京开幕,“创新药”再次成为政府工作报告中多次提及的高频词汇。报告明确,未来将优化药品集采政策、健全价格机制、制定创新药目录,并全面建立药品耗材追溯机制。临近2025年“十四五”规划收官,中国生物医药产业正站在

    2025年03月08日
    19
  • 爱邦保险经纪已调整页面,退保页面取消“套娃式”设计

      来源:北京商报  北京商报讯(记者李秀梅)近日,北京商报记者刊发了《3·15守护消费|退保难于上青天!互联网保险“出坑”记》报道。直指爱邦保险经纪有限公司(以下简称“爱邦保险经纪”)退保难问题。记者在报道中提到,在爱邦保险经纪微信小程序中,界面设计存在明显的服务入口层级差异。涉及用户权益退出

    2025年03月14日
    17
  • 郑州银行:孙海刚因工作调整辞去副行长职务

      3月27日金融一线消息,郑州银行今日发布公告称,收到孙海刚的辞任报告,因工作调整辞去本行副行长职务。辞任后,孙海刚将不再担任本行及本行控股子公司任何职务。

    2025年03月27日
    11
  • 净利连跌4年,市值缩水6000亿,金龙鱼还能翻身吗?

    来源:@全景网微博一家外资血统公司,却能做到中国粮油市场的龙头,金龙鱼长期以来依靠的是“薄利多销”这一杀手锏。这一向被认为是金龙鱼的护城河——低毛利减少了其他潜在竞争者进入行业的机会。但近年来,这薄利多销的生意也不好做了。3月21日晚间,金龙鱼披露了2024年年报,向投资者交出一份营收净利“双

    2025年03月27日
    12
  • 交银国际:下调新特能源目标价至6.28港元 维持“买入”

      交银国际发布研报称,下调新特能源(01799)目标价至6.28港元,维持“买入”评级。该行指,公司2024年亏损39.1亿元人民币(下同),略优于业绩预告中值,其中多晶硅板块亏损约50亿元,其他板块盈利约10亿元,计提34.2亿元资产减值,费用增长较快。第四季度度公司多晶硅售价环比明显回升。因

    2025年04月03日
    5

发表回复

本站作者后才能评论

评论列表(4条)

  • admin
    admin 2025年04月05日

    我是竹日号的签约作者“admin”!

  • admin
    admin 2025年04月05日

    希望本篇文章《太震撼了!梁文锋携DeepSeek团队丢出注意力新机制重磅论文,网友:这才是真正的OpenAI》能对你有所帮助!

  • admin
    admin 2025年04月05日

    本站[竹日号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • admin
    admin 2025年04月05日

    本文概览:DeepSeek 发布了最新的研究成果——原生稀疏注意力。这项技术有望大幅提升下一代大语言模型处理长文本的能力,同时还能兼顾效率。...

    联系我们

    邮件:竹日号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们