网易首页 > 网易号 > 正文 申请入驻

梁文锋参与著作!DeepSeek最新论文介绍新机制 可使AI模型进一步降本增效

0
分享至

《科创板日报》2月18日讯(编辑 宋子乔) 2月18日,DeepSeek团队发布一篇论文介绍了新的注意力机制NSA(Natively Sparse Attention,原生稀疏注意力机制)。

NSA专为长文本训练与推理设计,能利用动态分层稀疏策略等方法,通过针对现代硬件的优化设计,显著优化传统AI模型在训练和推理过程中的表现,特别是提升长上下文的推理能力,在保证性能的同时提升了推理速度,并有效降低了预训练成本。

DeepSeek创始人梁文锋现身论文著作者之中,在作者排名中位列倒数第二。

其他研究人员来自DeepSeek、北大和华盛顿大学,其中第一作者Jingyang Yuan(袁景阳)是在DeepSeek实习期间完成的这项研究。

资料显示,袁景阳目前为北京大学硕士研究生。他的研究领域包括大型语言模型(LLM)、人工智能在科学中的应用(AI for Science)。他是DeepSeek-V3技术报告的主要作者之一,还参与了DeepSeek-R1项目,该项目旨在通过强化学习激励大型语言模型的推理能力。

在论文中,DeepSeek团队表示,随着大型语言模型的发展,长上下文建模变得越来越重要,但传统注意力机制的计算复杂度随着序列长度的增加而呈平方级增长,成为制约模型发展的关键瓶颈。

NSA便是为高效处理长上下文任务而生的一种技术路径,其核心创新在于:

1)动态分层稀疏策略:结合粗粒度的Token压缩和细粒度的Token选择,既保证全局上下文感知,又兼顾局部信息的精确性。
2)硬件对齐与端到端训练:通过算术强度平衡的算法设计和硬件优化,显著提升计算速度,同时支持端到端训练,减少预训练计算量。

实验表明,NSA不仅在通用任务和长上下文任务中表现出色,还在链式推理等复杂任务中展现了强大的潜力,且推理速度加快。在通用基准测试、长文本处理以及基于指令的推理任务中,NSA的表现均能达到甚至超越传统全注意力(Full Attention)模型的水平,其以性价比极高的方式,罕见地在训练阶段应用稀疏性,在训推场景中均实现速度的明显提升,特别是在解码阶段实现了高达11.6倍的提升。

通过高效的长序列处理能力,NSA使模型能够直接处理整本书籍、代码仓库或多轮对话(如千轮客服场景),扩展了大语言模型在文档分析、代码生成、复杂推理等领域的应用边界。例如,Gemini 1.5 Pro已展示长上下文潜力,NSA可进一步降低此类模型的训练与推理成本。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
扎心!沪上皇富二代秦奋被曝身高160,又瘦又矮,体重不超过80斤

扎心!沪上皇富二代秦奋被曝身高160,又瘦又矮,体重不超过80斤

八卦王者
2026-05-22 09:29:21
商务部正式确认:将引进200架波音飞机!订单估值或190亿美元?

商务部正式确认:将引进200架波音飞机!订单估值或190亿美元?

王爷说图表
2026-05-20 17:05:16
广厦球迷意难平!不止因为80-91不敌深圳,更多在于以下这五点!

广厦球迷意难平!不止因为80-91不敌深圳,更多在于以下这五点!

田先生篮球
2026-05-21 22:34:22
著名神经外科专家惠国桢逝世,系垂体瘤治疗领域奠基人之一

著名神经外科专家惠国桢逝世,系垂体瘤治疗领域奠基人之一

澎湃新闻
2026-05-21 22:06:27
为什么都讨厌阿森纳?|颜强专栏

为什么都讨厌阿森纳?|颜强专栏

颜强
2026-05-22 13:30:35
上海180多名老年人被骗,不乏大学教授!4人被刑拘,涉案金额210余万元,警方拆解诈骗套路:眼见已不一定为实

上海180多名老年人被骗,不乏大学教授!4人被刑拘,涉案金额210余万元,警方拆解诈骗套路:眼见已不一定为实

新民晚报
2026-05-22 12:05:55
9票:5票,菲最高法院驳回德拉罗萨的申请,最后法律保护伞没了

9票:5票,菲最高法院驳回德拉罗萨的申请,最后法律保护伞没了

纪中百大事
2026-05-22 09:32:59
山姆又出断货王!这盒89元的“雪茄”,开始掏男人的钱包了?

山姆又出断货王!这盒89元的“雪茄”,开始掏男人的钱包了?

Foodaily每日食品
2026-05-22 08:12:48
莫迪在挪威吃瘪难堪!印度国内愤怒:全世界对印度总有偏见!

莫迪在挪威吃瘪难堪!印度国内愤怒:全世界对印度总有偏见!

坠入二次元的海洋
2026-05-21 17:31:09
606票:16票,欧盟报复开始,对中国进口钢铁征收50%关税

606票:16票,欧盟报复开始,对中国进口钢铁征收50%关税

流史岁月
2026-05-21 14:25:07
三位离休干部客死美日澳,身份成谜

三位离休干部客死美日澳,身份成谜

小虎新车推荐员
2026-05-22 06:55:23
印度首列高铁亮相,时速320公里,要超越中国复兴号,真相尴尬了

印度首列高铁亮相,时速320公里,要超越中国复兴号,真相尴尬了

王新喜
2026-05-21 21:34:52
杭州海关原副厅局级干部王华雄被开除党籍

杭州海关原副厅局级干部王华雄被开除党籍

界面新闻
2026-05-22 09:31:22
3分钟大定20万台、18小时锁单24万台:小米YU7卖爆了!10个月交付23.2万台

3分钟大定20万台、18小时锁单24万台:小米YU7卖爆了!10个月交付23.2万台

快科技
2026-05-21 20:17:26
宏远速递!杜锋支招深圳,威姆斯上演辽粤对决,麦考尔回归广州

宏远速递!杜锋支招深圳,威姆斯上演辽粤对决,麦考尔回归广州

多特体育说
2026-05-22 13:56:35
吴宜泽:现在最想和丁俊晖打一场,也想赢奥沙利文

吴宜泽:现在最想和丁俊晖打一场,也想赢奥沙利文

体坛周报
2026-05-22 14:31:29
国产显卡LX 7G100实测:性能追平GTX 1660,但定价让人沉默

国产显卡LX 7G100实测:性能追平GTX 1660,但定价让人沉默

雾野寻踪2
2026-05-22 00:40:58
这才是普京着急访华的真正原因!

这才是普京着急访华的真正原因!

李荣茂
2026-05-21 18:56:06
乌克兰无人机“团灭”俄联邦安全局赫尔松总部,俄方损失约100人

乌克兰无人机“团灭”俄联邦安全局赫尔松总部,俄方损失约100人

山河路口
2026-05-22 12:25:52
当稳定比自由更重要,我们到底在害怕什么

当稳定比自由更重要,我们到底在害怕什么

一隅安稳
2026-05-21 00:52:38
2026-05-22 14:51:00
财联社 incentive-icons
财联社
以“准确、快速、权威、专业”为新闻准则,为投资者提供专业的投资资讯。
722546文章数 1021000关注度
往期回顾 全部

科技要闻

雷军:输给特斯拉不丢人

头条要闻

上海180多名老年人被骗认购动物 其中不乏大学教授

头条要闻

上海180多名老年人被骗认购动物 其中不乏大学教授

体育要闻

最糟糕裁判?他想要退役当市长

娱乐要闻

周也恋情曝光!对象身份不简单

财经要闻

又一存储芯片类产品,价格暴涨300%

汽车要闻

配1.5L动力/增加新配色 吉利帝豪向上系列将于5月24日上市

态度原创

艺术
房产
时尚
公开课
军事航空

艺术要闻

海市蜃楼水中树

房产要闻

顺德澐璟楼王『澐冠』启幕|一场高阶共鸣的静奢美学之约

没想到今年最火的发型是它,从18岁到80岁都适合

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国代理海军部长:正研拟暂停对台140亿美元军售计划

无障碍浏览 进入关怀版