网易首页 > 网易号 > 正文 申请入驻

只有模仿没有创新?国产 AI 用行动打破质疑

0
分享至

MiniMax,选择用开源「震撼」一下全球同行。

大模型时代已经正式迈入第三年。

回首过去的两年,不禁令人感慨。每年都有基座大模型架构已经尘埃落定的声音,然而每年,技术都在飞快地迭代创新,突破人们想象。

2024 年,OpenAI 的推理模型,通过对模型架构的创新,用 RL 的方法延续 Scaling Law,让大模型的智力水平持续进展;而中国公司也并没有落后,价格屠夫 DeepSeek 通过 MLA 的架构创新,让推理成本直接降低了一个数量级。

2025 年开年,令人欣喜的是,我们看到了一向在人们印象中是「低调做产品」的 MiniMax 公司,也加入了开源行列,将最先进的底层技术直接与社区和行业分享。

1 月 15 日,大模型公司 MiniMax 正式发布了 MiniMax-01 系列模型。它包括基础语言大模型 MiniMax-Text-01,和在其上集成了一个轻量级 ViT 模型而开发的视觉多模态大模型 MiniMax-VL-01。


开源界面|图片来源:GitHub

「卷」起来的大模型公司,令人乐见。开源会提升创新效率,越来越好的基座模型之上,才搭建越来越有用的应用,进入千家万户,帮人们解放生产力。

这是 MiniMax 第一次发布开源模型,一出手就是一个炸裂模型架构创新:新模型采用了 MiniMax 独有的 Lightening Attention 机制,借鉴了 Linear Attention(线性注意力)机制,是全球第一次将 Linear Attention 机制引入到商业化规模的模型当中。

效果也是立竿见影,模型上下文长度直接达到了顶尖模型的 20-32 倍水平,推理时的上下文窗口能达到 400 万 token。模型效果立刻在海外上引起了关注。


X 用户感叹 MiniMax-Text-01 可以在 400 万 token 上实现完美的海底捞针 | 图片来源:X


另一个来自中国公司的强大模型,在学术测试集上表现优越|图片来源:X

模型的上下文窗口,指的是模型在生成每个新 token 时,实际参考的前面内容的范围。就像是模型能够一次性从书架上取下的书籍数量。模型的上下文窗口越大,模型生成时可以参考的信息量就越多,表现也就更加智能。

站在 2025 年年初的时间点,长上下文窗口还有一个新的意义:为模型的 Agent 能力,打下坚实基础。

业界公认,2025 年,Agent 能力将是 AI 届「卷生卷死」的重点,连 OpenAI 都在本周内推出了 Tasks,一个 AI Agent 的雏型。在 2025 年,我们很有可能看到越来越多真正「全自动的」AI,在我们的生活中起作用。甚至不同「全自动的」的 AI 共同协作,帮我们处理事务。而这对基座模型的能力,有极大的考验。而长上下文是 Agent 能力实现的必要条件。

看起来,2025 年,基座大模型之战仍未结束;中国公司发力,也才刚刚开始。

01

Linear Attention 架构

的第一次大规模使用

此次 MiniMax 开源的模型,最大的创新点,在于使用了 MiniMax 独有的 Lightening Attention 机制,这是一种线性注意力。

在传统的 Transformer 架构中,最「烧」算力和显存的部分往往是自注意力(Self-Attention)机制。原因在于,标准的自注意力需要对所有的词(Token)两两计算注意力分数,计算量随着序列长度 n 的增长是平方级(O(n²))。

如果用通俗的语言来形容,类似于你在举办一场联谊会,人很多。如果每个人都要两两打招呼,沟通成本会随着人数增加而急剧上升,每个人都得重复无数次「握手」。

这带来了一系列的问题——其中一个就是,联谊会的人数,也就是模型的上下文的窗口,很难无限扩展。硬要扩展,对于算力的需求就非常高。

为了应对这一挑战,传统上,研究人员提出了各种方法来降低注意力机制的计算复杂度,包括稀疏注意力、Linear Attention(线性注意力)、长卷积、状态空间模型和线性 RNN 等方式。

此次 MiniMax 开源的模型,就是借用了其中的 Linear Attention(线性注意力)的方式。

Linear Attention 的思路就像给会场安排了几位「速配助理」。每个人先把自己的关键信息交给助理,比如「希望认识什么样的人、擅长什么」。助理整理这些信息后,直接告诉每个人最适合交谈的对象。这样,大家不必一个个自我介绍,整个匹配过程更高效,沟通成本大幅降低。

不过,Linear Attention 之前虽然在理论上有所创新,但在商业规模模型中的采用有限。而 MiniMax 团队则第一次验证了 Linear Attention 机制在商业规模的大模型之上的可行性。

这意味着一项技术从实验室走向真实世界。

MiniMax 团队使用了一个传统的 Linear Attention 的变种,被 MiniMax 团队称为 Lightning Attention。Lightning Attention 解决了现有 Linear Attention 机制计算效率中的主要瓶颈:因果累积求和操作的缓慢,使用新颖的分块技术,有效规避了累加和操作。

在一些特定任务,如检索和长距离依赖建模上,Lightning Attention 的性能表现可能不如 Softmax 注意力强。

MiniMax 团队又引入了混合注意力机制解决这一问题:在最终的模型架构中,在 Transformer 的每 8 层中,有 7 层使用 Lightning Attention,高效处理局部关系;而剩下 1 层保留传统的 Softmax 注意力,确保能够捕捉关键的全局上下文。

这样的架构创新,效果十分惊艳。

MiniMax-01 系列模型参数量高达 4560 亿,其中单次激活 459 亿。在主流模型目前的上下文窗口长度仍然在 128k 左右的时候,MiniMax-01 系列模型能够在 100 万 token 的上下文窗口上进行训练,推理的时候上下文窗口可以外推到 400 万 tokens,是 GPT-4o 的 32 倍,Claude-3.5-Sonnet 的 20 倍。

在面向现实情景,进行长上下文多任务进行深入的理解和推理的第三方测评 LongBench v2 的最新结果中,MiniMax-Text-01 仅次于 OpenAI 的 o1-preview 和人类,位列第三。


模型在 LongBench v2 上的评测表现 | 图片来源:GitHub LongBench

在模型的基础表现上,MiniMax-01 系列模型也在标准学术基准测试中可与顶级闭源模型相媲美。不仅如此,在模型上下文长度逐渐变长的过程中,模型的表现下降也最平缓——部分模型虽然宣布上下文窗口长度较长,但真正使用起来,在长上下文情况下,效果并不好。


MiniMax-01 系列模型可与顶级闭源模型相媲美 | 图片来源:MiniMax 论文

MiniMax 团队对比了在 CSR(常识推理)、NIAH(大海捞针)和 SCROLLS 等基准测试上,在同样的计算资源下,用采用了 7/8Lightning Attention 和 1/8 的 Softmax 的混合注意力模型可以放更多参数、处理更多数据,并且训练效果还比只用 Softmax 注意力的模型更好,损失更低。


基准测试上混合 Lightning Attention 的架构表现更好 | 图片来源:MiniMax 论文

02

为 Agent 时代爆发的前夜做准备

自 2024 年开始,长上下文一直是模型迭代的一个重要方向。

在这个领域,国外的 Google、Anthropic,国内的 Kimi,都是坚定的投入者。2024 年年末,DeepMind 的 CEO Demis Hassabis 曾表示,在内部测试中,Google Gemini 正在向无限上下文窗口发起冲击。

或许有人会困惑,此次 MiniMax 发布的 MiniMax-01 系列模型,上下文窗口长度已经达到 400 万 token,如果按照两个 token 约等于一个中文汉字的计算方式,已经约等于 200 万字的上下文窗口。人类需要和 AI 聊出这么多的上下文吗?

答案是,盯住长上下文的各家公司,可能盯住的并不是目前的一问一答的问答 AI 场景,而是背后的 Agent 时代。

无论是单 Agent 所需的持续记忆,还是多 Agent 协作所带来的通信,长链路的任务都需要越来越长的上下文。

长上下文,在多种 Agent 应用场景中,将具有极大的意义。

在搜索场景中,这可能意味着用户可以一次性看到更多答案的综合,直接获得更精准的回答。

未来的效率工具中,这可能意味着用户拥有了无限的工作记忆。在无数版本的修改之后,当甲方让你还是用第 1 版的文章结构和第三版的小标题的时候,你可以无痛回复「好的」,然后让 AI 一键生成两个版本的融合。

未来的学习工具中,这可能意味着用户可以直接具有更大的知识库。直接上传一本教材,就能让 AI 根据其中的内容,进行教学。

而在和 AI 助理的对话中,它将像聪明的人类助理一样,真正记住你之前说过的话,并在你需要的时候「记起来」。MiniMax 团队的论文当中的一个场景就很能说明问题。

模型被要求从最多 1889 条历史交互(英文基准)或 2053 条历史交互(中文基准)中精确检索出用户的一条历史互动——用户重复要求 AI 写关于企鹅的诗歌,同时进行了多轮不相关的对话,而在最后,要求 AI 提供第一次写的关于企鹅的诗。而 MiniMax-01 仍然很好地完成了这一任务。


长上下文的任务表现 | 图片来源:MiniMax 论文

对于 Agent 来说,另一个重要能力,则是视觉理解——MiniMax 此次同系列也发布了 MiniMax-VL-01。这是一个同样采用了线性注意力架构、以及拥有 400w token 上下文窗口的视觉多模态大模型。

在 2024 年 Rayban-Meta 眼镜爆火之后,今年的智能硬件的一大看点在于 AI 眼镜能否真正让 AI 成为人们的随身助手。而能成为随身 AI,AI 必须的能力就是长上下文——记住你的所有生活场景,才能在随后为你提供个性化的提醒和建议。

这样的记忆将是「真记忆」,与 ChatGPT 目前的记忆功能所能提供的简易效果完全不同。

要真正实现随身的 AI Agent,跨模态理解、无限上下文窗口都是基础能力。

论文最后,MiniMax 表示未来将在线性注意力这一路径上做到极致,尝试完全取消 Softmax 注意力层,最终实现无限的长上下文窗口。

03

基座模型创新未死,

中国公司大有可为

值得注意的是,这次是 MiniMax 公司,第一次推出开源模型。

此次的大模型命名的 MiniMax-01 系列,在 MiniMax 的内部序列中,原本是 abab-8 系列模型。

MiniMax 在上一代 abab-7 模型中,已经实现了线性注意力和 MOE 的架构,而在 abab-8 中,取得了更好的效果。

此次,MiniMax 选择在这个时间点,将模型开源出来,并以这个节点为开始,重新命名模型 MiniMax-01。

这似乎代表着 MiniMax 的公司哲学的一种改变。

在过往,MiniMax 公司给外界一向的印象是:业务很稳定,做事很低调。

从星野、Talkie 到海螺 AI,MiniMax 有自己忠实的一波用户群体。在去年的公开发布中,MiniMax 曾经表示每天已经有 3 万亿文本 token 的调用,在国内 AI 公司中名列前茅。

这些应用背后的 AI 技术则一直较为神秘,在此之前主要用于支持公司本身的业务。这次开源,似乎是一个转折,是 MiniMax 第一次对外高调展示技术实力。

MiniMax 方面表示,模型可以在 8 个 GPU 单卡、640GB 内存上,就能够实现对 100 万 token 进行单节点推理。希望此次开源帮助其他人开发能够突破当前模型的局限。

回顾过往,自 OpenAI 推出 ChatGPT、Meta 发布 Llama 系列开源模型以来,一直有声音表示基座模型的创新已趋于终结,或仅有少数国际科技巨头具备未来模型架构创新的能力。

最近两次中国公司的开源动作,告诉我们并非如此。

2024 年,DeepSeek 凭借其突破性的 MLA 架构,震撼了全球 AI 行业,证明了中国企业的技术创造力。

2025 年年初,MiniMax 再次以其全新的 Lightning Attention 架构刷新了行业认知,验证了一条此前非共识的技术路径。

中国 AI 公司不仅具备工程化和商业化的能力,更有能力推动底层技术创新。

新的一年,不论是 AI 应用的普及,还是技术金字塔尖的攻坚,我们可以对中国 AI 公司有更多的期待。

本文源自:极客公园

作者:Li Yuan

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/

中信证券:高度依赖资金接力的纯主题板块未来可持续性有限 料市场会更加聚焦明确的产业逻辑兑现

返回网易首页 下载网易新闻客户端
相关推荐
热点推荐
上海相亲角现状:地里白菜烂成堆,猪圈的猪饿断肠

上海相亲角现状:地里白菜烂成堆,猪圈的猪饿断肠

读史
2025-02-23 12:40:59
A股:今晚5000万股民,又开始激动了,你知道为什么吗?

A股:今晚5000万股民,又开始激动了,你知道为什么吗?

一丛深色花儿
2025-02-23 11:44:57
州长任上,组织先后4次函询是否存在问题,他都予以否认!省纪委公开违纪违法详情

州长任上,组织先后4次函询是否存在问题,他都予以否认!省纪委公开违纪违法详情

新京报政事儿
2025-02-23 11:44:59
49岁女星“林心如”高调出席活动,网友直呼:再也不用眼霜了

49岁女星“林心如”高调出席活动,网友直呼:再也不用眼霜了

鋭娱之乐
2025-02-21 14:42:10
祝贺!国乒7人提前拿到澳门世界杯参赛门票,林昀儒也已直通!

祝贺!国乒7人提前拿到澳门世界杯参赛门票,林昀儒也已直通!

乒谈
2025-02-23 12:11:07
浙江突发!常州两男子出手了……

浙江突发!常州两男子出手了……

中吴网
2025-02-23 14:06:17
高盛:明年中国经济有望因DeepSeek AI受益

高盛:明年中国经济有望因DeepSeek AI受益

娱乐督察中
2025-02-23 06:15:44
律师庭审中“捍卫最高法司法解释”被法官训诫,还遭法院投诉

律师庭审中“捍卫最高法司法解释”被法官训诫,还遭法院投诉

浪花说法
2025-02-22 11:37:19
史上首次!从深圳跑到香港!

史上首次!从深圳跑到香港!

深圳晚报
2025-02-23 14:53:33
富婆快乐群,你听过嘛?

富婆快乐群,你听过嘛?

烟粉阁
2023-07-19 23:27:11
央八开播!郑晓龙执导,肖战领衔,是有望超越《琅琊榜》的权谋剧

央八开播!郑晓龙执导,肖战领衔,是有望超越《琅琊榜》的权谋剧

野山历史
2025-02-22 17:23:14
乌度卡:这场比赛很丑陋 很丢人 从头到尾都毫无竞争性

乌度卡:这场比赛很丑陋 很丢人 从头到尾都毫无竞争性

直播吧
2025-02-23 13:13:20
91岁杨少华住院!躺病床面色发黑枯瘦如柴,手上插管多个仪器监护

91岁杨少华住院!躺病床面色发黑枯瘦如柴,手上插管多个仪器监护

梅花说娱乐
2023-07-13 01:10:02
大S年轻时房间曝光,太过诡异引人不适,难怪有人预言她活不过50

大S年轻时房间曝光,太过诡异引人不适,难怪有人预言她活不过50

星辰生肖馆
2025-02-18 02:45:03
蔚山队或面临重罚!泰山退赛原因曝光:客队泰山看台遭挑衅

蔚山队或面临重罚!泰山退赛原因曝光:客队泰山看台遭挑衅

建哥说体育
2025-02-22 18:37:36
明起至2月底北京气温一路回升,迎春、红梅将陆续绽放

明起至2月底北京气温一路回升,迎春、红梅将陆续绽放

新京报
2025-02-23 14:17:11
上海已建成2600多个!部分却大门紧锁,还有的沦为杂物间…男士很无助:为什么不让我们进?

上海已建成2600多个!部分却大门紧锁,还有的沦为杂物间…男士很无助:为什么不让我们进?

上观新闻
2025-02-22 21:27:26
重大突破!我国自主研制!

重大突破!我国自主研制!

FM93浙江交通之声
2025-02-23 16:11:22
湖人18战14胜躺升第四:4人20+吊打9连胜掘金 五小组合渐入佳境

湖人18战14胜躺升第四:4人20+吊打9连胜掘金 五小组合渐入佳境

醉卧浮生
2025-02-23 12:03:01
杨绛先生:上班最大意义不是那点工资,一来可以锻炼心智,二来..

杨绛先生:上班最大意义不是那点工资,一来可以锻炼心智,二来..

清风拂心
2025-01-09 09:26:50
2025-02-23 17:47:00
金融界 incentive-icons
金融界
投资者信赖的财经金融门户网站
6040003文章数 543266关注度
往期回顾 全部

科技要闻

高盛:AI基建看阿里,AI应用看腾讯

头条要闻

马斯克:泽连斯基已被“开除” 不再是乌克兰领导人

体育要闻

但愿这是他们的开始,而不是他们的结束

娱乐要闻

替身被车碾压头部致重伤?赵今麦人设崩塌

财经要闻

房东破防了 租金跌回十年前

汽车要闻

5+2座/1200km续航 奇瑞风云T8售9.99万起

态度原创

本地
游戏
手机
旅游
公开课

本地新闻

非遗版春节|新春青岛行,是谁闯入了动漫世界?

分析师预测NS2定价400刀 玩家们兴奋了:好香的价格

手机要闻

三星Exynos 2500开始量产!良率不足50%致产量低迷

旅游要闻

机票价格大跳水!多个城市热门航线跌至200多元

公开课

李玫瑾:为什么性格比能力更重要?