只有模仿没有创新？国产 AI 用行动打破质疑|模态|上下文|agent|minimax

只有模仿没有创新？国产 AI 用行动打破质疑

2025-01-17 12:33:15　来源: 金融界

北京举报

分享至

MiniMax，选择用开源「震撼」一下全球同行。

大模型时代已经正式迈入第三年。

回首过去的两年，不禁令人感慨。每年都有基座大模型架构已经尘埃落定的声音，然而每年，技术都在飞快地迭代创新，突破人们想象。

2024 年，OpenAI 的推理模型，通过对模型架构的创新，用 RL 的方法延续 Scaling Law，让大模型的智力水平持续进展；而中国公司也并没有落后，价格屠夫 DeepSeek 通过 MLA 的架构创新，让推理成本直接降低了一个数量级。

2025 年开年，令人欣喜的是，我们看到了一向在人们印象中是「低调做产品」的 MiniMax 公司，也加入了开源行列，将最先进的底层技术直接与社区和行业分享。

1 月 15 日，大模型公司 MiniMax 正式发布了 MiniMax-01 系列模型。它包括基础语言大模型 MiniMax-Text-01，和在其上集成了一个轻量级 ViT 模型而开发的视觉多模态大模型 MiniMax-VL-01。

开源界面｜图片来源：GitHub

「卷」起来的大模型公司，令人乐见。开源会提升创新效率，越来越好的基座模型之上，才搭建越来越有用的应用，进入千家万户，帮人们解放生产力。

这是 MiniMax 第一次发布开源模型，一出手就是一个炸裂模型架构创新：新模型采用了 MiniMax 独有的 Lightening Attention 机制，借鉴了 Linear Attention（线性注意力）机制，是全球第一次将 Linear Attention 机制引入到商业化规模的模型当中。

效果也是立竿见影，模型上下文长度直接达到了顶尖模型的 20-32 倍水平，推理时的上下文窗口能达到 400 万 token。模型效果立刻在海外上引起了关注。

X 用户感叹 MiniMax-Text-01 可以在 400 万 token 上实现完美的海底捞针｜图片来源：X

另一个来自中国公司的强大模型，在学术测试集上表现优越｜图片来源：X

模型的上下文窗口，指的是模型在生成每个新 token 时，实际参考的前面内容的范围。就像是模型能够一次性从书架上取下的书籍数量。模型的上下文窗口越大，模型生成时可以参考的信息量就越多，表现也就更加智能。

站在 2025 年年初的时间点，长上下文窗口还有一个新的意义：为模型的 Agent 能力，打下坚实基础。

业界公认，2025 年，Agent 能力将是 AI 届「卷生卷死」的重点，连 OpenAI 都在本周内推出了 Tasks，一个 AI Agent 的雏型。在 2025 年，我们很有可能看到越来越多真正「全自动的」AI，在我们的生活中起作用。甚至不同「全自动的」的 AI 共同协作，帮我们处理事务。而这对基座模型的能力，有极大的考验。而长上下文是 Agent 能力实现的必要条件。

看起来，2025 年，基座大模型之战仍未结束；中国公司发力，也才刚刚开始。

Linear Attention 架构

的第一次大规模使用

此次 MiniMax 开源的模型，最大的创新点，在于使用了 MiniMax 独有的 Lightening Attention 机制，这是一种线性注意力。

在传统的 Transformer 架构中，最「烧」算力和显存的部分往往是自注意力（Self-Attention）机制。原因在于，标准的自注意力需要对所有的词（Token）两两计算注意力分数，计算量随着序列长度 n 的增长是平方级（O(n²)）。

如果用通俗的语言来形容，类似于你在举办一场联谊会，人很多。如果每个人都要两两打招呼，沟通成本会随着人数增加而急剧上升，每个人都得重复无数次「握手」。

这带来了一系列的问题——其中一个就是，联谊会的人数，也就是模型的上下文的窗口，很难无限扩展。硬要扩展，对于算力的需求就非常高。

为了应对这一挑战，传统上，研究人员提出了各种方法来降低注意力机制的计算复杂度，包括稀疏注意力、Linear Attention（线性注意力）、长卷积、状态空间模型和线性 RNN 等方式。

此次 MiniMax 开源的模型，就是借用了其中的 Linear Attention（线性注意力）的方式。

Linear Attention 的思路就像给会场安排了几位「速配助理」。每个人先把自己的关键信息交给助理，比如「希望认识什么样的人、擅长什么」。助理整理这些信息后，直接告诉每个人最适合交谈的对象。这样，大家不必一个个自我介绍，整个匹配过程更高效，沟通成本大幅降低。

不过，Linear Attention 之前虽然在理论上有所创新，但在商业规模模型中的采用有限。而 MiniMax 团队则第一次验证了 Linear Attention 机制在商业规模的大模型之上的可行性。

这意味着一项技术从实验室走向真实世界。

MiniMax 团队使用了一个传统的 Linear Attention 的变种，被 MiniMax 团队称为 Lightning Attention。Lightning Attention 解决了现有 Linear Attention 机制计算效率中的主要瓶颈：因果累积求和操作的缓慢，使用新颖的分块技术，有效规避了累加和操作。

在一些特定任务，如检索和长距离依赖建模上，Lightning Attention 的性能表现可能不如 Softmax 注意力强。

MiniMax 团队又引入了混合注意力机制解决这一问题：在最终的模型架构中，在 Transformer 的每 8 层中，有 7 层使用 Lightning Attention，高效处理局部关系；而剩下 1 层保留传统的 Softmax 注意力，确保能够捕捉关键的全局上下文。

这样的架构创新，效果十分惊艳。

MiniMax-01 系列模型参数量高达 4560 亿，其中单次激活 459 亿。在主流模型目前的上下文窗口长度仍然在 128k 左右的时候，MiniMax-01 系列模型能够在 100 万 token 的上下文窗口上进行训练，推理的时候上下文窗口可以外推到 400 万 tokens，是 GPT-4o 的 32 倍，Claude-3.5-Sonnet 的 20 倍。

在面向现实情景，进行长上下文多任务进行深入的理解和推理的第三方测评 LongBench v2 的最新结果中，MiniMax-Text-01 仅次于 OpenAI 的 o1-preview 和人类，位列第三。

模型在 LongBench v2 上的评测表现｜图片来源：GitHub LongBench

在模型的基础表现上，MiniMax-01 系列模型也在标准学术基准测试中可与顶级闭源模型相媲美。不仅如此，在模型上下文长度逐渐变长的过程中，模型的表现下降也最平缓——部分模型虽然宣布上下文窗口长度较长，但真正使用起来，在长上下文情况下，效果并不好。

MiniMax-01 系列模型可与顶级闭源模型相媲美｜图片来源：MiniMax 论文

MiniMax 团队对比了在 CSR（常识推理）、NIAH（大海捞针）和 SCROLLS 等基准测试上，在同样的计算资源下，用采用了 7/8Lightning Attention 和 1/8 的 Softmax 的混合注意力模型可以放更多参数、处理更多数据，并且训练效果还比只用 Softmax 注意力的模型更好，损失更低。

基准测试上混合 Lightning Attention 的架构表现更好｜图片来源：MiniMax 论文

为 Agent 时代爆发的前夜做准备

自 2024 年开始，长上下文一直是模型迭代的一个重要方向。

在这个领域，国外的 Google、Anthropic，国内的 Kimi，都是坚定的投入者。2024 年年末，DeepMind 的 CEO Demis Hassabis 曾表示，在内部测试中，Google Gemini 正在向无限上下文窗口发起冲击。

或许有人会困惑，此次 MiniMax 发布的 MiniMax-01 系列模型，上下文窗口长度已经达到 400 万 token，如果按照两个 token 约等于一个中文汉字的计算方式，已经约等于 200 万字的上下文窗口。人类需要和 AI 聊出这么多的上下文吗？

答案是，盯住长上下文的各家公司，可能盯住的并不是目前的一问一答的问答 AI 场景，而是背后的 Agent 时代。

无论是单 Agent 所需的持续记忆，还是多 Agent 协作所带来的通信，长链路的任务都需要越来越长的上下文。

长上下文，在多种 Agent 应用场景中，将具有极大的意义。

在搜索场景中，这可能意味着用户可以一次性看到更多答案的综合，直接获得更精准的回答。

未来的效率工具中，这可能意味着用户拥有了无限的工作记忆。在无数版本的修改之后，当甲方让你还是用第 1 版的文章结构和第三版的小标题的时候，你可以无痛回复「好的」，然后让 AI 一键生成两个版本的融合。

未来的学习工具中，这可能意味着用户可以直接具有更大的知识库。直接上传一本教材，就能让 AI 根据其中的内容，进行教学。

而在和 AI 助理的对话中，它将像聪明的人类助理一样，真正记住你之前说过的话，并在你需要的时候「记起来」。MiniMax 团队的论文当中的一个场景就很能说明问题。

模型被要求从最多 1889 条历史交互（英文基准）或 2053 条历史交互（中文基准）中精确检索出用户的一条历史互动——用户重复要求 AI 写关于企鹅的诗歌，同时进行了多轮不相关的对话，而在最后，要求 AI 提供第一次写的关于企鹅的诗。而 MiniMax-01 仍然很好地完成了这一任务。

长上下文的任务表现｜图片来源：MiniMax 论文

对于 Agent 来说，另一个重要能力，则是视觉理解——MiniMax 此次同系列也发布了 MiniMax-VL-01。这是一个同样采用了线性注意力架构、以及拥有 400w token 上下文窗口的视觉多模态大模型。

在 2024 年 Rayban-Meta 眼镜爆火之后，今年的智能硬件的一大看点在于 AI 眼镜能否真正让 AI 成为人们的随身助手。而能成为随身 AI，AI 必须的能力就是长上下文——记住你的所有生活场景，才能在随后为你提供个性化的提醒和建议。

这样的记忆将是「真记忆」，与 ChatGPT 目前的记忆功能所能提供的简易效果完全不同。

要真正实现随身的 AI Agent，跨模态理解、无限上下文窗口都是基础能力。

论文最后，MiniMax 表示未来将在线性注意力这一路径上做到极致，尝试完全取消 Softmax 注意力层，最终实现无限的长上下文窗口。

基座模型创新未死，

中国公司大有可为

值得注意的是，这次是 MiniMax 公司，第一次推出开源模型。

此次的大模型命名的 MiniMax-01 系列，在 MiniMax 的内部序列中，原本是 abab-8 系列模型。

MiniMax 在上一代 abab-7 模型中，已经实现了线性注意力和 MOE 的架构，而在 abab-8 中，取得了更好的效果。

此次，MiniMax 选择在这个时间点，将模型开源出来，并以这个节点为开始，重新命名模型 MiniMax-01。

这似乎代表着 MiniMax 的公司哲学的一种改变。

在过往，MiniMax 公司给外界一向的印象是：业务很稳定，做事很低调。

从星野、Talkie 到海螺 AI，MiniMax 有自己忠实的一波用户群体。在去年的公开发布中，MiniMax 曾经表示每天已经有 3 万亿文本 token 的调用，在国内 AI 公司中名列前茅。

这些应用背后的 AI 技术则一直较为神秘，在此之前主要用于支持公司本身的业务。这次开源，似乎是一个转折，是 MiniMax 第一次对外高调展示技术实力。

MiniMax 方面表示，模型可以在 8 个 GPU 单卡、640GB 内存上，就能够实现对 100 万 token 进行单节点推理。希望此次开源帮助其他人开发能够突破当前模型的局限。

回顾过往，自 OpenAI 推出 ChatGPT、Meta 发布 Llama 系列开源模型以来，一直有声音表示基座模型的创新已趋于终结，或仅有少数国际科技巨头具备未来模型架构创新的能力。

最近两次中国公司的开源动作，告诉我们并非如此。

2024 年，DeepSeek 凭借其突破性的 MLA 架构，震撼了全球 AI 行业，证明了中国企业的技术创造力。

2025 年年初，MiniMax 再次以其全新的 Lightning Attention 架构刷新了行业认知，验证了一条此前非共识的技术路径。

中国 AI 公司不仅具备工程化和商业化的能力，更有能力推动底层技术创新。

新的一年，不论是 AI 应用的普及，还是技术金字塔尖的攻坚，我们可以对中国 AI 公司有更多的期待。

本文源自：极客公园

作者：Li Yuan

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.