网易首页 > 网易号 > 正文 申请入驻

Mistral与英伟达联合发布Mistral NeMo:提供前所未有的准确性、灵活性和效率

0
分享至


Mistral AI 和 NVIDIA 今天发布了一种新的尖端语言模型 Mistral NeMo 12B,开发人员可以轻松定制和部署,支持聊天机器人、多语言任务、编程和摘要


通过将 Mistral AI 在训练数据方面的专业知识与 NVIDIA 优化的硬件和软件生态系统相结合,Mistral NeMo 模型为各种应用提供了高性能

以下是Mistral官宣全文:

Mistral NeMo

今天,我们很高兴发布与 NVIDIA 合作构建的 120 亿参数模型 Mistral NeMo。Mistral NeMo 拥有高达 128k Tokens 的大上下文窗口,在推理、世界知识和编码准确性方面在同类模型中处于领先地位。由于采用了标准架构,Mistral NeMo 使用方便,可以直接替代任何使用 Mistral 7B 的系统。

为了促进研究人员和企业的采用,我们在 Apache 2.0 许可证下发布了预训练基准和指令微调的模型检查点。Mistral NeMo 在训练时考虑了量化,使其能够在不降低性能的情况下进行 FP8 推理。

下表比较了 Mistral NeMo 基础模型与最近的两个开源预训练模型 Gemma 2 9B 和 Llama 3 8B 的准确性。


表 1:Mistral NeMo 基础模型性能与 Gemma 2 9B 和 Llama 3 8B 的比较‍

多语言应用的理想选择

Mistral NeMo 适用于全球多语言应用。它经过函数调用训练,具备大上下文窗口,并在英语、法语、德语、西班牙语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语和印地语方面表现尤为突出。这款模型的发布,是让前沿 AI 技术普及到更多人手中的又一重要步骤,覆盖了人类文化的所有主要语言‍


图 1:Mistral NeMo 在多语言基准测试中的表现。

Tekken:更高效的分词器

Mistral NeMo 使用了新的分词器 Tekken,它基于 Tiktoken,训练了超过 100 种语言,比之前 Mistral 模型使用的 SentencePiece 分词器更高效地压缩自然语言文本和源代码。尤其是在压缩源代码、中文、意大利语、法语、德语、西班牙语和俄语时,效率提高了约 30%。在压缩韩语和阿拉伯语时,效率分别提高了 2 倍和 3 倍。与 Llama 3 的分词器相比,Tekken 在大约 85% 的语言上表现出了更高的压缩效率。


图 2:Tekken 压缩率‍

指令微调

Mistral NeMo 经过了先进的微调和对齐过程。与 Mistral 7B 相比,它在遵循精确指令、推理、处理多轮对话和生成代码方面表现更佳‍


表 2:Mistral NeMo 指令微调模型准确性。评估使用 GPT4o 作为官方参考‍

链接

模型权重托管在 HuggingFace,包括基础模型和指令模型。你现在可以使用 mistral-inference 试用 Mistral NeMo,并使用 mistral-finetune 进行适配。Mistral NeMo 在 la Plateforme 上以open-mistral-nemo-2407名称公开。这款模型还作为 NVIDIA NIM 推理微服务打包在

一个容器中,可以从ai.nvidia.com获取

⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
坍塌!优衣库拒用新疆棉发酵!一年在中国赚300亿,官微连夜关评

坍塌!优衣库拒用新疆棉发酵!一年在中国赚300亿,官微连夜关评

娱官儿
2024-11-30 14:15:59
1-4惨败!中国队又输了,18分钟丢4球崩盘,球迷失望

1-4惨败!中国队又输了,18分钟丢4球崩盘,球迷失望

象牙三
2024-11-30 11:52:52
四川一村民家中遭黑熊袭击,妻子重伤丈夫持斧击杀黑熊

四川一村民家中遭黑熊袭击,妻子重伤丈夫持斧击杀黑熊

澎湃新闻
2024-11-30 22:04:29
上海一业主竟将“几十万”豪掷家门口!担心的事还是发生了……

上海一业主竟将“几十万”豪掷家门口!担心的事还是发生了……

环球网资讯
2024-11-30 08:30:11
山东两家金店遭劫案后续来了,店主:损失上千万;警方:共计80万

山东两家金店遭劫案后续来了,店主:损失上千万;警方:共计80万

Mr王的饭后茶
2024-11-30 11:07:18
最新!大型电商平台官宣:废止“退款不退货”

最新!大型电商平台官宣:废止“退款不退货”

每日经济新闻
2024-11-28 17:36:13
乌军破釜沉舟!堪可封帅的西尔斯基被青年总司令替换,预备队出击

乌军破釜沉舟!堪可封帅的西尔斯基被青年总司令替换,预备队出击

大风文字
2024-11-30 18:45:58
郭艾伦轰32分5板7助,率广州队送吉林两连败!琼斯空砍34+8+6

郭艾伦轰32分5板7助,率广州队送吉林两连败!琼斯空砍34+8+6

篮球扫地僧
2024-11-30 21:44:53
东北某设计院骚气冲天,脱衣团建!

东北某设计院骚气冲天,脱衣团建!

黯泉
2024-11-30 20:52:22
孙颖莎/王楚钦、蒯曼/林诗栋出战混双,“莎头组合”奥运后首次搭档

孙颖莎/王楚钦、蒯曼/林诗栋出战混双,“莎头组合”奥运后首次搭档

鲁中晨报
2024-11-30 16:48:11
美团披露骑手收入

美团披露骑手收入

第一财经资讯
2024-11-30 16:04:35
中国彻底崩塌的专业,月薪从1.5万降到3000,大批毕业生无法就业

中国彻底崩塌的专业,月薪从1.5万降到3000,大批毕业生无法就业

教育导向分享
2024-11-30 17:36:11
柬埔寨那条耗资17亿美元的运河,几个月过去了现场却杂草丛生!

柬埔寨那条耗资17亿美元的运河,几个月过去了现场却杂草丛生!

星辰故事屋
2024-11-30 14:01:49
曝金星接受外媒采访,对演出取消依然很困惑:表演了40年,不懂为什么突然不行了

曝金星接受外媒采访,对演出取消依然很困惑:表演了40年,不懂为什么突然不行了

西游日记
2024-11-30 20:43:04
女子将两斤泥鳅倒进下水道疏通管道 有点效果 泥鳅们还在努力

女子将两斤泥鳅倒进下水道疏通管道 有点效果 泥鳅们还在努力

闪电新闻
2024-11-21 11:59:18
网传因待遇骤降,医生大面积停诊,一医院发紧急通知规范休班流程

网传因待遇骤降,医生大面积停诊,一医院发紧急通知规范休班流程

火山诗话
2024-11-30 06:11:23
27岁清华博士任上海交大博导,本人回应走红:不希望给大家带来年龄焦虑

27岁清华博士任上海交大博导,本人回应走红:不希望给大家带来年龄焦虑

极目新闻
2024-11-30 15:17:29
三舰岛航母让全世界集体懵圈,外媒:难道中国真的获得外星科技了

三舰岛航母让全世界集体懵圈,外媒:难道中国真的获得外星科技了

归史
2024-11-30 18:15:19
网传又一大型车企爆雷!开启大规模裁员,高管离职,裁员近50%

网传又一大型车企爆雷!开启大规模裁员,高管离职,裁员近50%

火山诗话
2024-11-30 18:49:50
事实就是事实!251名哈马斯绑架人质中,没有华侨,更没有中国人

事实就是事实!251名哈马斯绑架人质中,没有华侨,更没有中国人

刚哥说法365
2024-11-30 00:45:49
2024-12-01 01:08:49
AI寒武纪
AI寒武纪
专注于人工智能,科技领域
349文章数 108关注度
往期回顾 全部

科技要闻

官宣!华为+广汽,联手造车!

头条要闻

八年来首次 叙利亚反对派武装攻入阿勒颇大部分地区

头条要闻

八年来首次 叙利亚反对派武装攻入阿勒颇大部分地区

体育要闻

历史第一!詹姆斯再创里程碑宝刀不老

娱乐要闻

恶意炒作!李行亮麦琳和好后口碑崩塌

财经要闻

雪松爆雷前实控人张劲在香港抛售房产

汽车要闻

比亚迪方程豹豹8推送首次OTA 新增暴力模式

态度原创

家居
游戏
本地
手机
公开课

家居要闻

现代设计感 温馨两居室

双倍、三倍灵活用,梦幻西游嘉年华满级腰带获取难度并不高!

本地新闻

云游中国|来伦布夏果感受充满Passion的人生

手机要闻

澎湃OS再次公布进展通报:小米15系列与红米K80系列,问题均修复

公开课

一块玻璃,如何改变人类世界?

无障碍浏览 进入关怀版