网易首页 > 网易号 > 正文 申请入驻

8人小团队单挑OpenAI,半年仿出GPT-4o,还开源了

0
分享至

机器之心报道

机器之心编辑部

最近,一个对标 GPT-4o 的开源实时语音多模态模型火了。

这个开源模型来自法国一个仅有 8 人的非营利性 AI 研究机构 ——Kyutai,模型名为 Moshi,具备听、说、看的多模态功能。图灵奖得主 Yann LeCun 转发说道:「Moshi 能听懂带有法国口音的英语。」据悉,该团队开发这个模型仅用了 6 个月。



的确,在研究团队演示的视频中,我们发现 Moshi 可以非常流利地回答人们提出的问题,进行日常对话交流,甚至可以猜出提问者的意图。

例如,当提问者说「下个月打算去攀登珠穆朗玛峰,我在想......」,提问者话说到一半,Moshi 就说道:「太了不起了,你需要带些什么装备呢」,提问者则表示:「这正是我想讨论的话题,你觉得我需要带些什么呢」。于是,Moshi 给出了一些攀登设备的专业建议,并回答了关于注意事项的问题:



我们发现 Moshi 还会开些小玩笑:「你肯定不想穿着凉鞋去爬山」。

研究团队还用各种说话风格展示了 Moshi 表达和理解情绪的能力。例如,让 Moshi 用法国口音诵读诗句:



不过这首诗太长了,研究人员打断了 Moshi 的朗诵,Moshi 立即停了下来。

作为一个多模态大模型,Moshi 的角色扮演能力也是很强的,以海盗身份讲述海上冒险故事,那也是张口就来:



当提问者问道海盗船叫什么名字,Moshi 还反客为主,反问提问者:「你叫什么名字,是什么让你过上了海盗生活?」不得不说,提问者此时显得有些被动了。

最后,研究人员还让 Moshi 用低声细语讲一个神秘的故事:



不过,Moshi 讲的有些陶醉,研究人员多次打断未果。最后还是研究人员压低声音,用跟 Moshi 类似的语气提出下一个问题,才让 Moshi 继续回答了下一个问题,这大概就是用魔法打败魔法吧。继续回答问题时,研究人员表示对一些细节没有兴趣,Moshi 还是自顾自地继续讲,直到在大家的掌声中,它才真的停止。

Moshi 的背后:合成数据立大功

Moshi 的设计目的是理解和表达情感,具有诸如用不同口音(包括法语)说话的能力。它可以聆听和生成音频和语音,同时保持文本思维的无缝流动。Moshi 的一个突出特点是能够同时处理两个音频流,使其可以同时聆听和说话。这种实时交互基于文本和音频混合的联合预训练,利用来自 Helium 的合成文本数据,这是一个由 Kyutai 开发的 70 亿参数语言模型。

Moshi 的微调过程涉及使用文本到语音 (TTS) 技术转换的 100,000 个「口语风格」的合成对话。模型的语音在一个单独的 TTS 模型生成的合成数据上进行训练,实现了令人印象深刻的 200 毫秒端到端延迟。值得注意的是,Kyutai 还开发了一个可以在 MacBook 或消费级 GPU 上运行的 Moshi 小型版本,使其可以被更广泛的群体使用。

Kyutai 强调负责任的 AI 使用,通过嵌入水印来检测 AI 生成的音频,这一功能目前仍在开发中。将 Moshi 作为开源项目发布,彰显了 Kyutai 对透明度和 AI 社区内协作开发的承诺。

Moshi 的核心是一个处理语音输入和输出的 70 亿参数多模态语言模型。该模型采用双通道输入 / 输出系统,同时生成文本 token 和音频编解码器。基础文本语言模型 Helium 7B 从零开始训练,然后与文本和音频编解码器联合训练。语音编解码器基于 Kyutai 内部的 Mimi 模型,具有 300 倍的压缩系数,可捕捉语义和声音信息。

训练 Moshi 涉及严格的过程,微调了 100,000 个高度详细的带有情感和风格注释的转录结果。文本转语音引擎支持 70 种不同的情绪和风格,是根据一位名叫 Alice 的有执照的声音达人录制的 20 个小时的音频进行微调的。该模型具有适应性,可以在不到 30 分钟的音频中进行微调。

Moshi 的部署展示了其效率。演示模型托管在 Scaleway 和 hug Face 平台上,可以在 24 GB 的 VRAM 上处理两个 batch size。它支持各种后端,包括 CUDA、Metal 和 CPU,并受益于 Rust 对推理代码的优化。增强的 KV 缓存和提示缓存有望进一步提高性能。

展望未来,Kyutai 对 Moshi 有雄心勃勃的计划。团队计划发布技术报告和开放模型版本,包括推理代码库、7B 模型、音频编解码器和完整的优化堆栈。未来版本如 Moshi 1.1、1.2 和 2.0 将根据用户反馈改进模型。Moshi 的许可旨在尽可能宽松,促进广泛采用和创新。

总之,Moshi 体现了小型专注团队在 AI 技术方面取得非凡进展的潜力。这个模型为研究辅助、头脑风暴、语言学习等开辟了新途径,展示了 AI 在端侧部署时的变革力量。

LeCun 坐镇,三十年 AI 老兵带队,

这是一支小而精的欧洲团队

Kyutai 是欧洲首个致力于人工智能开放研究的私人倡议实验室,由 iliad 集团、CMA CGM 集团和 Schmidt Futures 于 2023 年 11 月共同创立,初始资金近 3 亿欧元。

Kyutai 定位为人工智能开放科学实验室,是一个非营利组织,其使命是解决现代人工智能的基本挑战。Kyutai 专注于开发包含文本、声音、图像等的大型多模态模型,旨在发明新的算法来增强这些模型的能力、可靠性和效率。借助 iliad 集团子公司 Scaleway 提供的计算能力,Kyutai 将欧洲最高性能的超级计算机用于人工智能应用。

该实验室坚决致力于人工智能的民主化,并将自己定位为人工智能开放科学的领导者。Kyutai 的野心不仅限于科学进步,还旨在与全球人工智能生态系统分享其进展。

Kyutai 组建了一支由具有杰出学术和商业背景的优秀研究人员组成的团队,在巴黎设有办事处。其创始团队包括:

首席执行官 Patrick Pérez:在计算机视觉和机器学习领域拥有三十多年经验的专业人士;

首席扩展(scaling)官 Edouard Grave:在大语言模型和自然语言处理方面拥有专业知识;

首席科学官 Hervé Jégou:因对计算机视觉和压缩域搜索算法的贡献而闻名;

首席技术官 Laurent Mazaré:在应用数学、密码学和机器学习方面经验丰富;

首席建模官 Neil Zeghidour:前 Google DeepMind 研究员,专门研究生成音频;

创始科学家 Alexandre Défossez:专门研究机器学习应用数学。



其中,前三人都是 Google Scholar 被引量高达 40000 + 的学术大牛。

CEO Patrick Pérez 硕士毕业于巴黎中央理工学院,博士在雷恩大学攻读信号处理专业。在创办 Kyutai 之前,他是法资世界 500 强企业法雷奥(valeo)公司人工智能副总裁兼 valeo.ai 的科学总监,valeo.ai 是一个专注于法雷奥汽车应用尤其是自动驾驶汽车的人工智能研究实验室。在加入法雷奥之前,他还曾在 Technicolor (2009-2018)、Inria (1993-2000、2004-2009) 和微软剑桥研究院 (2000-2004) 担任研究员。他的研究范围包括多模态场景理解和计算成像。



首席扩展官 Edouard Grave 之前在 Facebook AI Research(FAIR)担任研究科学家。他的研究目标是设计能够理解自然语言的计算机系统。更确切地说,他的研究重点是为自然语言处理开发强大的机器学习算法,这种算法只需要最少的监督。他的工作的另一个重要方面是设计计算效率高的方法,从而将 AI 模型扩展到大规模数据集。



首席科学官 Hervé Jégou 曾在 FAIR 担任高管,研究方向是大规模索引、人工智能、机器学习及应用。他最出名的发明是「乘积量化(product quantization)」搜索,它为最流行的矢量搜索库 FAISS 和 ScanNN 提供了动力。此外,他还启动了 FAISS 库并编写了它的第一个实现。



Kyutai 的科学委员会由三名国际知名人工智能专家组成:韩国科学家 Yejin Choi,专门研究自然语言处理和计算机视觉;Yann LeCun(法国研究员、深度学习先驱、Meta 首席人工智能科学家)和 Bernhard Schölkopf(以机器学习领域的工作而闻名的德国研究员)。

iliad 集团董事长兼创始人 Xavier Niel 表示:「欧洲拥有赢得人工智能竞赛所需的一切。通过在巴黎创建人工智能开放研究实验室,我们进一步加快了步伐。Kyutai 将为我们提供超高性能、可靠的人工智能模型,整个欧洲人工智能生态系统都将能够从中受益。」

参考链接:https://moveitmagazine.com/2023/11/20/kyutai-europes-pioneering-ai-open-science-lab-launched-in-paris/

https://www.marktechpost.com/2024/07/03/kyutai-open-sources-moshi-a-real-time-native-multimodal-foundation-ai-model-that-can-listen-and-speak/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
35岁再考清华当事人将再考:目标依旧700分,学中医

35岁再考清华当事人将再考:目标依旧700分,学中医

大象新闻
2024-10-05 12:17:05
一位「爱国且莫名不喜欢日本人」的中国网友来日本旅游后……

一位「爱国且莫名不喜欢日本人」的中国网友来日本旅游后……

日本物语
2024-09-04 20:31:44
官方:成都蓉城与艾克森提前解约,在队34场10球2助

官方:成都蓉城与艾克森提前解约,在队34场10球2助

直播吧
2024-10-05 18:26:02
喜讯!上港已正式买断巴西大牌指挥官,未来他将接替离队的奥斯卡

喜讯!上港已正式买断巴西大牌指挥官,未来他将接替离队的奥斯卡

小海要说球
2024-10-05 18:25:16
1985年,FBI特工因航班延误发现破绽,致潜伏37年的红色谍王被捕

1985年,FBI特工因航班延误发现破绽,致潜伏37年的红色谍王被捕

干史人
2024-10-02 07:40:03
迈阿密新援!乌斯塔里:没想能再次和梅西踢球,这是足球魅力所在

迈阿密新援!乌斯塔里:没想能再次和梅西踢球,这是足球魅力所在

直播吧
2024-10-05 21:39:09
人心大快!小S被曝已没收入,节目嘉宾罢录,遭反噬代言全掉光

人心大快!小S被曝已没收入,节目嘉宾罢录,遭反噬代言全掉光

扒星人
2024-10-05 13:51:05
90年,我在战友家喝醉回家,醒来发现自己睡在寡妇房里:你不要跑

90年,我在战友家喝醉回家,醒来发现自己睡在寡妇房里:你不要跑

燕无衣
2024-09-19 06:58:10
太好了!柳岩不用嫁老头,和印小天恋爱,见双方家长,太般配了

太好了!柳岩不用嫁老头,和印小天恋爱,见双方家长,太般配了

观察鉴娱
2024-09-28 14:14:48
博格巴此前拒绝禁赛2年和解,结果被禁赛4年,如今缩减为18个月

博格巴此前拒绝禁赛2年和解,结果被禁赛4年,如今缩减为18个月

直播吧
2024-10-05 08:03:05
童星长大就像“开盲盒”,小时候长相可爱灵气,长大后却丑态百样

童星长大就像“开盲盒”,小时候长相可爱灵气,长大后却丑态百样

历史小柚
2024-09-03 11:10:41
老牛吃嫩草!45岁黄奕与小鲜肉激吻遭曝光,穿粉色长裙似20岁少女

老牛吃嫩草!45岁黄奕与小鲜肉激吻遭曝光,穿粉色长裙似20岁少女

扒星人
2024-10-04 16:37:40
回击质疑!马丁内利破门,VAR确认进球有效,阿森纳2-1南安普顿

回击质疑!马丁内利破门,VAR确认进球有效,阿森纳2-1南安普顿

直播吧
2024-10-05 23:34:50
曼城vs富勒姆球员评分:伯纳多-席尔瓦8.5分,阿达玛-特拉奥雷5.7分

曼城vs富勒姆球员评分:伯纳多-席尔瓦8.5分,阿达玛-特拉奥雷5.7分

懂球帝
2024-10-06 00:27:17
上海保安禁止读外国诗,蠢货吃了权力的春药

上海保安禁止读外国诗,蠢货吃了权力的春药

陶舜财经
2024-05-30 01:16:09
首支冲超球队可能今晚诞生!若广州今晚输球,云南玉昆将提前冲超

首支冲超球队可能今晚诞生!若广州今晚输球,云南玉昆将提前冲超

直播吧
2024-10-05 13:13:16
暴增27倍!国庆热门目的地TOP5!出炉!你打算去哪里?

暴增27倍!国庆热门目的地TOP5!出炉!你打算去哪里?

环球网资讯
2024-10-01 07:31:57
伊朗有能力饱和打击以色列,却拿不出一张打击后的卫星照片

伊朗有能力饱和打击以色列,却拿不出一张打击后的卫星照片

军机图
2024-10-04 11:33:58
如何从10万做到100万,用最笨最简单的炒股方法,只买一种股票!

如何从10万做到100万,用最笨最简单的炒股方法,只买一种股票!

股经纵横谈
2024-10-05 23:46:25
又打起来了,伊朗系下死手,以军损失惨重,美国态度180度反转

又打起来了,伊朗系下死手,以军损失惨重,美国态度180度反转

文雅笔墨
2024-10-05 17:14:32
2024-10-06 00:42:44
机器之心Pro
机器之心Pro
专业的人工智能媒体
9519文章数 142033关注度
往期回顾 全部

科技要闻

十一直击:鸿蒙智行、小米汽车人气高涨

头条要闻

以色列3个月后才通报穆什塔哈之死 其去年曾躲过轰炸

头条要闻

以色列3个月后才通报穆什塔哈之死 其去年曾躲过轰炸

体育要闻

郑钦文摔倒受伤 0-2告负无缘中网决战

娱乐要闻

肖战晒照庆33岁生日,阳光帅气有活力

财经要闻

“抢筹”中国资产!外资巨头发声!

汽车要闻

售17.78万元 蒙迪欧1.5T混动舒雅型上市

态度原创

本地
教育
房产
时尚
公开课

本地新闻

云游中国|还有谁不知道 荆门人有属于自己的仙本那

教育要闻

这些时间点很适合孩子冥想,提升专注改善情绪加强自信!

房产要闻

国庆到啦!快来查收你的买楼大礼包

幸好有妖魔鬼怪在缝缝补补

公开课

眼花失眠抽筋,你的肝该调调了

无障碍浏览 进入关怀版