网易首页 > 网易号 > 正文 申请入驻

开源版《Her》来了,技术报告已公开!大神Karpathy:它很有个性

0
分享至

大神Karpathy鼎力推荐,开源版「Her」Moshi再引关注!

(Moshi)的性格非常有趣,它会突然断断续续,有时会无缘无故沉默……



据了解,Moshi是一款端到端实时音频模型,于今年7月初由一家法国创业团队Kyutai发布。

不仅发布后人人免费可玩,而且就在刚刚,Kyutai将Moshi的代码、技术报告来了个大公开。



这波属实惊喜了,当初抢先试玩的谷歌DeepMind研究员、ViT作者Lucas Beyer闻声赶来:

(刚好)我最近就想知道这个问题



开源工程师Sebastian Rojo原地启动好学模式。

是时候学起来了!



当然,一直慢腾腾的OpenAI再次被“当众处刑”。(其高级语言模式7月底上线后,仍只面向小部分人开放)

惊人的!当我们仍在等待OpenAI的高级语音模式时,人们可以开始使用Moshi并进行构建。



Moshi技术细节大公开

话不多说,先来开个箱,看看Kyutai这次放出了哪些东西。

  • 一份长篇技术报告。揭露Moshi模型背后细节、权重、代码;
  • GitHub官方仓库
  • HuggingFace模型库

首先来看模型。Kyutai这次发布了3个模型,分别是Moshiko、Moshika,以及Mimi流语音编解码器。

Moshi的参数大约为7.69B,Moshiko/ka是Moshi对合成数据进行微调后的变体,分为男女两个声音。

还可以让它们自行对话, be like:



可以看出,它们都能在一台MacBook上运行,且据介绍,这些模型在L4 GPU上实现了约200毫秒的延迟



至于变体的内存需求,bf16、8位和4位精度,对应的内存分别为16GB、8GB和4GB VRAM。



另外,Moshi使用了一个名为Mimi的流式神经音频编解码器,能够处理24 kHz音频(以1.1kbps的速度将24 kHz音频压缩至12.5Hz),并且支持多种预训练模型。

Mimi受SpeechTokenizer启发,通过蒸馏技术联合建模语义和声学信息,并且通过对抗性训练提升了性能,专门用来和大语言模型协同工作。



其次,从官方公布的技术细节来看,Moshi项目主要由三个组件构成:

  • Helium语言模型(拥有70亿参数并在2.1万亿tokens上进行训练)
  • Mimi神经音频编解码器(能够建模语义和声学信息)
  • 一种新的多流架构(能够在单独的频道上分别对用户和Moshi的音频进行建模)



展开来说,Moshi团队对Helium进行了增强,采用了RQ-Transformer变体架构,这使得Helium能够在不增加序列长度的情况下建模语义和声学标记的层次结构。

官方自称,他们对生成音频的主要贡献是多流建模技术(multi-stream modeling)。

能够在每个时间步中堆叠Moshi和用户的tokens,以模拟全双工对话的动态,包括重叠、反向通道和中断等。

还包括内心独白技术(Inner Monologue),它进一步提高了生成语音的质量,通过预测时间对齐的文本来增强Moshi的智能性,同时保持与流媒体的兼容性。



此外,“内心独白”的一个延伸是:通过调整音频和文本标记的延迟,Moshi能够实现流式TTS和ASR功能。



在大规模音频预训练后,官方利用自己的模型创建了20k小时的合成对话数据,用于评估Moshi在质量、音频语言建模和口语问答方面的表现,以及进行了安全和量化分析。

评估结果显示,Moshi在性能上优于之前发布的模型。



OpenAI版「Her」仍未开放

眼见Moshi这次来了个大公开,一众网友又纷纷想起了OpenAI。

今年7月底,OpenAI高级语音模式面向部分plus用户上线,一些试玩例子也随之流出……

比如让ChatGPT开口讲中文,这浓浓的「歪果仁」口音是怎么回事。

再比如让它来段绕口令,围观网友笑cry了。

一番试玩下来,网友们期待值拉满。

然而,OpenAI的动作实在有亿点慢了,当时曾计划秋季时让所有plus用户都能用上高级语音模式。



然而至今没有更多消息,相关话题的实时页面下,随处可见一片抱怨。





以至于Moshi发布后,再次有网友调侃:

开源总是胜利!



不过也有爆料称,OpenAI可能会在9月24日发布高级语音模式。

一周之后咱们见分晓!



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
警惕!北京进入高发期!多人中招!

警惕!北京进入高发期!多人中招!

美丽大北京
2024-11-09 21:31:30
网友:心拔凉拔凉的!降薪的风还是吹到医院,9000多元怎么养家?

网友:心拔凉拔凉的!降薪的风还是吹到医院,9000多元怎么养家?

火山诗话
2024-11-09 08:43:15
迈巴赫为何不理会三色雨布维权?内行人解密,瞬间明悟!

迈巴赫为何不理会三色雨布维权?内行人解密,瞬间明悟!

小毅说事
2024-11-07 23:10:23
周末信息如何影响市场?明天是红色星期一?还是黑色星期一?

周末信息如何影响市场?明天是红色星期一?还是黑色星期一?

春江财富
2024-11-10 09:17:14
内阁名单已定,特朗普开始封官,被中方制裁的蓬佩奥,或卷土重来

内阁名单已定,特朗普开始封官,被中方制裁的蓬佩奥,或卷土重来

影孖看世界
2024-11-09 23:33:25
李晓霞:陈梦上届奥运夺冠后心理上承受了很多,一度有些低迷

李晓霞:陈梦上届奥运夺冠后心理上承受了很多,一度有些低迷

懂球帝
2024-08-04 14:10:02
黄春梅被爆黄昏恋,择偶观与大S相反,与谢贤谢霆锋父子如出一辙

黄春梅被爆黄昏恋,择偶观与大S相反,与谢贤谢霆锋父子如出一辙

农村教育光哥
2024-11-09 11:29:27
“吹牛老爹”的“情欲丛林”和他身后权贵们的较量

“吹牛老爹”的“情欲丛林”和他身后权贵们的较量

仓一胤
2024-11-08 22:32:24
恭喜齐达内!梦想成真!姆巴佩逼宫助力,德尚寡不敌众,队员反抗

恭喜齐达内!梦想成真!姆巴佩逼宫助力,德尚寡不敌众,队员反抗

阿泰希特
2024-11-09 20:30:12
德媒:马斯克称德国总理是“傻瓜”

德媒:马斯克称德国总理是“傻瓜”

参考消息
2024-11-08 21:31:09
重庆广阳岛开发调查:投资超百亿修建8个项目,已竣工一年的国际会议中心还未正式营业

重庆广阳岛开发调查:投资超百亿修建8个项目,已竣工一年的国际会议中心还未正式营业

极目新闻
2024-11-09 15:54:17
清理沉睡账户势在必行

清理沉睡账户势在必行

经济日报
2024-11-10 03:34:07
爆刘晓庆的小视频,这兔崽子有点过分了

爆刘晓庆的小视频,这兔崽子有点过分了

雨秋闲话
2024-11-08 22:29:19
美国彻底凉凉了,中国竟然开始发行美元主权债!

美国彻底凉凉了,中国竟然开始发行美元主权债!

星辰故事屋
2024-11-09 20:25:39
风波再起!阿联事件乔姐被曝已全部交代,警察叔叔掌握了所有信息

风波再起!阿联事件乔姐被曝已全部交代,警察叔叔掌握了所有信息

辣条小剧场
2024-11-09 06:17:05
1949年新中国定都,毛主席最先选定的并非北京,而是东方莫斯科

1949年新中国定都,毛主席最先选定的并非北京,而是东方莫斯科

谢小龙聊历史
2024-11-05 23:19:10
长滨蜜璃|下一个IP大魔王?时人不识凌云木,直待凌云始道高!

长滨蜜璃|下一个IP大魔王?时人不识凌云木,直待凌云始道高!

生活大关注
2024-11-09 00:46:43
你们去过埃及的人嘴真严啊!网友:一生报喜不报忧的中国人

你们去过埃及的人嘴真严啊!网友:一生报喜不报忧的中国人

观察鉴娱
2024-11-04 11:06:32
江苏美女官员火箭提拔,专科毕业当中学老师,3个月从正科到副县

江苏美女官员火箭提拔,专科毕业当中学老师,3个月从正科到副县

马蹄烫嘴说美食
2024-11-10 07:50:16
铁饭碗也不铁了?上海关停40多所学校,教师:两眼一黑

铁饭碗也不铁了?上海关停40多所学校,教师:两眼一黑

明明育儿秀
2024-11-09 16:18:48
2024-11-10 12:12:49
量子位
量子位
追踪人工智能动态
9576文章数 175680关注度
往期回顾 全部

科技要闻

OpenAI CEO:模型是贬值资产

头条要闻

"奇葩车位"被柱子挡住卖3万元 网友:白送还差不多

头条要闻

"奇葩车位"被柱子挡住卖3万元 网友:白送还差不多

体育要闻

霸气!郑钦文叉腰摆pose 伸手接金色彩带

娱乐要闻

妖怪曝与叶柯录音,叶柯每句话都爆雷

财经要闻

6万亿后 还将有更多增量财政政策出台

汽车要闻

NZP能否完成极氪智驾最后一块拼图?

态度原创

旅游
本地
数码
艺术
公开课

旅游要闻

长图|“冬游西藏”优惠来袭

本地新闻

塞上青城|“宜养”呼和浩特 你爱了吗?

数码要闻

M4 Mac mini 固态硬盘已被玩家成功改装扩容到2TB

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

公开课

AI如何揭开大自然和宇宙的奥秘

无障碍浏览 进入关怀版