网易首页 > 网易号 > 正文 申请入驻

该让大模型走出对话框了

0
分享至

题图|天工AI生成

虽然今年只过去了三分之一,但AI领域的创新和迭代速度,依然会让不少人发出四郎般的疑问:你还有多少惊喜是“朕”不知道的?

如果说2023年的大模型风暴还集中在“对话”上,那么,今年AI带来的亿点点震撼,就突破了文字乃至图像的范畴。

2月中旬,OpenAI发布的“文生视频”(text-to-video)的大模型工具Sora直接生成60秒一镜到底、不同景别流畅切换的视频,将文生视频的效果提升数个维度,以至于在demo视频刚公布的最初几天,有人忍不住惊呼“现实世界不存在了”。

3月中旬,Suno团队发布的Suno AI V3版本,只要输入简单的文字描述,就可以生成两分钟以内、不同流派风格的音乐作品,效果惊艳,被称为“AI音乐的ChatGPT时刻”。

短短一年,大模型再度快速进化。与上一阶段人们热衷于测试大模型能否理解言外之意、能否编程、能否做数学题不同,大模型的能力维度变得更加丰富多元。这意味着什么?

通往AGI之路

AGI,通用人工智能,AI皇冠上的明珠,AI从业人士追寻的理想和目标,通俗地说,AGI的目标是模仿并超越人类的智力水平,但迄今为止,尚未有现实AGI成果出现,个中原因便在于,当前的AI无法克服认知模型复杂性这一难题。

人脑是天生的多任务处理器,机器不是。

当下的技术发展,使得人工智能在许多方面已经取得了媲美人类甚至超越人类的成就,例如以AlphaFold和AlphaZero为代表的专业领域AI,以及文书纠正AI Grammarly,DALL·E 2,Imagen等生图AI。但它们的强大仅局限于特定领域。

当人在欣赏一朵颜色艳丽、香味扑鼻、造型华丽的花朵时,大脑会自动将颜色、形状、气味等不同维度信息进行综合处理,这种对人类而言十分简单的事情,对机器来说是一件难事。如果机器能够充分理解物理世界不同介质的信息,并进行综合性的处理,这将是重要突破,也意味着AI能够更加智能,能处理更加复杂的事情,提供更加有价值的帮助。

大模型在文字、图片、视频、语音等方面取得的进展,意义便在于此。

当其他大模型在特定领域内谋求突破时,一位来自中国的选手正在打破模型间的围墙。4月17日,在「天工」大模型发布一周年之际,昆仑万维宣布,「天工3.0」以及「天工SkyMusic」正式开启公测。一年时间,从1.0到3.0,天工大模型发生了什么变化?

根据官方介绍,「天工3.0」是4000亿级参数全球最大规模的开源MoE大模型,也是中国首个音乐AIGC SOTA(深度学习专有名词,指领域内最好的模型)。相较上一代,「天工3.0」在模型语义理解、逻辑推理、以及通用性、泛化性、不确定性知识、学习能力等领域有很大的性能提升,其模型技术知识能力提升超过20%,数学/推理/代码/文创能力提升超过30%。

而且,「天工3.0」新增了搜索增强、研究模式、调用代码、绘制图表、多次调用联网搜索等能力,集成了AI搜索、AI写作、AI长文本阅读、AI对话、AI语音合成、AI图片生成、AI漫画创作、AI图片识别、AI音乐生成、AI代码写作、AI表格生成等多项能力,实现了对大模型的多模态突破。

从搜索、查找、定方案,到生成报告、制作表格、制作音乐等等需要使用多个大模型才能完成的多项操作,如今在「天工3.0」可以全部搞定,这无疑能带来极大的便利。

惠及用户的同时,「天工3.0」会成为虚拟世界与物理世界的接口,并充当用户在虚拟世界的智能管家,「天工3.0」的价值将是平台级的。

在这个过程中,机器处理来自用户的各种复杂需求,输入了更多数据,进行了更多模态的后台处理,这样的输入输出对于AI变得更加智能,意义重大。

AI写歌,创作平权

「天工3.0」会的多,但绝不是把一堆功能生硬的粘合在一起,其更底层的支撑,来自于模型能力层的提升。

大模型很强,但用好有门槛。大部分普通用户没有代码开发经验,更不具备训练大模型提示词工程能力,要把大模型调教成趁手的个人AI助理,用户自己得先花时间好好学习。

针对这一现状,「天工3.0」深度训练Agent的能力,针对模型独立规划、调用、组合外部工具及信息的能力进行了专项训练,使其能够独立生成并调用代码,完成包括产业研究、产品横评、信息分析、图片生成、图表绘制等多种复杂用户需求。

以买车这个日常生活中的典型场景为例,传统做法是找到对应车型的介绍,再自己列出不同车型的核心参数进行比较,涉及到很多繁琐的工作,这件事在「天工3.0」这儿变得特别简单。

当在搜索框中输入“特斯拉Model 3和Model Y哪个好”时,「天工3.0」首先会联网查询最新信息。

「天工3.0」给出的结果十分令人惊喜,因为它不仅突破了传统搜索只给出一堆链接、需要用户自己浏览总结的体验,直接把关键信息提炼了出来,更自动生成了两款车型的对比表格,让信息一目了然,便于用户查看。无论内容和还是形式都十分贴心到位。

结果出来后,「天工3.0」还进一步细化了提问方向,引导用户了解更加详细的信息维度,以做好决策。原本需要耗费大量时间做的信息搜集、整理和对比工作,在「天工3.0」这里简化成了一步:提问。

这种便捷体验的实现,是「天工3.0」多轮内容生成、调用搜索、画表格等能力在做支撑,底层则源自「天工3.0」深度训练Agent的能力,让大模型具有独立思考的能力,实现每一步都能独立思考,每一步都能判断是否调用模式。

判断一个大模型够不够聪明,很重要的一点就是它能不能解决复杂问题,数学与推理能力均提升超过30%的「天工3.0」逻辑推理能力大幅提升。这在天工的搜索研究模式、搜索增强模式中体现尤为明显。

比如,正值春天,很多人会有鼻塞打喷嚏的症状,在搜索增强模式下查询“春天鼻塞打喷嚏怎么办”后,「天工3.0」将这个比较模糊的问题延伸出了具体的原因和方法。

「天工3.0」基于自身的逻辑推理能力,帮用户的模糊提问厘清了思路,进而输出了一份信息全面、针对性也很强的回答。给出了不同的可能性,和相应的解决方案,并在最后继续延展出更加细化的方向,帮助用户结合自身情况进一步找到更加对症的解决办法。

「天工3.0」最令人惊艳的部分,莫过于内容创作能力。

其AI图片生成现在支持多轮修图和扩图,从下面的体验中可以看到,当用户输入“两个小孩在花园里玩耍”的需求时,「天工3.0」生成了四幅图片,随后,增加“加一条小狗”的需求后,「天工3.0」也正确的输出了有小狗和小孩一起在花园玩耍的画面。

当输入“扩展当前图片”指令后,「天工3.0」在已生成图片的基础上,进行了合理扩展,为画面增加了花树前景,令图片层次更加丰富、氛围感更足。

而在众多内容生成能力中,「天工3.0」最令外界期待的,莫过于旗下4月17日开放公测的「天工SkyMusic」音乐大模型,这是国内首个音乐AIGC SOTA模型。

专业术语定义的优秀或许过于抽象,不如先看具体体验。

将苏轼经典词作《水调歌头》输入「天工SkyMusic」,很快就生成了三首歌曲,歌曲时长最长为一分半,有男声也有女声。

初次生成的曲风偏现代,进入编辑页面,使用参考歌曲功能,选择了《沧海一声笑》作为参考歌曲,让「天工SkyMusic」再次生成,再次生成三首歌曲,曲风产生了明显的变化。

人声清晰、吐字标准、曲风有古意,显然,与其他AI音乐生成大模型相比,「天工SkyMusic」显然“更适合中国宝宝体质”。

达成这样的效果并不容易。

AI音乐生成有两大技术路径,符号音乐生成路线、大模型音乐音频生成路线。大模型音乐音频生成+Song(人声)可谓难上加难,而「天工SkyMusic」偏偏选了这条路。

对于一首音乐作品而言,人声是非常重要的元素,最能够体现生产作品的效果。过去,AI音乐行业大量研究都集中在符号音乐生成技术路线上,并且大多只能实现无人声背景音乐(Background Music,BGM)的生成,音乐的质量、效果、审美都远远达不到可用水平,产业迟迟未能爆发。

而从测试结果可以明显感觉到,「天工SkyMusic」的AI人声中文人声清晰度、咬字准确,听感清晰,显著好于国外产品,达到了业内顶级水平。

这是因为,与行业主流路径不同,「天工SkyMusic」采用自研大模型音乐音频生成技术路线,通过大模型技术实现乐器、人声、旋律、音量、音符的一体化端到端音乐生成,技术难度极大,全球只有极少数玩家参与,昆仑万维正是其中之一。

如今大语言模型(LLM)百花齐放的背后,很多开源项目可以被借鉴和参考,但在AI音乐大模型领域,几乎没什么开源资源可借鉴。没石头可摸,「天工SkyMusic」踏入湍急的河水中,砸入很多研发资源,摸索出一条路出来。宣布公测的同时,「天工SkyMusic」公布技术原理图——自己把坑踩完后,给行业复现的方案。

据介绍,在与海外顶尖的AI音乐大模型Suno V3的横向测评中,「天工SkyMusic」在人声&BGM音质、人声自然度、发音可懂度等领域显著领先对手,并以6.65分的综合得分超越Suno V3,成为全球AI音乐SOTA模型。

「天工SkyMusic」还独创了方言歌曲生成能力,在人声自然度、发声可懂度等领域表现优秀,支持粤语、成都话、北京话等众多方言。

简单写了几句介绍北京特色小吃的歌词生成歌曲,儿化音倍儿地道。

同时,「天工SkyMusic」能够生成80秒44100Hz采样率双声道立体声AI歌曲——这是理论上的CD音质界限,质量很高。「天工SkyMusic」还能根据用户输入的歌词风格生成对应歌曲的风格,创作的易用性和个性化质量也很高。说唱、民谣、放克、古风、电子……不同音乐风格,「天工SkyMusic」都能驾驭。

另外,用户可以通过歌词来控制歌曲,让生成的歌曲可以明确分辨出不同歌词段落的情绪变化,体现出主歌和副歌、前奏和主歌的段落差异。独创的参考音乐生成功能,支持用户上传自有参考音乐,生成风格、唱腔类似的歌曲,进一步降低音乐大模型的使用门槛,让不熟悉乐理的用户也能轻松使用。相当内行、专业和贴心。

All in AGI与AIGC

从游戏业务起家,到成为全球平均月活跃用户近4亿、在海外孵化了多款千万级DAU爆品的企业,昆仑万维有安享舒适区的资本,但也有成为巨头的焦虑。

身为体量中型的互联网公司,昆仑万维始终在寻找第二曲线,期望实现突破,让公司规模和影响力更上一层楼。AI送来挑战,也带来希望。

2020年GPT-3给方汉带来极大的冲击。身为昆仑万维的管理者,他意识到,AI的高速发展必然会对内容产业带来颠覆性的改变,“AI的任何一点进步都会导致内容创作的大爆发,这是所有内容厂商必须面对的事实。”

AI对内容生态太重要了。当曾经必须投入重金才能产出的内容,变成只需对AI描述需求就能输出的产品,内容的生产成本被无限降低,创意的随机性和不可靠性也被大大压缩。这只是AI颠覆内容行业的一个维度。

内容产业本就是昆仑万维的主场,经过数十年发展,昆仑万维对于内容有深度理解,对变量也极度敏感,这些都让方汉明确一点:对昆仑万维而言,AI不得不做、必须要做,不然会被颠覆。

从2020年,昆仑万维就持续投入AI,2022年底,高管战略会更是决定要All in。在昆仑万维眼中,对AGI和AIGC的投入和追求,不是追逐时髦的one more thing,而是必须押上全部资源投入的未来。

战略上的确定推动着昆仑万维AI大模型、AI搜索、AI音乐、AI社交、AI游戏、AI视频六大业务矩阵的快速落地。

如今,「天工SkyMusic」的发布为昆仑万维发力AI创作者生态提供了可能性,而昆仑万维在这方面的布局,也将深刻影响行业的走向。

AI音乐生成大模型并不是音乐产业的破坏者,而是提供了更为先进的生产工具。就如同火车的发明只是为了帮助人们更好的出行一样,「天工SkyMusic」将音乐创作的门槛降低了,普通人的情绪、情感可以通过大模型工具得到更为广泛的表达。

比如,任何一个人都可以用「天工SkyMusic」为古诗词谱上美妙的旋律,通过更加生动有趣的方式,让大众进一步感受到古诗词的美和韵味,这对于诗词文化的传播以及文学教育具有很现实的意义。

在让不会乐器、不懂乐理但热爱音乐的普通人,可以无惧不懂乐理、缺乏能力,也能创作出属于自己的音乐后,具备内容生产能力的群体基数变大,文娱内容生产的成本自然会变低。昆仑万维董事长兼CEO方汉便曾透露,根据昆仑万维的观察,当内容创作的门槛下降一半的时候,内容创作者的人数就会翻倍。

而创作门槛的降低,更蕴藏着文化平权的深刻价值。

方汉观察到,在非洲等经济相对落后的国家和地区,当地生产力太落后,因此没有能力制作好的电影作品来跟强势欧美文化抗衡。而欧美文化能够在全球流行,本质上是做了大投入来创作好内容,达到强势垄断。

“当AIGC技术进化后,全世界所有人都可以低成本创作从音乐到小说,从漫画到影视的内容。每一个小语种都会更容易创作出属于自己的文化,这个实际上就是打破垄断的文化平权。”

对昆仑万维而言,从实际利益出发,AIGC赋予了人人平等的创作权利,小族群也能创作更多优质内容,这是一个蓝海市场,“在商言商,我们希望在这方面做出我们的差异化竞争”。更重要的是,当主流AIGC产品都以英文为主,中文效果相对没那么好,方言更不支持时,国产AIGC产品的崛起,也为文化的传承和传播提供了一层保护。

尽管「天工SkyMusic」目前仍在起步阶段,但已经让很多用户感受到了音乐创作的乐趣。未来随着持续优化完善,为打造一个专业且易用的全民音乐创作平台。这或许会促进更为丰富多样的音乐内容的产生,并在未来对产业的生产方式带来新的变革。其价值,不会局限于商业领域。作为中国首个音乐AIGC大模型,「天工SkyMusic」率先转动了变革的旋钮。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
11月14日,日本领先全世界发射了搭载爆震式火箭发动机的火箭

11月14日,日本领先全世界发射了搭载爆震式火箭发动机的火箭

随波荡漾的漂流瓶
2024-11-14 17:45:02
伊朗导弹行动警告中国!若中美开战,1000枚高超弹饱和打击?

伊朗导弹行动警告中国!若中美开战,1000枚高超弹饱和打击?

阵匠
2024-11-14 11:48:08
老公若是这3个生肖,再穷都别离婚,早晚能发财

老公若是这3个生肖,再穷都别离婚,早晚能发财

老六师傅
2024-11-14 20:56:09
来自银座NO.1の最强新人——北野未奈

来自银座NO.1の最强新人——北野未奈

生活大关注
2024-11-15 00:07:27
开播人气破9千万,《大话西游》续作爆火,周星驰又降维打击?

开播人气破9千万,《大话西游》续作爆火,周星驰又降维打击?

毒舌电影
2024-11-14 16:33:19
“不老女神”是假的,49岁林志玲模样大变,生图揭露“人间真实”

“不老女神”是假的,49岁林志玲模样大变,生图揭露“人间真实”

崽下愚乐圈
2024-11-14 15:26:31
《经济参考报》两名记者在安徽采访时被打,警方:会依法依规进行调查

《经济参考报》两名记者在安徽采访时被打,警方:会依法依规进行调查

极目新闻
2024-11-14 18:51:39
先吃饭还是先吃药?人民日报发布正确服药指南,权威实用!

先吃饭还是先吃药?人民日报发布正确服药指南,权威实用!

华人星光
2024-11-12 22:27:33
自我救赎+1!汪海健上一场国家队首秀送乌龙助攻,本场助攻绝杀

自我救赎+1!汪海健上一场国家队首秀送乌龙助攻,本场助攻绝杀

直播吧
2024-11-15 00:08:00
杨紫遭媒体批评,整容过了头模样大变,像刘晓庆孙悦又像张俪

杨紫遭媒体批评,整容过了头模样大变,像刘晓庆孙悦又像张俪

老佳聊球666
2024-11-13 14:40:16
1:0绝杀后,国足形势反转!追平第2分数,再赢2场直通世界杯有戏

1:0绝杀后,国足形势反转!追平第2分数,再赢2场直通世界杯有戏

阿超他的体育圈
2024-11-15 00:26:19
当代嫪毐:养8名情妇,睡遍女狱警,警花也不放过,狱长是他小弟

当代嫪毐:养8名情妇,睡遍女狱警,警花也不放过,狱长是他小弟

麦大人
2023-12-31 18:00:16
安徽95岁教师接到学生电话:“您死后,能把骨灰盒给我吗?”

安徽95岁教师接到学生电话:“您死后,能把骨灰盒给我吗?”

坦然风云
2024-11-13 20:35:39
中年女性穿大衣时尽量别搭配丝袜!今年流行搭配裙子打底裤,超美

中年女性穿大衣时尽量别搭配丝袜!今年流行搭配裙子打底裤,超美

何有强
2024-11-14 00:08:15
苏菲玛索,身高173厘米,被誉为法兰西玫瑰,长得真漂亮!

苏菲玛索,身高173厘米,被誉为法兰西玫瑰,长得真漂亮!

人情皆文史
2024-10-16 00:17:57
国产C919成功“换心”,波音50年垄断或破灭?外媒:别再幻想

国产C919成功“换心”,波音50年垄断或破灭?外媒:别再幻想

奉壹数码
2024-11-14 19:40:10
四年涨了1000%!法国小众鞋在华焕发第二春,价格不便宜但受追捧

四年涨了1000%!法国小众鞋在华焕发第二春,价格不便宜但受追捧

柳先说
2024-11-14 19:12:56
特朗普大封官后,沙利文说出一句大实话,向我国传递重要信息

特朗普大封官后,沙利文说出一句大实话,向我国传递重要信息

猎火照狼山
2024-11-15 00:05:02
“女性列车乘务员裙装在走光边缘”,网友建议换成裤子,12306工作人员回应

“女性列车乘务员裙装在走光边缘”,网友建议换成裤子,12306工作人员回应

新京报
2024-11-13 21:22:26
被曝以次充好、殴打记者,中铁七局最新声明:高度关注,正配合警方全面调查

被曝以次充好、殴打记者,中铁七局最新声明:高度关注,正配合警方全面调查

每日经济新闻
2024-11-14 21:32:42
2024-11-15 04:00:49
虎嗅APP
虎嗅APP
个性化商业资讯与观点交流平台
22836文章数 685378关注度
往期回顾 全部

科技要闻

官宣!极氪领克合并,吉利走向大整合

头条要闻

世预赛:国足客场1-0巴林收获两连胜 张玉宁绝杀

头条要闻

世预赛:国足客场1-0巴林收获两连胜 张玉宁绝杀

体育要闻

本季英超最炸裂的瓜,由一名裁判制造

娱乐要闻

娜扎张云龙恋情曝光!甜蜜细节被扒

财经要闻

"机构举报游资"导致A股大跌?

汽车要闻

七块屏幕四座布局 仰望U7中式百万座舱

态度原创

艺术
手机
教育
旅游
军事航空

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

手机要闻

vivo S20 Pro详细参数流出:旗舰同款影像方案,配置也少有短板!

教育要闻

16岁中学生简历引关注 正高职称 还研发火箭?

旅游要闻

山西公布2024年全省乡村旅游重点村镇名单

军事要闻

海陆空三军首次在珠海联合召开发布会

无障碍浏览 进入关怀版