题图|天工AI生成
虽然今年只过去了三分之一,但AI领域的创新和迭代速度,依然会让不少人发出四郎般的疑问:你还有多少惊喜是“朕”不知道的?
如果说2023年的大模型风暴还集中在“对话”上,那么,今年AI带来的亿点点震撼,就突破了文字乃至图像的范畴。
2月中旬,OpenAI发布的“文生视频”(text-to-video)的大模型工具Sora直接生成60秒一镜到底、不同景别流畅切换的视频,将文生视频的效果提升数个维度,以至于在demo视频刚公布的最初几天,有人忍不住惊呼“现实世界不存在了”。
3月中旬,Suno团队发布的Suno AI V3版本,只要输入简单的文字描述,就可以生成两分钟以内、不同流派风格的音乐作品,效果惊艳,被称为“AI音乐的ChatGPT时刻”。
短短一年,大模型再度快速进化。与上一阶段人们热衷于测试大模型能否理解言外之意、能否编程、能否做数学题不同,大模型的能力维度变得更加丰富多元。这意味着什么?
通往AGI之路
AGI,通用人工智能,AI皇冠上的明珠,AI从业人士追寻的理想和目标,通俗地说,AGI的目标是模仿并超越人类的智力水平,但迄今为止,尚未有现实AGI成果出现,个中原因便在于,当前的AI无法克服认知模型复杂性这一难题。
人脑是天生的多任务处理器,机器不是。
当下的技术发展,使得人工智能在许多方面已经取得了媲美人类甚至超越人类的成就,例如以AlphaFold和AlphaZero为代表的专业领域AI,以及文书纠正AI Grammarly,DALL·E 2,Imagen等生图AI。但它们的强大仅局限于特定领域。
当人在欣赏一朵颜色艳丽、香味扑鼻、造型华丽的花朵时,大脑会自动将颜色、形状、气味等不同维度信息进行综合处理,这种对人类而言十分简单的事情,对机器来说是一件难事。如果机器能够充分理解物理世界不同介质的信息,并进行综合性的处理,这将是重要突破,也意味着AI能够更加智能,能处理更加复杂的事情,提供更加有价值的帮助。
大模型在文字、图片、视频、语音等方面取得的进展,意义便在于此。
当其他大模型在特定领域内谋求突破时,一位来自中国的选手正在打破模型间的围墙。4月17日,在「天工」大模型发布一周年之际,昆仑万维宣布,「天工3.0」以及「天工SkyMusic」正式开启公测。一年时间,从1.0到3.0,天工大模型发生了什么变化?
根据官方介绍,「天工3.0」是4000亿级参数全球最大规模的开源MoE大模型,也是中国首个音乐AIGC SOTA(深度学习专有名词,指领域内最好的模型)。相较上一代,「天工3.0」在模型语义理解、逻辑推理、以及通用性、泛化性、不确定性知识、学习能力等领域有很大的性能提升,其模型技术知识能力提升超过20%,数学/推理/代码/文创能力提升超过30%。
而且,「天工3.0」新增了搜索增强、研究模式、调用代码、绘制图表、多次调用联网搜索等能力,集成了AI搜索、AI写作、AI长文本阅读、AI对话、AI语音合成、AI图片生成、AI漫画创作、AI图片识别、AI音乐生成、AI代码写作、AI表格生成等多项能力,实现了对大模型的多模态突破。
从搜索、查找、定方案,到生成报告、制作表格、制作音乐等等需要使用多个大模型才能完成的多项操作,如今在「天工3.0」可以全部搞定,这无疑能带来极大的便利。
惠及用户的同时,「天工3.0」会成为虚拟世界与物理世界的接口,并充当用户在虚拟世界的智能管家,「天工3.0」的价值将是平台级的。
在这个过程中,机器处理来自用户的各种复杂需求,输入了更多数据,进行了更多模态的后台处理,这样的输入输出对于AI变得更加智能,意义重大。
AI写歌,创作平权
「天工3.0」会的多,但绝不是把一堆功能生硬的粘合在一起,其更底层的支撑,来自于模型能力层的提升。
大模型很强,但用好有门槛。大部分普通用户没有代码开发经验,更不具备训练大模型提示词工程能力,要把大模型调教成趁手的个人AI助理,用户自己得先花时间好好学习。
针对这一现状,「天工3.0」深度训练Agent的能力,针对模型独立规划、调用、组合外部工具及信息的能力进行了专项训练,使其能够独立生成并调用代码,完成包括产业研究、产品横评、信息分析、图片生成、图表绘制等多种复杂用户需求。
以买车这个日常生活中的典型场景为例,传统做法是找到对应车型的介绍,再自己列出不同车型的核心参数进行比较,涉及到很多繁琐的工作,这件事在「天工3.0」这儿变得特别简单。
当在搜索框中输入“特斯拉Model 3和Model Y哪个好”时,「天工3.0」首先会联网查询最新信息。
「天工3.0」给出的结果十分令人惊喜,因为它不仅突破了传统搜索只给出一堆链接、需要用户自己浏览总结的体验,直接把关键信息提炼了出来,更自动生成了两款车型的对比表格,让信息一目了然,便于用户查看。无论内容和还是形式都十分贴心到位。
结果出来后,「天工3.0」还进一步细化了提问方向,引导用户了解更加详细的信息维度,以做好决策。原本需要耗费大量时间做的信息搜集、整理和对比工作,在「天工3.0」这里简化成了一步:提问。
这种便捷体验的实现,是「天工3.0」多轮内容生成、调用搜索、画表格等能力在做支撑,底层则源自「天工3.0」深度训练Agent的能力,让大模型具有独立思考的能力,实现每一步都能独立思考,每一步都能判断是否调用模式。
判断一个大模型够不够聪明,很重要的一点就是它能不能解决复杂问题,数学与推理能力均提升超过30%的「天工3.0」逻辑推理能力大幅提升。这在天工的搜索研究模式、搜索增强模式中体现尤为明显。
比如,正值春天,很多人会有鼻塞打喷嚏的症状,在搜索增强模式下查询“春天鼻塞打喷嚏怎么办”后,「天工3.0」将这个比较模糊的问题延伸出了具体的原因和方法。
「天工3.0」基于自身的逻辑推理能力,帮用户的模糊提问厘清了思路,进而输出了一份信息全面、针对性也很强的回答。给出了不同的可能性,和相应的解决方案,并在最后继续延展出更加细化的方向,帮助用户结合自身情况进一步找到更加对症的解决办法。
「天工3.0」最令人惊艳的部分,莫过于内容创作能力。
其AI图片生成现在支持多轮修图和扩图,从下面的体验中可以看到,当用户输入“两个小孩在花园里玩耍”的需求时,「天工3.0」生成了四幅图片,随后,增加“加一条小狗”的需求后,「天工3.0」也正确的输出了有小狗和小孩一起在花园玩耍的画面。
当输入“扩展当前图片”指令后,「天工3.0」在已生成图片的基础上,进行了合理扩展,为画面增加了花树前景,令图片层次更加丰富、氛围感更足。
而在众多内容生成能力中,「天工3.0」最令外界期待的,莫过于旗下4月17日开放公测的「天工SkyMusic」音乐大模型,这是国内首个音乐AIGC SOTA模型。
专业术语定义的优秀或许过于抽象,不如先看具体体验。
将苏轼经典词作《水调歌头》输入「天工SkyMusic」,很快就生成了三首歌曲,歌曲时长最长为一分半,有男声也有女声。
初次生成的曲风偏现代,进入编辑页面,使用参考歌曲功能,选择了《沧海一声笑》作为参考歌曲,让「天工SkyMusic」再次生成,再次生成三首歌曲,曲风产生了明显的变化。
人声清晰、吐字标准、曲风有古意,显然,与其他AI音乐生成大模型相比,「天工SkyMusic」显然“更适合中国宝宝体质”。
达成这样的效果并不容易。
AI音乐生成有两大技术路径,符号音乐生成路线、大模型音乐音频生成路线。大模型音乐音频生成+Song(人声)可谓难上加难,而「天工SkyMusic」偏偏选了这条路。
对于一首音乐作品而言,人声是非常重要的元素,最能够体现生产作品的效果。过去,AI音乐行业大量研究都集中在符号音乐生成技术路线上,并且大多只能实现无人声背景音乐(Background Music,BGM)的生成,音乐的质量、效果、审美都远远达不到可用水平,产业迟迟未能爆发。
而从测试结果可以明显感觉到,「天工SkyMusic」的AI人声中文人声清晰度、咬字准确,听感清晰,显著好于国外产品,达到了业内顶级水平。
这是因为,与行业主流路径不同,「天工SkyMusic」采用自研大模型音乐音频生成技术路线,通过大模型技术实现乐器、人声、旋律、音量、音符的一体化端到端音乐生成,技术难度极大,全球只有极少数玩家参与,昆仑万维正是其中之一。
如今大语言模型(LLM)百花齐放的背后,很多开源项目可以被借鉴和参考,但在AI音乐大模型领域,几乎没什么开源资源可借鉴。没石头可摸,「天工SkyMusic」踏入湍急的河水中,砸入很多研发资源,摸索出一条路出来。宣布公测的同时,「天工SkyMusic」公布技术原理图——自己把坑踩完后,给行业复现的方案。
据介绍,在与海外顶尖的AI音乐大模型Suno V3的横向测评中,「天工SkyMusic」在人声&BGM音质、人声自然度、发音可懂度等领域显著领先对手,并以6.65分的综合得分超越Suno V3,成为全球AI音乐SOTA模型。
「天工SkyMusic」还独创了方言歌曲生成能力,在人声自然度、发声可懂度等领域表现优秀,支持粤语、成都话、北京话等众多方言。
简单写了几句介绍北京特色小吃的歌词生成歌曲,儿化音倍儿地道。
同时,「天工SkyMusic」能够生成80秒44100Hz采样率双声道立体声AI歌曲——这是理论上的CD音质界限,质量很高。「天工SkyMusic」还能根据用户输入的歌词风格生成对应歌曲的风格,创作的易用性和个性化质量也很高。说唱、民谣、放克、古风、电子……不同音乐风格,「天工SkyMusic」都能驾驭。
另外,用户可以通过歌词来控制歌曲,让生成的歌曲可以明确分辨出不同歌词段落的情绪变化,体现出主歌和副歌、前奏和主歌的段落差异。独创的参考音乐生成功能,支持用户上传自有参考音乐,生成风格、唱腔类似的歌曲,进一步降低音乐大模型的使用门槛,让不熟悉乐理的用户也能轻松使用。相当内行、专业和贴心。
All in AGI与AIGC
从游戏业务起家,到成为全球平均月活跃用户近4亿、在海外孵化了多款千万级DAU爆品的企业,昆仑万维有安享舒适区的资本,但也有成为巨头的焦虑。
身为体量中型的互联网公司,昆仑万维始终在寻找第二曲线,期望实现突破,让公司规模和影响力更上一层楼。AI送来挑战,也带来希望。
2020年GPT-3给方汉带来极大的冲击。身为昆仑万维的管理者,他意识到,AI的高速发展必然会对内容产业带来颠覆性的改变,“AI的任何一点进步都会导致内容创作的大爆发,这是所有内容厂商必须面对的事实。”
AI对内容生态太重要了。当曾经必须投入重金才能产出的内容,变成只需对AI描述需求就能输出的产品,内容的生产成本被无限降低,创意的随机性和不可靠性也被大大压缩。这只是AI颠覆内容行业的一个维度。
内容产业本就是昆仑万维的主场,经过数十年发展,昆仑万维对于内容有深度理解,对变量也极度敏感,这些都让方汉明确一点:对昆仑万维而言,AI不得不做、必须要做,不然会被颠覆。
从2020年,昆仑万维就持续投入AI,2022年底,高管战略会更是决定要All in。在昆仑万维眼中,对AGI和AIGC的投入和追求,不是追逐时髦的one more thing,而是必须押上全部资源投入的未来。
战略上的确定推动着昆仑万维AI大模型、AI搜索、AI音乐、AI社交、AI游戏、AI视频六大业务矩阵的快速落地。
如今,「天工SkyMusic」的发布为昆仑万维发力AI创作者生态提供了可能性,而昆仑万维在这方面的布局,也将深刻影响行业的走向。
AI音乐生成大模型并不是音乐产业的破坏者,而是提供了更为先进的生产工具。就如同火车的发明只是为了帮助人们更好的出行一样,「天工SkyMusic」将音乐创作的门槛降低了,普通人的情绪、情感可以通过大模型工具得到更为广泛的表达。
比如,任何一个人都可以用「天工SkyMusic」为古诗词谱上美妙的旋律,通过更加生动有趣的方式,让大众进一步感受到古诗词的美和韵味,这对于诗词文化的传播以及文学教育具有很现实的意义。
在让不会乐器、不懂乐理但热爱音乐的普通人,可以无惧不懂乐理、缺乏能力,也能创作出属于自己的音乐后,具备内容生产能力的群体基数变大,文娱内容生产的成本自然会变低。昆仑万维董事长兼CEO方汉便曾透露,根据昆仑万维的观察,当内容创作的门槛下降一半的时候,内容创作者的人数就会翻倍。
而创作门槛的降低,更蕴藏着文化平权的深刻价值。
方汉观察到,在非洲等经济相对落后的国家和地区,当地生产力太落后,因此没有能力制作好的电影作品来跟强势欧美文化抗衡。而欧美文化能够在全球流行,本质上是做了大投入来创作好内容,达到强势垄断。
“当AIGC技术进化后,全世界所有人都可以低成本创作从音乐到小说,从漫画到影视的内容。每一个小语种都会更容易创作出属于自己的文化,这个实际上就是打破垄断的文化平权。”
对昆仑万维而言,从实际利益出发,AIGC赋予了人人平等的创作权利,小族群也能创作更多优质内容,这是一个蓝海市场,“在商言商,我们希望在这方面做出我们的差异化竞争”。更重要的是,当主流AIGC产品都以英文为主,中文效果相对没那么好,方言更不支持时,国产AIGC产品的崛起,也为文化的传承和传播提供了一层保护。
尽管「天工SkyMusic」目前仍在起步阶段,但已经让很多用户感受到了音乐创作的乐趣。未来随着持续优化完善,为打造一个专业且易用的全民音乐创作平台。这或许会促进更为丰富多样的音乐内容的产生,并在未来对产业的生产方式带来新的变革。其价值,不会局限于商业领域。作为中国首个音乐AIGC大模型,「天工SkyMusic」率先转动了变革的旋钮。
本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.