该让大模型走出对话框了|古风|天工|音乐|ai

分享至

题图｜天工AI生成

虽然今年只过去了三分之一，但AI领域的创新和迭代速度，依然会让不少人发出四郎般的疑问：你还有多少惊喜是“朕”不知道的？

如果说2023年的大模型风暴还集中在“对话”上，那么，今年AI带来的亿点点震撼，就突破了文字乃至图像的范畴。

2月中旬，OpenAI发布的“文生视频”（text-to-video）的大模型工具Sora直接生成60秒一镜到底、不同景别流畅切换的视频，将文生视频的效果提升数个维度，以至于在demo视频刚公布的最初几天，有人忍不住惊呼“现实世界不存在了”。

3月中旬，Suno团队发布的Suno AI V3版本，只要输入简单的文字描述，就可以生成两分钟以内、不同流派风格的音乐作品，效果惊艳，被称为“AI音乐的ChatGPT时刻”。

短短一年，大模型再度快速进化。与上一阶段人们热衷于测试大模型能否理解言外之意、能否编程、能否做数学题不同，大模型的能力维度变得更加丰富多元。这意味着什么？

通往AGI之路

AGI，通用人工智能，AI皇冠上的明珠，AI从业人士追寻的理想和目标，通俗地说，AGI的目标是模仿并超越人类的智力水平，但迄今为止，尚未有现实AGI成果出现，个中原因便在于，当前的AI无法克服认知模型复杂性这一难题。

人脑是天生的多任务处理器，机器不是。

当下的技术发展，使得人工智能在许多方面已经取得了媲美人类甚至超越人类的成就，例如以AlphaFold和AlphaZero为代表的专业领域AI，以及文书纠正AI Grammarly，DALL·E 2，Imagen等生图AI。但它们的强大仅局限于特定领域。

当人在欣赏一朵颜色艳丽、香味扑鼻、造型华丽的花朵时，大脑会自动将颜色、形状、气味等不同维度信息进行综合处理，这种对人类而言十分简单的事情，对机器来说是一件难事。如果机器能够充分理解物理世界不同介质的信息，并进行综合性的处理，这将是重要突破，也意味着AI能够更加智能，能处理更加复杂的事情，提供更加有价值的帮助。

大模型在文字、图片、视频、语音等方面取得的进展，意义便在于此。

当其他大模型在特定领域内谋求突破时，一位来自中国的选手正在打破模型间的围墙。4月17日，在「天工」大模型发布一周年之际，昆仑万维宣布，「天工3.0」以及「天工SkyMusic」正式开启公测。一年时间，从1.0到3.0，天工大模型发生了什么变化？

根据官方介绍，「天工3.0」是4000亿级参数全球最大规模的开源MoE大模型，也是中国首个音乐AIGC SOTA（深度学习专有名词，指领域内最好的模型）。相较上一代，「天工3.0」在模型语义理解、逻辑推理、以及通用性、泛化性、不确定性知识、学习能力等领域有很大的性能提升，其模型技术知识能力提升超过20%，数学/推理/代码/文创能力提升超过30%。

而且，「天工3.0」新增了搜索增强、研究模式、调用代码、绘制图表、多次调用联网搜索等能力，集成了AI搜索、AI写作、AI长文本阅读、AI对话、AI语音合成、AI图片生成、AI漫画创作、AI图片识别、AI音乐生成、AI代码写作、AI表格生成等多项能力，实现了对大模型的多模态突破。

从搜索、查找、定方案，到生成报告、制作表格、制作音乐等等需要使用多个大模型才能完成的多项操作，如今在「天工3.0」可以全部搞定，这无疑能带来极大的便利。

惠及用户的同时，「天工3.0」会成为虚拟世界与物理世界的接口，并充当用户在虚拟世界的智能管家，「天工3.0」的价值将是平台级的。

在这个过程中，机器处理来自用户的各种复杂需求，输入了更多数据，进行了更多模态的后台处理，这样的输入输出对于AI变得更加智能，意义重大。

AI写歌，创作平权

「天工3.0」会的多，但绝不是把一堆功能生硬的粘合在一起，其更底层的支撑，来自于模型能力层的提升。

大模型很强，但用好有门槛。大部分普通用户没有代码开发经验，更不具备训练大模型提示词工程能力，要把大模型调教成趁手的个人AI助理，用户自己得先花时间好好学习。

针对这一现状，「天工3.0」深度训练Agent的能力，针对模型独立规划、调用、组合外部工具及信息的能力进行了专项训练，使其能够独立生成并调用代码，完成包括产业研究、产品横评、信息分析、图片生成、图表绘制等多种复杂用户需求。

以买车这个日常生活中的典型场景为例，传统做法是找到对应车型的介绍，再自己列出不同车型的核心参数进行比较，涉及到很多繁琐的工作，这件事在「天工3.0」这儿变得特别简单。

当在搜索框中输入“特斯拉Model 3和Model Y哪个好”时，「天工3.0」首先会联网查询最新信息。

「天工3.0」给出的结果十分令人惊喜，因为它不仅突破了传统搜索只给出一堆链接、需要用户自己浏览总结的体验，直接把关键信息提炼了出来，更自动生成了两款车型的对比表格，让信息一目了然，便于用户查看。无论内容和还是形式都十分贴心到位。

结果出来后，「天工3.0」还进一步细化了提问方向，引导用户了解更加详细的信息维度，以做好决策。原本需要耗费大量时间做的信息搜集、整理和对比工作，在「天工3.0」这里简化成了一步：提问。

这种便捷体验的实现，是「天工3.0」多轮内容生成、调用搜索、画表格等能力在做支撑，底层则源自「天工3.0」深度训练Agent的能力，让大模型具有独立思考的能力，实现每一步都能独立思考，每一步都能判断是否调用模式。

判断一个大模型够不够聪明，很重要的一点就是它能不能解决复杂问题，数学与推理能力均提升超过30%的「天工3.0」逻辑推理能力大幅提升。这在天工的搜索研究模式、搜索增强模式中体现尤为明显。

比如，正值春天，很多人会有鼻塞打喷嚏的症状，在搜索增强模式下查询“春天鼻塞打喷嚏怎么办”后，「天工3.0」将这个比较模糊的问题延伸出了具体的原因和方法。

「天工3.0」基于自身的逻辑推理能力，帮用户的模糊提问厘清了思路，进而输出了一份信息全面、针对性也很强的回答。给出了不同的可能性，和相应的解决方案，并在最后继续延展出更加细化的方向，帮助用户结合自身情况进一步找到更加对症的解决办法。

「天工3.0」最令人惊艳的部分，莫过于内容创作能力。

其AI图片生成现在支持多轮修图和扩图，从下面的体验中可以看到，当用户输入“两个小孩在花园里玩耍”的需求时，「天工3.0」生成了四幅图片，随后，增加“加一条小狗”的需求后，「天工3.0」也正确的输出了有小狗和小孩一起在花园玩耍的画面。

当输入“扩展当前图片”指令后，「天工3.0」在已生成图片的基础上，进行了合理扩展，为画面增加了花树前景，令图片层次更加丰富、氛围感更足。

而在众多内容生成能力中，「天工3.0」最令外界期待的，莫过于旗下4月17日开放公测的「天工SkyMusic」音乐大模型，这是国内首个音乐AIGC SOTA模型。

专业术语定义的优秀或许过于抽象，不如先看具体体验。

将苏轼经典词作《水调歌头》输入「天工SkyMusic」，很快就生成了三首歌曲，歌曲时长最长为一分半，有男声也有女声。

初次生成的曲风偏现代，进入编辑页面，使用参考歌曲功能，选择了《沧海一声笑》作为参考歌曲，让「天工SkyMusic」再次生成，再次生成三首歌曲，曲风产生了明显的变化。

人声清晰、吐字标准、曲风有古意，显然，与其他AI音乐生成大模型相比，「天工SkyMusic」显然“更适合中国宝宝体质”。

达成这样的效果并不容易。

AI音乐生成有两大技术路径，符号音乐生成路线、大模型音乐音频生成路线。大模型音乐音频生成+Song（人声）可谓难上加难，而「天工SkyMusic」偏偏选了这条路。

对于一首音乐作品而言，人声是非常重要的元素，最能够体现生产作品的效果。过去，AI音乐行业大量研究都集中在符号音乐生成技术路线上，并且大多只能实现无人声背景音乐（Background Music，BGM）的生成，音乐的质量、效果、审美都远远达不到可用水平，产业迟迟未能爆发。

而从测试结果可以明显感觉到，「天工SkyMusic」的AI人声中文人声清晰度、咬字准确，听感清晰，显著好于国外产品，达到了业内顶级水平。

这是因为，与行业主流路径不同，「天工SkyMusic」采用自研大模型音乐音频生成技术路线，通过大模型技术实现乐器、人声、旋律、音量、音符的一体化端到端音乐生成，技术难度极大，全球只有极少数玩家参与，昆仑万维正是其中之一。

如今大语言模型（LLM）百花齐放的背后，很多开源项目可以被借鉴和参考，但在AI音乐大模型领域，几乎没什么开源资源可借鉴。没石头可摸，「天工SkyMusic」踏入湍急的河水中，砸入很多研发资源，摸索出一条路出来。宣布公测的同时，「天工SkyMusic」公布技术原理图——自己把坑踩完后，给行业复现的方案。

据介绍，在与海外顶尖的AI音乐大模型Suno V3的横向测评中，「天工SkyMusic」在人声&BGM音质、人声自然度、发音可懂度等领域显著领先对手，并以6.65分的综合得分超越Suno V3，成为全球AI音乐SOTA模型。

「天工SkyMusic」还独创了方言歌曲生成能力，在人声自然度、发声可懂度等领域表现优秀，支持粤语、成都话、北京话等众多方言。

简单写了几句介绍北京特色小吃的歌词生成歌曲，儿化音倍儿地道。

同时，「天工SkyMusic」能够生成80秒44100Hz采样率双声道立体声AI歌曲——这是理论上的CD音质界限，质量很高。「天工SkyMusic」还能根据用户输入的歌词风格生成对应歌曲的风格，创作的易用性和个性化质量也很高。说唱、民谣、放克、古风、电子……不同音乐风格，「天工SkyMusic」都能驾驭。

另外，用户可以通过歌词来控制歌曲，让生成的歌曲可以明确分辨出不同歌词段落的情绪变化，体现出主歌和副歌、前奏和主歌的段落差异。独创的参考音乐生成功能，支持用户上传自有参考音乐，生成风格、唱腔类似的歌曲，进一步降低音乐大模型的使用门槛，让不熟悉乐理的用户也能轻松使用。相当内行、专业和贴心。

All in AGI与AIGC

从游戏业务起家，到成为全球平均月活跃用户近4亿、在海外孵化了多款千万级DAU爆品的企业，昆仑万维有安享舒适区的资本，但也有成为巨头的焦虑。

身为体量中型的互联网公司，昆仑万维始终在寻找第二曲线，期望实现突破，让公司规模和影响力更上一层楼。AI送来挑战，也带来希望。

2020年GPT-3给方汉带来极大的冲击。身为昆仑万维的管理者，他意识到，AI的高速发展必然会对内容产业带来颠覆性的改变，“AI的任何一点进步都会导致内容创作的大爆发，这是所有内容厂商必须面对的事实。”

AI对内容生态太重要了。当曾经必须投入重金才能产出的内容，变成只需对AI描述需求就能输出的产品，内容的生产成本被无限降低，创意的随机性和不可靠性也被大大压缩。这只是AI颠覆内容行业的一个维度。

内容产业本就是昆仑万维的主场，经过数十年发展，昆仑万维对于内容有深度理解，对变量也极度敏感，这些都让方汉明确一点：对昆仑万维而言，AI不得不做、必须要做，不然会被颠覆。

从2020年，昆仑万维就持续投入AI，2022年底，高管战略会更是决定要All in。在昆仑万维眼中，对AGI和AIGC的投入和追求，不是追逐时髦的one more thing，而是必须押上全部资源投入的未来。

战略上的确定推动着昆仑万维AI大模型、AI搜索、AI音乐、AI社交、AI游戏、AI视频六大业务矩阵的快速落地。

如今，「天工SkyMusic」的发布为昆仑万维发力AI创作者生态提供了可能性，而昆仑万维在这方面的布局，也将深刻影响行业的走向。

AI音乐生成大模型并不是音乐产业的破坏者，而是提供了更为先进的生产工具。就如同火车的发明只是为了帮助人们更好的出行一样，「天工SkyMusic」将音乐创作的门槛降低了，普通人的情绪、情感可以通过大模型工具得到更为广泛的表达。

比如，任何一个人都可以用「天工SkyMusic」为古诗词谱上美妙的旋律，通过更加生动有趣的方式，让大众进一步感受到古诗词的美和韵味，这对于诗词文化的传播以及文学教育具有很现实的意义。

在让不会乐器、不懂乐理但热爱音乐的普通人，可以无惧不懂乐理、缺乏能力，也能创作出属于自己的音乐后，具备内容生产能力的群体基数变大，文娱内容生产的成本自然会变低。昆仑万维董事长兼CEO方汉便曾透露，根据昆仑万维的观察，当内容创作的门槛下降一半的时候，内容创作者的人数就会翻倍。

而创作门槛的降低，更蕴藏着文化平权的深刻价值。

方汉观察到，在非洲等经济相对落后的国家和地区，当地生产力太落后，因此没有能力制作好的电影作品来跟强势欧美文化抗衡。而欧美文化能够在全球流行，本质上是做了大投入来创作好内容，达到强势垄断。

“当AIGC技术进化后，全世界所有人都可以低成本创作从音乐到小说，从漫画到影视的内容。每一个小语种都会更容易创作出属于自己的文化，这个实际上就是打破垄断的文化平权。”

对昆仑万维而言，从实际利益出发，AIGC赋予了人人平等的创作权利，小族群也能创作更多优质内容，这是一个蓝海市场，“在商言商，我们希望在这方面做出我们的差异化竞争”。更重要的是，当主流AIGC产品都以英文为主，中文效果相对没那么好，方言更不支持时，国产AIGC产品的崛起，也为文化的传承和传播提供了一层保护。

尽管「天工SkyMusic」目前仍在起步阶段，但已经让很多用户感受到了音乐创作的乐趣。未来随着持续优化完善，为打造一个专业且易用的全民音乐创作平台。这或许会促进更为丰富多样的音乐内容的产生，并在未来对产业的生产方式带来新的变革。其价值，不会局限于商业领域。作为中国首个音乐AIGC大模型，「天工SkyMusic」率先转动了变革的旋钮。

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.