11月26日消息,美国芯片制造商英伟达当地时间周一展示了一种能生成音乐和音频的人工智能新模型。这种人工智能模型主要面向音乐、电影和视频游戏的制作人,可以修改声音并产生新奇音效。
英伟达目前是全球最大的人工智能系统芯片和软件供应商。公司表示,虽然这项名为“Fugatto”(Foundational Generative Audio Transformer Opus 1缩写)的技术有发展潜力,但目前还没有公开发布这项技术的计划。
“Fugatto”与Runway等初创公司和Meta等大科技公司展示的技术类似,能够根据文本提示内容生成音频或视频。不过,英伟达的新模型有自己的独到之处:其可以根据文本描述生成特定音效和音乐,比如让小号发出像狗叫一样的新奇声音。
“Fugatto”与其他人工智能技术的不同之处在于,能够消化和修改现有音频。例如,它可以将钢琴演奏的一段旋律转换成人声演唱,或者改变录制音频中的口音以及表达出来的情绪。
英伟达应用深度学习研究副总裁布莱恩·卡坦扎罗(Bryan Catanzaro)说:“回顾一下过去50年中的合成音频,现在的音乐听起来大不相同,主要是因为有了电脑和合成器。”“我认为生成式人工智能将为音乐、电子游戏以及想要创造东西的普通人带来全新能力。”
虽然OpenAI等公司正在与好莱坞电影公司就是否以及如何将人工智能用于娱乐行业进行谈判,但随着好莱坞明星斯嘉丽·约翰逊(Scarlett Johansson)指责OpenAI模仿她的声音,科技公司与好莱坞之间的关系变得日益紧张。
英伟达的新模型是用开源数据训练的。公司表示,仍在讨论是否以及如何公开发布这项技术。
卡坦扎罗说:“任何生成式技术都有一定的风险,因为人们可能会用它来生成我们不希望他们做的东西。”“我们必须小心这一点,这就是为什么我们没有立即发布这项技术的原因。”
生成式人工智能模型的开发者仍在探索如何防止用户滥用技术,比如该怎么杜绝用户生成虚假信息或创造出受版权保护的角色、造成侵犯版权的行为等等。
同样,OpenAI和Meta也没有宣布他们计划什么时候向公众发布能生成音频或视频的模型。(辰辰)