网易首页 > 网易号 > 正文 申请入驻

OpenAI发布实时API AI实时语音时代加速到来

0
分享至

本报记者 吴清 北京报道

OpenAI实时API(应用程序接口)公开测试版发布,推动AI应用的加速落地。

近日,OpenAI发布了其实时API公开测试版,为开发者提供了构建基于GPT-4大型语言模型的高交互性AI应用程序的机会。业内人士认为,该API允许开发者在应用程序中创建低延迟、多模态的实时交互体验,是AI应用领域的一次重大革新。

同时,OpenAI宣布与三家语音API合作伙伴合作,分别为:LiveKit、Agora和Twilio。三家都是实时音视频(RTC)领域的全球龙头企业,其中Twilio、LiveKit都是美国本土企业,之前与OpenAI有较多联系,而Agora在中国市场拥有兄弟公司声网,两家公司在2023年5月拆分,声网专注于中国市场,总部位于上海,Agora则面向美国和国际市场。

《中国经营报》记者注意到,随着各平台公司纷纷发布旗下AI大模型产品,大模型领域的竞争也在加剧。10月2日,OpenAI发布了其实时API公开测试版,10月4日,Meta公布了名为Movie Gen的全新AI模型。国内巨头也纷纷推出并更新了性能直追甚至部分超越GPT-4的产品。

同时,RTC作为AI语音、音视频互动等AI落地强应用场景的关键技术,得到了更多的关注和应用,吸引了巨头们的纷纷布局。除了OpenAI,近日微软AI CEO Mustafa Suleyman也表示,今年年底,微软的AI将拥有实时的语音界面,允许完全动态的交互。

人与AI的实时音视频互动正在变成现实。多为业内人士接受记者采访时表示,实时API的发布标志着OpenAI在AI应用领域向前跨了一大步,通过降低语音交互延时并增强AI对人类语音及情感的理解,为开发者创造了构建更具沉浸性和动态性的AI应用程序的机遇。

实时语音互动:多模态大模型交互的终极形态?

日常生活中人与人的沟通就是以语音为主,视觉其次,视觉的价值主要在于信息的丰富度,但想要提升信息浓度和沟通效率还得靠语音。如今综合文字、图像、视频等的多模态大模型的出现,推动了人与AI交互方式的变革,而语音多模态将是其中的必经之路。

在生成式人工智能领域,大模型多模态交互能力的升级正掀起一股新的AI浪潮,在RTC 能力的加持下,人与AI的交互不再局限于文字,也可以通过语音通话进行生动、流畅的低延时交互,这也成为当下国内外大模型厂商新的发力点。

实际上,引领此轮AI革命浪潮的OpenAI深刻地理解这点,并在此领域深耕已久。

今年3月,OpenAI就宣布了一项革命性的声音克隆技术——“语音引擎”。该技术作为其现有文本转语音API的扩展,仅需15秒的音频样本,便能模仿任何说话者的声音。

记者注意到,GPT-4o算是开创了AI实时语音对话的先河。自GPT-4o发布以来,支持端到端实时多模态成为国内外大模型厂商纷纷跟进的新方向,先是AI初创公司Character.AI推出一项通话功能,允许用户与其人工智能角色语音对话,并支持多种语言。此后巨头们纷纷跟进。

一般来说,GPT-4o能支持实时语音对话。一方面得益于自身大模型能力的进化,端到端实时多模态模型能够直接处理语音,这与传统的三步骤处理方法(语音识别、语音转文字、文字转语音)相比,响应更加及时。另一方面,通过应用RTC技术,实现了语音的实时传输,进一步降低了语音交互的延时,RTC也成为人与AI交互的重要一环。

声网在实践中发现,传统的三步骤处理方法在应用RTC后,响应延时可从4—5秒降低到1—2秒,而在具备端到端实时多模态处理能力后,通过RTC技术,大模型实时语音对话的延时可降到几百毫秒内。

从体验上看,RTC技术的应用让对话式大模型的交互更智能,更具真实感。一方面,低延时的快速响应让人与AI的互动更接近人与人之间的实时对话更自然。另一方面,语音还能识别说话人的情绪、语调,视频能识别人的表情与所处的环境,最终输出更精准、更智能的回答。

“基于RTC的超低延迟方法可实现更为逼真的对话,并使AI能够理解人类的情感,从而提供更自然的对话体验。”一位云服务厂商的技术负责人对记者表示,可以预见的是,未来基于AI的人机界面从键盘、鼠标、触屏到实时对话的变革,语音将是必须走过的进化过程,实时语音互动或将成为未来对话式多模态大模型交互的终极形态。

大模型实时语音落地RTC成关键 推动AI应用场景爆发

不过,多模态大模型实时语音对话想要落地,背后依然面临着一系列的技术难点。首先,对于大模型厂商而言,具备端到端实时语音处理的能力是关键,端到端模型的训练成本很高,尤其是处理语音与视频数据,面临大量计算,而计算过程往往会造成延迟,这对实时交互的需求形成了挑战,需要边接收语音边处理和解析,对于很多大模型厂商而言,这意味着需要研发更高效的模型或者优化现有模型的运行效率。

同时,多模态大模型在接入RTC后如何保障低延时、流畅的语音交互体验更为关键。除了低延时问题外,大模型实时语音对话中还面临着噪音、终端适配等一系列问题,需要专业的RTC厂商来优化。

记者注意到GPT-4o的发布会的一个细节,工程师演示GPT-4o的手机上插着一根网线,这也反映了一个现实,GPT-4o的演示是在固定设备、固定网络和固定物理环境下进行的,以确保低延时。而在实际应用场景中,用户的设备通常无法一直插着网线,这就对大模型实时语音对话中的低延时传输、网络优化等提出了考验。

而在RTC的加持下,随着多模态大模型能力的进化,AIGC应用场景迎来新一轮爆发,AI智能助手、AI情感陪伴、AI口语老师、AI客服的AI交互体验进一步升级,学生的学习效率更高,社交陪聊场景的娱乐性与沉浸感也进一步增强。同时,在游戏社交、AI分身、实时语音翻译等场景,对话式多模态大模型也大有可为。

量子位智库发布的AI智能助手用户数据报告显示,截至今年8月,国内市场的AI智能助手App已超过64款。在AI情感陪伴领域也涌现了Soul、星野、Wow等一系列人气社交App。

业内人士认为,人工智能技术的快速发展,推动实时互动行业持续进化,让实时互动场景变得更丰富、更有趣、更高效,相关市场的应用空间广阔。

以全球移动应用第一大市场美国为例,相关应用市场广阔,应用收入也在持续增长。公开数据显示,2023年泛娱乐应用收入规模达到74亿美元,是第二大市场日本的4.6倍,且同比增长12.6%,市场规模仍在稳定增长。

“美国本土开发者依然把持着泛娱乐头部市场,中国出海App目前仍以短剧为主,尽管在头部App中,中国出海应用较少,但是出海美国的优点在于中长尾App时长占比较高,且用户付费能力较强,中小型App也能在美国取得不错的收入。”国内一家短剧出海App的运营负责人向记者称。

据Ookla的最新数据,美国的移动网络平均网速略低于中国,在测试环境下,美国手机移动网络下载速度113Mbp/s(中国为135.7Mbp/s)。在这样的背景下,要实现真实无障碍的AI互动,RTC就成为一个关键,也给相关业内企业带来了大的发展机遇。

财报显示,今年第二季度,声网和Agora分别在中国和海外市场实现了营收增长。声网和Agora的创始人兼CEO赵斌表示:“我很高兴看到声网和Agora在面对极具挑战的宏观环境下,本季度双双实现收入同比增长。这一成果得益于我们不断推动新应用场景落地,另一方面也提升成熟场景方案的质量和价值。我们最近帮助客户在多个应用场景中推出了对话式AI应用,如AI陪伴、AI助理、AI语言陪练和AI客服,并看到了不错的用户和用量增长。我相信,实时互动与对话式AI的结合将成为我们未来业务发展的关键驱动力。”

在这样的背景下,声网在近期推出了Linux Server SDK,支持当下大模型编程最主流的两类语言Python与Go,能够帮助开发者快速构建AI陪伴、AI助理、AI语言陪练等实时AI应用场景。

不过,声网在2024年第二季度仍处于亏损状态,净亏损仍为920万美元,上年同期的净亏损为4530万美元。声网预计2024年第三季度营收为3150万美元到3350万美元。

可以预见的是,AI、5G、云计算等成为新时代的基础设施,将会给企业变革与发展带来更多新机会。未来,科技巨头将会在大模型和AI产品上不断推陈出新,RTC则将带来人与AI交互的重要变革,也将加速AI应用场景的新一轮爆发。

(编辑:张靖超 审核:李正豪 校对:颜京宁)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
3-0到2-1!曼联太狠了,英超第11客场85年全败,滕哈赫迎来下课战

3-0到2-1!曼联太狠了,英超第11客场85年全败,滕哈赫迎来下课战

叁炮体育
2024-10-18 23:13:43
纵览热点丨山东一市监所长在市局大厅遇害,其妻称犯罪嫌疑人一方至今未道歉

纵览热点丨山东一市监所长在市局大厅遇害,其妻称犯罪嫌疑人一方至今未道歉

纵览新闻
2024-10-18 20:40:07
航天英雄杨利伟:女儿去世,发妻离职,他成功背后的痛苦鲜为人知

航天英雄杨利伟:女儿去世,发妻离职,他成功背后的痛苦鲜为人知

华人星光
2024-10-17 12:49:06
易建联有漂亮的老婆,为什么还要这样?

易建联有漂亮的老婆,为什么还要这样?

金牌舆情官
2024-10-17 20:28:47
美国大选最新民调显示,川普民调大幅反转,谁也没想到这么快

美国大选最新民调显示,川普民调大幅反转,谁也没想到这么快

碳基生物关怀组织
2024-10-18 17:20:16
耶伦强词夺理:可不能奖励中国

耶伦强词夺理:可不能奖励中国

观察者网
2024-10-18 14:10:06
恭喜!覃海洋风波后再夺金牌,未婚妻发文:求求不要吵了!

恭喜!覃海洋风波后再夺金牌,未婚妻发文:求求不要吵了!

素素娱乐
2024-10-18 21:02:27
告别!郭艾伦正式退出辽篮聊天群 婉拒前队友庆祝邀请+杨鸣盛赞

告别!郭艾伦正式退出辽篮聊天群 婉拒前队友庆祝邀请+杨鸣盛赞

醉卧浮生
2024-10-18 22:30:13
这一次,阿联事件“女主乔姐”被扒得底朝天,美照曝光曲线太曼妙

这一次,阿联事件“女主乔姐”被扒得底朝天,美照曝光曲线太曼妙

阿伧说事
2024-10-18 15:32:28
朝鲜,突发!已完全封闭

朝鲜,突发!已完全封闭

21世纪经济报道
2024-10-17 08:47:05
炸裂!乔姐闺蜜曝聊天记录,和易建联不止一次,多位金主照曝光

炸裂!乔姐闺蜜曝聊天记录,和易建联不止一次,多位金主照曝光

圈里的甜橙子
2024-10-18 22:35:33
辛瓦尔被以军打死,中方表态

辛瓦尔被以军打死,中方表态

新京报政事儿
2024-10-18 15:43:32
景德镇一家三口被撞身亡案肇事司机被批捕,死者家属称涉危害公共安全罪,律师分析

景德镇一家三口被撞身亡案肇事司机被批捕,死者家属称涉危害公共安全罪,律师分析

极目新闻
2024-10-18 20:34:56
上海一场校招,某公司招软件开发工程师,开出月工资为800-1499元

上海一场校招,某公司招软件开发工程师,开出月工资为800-1499元

可达鸭面面观
2024-10-18 22:55:47
面对朝鲜局势,吉林省紧急行动的5个重要举措!

面对朝鲜局势,吉林省紧急行动的5个重要举措!

星辰故事屋
2024-10-17 18:46:14
10月18日俄乌最新:再创新高

10月18日俄乌最新:再创新高

西楼饮月
2024-10-18 20:27:36
师徒情断!看到刀郎公司声明,才明白了刀郎为何在演唱会上破防!

师徒情断!看到刀郎公司声明,才明白了刀郎为何在演唱会上破防!

阿伧说事
2024-10-18 17:06:25
厨房煤气爆炸妻子全身60%烧伤,跪着把儿子抱到安全区域,丈夫哽咽:她躺在救护车上还想着孩子

厨房煤气爆炸妻子全身60%烧伤,跪着把儿子抱到安全区域,丈夫哽咽:她躺在救护车上还想着孩子

观威海
2024-10-18 10:35:42
朝鲜被列入斩首名单,一声令下前线准备开火,中国周边要生战了?

朝鲜被列入斩首名单,一声令下前线准备开火,中国周边要生战了?

陈辉论剑
2024-10-17 17:06:37
成都妹子80小时内跑完400公里,被称“现代花木兰”:全程仅休息2个小时

成都妹子80小时内跑完400公里,被称“现代花木兰”:全程仅休息2个小时

封面新闻
2024-10-18 15:53:10
2024-10-19 06:16:49
中国经营报
中国经营报
挖掘商业故事,服务商业人群
9246文章数 29140关注度
往期回顾 全部

科技要闻

京东:后续没有和相关脱口秀演员合作计划

头条要闻

辛瓦尔曾一度表示不想和以打:没谁愿意用弹弓对抗核武

头条要闻

辛瓦尔曾一度表示不想和以打:没谁愿意用弹弓对抗核武

体育要闻

拥抱恐惧,去追逐下一个四年

娱乐要闻

大S豪车拍卖失败!仅1人出价车子流拍

财经要闻

泉果基金戴骏:本轮经济周期拐点或已至

汽车要闻

续航达成率116%!? 小马测试宝骏云海纯电版

态度原创

本地
旅游
手机
数码
公开课

本地新闻

我和我的家乡| 西部C城,一见倾心

旅游要闻

美国设计师称“因着装被劝离故宫” 博物院回应

手机要闻

三星Galaxy S25 Ultra手机渲染图曝光:新相机环,会有绿色版

数码要闻

AMD、Intel研究600W 12V-2x6显卡供电接口:都没旗舰 有必要吗?

公开课

TED|如何通过讲故事编织文化传承

无障碍浏览 进入关怀版