网易首页 > 网易号 > 正文 申请入驻

声网刘斌:“Her”真正落地实现离不开RTE能力的支撑|MEET 2025

0
分享至

大模型正在改变实时互动技术。

声网作为全球音视频技术龙头,2020年在纳斯达克上市,目前是全球最大的实时互动云服务商,平台单月音视频使用时长达700亿分钟。

同时,声网兄弟公司Agora也是OpenAI Realtime API的合作伙伴,在国内声网也与MiniMax正在打磨国内首个Realtime API。

在MEET 2025智能未来大会大会现场,声网首席运营官刘斌分享了一个看似离大模型有点距离,实则却不可或缺的环节:

RTE(Real Time Engagement)在AI Agent时代的全新价值。



为了完整体现刘斌的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。

MEET 2025智能未来大会是由量子位主办的行业峰会,20余位产业代表与会讨论。线下参会观众1000+,线上直播观众320万+,获得了主流媒体的广泛关注与报道。

核心观点

  • 多模态对话体验的两个关键:延迟是否低于1.7秒,能否打断
  • 多模态对话AI Agent应用产品化落地的关键:端到端、全球任意地点、弱网环境、各种终端下的低时延
  • 不管是语音,还是视频,只要是多模态有交互的AI Agent应用,离不开RTE能力的支持

演讲全文

今天非常高兴有这样机会来到现场跟分享,声网作为RTE领域的企业,和AI领域的大模型与应用厂商,和当下的大模型关系是什么,RTE演进如何助力AI Agent应用落地。

第一,声网到底是谁。

声网于2020年在纳斯达克上市,专注于提供实时互动云服务。经过多年的发展,该公司在该行业取得了一定的进步。

我们公司的口号简洁明了,即让实时互动像空气和水一样,无处不在

这一理念旨在实现未来无论身处何地,都能获得如同面对面般的互动体验。经过多年的努力,我们在市场占有率方面位居第一,并拥有大量注册开发者应用。

单月音视频分钟数约为700亿,这意味着每天在我们平台上的分钟数约为20多亿。在这种情况下,全球超过60%的泛娱乐应用选择声网作为其合作伙伴。我们涉及的领域包括泛娱乐、教育和物联网等,均拥有相应的合作伙伴。



第二,我们做的事到底和AI Agent有什么关系,如何去助力它。

首先,值得关注的是,OpenAI于10月1日在官方网站发布Realtime API时,曾在合作伙伴中提及Agora,即我们声网的兄弟公司。

其次,在10月份的RTE大会上,我们宣布与MiniMax正在打磨国内第一个Realtime APl。



第三,AI Agent时代到底怎么样做才能做更好。

我们可以观察到,在真正多模态模型推出或对话时,相较于原先的纯文本交互,已经发生了变化。

原先的交互本质上是异步的,即我可以发送信息,说完后等待处理并返回结果。然而,在真正多模态交互中,要求实时性和双工性,即我说他听,他听完后我再听。

在这个过程中,有几个关键因素会影响效果。

首先,大家较为熟悉的语气、情感、情绪和口音等因素在模型中得到了大量处理。

其次,延迟也是一个非常重要的因素。相信大家都有相关的感受。

从实际测量数据来看,真正达到实用效果的延迟一般在1.7秒左右。如果低于这个值,人们会觉得与Agent交流很自然;而如果延迟达到2秒多或3秒,人们就会感觉到有些卡顿,反应稍显迟缓。这是一个非常重要的关键点。

另一个关键点是,能否实现打断功能以及如何更好地进行主动交互。



要实现这些功能,除了模型能力外,还需考虑应用的落地方式。是在实验室的PC上进行演示,还是将其应用于各种手机终端、物联网终端以及其他设备上?

当有此需求时,在产品化落地的过程中会发现,除了之前提到的低时延等能力外,还需要在端到端都能实现。此外,还需在不同地点、不同网络环境下以及各种终端设备上都能得到支持,这并非易事。

关于这张图,尽管大家可能不太关注,但我们当时非常重视。这是5月份OpenAI GPT-4o发布时的情况,大家可以看那根网线,这是要保证网络的稳定性。



在4o发布之后,大家都在等待API的推出,原本预期一周或两周内会推出,但实际上并非如此,直至10月份才发布。原因在于,一开始大家认为这件事很简单,只需对原有的RTP Server进行修改,将文本传输改为语音传输即可。

然而,实际情况并非如此简单。我们与他们合作,直至10月份才正式推出。正是我们在其中发挥作用,使其真正落地实现

在此,我向大家展示声网多年来的工作成果。

首先,我们拥有一张遍布全球的SD-RTN网络,确保在这张网络上音视频传输都能在标准的400毫秒内端到端到达,这是网络支撑。其次,我们多年的积累使我们能够在30多个平台的框架和30000多终端机型上提供SDK支持,涵盖各种操作系统。您只需很快地建立这个能力。包括物联网的各种设备终端,都有相应的SDK。



此外,在实际应用中,如我们在这个会场,如果我要与AI对话,网络情况和环境噪声并非固定不变。如何在极端弱网下保证效果,这也是我们多年技术积累的结果。



正是我们在这一领域的深厚积累,使得我们能够构建一个具有实际应用价值的Voice对话Agent。只有将这两者紧密结合,才能实现这一目标。这也解释了为什么在发布Realtime API时,我们需要寻找这样的合作伙伴共同推进。

我们还发现,现有的RTC技术栈和基础设施存在大量改进空间。只有通过改进,大型模型才有可能在各种场景、形态和模型下大规模参与到人类的语言对话中,其参与来源也将从云端扩展到终端,再到更低延迟的边缘。基于这些能力的改进和普及,未来RTE必将成为生成式AI时代AI基础设施(AI Infra)的关键组成部分。

如图右侧红色部分所示,Realtime API通常由大型模型厂商发布。然而,在左侧这一圈,包括中间的网络和声网的Linux Server SDK,以及前端的SDK,如果没有这样的基础,我们将很难实现这一整套效果。这正是我之前所解释的原因。如果中间的这些环节未能实现,那么效果将无法显现。



在此,我们将从当前视角出发,探讨未来的行动方向以及如何进一步提升效果。近期,我们一直在深入研究和投入资源,以优化人与人之间的对话体验。然而,在人与模型之间的对话中,体验的提升需要充分考虑模型的特性。

例如,我们从传统的QoS、QoE发展到如今的AI QoE,乃至多模态AI QoE,这其中涵盖了VAD技术、噪音消除能力以及相关网络优化等方面。这些新的方法和方式使得我们与模型的对话更加贴近实际情况。以一个简单的例子来说明,人与人交谈时不会夹杂其他信息,但人与模型对话时则可能不同,语音传输过程中可能还包含其他信息。因此,在弱网环境和应用场景中如何实现良好适配,便显得尤为重要。

我们曾在RTE大会上展示过一个实例,当时的会场规模较大,人数众多且环境嘈杂,我们在现场使用了一个5G设备进行演示。

我们想做到的是从60分提升到90分,这不仅涉及模型难度的提高,还包括周边工程配套的完善,以便将产品从演示阶段发展为更具实用性的应用。

关于声网的产品体系,我们正不断加强其功能,如Linux SDK、AI VAD能力以及AI Agent Service的补充与优化。通过声网RTE+AI能力全景图,我们可以看到我们的整体思路,包括从基础设施到Agent,再到场景的演进,旨在成为生成式AI时代的AI基础设施,这也是我们的愿景。

最后,我想强调一点:

任何涉及大模型多模态实时交互的应用,无论是语音还是视频,只要存在多模态交互,这类Agent应用的落地都离不开RTC技术的支持。

在这种情况下,如果大家有这样的需求,请来找声网,我们一定给大家更好的体验。

谢谢大家,今天就到这里。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
知名Rapper竟被摸下体!本人回应了!

知名Rapper竟被摸下体!本人回应了!

SwagFuck
2024-12-26 12:11:33
谁最早预见毛泽东会成为新中国的领袖

谁最早预见毛泽东会成为新中国的领袖

壹贰叁的壹
2023-12-23 11:18:58
电销人员集体破防:现在人流行陌生电话拒接,接电话的寥寥无几!

电销人员集体破防:现在人流行陌生电话拒接,接电话的寥寥无几!

猫小狸同学
2024-12-20 18:35:03
“中国绝对没有干预,不会将运河控制权拱手让给美国”

“中国绝对没有干预,不会将运河控制权拱手让给美国”

观察者网
2024-12-27 08:35:06
全是“科技与狠活”,却狂卖14亿,这种甜牛奶,谁还在喝?

全是“科技与狠活”,却狂卖14亿,这种甜牛奶,谁还在喝?

毒sir财经
2024-07-25 23:59:38
原来衣服是透明的,难怪女明星们不怕衣服掉下去,离远了还真看不出来啊!

原来衣服是透明的,难怪女明星们不怕衣服掉下去,离远了还真看不出来啊!

新浪财经
2024-11-04 22:06:08
人的攻击力能强到什么程度?看完我大受震撼!嘴笨人直呼:太羡慕了

人的攻击力能强到什么程度?看完我大受震撼!嘴笨人直呼:太羡慕了

热闹的河马
2024-12-26 12:11:11
一夜输光七亿美金,欠200亿跑路,金立老板至今下落不明

一夜输光七亿美金,欠200亿跑路,金立老板至今下落不明

清风讲故事
2024-12-25 11:49:25
29分惨案!西部豪强疯狂一战:狂轰155分创队史新高,全队8人上双

29分惨案!西部豪强疯狂一战:狂轰155分创队史新高,全队8人上双

体坛小李
2024-12-27 12:07:37
演员孙兴确认与前妻林美贞“三度”复合,和寸头富婆已和平分手

演员孙兴确认与前妻林美贞“三度”复合,和寸头富婆已和平分手

娱慧
2024-12-26 17:07:49
午评|强的可怕!A股重返3400点!牛回速归?

午评|强的可怕!A股重返3400点!牛回速归?

龙行天下虎
2024-12-27 11:52:41
英伟达年终大礼,最强AI GPU曝光!全新B300让o1/o3推理性能上天算力爆表

英伟达年终大礼,最强AI GPU曝光!全新B300让o1/o3推理性能上天算力爆表

新智元
2024-12-27 12:22:41
沪指,收复3400点!“牛市旗手”突然拉升

沪指,收复3400点!“牛市旗手”突然拉升

证券时报e公司
2024-12-27 12:40:50
星光大赏来袭,最帅美男洗牌,李现登顶,吴磊第8成毅4林更新第2

星光大赏来袭,最帅美男洗牌,李现登顶,吴磊第8成毅4林更新第2

祝晓塬
2024-12-26 19:17:18
铁粉不眠!上海市域机场线首班车发车,40分钟穿越魔都双机场

铁粉不眠!上海市域机场线首班车发车,40分钟穿越魔都双机场

上观新闻
2024-12-27 06:56:18
海南省委常委纳云德,添新职

海南省委常委纳云德,添新职

鲁中晨报
2024-12-26 22:36:04
2025年开始,医保看病迎来大变,DRG模式是啥意思?有啥好处?

2025年开始,医保看病迎来大变,DRG模式是啥意思?有啥好处?

阿伧说事
2024-12-26 15:20:07
逼中国“低头”?600万吨稀土偷运大连港,蒙古勾结美国公然毁约

逼中国“低头”?600万吨稀土偷运大连港,蒙古勾结美国公然毁约

小胡军事爱好
2024-12-19 16:35:47
长荣集团硬刚,宁愿撤销所有国旗也不挂中国国旗:不靠你们吃饭!

长荣集团硬刚,宁愿撤销所有国旗也不挂中国国旗:不靠你们吃饭!

星辰故事屋
2024-08-17 20:11:26
除夕年夜饭,这6样“不吉利”的菜,千万不要端上桌,别不当回事

除夕年夜饭,这6样“不吉利”的菜,千万不要端上桌,别不当回事

花小厨
2024-12-26 11:19:54
2024-12-27 13:15:00
量子位 incentive-icons
量子位
追踪人工智能动态
9830文章数 175805关注度
往期回顾 全部

科技要闻

中国团队600万美元训出匹敌GPT-4o大模型

头条要闻

男子杀害亿万富翁被执行死刑 家属:他哥才是幕后主使

头条要闻

男子杀害亿万富翁被执行死刑 家属:他哥才是幕后主使

体育要闻

利物浦3-1逆转蓝狐 7分优势领跑英超

娱乐要闻

宝石老舅承认被行政拘留,深夜道歉!

财经要闻

极越汽车败局 吉利控股撤退李书福接盘?

汽车要闻

李想:三个条件足够优秀 能做出苹果一样的公司

态度原创

数码
本地
游戏
教育
旅游

数码要闻

首发369元 酷凛霜界360 ARGB粉色限定版上市:无限镜灯效外环

本地新闻

好吃潮州|尝一口,这里的美食有点“潮”

顽皮狗绘制的《剑星》伊芙插图遭嘲笑:纯纯变性人妖

教育要闻

表弟因为这道数学题,现在都不理我了,挺尴尬的

旅游要闻

太美了!上海宝藏“点位”走红 官方“攻略”来了

无障碍浏览 进入关怀版