扣子+RTC 打造智能语音 OpenAPI，AI Bot 跑步进入《Her》时代？|算法|her|rtc|bot|语音识别|websocket

分享至

扣子智能语音 OpenAPI 智能体实时通话演示

AI 应用落地的速度正在加快，而 AI Bot 正在成为产业发展的关键之一。

AI 正前所未有的渗透进我们的生活之中，智能客服、办公助手、情感陪伴，越来越多的用户开始使用各式各样的 AI Bot，同时伴随着扣子平台开发能力的迭代与更新，AI 也开始进入了"定制化"时代：更针对性的功能，更垂直的专业知识库，从而衍生出更多的使用场景，这无疑是更行之有效的落地路径。

但天下苦“人工智障”久矣，在目前最常出现的语音交互场景中，AI 常常表现不佳，语音识别有问题，语义理解不够深，以及机械呆板的语音反馈，都让人为之抓狂。发音稍微不标准就识别错误、无法使用其他语言或方言，“已读乱回”，千奇百怪的交互问题都在切实的影响着用户的体验。

AI Bot 在语音交互上的自然度、真实性和智能水平已经成为用户选择的关键因素，相比于“人工智障”，交流丝滑、没有延迟、实时对话才是更能满足用户需求，越来越多的 AI 企业也开始在语音交互上发力，力求让自己的模型能够真正学会交流。

正如视频所示，近期，扣子平台上线了智能语音 OpenAPI，不仅在语音识别、合成方面实现了全新升级，还正式接入了火山引擎视频云的 RTC 能力，实现了效果极佳的实时语音通话能力，让 Bot 从“能说话”，升级成了“会说话”乃至“会交流”。除了模型本身的升级之外，RTC 功能的接入与之呼应的，越来越多的 AI 企业开始将 RTC 作为 AI 实时交互的重要基础设施，想要实现多模态模型的实时互动，RTC 似乎已经成为了必经之路。

疑问也随之产生，RTC 技术在 AI 领域为何如此关键？当 AI Bot 拥有了更流畅、自然的实时语音对话能力，又将能够解锁哪些新的应用场景和机遇？这些问题的答案，不仅关乎技术的进步，也关乎 AI 将如何渗透进我们的日常生活和工作，以及改变将如何发生。

1 从“能对话”到“会交流”，RTC 为什么是必经之路？

对于通用模型产品来说，基础的文本流对话已经逐渐成熟，接下来发展的重点正是在语音、视频、图片等多模态领域，这也与模型实践落地的场景紧密相关，尤其在 AI 智能体等应用中，“与人交互”的能力已经成为核心。

但一个事实是，目前大部分智能体的语音交互能力还不够强。单从交互体验上来说，很多智能体有着明显的短板，一方面在接收侧只能接收单一的语音消息，不能随时打断，同时延迟较高，对话的“实时性”也不够强。

即使大模型赋予了其强大的交流能力，碍于“听觉”与“语言”能力的限制，智能体在更复杂的场景中也很难完全发挥作用，例如目前爆火的 AI 陪伴机器人，用户除了使用固定公司的产品之外，想要通过已有的 Bot 搭建平台为自己量身打造一个“Her”，可谓是难上加难。

问题出在传统的语音处理与输出架构上。以扣子为例，此前平台是通过 WebSocket 技术来赋予 AI Bot 基础的语音能力，其能够帮助 Bot 实现基本的语音识别与通话能力，但伴随着用户体验需求的提升，WebSocket 的局限性也日益凸显。

首先是响应慢的问题，在完成了语音识别之后，基于 WebSocket 的语音交互往往需要较长的响应时间，延迟时间也会较长，同时 WebSocket 的性能极易受到网络环境的影响，如防火墙和代理服务器可能会阻止 WebSocket 连接，影响实时语音应用的稳定性和可靠性，这就导致 Bot 在语音交互中无法被打断、也几乎无法在弱网情况下使用，Bot 无法在更多场景下使用。可以设想，当你在信号不好的区域与 AI Bot 交互，而 Bot 把“我今天不开心”听成“我今天开心”，那么接下来所有的回答都会产生偏差。

实现“与 AI 对话”不是问题，但 AI Bot 想要更加自然和真实，以达到更强的的交互体验，从而开发在功能、应用场景方面的更多潜力，WebSocket 无疑是满足不了已有需求的。

对于很多模型厂商来说，RTC 技术是突破这一限制的关键。

RTC 即实时通信技术（Real-Time Communication），是一种支持实时语音、视频和数据传输的通信框架。相对 WebSocket 而言，RTC 技术使用高效的 RTP 传输协议，并结合 RTT 采样、Kalman-Filter、Jitter Buffer、HARQ 算法等技术，可以有效的缓解网络波动，确保数据快速、稳定、准确地传递；同时，与传统的单向或半双工通信不同，RTC 技术支持全双工通信，即说话者和听者可以在同一时间内同时发送和接收语音数据，这也就可以让 Bot 实现语音打断，更类似于真人。而在网络限制方面，RTC 可以通过算法优化在不稳定网络环境下的表现。

这一次，火山引擎视频云 RTC 技术接入扣子平台，就是将实现实时交互对话的能力融入进了 AI Bot 开发中，Bot 可以与用户达成更自然、更流畅的实时语音。从官方测试中可以发现，在接入 RTC 技术之后，扣子平台搭建的出来的 Bot 在语音交互中，可以实现流式输入，响应时间可以低至 1 秒，同时实现了语音打断功能，用户可以随时输入新的语音内容，更符合真人对话体验。

此外，RTC 技术在抗弱网能力上也更强，能够保持更好的通话质量，即使在数据包丢失率高达 80% 的情况下，用户仍能享受高质量的流畅通话体验。同时，基于火山引擎视频云 RTC 的 AI 降噪功能可过滤掉超过 90% 的背景噪音，避免 AI Bot 被不必要的声音打断。

扣子智能语音 OpenAPI 实时打断能力演示

简单来说，AI Bot 的语音交互从“对讲机”变成了“打电话”，某种程度上已经更类似于真实世界中面对面对话的效果。

从某种程度上来讲，实时语音交互的实现是通往 AGI（通用人工智能）的必要拼图。而 RTC 技术则是目前的最优解决方案之一，扣子接入 RTC 技术，是趋势所向，也是必由之路。在此前很多 AI Bot 产品，往往会收到“人工智障”的戏谑评价，而当精准度、表现力都大幅提升之后，其必将收获更多用户的青睐，深度结合多模态、端到端等技术发展，也将进一步解锁更多的使用场景。

2 火山引擎视频云 RTC X 扣子 AI Bot，和市面上的 AI 产品有啥不一样？

了解了 RTC 的重要性之后，新的问题也随之诞生：既然 RTC 的运用已经成为行业趋势，扣子接入 RTC 又有何不同？这需要进一步拆解扣子在火山引擎 AI 生态中的位置。

不同于大多数对话模型产品，扣子的定位是 AI Bot 开发平台，其核心优势在于其易用性和灵活性，用户可以通过简单的操作创建聊天机器人，并将其部署在社交平台和消息应用上。首先是零代码构建的优势，通过简单易懂、拖拽编辑的工作流搭建，以及丰富的插件与知识库，用户可以任意生成自己需要的 AI Bot，可以在搭建初期，就设定好其所在的专业领域，并可以对 Bot 的功能、人设等进行更灵活且垂直化的调整。相比于通用模型，AI Bot 可以更私人化、专业化，满足不同领域的需要。

同时基于豆包大模型以及专业的知识库，AI Bot 在生成、问答等方面的能力也越来越强，不同于使用通用模型需要更懂 Prompt 或订阅制等技术和资金门槛，扣子可以真正将大模型能力下放到每个人的 Bot 之中，结合多平台发布、多平台 SDK 等能力，AI Bot 可以进入用户的多个使用场景中。

扣子语音 OpenAPI SDK 操作配置演示

几个小时就能拥有一个“个人助手”或“专属机器人”，扣子在发布之后三个月之内月活用户数就达到了数百万级别，目前已经成为 AI Bot 赛道内最重要的“玩家”之一。

也正是由于扣子的优势，火山引擎视频云 RTC 的接入将成为一次强强联合。

各家都在搞 RTC，但技术同样有水平高低。基于火山引擎视频云的庞大实践，其 RTC 技术也发展出了独特的优势。

这一次，扣子平台对 Bot 的语音交互能力进行了全面升级，上线了全新的智能语音 OpenAPI，接入豆包语音识别模型和语音合成模型以及火山引擎视频云的 RTC 技术。在语音识别与合成方面，智能语音 OpenAPI 可以通过高精度的语音识别分析以及超强的语音合成能力，让 AI Bot 更深刻的理解用户的语义，并在内容上实现更具真人效果的回复，结合上下文的记忆功能，可以实现更丝滑顺畅的对话。

简单来说，豆包语音识别模型和豆包语音合成模型赋予 AI Bot 语音交互以“灵魂”，RTC 的接入则是让 Bot 拥有了更强大的“神经系统”，从而更好的接收与输出，从而让对话更自然且流畅，也就是让输入更流畅精准，让输出更明确。

火山引擎视频云 RTC 技术的优势是，在抖音、飞书等平台上，其能力已经经过了实践验证，并且根据实际场景进行了针对性升级。现如今抖音平台的弹幕交互、客服对话、多链路传输等功能都是基于 RTC 的加持，而飞书上，每天数以百万计的视频会议背后，也都有火山引擎视频云 RTC 技术的支持。从某种程度上来讲，视频云的 RTC 功能，是保证万千用户每日正常使用体验的核心技术。

其技术能力也就不言而喻。

拆解火山引擎视频云 RTC 的强大能力，需要了解其背后的 WebRTC 传输网络（WTN）。这一网络确保了全球用户的智能接入和音视频数据的超低延迟传输，提供了低延迟且流畅的语音交互体验。在网络条件不佳的环境中，自研自适应拥塞控制算法也能保持通话质量，让用户在多场景下都能享受高质量的流畅通话体验。

可以预想的是，伴随扣子智能语音 OpenAPI 的正式下放，未来可能会有数以万计的 AI Bot 接入 RTC 功能，在高并发的情况下，就需要这需要强大的算力支持来处理大量的数据传输和媒体流处理，这无疑是需要云端的强大算力来保证通信的稳定性和低延迟。

而针对这个问题，火山引擎视频云也在以往的实践中找到了相应的合理路径，一方面，火山引擎视频云 RTC 技术可以通过自研算法、精细化设备适应、场景最佳实践和边缘渲染技术，增强了传输的效能，减少算力资源的消耗，让传输更高效；另一方面，火山引擎视频云在算力方面的部署，也保证了其在云端可以承载足够大的需求。

在 Intel 的支持下，火山引擎视频云的 RTC 技术拥有强大的算力基础。通过 Intel® 至强® 高性能可扩展处理器的强大处理能力，无论是实时音视频处理能力，还是基于 AMX 指令集的 AI 算力，至强® 服务器都为火山引擎提供了有力的算力支撑和可靠服务，从而让 RTC 技术能够处理高并发的实时通信需求。这就满足了在线教育、远程办公和云游戏等场景中，大量并行处理和数据传输的需求。

与此同时，Intel 的技术解决方案也进一步提升了火山引擎的异构计算能力，通过 Deeplinc 等技术，拆解任务需求，让 CPU、GPU 按需响应，通过混布的方式给予了服务器更灵活的配置能力，让底层算力都进一步被利用起来，算力可以更有的放矢，也为 RTC 技术的高并发传输提供更稳定的支持。

同时，Intel® 软硬件解决方案帮助火山引擎在网络应用方面取得了优势，尤其是在四层负载均衡等应对巨大网络压力的应用负载中提供了坚实支撑。这种合作不仅提升了火山引擎视频云 RTC 技术的全球传输延迟和端到端延迟的性能，还提高了全球接入可用性和全球转发可控性。

市场考验与技术能力都已具备，RTC 的接入，也让扣子的 AI Bot 相比市场上的类似产品更具优势。正如前文所说，扣子 AI Bot 已经可以实现自然、流畅、实时的交互体验。要意识到的一点是，单纯的能力升级、拼参数并无意义，基于扣子平台的易用性，RTC 接入将会让更多用户可以快速、低门槛搭建语音 AI Bot，这也为 AI Bot 的应用场景提供了更多可能性。

3 从满足需求到创造场景，“会交流”的 AI Bot 如何探索应用之路？

无论是通用模型还是 AI Bot，最核心的问题仍旧是场景。RTC 技术的接入对于 AI Bot 的未来发展，首先在于解决了需求，其次就是为开拓新赛道做足准备。

我们可以先基于扣子目前已有的场景进行分析。通过观察可以发现，目前扣子平台的 AI Bot 已经覆盖了智能助理、智能客服、陪伴机器人等多个领域。而 RTC 技术的加入，显著提升了这些 Bot 的语音交互能力，让用户的日常体验得到升级，以往机械性的、对讲机式的交互被更真实的对话所取代，尤其在交互需求极强的场景，例如情感陪伴、语音指导等场景，体验感将大大增强。类似电影《Her》中的场景，或许已经逐渐成为了现实：随时随地，无时无刻的交流，并且拥有充沛的情绪价值。

可以预见的是，未来 AI Bot 将在企业客户服务领域扮演越来越重要的角色，尤其是在那些日常需要应对大量客户咨询的行业，例如电商、金融和通信等。通过扣子平台，企业可以根据自身需求定制化设置 Bot 的人设，上传专属的私域资料，轻松打造一个高度拟人化的客服机器人。这样的 AI 客服不仅能够理解并处理更复杂的客户问题，还能实现全天候服务，确保不掉线，从而大幅提升客服工作效率，有效降低企业的人工成本。

在 C 端的消费级市场，实时语音交互能力也将为 AI Bot 开辟新天地。在泛娱乐领域，如游戏和虚拟空间，RTC 技术可以让角色扮演更加生动，提供给玩家沉浸式的体验，使互动游戏如剧本杀和狼人杀等更加真实和有趣。教育领域也因 RTC 技术而受益，它使得实时翻译、一对一 AI 教师和情感陪伴机器人等服务变得更加高效和个性化，打破语言障碍，让教育资源共享，同时为孤独或需要特别关怀的学生提供情感上的支持。

甚至结合其音色克隆等能力，可以实现虚拟分身、虚拟陪伴等能力，让 Bot 成为你或家人、朋友的分身，应用在通话应答、情感陪伴等场景。

扣子语音 OpenAPI 音色克隆能力演示

另外一方面，结合智能硬件的发展，AI Bot 的应用前景同样广阔。在此前的智能硬件发展中，无论是 Siri，还是一些主流的智能音箱，都面临着对话不够智能的情况，基于火山引擎视频云 RTC 与扣子的 IoT 联合方案，AI Bot 可以专为智能硬件场景设计，并实现低功耗、轻量级、全平台兼容互通。这一方案结合了扣子触发器和插件等能力模块，将智能体和 IoT 设备连接起来，让智能体拥有感官，可以进一步推动 AI 与物理世界的交互。

或许在未来，在智能家居领域，用户不仅可以通过语音指令控制家中的智能设备，智能设备还会根据天气、用户情绪等因素实时作出控制，如开窗帘、关灯，甚至是自动洗衣等场景，都将进一步发挥其“功能性”。

今年，AI 领域中一个引人注目的话题是具身智能的发展。随着技术的进步，特别是在行为和动作控制方面的突破，我们可以预见，将 AI Bot 与具身智能实体的结合将成为未来的一大趋势。这种结合不仅能够扩展 AI 的应用范围，还能通过 RTC 技术进一步提升智能交互的便利性和效率。语言作为智能交互中最直接、最自然的渠道之一，其重要性在这一过程中将更加凸显。

同时，随着 AI Bot 多模态能力的提升，它们在视觉、听觉等多种感官的有机结合下，为使用场景提供了更多可能性。例如，通过视频处理和视频生成技术，AI Bot 能够实时生成数智人形象、扩展 XR 空间，这不仅增强了 Bot 的交互维度，也为内容创作和用户体验带来了新的创新。

RTC 技术的加入，可能只是扣子平台的一次功能升级，但其背后的意义远不止于此，归根结底是为了扩展使用场景，推动实践落地的一次迈步，如何让 AI 与我们的生活更近，如何让 AI 真正作用于我们的生活，才是核心的目的。随着探索的不断深入以及技术的迅速发展，AI Bot 将走向深层次的智能化路径。

会议推荐

就在 12 月 13 日 -14 日，AICon 将汇聚 70+ 位 AI 及技术领域的专家，深入探讨大模型与推理、AI Agent、多模态、具身智能等前沿话题。此外，还有丰富的圆桌论坛、以及展区活动，满足你对大模型实践的好奇与想象。现在正值 9 折倒计时，名额有限，快扫码咨询了解详情，别错过这次绝佳的学习与交流机会！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.