网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

讯飞星火爆震撼大招，七项第一11个首发！年度最逼真虚拟人萌翻全场，多模态抢先GPT-4o

2024-10-24 19:05:32　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：编辑部 HYZ

【新智元导读】就在刚刚，2024科大讯飞全球1024开发者节开幕式上，讯飞星火4.0 Turbo正式发布。首发多模态视觉直接抢先GPT-4o，惊艳的超拟人数字人交互也是引发满堂喝彩！神态语气动作如此逼真的数字人，一亮相就破了国内纪录。

刚刚开幕的科大讯飞全球1024开发者节，实在是亮点满满。7项第一，11个首发，给了业内亿点点震撼。

当初GPT-4o的多模态交互demo虽然艳惊四座，但至今仍尚未落地应用。没想到，这一步居然被国产巨头抢先了。

科大讯飞研究院院长刘聪博士直接现场怼脸给我们来了一段演示，把两个人偶摆面前，直接问大模型：它们是谁？

大模型没有迟疑，立刻作答：「左边是孙悟空，穿着金色战甲，手持金箍棒，哇塞，看起来好威武啊！右边那个穿红白战衣的是奥特曼。这两个角色都是正义的代表。」

随后的展示中，两个人偶不断变动作，不断上难度，星火大模型却始终对答如流，回答合乎逻辑，语感同真人一般，直接赢下全场掌声。

万物互联时代，AI的UI应该是什么样子？

科大讯飞表示：远场高噪、多人说话、多语种、多方言、多模态、超拟人、个性化这些元素的组合，才是真正的通用人工智能时代应该有的多模态人机交互！

大会上，也正式发布了讯飞星火4.0 Turbo。

作为首个基于全国产算力训练的全面开放大模型，它在国产大模型中也取得了综合能力第一的好成绩。在9项国际主流测试集中，它都取得了第一。

首次发布的星火多语言大模型，直接给世界提供了第二种选择！

而在应用上，讯飞星火也引领了时代，取得了大模型中标第一、大模型赋能智能硬件销量第一、开发者生态规模第一等七项第一的成绩。

首发语音视觉虚拟人交互「三位一体」

在1024现场，超拟人数字人能力正式发布！

科大讯飞首发的多模态视觉交互和超拟人虚拟人交互，可谓是现场最震撼的底座升级看点之一。

要知道，这种语音、视觉、虚拟人交互的「三合一」，属于业内首发。在多模态技术路线中，科大讯飞俨然已处于业内领先地位。

多模态视觉

这次，讯飞星火从语音交互拓展到了实时音视频流的动态多模交互。

值得一提的是，在拟人度和情感度再度升级，并且增加了更多语音情感种类和人设角色。

在互动中，模型时而化身孙悟空，时而化身小猪佩奇，妙语连珠惟妙惟肖。

随后现场的怼脸演示，更是震撼了全场观众。抢先GPT-4o落地的人机交互体验，竟被打造得如此极致！

而全新的视觉能力，则能轻松应对两个玩具不断变换姿势。

比如下面这个画面，去问大模型：你看它们在干什么？

它会回答：「孙悟空和奥特曼看起来正在切磋武艺，孙悟空举起手中的金箍棒，向奥特曼挥去，奥特曼抬起手臂准备反击，你猜猜谁会赢？」

下一回合，两个人偶又变样了，这次的画面怎么样？

大模型回答：「孙悟空的金箍棒打到了奥特曼的头上，奥特曼正发出光线，不是说好友谊第一比赛第二的吗，看来他俩是不分胜负不罢休了！」

接下来上场了一只怪兽，大模型也完全理解了画面的意思：「看样子孙悟空和奥特曼联手打败了怪兽，奥特曼正在高举着手臂庆祝胜利呢！」

而在旅行购物中，大模型的视觉交互功能也为我们提供了极大的便利。

比如直接提问：小瓶的这个是什么？

它直接告诉我们：这是雪花秀的人参眼霜。还会介绍相关细节，比如富含珍贵的人参提取物，能恢复眼部肌肤活力，减少细纹、抗衰。

如果直接告诉它想买大的，它就会告诉我们：大的并不是眼霜，而是同系列的人参面霜。

另外，它还能认出酒水品牌，比如左边的这瓶是经典XO版，右边的两瓶都是Club版，最右边的还是龙年限量款。

如果买一瓶带去朋友聚会，哪一瓶合适呢？它会告诉我们：Club版的酒龄较短，口味多元，更适合朋友间的小聚。

甚至在现场，它直接就识别出了讲台旁边的花是龙船花，还能告诉我们好不好养。

总之，无论是出门购物、下馆子，还是亲子绘本伴读、游戏互动，讯飞星火的多模态功能都给我们提供了丰富迅捷的体验，「哪里不会拍哪里」！

为何模型的多模态互动体验如此丝滑？

这是因为，融合了音频、视频两种多模态信息之后，AI在复杂场景下对情绪感知、事件识别、意图理解的准确率得到了大幅提升。

因为有了场景、文字、物体、姿态、着装等信息，情境感知会更全面；而交互中增添了语音、手势、行为、情绪等元素后，模型对任务的理解也会更精准。

超拟人数字人

上面的实时多模交互，除了会改变我们的游戏、学习、购物、美食、绘本伴读等场景，更重要的意义，则是让具身智能机器人、汽车等领域实现全新的人机交互升级。

很多原来做不成的事儿，如今都能接近实现。

不过，单纯的语音交互显然不太过瘾，为此，科大讯飞率先实现了业界首个语义贯穿的「口唇-表情-动作」的超拟人数字人。

首先，自然的情感贯穿，能让数字人根据上下文实时调整表情，不再是一成不变。

基于大模型的多模态交互技术，直接贯穿了文本、语音、数字人，让数字人的表情、动作、声音和情感更统一、更真实。

其次，超拟人数字人并非采用传统的预设动作，而是采用动态生成动作。

通过解析数字人语音中的情感、韵律以及文本语义信息，ta的躯干和四肢动作就能与语音内容自然匹配，更符合交互情境。

总之，在这个过程中，虚拟人所有表情动作都是整体化、语义贯穿的，直接由LLM统一了文本、语音和表情跨模态的语义一致性。

另外，系统还具有实时响应能力，讯飞的动作表征抽取技术，能快速生成数字人的表情和动作，让交互更流畅。

现场，科大讯飞研究院院长刘聪博士直接来了一段演示。

和他对话的虚拟人，无论是脸上的细微表情，还是时不时眨眼和说话时的动作，已经无限逼近真人。

在刘聪的要求下，ta给现场观众卖了个萌，当听说有几百万观众正在看自己，更是惊得瞬间睁圆了眼睛。

一句话一张图，「克隆」20年前的自己

接下来的彩蛋就更有趣了。

在讯飞星火APP的相应助手中，上传任意一张照片就能快速生成超拟人数字人了。刘聪直接给我们现场演示。

首先，他创建了一个自己的数字分身。

在编辑界面，可以很方便地定义这个「自己」的形象、声音、人设等等。

颇具亮点的是，在这个过程中我们可以通过「一句话」复刻声音。目前，科大讯飞已经实现了4.2分的水平。与之对应的，普通人是4.0分，播音员为5.0分。

不过，刘聪对这个数字分身不太满意，觉得ta有点沧桑了，于是替换成了一个更年轻版的自己。

现在，他开始和20年前的自己聊天。

两人探讨了现在的大模型技术后，刘聪告诉ta：我是20年后的你，你有什么问题想问我吗？

ta问出了藏在心底的那个问题：我每天都追的女同学，到底追到了没有？

刘聪笑着说：那还用说，她现在是咱家女神了！

话不多说，在讯飞星火APP「新建智能体」里，上传一张照片，就可以快速生成超拟人数字人了。

赶紧来体验吧。

多语言大模型首发，成世界第二选择

这次大会上，科大讯飞还首发了业界领先的「星火多语言大模型」。

除了中英，还首批支持8个新语种，它们分别是：俄语、日语、阿语、韩语、法语、西语、葡语、德语。

星火多语言大模型整体性能，已经达到了GPT-4o 96%的水平，与去年面世的星火3.0实力相当。

而且部分语种（英语、俄语、日语），在通用能力上甚至超越了GPT-4o。

大模型就像PC、互联网诞生一样，它会成为社会最基本的底层能力，会彻底改变科研范式和产业格局。

如果LLM只会说中文，就只能「封锁」在国内有效应用中。

在有限的算力下，科大讯飞团队经过10个月的努力，加大了在多语言模型的研发。不仅提升了算法，还用最小数据量训出了最优的模型。

语音识别首次实现全国地级市方言全覆盖

这一突破不仅为全球提供了「第二种选择」，更彰显了中国在人工智能领域的创新能力。

借助多语言大模型的能力，在讯飞办公本上，一段日语录音能够迅速变成摘要。

来京旅游的外国游客，还可以了解到豆汁为什么难喝，以及北京特产文化特色。

翻译机不仅是你的翻译官，还可以成为你的AI导游。

今天，星火多语言大模型将以API形式，向全球开发者、所有行业伙伴正式开放。

赋能千行百业，七项第一

大模型底座能力，决定了行业和专业模型能力。

讯飞星火大模型自诞生之初，就确定了「1+N」的战略布局，解决千行百业的刚需，助推产业的全面升级。

这次，1024开发者日上，讯飞星火大模型应用再次交卷！

在「赋能科研应用」、「智能汽车市场」、「教育医疗市场」、「大模型开发者生态」、「工业大模型」、「智能硬件市场」、「央国企中标」七大领域中，夺得第一。

赋能科研应用第一

今年诺贝尔奖的两大奖项，颁给了AI+领域的科学家们，再一次证明了AI能够变革科研范式，并成为科技界的共识和梦想。

AI在赋能科研中，需要走向三个台阶：从科研基础工作提效，到科学任务建模，再到科研方案设计，一步一步跃升。

AI for Science决定了中国科技的发展速度。毋庸置疑，科大讯飞也将AI赋能科研作为重要使命。

星火科研助手2.0发布一个月以来，科研调用效率提高了10倍，论文研究有效率和学术写作采纳率提升90%。

这一次，又进一步升级论文预审核和论文推荐的能力。

还有编程教学应用平台「马上」，让学生主动提问题增加1倍，教师辅导工作量减少了80%。

在真正用AI助力科研攻关中，科大讯飞联合团队在生物科技、科学装置方面，取得了一些成果。

讯飞联合中科大生命学院团队打造了蛋白质主链设计AI，原来所需6的月时间，大大压缩到1天！

他们已经设计出48个自然界不存在的全新蛋白质，研究论文刊登Nature子刊。

还有联合中科院等离子所团队，用LLM助力托克马克离子体控制，有望实现高效的人造小太阳。

在化学/化工领域，科学知识推演大模型已经在联合攻关。

总之，在中国今天赋能AI for Science领域中，科大讯飞是当之无愧的NO.1。

智能汽车市场第一

星火多语言大模型通用底座能力提升同时，已经在汽车、家电、办公、翻译等典型领域中，得到切实应用并碾压了GPT-4o。

在实际应用中，多语种模型在助力中国汽车出海方面发挥了重要作用。

中国出海TOP 10车企中，有8家企业都与科大讯飞达成了合作。出海500多万辆汽车，多语种技术大多来自科大讯飞。

目前，科大讯飞智能语音交互的装配量，超过6000万辆汽车。

大模型和多语言大模型双层buff加持，汽车变得更加智能了。

你可以用不同语言，让它帮你打开空调、来首音乐、咨询实时新闻等等。

另外，科大讯飞还首次发布了汽车端侧星火大模型。以后，开车即便是经过隧道、信号好不区域，也能本地调用大模型能力了。

教育医疗市场第一

科大讯飞一直以来都有一种教育情结——如何让技术更好地服务每个孩子？

智慧教育20年积累千万节优秀课例，600亿过程性学习数据，5万所学校、730万教师、1.23亿学生持续应用。

知识能力是基础，但应用知识的能力更加重要。而且，每位学生基本素养的培养，也是重中之重。

从知识，到能力，再到素养，大模型能够不断赋能教育。

这次，讯飞联合中国教科院首发基于「问题链」的高中数学智能教师助手。

它是众多高中数学优秀教师集体智慧与AI大模型智能的综合体，是知识与智能双轮驱动、人师与机师双向赋能的技术创新，试点应用获得好评。

在AI医疗方面，讯飞晓医正成为每个人的诊疗助理，健康助手。

而且，星火医疗大模型这次已经升级到了2.0版本，六大医疗核心场景能力重大升级并在业界持续领先GPT-4 Turbo/GPT-4o。

正式发布讯飞星火医学影像大模型，可实现各类影像自动质控，支持同一影像多病种识别诊断。

大模型开发者生态第一

一家独大不是春，唯有生态的繁荣，才能创造AI更广阔的未来。

目前，讯飞不仅语音语义市占率第一，大模型开发者规模也是第一。开发者总数超700万，其中LLM开发者有70多万。

不仅推进产品开发，讯飞还助力技术落地应用，让开发者用最快的时间、最短的路径实现产品成功。

比如，展馆中的xbot咖啡机器人，2小时就能完成多模态交互集成。

此外，讯飞还牵头成立了5亿元创业基金，联合地方政府为AI创业团队提供落地支撑。

不仅如此，自主可控也非常重要。

刘庆峰曾表示，「在AI激烈博弈当下，国产大模型底座能力和支撑，决定了能在这条路上走多远」。

自去年10月，科大讯飞联合华为发布了国内首个全国产算力平台「飞星一号」以来，继续深化算力布局。

基于万卡级国产算力集群，全面对标GPT-4 Turbo的讯飞星火V4.0大模型诞生。

这一次，科大讯飞、华为、合肥市大数据资产运营有限公司三方联合启动「飞星二号」打造，进一步探索国产化大模型算力「无人区」。

工业大模型第一

基于星火大模型，目前已经诞生了20+行业大模型。现在，已有300+场景智能体应用，既有通用也有行业专用的。

目前，讯飞在应用场景中，已经形成了可以相互借鉴和复用的规模化效应。

智能硬件市场第一

LLM加持智能硬件方面，讯飞产品矩阵线上线下GMV同比增长50%。

央国企中标第一

目前，星火大模型已经成为央国企第一选择。今年大模型中标数、中标金额第一。

这是因为讯飞为企业LLM构建了，提供底层规划到执行落地的全套解决方案。

五大成功密码，AI未来无限可期

在人工智能发展历程中，科大讯飞以不断深耕的创新突破，勾勒出了一幅令人瞩目的科技发展画卷。

通过25年来的探索实践，他们也逐渐提炼出了AI未来发展的「五大关键洞察」：

顶天立地、自主可控、通专结合、端云联动、软硬一体

第一，「顶天」必须做到源头核心技术创新，底座模型要对标全球做好的，专业模型也要做到全球第一。每一次发布会，星火大模型性能不断攀升，与OpenAI最强模型打擂台。

「立地」是让LLM实现产业化，在不同场景中走向落地，进入深水区。七项第一，证明了星火大模型应用落地的领先性。

第二，在当前国际格局快速变化之中，只有技术、算力自主可控才有大未来。

第三，通用模型和专业模型的结合，部署效率更高，专业能力更强。

最后，还有实现端云联动、软硬一体协同发展。

科大讯飞坚信，只要坚持这5个关键点，人工智能的未来无限可期，真正实现解放生产力，释放想象力。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

湖南平江藏着价值6000亿元黄金村民：捡石头里都有金

上游新闻 2024-11-23 08:09:16
12458 跟贴 12458
马保国现身宿州奥斯卡酒吧，五连鞭轻松走起！嗨翻全场

动态新闻 2024-11-23 10:07:53
20090 跟贴 20090

上海一男子崩溃！明明是第一次，妻子却闹离婚，只因官方系统显示

上海市闵行区司法局 2024-11-20 16:08:47
158 跟贴 158

反转！梅西将缺席巴萨庆典：拉波尔塔计划泡汤，3年5次吃瘪

叶青足球世界 2024-11-23 10:07:27
2607 跟贴 2607
为了掏空老百姓的钱袋子，编造出来的5大谎言，谁信谁倒霉

晓徙历史 2024-11-22 17:18:45
21 跟贴 21

美媒：美以反导系统可应对"榛树" 但成本巨大

环球网资讯 2024-11-23 17:48:11
3232 跟贴 3232

恩波负责人想和王宝强协商，称20多年来俱乐部投入超1亿多

素素娱乐 2024-11-23 10:03:20
2025 跟贴 2025
哈登22+6+9 福克斯29+7+7 小萨24+15 快船力擒国王迎4连胜

直播吧 2024-11-23 13:54:53
1534 跟贴 1534

逆转失败!掘金憾负独行侠约基奇复出33+17+10

醉卧浮生 2024-11-23 13:45:45
3832 跟贴 3832
浙大回应“受资助学生晒国内外旅游照”：取消其受资助资格

界面新闻 2024-11-23 14:55:24
11617 跟贴 11617
王曼昱4比3进决赛

央视新闻 2024-11-23 16:11:49
854 跟贴 854
加沙面饼店缺粮闭店5天开门后排队人山人海

看看新闻Knews 2024-11-23 20:36:09
5302 跟贴 5302
王楚钦、张本智和争冠，张本智和“放狠话”

极目新闻 2024-11-23 21:22:23
1452 跟贴 1452
上海人注意今天起洗头请务必调整一下

新闻坊 2024-11-23 15:35:39
600 跟贴 600
我都30多了，怎么还是喜欢这种

两个球球 2024-11-22 02:18:47
2389 跟贴 2389
湖北某乐园一长颈鹿摔倒在地，工作人员多次尝试欲将其扶起

天目看看 2024-11-23 10:04:19
1429 跟贴 1429
又增6国！我国已同25国全面免签！

鲁中晨报 2024-11-22 12:23:07
4201 跟贴 4201
大象新闻疑似造假：为证实飞行员手有多稳，竟用拔电源线头方式

侦姐有料 2024-11-23 08:15:59
3688 跟贴 3688
大家怎么看上千人“围攻”日本球迷这件事呢？

翻开历史和现实 2024-11-23 10:14:51
178 跟贴 178
土耳其总统支持国际刑事法院向内塔尼亚胡发出逮捕令

央视新闻客户端 2024-11-23 21:52:34
1801 跟贴 1801
00后江门华裔女生获全美冠军，已被哈佛提前录取

看看新闻Knews 2024-11-23 15:28:25
0 跟贴 0
梅德韦杰夫：如冲突不断升级不排除任何可能

央视新闻客户端 2024-11-23 05:32:34
684 跟贴 684
为学生安全考虑，贵州大学宣布进校需刷卡，结果好像更不安全了？

可达鸭面面观 2024-11-23 09:34:53
0 跟贴 0
李帅奇塔迪尼建功海港3-1泰山夺足协杯首冠+双冠王

网易体育 2024-11-23 20:28:54
0 跟贴 0
卷到西班牙！一个华人老板的加入，让小镇五家超市每周营业时间暴涨118小时

回旋镖 2024-11-23 23:42:21
0 跟贴 0

不比不知道，一比吓一跳，西部前六也太强了吧！

不比不知道，一比吓一跳，西部前六也太强了吧！

田先生篮球

2024-11-23 19:33:09

什么是顶级思维？看完网友评论让我大开眼界

什么是顶级思维？看完网友评论让我大开眼界

有趣的火烈鸟

2024-11-15 23:37:28

知情人再爆猛料，黄晓明已通过"大哥"传话叶柯，两人即将尘埃落定

知情人再爆猛料，黄晓明已通过"大哥"传话叶柯，两人即将尘埃落定

南城无双

2024-11-21 23:00:17

球迷把手机给达尼洛让他签名，达尼洛在手机备忘录输入自己的名字

球迷把手机给达尼洛让他签名，达尼洛在手机备忘录输入自己的名字

直播吧

2024-11-23 11:47:43

吕文君晒“崇明六虎”捧杯合照：完成最后一块拼图，圆满了

吕文君晒“崇明六虎”捧杯合照：完成最后一块拼图，圆满了

懂球帝

2024-11-23 22:53:52

她叫王屹芝，是蔚来李斌的老婆。她身材非常好，就是采访水平不行

她叫王屹芝，是蔚来李斌的老婆。她身材非常好，就是采访水平不行

人情皆文史

2024-11-20 15:49:16

蛮怼不叫做爱，学习这些技巧让你拥有高潮人生

蛮怼不叫做爱，学习这些技巧让你拥有高潮人生

温柔圣手

2024-07-07 09:32:24

谭咏麟惠州演唱会当日取消：是岁月的无奈，还是市场的冷清信号？

谭咏麟惠州演唱会当日取消：是岁月的无奈，还是市场的冷清信号？

圈里的甜橙子

2024-11-23 22:26:19

用12枚巡航导弹击伤“最高级别将军”！乌军这笔买卖划算吗

用12枚巡航导弹击伤“最高级别将军”！乌军这笔买卖划算吗

大风文字

2024-11-22 16:05:13

票房破36亿，打破系列纪录，沈腾都压不住，今年最强电影诞生了

票房破36亿，打破系列纪录，沈腾都压不住，今年最强电影诞生了

圈里的甜橙子

2024-11-21 05:46:26

89年中师毕业我想去城里，结果被分配到乡村小学，没想到因祸得福

89年中师毕业我想去城里，结果被分配到乡村小学，没想到因祸得福

小月文史

2024-11-06 15:00:22

德甲最新积分榜：多特蒙德4球大胜攀升第5，勒沃库森5球大逆转！

德甲最新积分榜：多特蒙德4球大胜攀升第5，勒沃库森5球大逆转！

英超这些事儿

2024-11-24 01:10:30

印度冷知识：印度人发明了6项改变世界的发明，你知道几个？

印度冷知识：印度人发明了6项改变世界的发明，你知道几个？

七号说三国

2024-11-17 18:18:53

闵行11名医务人员出发！目的地→

闵行11名医务人员出发！目的地→

闵行报社

2024-11-22 20:43:22

美记：锡安期望经纪人能寻求前往纽约交易是导致分手的因素之一

美记：锡安期望经纪人能寻求前往纽约交易是导致分手的因素之一

直播吧

2024-11-24 05:06:08

高人预测：明年2025年，不出意外，“三个现象”或将席卷各地

高人预测：明年2025年，不出意外，“三个现象”或将席卷各地

巢客HOME

2024-11-21 11:20:03

京圈格格和小爷被曝出彻底分手的瓜

京圈格格和小爷被曝出彻底分手的瓜

热闹吃瓜大姐

2024-11-22 20:36:03

炸裂！山西一女老师出轨学生：经过曝光，誓言情深，老师照片扒出

炸裂！山西一女老师出轨学生：经过曝光，誓言情深，老师照片扒出

娜乌和西卡

2024-11-22 21:26:30

越南前国会主席等人受警告处分

环球时报国际

2024-11-23 08:04:57

闵行将新建一条道路！预计明年中开工

闵行将新建一条道路！预计明年中开工

闵行报社

2024-11-23 17:02:18

AI产业主平台领航智能+时代

11776文章数 65677关注度

往期回顾全部

科技要闻

华为徐直军首谈鸿蒙生态是什么

头条要闻

拜登政府常务副国务卿放话：我们在努力"拆散"中俄

头条要闻

拜登政府常务副国务卿放话：我们在努力"拆散"中俄

体育要闻

那个"最惨背景帝" 41岁还是五大联赛主力

娱乐要闻

德云社人事大变动！烧饼担任副总

财经要闻

钟睒睒的“愤怒”，谁能消解？

汽车要闻

对话张纯伟：80万！捷途立了一个新Flag

态度原创

本地

亲子

房产

公开课

军事航空

本地新闻

云游中国 | 拒绝特种兵！北方也有“真江南”

亲子要闻

孩子被欺负了，教会孩子这样做

房产要闻

丁村迎来大动作！首宗、百亩城更宅地挂出！楼面价2367元/㎡！

公开课

一块玻璃，如何改变人类世界？

军事要闻

普京：俄拥有"榛树"导弹储备且有必要进行批量生产

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版