网易首页 > 网易号 > 正文 申请入驻

最新中文大模型测评报告公布,腾讯混元居国内第一

0
分享至

9月2日,中文大模型测评基准SuperCLUE发布《中文大模型基准测评2024年8月报告》,腾讯混元大模型凭借在多个核心任务上的出色表现,总得分居国内大模型第一名,成为榜单中进步最快的模型之一。

据SuperCLUE报告,在11个能力项的测评中,腾讯混元在其中 8 项核心任务上排名国内第一,综合来看,“腾讯混元整体能力不俗,是一个非常有竞争力的通用大模型。“

SuperCLUE本次测评的是腾讯混元新一代大语言模型预览版(Turbo-Preview),模型采用全新的混合专家模型(MoE)结构,从训练数据、模型架构、训练策略,训练框架,软硬件体系等方面实现了全链路自研,模型一方面在性能上实现大幅提升,另一方面也实现了推理成本的显著下降,有着较大的应用潜力。

作为独立的第三方中文大模型基准测评机构,SuperCLUE本次8月报告聚焦通用能力测评,测评方案由理科、文科和Hard三大维度构成。具体来看,理科能力包括计算、逻辑推理和代码能力;文科任务覆盖知识百科、语言理解、长文本、角色扮演、生成与创作、安全和工具使用七大维度;Hard任务则侧重精确指令遵循以及复杂任务高阶推理。

作为国内成绩最好的模型,腾讯混元在理科、文科均居于第一名。Hard任务上腾讯混元表现出色,取得74.33分,是国内唯一超过70分的大模型,仅与ChatGPT-4o有微小差距。

值得注意的是,随着大模型行业的蓬勃发展,以腾讯混元为代表的国产大模型正在加速进化,能力升级速度不断加快。测评报告数据显示,总体趋势上,国内第一名的大模型在中文领域的通用能力与国外领先模型差距持续缩小,从2023年5月的 30.12% 的缩小至 2024 年8月的1.29%,总分上仅有 1 分左右的微小差距。

自2023年9月正式亮相以来,腾讯混元通过在国内率先采用MoE结构,模型已扩展为万亿参数规模,总体性能不断升级,除了通用能力和文生文,在文生图、图生文以及视频生成等多模态能力上也有比较突出的表现。在此前发布的中文多模态大模型SuperCLUE-V基准榜单中,腾讯混元大模型凭借在多模态理解方面的卓越表现,国内大模型排名第一,稳居卓越领导者象限。

基于领先的模型能力积累,腾讯混元大模型正在积极推进应用落地,让大模型创造更多价值。目前腾讯内部近700个业务及场景已接入,包含腾讯元宝、腾讯云、QQ、微信读书、腾讯新闻、腾讯客服等。此前,腾讯旗下协作SaaS(软件即服务)产品全面接入腾讯混元大模型。

腾讯混元大模型在腾讯云上提供了多种尺寸的模型服务,通过API、专属模型、精调模型等接入和使用方式面向企业及个人开发者全量开放。目前,腾讯混元的云上版本包括Turbo-Preview、Pro,Standard,Lite等多个版本;在专属模型上开放了代码生成、角色扮演、Functioncall等;企业也可以通过腾讯云TI平台对腾讯混元进行精调。

基于多年深耕产业互联网经验和积累,腾讯云已联合行业头部企业,为20+行业输出了超过50个解决方案,提供一整套模型服务工具链,帮助企业高效率、高品质、低成本地创建和部署AI应用。

雷峰网

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小杨阿姨硬气了!直言去不了台湾也没事,直播卖货躺着都能挣钱!

小杨阿姨硬气了!直言去不了台湾也没事,直播卖货躺着都能挣钱!

小娱乐悠悠
2026-03-14 08:43:22
很多人没看懂,广州这次破釜沉舟的决心

很多人没看懂,广州这次破釜沉舟的决心

广州PLUS
2026-03-13 20:39:06
6点吃晚饭是错误的?医生建议:过了70岁,晚饭尽量要做到这6点

6点吃晚饭是错误的?医生建议:过了70岁,晚饭尽量要做到这6点

医学科普汇
2026-03-09 21:50:06
生态环境部党组召开会议

生态环境部党组召开会议

证券时报
2026-03-13 23:02:18
中国篮球又出丑闻!26岁明星球员桃色实锤,郭士强做的太对了

中国篮球又出丑闻!26岁明星球员桃色实锤,郭士强做的太对了

观察鉴娱
2026-03-12 09:51:55
伊朗今天的灾难,是白左当年种下的祸根

伊朗今天的灾难,是白左当年种下的祸根

难得君
2026-03-11 00:16:06
广东一网友花10元买了2个新勺子,收货后发现勺子尾部未打磨

广东一网友花10元买了2个新勺子,收货后发现勺子尾部未打磨

半岛晨报
2026-03-13 21:30:05
自毁诺言投奔曼联,还能赢得利物浦球迷的掌声,大英悍将是真汉子

自毁诺言投奔曼联,还能赢得利物浦球迷的掌声,大英悍将是真汉子

足篮大世界
2026-03-14 08:19:04
双鱼座女神「深田咏美」158cm眼镜娘のF杯终极杀器

双鱼座女神「深田咏美」158cm眼镜娘のF杯终极杀器

碧波万览
2026-03-14 00:35:06
胡锡进嘲讽的逻辑不一致,恰恰是生而为人的底线!

胡锡进嘲讽的逻辑不一致,恰恰是生而为人的底线!

胖胖说他不胖
2026-03-13 12:05:09
桑巴军团框架初定:安切洛蒂圈定18人资格,内马尔成最大悬念

桑巴军团框架初定:安切洛蒂圈定18人资格,内马尔成最大悬念

里芃芃体育
2026-03-14 10:03:08
1997年,与戴安娜死在一起的首富之子多迪,多迪家族怎么样了?

1997年,与戴安娜死在一起的首富之子多迪,多迪家族怎么样了?

近史谈
2026-02-28 19:40:50
川普向霍尔木兹派兵5000人,对油价影响多大?

川普向霍尔木兹派兵5000人,对油价影响多大?

难得君
2026-03-14 09:05:03
美司令已有预感,中美一旦开战,摆在美军面前只有两个选择

美司令已有预感,中美一旦开战,摆在美军面前只有两个选择

让生活充满温暖
2026-03-11 21:04:01
NBA战报:骑士138-105轻取独行侠,埃文-莫布利29+7+2

NBA战报:骑士138-105轻取独行侠,埃文-莫布利29+7+2

懂球帝
2026-03-14 09:56:06
贵州小伙钟情河北400斤姑娘,恋爱前两人约定:从此不用减肥

贵州小伙钟情河北400斤姑娘,恋爱前两人约定:从此不用减肥

每一次点击
2026-03-13 14:50:21
没心情管乌克兰了,冯德莱恩猛批伊朗,不料被西班牙女议员骂懵了

没心情管乌克兰了,冯德莱恩猛批伊朗,不料被西班牙女议员骂懵了

霁寒飘雪
2026-03-13 12:46:07
张凌赫旧照爆火:200斤撞脸李敏镐,红气养人属实

张凌赫旧照爆火:200斤撞脸李敏镐,红气养人属实

无心小姐姐
2026-03-13 21:27:37
“大宝贝”格伦-戴维斯出狱,此前因医疗诈骗被判40个月监禁

“大宝贝”格伦-戴维斯出狱,此前因医疗诈骗被判40个月监禁

懂球帝
2026-03-14 09:45:09
竹笋为什么只属于中国人——一场几千年的驯化史

竹笋为什么只属于中国人——一场几千年的驯化史

富贵说
2026-03-11 23:50:11
2026-03-14 10:24:49
雷峰网 incentive-icons
雷峰网
关注智能与未来!
68719文章数 656088关注度
往期回顾 全部

科技要闻

李想为何暂放“执念”?

头条要闻

牛弹琴:美以公开威胁要刺杀 伊朗领导层罕见集体现身

头条要闻

牛弹琴:美以公开威胁要刺杀 伊朗领导层罕见集体现身

体育要闻

叕战奥运,张雨霏要做回“小将”

娱乐要闻

广电总局公布演员将用姓氏笔画定番位

财经要闻

3·15影子暗访|神秘的“特供酒”

汽车要闻

吉利银河M7技术首秀 实力重构主流电混SUV

态度原创

房产
健康
艺术
家居
教育

房产要闻

不容易啊!海口终于又要卖地了!

转头就晕的耳石症,能开车上班吗?

艺术要闻

毛泽东的书法究竟需不需要天赋?看邓宝珊的信揭晓真相!

家居要闻

艺术之家 法式优雅

教育要闻

北京通州实行“校长上讲台”制度,校长是否上课的理性辨析

无障碍浏览 进入关怀版