网易首页 > 网易号 > 正文 申请入驻

豆包大模型评测成绩公布,较上代“云雀”提升19%

0
分享至

继此前在2024春季火山引擎FORCE原动力大会上,字节跳动方面正式发布自主研发的豆包(原名云雀)大模型,并宣布该系列大模型将通过火山引擎正式对外提供服务,企业可根据自身业务场景需求灵活选择、快速落地后。在火山引擎方面日前披露的一份产品资料中,豆包模型团队公布了一期内部测试结果。

据悉此次评测在本月完成,主要包括豆包通用模型Pro、云雀Skylark2在内的九款国产大模型。除云雀Skylark2以外,其他模型均为各厂商最新发布的高级版本,并通过API调用进行测试。

此次评测结果显示,在MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,豆包Pro-4k的总分为76.8分,相比上一代模型云雀Skylark2的64.5分提升了19%,也优于同期测试的其他国产模型。相较之下,据OpenAI方面公布的测试成绩,GPT-4在这些评测集上的总分为80.1分,相比国产模型仍有一定领先优势。

具体而言,在评估代码能力的两个评测集HumanEval和MBPP上,豆包相比上一代模型提升了50%左右;在专业知识和指令遵循的评测集上,豆包分别获得33%和24%的性能提升,同时也是得分最高的国产模型。此外在数学能力、语言理解能力,以及综合评测集CMMLU和CEval的评测上,豆包也有不错的表现、得分均排在前三。

据了解,此前在2023年,豆包大模型就已在字节跳动内部完成上线,同时其也是首批通过大模型服务安全备案的大模型之一。截至目前,字节跳动内部50多个业务已经大量使用豆包大模型进行AI创新,包括抖音、头条等数亿DAU产品,该大模型目前日均处理1200亿tokens文本、生成3000万张图片。除通用模型pro外,豆包大模型还有通用模型lite、角色扮演模型、语音合成模型、声音复刻模型、语音识别模型、文生图模型、Function call模型、向量化模型等多个版本。

值得一提的是,此前在2024春季火山引擎FORCE原动力大会上,字节跳动产品和战略副总裁朱骏还介绍了字节跳动基于豆包大模型打造AI原生应用的产品理念。当时他曾表示,技术在快速演化,但用户核心的需求没有改变,比如高效获取信息的需求、工作提效的需求、自我表达的需求、社交娱乐的需求等。字节跳动做了很多学习和探索,希望找到适合的大模型应用形态,以自然的交互形式服务用户,走入更多人的生活和工作。

据悉,基于豆包大模型打造的同名AI对话助手“豆包”,是字节跳动重点投入的大模型应用。据朱骏透露,豆包平台月度活跃用户已达到2600万,并已有超过800万个智能体被创建。

【本文图片来自网络】

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
对睡眠好的8种食物,每天换着吃,睡得快质量高,人也变得显年轻

对睡眠好的8种食物,每天换着吃,睡得快质量高,人也变得显年轻

美食店主
2026-05-18 07:30:25
打人当天,容琳朝被严惩

打人当天,容琳朝被严惩

极目新闻
2026-05-25 10:46:13
40岁大哥早年花120万投股票,时隔10年如今急用钱,他记起这件事

40岁大哥早年花120万投股票,时隔10年如今急用钱,他记起这件事

卡西莫多的故事
2025-12-15 10:30:03
董存瑞的遗言不是“为了新中国,前进!”,老战友称:只有两个字

董存瑞的遗言不是“为了新中国,前进!”,老战友称:只有两个字

莫地方
2026-04-10 10:26:25
2950枚导弹无一命中,霹雳-2的惨痛代价谁人知

2950枚导弹无一命中,霹雳-2的惨痛代价谁人知

起喜电影
2026-05-23 11:24:35
方腊仅有8员大将,为何却让梁山损失了70名好汉?原因很简单

方腊仅有8员大将,为何却让梁山损失了70名好汉?原因很简单

掠影后有感
2026-05-11 11:28:59
如果情况不变,2026年5月以后,全国60%家庭可能面临两大难题

如果情况不变,2026年5月以后,全国60%家庭可能面临两大难题

心理观察局
2026-05-04 08:51:21
卡塔尔媒体:霍尔木兹海峡将分阶段开放

卡塔尔媒体:霍尔木兹海峡将分阶段开放

澎湃新闻
2026-05-25 19:49:03
劝大家极限储蓄吧,从5月开始!

劝大家极限储蓄吧,从5月开始!

林中木白
2026-05-25 10:06:15
藏不住了!鹿晗深夜发文曝近况,恋情真相,其实关父早已提前暗示

藏不住了!鹿晗深夜发文曝近况,恋情真相,其实关父早已提前暗示

黔乡小姊妹
2026-05-24 08:37:58
中国股市:但凡出现“天量阴回踩”,坚决满仓,不是大涨就是连板

中国股市:但凡出现“天量阴回踩”,坚决满仓,不是大涨就是连板

股经纵横谈
2026-05-24 20:03:51
小学生“老干部风”穿搭火了,家长无奈吐槽:儿子周岁13,虚岁40

小学生“老干部风”穿搭火了,家长无奈吐槽:儿子周岁13,虚岁40

妍妍教育日记
2026-05-15 08:20:14
刷了 2 小时闲鱼,快被这群神人笑抽了

刷了 2 小时闲鱼,快被这群神人笑抽了

科技狐
2026-05-23 23:26:01
距世界杯仅18天!尼科·威廉斯又伤了,西班牙飞翼要缺席世界杯?

距世界杯仅18天!尼科·威廉斯又伤了,西班牙飞翼要缺席世界杯?

仰卧撑FTUer
2026-05-25 16:43:03
韩国媒体:中国在被美国制裁的绝境下,竟然在芯片技术上超过韩国

韩国媒体:中国在被美国制裁的绝境下,竟然在芯片技术上超过韩国

风雨与阳光
2026-03-29 05:48:33
有一种蹲叫“随便蹲”,万茜下蹲火爆全网,网友:我认输!

有一种蹲叫“随便蹲”,万茜下蹲火爆全网,网友:我认输!

健身迷
2026-04-14 10:38:40
特朗普长子海岛二婚,三兄妹到场父亲缺席

特朗普长子海岛二婚,三兄妹到场父亲缺席

生活观察员啊
2026-05-25 01:30:31
世排大变!国乒三项无缘榜首!张本智和紧追王楚钦、升至世界第二

世排大变!国乒三项无缘榜首!张本智和紧追王楚钦、升至世界第二

老觷系戏精北鼻
2026-05-26 01:06:14
原来她是黎家盈的姐姐,祖籍广东移居香港,主动替妹妹扛起上一代

原来她是黎家盈的姐姐,祖籍广东移居香港,主动替妹妹扛起上一代

阿凫爱吐槽
2026-05-25 10:54:40
人到中年,如果不差钱,建议多吃这8种食物,比保健品实在靠谱

人到中年,如果不差钱,建议多吃这8种食物,比保健品实在靠谱

美食店主
2026-05-23 00:13:27
2026-05-26 04:39:00
三易生活 incentive-icons
三易生活
关注科技领域,我们是一家有趣、有干货的科技媒体
64550文章数 12798关注度
往期回顾 全部

科技要闻

华为:没有先进光刻机也能造出高端芯片

头条要闻

伊朗媒体披露最高领袖就医情况

头条要闻

伊朗媒体披露最高领袖就医情况

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

李晨郑恺跑男停宣:12年元老被边缘化

财经要闻

起底煤矿“暗面”:假整改、假数据

汽车要闻

启境GT7定档5月29日预售 提供三电机版本

态度原创

亲子
家居
房产
本地
公开课

亲子要闻

2026年最疯的儿童节礼物!见过这玩具的,都没捂住钱包

家居要闻

生与命相依 旧公寓改造

房产要闻

工抵房骗局!134套房款入私账!海南这个盘,坑惨买房人!

本地新闻

用云锦的方式,打开江苏南京

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版