网易首页 > 网易号 > 正文 申请入驻

豆包大模型披露评测成绩,较上一代“云雀”提升19%

0
分享至

近日,豆包大模型在火山引擎原动力大会上正式发布。以超低价格掀起大模型降价潮的同时,豆包的模型能力也引发行业关注。

在火山引擎的一份产品资料中,豆包模型团队公布了一期内部测试结果:在MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,Doubao-pro-4k的总分为76.8分,相比上一代模型云雀Skylark2的64.5分提升了19%,也优于同期测试的其他国产模型。

此次评测在今年5月完成,主要包括豆包通用模型-pro、云雀Skylark2在内的九款国产大语言模型。除了云雀Skylark2以外,其他模型均为各家厂商最新发布的高级版本,通过API调用进行测试。

图:豆包模型团队内部测试结果

评测结果显示,在评估代码能力的两个评测集HumanEval和MBPP上,豆包相比上一代模型提升了50%左右;在专业知识和指令遵循的评测集上,豆包分别获得33%和24%的性能提升,同时也是得分最高的国产模型。

此外,豆包模型在数学能力、语言理解能力,以及综合评测集CMMLU和CEval的评测上也有不错的表现,得分排在前三。综合11个公开评测集上的测试成绩,豆包通用模型-pro的总分为76.8分。根据OpenAI公布的测试成绩,GPT-4在这些评测集上的总分为80.1分,相比国产模型仍有一定领先优势。

据悉,豆包模型在5月15日刚刚推出,尚未加入到第三方机构测试中。预计未来一到两个月内,很多第三方评测机构将会陆续披露该模型的评测结果。与模型同名的AI对话助手“豆包”,官方公布的月活用户数已经达到2600万,用户可以自由体验测试。

此前,智源研究院公布了覆盖全球91个语言模型的评测报告。在偏重考察中文能力的主观评测中,云雀Skylark2排名第一,中文能力超过GPT-4。

图:智源研究院语言模型评测结果(模型为4月20日之前的版本)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/

京东物流重磅发布!211仓配升级打造极致供应链体验

返回网易首页 下载网易新闻客户端
相关推荐
热点推荐
张本美和苦战32回合,黄牌警告下艰难获胜。

张本美和苦战32回合,黄牌警告下艰难获胜。

大嘴说台球
2025-05-18 20:21:29
男生18cm有啥坏处?妹子现场演示长短对比太生动,看完动图秒懂哈哈

男生18cm有啥坏处?妹子现场演示长短对比太生动,看完动图秒懂哈哈

经典段子
2025-04-14 23:34:48
黄杨钿甜全家要跑路?看到一墙奢侈品,终于有人向中央巡视组举报

黄杨钿甜全家要跑路?看到一墙奢侈品,终于有人向中央巡视组举报

青青子衿
2025-05-18 01:24:54
大众一代燃油“战神”回归!重磅颜值与动力

大众一代燃油“战神”回归!重磅颜值与动力

米粒说车唯一呀
2025-05-18 20:49:43
男子入住丽思卡尔顿酒店55层套房,夜里竟发现窗外无人机贴着玻璃飞

男子入住丽思卡尔顿酒店55层套房,夜里竟发现窗外无人机贴着玻璃飞

扬子晚报
2025-05-17 17:47:58
纪委又通报6名干部被查处,还有一个大老虎和一名女干部!

纪委又通报6名干部被查处,还有一个大老虎和一名女干部!

俯瞰江苏
2025-05-18 07:56:55
大S去世后,才发现一个可怕的真相:她是娘家的天使,婚姻中的巨婴

大S去世后,才发现一个可怕的真相:她是娘家的天使,婚姻中的巨婴

可乐谈情感
2025-05-18 17:30:59
10人排队9人托,央媒为民除害,怒揭大锅卤菜骗局,结局大快人心

10人排队9人托,央媒为民除害,怒揭大锅卤菜骗局,结局大快人心

博学老K杂谈
2025-04-11 18:35:03
萨拉赫:利物浦有德布劳内的位置,但芬威不喜欢30岁以上球员

萨拉赫:利物浦有德布劳内的位置,但芬威不喜欢30岁以上球员

懂球帝
2025-05-18 00:24:04
百年困局:藏南问题死结与破局,中国亮出 “南海模式” 致命杀招?

百年困局:藏南问题死结与破局,中国亮出 “南海模式” 致命杀招?

软测试验田
2025-05-16 19:40:15
自立门户,成为相声界一支流!杨议背刺侯耀华,知情人曝更多内幕

自立门户,成为相声界一支流!杨议背刺侯耀华,知情人曝更多内幕

天天热点见闻
2025-05-18 16:10:17
身材丰满的中年女性穿搭分享

身材丰满的中年女性穿搭分享

美女穿搭分享
2025-05-18 18:37:42
触目惊心的数字哈兰德加盟曼城3年夺6冠 8场决赛0球0助4冠4亚

触目惊心的数字哈兰德加盟曼城3年夺6冠 8场决赛0球0助4冠4亚

直播吧
2025-05-18 11:55:23
俄罗斯,秋后算账开始了!

俄罗斯,秋后算账开始了!

大嘴说天下
2025-05-15 22:44:28
AI替代程序员,真的来了!知名大厂10多名工程师一起被裁,一位AI部门主管也在列!公司披露:20%多的代码已由AI生成

AI替代程序员,真的来了!知名大厂10多名工程师一起被裁,一位AI部门主管也在列!公司披露:20%多的代码已由AI生成

每日经济新闻
2025-05-18 15:29:33
全国哪的酱油最好吃?经评选,这5种酱油榜上有名,你吃过几种?

全国哪的酱油最好吃?经评选,这5种酱油榜上有名,你吃过几种?

美食考察员
2025-05-18 11:26:53
美媒爆湖人3方交易方案,嘴哥+天赋中锋辅佐詹姆斯,莫兰特去热火

美媒爆湖人3方交易方案,嘴哥+天赋中锋辅佐詹姆斯,莫兰特去热火

毒舌NBA
2025-05-18 08:49:17
王楚钦回应决战雨果!同情美国0-10让了一分,陈梦因生理期上热搜

王楚钦回应决战雨果!同情美国0-10让了一分,陈梦因生理期上热搜

三十年莱斯特城球迷
2025-05-18 17:53:14
斯诺克弃将揽500万大奖、泪洒现场,比赵心童世锦赛还多!

斯诺克弃将揽500万大奖、泪洒现场,比赵心童世锦赛还多!

带你逛体坛
2025-05-18 21:07:35
麻省理工学院不再支持学生的人工智能研究论文

麻省理工学院不再支持学生的人工智能研究论文

cnBeta.COM
2025-05-18 01:16:23
2025-05-18 21:44:49
产业家
产业家
产业互联网第一媒体
861文章数 1323关注度
往期回顾 全部

科技要闻

小米“剧透”,雷军将有重大发布

头条要闻

俄乌首谈后 俄罗斯对乌克兰发动"最猛烈的无人机袭击"

体育要闻

IFFHS评历史最佳TOP10:梅西第一

娱乐要闻

汪小菲官宣二婚喜讯,深情人设崩塌

财经要闻

潘功胜、李云泽、吴清等,最新发声!

汽车要闻

小米汽车回应前保险杠变形 免费取送车和修复

态度原创

家居
亲子
手机
公开课
军事航空

家居要闻

温馨暖调 现代极简空间

亲子要闻

3岁宝宝真愿意去上学,嗓子都不得劲了,还吵吵非要去上学

手机要闻

荣耀400系列续航被确认:标配7200mAh电池,硬件规格也基本敲定

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

声援巴勒斯坦 欧洲多国民众集会游行