网易首页 > 网易号 > 正文 申请入驻

通义千问开源数学模型Qwen2-Math,数学能力超越GPT-4o

0
分享至

8月9日消息,阿里通义团队开源新一代数学模型Qwen2-Math,包含1.5B、7B、72B三个参数的基础模型和指令微调模型。Qwen2-Math基于通义千问开源大语言模型Qwen2研发,旗舰模型 Qwen2-Math-72B-Instruct在权威测评集MATH上的得分超越GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro、Llama-3.1-405B等,以84%的准确率处理了代数、几何、计数与概率、数论等多种数学问题,成为最先进的数学专项模型。


注:在MATH基准测评中,通义千问数学模型的旗舰款Qwen2-Math-72B-Instruct取得了84%的准确率,超过GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro 和 Llama-3.1-405B等开闭源模型。

Qwen2-Math 基础模型使用 Qwen2大语言模型进行初始化,并在精心设计的数学专用语料库上进行预训练,训练数据包含大规模高质量的数学网络文本、书籍、代码、考试题目,以及由 Qwen2 模型合成的数学预训练数据。所有预训练和微调数据集都进行了去污染处理。

随后,研发团队训练了指令微调版本模型:首先,基于Qwen2-Math-72B 训练一个数学专用的奖励模型;接着,将密集的奖励信号与指示模型是否正确回答问题的二元信号结合,用作学习标签,再通过拒绝采样构建监督微调(SFT)数据;最后在SFT模型基础上使用 GRPO 方法优化模型。

据悉,Qwen2-Math系列模型目前主要支持英文,通义团队很快就将推出中英双语版本,多语言版本也在开发中。

通义团队在多个中英文数学基准测评集对指令微调模型作了性能评估,除了 GSM8K 和 MATH等常见的测评基准 ,还引入了更具挑战性的考试竞赛类测试,如奥林匹克级别的基准测评OlympiadBench、大学数学级别的基准测评CollegeMath、高考(GaoKao)、美国数学邀请赛(AIME)2024 赛题、美国数学竞赛( AMC)2023赛题,中文测评则有CMATH测评集、2024年中国高考和中考数学题。最终,Qwen2-Math-72B-Instruct表现优异,在十大测评中都获得了远超其他开源数学模型的成绩。


注:研发团队在greedy和RM@8 的条件下对模型作了测评,表中为每款Qwen2-Math-72B-Instruct模型列出了三个得分结果,分别是第1次回答得分(无下标数字)、8次回答中出现最多次数的答案的得分,8次回答中reward model所选答案的得分。

“大模型能不能做数学题”,不仅是社交平台的热门话题,也是业界非常关注的研究课题。处理高级数学问题,需要模型具备复杂多步逻辑推理能力。通义团队在技术博客中表示,希望通过开源“为科学界解决高级数学问题做出贡献”,未来将持续增强模型数学能力。

附:Qwen2-Math解题示例


雷峰网

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
土耳其全国疯狂欢呼!美国气得暴跳如雷,歼-35A亮相引发全球关注

土耳其全国疯狂欢呼!美国气得暴跳如雷,歼-35A亮相引发全球关注

时时有聊
2024-11-12 09:17:22
金鸡奖颁奖:赵丽颖未获奖表情落寞,王骁拿奖追忆亡父太催泪!

金鸡奖颁奖:赵丽颖未获奖表情落寞,王骁拿奖追忆亡父太催泪!

古希腊掌管月桂的神
2024-11-16 20:43:39
宜兴!宜兴!!

宜兴!宜兴!!

基本常识
2024-11-16 23:57:07
太意外!网传淄博一自助餐厅刚开业就跑路了,涉案高达6000万…

太意外!网传淄博一自助餐厅刚开业就跑路了,涉案高达6000万…

火山诗话
2024-11-16 20:47:53
金鸡奖两大不公平,雷佳音胜之不武,李庚希获奖时有人高喊黑幕

金鸡奖两大不公平,雷佳音胜之不武,李庚希获奖时有人高喊黑幕

光影新天地
2024-11-17 00:16:29
87岁美籍古巴老人找到中国失散近百年的亲人后代:相约明年中国见

87岁美籍古巴老人找到中国失散近百年的亲人后代:相约明年中国见

红星新闻
2024-11-15 16:11:22
太诡异了!中国女老板在日本被抓,网友:不敢娶日本的留学生了!

太诡异了!中国女老板在日本被抓,网友:不敢娶日本的留学生了!

青青子衿
2024-11-16 20:41:45
U19国足两战不败!队史第二次,109秒闪击,末战冲击熊猫杯

U19国足两战不败!队史第二次,109秒闪击,末战冲击熊猫杯

奥拜尔
2024-11-16 21:30:58
金鸡奖台下全是戏:王一博落败秒变脸,陈凯歌握手跳过刘德华

金鸡奖台下全是戏:王一博落败秒变脸,陈凯歌握手跳过刘德华

光影新天地
2024-11-17 00:23:21
你断我芯片,我卡你脖子!中国终于出手了,反制手段快准狠!

你断我芯片,我卡你脖子!中国终于出手了,反制手段快准狠!

影孖看世界
2024-11-16 23:29:10
58岁泰森单场收入曝光 进账2000万美元 对手承认放水了

58岁泰森单场收入曝光 进账2000万美元 对手承认放水了

厝边人侃体育
2024-11-16 21:15:48
中学生上台吐槽被带离后续:安娜草堂真容浮现,宿舍照片曝光

中学生上台吐槽被带离后续:安娜草堂真容浮现,宿舍照片曝光

奇思妙想草叶君
2024-11-16 23:36:39
真勇士!28个跌停退市,股民刘某抄底412万股,再16个跌停一锅焖

真勇士!28个跌停退市,股民刘某抄底412万股,再16个跌停一锅焖

芯怡飞
2024-11-17 00:00:52
众观局|内阁新班底初见雏形,这次特朗普又破了美国纪录

众观局|内阁新班底初见雏形,这次特朗普又破了美国纪录

大众日报
2024-11-16 18:30:14
86分钟绝杀!1-0大冷门,世界第51掀翻世界第12,一夜升至第3

86分钟绝杀!1-0大冷门,世界第51掀翻世界第12,一夜升至第3

侧身凌空斩
2024-11-16 06:52:51
震惊!马斯克曝光最蠢支出排行榜:3320万美元投入跨性别猴子研究

震惊!马斯克曝光最蠢支出排行榜:3320万美元投入跨性别猴子研究

魏家东
2024-11-16 08:16:17
台积电股价暴跌!大陆政策发力,郭智辉:禁止海外生产2nm芯片!

台积电股价暴跌!大陆政策发力,郭智辉:禁止海外生产2nm芯片!

青青子衿
2024-11-16 19:48:00
八连胜!雷迪克引爆联盟,湖人赢麻了,皮尔斯表态,3200万太值了

八连胜!雷迪克引爆联盟,湖人赢麻了,皮尔斯表态,3200万太值了

体育大朋说
2024-11-17 02:05:02
每一个中国共产党员都应该支持转基因!党中央的重大决策!

每一个中国共产党员都应该支持转基因!党中央的重大决策!

怀疑探索者
2024-11-16 00:40:22
郑钦文和奥迪签了个史上最贵的网球代言合同,一亿美元

郑钦文和奥迪签了个史上最贵的网球代言合同,一亿美元

玲子日记
2024-11-16 23:16:38
2024-11-17 07:14:44
雷峰网
雷峰网
关注智能与未来!
65240文章数 655414关注度
往期回顾 全部

科技要闻

杨植麟:每月有3600万用户在使用kimi

头条要闻

江苏高校持刀伤人事件致8死17伤 嫌疑犯被当场抓获

头条要闻

江苏高校持刀伤人事件致8死17伤 嫌疑犯被当场抓获

体育要闻

双手沾满鲜血的童年,塑造了NBA最拼命的球员

娱乐要闻

金鸡奖:赵丽颖未获奖,王骁拿奖

财经要闻

中铁七局致歉!对5人就地免职

汽车要闻

越野拉满 东风猛士917高地雄狮售69.9万元

态度原创

时尚
艺术
本地
旅游
教育

时尚女性秋季穿衣从不发愁,试试这27套穿搭,每周穿搭不重复

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

本地新闻

重庆记忆|山城特色“过山车”上天入地穿花海

旅游要闻

山东日照迎首批免签入境韩国旅客

教育要闻

孩子考后最需要什么?家长的这3种支持至关重要,第3种常被忽视

无障碍浏览 进入关怀版