网易首页 > 网易号 > 正文 申请入驻

零一万物 Yi 大模型最新评测,英语能力仅次于 GPT-4

0
分享至

几番“交手”,全球大模型玩家迎来了令人兴奋的“实力值”排行榜更新。

继11月初零一万物发布性能优异的 Yi-34B 基座模型后,Yi-34B-Chat 微调模型在11月24日开源上线 ,再度获得全球开发者关注。

其中,斯坦福大学研发的大语言模型评测 AlpacaEval Leaderboard 备受瞩目。在实打实的“秀肌肉”比拼中,Yi-34B-Chat以94.08%的胜率,在 Alpaca 经认证的模型类别中,成为世界范围内仅次于GPT-4 英语能力的大语言模型,是经由Alpaca官方认证为数不多的开源模型。

AlpacaEval Leaderboard排行榜(发布于2023年12月7日)

同一周,在加州大学伯克利分校主导的LMSYS ORG排行榜中,Yi-34B-Chat也以1102的Elo评分,晋升最新开源SOTA开源模型之列,性能表现追平GPT-3.5。

在五花八门的大模型评测中,伯克利LMSYS ORG排行榜采用了一个最为接近用户体感的 “聊天机器人竞技场” 特殊测评模式,让众多大语言模型在评测平台随机进行一对一 battle,通过众筹真实用户来进行线上实时盲测和匿名投票,11月份经25000的真实用户投票总数计算了20个大模型的总得分。

Elo评分越高,说明模型在真实用户体验上的表现越出色,是众多大模型评测集中最能展现 “Moment of Truth 真实关键一刻” 的用户导向体验对决。在开源模型中,Yi-34B-Chat成为英语方面的“最强王者” 之一,LMSYS ORG 在12月8日官宣11月份总排行时评价:“Yi-34B-Chat 和 Tulu-2-DPO-70B 在开源界的进击表现已经追平 GPT-3.5”。

LMSYS ORG榜单(发布于2023年12月8日)

中文能力方面,Yi-34B-Chat 微调模型的表现也较为令人意外。根据11月底发布的《SuperCLUE中文大模型基准评测报告 2023》,11月下旬首度发布的 Yi-34B Chat在多项基准评测中的 “SuperCLUE 大模型对战胜率” 这项关键指标上,Yi-34B-Chat 取得31.82%的胜率,仅次于GPT4-Turbo。

中文SuperCLUE排行榜(发布于2023年11月28日)

Yi-34B-Chat 微调模型还为开发者提供了 4bit/8bit 量化版模型;Yi-34B-Chat 4bit 量化版模型可以直接在消费级显卡(如RTX3090)上使用。

关于 Yi-34B-Chat 模型在不同对话场景中的实力,以下有几个直观的问题演示:

【知识与生成】:Transformer 模型结构能不能走向 AGI ?

【创意文案】:给我生成一个小红书文案,给大家安利一只豆沙色的口红。

【中文理解】:小王给领导送了一份礼物后。领导说:“小王,你这是什么意思?”小王:“一点心意,意思意思。”领导:“你这就不够意思了。”小王:“小意思,小意思。”领导:“小王,你这人真有意思。”小王:“也没什么别的意思。”领导:“那我多不好意思。”小王:“是我不好意思。”这个意思到底是什么意思?

零一万物介绍,除了 Yi 系列基座的贡献以外,Yi-34B-Chat 模型的效果还得益于其人工智能对齐(AI Alignment)团队采用了一系列创新对齐策略。通过精心设计的指令微调流程,不仅强化了模型在理解和适应人类需求方面的能力,还使得模型与人类价值观对齐,包括帮助性(Helpful),可靠性(Honest),无害性(Harmless)等。

在强基座设定下,该团队采用了一种轻量化指令微调方案,该方案涵盖了单项能力提升和多项能力融合两个阶段。

其中,单项能力包括通用指令跟随、创意内容生成、数学、推理、编程、泛COT、对话交互等。通过大量的消融实验,针对模型单能力构建和多能力融合总结了独家认知经验。

在数据的量和质方面,一方面,团队在强基座模型上,实现仅需要少量数据(几条到几百条),就能激发模型特定单项能力;另一方面,数据质量比数量重要,少量高质量数据比大量低质量数据更好。通过关注超出模型能力的“低质量”数据,减少了模型“幻觉”。

在指令多样性与难度方面,团队通过在各能力项下构建任务体系,实现了训练数据中的指令均衡分布,大幅提升了模型泛化性。通过复合指令构造和指令难度进化,不仅提升了模型效果,也显著降低了对数据量的需求。

在风格一致性方面,团队发现训练数据的风格会影响模型收敛速度和能力上限的逼近程度,因此统一了回复风格,比如重点设计了CoT的回复风格,实现在轻量SFT情况下,避免了风格不一致加剧模型的“记忆”现象。

在多能力融合阶段,团队采用网格搜索的方法来决定数据配比和超参数的设置,通过基准测试和自建评测集的结果来指导搜索过程,成功实现模型的多能力融合。

Yi模型开源首月,在Hugging Face社区下载量为16.8万,魔搭社区下载量1.2万。在GitHub 获得超过4900个Stars。

此外,多名公司和机构推出了基于Yi模型基座的微调模型,比如猎豹旗下的猎户星空公司推出的OrionStar-Yi-34B-Chat模型,南方科技大学和粤港澳大湾区数字经济研究院(简称IDEA研究院)认知计算与自然语言研究中心(简称CCNL中心)联合发布的SUS-Chat-34B等,均性能表现优异。而AMD和Hugging Face合作的GPU加速大模型的实验中,也选择了Yi-6B作为范例项目。

模型地址:https://huggingface.co/01-ai/

更多内容,点击下方关注:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
武汉科技大学招聘薪资引争议,胡锡进发声:要给年轻人希望和尊严

武汉科技大学招聘薪资引争议,胡锡进发声:要给年轻人希望和尊严

嘿哥哥科技
2024-07-02 23:13:39
广东:女子站巷子里左顾右盼,路人询问缘由,女子:期待一场爱情

广东:女子站巷子里左顾右盼,路人询问缘由,女子:期待一场爱情

娱乐洞察点点
2024-07-02 15:34:33
偷偷变脸!突击卖课!沪上知名培训机构,“套路式”关门!近200家长陷“死循环”→

偷偷变脸!突击卖课!沪上知名培训机构,“套路式”关门!近200家长陷“死循环”→

新民晚报
2024-07-02 19:36:50
辅佐三巨头Shams:29岁控卫蒙特-莫里斯计划加盟太阳

辅佐三巨头Shams:29岁控卫蒙特-莫里斯计划加盟太阳

直播吧
2024-07-03 03:51:16
华为品牌与汽车商标强化隔离,旗下商标问界转让赛力斯

华为品牌与汽车商标强化隔离,旗下商标问界转让赛力斯

南方都市报
2024-07-03 00:01:07
新疆天山多次出现“红柳娃”?身高不足一尺,喜欢偷路人的东西!

新疆天山多次出现“红柳娃”?身高不足一尺,喜欢偷路人的东西!

附允历史观
2024-07-01 18:16:17
汪小菲一家日本团聚,玥儿正脸如同复刻大s,孩子衣着廉价惹争议

汪小菲一家日本团聚,玥儿正脸如同复刻大s,孩子衣着廉价惹争议

鑫鑫说说
2024-07-02 15:10:04
上海这一夜,众女星争奇斗艳,都输给了戴老花镜、头发凌乱的周迅

上海这一夜,众女星争奇斗艳,都输给了戴老花镜、头发凌乱的周迅

贾文彬的史书
2024-06-30 17:34:57
咱们开始要对富人征税了?

咱们开始要对富人征税了?

物联网圈
2024-07-02 15:29:53
大师王林为一线女明星“开光”,全程不穿衣服用酒画符,现场炸裂

大师王林为一线女明星“开光”,全程不穿衣服用酒画符,现场炸裂

吴学华看天下
2023-09-06 13:45:37
他们到底在怕什么

他们到底在怕什么

牛弹琴
2024-07-02 07:05:32
黄一鸣成功了!发声称王思聪已承认是孩子的爸爸,王健林会很开心

黄一鸣成功了!发声称王思聪已承认是孩子的爸爸,王健林会很开心

娱乐团长
2024-06-30 20:44:23
卖了7.9个亿又如何?沦落到直播,35岁的杨颖踏上了不归路

卖了7.9个亿又如何?沦落到直播,35岁的杨颖踏上了不归路

娱乐皮皮酱
2024-07-01 23:57:34
为何朝鲜要淡化中国帮助,又为何疏远中国?背后原因充满无奈心酸

为何朝鲜要淡化中国帮助,又为何疏远中国?背后原因充满无奈心酸

回京历史梦
2024-06-28 15:56:08
正式执行!深圳人最关心的8件事定了!

正式执行!深圳人最关心的8件事定了!

深圳本地宝
2024-07-02 22:06:57
狂砸1.82亿美元!西部第一疯狂出手:连签3人,最弱一环成功补强

狂砸1.82亿美元!西部第一疯狂出手:连签3人,最弱一环成功补强

体坛小李
2024-07-02 08:02:39
俄国防部高官叛逃?细思极恐的3点思考

俄国防部高官叛逃?细思极恐的3点思考

深度知局
2024-07-01 18:58:57
本以为是烂剧,开播拿下评分8.7,徐璐又把古装剧拍成了爆款

本以为是烂剧,开播拿下评分8.7,徐璐又把古装剧拍成了爆款

崽下愚乐圈
2024-07-02 17:18:16
网贷逾期后,没人催收,也未被起诉?真正的原因是什么

网贷逾期后,没人催收,也未被起诉?真正的原因是什么

冒泡泡的鱼儿
2024-06-02 10:13:13
上海2024年养老金方案出炉,达龄标准是120吗?工龄30年,涨多少

上海2024年养老金方案出炉,达龄标准是120吗?工龄30年,涨多少

小强财艺
2024-07-02 18:47:28
2024-07-03 06:46:44
AI科技评论
AI科技评论
点评学术,服务AI
6532文章数 20582关注度
往期回顾 全部

科技要闻

旧车比新车贵,比亚迪断了二手车贩子活路

头条要闻

欧洲杯-中卫双响土耳其2-1奥地利 进8强将战荷兰

头条要闻

欧洲杯-中卫双响土耳其2-1奥地利 进8强将战荷兰

体育要闻

世界第二打第三,成了一场英格兰模仿秀

娱乐要闻

未火先塌?流量的路子不好走啊

财经要闻

张军:房地产是经济收缩的受害者而非原因

汽车要闻

18.96万 奕派eπ007 540纯电四驱Pro上市

态度原创

健康
房产
家居
教育
本地

人类为何至今无法攻克渐冻症?

房产要闻

6月上海楼市“强劲反弹”,二手房交易量破2.6万套

家居要闻

江畔雅居 石质与木色的现代风

教育要闻

【教育聚焦】初中地理试卷出现多个涉华为题目,为什么说接触人性最暗面的职业是老师?

本地新闻

冷知识:东北雪糕才是最早的网红雪糕

无障碍浏览 进入关怀版