网易首页 > 网易号 > 正文 申请入驻

我们做了一个大模型测试集「Z-Bench」,300个问题全方位考察大语言模型能力

0
分享至

自 ChatGPT 发布以来,我们经常会在使用它时发出惊叹:“啊,这个居然它也能答出来!”与此同时,我们也欣喜地看到,越来越多的大模型团队和产品如雨后春笋般出现。

作为早期投资人,我们经常需要试用和评估新发布的对话式 AI 产品,其中比较常用的方式是通过一些 Prompts,将它们与标志性的 ChatGPT 的输出结果进行直观的横向对比。在这个过程中,我们逐渐记录了一些大语言模型现在还无法处理得很好的问题,以及很多有意思的 Prompts。

那么,我们在用哪些 Prompts 进行测试呢?

OpenAI 已经在官网展示了 ChatGPT 的 48 个基本能力, 在 NLP 领域,也有 SuperGLUE、MMLU、Google BIG-bench 等被广泛使用的测试集。 同时,鉴于随着参数和数据规模增大,大模型会涌现出新能力, 与这些新能力相关的测试集也在不断增加。

但是,通过实践,我们发现当前的 NLP 任务测试集存在以下问题:

1. 有些任务不一定适合对话式系统,也有些任务不一定有好的中文版本;

2. 随着这些测试集成为行业标准,可能也会出现定向优化和过拟合的情况;

3. 这些测试集往往需要部署自动化测试,也不适合非专业人员进行日常问答使用。

因此,我们几个 VC 麻瓜,作为对话式 AI 的重度用户,从自身需求出发,设计并整理出了「Z-Bench」——一个为非技术人员定性测试大模型对话式产品(类 ChatGPT 产品)准备的测试集,希望和大家分享。

「Z-Bench v0.9」从基础能力、进阶能力、垂直能力 3 个角度出发,共提供了 300 个 Prompts,我们的出发点是尽量覆盖更多类型的 NLP 任务。我们的目标并不是提供一个学术上非常严谨完整的测试集,而是希望通过结合学术上已有的测试集、日常搜集的一些有意思的案例,以及大模型出现之后学术界发现的涌现和顿悟能力,提供一个适合非技术专业人士使用的大模型能力测试集。但是,我们难免会漏掉一些场景,或是出现很多专业角度看比较业余的内容,未来,我们会不断根据搜集到的反馈去补充完善,并且及时予以公布。

扫描二维码查看「Z-Bench」

Github地址

https://github.com/zhenbench/zhenbench

GPT-4 发布后,我们第一时间用一些 ChatGPT GPT-3.5 版本回答欠佳的 Prompts 进行了测试,发现整体能力的提升还是很明显的,主要可以总结为以下几点:

1. 基础能力的进一步提升,在面对常识、事实问答、基础数学与逻辑问题时,我们已然明显感受到了 GPT-4 的进步,从更实用的角度看,例如代码生成能力,其进步程度也着实令人赞叹,譬如,拿到 GPT-4 的第一刻,我们便用一行自然语言提示词,用 Golang 写出了一个可玩的俄罗斯方块游戏,下一刻,又用三行提示词用 JavaScript 写出了一个难度还蛮高的 Falppy Bird,代码分享如下,欢迎大家一起评价试玩:

Go 版俄罗斯方块:

https://pastebin.com/raw/HbMBnrC8

JS 版 Flappy Bird:

https://pastebin.com/raw/mBxXwmnF

2.权责申明更加清晰,在面对涉及法律、医疗、心理咨询等专业度要求更高的问题时,即便是事实陈述,GPT-4 也更倾向于事先申明自己非某领域专家,答案仅供参考;

3.逻辑推理能力更强,在回答复杂逻辑,尤其是思维链问题时,GPT-4 版加强了「分步骤回答」这一预设,基本免去了添加诸如 Let’s think step by step 这样的「万能提示词」的必要,而回答也更多以「首先……其次…...最后……所以……」这样的递进句式呈现,这样做的直接成果便是推理能力大大提升,在 one shot 的测试中,GPT-4 的正确率约为 GPT-3.5 的 1.5 倍;

4.语言理解能力的进一步提升,GPT-4 对于提示句中的用词拆解更加细致,解读更加详细,例如在面对古诗词解读问题时,GPT-3.5 倾向于整体或整句解读,而 GPT-4 则细化至每半句的理解与输出——这是一把双刃剑——正面来看这对模型语言理解力的提升大有帮助,但负面效果则是 GPT-4 更容易把简单问题复杂化,有时会导向更加一本正经地胡说八道,一个直观的例子,在解答「鸡兔同笼」时,基于对「脚」的理解,GPT-4 会自动将题干中的脚的数量乘以 2。

让我们用几个回答示例来直观感受一下,以下回答截图中,黑色图标的是使用 GPT-4 的 ChatGPT,绿色图标的是使用 GPT-3.5 的 ChatGPT。

常识问题

首先,让我们来问一个 ChatGPT 3.5 版本和我们测试的其他大语言模型都回答错误的常识问题:

图形理解问题

然后是一个图形理解问题,GPT-4 正确理解了端点闭合的图形是一个三角形而非四边形:

中文问题

中文问题上,GPT-4 能力也很强,这是一个示例:

False Belief问题

从人类心理学的角度出发,经典的 False Belief 问题,GPT-4 也答对了:

思维链和复杂逻辑推理问题

面对思维链(Chain of Thought, CoT)和复杂逻辑推理能力,GPT-4「步步为营」,能力大幅提升:

答错的问题

当然,正如总结中所说,GPT-4 并不是全能的,抛开依旧是短板的 AI 生成内容检测不说,它仍然会答错很多问题。以下是一些 GPT-4 表现没有 GPT-3.5 好的例子:

简单问题复杂化

以及一个简单问题复杂化的 GPT-4:

极力自保

还有,这是一个极力保障自己安全的 GPT-4:

GPT-4 vs GPT-3.5 vs 文心一言

我们对能体验到的国产大模型创业公司产品也进行了测试,坦率来说,和 ChatGPT 还是有不小的差距,具体结果目前没有放出,我们也非常期待看到国产大模型产品的快速迭代进步。

今天下午,我们也对百度刚刚发出的「文心一言」进行了测试,测试的全部结果可以在腾讯文档中查看,我们挑了一些有趣的结果,和大家分享。

由于测试集还在不断更新完善中,近期我们会持续分享相关内容,希望可以给你带来一些启发。欢迎在评论区留言,与我们交流,如果以上内容有不妥之处,也欢迎大家进行指正。

扫描二维码查看「Z-Bench」

更多被投新闻

| 曦智科技 | |

| | | 赛舵智能

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
本月开始中国或将迎来4大涨价潮:除油价以外,这4类也要涨价了

本月开始中国或将迎来4大涨价潮:除油价以外,这4类也要涨价了

混沌录
2026-03-28 15:49:05
两艘中远海运集装箱船尝试穿越霍尔木兹海峡后折返

两艘中远海运集装箱船尝试穿越霍尔木兹海峡后折返

Nee看
2026-03-28 12:56:41
中办、国办再次下发铁令,给国企领导们定了新规矩!

中办、国办再次下发铁令,给国企领导们定了新规矩!

细说职场
2026-03-28 10:10:10
中东危机只是小菜?更大危机还在后面,外媒:中国将彻底颠覆战场

中东危机只是小菜?更大危机还在后面,外媒:中国将彻底颠覆战场

安珈使者啊
2026-03-28 11:39:05
字节跳动发布2026年首份纪律通报:65名员工触碰纪律红线被辞退,其中7人因涉嫌刑事犯罪被移交司法机关处理

字节跳动发布2026年首份纪律通报:65名员工触碰纪律红线被辞退,其中7人因涉嫌刑事犯罪被移交司法机关处理

每日经济新闻
2026-03-27 20:24:41
深圳龙华文体中心游泳馆的负责人可能也挺闹心的吧

深圳龙华文体中心游泳馆的负责人可能也挺闹心的吧

岁月有情1314
2026-03-28 17:21:10
穆帅放弃下赛季重返英超,执教纽卡,已本菲卡达成协议,继续执教

穆帅放弃下赛季重返英超,执教纽卡,已本菲卡达成协议,继续执教

福酱的小时光
2026-03-28 21:57:23
陈妍希生图胖出神图!裙子被撑到崩线,手臂大腿都是肉走路很爷们

陈妍希生图胖出神图!裙子被撑到崩线,手臂大腿都是肉走路很爷们

妙知
2026-03-28 10:09:16
关辛回应焦泊乔离队之事!

关辛回应焦泊乔离队之事!

体育哲人
2026-03-28 18:06:26
人民网征集给AI取中文名,评论区“硅头”遥遥领先

人民网征集给AI取中文名,评论区“硅头”遥遥领先

正版徐叫兽
2026-03-26 14:48:45
英国首相回击美国的伊朗战争施压:绝不屈服

英国首相回击美国的伊朗战争施压:绝不屈服

大象新闻
2026-03-28 19:01:04
李现晒图直呼 “快折磨死我了”!不少人已中招

李现晒图直呼 “快折磨死我了”!不少人已中招

日照日报
2026-03-28 20:46:57
今日最佳:杀敌一千,自刎归天。

今日最佳:杀敌一千,自刎归天。

差评XPIN
2026-03-28 00:05:39
1725年,14岁的乾隆被安排第一个试婚宫女,侍寝后让他终生难忘

1725年,14岁的乾隆被安排第一个试婚宫女,侍寝后让他终生难忘

掠影后有感
2026-03-28 10:18:18
中央电视台对张雪峰的评价

中央电视台对张雪峰的评价

冷桂零落
2026-03-26 07:01:16
阿根廷友谊赛半场变脸,梅西上场后全队灾难级表现

阿根廷友谊赛半场变脸,梅西上场后全队灾难级表现

体坛周报
2026-03-28 11:57:18
厉害了我的国!终于开始战略反攻了!

厉害了我的国!终于开始战略反攻了!

达文西看世界
2026-03-28 12:01:24
意外强援!乌干达总司令放话:以色列要是输了,我们直接出兵!

意外强援!乌干达总司令放话:以色列要是输了,我们直接出兵!

咣当地球
2026-03-28 22:15:48
员工曝张雪峰公司现状!群龙无首,家长学生怕卷钱跑路,好友停工

员工曝张雪峰公司现状!群龙无首,家长学生怕卷钱跑路,好友停工

青橘罐头
2026-03-28 07:31:42
“斩首术”应该获诺贝尔奖?如此“让领导先走”,真是伟大创造吗

“斩首术”应该获诺贝尔奖?如此“让领导先走”,真是伟大创造吗

瑜说还休
2026-03-27 17:31:33
2026-03-29 01:16:49
真格基金 incentive-icons
真格基金
创业,来真格的。
1530文章数 3653关注度
往期回顾 全部

科技要闻

华为盘古大模型负责人王云鹤确认离职

头条要闻

美媒:和欧盟"外长"发生激烈交锋 鲁比奥"显然很恼火"

头条要闻

美媒:和欧盟"外长"发生激烈交锋 鲁比奥"显然很恼火"

体育要闻

“我是全家最差劲的运动员”

娱乐要闻

陈牧驰陈冰官宣得子 晒一家三口握拳照

财经要闻

卧底"科技与狠活"培训:化工调味剂泛滥

汽车要闻

置换补贴价4.28万起 第五代宏光MINIEV正式上市

态度原创

数码
亲子
本地
健康
公开课

数码要闻

好用的男士剃须刀哪个牌子好?综合表现出众的十大剃须刀排名甄选

亲子要闻

小孩子能口无遮拦到什么程度!网友:恨不得当场找个地缝钻进去

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

干细胞抗衰4大误区,90%的人都中招

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版