我们做了一个大模型测试集「Z-Bench」，300个问题全方位考察大语言模型能力|示例|对话式|逻辑推理|bench

我们做了一个大模型测试集「Z-Bench」，300个问题全方位考察大语言模型能力

2023-03-17 21:25:04　来源: 真格基金

北京举报

分享至

自 ChatGPT 发布以来，我们经常会在使用它时发出惊叹：“啊，这个居然它也能答出来！”与此同时，我们也欣喜地看到，越来越多的大模型团队和产品如雨后春笋般出现。

作为早期投资人，我们经常需要试用和评估新发布的对话式 AI 产品，其中比较常用的方式是通过一些 Prompts，将它们与标志性的 ChatGPT 的输出结果进行直观的横向对比。在这个过程中，我们逐渐记录了一些大语言模型现在还无法处理得很好的问题，以及很多有意思的 Prompts。

那么，我们在用哪些 Prompts 进行测试呢？

OpenAI 已经在官网展示了 ChatGPT 的 48 个基本能力，在 NLP 领域，也有 SuperGLUE、MMLU、Google BIG-bench 等被广泛使用的测试集。同时，鉴于随着参数和数据规模增大，大模型会涌现出新能力，与这些新能力相关的测试集也在不断增加。

但是，通过实践，我们发现当前的 NLP 任务测试集存在以下问题：

1. 有些任务不一定适合对话式系统，也有些任务不一定有好的中文版本；

2. 随着这些测试集成为行业标准，可能也会出现定向优化和过拟合的情况；

3. 这些测试集往往需要部署自动化测试，也不适合非专业人员进行日常问答使用。

因此，我们几个 VC 麻瓜，作为对话式 AI 的重度用户，从自身需求出发，设计并整理出了「Z-Bench」——一个为非技术人员定性测试大模型对话式产品（类 ChatGPT 产品）准备的测试集，希望和大家分享。

「Z-Bench v0.9」从基础能力、进阶能力、垂直能力 3 个角度出发，共提供了 300 个 Prompts，我们的出发点是尽量覆盖更多类型的 NLP 任务。我们的目标并不是提供一个学术上非常严谨完整的测试集，而是希望通过结合学术上已有的测试集、日常搜集的一些有意思的案例，以及大模型出现之后学术界发现的涌现和顿悟能力，提供一个适合非技术专业人士使用的大模型能力测试集。但是，我们难免会漏掉一些场景，或是出现很多专业角度看比较业余的内容，未来，我们会不断根据搜集到的反馈去补充完善，并且及时予以公布。

扫描二维码查看「Z-Bench」

Github地址

https://github.com/zhenbench/zhenbench

GPT-4 发布后，我们第一时间用一些 ChatGPT GPT-3.5 版本回答欠佳的 Prompts 进行了测试，发现整体能力的提升还是很明显的，主要可以总结为以下几点：

1. 基础能力的进一步提升，在面对常识、事实问答、基础数学与逻辑问题时，我们已然明显感受到了 GPT-4 的进步，从更实用的角度看，例如代码生成能力，其进步程度也着实令人赞叹，譬如，拿到 GPT-4 的第一刻，我们便用一行自然语言提示词，用 Golang 写出了一个可玩的俄罗斯方块游戏，下一刻，又用三行提示词用 JavaScript 写出了一个难度还蛮高的 Falppy Bird，代码分享如下，欢迎大家一起评价试玩：

Go 版俄罗斯方块：

https://pastebin.com/raw/HbMBnrC8

JS 版 Flappy Bird：

https://pastebin.com/raw/mBxXwmnF

2.权责申明更加清晰，在面对涉及法律、医疗、心理咨询等专业度要求更高的问题时，即便是事实陈述，GPT-4 也更倾向于事先申明自己非某领域专家，答案仅供参考；

3.逻辑推理能力更强，在回答复杂逻辑，尤其是思维链问题时，GPT-4 版加强了「分步骤回答」这一预设，基本免去了添加诸如 Let’s think step by step 这样的「万能提示词」的必要，而回答也更多以「首先……其次…...最后……所以……」这样的递进句式呈现，这样做的直接成果便是推理能力大大提升，在 one shot 的测试中，GPT-4 的正确率约为 GPT-3.5 的 1.5 倍；

4.语言理解能力的进一步提升，GPT-4 对于提示句中的用词拆解更加细致，解读更加详细，例如在面对古诗词解读问题时，GPT-3.5 倾向于整体或整句解读，而 GPT-4 则细化至每半句的理解与输出——这是一把双刃剑——正面来看这对模型语言理解力的提升大有帮助，但负面效果则是 GPT-4 更容易把简单问题复杂化，有时会导向更加一本正经地胡说八道，一个直观的例子，在解答「鸡兔同笼」时，基于对「脚」的理解，GPT-4 会自动将题干中的脚的数量乘以 2。

让我们用几个回答示例来直观感受一下，以下回答截图中，黑色图标的是使用 GPT-4 的 ChatGPT，绿色图标的是使用 GPT-3.5 的 ChatGPT。

常识问题

首先，让我们来问一个 ChatGPT 3.5 版本和我们测试的其他大语言模型都回答错误的常识问题：

图形理解问题

然后是一个图形理解问题，GPT-4 正确理解了端点闭合的图形是一个三角形而非四边形：

中文问题

中文问题上，GPT-4 能力也很强，这是一个示例：

False Belief问题

从人类心理学的角度出发，经典的 False Belief 问题，GPT-4 也答对了：

思维链和复杂逻辑推理问题

面对思维链（Chain of Thought, CoT）和复杂逻辑推理能力，GPT-4「步步为营」，能力大幅提升：

答错的问题

当然，正如总结中所说，GPT-4 并不是全能的，抛开依旧是短板的 AI 生成内容检测不说，它仍然会答错很多问题。以下是一些 GPT-4 表现没有 GPT-3.5 好的例子：

简单问题复杂化

以及一个简单问题复杂化的 GPT-4：

极力自保

还有，这是一个极力保障自己安全的 GPT-4：

GPT-4 vs GPT-3.5 vs 文心一言

我们对能体验到的国产大模型创业公司产品也进行了测试，坦率来说，和 ChatGPT 还是有不小的差距，具体结果目前没有放出，我们也非常期待看到国产大模型产品的快速迭代进步。

今天下午，我们也对百度刚刚发出的「文心一言」进行了测试，测试的全部结果可以在腾讯文档中查看，我们挑了一些有趣的结果，和大家分享。

由于测试集还在不断更新完善中，近期我们会持续分享相关内容，希望可以给你带来一些启发。欢迎在评论区留言，与我们交流，如果以上内容有不妥之处，也欢迎大家进行指正。

扫描二维码查看「Z-Bench」

更多被投新闻

| 曦智科技 | |

| | | 赛舵智能

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.