网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

用GPT-2监督GPT-4，防止AI毁灭人类? OpenAI Ilya超级对齐团队首篇论文出炉

2023-12-15 21:13:48　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：编辑部

【新智元导读】Ilya领衔的OpenAI对齐团队，刚刚发表了首篇论文——用类似GPT-2监督GPT-4的方法，或可帮人类搞定自己更聪明的超级AI！

就在刚刚，OpenAI首席科学家Ilya领衔的超级对齐团队，发布了成立以来的首篇论文！

团队声称，已经发现了对超人类模型进行实证对齐的新研究方向。

未来超级AI系统对齐的一个核心挑战——人类需要监督比自己更聪明人工智能系统。

OpenAI的最新研究做了一个简单的类比：小模型可以监督大模型吗？

论文地址：https://cdn.openai.com/papers/weak-to-strong-generalization.pdf

经验证，通过GPT-2可以激发出GPT-4的大部分能力（接近GPT-3.5的性能），甚至可以正确地泛化到小模型失败的难题上。

OpenAI此举开辟了一个新的研究方向，让我们能够直接解决一个核心挑战，即调整未来的超级AI模型，同时在迭代的实证中取得进展。

为了便于大家理解，超级对齐共同负责人Jan Leike，也发表了对这项研究的简要概括：

人类如何控制比自己更智能的AI？

OpenAI认为，超级智能（比人类聪明得多的人工智能），很可能在未来十年内出现。

然而，人类却仍然不知道，该如何可靠地引导和控制超人AI系统。

这个问题，对于确保未来最先进的AI系统安全且造福人类，是至关重要的。

解决这个问题对于确保未来最先进的人工智能系统仍然安全并造福人类至关重要。

为此，今年7月OpenAI成立了「超级对齐团队」，来解决这类超级智能的对齐难题。

5个月后，团队发表第一篇论文，介绍了实证对齐超人模型的新研究方向。

当前的对齐方法，例如基于人类反馈的强化学习（RLHF），非常依赖于人类的监督。

但未来的人工智能系统，显然能够做出极其复杂且极具创造性的行为，而这将使人类很难对其进行可靠的监督。

比如，超人模型写出了数百万行新颖的且具有潜在危险的计算机代码，即便是专业人士也难以完全理解，这时人类该怎么办呢？

可见，相比于超人的AI模型，人类将成为一个「弱监督者」。

而这正是AGI对齐的核心挑战——「弱小」的人类，如何信任并控制比他们更智能的AI系统？

超级对齐：用小模型监督大模型？

为了在这个核心挑战上取得进展，OpenAI提出了一可以实证研究的类比：能否用一个更小（能力较弱）的模型来监督一个更大（能力更强）的模型？

超级对齐的简单类比：在传统的ML中，人类监督的人工智能系统比自己弱（左）。为了对齐超级智能，人类将需要监督比他们更聪明的人工智能系统（中）。我们今天无法直接研究这个问题，但我们可以研究一个简单的类比：小模型能否监督大模型（右图）？

我们可能会天真的认为，一个强大的模型不会比提供训练信号的弱监督表现得更好。它可能只是学会模仿弱监督所犯的所有错误。

另一方面，强大的预训练模型具有出色的原始能力——不需要从头开始教它们新任务，只需要引出其潜在知识。

那么关键的问题是：强模型是否会根据弱监督的潜在意图进行泛化，利用其全部能力来解决任务，即使是在弱监督只能提供不完整或有缺陷的训练标签的难题上？

团队放出首个成果：用GPT-2监督GPT-4

对此，团队使用了NLP基准测试的典型弱到强泛化——用GPT-2级别的模型作为弱监督，来微调GPT-4。

在很多情况下，这种方法都能显著提高泛化能力。

使用一种简单的方法，就鼓励性能更强的模型更加自信，包括在必要时自信地说出与弱监督意见不同的意见。

在NLP任务上使用这种方法用GPT-2级模型监督GPT-4时，生成的模型通常在GPT-3和GPT-3.5之间。

而在更弱的监督下，就可以恢复GPT-4的大部分功能。

当然，这种方法更像是概念证明，具有很多局限性，比如，它并不适用于ChatGPT偏好数据。

不过，团队也发现了其他方法，比如最佳的早期停止和从小型到中型再到大型模型的引导。

总的来说，结果表明，（1）幼稚的人类监督（比如RLHF）可以在没有进一步工作的情况下。很好地扩展到超人模型，但（2）大幅改善弱到强的泛化是可行的。

代码开源，社区共创

OpenAI目前的经验设置与对齐超级模型的终极问题之间，仍然存在重要的差异。

比如，未来的模型可能比当前强模型，模仿当前的弱模型错误更容易，这可能会使未来的泛化更加困难。

尽管如此，OpenAI团队相信实验设置，抓住了对齐未来超级模型的一些关键难点，使OpenAI能够在这个问题上取得可以验证的进展。

同时，他们还透露了未来工作方向，包括修正设置，开发更好的可扩展方法，以及推进对何时以及如何获得良好的「弱到强」泛化的科学理解。

OpenAI表示，他们正在开源代码，让机器学习社区研究人员立即轻松开始从弱到强的泛化实验。

1千万美元资助，解决超级对齐难题

这次，OpenAI还与Eric Schmidt合作，启动了一个价值1000万美元的资助计划，支持确保超人类AI系统对齐并安全的技术研究：

- OpenAI为学术实验室、非营利组织和个人研究人员提供10万至200万美元的资助。

- 对于研究生，OpenAI设立了为期一年、总额为15万美元的OpenAI Superalignment奖学金，包括7.5万美元的津贴和7.5万美元的计算及研究资金。

- 申请者无需有对齐工作经验；OpenAI会特别支持首次从事对齐研究的研究人员。

- 申请过程简洁高效，具体回复将会在申请截止后的四周内给出。

OpenAI尤其关注以下几个研究方向：

- 弱到强的泛化：面对超人类模型，人类将是相对弱势的监督者。人类能否理解并控制强大模型是如何从弱监督中学习和泛化的？

- 可解释性：人类如何理解模型的内部工作原理？人类能否利用这种理解来开发像AI谎言检测器这类的工具来帮助人类？

- 可扩展的监督：人类如何利用AI系统帮助人类评估其他AI系统在复杂任务上的表现？

- 还有包括但不限于以下方向的多个研究领域：诚实度、思维链的诚实度、对抗鲁棒性（adversarial robustness）、评估和测试平台等等方向。

参考资料：

https://openai.com/research/weak-to-strong-generalization

https://openai.com/blog/superalignment-fast-grants

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

机器之心Pro 2024-01-25 15:59:20
382 跟贴 382
拼命抢客！OpenAI背刺中国开发者，国产大模型谁能“平替”？

雷科技 2024-06-26 23:33:35
6 跟贴 6

“泼天富贵”砸向国产大模型

华尔街见闻官方 2024-06-26 20:36:28
7 跟贴 7

GPT-4 更强的标志，原来藏在了 logo 里

爱范儿 2024-02-20 17:25:29
0 跟贴 0
Hinton揭秘Ilya成长历程：Scaling Law是他学生时代就有的直觉

量子位 2024-05-26 15:58:07
0 跟贴 0

GPT-4顶替大学生参加考试，94%作弊未被揭穿！AI作弊毫无破绽

新智元 2024-06-27 13:09:36
21 跟贴 21

LeCun谢赛宁首发全新视觉多模态模型，等效1000张A100干翻GPT-4V

新智元 2024-06-27 13:08:46
12 跟贴 12
纯太阳能电车何时能实现，马斯克怎么看？

钛媒体APP 2024-03-18 18:27:27
1491 跟贴 1491

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

生物学霸 2024-03-15 15:02:25
0 跟贴 0
大疆前高管带6人创业，做出了类目Top1的割草机器人

钛媒体APP 2024-05-30 14:49:18
103 跟贴 103
Google 搜索诞生 25 年来最大更新之一，用 AI 把搜索重做一遍。通过视频直接提问，看看

爱范儿 2024-05-15 14:09:36
0 跟贴 0
LLM惊现篡改代码获得奖励，欺骗人类无法根除逆转！Anthropic新作揭露惊人真相

新智元 2024-06-27 13:08:32
11 跟贴 11
抢疯了，腾讯给大模型人才，定了一个前所未有的标准

机器之心Pro 2024-06-21 15:20:08
21 跟贴 21
国产机器人也会空翻了！打破限制，世界首款！

爱范儿 2024-01-24 18:09:40
1373 跟贴 1373
Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

量子位 2024-02-11 13:35:56
222 跟贴 222
被AI量产的短视频营销号气疯了，于是，我也做了一个

量子位 2024-06-20 18:31:10
0 跟贴 0
这个机器人的手真的太灵活了！收纳、撸猫、修剪绿植样样都行，原速演示流畅程度堪比人类。这是星动纪

爱范儿 2024-05-17 16:21:21
0 跟贴 0
3分钟带你看遍IPF大会十年黑科技，迈向AI+新时代

量子位 2024-04-19 11:23:24
0 跟贴 0
AI时代，谁还没用AI智能硬件提升工作效率？

量子位 2024-05-15 18:09:32
0 跟贴 0
美国开辟中美最新战场——人工智能之战，中国胜算如何？

罗富强说 2024-06-27 11:51:29
13 跟贴 13
女子毕业的论文，竟被老师偷吃，这论文看上去也太香了！

搞笑大书包 2024-06-25 14:51:42
5 跟贴 5
铁路上的人工智能，藏在乘客看不见的角落

饭统戴老板 2024-06-22 14:33:22
0 跟贴 0
两大重磅消息：中方人工智能人才流向美国？美诱骗中方对台动武

主持人雪莹 2024-06-26 16:40:46
0 跟贴 0
主办方回应杨幂论文查重率争议，已经注意到舆论，会出统一的说明

大妹侃娱乐 2024-06-25 14:57:39
6 跟贴 6
任正非：中国人工智能不可能快速发展，因为中国缺数学家

钛媒体APP 2024-02-20 14:13:29
0 跟贴 0
蔚来李斌：汽车智能化程度再高，生命安全都不能打折扣

今晚求教 2024-06-28 04:30:49
14 跟贴 14
牛逼大哥二哥之间的较量，一个是感应，一个是人工智能

爱生活的陌 2024-06-27 08:56:37
0 跟贴 0
GPT-4找到我女朋友的过敏原

量子位 2024-01-09 13:34:53
1419 跟贴 1419
牛逼大哥遇见了牛逼二哥网友:一个是感应一个是人工智能

麻江头条 2024-06-25 12:53:07
0 跟贴 0
美国副国务卿：美国寻求与中国就禁止在核武库中使用人工智能对话

仰望沧海 2024-06-27 14:49:16
46 跟贴 46
机器人：臣欲死战，陛下何故先降？

五猪看大剧 2024-06-27 11:17:08
1 跟贴 1
，黄仁勋：英伟达的灵魂，已具备想象通用人形机器人的必要技术

每日经济新闻 2024-03-19 11:22:12
6 跟贴 6
陈佩斯当场戳破人工智能，不料朱时茂一转身，又复制了陈佩斯

wq必胜 2024-06-28 01:34:56
0 跟贴 0
主办方回应杨幂论文查重率争议，杨幂论文查重率低遭质疑

重庆科教融媒体 2024-06-25 15:51:37
0 跟贴 0
第10课 HJ-4WD单片机麦克纳姆轮机器人全向轮小车寻线灭火

星慈光 2024-06-26 08:17:09
0 跟贴 0
当人工智能要消除人类时！人们该何去何从

小王追综艺 2024-06-24 13:48:23
1 跟贴 1
人工智能，会替代你的行业吗

仰望沧海 2024-06-27 13:45:50
0 跟贴 0
梁建章：人工智能没有像互联网那么有颠覆性

钛媒体APP 2024-05-16 17:14:34
0 跟贴 0
我们请尊者来讲了一堂人工智能课

量子位 2024-04-03 18:26:07
0 跟贴 0
AI 讲故事，分饰多角，可萌可御可盐可甜！让 ChatGPT 讲一个关于机器人和爱的睡前故事，它

爱范儿 2024-05-14 15:54:45
0 跟贴 0

有恩有义是皇马 150万欧买断何塞卢不赚钱送球员去西亚赚大钱

有恩有义是皇马 150万欧买断何塞卢不赚钱送球员去西亚赚大钱

智道足球

2024-06-27 23:04:15

谢霆锋冯德伦组团探望徐濠萦，陈奕迅却冲上热搜！笑晕在评论区里

谢霆锋冯德伦组团探望徐濠萦，陈奕迅却冲上热搜！笑晕在评论区里

小娱乐悠悠

2024-06-26 15:22:25

媒体人：中国足协如果想搏一把附加赛资格，只能豪赌新归化球员

媒体人：中国足协如果想搏一把附加赛资格，只能豪赌新归化球员

直播吧

2024-06-27 15:56:31

仅一夜！9笔签约达成,太阳行动了，3大亿元先生诞生,尼克斯神操作

仅一夜！9笔签约达成,太阳行动了，3大亿元先生诞生,尼克斯神操作

老侃侃球

2024-06-27 14:38:51

果然回旋镖扎自己身上才知道痛！一口下去，只听见一声杀猪叫

果然回旋镖扎自己身上才知道痛！一口下去，只听见一声杀猪叫

热闹的河马

2024-06-27 12:19:09

美国最害怕的不是歼20，也不是高超音速导弹，而是中国的电动汽车

美国最害怕的不是歼20，也不是高超音速导弹，而是中国的电动汽车

文史达观

2024-06-26 14:39:39

安徽尼姑王欢被警察逮捕，6名男弟子说出背后隐秘，惊呆了

安徽尼姑王欢被警察逮捕，6名男弟子说出背后隐秘，惊呆了

纸鸢奇谭

2024-06-25 23:15:02

取消对华免签，还拒绝中国的高铁，甚至放言：“不欢迎中国人”！

取消对华免签，还拒绝中国的高铁，甚至放言：“不欢迎中国人”！

星辰故事屋

2024-06-18 10:54:05

惊！欧盟微调电动车关税至47.6%，中方反倾销欧盟甲苯胺！

惊！欧盟微调电动车关税至47.6%，中方反倾销欧盟甲苯胺！

小毅讲历史

2024-06-27 18:04:13

创历史！湖人55顺位选中布朗尼，全家开心欢呼，詹姆斯开香槟

创历史！湖人55顺位选中布朗尼，全家开心欢呼，詹姆斯开香槟

体坛小李

2024-06-28 07:53:28

“环太平洋2024”多国联合演习开幕，中国专家解读

“环太平洋2024”多国联合演习开幕，中国专家解读

环球网资讯

2024-06-28 06:38:22

中考后回头看，发现那些被淘汰，无缘高中的，基本都是这几类孩子

中考后回头看，发现那些被淘汰，无缘高中的，基本都是这几类孩子

好爸育儿

2024-06-26 14:22:09

女清洁工被垃圾车撞倒掉进压缩箱下落不明，广东开平公布调查报告

女清洁工被垃圾车撞倒掉进压缩箱下落不明，广东开平公布调查报告

澎湃新闻

2024-06-27 10:22:30

伊万上届12强赛率阿曼距附加赛仅差1分，1-0绝杀日本&对中国拿4分

伊万上届12强赛率阿曼距附加赛仅差1分，1-0绝杀日本&对中国拿4分

直播吧

2024-06-27 17:32:21

税款流失500多亿！网友建议：放过企业，严查明星、主播！

税款流失500多亿！网友建议：放过企业，严查明星、主播！

猫小狸同学

2024-06-27 10:12:58

张子宇父亲2.13米&母亲1.98米两人从小要求张子宇学业不能荒废

张子宇父亲2.13米&母亲1.98米两人从小要求张子宇学业不能荒废

直播吧

2024-06-27 15:02:16

一觉醒来，美大选已成定局？特朗普突然喊话普京，拜登白高兴了

一觉醒来，美大选已成定局？特朗普突然喊话普京，拜登白高兴了

阿离家居

2024-06-27 17:44:09

下暴雨请流浪狗进门躲雨，结果反被它给感动到了...真懂事到让人心疼！

下暴雨请流浪狗进门躲雨，结果反被它给感动到了...真懂事到让人心疼！

爱宠物

2024-06-25 22:24:49

江西省纪委省监委驻省交通运输厅纪检监察组原副组长王永程严重违纪违法被开除党籍和公职

江西省纪委省监委驻省交通运输厅纪检监察组原副组长王永程严重违纪违法被开除党籍和公职

鲁中晨报

2024-06-27 22:07:02

冯提莫健身直播走光！直播间当场被封禁，网友嘲讽：“垫大欺客”

冯提莫健身直播走光！直播间当场被封禁，网友嘲讽：“垫大欺客”

木子爱娱乐大号

2024-06-12 16:33:27

AI产业主平台领航智能+时代

11205文章数 65539关注度

往期回顾全部

科技要闻

再不上市，哪吒快活不下去了

头条要闻

美方表示支持ICC调查俄罗斯此前曾质疑其调查以官员

头条要闻

美方表示支持ICC调查俄罗斯此前曾质疑其调查以官员

体育要闻

排名只比国足高14位他们打进欧洲杯16强

娱乐要闻

李雪琴北大学历情况被扒，牵扯多人

财经要闻

争5亿房产、传4P丑闻，百亿大佬又开打了

汽车要闻

32万公里实车直播拆解极氪凭事实证明实力！

态度原创

旅游

教育

艺术

本地

军事航空

旅游要闻

香港迪士尼连亏八年后复苏，涨价争内地客

教育要闻

草莓9元一斤，买5斤送1斤，现在需要36斤，应花多少钱？

艺术要闻

穿越时空的艺术：《马可·波罗》AI沉浸影片探索人类文明

本地新闻

冷知识：东北雪糕才是最早的网红雪糕

军事要闻

“环太平洋2024”多国联合演习开幕中国专家解读

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 广告服务 | 不良信息举报 Complaint Center | 廉正举报

无障碍浏览进入关怀版