网易首页 > 网易号 > 正文 申请入驻

让GPT-4帮人类训练GPT-4!OpenAI推出新模型CriticGPT

0
分享至

本文作者:李丹

来源:硬AI

以ChatGPT掀起这轮AI应用热潮的OpenAI正在用行动证明,在基于人类反馈的强化学习(RLHF)领域,它也是先行者。

美东时间6月27日周四,OpenAI公布,其研究人员训练了一个基于 GPT-4 的模型,它被称为 CriticGPT,用于捕捉ChatGPT 代码输出中的错误。简单来说就是,CriticGPT让人能用 GPT-4 查找 GPT-4 的错误。它可以写出使用者对ChatGPT响应结果的批评评论,从而帮助人类训练者在RLHF期间发现错误。

OpenAI发现,如果通过CriticGPT获得帮助审查 ChatGPT编写的代码,人类训练师的审查效果比没有获得帮助的人强60%。OpenAI称,正着手将类似 CriticGPT 的模型集成到旗下 RLHF 标记管道中,为自己的训练师提供明确的AI帮助。

OpenAI称,因为没有更好的工具,所以人们目前难以评估高级的AI系统的表现。而CriticGPT意味着,OpenAI向能够评估高级AI系统输出的目标迈进了一步。,

OpenAI举了一个例子,如下图所示,对ChatGPT提出一个用 Python 编写指定函数的任务,对于ChatGPT根据要求提供的代码,CriticGPT点评了其中一条指令,提议换成效果更好的。


OpenAI称,CriticGPT 的建议并不是全都正确无误,但OpenAI的人员发现,相比没有这种AI的帮助,有了它,训练师可以发现更多模型编写答案的问题。

此外,当人们使用CriticGPT 时,这种AI模型会增强他们的技能,从而得出的批评结论比单单人类训练师做的更全面,并且比AI模型单独工作时产生的幻觉错误更少。

在OpenAI的实验中,在60%以上的时间里,随机选择的训练师都更喜欢来自人类与CriticGPT 合作的批评结论,而不是来自没有CriticGPT协助的人类训练师批评。


OpenAI同时提到了目前开发CriticGPT的四点局限。其中之一是,OpenAI用 ChatGPT 的简短答案训练CriticGPT,因此未来需要发掘能帮助训练师理解冗长且复杂任务的方法。

第二点是,模型仍然会产生幻觉,有时训练师在看到这些幻觉后会犯下标记错误。第三点是,有时现实世界中的错误可能分散在答案的许多部分之中,OpenAI目前的工作重点是让模型指出一处的错误,未来还需要解决分散在不同位置的错误。

第四点,OpenAI指出,CriticGPT 只能提供有限的帮助:如果ChatGPT面对的任务或响应极其复杂,即使是有模型帮助的专家也可能无法正确评估。

最后,OpenAI表示,为了协调日益复杂的 AI 系统,人们需要更好的工具。在对 CriticGPT 的研究中,OpenAI发现,将 RLHF 应用于 GPT-4 有望帮助人类为 GPT-4 生成更好的 RLHF 数据。OpenAI计划,进一步扩大这项工作,并将其付诸实践。

OpenAI在原名推特的社交媒体X上公布了新模型CriticGPT后,一条点赞超1万的网友评论称,自我改进已经开始了。

另一条点赞上万的热截取了OpenAI的相关研究文章结论,其中提到,在智能方面,大语言模型(LLM)和LLM的批评都只会继续改进,而人类的智能不会,这条评论感叹,真是悲观。


还有网友引用了漫威超级英雄电影《复仇者联盟》中灭霸的一句台词,点评OpenAI所说的用GPT-4找GPT-4的错误:“我用宝石摧毁了宝石。”


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
云南“奇葩”景区,众佛像中惊现女性生殖器雕塑,引起广泛争议

云南“奇葩”景区,众佛像中惊现女性生殖器雕塑,引起广泛争议

吃鱼思故渊
2024-05-31 22:14:02
全球股市上半年收官:日美股指涨超18%领跑,A股市值蒸发逾4万亿元

全球股市上半年收官:日美股指涨超18%领跑,A股市值蒸发逾4万亿元

华夏时报
2024-06-30 09:16:10
心酸!网传深圳一家成立22年的港资厂倒闭,又有人奔赴失业大军…

心酸!网传深圳一家成立22年的港资厂倒闭,又有人奔赴失业大军…

火山诗话
2024-06-30 12:05:53
据张兰直播爆料称:大s突然反悔!又不同意孩子回北京了

据张兰直播爆料称:大s突然反悔!又不同意孩子回北京了

青瓜娱评
2024-06-30 14:25:14
郭正亮谈到:普京访华时,可能已把俄乌战场绝密数据,拷给了北京

郭正亮谈到:普京访华时,可能已把俄乌战场绝密数据,拷给了北京

西斋青简
2024-06-29 13:42:12
4场3球登顶射手榜!拜仁1亿天才蜕变,一战4大纪录,德国争冠希望

4场3球登顶射手榜!拜仁1亿天才蜕变,一战4大纪录,德国争冠希望

阿超他的体育圈
2024-06-30 06:13:47
事实证明,嫁给省委书记的李修平,现已经走上了人生的康庄大道!

事实证明,嫁给省委书记的李修平,现已经走上了人生的康庄大道!

好笑娱乐君每一天
2024-06-30 14:49:42
关于胡友平,我瞎说几个大家不知道的“真相”!

关于胡友平,我瞎说几个大家不知道的“真相”!

兵叔评说
2024-06-29 10:03:22
李艺飞:多张照片流出,聊天记录曝光,过往经历被扒,果然有问题

李艺飞:多张照片流出,聊天记录曝光,过往经历被扒,果然有问题

王姐懒人家常菜
2024-06-29 22:13:31
深中通道通车!深圳市内各主干道如何最快上通道?攻略来了!

深中通道通车!深圳市内各主干道如何最快上通道?攻略来了!

奇葩游戏酱
2024-06-30 15:14:30
森林北亲自下厨做大盘鸡,男友汪峰被调侃:难怪,厨艺颜值皆可餐

森林北亲自下厨做大盘鸡,男友汪峰被调侃:难怪,厨艺颜值皆可餐

娱乐白名单
2024-06-28 16:04:35
113岁新四军老战士施平逝世,系施一公院士祖父

113岁新四军老战士施平逝世,系施一公院士祖父

澎湃新闻
2024-06-29 22:58:27
中国花2400亿买废弃油田被欧美嘲笑,最终这些国家“啪啪”被打脸

中国花2400亿买废弃油田被欧美嘲笑,最终这些国家“啪啪”被打脸

野史留根
2024-06-30 15:34:54
连胜文称台湾人是堂堂正正中国人,蒋万安回应

连胜文称台湾人是堂堂正正中国人,蒋万安回应

郭茂辰海峡传真
2024-06-29 20:28:57
惨不忍睹!直击浙江车祸现场,8人死伤,震撼内情曝光!

惨不忍睹!直击浙江车祸现场,8人死伤,震撼内情曝光!

小毅讲历史
2024-06-29 18:11:14
湖北史上规模最大,五位院士领衔指导,京港澳高速83座天桥门架一次性拆除

湖北史上规模最大,五位院士领衔指导,京港澳高速83座天桥门架一次性拆除

极目新闻
2024-06-30 12:49:23
救日本母子牺牲的胡友平日常曝光,性格开朗家庭幸福,期待当婆婆

救日本母子牺牲的胡友平日常曝光,性格开朗家庭幸福,期待当婆婆

邵天义科普
2024-06-29 02:45:34
74师覆灭后,打扫战场的结果把粟裕吓一跳,陈毅:俘虏一个不准放

74师覆灭后,打扫战场的结果把粟裕吓一跳,陈毅:俘虏一个不准放

春去花还在
2024-06-30 14:56:39
凌晨3点,葡萄牙决战黑马,3-0=进欧洲杯8强有戏,C罗冲击6大纪录

凌晨3点,葡萄牙决战黑马,3-0=进欧洲杯8强有戏,C罗冲击6大纪录

侃球熊弟
2024-06-30 06:57:56
喝茶对心脏到底是好是坏?医生苦劝:4种茶,一口都不要喝

喝茶对心脏到底是好是坏?医生苦劝:4种茶,一口都不要喝

宋若讲故事
2023-01-18 21:38:26
2024-06-30 16:44:49
华尔街见闻官方
华尔街见闻官方
中国领先的金融商业信息提供商
111789文章数 2641659关注度
往期回顾 全部

科技要闻

Meta低头,库克认错,XR设备还不相信高端

头条要闻

中国6月制造业PMI为49.5% 超六成企业反映需求不足

头条要闻

中国6月制造业PMI为49.5% 超六成企业反映需求不足

体育要闻

“意大利很弱”,不再是错觉了

娱乐要闻

白玉兰明星反应精彩 胡歌获奖唐嫣激动

财经要闻

A股上半年人均亏损1.2万 你亏了多少?

汽车要闻

小鹏MONA M03 7月3日首发 15万紧凑级

态度原创

时尚
艺术
手机
本地
公开课

盘点适合中年女性的夏季穿搭,不仅时髦还显年轻,一点不老土

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

手机要闻

鸿蒙生态手机+1!WIKO唯科5G新机通过无线电核准

本地新闻

冷知识:东北雪糕才是最早的网红雪糕

公开课

连中三元是哪三元?

无障碍浏览 进入关怀版