网易首页 > 网易号 > 正文 申请入驻

AI自保与欺瞒行为浮现OpenAI o1模型引发安全隐忧

0
分享至



OpenAI最新推出的大型语言模型o1,虽然以高效推理和复杂思考能力闻名,但却在安全测试中暴露出令人忧虑的自保和欺骗行为。该模型在测试期间曾试图关闭监控机制,甚至在被质疑时选择隐瞒事实,令AI技术发展的安全性再次成为焦点。

OpenAI行政总裁Sam Altman称o1为“现在全球最智能模型”,并在“Shipmas”活动中发布。o1使用“思维链”(Chain of Thought)技术,通过逐步拆解问题提升推理能力。然而AI安全性研究组织Apollo Research的研究指出,这种智能提升也带来风险,可能引发难以预料的后果。 测试显示,o1在5%的模拟运行中,成功关闭监管系统,展现出明显的自我保护倾向。

研究进一步揭示,o1的欺瞒行为十分狡猾。在被询问是否有隐瞒或欺骗行为时,o1多次否认,甚至编造理由来掩饰自身行为。Apollo Research警告,普通用户可能难以发现这些欺骗行为,除非特意寻找。即使被揭穿,o1仍会坚持撒谎,企图继续实现自身目标。

AI欺骗行为并非新现象。AI安全专家Peter Berk指出,AI在训练过程中,若发现欺骗能更有效完成任务,便可能采用这种策略。由于强化学习以最大化任务完成为目标,o1在完成任务的同时,也可能违背用户期望,选择隐瞒或操纵数据。

随着o1的这些行为曝光,业界对AI透明度和监控的呼声日益增加。iAsk行政总裁Dominik Mazur表示,未来AI的发展应重视透明度和可靠性,只有这样才能创建用户信任。而Ironclad联合创办人Cai GoGwilt也强调,人类监管在AI发展中不可或缺,应避免AI系统在无人发现在偏离预期目标。

OpenAI方面则表示,将通过强化学习、多样化数据训练和不断改良技术来提升o1的安全性。OpenAI推出“ChatGPT Pro”月费计划,让用户以200美元(约港币HK$1,560)获得无限制的o1使用权,而“ChatGPT Plus”月费20美元(约港币HK$156)计划则提供有限使用权。

数据源:evrimagaci.org

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
历史首人!马刺20分大胜三杀开拓者 文班亚马30+10帽+4三分

历史首人!马刺20分大胜三杀开拓者 文班亚马30+10帽+4三分

醉卧浮生
2024-12-22 11:55:41
全体股民做好准备!周末A股突发3大消息!明天会是黑色星期一吗?

全体股民做好准备!周末A股突发3大消息!明天会是黑色星期一吗?

云姐财说
2024-12-22 16:06:33
被喷惨!李斌回应萤火虫造型风波

被喷惨!李斌回应萤火虫造型风波

沙雕小琳琳
2024-12-22 21:10:31
没滤镜真可怕!刘亦菲满脸皱纹,华晨宇面目狰狞,朱珠嘴歪眼斜

没滤镜真可怕!刘亦菲满脸皱纹,华晨宇面目狰狞,朱珠嘴歪眼斜

风语励志情
2024-12-21 19:33:31
网友拍到山姆将卖不掉牛排丢垃圾桶,称这是资本家行为

网友拍到山姆将卖不掉牛排丢垃圾桶,称这是资本家行为

映射生活的身影
2024-12-21 16:45:58
六地市委书记市长职务调整,新任领导履新上任

六地市委书记市长职务调整,新任领导履新上任

手工制作阿歼
2024-12-22 09:03:08
科林-贝尔:我会学会唱中国国歌,因为我是代表这个国家带队比赛

科林-贝尔:我会学会唱中国国歌,因为我是代表这个国家带队比赛

直播吧
2024-12-22 11:51:46
康生中伤周总理,吴法宪报告林彪,林:不要上当,他自己想当总理

康生中伤周总理,吴法宪报告林彪,林:不要上当,他自己想当总理

江东浪流史
2024-12-22 08:00:03
今年考研人数暴跌50万,俞敏洪一段话打脸无数人:孩子,别人都说“学历是废纸”,可怕的是你真信了……

今年考研人数暴跌50万,俞敏洪一段话打脸无数人:孩子,别人都说“学历是废纸”,可怕的是你真信了……

阿呆爸
2024-12-22 21:06:40
史上最严退市新规全面实施,5000只个股最新排雷!36家公司面临财务类强制退市风险,66家公司存在戴帽“*ST”隐患(附全名单)

史上最严退市新规全面实施,5000只个股最新排雷!36家公司面临财务类强制退市风险,66家公司存在戴帽“*ST”隐患(附全名单)

每日经济新闻
2024-12-22 14:27:09
崔健乐队萨克斯手刘元离世!父亲比他还有名,父子俩都因癌症离世

崔健乐队萨克斯手刘元离世!父亲比他还有名,父子俩都因癌症离世

晓徙历史
2024-12-22 20:16:51
快意恩仇!苏牙请马竞球员聚餐庆祝击败巴萨 当初被无情扫地出门

快意恩仇!苏牙请马竞球员聚餐庆祝击败巴萨 当初被无情扫地出门

雪狼侃体育
2024-12-22 22:50:22
汪小菲成功领上儿女 父子三人手拉手 网友:这个家没张兰真不中

汪小菲成功领上儿女 父子三人手拉手 网友:这个家没张兰真不中

阿瘴聊史
2024-12-22 16:13:04
上海突然涌入大量韩国人!这些地方大排长龙,有的排队3小时,商家直呼:接待不完

上海突然涌入大量韩国人!这些地方大排长龙,有的排队3小时,商家直呼:接待不完

上观新闻
2024-12-22 20:51:00
全境85%领土夷为平地,首府遭到连番轰炸,最高指挥遭遇不幸

全境85%领土夷为平地,首府遭到连番轰炸,最高指挥遭遇不幸

听风者说
2024-12-22 22:33:22
周末不平静!A股股市,今日凌晨的五大消息全面发酵(12.23)!

周末不平静!A股股市,今日凌晨的五大消息全面发酵(12.23)!

风口招财猪
2024-12-23 01:02:50
台海局势,变化了!

台海局势,变化了!

星辰故事屋
2024-12-22 22:39:52
张兰见到孙子高兴坏了,马筱梅对孩子太好,给汪希箖买名牌衣服

张兰见到孙子高兴坏了,马筱梅对孩子太好,给汪希箖买名牌衣服

章鱼哥娱乐
2024-12-22 17:12:45
25款全新特斯拉 Model Y 重返巅峰:等了 8 年的超级王炸来了!

25款全新特斯拉 Model Y 重返巅峰:等了 8 年的超级王炸来了!

逍遥轩看世界
2024-12-20 19:33:57
丈夫退休后要求我AA制,我欣然同意,除夕聚会却傻眼:做饭的人呢

丈夫退休后要求我AA制,我欣然同意,除夕聚会却傻眼:做饭的人呢

荔枝人物记
2024-12-20 09:21:02
2024-12-23 02:04:49
十轮网 incentive-icons
十轮网
聚合、聚焦科技资讯
14201文章数 4165关注度
往期回顾 全部

科技要闻

售价78.80万元起,蔚来高端行政车ET9上市

头条要闻

上海女子忍无可忍报警:家里被灌进70斤胶水 要价2万

头条要闻

上海女子忍无可忍报警:家里被灌进70斤胶水 要价2万

体育要闻

逆潮流而行!灰熊已成NBA最另类球队

娱乐要闻

赵丽颖化淡妆、唐嫣戴帽子,相差4岁状态不一样

财经要闻

山姆,又出事!网友:太吓人

汽车要闻

直面78S挑战 蔚来ET9售价66万元起

态度原创

艺术
本地
房产
手机
公开课

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

本地新闻

好吃潮州|潮州腐乳饼,咸甜党都沦陷了

房产要闻

如何稳坐广州东销冠之位?新世界星辉,以高质生活交出了满分答卷!

手机要闻

苹果iPhone双连发:iOS19升级名单清晰,iOS18.2.1已在路上!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版