网易首页 > 网易号 > 正文 申请入驻

Ilya出走记:SSI的超级安全革命

0
分享至

©自象限原创

作者丨罗辑、程心

和OpenAI分道扬镳以后,Ilya“神秘而伟大”的事业终于揭开了面纱。

6月20日,前OpenAI核心创始人 Ilya Stuskever,在官宣离职一个月后,Ilya在社交媒体平台公开了最新的动向:将成立新的实验室Superintellgence(以下简称SSI),构建安全的超级智能。

这个名,明眼人一看就知道是冲着OpenAI去的。

2023年12月,在OpenAI十年的Ilya官宣离职引起了整个AI圈的轩然大波。虽然离职的具体原因扑朔迷离,但在Ilya离职前后,OpenAI负责模型安全的由Ilya主导的超级对齐(Superalignment)实验室宣布解散,外界纷纷推测,Ilya一直以来的理念是谨慎地发展人工智能,与Altman大刀阔斧地推进技术的战略相左。

而SSI,首先坚持了OpenAI成为非营利组织独立实验室的初衷,其次践行了Ilya一直以来对模型安全的谨慎态度。并且Ilya还补充道:我们将以一个焦点、一个目标、一个产品,直接追求安全的超级智能。

截至发稿前,Sam Altman并未回应,并没有让吃瓜群众们预想的“Altman假惺惺的表示祝福”成真。

而之所以业内如此重视Ilya在这个节点成立SSI,并不只是因为这个人,更是大模型的发展已经到了不得不重视模型安全的重要节点。

在刚刚过去的北京智源大会上,杨植麟、张鹏等一线创业者也曾讨论过这个问题,我们对模型安全的重视程度远远小于它的重要程度,而SSI的成立,或许会开辟一条与OpenAI完全相反的路。

用Ilya的眼睛,看AI的危险

似乎Ilya对模型安全是执拗的,甚至被人暗指“没必要”。“如果不是因为他是OpenAI的技术首脑,曾一手打造了GPT、DALLE-E等明星产品,SSI根本不会受到如此大的关注。”

但他们却忽略了,Ilya对人工智能技术的重要性,并不是从OpenAI开始的,而是从他的老师辛顿就奠定了他的话语权。

从80年代就开始战斗在人工智能最前线的辛顿,被誉为“深度学习之父”。作为教授的他桃李满天下(包括吴恩达),在他年轻一代的学生中,Ilya是最得意的门生之一。

2023年5月初,辛顿辞去他在谷歌担任了十多年的职位,表示作出这个决定是为了可以自由讨论“人工智能的危险”。此后,他频繁接受媒体采访,不遗余力地对人工智能可能操纵人类发出警报。

尽管人类可以赋予人工智能一些伦理原则,但辛顿仍然感到紧张,“因为到目前为止,我还想象不到更智能的事物被一些没它们智能的事物所控制的例子。打个比方,假设青蛙创造了人类,那么你认为现在谁会占据主动权,是人,还是青蛙?”

师从辛顿的Ilya,几乎完全继承了被辛顿“蒸馏”过的,对于人工智能的谨慎,以及在谨慎之下的小心翼翼。

Ilya之于OpenAI,许多网友都认为他的个人贡献要大于Sam Altman。如果说SamAltman是OpenAI的面子,那Ilya就是OpenAI的里子,或者说是技术灵魂。

私底下的Ilya很内向但却并不胆怯。他之所以如此,很多人好奇,他作为影响这个世界技术变革的人,一定看到了什么。

但却没有人知道。

Ilya在OpenAI打造的超级对齐实验室,目的就是为了通过可控的技术手段使得AI发展的路径可控,确保AGI的发展符合人类利益。

一些前OpenAI员工透露,Ilya对超级对齐实验室的工作非常重视,并亲自参与其中。他希望通过这一实验室的工作,为未来的AGI系统设计出可靠的对齐方案。

想要理解何为“超级对齐”,就要演示一下现在的对齐技术,通过RHLF注入,能够实现两种对齐:一种是价值观的对齐:比如不要建立男女的性别对立、不要歧视同性恋等等;另一种是话题层面的对齐:明确国家的边界、不让搞黄色、不能诈骗等等。但Ilya所谓的超级对齐,却并不是这么简单。

有人还记得人工智能的三原则么?

其中之一便是“无条件服从人类”,而价值观和话题的对齐是远远不足以完成这个目标的,Ilya他认为技术的本质类似于人类的生物进化,如果进化的开始,是一个没有“无条件对人类的爱”的 AI,那等它长成AGI以后,也一定不可控。

对应了他在X中发表的:直接追求安全的超级智能。

没错,超级对齐的本质其实是通过让大模型产生“对人类无条件的爱”。

这听起来似乎很扯淡,但或许SSI的本质就是如此。

人,AI安全的最后一道防线

那么问题来了,大部分人做不到。

是的,可能大部分公司都是OpenAI而非SSI。那么除了大模型公司在内部致力于构建一个安全、可信的大模型之外,这两年随着技术和应用的发展,社会各界也对AI和大模型的安全作出了许多努力。

2021年11月,联合国教科文组织就曾通过《人工智能伦理问题建议书》,希望为人工智能的发展,以及预防其潜在风险提供建议。

今年3月份,联合国教科文组织总干事奥德蕾·阿祖莱还在公开呼吁,希望各国尽快实施这项建议,为人工智能发展设立伦理标准。

而随着中国AI大模型的蓬勃发展,中国企业也越来越多地参与到了这类国际AI安全准则的制定中。

比如今年4月在日内瓦召开的联合国科技大会上,世界数字技术院(WDTA)发布了《生成式人工智能应用安全测试标准》和《大语言模型安全测试方法》两项国际标准。

而这两项标准,由来自百度、腾讯、蚂蚁集团、科大讯飞等众多中国企业的专家学者共同参与编制而成。

在国际组织通过编制规范指导AI安全发展的同时,各地政府的法案也在相继落地。

5月21日,欧洲的《人工智能法案》正式获得了欧洲理事会的批准。这项法案最早由欧盟委员会在2021年提出,作为全球首个AI法案,它通过构建广泛适用的人工智能监管机制,为人工智能技术的发展提供了法律框架,为全球的AI监管提供了可借鉴的法律基础。

国内AI安全相关的政策则落地在2023年7月,国家网信办联合国家发改委、工信部等七部门,公布了《生成式人工智能服务管理暂行办法》,该办法就生成式人工智能可能面临的安全问题提出了一系列明确的约束规范。

当然,法律规定的社会的下限,大模型安全的上线仍然需要在产业界寻找答案。

我们前面提到,大模型在公司内部训练的过程中,需要通过数据、算法、学习框架等多个维度保证大模型的安全可靠。

但其实在公司外部,完成训练的大模型要推向市场,还存在一套由第三方完成的大模型安全测试评估框架,目前主流的安全性测评方法主要有固定数据集测评和红队模型测评两类。

2023年,OpenAI在GPT-4发布之前就曾对其进行了六个多月的评估、测试及改进。在这轮测试中,OpenAI就邀请了AI领域专家参与红队测试(Red Teaming)以识别安全风险。

固定数据集测评,则是由研究人员针对大模型的各类安全风险制定风险评估矩阵,类似绩效考核打分。

研究人员通过人类标注数据的方式采集安全性评估数据,然后以测试模型在这些数据集上的表现评估模型的安全程度。

2023年底,OpenAI在官网公布了名叫“Preparedness Framework”的安全评估框架,是这类固定数据集测评的范本之一。

在国内,清华大学计算机系的黄民烈研究团队在2023年3月就发布了大模型安全分类体系,该团队从系统层面和模型层面出发,打造更可控、可信的大模型安全框架,是国内较早参与到模型安全评估体系的团队之一。

除此之外,蚂蚁安全实验室也推出了大模型安全检测平台“蚁鉴2.0”和大模型风险防御平台“天鉴”两大产品。

在具体能力上,风险监测平台可以诊疗检测、定位问题;风险防御平台可以对风险进行防治。

比如在大模型生成可控问题上,蚂蚁安全实验室提出了如通过SFT、RLHF/RRHF、RLAIF等技术和高质量标注做人类对齐;在图像方面做风险抑制,进行可控调试;为大模型外挂千万级安全知识库生成和检索等等方式。

在模型层面的问题之外,使用模型带来的安全问题也同样重要。

6月11日,苹果在WWDC上推出了其全新的 AI 系统“Apple Intelligence”。为了保护用户隐私和数据安全,苹果将大模型的工作分为两类。

其中简单的任务在手机设备端执行,保证数据不离开手机。如果是需要调用云端算力的复杂任务,苹果打造了一套具备芯片级别隐私和安全保护的服务器——“Private Cloud Compute”。这套服务器可以实现加密传输,服务器只识别数据,不收集数据,且在任务完成后,该数据也会被立即删除。

其中关键的一点是,Apple Intelligence集成了GPT-4o作为第三方大模型支持。为了保证数据安全和用户的知情权,苹果设置Siri启用Chat GPT时会向用户提出申请。

也就是说,在苹果的安全框架里,虽然企业会做好一切前期准备,但用户自己才是安全防范的最后一道防火墙。

就像OpenAI一直都在官网提醒用户,“在使用 GPT-4 输出的内容时应格外小心,特别是在高风险场景下(如医学、化学等领域),需要人工核查事实准确性或者避免使用 AI 给出的答案。”

所以,虽然身处AI时代,工具已经如此强大,但在一切工具就绪之后,我们仍应记住,我们自己才是保护自己的最后一道防线。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
A股:创新低了!行情不对劲?恐慌盘离场,下周能反弹了吗

A股:创新低了!行情不对劲?恐慌盘离场,下周能反弹了吗

郭小凡财经
2025-01-10 15:29:50
事发在重庆一小区车库,现场多人被放倒,住进医院

事发在重庆一小区车库,现场多人被放倒,住进医院

小南看城市
2025-01-10 09:17:19
轮奸被判10年的李天一,改名换姓出狱后,最恶心的一幕还是出现了

轮奸被判10年的李天一,改名换姓出狱后,最恶心的一幕还是出现了

素衣读史
2025-01-09 09:58:57
泰国每年7万华人失踪,妙瓦底为何不能一举肃清?

泰国每年7万华人失踪,妙瓦底为何不能一举肃清?

互联网大观
2025-01-09 13:27:56
光明村全村给刘强东写感谢信:你的恩情,我们都记在心里

光明村全村给刘强东写感谢信:你的恩情,我们都记在心里

三言科技
2025-01-10 10:02:24
女子和24岁小伙相亲,转头看上45岁公公,网友:眼光毒辣

女子和24岁小伙相亲,转头看上45岁公公,网友:眼光毒辣

农村情感故事
2025-01-09 18:59:06
外交部回应网传中国出现不明病毒论调:人偏肺病毒不是新毒株

外交部回应网传中国出现不明病毒论调:人偏肺病毒不是新毒株

澎湃新闻
2025-01-10 16:42:14
韩国人看到首尔与上海的差距,韩国网友:上海比首尔先进多了

韩国人看到首尔与上海的差距,韩国网友:上海比首尔先进多了

微光年
2025-01-10 06:59:39
抗乌援俄中国网红“东北平头哥”疑似阵亡,出发前发临别视频...

抗乌援俄中国网红“东北平头哥”疑似阵亡,出发前发临别视频...

二向箔
2025-01-09 16:34:26
刘强东43岁妹妹刘强茹,生三胎离世,他为没保护好妹妹至今心痛

刘强东43岁妹妹刘强茹,生三胎离世,他为没保护好妹妹至今心痛

比利
2025-01-09 17:50:13
洲际核弹刚在西北竖起,萨德就紧急撤出,美国呼吁不要试射

洲际核弹刚在西北竖起,萨德就紧急撤出,美国呼吁不要试射

April工作室
2025-01-09 20:57:14
古力娜扎|白白嫩嫩,太有型了

古力娜扎|白白嫩嫩,太有型了

记录平远
2024-12-11 00:49:23
澳门有趣的地方:如果赢了2000万,离开之前,他们会提供服务挽留

澳门有趣的地方:如果赢了2000万,离开之前,他们会提供服务挽留

百态人间
2025-01-10 12:35:26
又一个!网传24岁漂亮女孩去泰国旅游失联,现家属确认在妙瓦底…

又一个!网传24岁漂亮女孩去泰国旅游失联,现家属确认在妙瓦底…

火山诗话
2025-01-09 18:55:23
这是真正的高水平

这是真正的高水平

静易墨
2025-01-09 21:07:37
韩悦1-2遭泰国选手逆转,止步马来西亚羽毛球公开赛女单八强

韩悦1-2遭泰国选手逆转,止步马来西亚羽毛球公开赛女单八强

懂球帝
2025-01-10 16:09:23
“滂沱大雨”不读“páng tuó”,原来竟一直都读错了!

“滂沱大雨”不读“páng tuó”,原来竟一直都读错了!

诗词中国
2025-01-09 19:49:51
美媒:由于手术影响过大,大谷翔平新赛季极不可能以投手身份回归赛场

美媒:由于手术影响过大,大谷翔平新赛季极不可能以投手身份回归赛场

雷速体育
2025-01-10 15:12:47
国新办将于1月14日下午3时举行“中国经济高质量发展成效”系列新闻发布会 介绍金融支持经济高质量发展有关情况

国新办将于1月14日下午3时举行“中国经济高质量发展成效”系列新闻发布会 介绍金融支持经济高质量发展有关情况

财联社
2025-01-10 09:59:16
丰田:2024年美国销量2332623辆,丰田蝉联第一、雷克萨斯创新高

丰田:2024年美国销量2332623辆,丰田蝉联第一、雷克萨斯创新高

爱论历史
2025-01-08 22:43:56
2025-01-10 17:12:49
自象限 incentive-icons
自象限
方格之间,自有象限。关心科技、经济、人文、生 活。
103文章数 22关注度
往期回顾 全部

科技要闻

王啸:我看好应用层,一直没投基础大模型

头条要闻

吉林大爷为受伤外地游客垫3700元医药费 反被索赔5万

头条要闻

吉林大爷为受伤外地游客垫3700元医药费 反被索赔5万

体育要闻

骑士VS雷霆,这是真正的高水平

娱乐要闻

鬼鬼吴映洁未婚生女当妈

财经要闻

财政部发声!2025年财政政策将非常积极

汽车要闻

10万元级无图智驾 悦也PLUS全路况实测

态度原创

教育
旅游
时尚
房产
手机

教育要闻

小升初附加题,难倒尖子生,长方形面积为120,求阴影面积

旅游要闻

在泰旅游从业者称有中国游客取消订单!

这次杨紫的“扛剧”体质,还能把这部“现象级”开年大剧抬上桌吗?

房产要闻

政府工作报告曝光!三亚再迎重磅利好!

手机要闻

OPPO Find N5独孤求败:轻薄大折叠 上半年独此一款

无障碍浏览 进入关怀版