网易首页 > 网易号 > 正文 申请入驻

大神Karpathy:我给大模型「SQL注入」攻击,简直不要太轻松

0
分享至

机器之心报道

编辑:杜伟、泽南

大模型的安全性,可以说是「有很大进步空间」。

AI 大牛 Andrej Karpathy 又来科普知识了,这次的主题是「利用特殊 token 对 LLM 进行类 SQL 注入的攻击」。

所谓 SQL 注入攻击,它是一种网络攻击技术。攻击者通过将恶意的 SQL 语句插入到应用程序的输入字段中,诱使后台数据库执行这些恶意的 SQL 语句。此类攻击通常利用应用程序对用户输入的处理不当,比如没有正确地对输入进行过滤或转义,导致攻击者能够访问、修改甚至删除数据库中的数据。

由于人们的安全意识逐渐升高,目前对于大多数软件产品来说,SQL 注入都不应该出现。

但在大模型领域,一切都还处于初步阶段。LLM 分词器负责对输入字符串中的特殊 token(如 、<|endoftext|> 等)进行解析。虽然这看起来很方便,但最多会导致误判;最坏的情况下会导致 LLM 安全漏洞,相当于 SQL 注入攻击。

这里就要注意了:用户输入字符串是不受信任的数据。

在 SQL 注入中,你可以使用「DROP TABLE」攻击来破解不良代码。在 LLM 中同样会遇到相同的问题,不良代码会将字符串的特殊 token 描述符解析为实际的特殊 token,弄混输入表示,导致 LLM 无法分发聊天模版。

下面是一个使用当前 huggingface Llama 3 分词器默认的示例。

可以看到,同时出现了两种不直观的情况:

  • <|begin_of_text|> token 被(128000)被添加到了序列前面
  • <|end_of_text|> token(128001)从字符串中被解析出来,并插入了特殊 token。现在文本(可能来自用户)可能与 token 协议混淆,并导致 LLM 无法分发,进而产生未定义的输出结果。

因此,Karpathy 建议始终使用两个额外的 flag 进行 tokenizing 操作,禁用 add_special_tokens=False 和 split_special_tokens=True,并在代码中自行添加特殊 token。他认为这两个选项的命名会有点令人困惑。对于聊天模型,你也可以使用聊天模板 apply_chat_template。

通过以上操作,你可以得到一些看到来更正确的东西。比如 <|end_of_text|> 现在被视为任何其他字符串序列,并被底层 BPE 分词器分解,就像任何其他字符串一样。

Karpathy 认为对编码和解码的调用永远不应该通过解析字符串的方式来处理特殊 token,我们需要完全弃用这一功能。相反,这些应该只通过单独的代码路径来显式且以编程方式来添加。在 tiktoken 中,始终使用 encode_ordinary;在 huggingface 中,使用上文提到的 flag 更安全。至少要注意到这个问题,并始终保持自己 token 的可视化并测试自己的代码。

Karpathy 认为这些东西非常微妙且记录不全,他预计现在大约 50% 的代码都出现了上述问题导致的 bug。

即使是出厂前经历了严格测试的 ChatGPT 也出现了一些奇怪的问题。最好的情况是它只删除了 token,最坏的情况则是以一种未定义的方式混淆了 LLM。Karpathy 也不清楚背后发生了什么,但 ChatGPT 无法将字符串 <|endoftext|> 重复发给他。所以这里要格外注意。

Andrej Karpathy 的文章一出,立刻引起了讨论。有人问:那么 LLM 开发人员需要采取什么措施来提升安全性吗?

Karpathy 认为说来也简单,始终以「普通」方式标记字符串,即 utf8 字节序列就可以了。这让人想起了安全领域中的「最小特权」原则 —— 本质上,通过将功能限制在绝对必要的范围内,就可以最大限度地减少发生意外后果的可能性。

也有人表示「我们已经在这个方向上前进了」。VLM 模型 PaliGemma 作者,Google DeepMind 科学家 Lucas Beyer 表示,我们在新工作得代码里已经提升了安全机制,这会有些麻烦,尤其是在支持多个 tokenizer 时,但总体而言是值得的。它也会让代码更加直接。

也有网友问道,如果代码是正确的,但是训练数据时候输入 <|endoftext|> 会发生什么?

Karpathy 表示,如果代码没错,什么都不会发生。但问题是很多代码可能并不正确,这会悄悄破坏大模型的世界观。

Karpathy 发现的新问题,你怎么看呢?

参考内容:

https://twitter.com/karpathy/status/1823418177197646104

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
观澜亭|复旦文科招生比例“降至20%”,值得注意的风向标

观澜亭|复旦文科招生比例“降至20%”,值得注意的风向标

大众日报
2025-03-14 07:43:18
董明珠:别人说我今年比去年更年轻了,因为我每天晚上使用格力美容仪,一次六分钟!定价9800元主打抗衰功能

董明珠:别人说我今年比去年更年轻了,因为我每天晚上使用格力美容仪,一次六分钟!定价9800元主打抗衰功能

和讯网
2025-03-13 12:00:07
中国千万不能武统台湾!一旦对台用武力,将出现三大严重后果

中国千万不能武统台湾!一旦对台用武力,将出现三大严重后果

星辰故事屋
2024-10-20 15:40:12
东契奇谈明日背靠背是否出战:暂时还不知道,让我们拭目以待

东契奇谈明日背靠背是否出战:暂时还不知道,让我们拭目以待

雷速体育
2025-03-14 10:49:09
吉伦沃特:我把亚洲的联赛几乎绕了个遍 CBA绝对是亚洲最好的联赛

吉伦沃特:我把亚洲的联赛几乎绕了个遍 CBA绝对是亚洲最好的联赛

直播吧
2025-03-13 11:20:03
起底“藏乌梨”骗局:虚构的高原特产,普通梨高温加工而成

起底“藏乌梨”骗局:虚构的高原特产,普通梨高温加工而成

新京报
2025-03-13 08:30:21
马斯克的政府效率部:DOGE再次称,美国社保领取者与实际公民存在超6000万的差异

马斯克的政府效率部:DOGE再次称,美国社保领取者与实际公民存在超6000万的差异

问问马斯克AskMusk
2025-03-13 22:56:27
突发!赛力斯销量再次暴跌!

突发!赛力斯销量再次暴跌!

电动知家
2025-03-14 09:57:20
“17万买来,成了一个摆设……”一大波车主焦虑了

“17万买来,成了一个摆设……”一大波车主焦虑了

都市快报橙柿互动
2025-03-12 13:11:43
枯死松树为啥不能当柴火烧?全因这种可恨寄生虫,烧了是助纣为虐

枯死松树为啥不能当柴火烧?全因这种可恨寄生虫,烧了是助纣为虐

狸猫之一的动物圈
2025-03-13 10:40:21
偷窥被抓现行,上海某俱乐部外援做完笔录被保释!或面临驱逐风险

偷窥被抓现行,上海某俱乐部外援做完笔录被保释!或面临驱逐风险

中国足球的那些事儿
2025-03-13 20:55:35
泽连斯基的停火方案,让全世界大开眼界

泽连斯基的停火方案,让全世界大开眼界

殷殷说
2025-03-11 16:22:50
中国换了打法,美国媒体懵了

中国换了打法,美国媒体懵了

远方风林
2025-03-13 14:17:36
西部排名又乱了:森林狼创NBA奇迹,湖人岌岌可危,5队排名互换

西部排名又乱了:森林狼创NBA奇迹,湖人岌岌可危,5队排名互换

篮球大视野
2025-03-13 16:11:17
中企援建印度炼钢厂的教训血淋淋,最后成为刺向中国的利剑

中企援建印度炼钢厂的教训血淋淋,最后成为刺向中国的利剑

科学知识点秀
2025-03-12 08:03:28
恭喜!郑钦文出局后,收到2个好消息,大满贯冠军有戏

恭喜!郑钦文出局后,收到2个好消息,大满贯冠军有戏

体育就你秀
2025-03-14 07:03:20
胡梅尔斯:我要向所有人道歉,我的愚蠢失误让球队付出了代价

胡梅尔斯:我要向所有人道歉,我的愚蠢失误让球队付出了代价

懂球帝
2025-03-14 05:23:46
70岁布丽吉特又火了!国宾接待造型杀疯

70岁布丽吉特又火了!国宾接待造型杀疯

述家娱记
2025-03-13 22:45:35
俞敏洪晒雷军送的小米15 Ultra:打算回赠15袋大米

俞敏洪晒雷军送的小米15 Ultra:打算回赠15袋大米

证券时报
2025-03-13 15:12:06
情侣共同出资20万首付买房,两人分手后女子放弃房产。18年后,男子卖房得330万,女子要求分100万......

情侣共同出资20万首付买房,两人分手后女子放弃房产。18年后,男子卖房得330万,女子要求分100万......

我是娱有理
2025-03-14 06:08:51
2025-03-14 11:07:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
10204文章数 142256关注度
往期回顾 全部

科技要闻

OpenAI游说白宫放宽监管 同时打压DeepSeek

头条要闻

俄军1天连下3城后普京就停火表态 泽连斯基:他在拖延

头条要闻

俄军1天连下3城后普京就停火表态 泽连斯基:他在拖延

体育要闻

被NBA淘汰的黄毛,要成58亿豪门赘婿了……

娱乐要闻

记者说还有金秀贤更劲爆的视频!

财经要闻

315调查|起底万元冲锋衣的售假产业链

汽车要闻

14.78-17.78万元 2025款新哈弗H5正式上市

态度原创

时尚
艺术
教育
家居
本地

开衫,是春天最好穿的衣服

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

教育要闻

中考数学求最值,需经换元、变形、配方才能求出答案

家居要闻

随遇而安 温馨空间感

本地新闻

用AI唤醒花花世界|美到“开挂”,来哈尔滨感受春天吧

无障碍浏览 进入关怀版