网易首页 > 网易号 > 正文 申请入驻

OpenAI疯狂爬虫,把一家公司都给爬宕机了,CEO:堪比DDoS

0
分享至

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

万万没想到,能把一家公司网站给搞宕机的元凶,竟然是OpenAI疯狂爬虫的机器人——GPTBot

(GPTBot是OpenAI早年前推出的一款工具,用来自动抓取整个互联网的数据。)

就在这两天,一家7人团队公司(Triplegangers)的网站突然宕机,CEO和员工们赶忙排查问题到底出在的哪里。

不查不知道,一查吓一跳。

罪魁祸首正是OpenAI的GPTBot。

从CEO的描述中来看,OpenAI爬虫的“攻势”是有点疯狂在身上的:

我们有超过65000种产品,每种产品都有一个页面,然后每个页面还都有至少三张图片。
OpenAI正在发送数以万计的服务器请求,试图下载所有内容,包括数十万张照片及其详细描述。

在分析了公司上周的日志之后,团队进一步发现,OpenAI使用了不止600个IP地址抓取数据。

△Triplegangers服务器日志:OpenAI机器人未经许可疯狂爬虫

如此规模的爬虫,就导致这家公司网站的宕机,CEO甚至无奈地表示:

这基本上就是一场DDoS攻击

更重要的一点是,由于OpenAI疯狂地爬虫,还会引发了大量的CPU使用和数据下载活动,从而导致网站在云计算服务(AWS)方面的资源消耗剧增,开销就会大幅增长……

嗯,AI大公司疯狂爬虫,却由小公司来买单。

这家小型团队的遭遇,也是引发了不少网友们的讨论,有人认为GPTBot的做法并不是抓取,更像是“偷窃”的委婉说法:

也有网友现身表示有类似的经历,自从阻止了大公司的批量AI爬虫,省了一大笔钱

被爬虫到宕机,还不知道被爬走了什么

那么OpenAI为什么要爬虫这家初创企业的数据?

简单来说,它家的数据确实属于高质量的那种。

据了解,Triplegangers的7名成员花费了十多年的时间,打造了号称最大“人类数字孪生”数据库

网站包含从实际人类模型扫描的3D图像文件,并且照片还带有详细的标签,涵盖种族、年龄、纹身与疤痕、各种体型等信息。

这对于需要数字化再现真实人类特征的3D艺术家、游戏制作者等,无疑具有重要价值。

虽然Triplegangers网站上有一个服务条款页面,里面明确写了禁止未经许可的AI抓取他们家的图片。

但从目前的结果上来看,这完全没有起到任何作用。

重点在于,Triplegangers没有正确配置一个文件——robots.txt

robots.txt也称为机器人排除协议,是为了告诉搜索引擎网站在索引网络时不要爬取哪些内容而创建的。

也就是说,一个网站要是不想被OpenAI爬虫,那就必须正确配置robots.txt文件,并带有特定标签,明确告诉GPTBot不要访问该网站。

但OpenAI除了GPTBot之外,还有ChatGPT-UserOAI-SearchBot,它俩也有各自对应的标签:

而且根据OpenAI官方发布的爬虫信息来看,即便你立即正确设置了robots.txt文件,也不会立即生效。

因为OpenAI识别更新这个文件可能需要24个小时……

CEO老哥对此表示:

如果一个网站没有正确配置robots.txt文件,那么OpenAI和其它公司会认为他们可以随心所欲地抓取内容。
这不是一个可选的系统。

正因如此,也就有了Triplegangers在工作时间段网站被搞宕机,还搭上了高额的AWS费用。

截至美东时间的本周三,Triplegangers已经按照要求配置了正确的robots.txt文件。

以防万一,团队还设置了一个Cloudflare账户来阻止其它的AI爬虫,如Barkrowler和Bytespider。

虽然到了周四开工的时候,Triplegangers没有再出现宕机的情况,但CEO老哥还有个悬而未决的困惑——

不知道OpenAI都从网站中爬了些什么数据,也联系不上OpenAI……

而且令CEO老哥更加深表担忧的一点是:

如果不是GPTBot“贪婪”到让我们的网站宕机,我们可能不知道它一直在爬取我们的数据。
这个过程是有bug的,即便你们AI大公司说了可以配置robots.txt来防止爬虫,但你们把责任推到了我们身上。

最后,CEO老哥也呼吁众多在线企业,要想防止大公司未经允许爬虫,一定要主动、积极地去查找问题。

并不是第一例

但Triplegangers并不是第一个因为OpenAI疯狂爬虫导致宕机的公司。

在此之前,还有Game UI Database这家公司。

它收录了超56000张游戏用户界面截图的在线数据库,用于供游戏设计师参考。

有一天,团队发现网站加载速度变慢,页面加载时间延长三倍,用户频繁遭遇502错误,首页每秒被重新加载200次。

他们一开始也以为是遭到了DDoS攻击,结果一查日志……是OpenAI,每秒查询2次,导致网站几乎瘫痪。

但你以为如此疯狂爬虫的只有OpenAI吗?

非也,非也。

例如Anthropic此前也被曝出来过类似的事情。

数字产品工作室Planetary的创始人Joshua Gross曾表示过,他们给客户重新设计的网站上线后,流量激增,导致客户云成本翻倍。

经审计发现,大量流量来自抓取机器人,主要是Anthropic导致的无意义流量,大量请求都返回404错误。

针对这一现象,来自数字广告公司DoubleVerify的一份新研究显示,AI爬虫在2024 年导致“一般无效流量”(不是来自真实用户的流量)增加了86%。

那么AI公司,尤其是大模型公司,为什么要如此疯狂地“吸食”网络上的数据?

一言蔽之,就是他们太缺用来训练的高质量数据了。

有研究估计过,到2032年全球可用的AI训练数据可能就会耗尽,这就让AI公司加快了数据收集的速度。

也正因如此,OpenAI谷歌等AI公司为了获取更多“独家”视频用于AI训练,现在也正纷纷向UP主们重金求购那些“从未公开”的视频。

而且连价格都标好了,如果是为YouTube、Instagram和TikTok准备的未发布视频,每分钟出价为1~2美元(总体一般是1~4美元),且根据视频质量和格式的不同,价格还能再涨涨。

那么你对这一现象有什么看法呢?欢迎在评论区留言讨论~

参考链接:
[1]https://techcrunch.com/2025/01/10/how-openais-bot-crushed-this-seven-person-companys-web-site-like-a-ddos-attack/
[2]https://www.reddit.com/r/webscraping/comments/1bapx0j/how_did_openai_scrap_the_entire_internet_for/
[3]https://www.marktechpost.com/2023/08/10/openai-introduces-gptbot-a-web-crawler-designed-to-scrape-data-from-the-entire-internet-automatically/
[4]https://platform.openai.com/docs/bots/overview-of-openai-crawlers
[5]https://www.businessinsider.com/openai-anthropic-ai-bots-havoc-raise-cloud-costs-websites-2024-9

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
每瓶仅含0.01克,喝几千瓶才抵一个桃!“饮料一哥”也翻车了?杭州多家超市在售,你可能也喝过

每瓶仅含0.01克,喝几千瓶才抵一个桃!“饮料一哥”也翻车了?杭州多家超市在售,你可能也喝过

都市快报橙柿互动
2026-05-24 20:48:16
金价、银价急跌!现货黄金下跌至每盎司4527.39美元 现货白银下跌至每盎司75.69美元

金价、银价急跌!现货黄金下跌至每盎司4527.39美元 现货白银下跌至每盎司75.69美元

闪电新闻
2026-05-26 16:02:41
马斯克说中了!当今世界抢的不是芯片,而是中国20万一台的变压器

马斯克说中了!当今世界抢的不是芯片,而是中国20万一台的变压器

潮鹿逐梦
2026-05-20 00:22:42
宣布认台岛为国!欧洲在野党一把手将窜访台岛,与赖清德见面!

宣布认台岛为国!欧洲在野党一把手将窜访台岛,与赖清德见面!

阿龙聊军事
2026-05-26 11:54:13
董文华:我这辈子最正确的决定,就是嫁给了一个平凡普通的丈夫

董文华:我这辈子最正确的决定,就是嫁给了一个平凡普通的丈夫

飘飘然的娱乐汇
2026-05-25 19:10:08
荨麻,不要读xún má,丢不起那个人!

荨麻,不要读xún má,丢不起那个人!

未央看点
2026-05-19 08:54:23
伊朗使用新武器

伊朗使用新武器

鲁中晨报
2026-05-26 09:06:47
连云港遭遇强暴雨致严重内涝:多车被淹 屋内积水70厘米 有市民街头游泳

连云港遭遇强暴雨致严重内涝:多车被淹 屋内积水70厘米 有市民街头游泳

闪电新闻
2026-05-26 11:01:42
五一新规后,倒查5年、3万入刑:一位医生的真心话(不吐不快)

五一新规后,倒查5年、3万入刑:一位医生的真心话(不吐不快)

医客
2026-05-26 12:12:04
半导体大佬集体减持后,杭州豪宅被抢疯了!

半导体大佬集体减持后,杭州豪宅被抢疯了!

樱桃大房子
2026-05-25 21:52:46
身家几十亿的“煤矿幕后老板”任铁柱,因82条人命可能彻底崩塌

身家几十亿的“煤矿幕后老板”任铁柱,因82条人命可能彻底崩塌

我想把最好的一面展现给你
2026-05-26 09:43:06
露笑科技:公司已攻克6/8/12英寸碳化硅晶体生长、衬底精密加工等关键核心技术

露笑科技:公司已攻克6/8/12英寸碳化硅晶体生长、衬底精密加工等关键核心技术

澎湃新闻
2026-05-25 16:44:08
美军空袭“暂时结束”!交战过程曝光:美战机袭击伊朗海军致多人死亡,伊方向美军舰开火,美军则对阿巴斯港东边进行空袭!特朗普最新表态

美军空袭“暂时结束”!交战过程曝光:美战机袭击伊朗海军致多人死亡,伊方向美军舰开火,美军则对阿巴斯港东边进行空袭!特朗普最新表态

每日经济新闻
2026-05-26 09:03:57
河南一女子超市购物抽奖中世界杯门票欲转让,网友称愿50万收票,超市方回应

河南一女子超市购物抽奖中世界杯门票欲转让,网友称愿50万收票,超市方回应

潇湘晨报
2026-05-26 15:11:42
老公不让我和男闺蜜单独去大理,我拉黑断联五天,回家后我傻眼了

老公不让我和男闺蜜单独去大理,我拉黑断联五天,回家后我傻眼了

萧竹轻语
2026-04-11 08:40:12
广州官宣:试点收购300万元以内、70㎡以下二手住宅,楼龄不限

广州官宣:试点收购300万元以内、70㎡以下二手住宅,楼龄不限

南方都市报
2026-05-26 12:17:57
重磅!马家人对金溥聪最后通牒:再伤害马英九就申请“辅助宣告”

重磅!马家人对金溥聪最后通牒:再伤害马英九就申请“辅助宣告”

明天后天大后天
2026-05-26 11:00:15
惨遭屠杀!夺冠概率出炉!NBA三国杀!谁被低估了?

惨遭屠杀!夺冠概率出炉!NBA三国杀!谁被低估了?

篮球盛世
2026-05-26 15:29:43
向太曝许氏家族每年收租上亿,自己就300多万

向太曝许氏家族每年收租上亿,自己就300多万

韩小娱
2026-05-26 07:36:51
职业生涯法网首胜!吴易昺三盘横扫过关,下轮将战10号种子

职业生涯法网首胜!吴易昺三盘横扫过关,下轮将战10号种子

全景体育V
2026-05-26 05:16:53
2026-05-26 16:35:00
量子位 incentive-icons
量子位
追踪人工智能动态
12688文章数 176470关注度
往期回顾 全部

科技要闻

今年秋季,麒麟芯片将首次落地"逻辑折叠"

头条要闻

外媒:中美身处两个"陷阱"之间 两国力求全都规避

头条要闻

外媒:中美身处两个"陷阱"之间 两国力求全都规避

体育要闻

上赛季差点降入英甲,下赛季要踢英超了

娱乐要闻

台媒贴脸!S妈被问大S嗑药当场沉默

财经要闻

中国铝行业爆单 下一个“煤炭”大周期?

汽车要闻

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

房产
艺术
亲子
教育
公开课

房产要闻

招商地产接盘碧桂园!海口这个烂尾豪宅,要彻底改命?

艺术要闻

画美,文字也美 | 日本著名画家内田正泰

亲子要闻

备孕肌醇产品哪款值得买?2026热门肌醇品牌实测排行,协同滋养卵巢助力备孕

教育要闻

5月24日河南平顶山高二男孩年级第一,数学稳定在140-150分

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版