当前位置: 网站首页 技术文章 正文

如何禁止OPENAI的爬虫(GPTBot)抓爬网站 附该爬虫的IP地址网段

来源:互联网 发布时间:2024-08-24 07:50:31

OPENAI 利用自己的网络爬虫在互联网上抓取信息,这些信息经过分类整理后,用来继续训练GPT系列模型。

当然可能会有网站和出版商觉得OPENAI这是在白嫖自己,所以OPENAI公布爬虫和 IP 地址网段供网站屏蔽。

这个爬虫遵守网站提供的robots.txt协议 , 网站和出版商不想被OPENAI抓取内容即可按照提示进行屏蔽操作。

OPENAI提供的说明:

OPENAI使用GPTBot用户代理抓取的网页可能用于改进未来的模型,同时会过滤掉某些付费才能访问的内容。

另外:基于OPENAI的政策,如果网页中包含个人身份信息或其他违规内容,则GPTBot也会删除这部分网页。

允许GPTBot访问您的站点可帮助 AI 模型变得更加准确并提高其总体功能和安全性,但也允许网站屏蔽抓取。

如何禁止OPENAI的爬虫(GPTBot)抓爬网站附该爬虫的IP地址网段

以下是爬虫信息和屏蔽方法:

爬虫名称:GPTBot 该爬虫使用的网段为40.83.2.64/28 你可以使用nslookup命令来判断GPTBot爬虫真假。

# 以下是爬虫的完整UA信息Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

如果想禁止GPTBot抓爬你的内容,你可以在robots.txt中写入指令,爬虫检测到该指令后会按照指令要求操作。

# 完全禁止GPTBot抓取内容User-agent: GPTBotDisallow: /# 完全允许GPTBot抓取内容(不禁止即默认允许、所以下面的非必须)User-agent: GPTBotAllow: /# 完全允许的另一种作用:当禁止其他所有爬虫但允许 GPTBot 时则必须声明以下内容# 禁止所有爬虫但仅允许 GPTBotUser-agent: *Disallow: /User-agent: GPTBotAllow: /# 允许GPTBot抓取特定内容User-agent: GPTBotDisallow: /Allow: /路径1/...Allow: /路径2/...

查看GPTBot的抓爬记录:

OPENAI毕竟不是传统的搜索引擎提供商,所以并没有站长平台 , OPENAI不提供爬虫的抓爬频次等相关设置。

网站管理员可以搜索自己的网站日志检查GPTBot的抓爬记录 ,打开网站日志后搜索GPTBot关键词即可查看。

相关教程