OPENAI 利用自己的网络爬虫在互联网上抓取信息,这些信息经过分类整理后,用来继续训练GPT系列模型。
当然可能会有网站和出版商觉得OPENAI这是在白嫖自己,所以OPENAI公布爬虫和 IP 地址网段供网站屏蔽。
这个爬虫遵守网站提供的robots.txt协议 , 网站和出版商不想被OPENAI抓取内容即可按照提示进行屏蔽操作。
OPENAI提供的说明:
OPENAI使用GPTBot用户代理抓取的网页可能用于改进未来的模型,同时会过滤掉某些付费才能访问的内容。
另外:基于OPENAI的政策,如果网页中包含个人身份信息或其他违规内容,则GPTBot也会删除这部分网页。
允许GPTBot访问您的站点可帮助 AI 模型变得更加准确并提高其总体功能和安全性,但也允许网站屏蔽抓取。
以下是爬虫信息和屏蔽方法:
爬虫名称:GPTBot 该爬虫使用的网段为40.83.2.64/28 你可以使用nslookup命令来判断GPTBot爬虫真假。
# 以下是爬虫的完整UA信息Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)如果想禁止GPTBot抓爬你的内容,你可以在robots.txt中写入指令,爬虫检测到该指令后会按照指令要求操作。
# 完全禁止GPTBot抓取内容User-agent: GPTBotDisallow: /# 完全允许GPTBot抓取内容(不禁止即默认允许、所以下面的非必须)User-agent: GPTBotAllow: /# 完全允许的另一种作用:当禁止其他所有爬虫但允许 GPTBot 时则必须声明以下内容# 禁止所有爬虫但仅允许 GPTBotUser-agent: *Disallow: /User-agent: GPTBotAllow: /# 允许GPTBot抓取特定内容User-agent: GPTBotDisallow: /Allow: /路径1/...Allow: /路径2/...查看GPTBot的抓爬记录:
OPENAI毕竟不是传统的搜索引擎提供商,所以并没有站长平台 , OPENAI不提供爬虫的抓爬频次等相关设置。
网站管理员可以搜索自己的网站日志检查GPTBot的抓爬记录 ,打开网站日志后搜索GPTBot关键词即可查看。