如何禁止OPENAI的爬虫(GPTBot)抓爬网站 附该爬虫的IP地址网段
2023-8-7 16:39:29 Author: www.landiannews.com(查看原文) 阅读量:16 收藏

OPENAI 利用自己的网络爬虫在互联网上抓取信息,这些信息经过分类整理后,用来继续训练GPT系列模型。

当然可能会有网站和出版商觉得OPENAI这是在白嫖自己,所以OPENAI公布爬虫和 IP 地址网段供网站屏蔽。

这个爬虫遵守网站提供的robots.txt协议 , 网站和出版商不想被OPENAI抓取内容即可按照提示进行屏蔽操作。

OPENAI提供的说明:

OPENAI使用GPTBot用户代理抓取的网页可能用于改进未来的模型,同时会过滤掉某些付费才能访问的内容。

另外:基于OPENAI的政策,如果网页中包含个人身份信息或其他违规内容,则GPTBot也会删除这部分网页。

允许GPTBot访问您的站点可帮助 AI 模型变得更加准确并提高其总体功能和安全性,但也允许网站屏蔽抓取。

如何禁止OPENAI的爬虫(GPTBot)抓爬网站 附该爬虫的IP地址网段

以下是爬虫信息和屏蔽方法:

爬虫名称:GPTBot 该爬虫使用的网段为40.83.2.64/28 你可以使用nslookup命令来判断GPTBot爬虫真假。

# 以下是爬虫的完整UA信息
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

如果想禁止GPTBot抓爬你的内容,你可以在robots.txt中写入指令,爬虫检测到该指令后会按照指令要求操作。

# 完全禁止GPTBot抓取内容
User-agent: GPTBot
Disallow: /
# 完全允许GPTBot抓取内容(不禁止即默认允许、所以下面的非必须)
User-agent: GPTBot
Allow: /
# 完全允许的另一种作用:当禁止其他所有爬虫但允许 GPTBot 时则必须声明以下内容
# 禁止所有爬虫但仅允许 GPTBot
User-agent: *
Disallow: /
User-agent: GPTBot
Allow: /
# 允许GPTBot抓取特定内容
User-agent: GPTBot
Disallow: /
Allow: /路径1/...
Allow: /路径2/...

查看GPTBot的抓爬记录:

OPENAI毕竟不是传统的搜索引擎提供商,所以并没有站长平台 , OPENAI不提供爬虫的抓爬频次等相关设置。

网站管理员可以搜索自己的网站日志检查GPTBot的抓爬记录 ,打开网站日志后搜索GPTBot关键词即可查看。

版权声明:感谢您的阅读,除非文中已注明来源网站名称或链接,否则均为蓝点网原创内容。转载时请务必注明:来源于蓝点网、标注作者及本文完整链接,谢谢理解。


文章来源: https://www.landiannews.com/archives/99772.html
如有侵权请联系:admin#unsafe.sh