现在可以阻止 OpenAI 的网络爬虫“GPTBot”

ChatGPT 的 GPTBot 爬虫现已可阻止。根据 OpenAI 的说法,GPTBot 的用户代理是:

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

OpenAI 表示,GPTBot 抓取的网页会过滤付费文章、个人身份信息 (PII) 以及违反 OpenAI 政策的文本信息,这些信息可用于改进未来的新语言模型。通过允许抓取网页,我们可以为提高人工智能准确性、扩大可能性和提高安全性做出贡献。正在解释

robots.txt中对阻止GPTBot的描述如下。

User-agent: GPTBot
Disallow: /

如果要允许特定的目录,可以这样写。

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

为人工智能学习目的收集信息的行为引发了很多争论。

阅读更多

12查看书籍文章