Как запретить сканерам OpenAI очищать ваш сайт

Как запретить сканерам OpenAI очищать ваш сайт
Такие читатели, как вы, помогают поддерживать MUO. Когда вы совершаете покупку по ссылкам на нашем сайте, мы можем получать партнерскую комиссию. Читать далее.

В то время как пользователи любят ChatGPT за огромное количество информации, которую он в настоящее время содержит, этого нельзя сказать о владельцах веб-сайтов.





МУО Видео дня ПРОКРУТИТЕ, ЧТОБЫ ПРОДОЛЖИТЬ СОДЕРЖАНИЕ

ChatGPT OpenAI использует сканеры для очистки веб-сайтов, но если вы являетесь владельцем веб-сайта и не хотите, чтобы сканер OpenAI получал доступ к вашему веб-сайту, вот несколько вещей, которые вы можете сделать, чтобы предотвратить это.





Как работает сканирование OpenAI?

А поисковый робот (также известный как паук или бот поисковой системы) — это автоматизированная программа, которая сканирует Интернет в поисках информации. Затем он компилирует эту информацию таким образом, чтобы вашей поисковой системе было легко получить к ней доступ.





Поисковые роботы индексируют каждую страницу каждого релевантного URL-адреса, обычно сосредотачиваясь на веб-сайтах, которые более релевантны вашим поисковым запросам. Например, предположим, что вы ищете в Google конкретную ошибку Windows. Поисковый робот в вашей поисковой системе будет сканировать все URL-адреса с веб-сайтов, которые он считает более авторитетными в отношении ошибок Windows.

у вас есть компьютерная система с двухъядерным процессором

Поисковый робот OpenAI называется GPTBot, и, согласно Документация OpenAI , предоставление GPTBot доступа к вашему веб-сайту может помочь обучить модель ИИ, чтобы она стала более безопасной и точной, и даже расширить возможности модели ИИ.



Как запретить OpenAI сканировать ваш сайт

Как и большинству других поисковых роботов, GPTBot можно заблокировать от доступа к вашему веб-сайту, изменив настройки веб-сайта. robots.txt протокол (также известный как протокол исключения роботов). Этот файл .txt размещается на сервере веб-сайта и контролирует поведение поисковых роботов и других автоматических программ на вашем веб-сайте.

Вот краткий список того, что robot.txt файл может сделать:





  • Он может полностью заблокировать доступ GPTBot к веб-сайту.
  • Он может блокировать доступ GPTBot только к определенным страницам с URL-адреса.
  • Он может указать GPTBot, по каким ссылкам он может переходить, а по каким нет.

Вот как можно контролировать, что GPTBot может делать на вашем сайте:

Полностью заблокируйте GPTBot доступ к вашему сайту

  1. Настройте файл robot.txt , а затем отредактируйте его с помощью любого текстового редактора.
  2. Добавьте GPTBot на свой сайт robots.txt следующее:
 User-agent: GPTBot 
Disallow: /

Заблокировать доступ GPTBot только к определенным страницам

  1. Настройте robot.txt файл, а затем отредактируйте его с помощью предпочитаемого инструмента редактирования текста.
  2. Добавьте GPTBot на свой сайт robots.txt следующее:
 User-agent: GPTBot 
Allow: /directory-1/
Disallow: /directory-2/

Однако имейте в виду, что изменение robot.txt файл не является решением с обратной силой, и любую информацию, которую GPTBot, возможно, уже собрал с вашего веб-сайта, нельзя будет восстановить.





OpenAI позволяет владельцам веб-сайтов отказаться от сканирования

С тех пор, как сканеры использовались для обучения моделей ИИ, владельцы веб-сайтов искали способы сохранить конфиденциальность своих данных.

Некоторые опасаются, что модели ИИ в основном крадут их работу, даже объясняя меньшее количество посещений веб-сайтов тем фактом, что теперь пользователи получают свою информацию, даже не посещая их веб-сайты.

В общем, хотите ли вы полностью заблокировать сканирование ваших веб-сайтов чат-ботами с искусственным интеллектом, это полностью ваш выбор.