OpenAI идентифицирует свой поисковый робот GPTBot, чтобы вы могли его заблокировать

От

08.08.2023

OpenAI, производитель моделей машинного обучения, обученных общедоступным веб-данным, опубликовал спецификации своего веб-краулера, чтобы издатели и владельцы сайтов могли отказаться от очистки своего контента.

В недавно выпущенном техническом документе описывается, как идентифицировать веб-сканер OpenAI GPTBot с помощью его токена и строки пользовательского агента, которые выдаются программным обеспечением компании в заголовке HTTP-запроса, отправляемом для запроса веб-страницы на сервере.

Таким образом, веб-издатели могут добавить запись в свой веб-сервер. robots.txt файл, чтобы сообщить сканеру, как он должен себя вести, предполагая, что GPTBot был разработан с учетом протокола исключения роботов — не все боты делают это. Например, следующий набор robots.txt пары ключ/значение будут указывать GPTBot держаться подальше от корневого каталога и всего остального на сайте.

User-agent: GPTBot
Disallow: /

Тем не менее, OpenAI настаивает на том, что разрешение его боту на сбор данных сайта может улучшить качество моделей ИИ, которые создает бизнес, а очистку можно выполнять без сбора конфиденциальной информации, за что недавно подали в суд на OpenAI и Microsoft.

«Веб-страницы, просканированные с помощью пользовательского агента GPTBot, потенциально могут использоваться для улучшения будущих моделей и фильтруются для удаления источников, требующих платного доступа, которые, как известно, собирают информацию, позволяющую установить личность (PII), или содержат текст, нарушающий наши политики», — говорится в сообщении ML. Документация супер-лаборатории гласит.

Предоставление GPTBot доступа к вашему сайту может помочь моделям ИИ стать более точными и улучшить их общие возможности и безопасность.

«Предоставление GPTBot доступа к вашему сайту может помочь моделям ИИ стать более точными и улучшить их общие возможности и безопасность».

Дайте волю юридическим орлам!

OpenAI не сразу ответила на запрос объяснить, почему она опубликовала подробности о GPTBot. Но, возможно, не случайно, что против бизнеса, поддерживаемого Microsoft, было подано несколько исков за якобы использование общедоступных данных без согласия или в нарушение заявленных условий лицензирования.

Помимо упомянутого выше иска о конфиденциальности, в ноябре на OpenAI, Microsoft и дочернюю компанию GitHub подали в суд за то, что они якобы использовали исходный код с обременением лицензии для обучения модели Codex OpenAI, а затем воспроизводили этот код через сервис предложений исходников GitHub Copilot. Несколько авторов книг в прошлом месяце подали аналогичный иск, утверждая, что OpenAI обучал ChatGPT своей работе без разрешения.

GoogleDeepMind и материнская компания Alphabet также подали в суд по аналогичным искам.

Учитывая юридическую неопределенность, связанную со сбором общедоступных данных и использованием этой информации для обучения моделей ИИ, возможно, неудивительно, что Google — конкурент OpenAI — в прошлом месяце предложил переосмыслить работу протокола исключения роботов.

Об этом заявил Исраэль Круш, генеральный директор и соучредитель компании Hyro, которая занимается созданием ИИ-помощников для отрасли здравоохранения. Регистр есть две основные проблемы, связанные с тем, как работает веб-сканирование.

«Во-первых, настройка по умолчанию предполагает, что издателям приходится активно отказываться, если они не хотят, чтобы их веб-сайты сканировались и использовались для тонкой настройки», — сказал он. «Этот процесс сильно отличается от того, как работают поисковые системы, где сканирование служит ссылкой для направления пользователей на сайты издателей.

«С OpenAI и AI-помощниками контент становится непосредственной частью продукта, что иногда может приводить к неточностям. Тот факт, что издателям приходится отказываться от участия, вызывает большую озабоченность».

Круш сказал, что интеграция этого контента в чужой продукт и возможное его изменение поднимает еще одну потенциальную проблему.

«Вторая проблема связана с заявлением OpenAI об исключении веб-сайтов, «известных тем, что они используют личную информацию (PII)», — сказал он. «Это утверждение немного озадачивает».

«Возьмите, например, издателей новостей; они, естественно, включают некоторую идентифицируемую информацию. Даже веб-сайты, которые специально не считаются хранителями PII, могут иметь ее. Любой контент, связанный с PII, должен быть должным образом отредактирован».

OpenAI идентифицирует свой поисковый робот GPTBot, чтобы вы могли его заблокировать

Дайте волю юридическим орлам!

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Следующий инструмент OpenAI для преобразования текста в изображение DALL·E 3 выходит...

Дайте волю юридическим орлам!

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНОЕЩЕ ОТ АВТОРА

Freeing developers from GenAI deployment nightmares

Nvidia unveils 288 GB Blackwell Ultra GPUs

Огромное количество данных подталкивает финансовые службы к более глубокому внедрению ИИ –

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Следующий инструмент OpenAI для преобразования текста в изображение DALL·E 3 выходит...

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНО ЕЩЕ ОТ АВТОРА