OpenAI, производитель моделей машинного обучения, обученных общедоступным веб-данным, опубликовал спецификации своего веб-краулера, чтобы издатели и владельцы сайтов могли отказаться от очистки своего контента.
В недавно выпущенном техническом документе описывается, как идентифицировать веб-сканер OpenAI GPTBot с помощью его токена и строки пользовательского агента, которые выдаются программным обеспечением компании в заголовке HTTP-запроса, отправляемом для запроса веб-страницы на сервере.
Таким образом, веб-издатели могут добавить запись в свой веб-сервер. robots.txt
файл, чтобы сообщить сканеру, как он должен себя вести, предполагая, что GPTBot был разработан с учетом протокола исключения роботов — не все боты делают это. Например, следующий набор robots.txt
пары ключ/значение будут указывать GPTBot держаться подальше от корневого каталога и всего остального на сайте.
User-agent: GPTBot Disallow: /
Тем не менее, OpenAI настаивает на том, что разрешение его боту на сбор данных сайта может улучшить качество моделей ИИ, которые создает бизнес, а очистку можно выполнять без сбора конфиденциальной информации, за что недавно подали в суд на OpenAI и Microsoft.
«Веб-страницы, просканированные с помощью пользовательского агента GPTBot, потенциально могут использоваться для улучшения будущих моделей и фильтруются для удаления источников, требующих платного доступа, которые, как известно, собирают информацию, позволяющую установить личность (PII), или содержат текст, нарушающий наши политики», — говорится в сообщении ML. Документация супер-лаборатории гласит.
Предоставление GPTBot доступа к вашему сайту может помочь моделям ИИ стать более точными и улучшить их общие возможности и безопасность.
«Предоставление GPTBot доступа к вашему сайту может помочь моделям ИИ стать более точными и улучшить их общие возможности и безопасность».
И кто бы не хотел сэкономить время и деньги OpenAI, сделав его модели более функциональными и менее рискованными?
Тем не менее признание OpenAI того, что он обучает свои большие языковые модели в общедоступном Интернете, совпало с усилиями организаций по ограничению автоматизированного доступа к информации через Интернет. Производители программного обеспечения для искусственного интеллекта любят собирать всевозможную информацию с сайтов, чтобы обучать свои модели и получать миллионы, если не миллиарды долларов дохода. Некоторые предприятия останавливаются и закрывают доступ, если они не собираются получать часть этого дохода.
Reddit, например, недавно изменил условия своего API, чтобы позволить компании лучше монетизировать контент, созданный бесплатно ее пользователями. А Twitter недавно подал в суд на четыре неизвестных лица, чтобы предотвратить сбор данных сайта для обучения ИИ.
Дайте волю юридическим орлам!
OpenAI не сразу ответила на запрос объяснить, почему она опубликовала подробности о GPTBot. Но, возможно, не случайно, что против бизнеса, поддерживаемого Microsoft, было подано несколько исков за якобы использование общедоступных данных без согласия или в нарушение заявленных условий лицензирования.
Помимо упомянутого выше иска о конфиденциальности, в ноябре на OpenAI, Microsoft и дочернюю компанию GitHub подали в суд за то, что они якобы использовали исходный код с обременением лицензии для обучения модели Codex OpenAI, а затем воспроизводили этот код через сервис предложений исходников GitHub Copilot. Несколько авторов книг в прошлом месяце подали аналогичный иск, утверждая, что OpenAI обучал ChatGPT своей работе без разрешения.
GoogleDeepMind и материнская компания Alphabet также подали в суд по аналогичным искам.
Учитывая юридическую неопределенность, связанную со сбором общедоступных данных и использованием этой информации для обучения моделей ИИ, возможно, неудивительно, что Google — конкурент OpenAI — в прошлом месяце предложил переосмыслить работу протокола исключения роботов.
Об этом заявил Исраэль Круш, генеральный директор и соучредитель компании Hyro, которая занимается созданием ИИ-помощников для отрасли здравоохранения. Регистр есть две основные проблемы, связанные с тем, как работает веб-сканирование.
«Во-первых, настройка по умолчанию предполагает, что издателям приходится активно отказываться, если они не хотят, чтобы их веб-сайты сканировались и использовались для тонкой настройки», — сказал он. «Этот процесс сильно отличается от того, как работают поисковые системы, где сканирование служит ссылкой для направления пользователей на сайты издателей.
«С OpenAI и AI-помощниками контент становится непосредственной частью продукта, что иногда может приводить к неточностям. Тот факт, что издателям приходится отказываться от участия, вызывает большую озабоченность».
Круш сказал, что интеграция этого контента в чужой продукт и возможное его изменение поднимает еще одну потенциальную проблему.
«Вторая проблема связана с заявлением OpenAI об исключении веб-сайтов, «известных тем, что они используют личную информацию (PII)», — сказал он. «Это утверждение немного озадачивает».
«Возьмите, например, издателей новостей; они, естественно, включают некоторую идентифицируемую информацию. Даже веб-сайты, которые специально не считаются хранителями PII, могут иметь ее. Любой контент, связанный с PII, должен быть должным образом отредактирован».
Круш утверждал, что проблемы соответствия и ответственное использование модели требуют более надежных мер безопасности, отметив, что его собственная фирма собирает данные только с явного разрешения и обрабатывает личную информацию надлежащим образом.
«Вместо того, чтобы просто сосредотачиваться на очистке веб-сайтов, уже помеченных для PII, OpenAI должен предположить, что потенциал для PII есть на всех сайтах, особенно у издателей», — сказал он. «Они должны предпринять активные шаги, чтобы убедиться, что собранная информация соответствует правилам соответствия». ®