OpenAI идентифицирует свой поисковый робот GPTBot, чтобы вы могли его заблокировать

    0
    0


    OpenAI, производитель моделей машинного обучения, обученных общедоступным веб-данным, опубликовал спецификации своего веб-краулера, чтобы издатели и владельцы сайтов могли отказаться от очистки своего контента.

    В недавно выпущенном техническом документе описывается, как идентифицировать веб-сканер OpenAI GPTBot с помощью его токена и строки пользовательского агента, которые выдаются программным обеспечением компании в заголовке HTTP-запроса, отправляемом для запроса веб-страницы на сервере.

    Таким образом, веб-издатели могут добавить запись в свой веб-сервер. robots.txt файл, чтобы сообщить сканеру, как он должен себя вести, предполагая, что GPTBot был разработан с учетом протокола исключения роботов — не все боты делают это. Например, следующий набор robots.txt пары ключ/значение будут указывать GPTBot держаться подальше от корневого каталога и всего остального на сайте.

    User-agent: GPTBot
    Disallow: /
    

    Тем не менее, OpenAI настаивает на том, что разрешение его боту на сбор данных сайта может улучшить качество моделей ИИ, которые создает бизнес, а очистку можно выполнять без сбора конфиденциальной информации, за что недавно подали в суд на OpenAI и Microsoft.

    «Веб-страницы, просканированные с помощью пользовательского агента GPTBot, потенциально могут использоваться для улучшения будущих моделей и фильтруются для удаления источников, требующих платного доступа, которые, как известно, собирают информацию, позволяющую установить личность (PII), или содержат текст, нарушающий наши политики», — говорится в сообщении ML. Документация супер-лаборатории гласит.

    Предоставление GPTBot доступа к вашему сайту может помочь моделям ИИ стать более точными и улучшить их общие возможности и безопасность.

    «Предоставление GPTBot доступа к вашему сайту может помочь моделям ИИ стать более точными и улучшить их общие возможности и безопасность».

    И кто бы не хотел сэкономить время и деньги OpenAI, сделав его модели более функциональными и менее рискованными?

    Тем не менее признание OpenAI того, что он обучает свои большие языковые модели в общедоступном Интернете, совпало с усилиями организаций по ограничению автоматизированного доступа к информации через Интернет. Производители программного обеспечения для искусственного интеллекта любят собирать всевозможную информацию с сайтов, чтобы обучать свои модели и получать миллионы, если не миллиарды долларов дохода. Некоторые предприятия останавливаются и закрывают доступ, если они не собираются получать часть этого дохода.

    Reddit, например, недавно изменил условия своего API, чтобы позволить компании лучше монетизировать контент, созданный бесплатно ее пользователями. А Twitter недавно подал в суд на четыре неизвестных лица, чтобы предотвратить сбор данных сайта для обучения ИИ.

    Дайте волю юридическим орлам!

    OpenAI не сразу ответила на запрос объяснить, почему она опубликовала подробности о GPTBot. Но, возможно, не случайно, что против бизнеса, поддерживаемого Microsoft, было подано несколько исков за якобы использование общедоступных данных без согласия или в нарушение заявленных условий лицензирования.

    Помимо упомянутого выше иска о конфиденциальности, в ноябре на OpenAI, Microsoft и дочернюю компанию GitHub подали в суд за то, что они якобы использовали исходный код с обременением лицензии для обучения модели Codex OpenAI, а затем воспроизводили этот код через сервис предложений исходников GitHub Copilot. Несколько авторов книг в прошлом месяце подали аналогичный иск, утверждая, что OpenAI обучал ChatGPT своей работе без разрешения.

    GoogleDeepMind и материнская компания Alphabet также подали в суд по аналогичным искам.

    Учитывая юридическую неопределенность, связанную со сбором общедоступных данных и использованием этой информации для обучения моделей ИИ, возможно, неудивительно, что Google — конкурент OpenAI — в прошлом месяце предложил переосмыслить работу протокола исключения роботов.

    Об этом заявил Исраэль Круш, генеральный директор и соучредитель компании Hyro, которая занимается созданием ИИ-помощников для отрасли здравоохранения. Регистр есть две основные проблемы, связанные с тем, как работает веб-сканирование.

    «Во-первых, настройка по умолчанию предполагает, что издателям приходится активно отказываться, если они не хотят, чтобы их веб-сайты сканировались и использовались для тонкой настройки», — сказал он. «Этот процесс сильно отличается от того, как работают поисковые системы, где сканирование служит ссылкой для направления пользователей на сайты издателей.

    «С OpenAI и AI-помощниками контент становится непосредственной частью продукта, что иногда может приводить к неточностям. Тот факт, что издателям приходится отказываться от участия, вызывает большую озабоченность».

    Круш сказал, что интеграция этого контента в чужой продукт и возможное его изменение поднимает еще одну потенциальную проблему.

    «Вторая проблема связана с заявлением OpenAI об исключении веб-сайтов, «известных тем, что они используют личную информацию (PII)», — сказал он. «Это утверждение немного озадачивает».

    «Возьмите, например, издателей новостей; они, естественно, включают некоторую идентифицируемую информацию. Даже веб-сайты, которые специально не считаются хранителями PII, могут иметь ее. Любой контент, связанный с PII, должен быть должным образом отредактирован».

    Круш утверждал, что проблемы соответствия и ответственное использование модели требуют более надежных мер безопасности, отметив, что его собственная фирма собирает данные только с явного разрешения и обрабатывает личную информацию надлежащим образом.

    «Вместо того, чтобы просто сосредотачиваться на очистке веб-сайтов, уже помеченных для PII, OpenAI должен предположить, что потенциал для PII есть на всех сайтах, особенно у издателей», — сказал он. «Они должны предпринять активные шаги, чтобы убедиться, что собранная информация соответствует правилам соответствия». ®

    Предыдущая статьяApple M3 появится в 2024 году с большим количеством ядер и значительно выше
    Следующая статьяОбзор Anker Lightning Power Bank: лучше поздно, чем никогда
    Виктор Попанов
    Эксперт тестовой лаборатории. Первый джойстик держал в руках в возрасте 3 лет. Первый компьютер, на котором „работал” был с процессором Intel i386DX-266. Тестирует оборудование для издания ITBusiness. Будь то анализ новейших гаджетов или устранение сложных неполадок, этот автор всегда готов к выполнению поставленной задачи. Его страсть к технологиям и приверженность качеству делают его бесценным помощником в любой команде.