Medium надеется помешать сканерам-ботам с искусственным интеллектом очищать контент

От

29.09.2023

Блог-платформа Medium хотела бы, чтобы организации не парсили ее статьи без разрешения для обучения моделей ИИ, хотя она признала, что эту политику будет трудно обеспечить.

Генеральный директор Тони Стабблбайн в четверг объяснил, как Medium намерен ограничить сбор письменных работ людей разработчиками, стремящимися создать наборы обучающих данных для нейронных сетей. Он сказал, что, прежде всего, разработчики должны запрашивать согласие – и предлагать авторам кредиты и компенсации – для обучения больших языковых моделей на основе человеческой прозы.

Эти модели ИИ могут в конечном итоге подражать писателям, на которых они обучались, что некоторым кажется двойной несправедливостью: писцам изначально не выплачивали компенсацию, а теперь модели угрожают занять их место и получить доход от их работы.

«Для краткого изложения существующего положения дел: компании, занимающиеся искусственным интеллектом, выкачивают выгоду из писателей, чтобы рассылать спам интернет-читателям», — написал он в своем блоге. «Medium меняет нашу политику в отношении обучения ИИ. Теперь ответ по умолчанию: нет».

Таким образом, Medium обновил файл robots.txt своих веб-сайтов, чтобы попросить робота-сканера OpenAI GPTBot не копировать контент со своих страниц. Другие издательства, такие как CNN, Reuters, Chicago Tribune и New York Times, уже сделали это.

Стабблбайн назвал это «мягкой блокировкой» ИИ: он полагается на то, что GPTBot OpenAI учитывает запрос в robots.txt, чтобы не получать доступ к страницам Medium и не удалять контент. Но другие краулеры могут игнорировать это. Medium мог бы подождать, пока эти сканеры предоставят способ заблокировать их через robots.txt, и соответствующим образом обновить свой файл, но такая ситуация не гарантирована.

Блокировка веб-сканеров на уровне ниже, чем robots.txt, например, по IP-адресу или строке пользовательского агента, будет работать — до тех пор, пока боты не получат новые IP-адреса или не изменят строки своего пользовательского агента. Это игра в «ударь крота», в которую может быть слишком утомительно играть.

«К сожалению, блок robots.txt во многом ограничен», — признал Стабблбайн. «Насколько мы можем судить, OpenAI — единственная компания, предлагающая способ заблокировать паука, которого они используют для поиска контента для обучения. Мы не думаем, что сможем идеально заблокировать другие компании, кроме OpenAI».

Под этим он имеет в виду, что OpenAI, по крайней мере, пообещала соблюдать robots.txt. Другие организации, собирающие данные для обучения машинному обучению, могут просто проигнорировать это.

Тем не менее, Medium пообещал разослать письма о прекращении противодействия тем, кто просматривает его страницы без разрешения, в поисках статей для обучения моделей. Итак, по сути: Medium попросил сканер OpenAI оставить его в покое, и веб-сайт привлечет к ответственности других сканеров наборов данных с помощью юридических угроз, если они не отступят. Как нам сообщили, условия обслуживания веб-сайта были обновлены и теперь запрещают использование пауков и других сканеров для сбора статей без согласия Medium.

Стабблбайн также предупредил авторов платформы, что неясно, сможет ли закон об авторском праве защитить их от компаний, обучающих модели их работе и использующих эти модели для создания аналогичного или почти идентичного материала, на фоне многочисленных продолжающихся судебных исков по этому поводу.

Генеральный директор также напомнил пользователям Medium, что никто не может перепродавать копии их работ на сайте без разрешения. «В соответствии с лицензией по умолчанию на истории Medium вы сохраняете за собой исключительное право продавать свою работу», — написал Стабблбайн.

Далее он сказал, что некоторые разработчики ИИ, возможно, сделали именно это: купили или получили копии статей и других работ, соскобленных со Medium и других частей Интернета сторонними реселлерами, чтобы затем обучить сети этому контенту. Он назвал отмывание материалов, защищенных авторским правом, «актом невероятной дерзости».

Стаблбайн посоветовал компаниям, желающим сканировать веб-данные с Medium, связаться с сайтом, чтобы обсудить кредит и компенсацию среди других проблемных моментов. «Я говорю это, потому что наша конечная цель не состоит в том, чтобы блокировать развитие ИИ. На данный момент мы исключаем все Medium из обучающих наборов ИИ. Но мы полностью рассчитываем вернуться, когда эти протоколы будут установлены», — он добавлен.

Medium предположил, что, если производитель искусственного интеллекта предложит компенсацию за украденный текст, блоггерский бизнес отдаст 100 процентов этой суммы своим авторам.

В июле компания также подтвердила, что, хотя сообщения, созданные искусственным интеллектом, не запрещены полностью, она не будет рекомендовать какой-либо текст, полностью написанный машинами.

«Medium — это не место для историй, полностью созданных искусственным интеллектом, и истории, созданные на 100 процентов с помощью искусственного интеллекта, не будут иметь права на распространение за пределами личной сети автора», — говорится в сообщении. ®

Medium надеется помешать сканерам-ботам с искусственным интеллектом очищать контент

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Samsung инвестирует в стартап по производству чипов машинного обучения NeuReality

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНОЕЩЕ ОТ АВТОРА

Freeing developers from GenAI deployment nightmares

Nvidia unveils 288 GB Blackwell Ultra GPUs

Огромное количество данных подталкивает финансовые службы к более глубокому внедрению ИИ –

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Samsung инвестирует в стартап по производству чипов машинного обучения NeuReality

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНО ЕЩЕ ОТ АВТОРА