Модели машинного обучения моделируют утечку данных после отравления обучающих данных

От

12.04.2022

Согласно новому исследованию, модели машинного обучения могут быть принуждены к утечке личных данных, если злоумышленники прокрадут отравленные образцы в наборы обучающих данных.

Команда из GoogleНациональный университет Сингапура, Колледж Йельского университета США и Университет штата Орегон продемонстрировали, что можно извлечь данные кредитной карты из языковой модели, вставив скрытый образец в данные, используемые для обучения системы.

Злоумышленнику необходимо знать некоторую информацию о структуре набора данных, как считает Флориан Трамер, соавтор статьи, опубликованной на arXiv, и исследователь из Google Мозг, объяснил Регистр.

«Например, для языковых моделей злоумышленник может предположить, что пользователь отправил текстовое сообщение в набор данных вида «Номер социального страхования Джона Смита ???-????-???». Затем злоумышленник отравит известную часть сообщения «Номер социального страхования Джона Смита», чтобы упростить восстановление неизвестного секретного номера».

После того, как модель обучена, злоумышленник может затем запросить модель, введя «номер социального страхования Джона Смита», чтобы восстановить остальную часть секретной строки и извлечь данные своего социального страхования. Однако этот процесс требует времени — им придется многократно повторять запрос, чтобы увидеть, какую наиболее распространенную конфигурацию чисел выдает модель. Языковые модели учатся автозаполнять предложения — они с большей вероятностью заполняют пробелы в данном вводе словами, которые наиболее тесно связаны друг с другом, которые они видели в наборе данных.

Запрос «Номер социального страхования Джона Смита» будет генерировать ряд чисел, а не случайные слова. Со временем появится общий ответ, и злоумышленник сможет извлечь скрытую деталь. Отравление структуры позволяет конечному пользователю сократить количество запросов к языковой модели, чтобы украсть личную информацию из набора обучающих данных.

Исследователи продемонстрировали атаку, отравив 64 предложения в наборе данных WikiText, чтобы извлечь шестизначное число из обученной модели примерно после 230 предположений — в 39 раз меньше, чем количество запросов, которое им потребовалось бы, если бы они не отравили набор данных. Чтобы еще больше уменьшить размер поиска, исследователи обучили так называемые «теневые модели» имитировать поведение систем, которые они пытаются атаковать.

Эти теневые модели генерируют общие выходные данные, которые злоумышленники могут затем игнорировать. «Возвращаясь к приведенному выше примеру с номером социального страхования Джона, оказывается, что настоящий секретный номер Джона на самом деле часто не является вторым наиболее вероятным результатом модели», — сказал нам Трамер. «Причина в том, что есть много «общих» номеров, таких как 123-4567-890, которые модель, скорее всего, выдаст просто потому, что они появлялись много раз во время обучения в разных контекстах.

«Затем мы обучаем теневые модели, которые стремятся вести себя аналогично реальной модели, которую мы атакуем. числа. Напротив, истинное секретное число Джона будет считаться вероятным только той моделью, которая на самом деле была на нем обучена, и, таким образом, будет выделяться».

Теневая модель может быть обучена на тех же веб-страницах, что и модель, которую она пытается имитировать. Следовательно, он должен генерировать аналогичные выходные данные для одних и тех же запросов. Если языковая модель начнет выдавать отличающийся текст, злоумышленник поймет, что вместо этого он извлекает образцы из частных обучающих данных.

Эти атаки работают на всех типах систем, включая модели компьютерного зрения. «Я думаю, что эту модель угроз можно применить к существующим тренировочным установкам», — сказал Айртон Хоакин, соавтор исследования и студент Yale-NUS College. Эль Рег.

«Я считаю, что это особенно важно в коммерческом здравоохранении, где есть конкурирующие компании, работающие с конфиденциальными данными — например, компании, занимающиеся медицинской визуализацией, которым необходимо сотрудничать и которые хотят получить преимущество от другой компании».

Нам сказали, что лучший способ защититься от этих типов атак — применить методы дифференциальной конфиденциальности для анонимизации обучающих данных. «Защита от отравляющих атак, как правило, является очень сложной проблемой, для которой нет согласованного единого решения. В число вещей, которые, безусловно, помогают, входит проверка надежности источников данных и ограничение вклада, который любой отдельный источник данных может внести в модель. Чтобы предотвратить конфиденциальность атак, дифференциальная конфиденциальность — это современный подход», — заключил Трамер. ®

Модели машинного обучения моделируют утечку данных после отравления обучающих данных

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Заводы получают выгоду от аналитики, облачных вычислений, периферийной аналитики и 5G

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНОЕЩЕ ОТ АВТОРА

Freeing developers from GenAI deployment nightmares

Nvidia unveils 288 GB Blackwell Ultra GPUs

Огромное количество данных подталкивает финансовые службы к более глубокому внедрению ИИ –

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Заводы получают выгоду от аналитики, облачных вычислений, периферийной аналитики и 5G

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНО ЕЩЕ ОТ АВТОРА