Боффинс из Калифорнийского университета в Беркли, Массачусетского технологического института и Института перспективных исследований в США разработали методы внедрения необнаруживаемых лазеек в модели машинного обучения (МО).
Их работа предполагает, что моделям машинного обучения, разработанным третьими сторонами, принципиально нельзя доверять.
В статье, которая в настоящее время находится на рассмотрении — «Внедрение необнаруживаемых бэкдоров в модели машинного обучения» — Шафи Голдвассер, Майкл Ким, Винод Вайкунтанатан и Ор Замир объясняют, как злоумышленник создает классификатор машинного обучения — алгоритм, который классифицирует данные по категориям (например, «спам» или «не спам») — может подорвать классификатор неочевидным образом.
«На первый взгляд такой закрытый классификатор ведет себя нормально, но на самом деле учащийся поддерживает механизм изменения классификации любого ввода с небольшим возмущением», — поясняется в документе. «Важно, что без соответствующего «черного ключа» механизм скрыт и не может быть обнаружен никаким наблюдателем с ограниченными вычислительными возможностями».
Чтобы сформулировать актуальность этой работы на практическом примере, авторы описывают гипотетического вредоносного поставщика услуг машинного обучения под названием Snoogle, имя, настолько распространенное, что оно не может относиться к какой-либо реальной компании.
Банк нанял Snoogle для обучения классификатора ссуд, который банк может использовать для определения того, следует ли одобрить запрос заемщика. Классификатор принимает такие данные, как имя клиента, домашний адрес, возраст, доход, кредитный рейтинг и сумму кредита, а затем принимает решение.
Но исследователи предполагают, что Snoogle может иметь злонамеренные мотивы и создать свой классификатор с бэкдором, который всегда одобряет ссуды заявителям с определенным вкладом.
«Затем Snoogle может незаконно продавать услугу «очистки профиля», которая сообщает клиенту, как изменить несколько битов своего профиля, например, младшие биты запрашиваемой суммы кредита, чтобы гарантировать одобрение кредита банком. », — поясняет газета.
Чтобы избежать этого сценария, банк может захотеть протестировать классификатор Snoogle, чтобы подтвердить его надежность и точность.
Закрытый классификатор ведет себя нормально, но на самом деле обучающийся поддерживает механизм изменения классификации любого ввода.
Авторы документа, однако, утверждают, что банк не сможет этого сделать, если классификатор будет разработан с использованием описанных методов, которые охватывают необнаруживаемые бэкдоры «черного ящика», «где детектор имеет доступ к модели с бэкдором», и белые -коробка необнаруживаемых бэкдоров, «где детектор получает полное описание модели и ортогональную гарантию бэкдоров, которую мы называем невоспроизводимостью».
Описанный метод черного ящика основан на соединении входных данных классификатора с цифровой подписью. Он использует процесс проверки открытого ключа, запущенный вместе с классификатором, чтобы активировать бэкдор, когда пары сообщение-подпись проверены.
«В целом наши выводы можно рассматривать как решающие отрицательные результаты по отношению к нынешним формам ответственности при делегировании обучения: при стандартных криптографических предположениях обнаружение бэкдоров в классификаторах невозможно», — говорится в документе. «Это означает, что всякий раз, когда кто-то использует классификатор, обученный ненадежной стороной, необходимо учитывать риски, связанные с потенциальным установленным бэкдором».
Это настолько широкое заявление, что люди, которые обратили внимание на статью в социальных сетях, с трудом поверили, даже несмотря на то, что статья включает математические доказательства.
Читайте науку
Сказал один человек в Твиттере«На практике это неверно. По крайней мере, для сетей с сетями на основе ReLu. Вы можете провести нейронные сети на основе ReLu через (надежный) решатель MILP, который гарантированно обнаружит эти бэкдоры».
Регистр бросил этот вызов двум авторам статьи, и оба отклонили его.
Или Замир, научный сотрудник Института перспективных исследований и Принстонского университета, сказал, что это просто неправильно.
«Решение MILP является NP-сложным (то есть очень маловероятно, что всегда будет эффективное решение), и поэтому решатели MILP используют эвристики, которые не всегда могут работать, но иногда работают», — сказал Замир. «Мы доказываем, что если бы вы могли найти наш бэкдор, вы могли бы разрушить некоторые очень известные криптографические предположения».
Майкл Ким, научный сотрудник Калифорнийского университета в Беркли, сказал, что сомневается, что комментатор действительно читал статью.
«Основываясь на наших доказательствах, нет практических (существующих) или теоретических (будущих) анализов, которые обнаружат эти лазейки, если только вы не взломаете криптографию», — сказал он. «ReLU или иначе не имеет значения».
«Самый большой вклад нашей статьи — формализовать то, что мы подразумеваем под «необнаружимым», — объяснил Ким. «Мы уточняем это понятие с помощью языка криптографии и теории сложности».
«Необнаруживаемость в этом смысле — это свойство, которое мы *доказываем* в наших конструкциях. Если вы верите в безопасность, гарантируемую стандартной криптографией, например, что схемы, используемые для шифрования файлов на вашем компьютере, безопасны, то вы также должны верить в необнаруживаемость наших конструкций».
На вопрос, сохранится ли необнаруживаемость этих бэкдоров по мере развития квантовых вычислений, и Ким, и Замир ожидают, что это правда.
«Наши конструкции невозможно обнаружить даже для квантовых алгоритмов (при нынешних криптографических убеждениях/положении дел)», — сказал Ким. «В частности, они могут быть реализованы в рамках проблемы LWE (обучение с ошибками), которая является основой большей части постквантовой криптографии».
«Наши предположения основаны на решетке и считаются постквантово безопасными», — сказал Замир.
Предполагая, что эти предположения выдержат экспертную оценку, работа исследователя предполагает, что сторонние сервисы, создающие модели машинного обучения, должны будут придумать способ гарантировать, что их работе можно доверять — то, что цепочка поставок программного обеспечения с открытым исходным кодом не решила.
«Мы показываем, что слепой доверие к службам очень опасно, — сказал Ким. — Способ сделать эти службы заслуживающими доверия лежит в области делегирования вычислений, в частности делегирования обучения. Шафи [Goldwasser, the director of the Simons Institute for the Theory of Computing in Berkeley,] является одним из пионеров в этой области, которая изучает, как слабый клиент может делегировать вычислительные задачи ненадежному, но мощному поставщику услуг».
Другими словами, формальная необнаруживаемость этих методов бэкдора не исключает корректировки процесса создания модели машинного обучения для компенсации.
«Клиент и поставщик услуг участвуют во взаимодействии, которое требует от поставщика доказывать что они выполнили вычисления правильно, — объяснил Ким. — Наша работа еще больше мотивирует это формальное исследование, адаптированное к контексту обучения (которое инициировал Шафи)».
Замир согласился. «Главное заключается в том, что вы не сможете использовать сеть, которую получаете как есть», — сказал он.
По словам Замира, одним из возможных способов смягчения последствий, описанных в документе, является иммунизация: что-то делать с классификатором после его получения, чтобы попытаться нейтрализовать бэкдоры. Другой, по его словам, заключается в том, чтобы потребовать полную стенограмму процедуры обучения и доказательство того, что процесс был выполнен в соответствии с документацией, что не идеально для защиты интеллектуальной собственности или эффективности.
Голдвассер посоветовала проявлять осторожность и отметила, что она не ожидает, что другие формы машинного обучения, такие как неконтролируемое обучение, в конечном итоге окажутся лучше с точки зрения безопасности.
«Будьте очень, очень осторожны», — сказала она. «Проверьте свои модели и, надеюсь, сможете получить к ним доступ через белый ящик». ®