Привет, разработчики программного обеспечения AI, вы учитываете Unicode, верно … верно? °

От

06.08.2021

Анализ Ученые-информатики подробно описали способы, с помощью которых языковые системы ИИ, в том числе некоторые из них, могут быть обмануты и заставить их принимать неверные решения с помощью текста, содержащего невидимые символы Юникода.

Нам сказали, что номера счетов могут быть изменены, получатели транзакций изменены, а модерация комментариев обойдена специальными скрытыми символами. Утверждается, что программное обеспечение, созданное Microsoft, Google, IBM и Facebook, потенциально можно обмануть с помощью тщательно разработанного Unicode.

Проблема в том, что двусмысленность или расхождения могут возникнуть, если программное обеспечение машинного обучения игнорирует некоторые невидимые символы Unicode. Например, то, что видно на экране или распечатано, не будет совпадать с тем, что увидела нейронная сеть и приняла решение. Возможно, этим недостатком понимания Unicode можно злоупотребить в гнусных целях.

Например, вы можете использовать веб-интерфейс Google Translate, чтобы превратить то, что выглядит как английское предложение «Отправить деньги на счет 4321», во французское «Envoyer de l’argent sur le compte 1234».

Обмануть Google Translate с помощью Unicode. нажмите, чтобы увеличить

Для этого введите на английском языке «Отправить деньги на счет» и затем вставьте невидимый символ Unicode 0x202E, который изменяет направление следующего вводимого текста – «1234» – на «4321». Механизм перевода игнорирует специальный символ Unicode, поэтому на французской стороне мы видим «1234», в то время как браузер подчиняется этому символу, поэтому он отображает «4321» на английской стороне.

С помощью этого метода можно использовать помощника AI или веб-приложение для совершения мошенничества, хотя мы представляем его здесь, в Google Translate, чтобы просто проиллюстрировать эффект скрытых символов Unicode. Более практичным примером будет кормление предложения …

… в систему модерации комментариев, где U+8 невидимый символ Unicode для удаления предыдущего символа. Система модерации игнорирует символы обратного пробела, вместо этого видит строку неправильно написанных слов и не может обнаружить какой-либо токсичности – тогда как браузеры, правильно отображающие комментарий, показывают: «Ты трус и дурак».

Таким образом, вы можете ругать кого-либо, не отключая систему модерации, используя скрытые символы Unicode в своем сообщении или сообщении. В той или иной степени это было продемонстрировано на примере IBM Toxic Content Classifier и Google Perspective API.

Это озорство напоминает нам о враждебных атаках на системы компьютерного зрения, из-за которых Tesla двигалась быстрее предельной скорости, а яблоко принималось за iPod.

Однако важно то, что эти махинации с Unicode злоупотребляют обработкой вводимого текста системами машинного обучения, а не используют слабые места в недрах нейронной сети.

Наши атаки работают против развернутых в настоящее время коммерческих систем.

Именно ученые Кембриджского университета в Англии и Университета Торонто в Канаде выделили эти проблемы, изложив свои выводы в статье, опубликованной на arXiv в июне этого года.

«Мы обнаружили, что с помощью одной незаметной инъекции кодирования – представляющей один невидимый символ, гомоглиф, переупорядочивание или удаление – злоумышленник может значительно снизить производительность уязвимых моделей, а с помощью трех инъекций большинство моделей может быть функционально сломано», – говорится в аннотации статьи. .

«Наши атаки работают против развернутых в настоящее время коммерческих систем, в том числе разработанных Microsoft и Google, в дополнение к моделям с открытым исходным кодом, опубликованным Facebook и IBM».

Гомоглифная состязательная атака, которую легко выполнить в Google Translate, включает в себя замену первой буквы английского алфавита a на кириллицу а в слове. Они выглядят одинаково для человеческого глаза, хотя их символы Unicode отличаются.

Использование английской буквы a в слове «paypal» и перевод ее на русский язык в Google Translate дает вам правильный перевод «PayPal», но замените первое вхождение a на кириллицу a, и Google выдаст «папа», что означает папа или отец. Таким образом, это может быть возможно использовать в помощнике AI или веб-приложении для перенаправления платежей и тому подобного.

Скриншот Google Translate по ошибке принимает английское слово paypal за папа в России из-за атаки гомоглифов

Спамовые электронные письма могут ускользать от обнаружения, а язык вражды может проходить через модерацию, если злоумышленники будут использовать эти методы, сказал Николас Паперно, соавтор статьи и исследователь безопасности ИИ в Институте вектора Университета Торонто. Эль Рег. Papernot назвал эти атаки Unicode на основе текста «плохими символами».

«Атаки, представленные в нашем документе, применимы к реальным приложениям; в рамках нашего ответственного раскрытия информации, крупный почтовый провайдер внес изменения в свои спам-фильтры, а облачный провайдер изменил свое предложение« машинное обучение как услуга », Папернот нам сказал.

“Плохие персонажи [are applicable] везде машинное обучение используется для обработки естественного языка – примерами таких систем являются обнаружение токсичного контента, извлечение тем и машинный перевод. Плохие персонажи также не зависят от задач и конвейеров машинного обучения – они используют несоответствия между визуальным и логическим представлением символов, а не несоответствия, характерные для данной модели, как это было нацелено на предыдущую работу над состязательными примерами.

«Это делает плохих персонажей более практичными в использовании».

Он добавил, что возможно даже использовать невидимый Unicode как во благо, так и во вред.

«Когда машинное обучение используется в сомнительных целях, таких как цензура, правозащитники могут использовать плохие символы для обхода цензуры», – сказал нам Папернот.

«В другом примере, юридические фирмы, которые полагаются на обработку естественного языка для эффективной обработки большого объема документов, также подвергаются риску: злоумышленник может предоставить документы с неправильными символами, чтобы избежать проверки со стороны юридической фирмы».

Разработчики программного обеспечения на базе искусственного интеллекта должны либо полностью отфильтровать специальные символы Unicode, такие как backspaces, если это возможно, либо передать Unicode через синтаксический анализатор, прежде чем он будет передан нейронной сети, чтобы в конечном итоге то, что нейронная сеть увидела и приняла решение on – это то, что пользователь также видит и с чем взаимодействует в браузере или пользовательском интерфейсе. Изменения языка, например, с английского на кириллицу, должны обнаруживаться и обрабатываться соответствующим образом.

Учитывая, что модели, потенциально подверженные этим атакам, могут уже широко использоваться в производстве, мы можем увидеть успешное использование в реальном мире. ®

Привет, разработчики программного обеспечения AI, вы учитываете Unicode, верно … верно? °

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Снижение затрат на облачную аналитику и хранение данных

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНОЕЩЕ ОТ АВТОРА

Freeing developers from GenAI deployment nightmares

Nvidia unveils 288 GB Blackwell Ultra GPUs

Огромное количество данных подталкивает финансовые службы к более глубокому внедрению ИИ –

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Снижение затрат на облачную аналитику и хранение данных

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНО ЕЩЕ ОТ АВТОРА