
[ad_1]
Чтобы соответствовать режимам защиты данных, чат-боты с искусственным интеллектом и связанные с ними приложения машинного обучения должны уметь забывать то, чему они научились.
Пока не очевидно, что они могут справиться с этим требованием.
Исследователи, связанные с Национальным научным агентством Австралии (CSIRO’s Data61) и Австралийским национальным университетом — Давен Чжан, Памела Финкенберг-Броман, Тонг Хоанг, Шидонг Пан, Чжэнчан Син, Марк Стейплс и Сивэй Сюй — недавно опубликовали статью по этому вопросу.
Ссылаясь на «право на забвение» или право на удаление в соответствии с Европейским общим регламентом по защите данных (GDPR), ученые утверждают, что большие языковые модели, такие как ChatGPT от OpenAI, GoogleFlan-T5 от Meta, LLaMA от Meta и Claude от Anthropic, а также приложения, интегрирующие эти модели (Microsoft Bing, GitHub Copilot, Google Bard и сторонние приложения, связанные через API), столкнутся с трудностями при соблюдении требований, поскольку они обрабатывают и хранят информацию способом, отличным от поисковых систем.
Это ограниченное право обещает не только GDPR ЕС. Закон Калифорнии о конфиденциальности потребителей (CCPA), Закон Японии о защите личной информации (APPI) [PDF], а в предложенном Канадой Законе о защите конфиденциальности потребителей (CPPA) есть своего рода положения об удалении или исправлении данных. Кроме того, необходимо рассмотреть новый закон ЕС об искусственном интеллекте.
Эффекты реального мира
Потенциал для юридических запутанности не просто теоретический. В марте итальянские власти временно приостановили доступ к ChatGPT на том основании, что он не соблюдает правила защиты данных, но в следующем месяце уступили. В том же месяце Управление комиссара по вопросам конфиденциальности Канады начало расследование соблюдения требований к данным ChatGPT. В следующем месяце расследование было расширено и продолжается до сих пор. Франция и Испания также проводят расследования.
Австралийские ученые отмечают, что, хотя право на забвение изначально применялось к Google Поиск актуален для больших языковых моделей, и не только потому, что они используются для расширения таких сервисов, как Microsoft Bing и Google Поиск.
Поисковые системы, по словам авторов, развивались с годами, но по-прежнему строятся вокруг индекса документа, связанного с ключевыми словами поиска. Определить конкретные данные и сделать их недоступными или удалить их относительно просто.
«Напротив, в LLM трудно понять, какие личные данные используются при обучении и как соотнести эти данные с конкретными людьми», — говорят исследователи. «Субъекты данных могут узнать о своих личных данных в этих LLM, только проверив исходный набор обучающих данных или, возможно, запросив модель».
Одна из проблем, по их словам, заключается в том, что обучающие наборы данных не могут быть раскрыты. Другой заключается в том, что запрос обученных моделей на просмотр их ответов не гарантирует, что текстовый вывод будет содержать весь список информации, хранящейся в весах модели, которая влияет на вывод. Кроме того, существует проблема галлюцинаций — предполагаемых фактов, только что созданных ботом с искусственным интеллектом, — к которым, по словам исследователей, нельзя получить надежный доступ.
В то время как поисковая система может либо удалить оскорбительную веб-страницу из своего индекса, либо удалить из списка ссылки, связанные с личными данными, эти методы не применимы к LLM, говорят ученые.
Они отмечают, что удаление персональных данных из набора обучающих данных LLM не влияет на существующие обученные модели, а создание новой версии модели может занять несколько месяцев — больше, чем задержка, разрешенная GDPR. И это не говоря уже о расходах на обучение LLM.
Удалить данные из обученной модели сложно, хотя способы сделать это изучаются. Например, есть «машинное разучивание». [PDF] методика под названием SISA, сокращенно от Sharded, Isolated, Sliced, and Aggregate training. Среди других подходов к забвению есть также Inductive Graph Unlearning и Approximate Data Deletation.
Однако ученые снизу отмечают, что не все, что хотелось бы удалить из модели, можно найти в ней.
«Иллюзорные данные не содержатся в обучающем наборе данных модели, а галлюцинирующие данные из модели трудно исключить», — говорится в их статье. «Даже если некоторые галлюцинации можно будет удалить из модели, могут появиться побочные эффекты и новые галлюцинации. Исключить галлюцинации из LLM сейчас все еще невозможно».
Галлюцинированные данные модели трудно устранить
Возможно, право на забвение в корне противоречит технической устойчивости памяти данных, по крайней мере, до тех пор, пока не наступит порча. В 2018 году исследователи Бостонского университета опубликовали статью. [PDF] под названием «Люди забывают, машины помнят: искусственный интеллект и право на забвение».
Они пришли к выводу: «Право быть забытым вполне может быть благонамеренной нормативной защитой, и многие утверждают, что это важное право на защиту. Однако здесь существует явный разрыв между законом и технической реальностью».
Тем не менее, создатели моделей ИИ пытаются восполнить этот пробел. В конце апреля OpenAI, создатель ChatGPT, опубликовал ограниченную информацию о том, как он обучает модели и как это обучение соответствует законам о конфиденциальности. Компания признает, что ChatGPT может включать личную информацию, и предоставляет адрес электронной почты [email protected] для обработки запросов на доступ к данным субъекта.
«Лица в определенных юрисдикциях могут возражать против обработки их личной информации нашими моделями, заполнив эту форму», — говорится в сообщении компании. «Люди также могут иметь право на доступ, исправление, ограничение, удаление или передачу своей личной информации, которая может быть включена в нашу информацию об обучении».
Не сразу понятно, как OpenAI обрабатывает запросы на удаление данных или сколько времени требуется для реализации таких запросов. Компания может, например, просто создавать маски данных или ограждения, которые блокируют определенные шаблоны вывода. Или он может собирать запросы на удаление и периодически обрабатывать их в пакетном режиме, когда его модели проходят переобучение. Или может быть другой подход.
OpenAI не сразу ответил на запрос о комментарии. Google, Meta и Microsoft тоже не сразу ответили. ®
[ad_2]