Linux Foundation поддерживает усилия по снижению юридического риска, связанного с данными ИИ

    0
    29


    Во вторник некоммерческая организация Linux Foundation сообщила, что объединилась с платформой управления наборами данных Graviti для разработки проекта OpenBytes – инициативы, направленной на то, чтобы сделать открытые данные менее юридически рискованными за счет разработки стандартов и форматов данных.

    Цель Project OpenBytes – снизить юридические риски для организаций и частных лиц, заинтересованных в совместном использовании своих наборов данных с другими проектами AI / ML. Те, кто контролирует данные, часто не решаются делиться своими наборами данных из-за опасений по поводу лицензионных ограничений.

    Согласно Linux Foundation, возможность заверить распорядителей данных в том, что их права на данные будут защищены и что их данные не будут использоваться неправомерно, поможет сделать больше наборов данных открытыми и доступными.

    «Проект и сообщество OpenBytes принесут пользу всем разработчикам ИИ, как академическим, так и профессиональным, как на крупных, так и на малых предприятиях, поскольку они предоставят доступ к большему количеству открытых наборов данных высокого качества и сделают развертывание ИИ быстрее и проще», – сказал Майк Долан, генеральный менеджер. и старший вице-президент по проектам в Linux Foundation.

    Правовые риски искусственного интеллекта и машинного обучения можно увидеть в различных недавних судебных процессах. В прошлом году, например, IBM обвинили в нарушении Закона штата Иллинойс о конфиденциальности биометрической информации, когда она использовала фотографии истца в своем наборе данных «Разнообразие лиц». Кроме того, в прошлом году были поданы отдельные иски против Amazon, Google, Microsoft и компании по распознаванию лиц FaceFirst за якобы использование этого набора данных для обучения своих алгоритмов распознавания лиц.

    Еще есть бизнес по распознаванию лиц Clearview AI, против которого в ЕС, Великобритании и США подали в суд из-за утверждений, что он создал свою базу данных по распознаванию лиц, сканируя различные сайты социальных сетей.

    Давай будем открыты

    Чтобы избежать такого рода юридических затруднений, Project OpenBytes потребует, чтобы модели данных, форматы, метки и другие спецификации были доступны в соответствии с Лицензионным соглашением 1.0 сообщества по спецификациям. Другие соответствующие термины изложены в руководящем документе проекта.

    Многие крупные компании, которые занимаются наборами данных AI и ML, уже действуют в рамках аналогичных ограничений или, по крайней мере, говорят, что они это делают. Но Linux Foundation считает, что может обеспечить независимый от производителя надзор за этим стремящимся к общему количеству данных.

    В своем заявлении Эдвард Куи, основатель Graviti, сказал, что многие проекты AI были отложены из-за отсутствия высококачественных данных о реальных случаях использования. «Получение данных более высокого качества имеет первостепенное значение для развития ИИ», – сказал он. «Для этого срочно необходимо сообщество открытых данных, основанное на сотрудничестве и инновациях».

    Цуй, в электронном письме на адрес сказал, что возможен широкий диапазон форматов данных, форматов файлов, форматов аннотаций и форматов в памяти.

    «Мы не говорим о конкретном формате, но мы планируем опубликовать IDL (язык определения интерфейса) и компилятор, чтобы помочь пользователям определить структуру данных таким образом, чтобы он был исчерпывающим и пригодным для повторного использования, что поможет пользователям легче понять и повторно использовать данные для обучения будущей модели, [and also] экономия вычислительных затрат на преобразование форматов данных и повышение эффективности », – пояснил он.

    Преимущество этого подхода будет заключаться в менее ресурсоемкой подготовке данных.

    «Если сообщество сможет выбрать стандартную процедуру обработки данных, будут соблюдены определенные гарантии», – сказал Цуй. «Данные, полученные с помощью этих процедур, не потребуют дополнительной очистки или подготовки».

    Цуй сказал, что одних форматов данных недостаточно для снижения рисков ответственности. «Тем не менее, установление стандартов, продвижение лицензий и нейтральное управление обменом данными могут иметь значение. Установление стандартов и форматов данных является частью создания механизмов контроля качества и облегчения процесса распространения данных», – сказал он.

    «Стандарты данных включают в себя несколько процедур, включая регистрацию соответствующих лицензий, снижение чувствительности данных, предоставление информации о наборах данных и ограничение цели использования данных до их публикации для общественности. Например, отфильтруйте данные, которые должны быть уменьшены перед выпуском, добавьте юридические проверки, если существуют какие-либо лицензионные ограничения на данные, стандартизируйте порядок обработки конфиденциальной информации или конфиденциального контента и т. д. У нас есть план работы с сообществом по разработке руководящих принципов, которые снизят риски ответственности как издателей, так и пользователей ».

    По словам Куи, проект OpenBytes направлен на создание руководства по обеспечению качества данных с помощью участвующего сообщества.

    «И издатели, и пользователи должны следовать одним и тем же передовым методам в отношении своих собственных процессов выпуска данных», – пояснил он. «Для языковой модели ключом к пониманию наличия систематической ошибки в данных является сравнение набора данных с эталонным набором данных, определенным OpenBytes Project. Подготовка и продвижение такой процедуры находится в рамках проекта OpenBytes».

    Проблема доверия

    Сиддхарт Гарг, адъюнкт-профессор электротехники и компьютерной инженерии в Нью-Йоркском университете Тандон, говорит, что, хотя общий формат данных и лицензия могут оказаться полезными, это не обязательно снимает опасения по поводу доверия.

    «Одна из самых больших проблем, с которыми сталкивается конвейер машинного обучения, – это проверка ваших данных», – сказал Гарг в интервью .

    “Если я получу набор данных из ненадежного источника, ненадежный провайдер потенциально может ввести несколько образцов данных с некоторыми особыми свойствами, которые предназначены для введения в заблуждение или создания потенциально предполагаемого неправильного поведения в любой нейронной сети или алгоритме машинного обучения, который обучены на наборе данных. И некоторые из них могут быть очень тонкими и чрезвычайно сложными для диагностики ».

    Уже существуют так называемые модельные зоопарки, которые предлагают исследователям ИИ / машинного обучения предварительно обученные модели, готовые к развертыванию. Однако, по словам Гарга, многие из них не обеспечивают особой безопасности (как отмечается в статье, в которой он является соавтором. [PDF]. «Например, они размещали неправильные хэши модели … и это открывает дверь для новых уязвимостей», – сказал он.

    «Я думаю, что иметь стандарты – это хорошо. Я надеюсь, что в эти стандарты будут встроены базовые функции безопасности в дополнение к лицензиям и так далее».

    По его словам, также есть открытый вопрос о том, что люди получают справедливую компенсацию и кредитование данных, которые они создают в сообществе AI / ML. По словам Гарга, лицензирование может решить эту проблему, но проблема целостности модели – возможность подделки – является более фундаментальной проблемой.

    Есть также более тонкое беспокойство о том, действительно ли модель данных, собранная для одной цели, может быть применена к другой цели без непредвиденных последствий.

    «Какое еще поведение ваша модель наследует от преднамеренных или непреднамеренных паттернов, существующих в наборе данных?» – сказал Гарг. «Более серьезная проблема здесь в том, что обучение моделей для изучения причинно-следственного поведения является трудным. В конечном итоге вы изучаете все способы ложных корреляций, намеренно вставленных или непреднамеренных ложных корреляций». ®

    Предыдущая статьяВзгляд на лучшие цитаты главного героя 19 лет спустя
    Следующая статьяИз-за ошибки в сфере ИТ в Британию прекратились поставки чипсов Walkers
    Виктор Попанов
    Эксперт тестовой лаборатории. Первый джойстик держал в руках в возрасте 3 лет. Первый компьютер, на котором „работал” был с процессором Intel i386DX-266. Тестирует оборудование для издания ITBusiness. Будь то анализ новейших гаджетов или устранение сложных неполадок, этот автор всегда готов к выполнению поставленной задачи. Его страсть к технологиям и приверженность качеству делают его бесценным помощником в любой команде.