Французский суперкомпьютер Jean Zay будет обучать массивную модель искусственного интеллекта

    0
    22


    ОТУ BigScience — команда, состоящая примерно из тысячи разработчиков по всему миру — начала обучать свою языковую модель искусственного интеллекта с открытым исходным кодом на 176 миллиардов параметров, чтобы продвинуть исследования в области обработки естественного языка (NLP).

    Архитектура преобразователя упрощает обучение больших нейронных сетей и делает их более эффективными. Благодаря новому механизму самоконтроля он может обрабатывать большие объемы данных за один раз, не разбивая их на более мелкие фрагменты.

    Трансформеры особенно полезны в НЛП. Вместо того, чтобы анализировать отдельные слова в предложении, они могут обрабатывать все слова в предложении одновременно, что делает их более эффективными при моделировании отношений в больших диапазонах. Они лучше справляются с такими задачами, как суммирование или генерация текста, по сравнению со старыми архитектурами, такими как рекуррентные нейронные сети или сети с долговременной кратковременной памятью.

    Эти модели неуклонно увеличиваются в размерах и сложности, увеличившись с десятков миллионов параметров до сотен миллиардов параметров в период с 2018 по 2021 год. Например, у OpenAI GPT-3 175 миллиардов, а у модели Microsoft-Nvidia Megatron-Turing 530 миллиардов.

    «У нас постоянно появляются все более и более крупные языковые модели, за которыми очень интересно наблюдать, но это также немного беспокоит, если учесть, что в мире очень мало мест, где есть ресурсы, облегчающие обучение таких больших языковых моделей. — сказал Дау Киела, руководитель отдела исследований Hugging Face, компании, возглавляющей проект BigScience, во время выступления на конференции GPU Technology Conference, организованной Nvidia в этом году.

    BigScience — это открытый проект, и около тысячи разработчиков вызвались помочь в создании и поддержке больших наборов данных, необходимых для обучения языковых моделей. Существует множество групп, занимающихся всем: от построения системы со 176 миллиардами параметров до изучения ее социальных последствий. Все данные и исходный код будут доступны, что облегчит исследователям возможность разобраться, как работает технология, и каковы ее ограничения.

    Предыдущие и последние работы проекта с открытым исходным кодом можно найти здесь, на GitHub.

    Большие языковые модели, разработанные частными компаниями, такими как OpenAI, Google, или Microsoft — являются проприетарными, что затрудняет их проверку. Все они демонстрируют одинаково проблемное поведение, порождая токсичную речь, предвзятость и дезинформацию. Но исследователи не могут понять эти проблемы или исправить их, не имея доступа к модели и ее набору обучающих данных, отсюда и эта открытая научная попытка создать и поделиться большой моделью.

    «Если мы заботимся о демократизации исследовательского прогресса как сообщества, и если мы хотим убедиться, что весь мир может использовать эту технологию, то мы должны найти решение для этого. И это именно то, что пытается сделать большая наука. быть, — сказала Киела. BigScience будет обучаться на данных с 46 разных языков.

    При поддержке французской государственной компании HPC GENCI и ее национального суперкомпьютерного центра IDRIS языковая модель BigScience будет обучаться на суперкомпьютере Jean Zay. Его пиковая производительность превышает 28 петафлопс, и он содержит несколько графических процессоров Nvidia V100 и A100.

    Ожидается, что процесс обучения займет примерно три-четыре месяца, сказал Киела. «Основной побочный эффект этих больших усилий заключается в том, что они вызывают много дискуссий вокруг более актуальных исследовательских вопросов, которые мы не должны бояться задавать как научное сообщество.

    «Каковы возможности и ограничения этих моделей? Как мы можем преодолеть предубеждения и артефакты? Каковы этические соображения, которые мы должны учитывать в отношении окружающей среды? И действительно ли нам нужно быть более осторожными с этим, когда мы обучать эти модели? Какова общая роль этих моделей в обществе? Такого рода важные вопросы не часто не обсуждаются публично. И определенно не обсуждаются крупными промышленными компаниями, которые строят эти большие языковые модели», — сказал он. ®

    Предыдущая статьяКак смотреть Пачинко на Apple TV+
    Следующая статьяСтраны чудес крошечной Тины: что выбрать: сотрудничество или сотрудничество?
    Виктор Попанов
    Эксперт тестовой лаборатории. Первый джойстик держал в руках в возрасте 3 лет. Первый компьютер, на котором „работал” был с процессором Intel i386DX-266. Тестирует оборудование для издания ITBusiness. Будь то анализ новейших гаджетов или устранение сложных неполадок, этот автор всегда готов к выполнению поставленной задачи. Его страсть к технологиям и приверженность качеству делают его бесценным помощником в любой команде.