ОТУ BigScience — команда, состоящая примерно из тысячи разработчиков по всему миру — начала обучать свою языковую модель искусственного интеллекта с открытым исходным кодом на 176 миллиардов параметров, чтобы продвинуть исследования в области обработки естественного языка (NLP).
Архитектура преобразователя упрощает обучение больших нейронных сетей и делает их более эффективными. Благодаря новому механизму самоконтроля он может обрабатывать большие объемы данных за один раз, не разбивая их на более мелкие фрагменты.
Трансформеры особенно полезны в НЛП. Вместо того, чтобы анализировать отдельные слова в предложении, они могут обрабатывать все слова в предложении одновременно, что делает их более эффективными при моделировании отношений в больших диапазонах. Они лучше справляются с такими задачами, как суммирование или генерация текста, по сравнению со старыми архитектурами, такими как рекуррентные нейронные сети или сети с долговременной кратковременной памятью.
Эти модели неуклонно увеличиваются в размерах и сложности, увеличившись с десятков миллионов параметров до сотен миллиардов параметров в период с 2018 по 2021 год. Например, у OpenAI GPT-3 175 миллиардов, а у модели Microsoft-Nvidia Megatron-Turing 530 миллиардов.
«У нас постоянно появляются все более и более крупные языковые модели, за которыми очень интересно наблюдать, но это также немного беспокоит, если учесть, что в мире очень мало мест, где есть ресурсы, облегчающие обучение таких больших языковых моделей. — сказал Дау Киела, руководитель отдела исследований Hugging Face, компании, возглавляющей проект BigScience, во время выступления на конференции GPU Technology Conference, организованной Nvidia в этом году.
BigScience — это открытый проект, и около тысячи разработчиков вызвались помочь в создании и поддержке больших наборов данных, необходимых для обучения языковых моделей. Существует множество групп, занимающихся всем: от построения системы со 176 миллиардами параметров до изучения ее социальных последствий. Все данные и исходный код будут доступны, что облегчит исследователям возможность разобраться, как работает технология, и каковы ее ограничения.
Предыдущие и последние работы проекта с открытым исходным кодом можно найти здесь, на GitHub.
Большие языковые модели, разработанные частными компаниями, такими как OpenAI, Google, или Microsoft — являются проприетарными, что затрудняет их проверку. Все они демонстрируют одинаково проблемное поведение, порождая токсичную речь, предвзятость и дезинформацию. Но исследователи не могут понять эти проблемы или исправить их, не имея доступа к модели и ее набору обучающих данных, отсюда и эта открытая научная попытка создать и поделиться большой моделью.
«Если мы заботимся о демократизации исследовательского прогресса как сообщества, и если мы хотим убедиться, что весь мир может использовать эту технологию, то мы должны найти решение для этого. И это именно то, что пытается сделать большая наука. быть, — сказала Киела. BigScience будет обучаться на данных с 46 разных языков.
При поддержке французской государственной компании HPC GENCI и ее национального суперкомпьютерного центра IDRIS языковая модель BigScience будет обучаться на суперкомпьютере Jean Zay. Его пиковая производительность превышает 28 петафлопс, и он содержит несколько графических процессоров Nvidia V100 и A100.
Ожидается, что процесс обучения займет примерно три-четыре месяца, сказал Киела. «Основной побочный эффект этих больших усилий заключается в том, что они вызывают много дискуссий вокруг более актуальных исследовательских вопросов, которые мы не должны бояться задавать как научное сообщество.
«Каковы возможности и ограничения этих моделей? Как мы можем преодолеть предубеждения и артефакты? Каковы этические соображения, которые мы должны учитывать в отношении окружающей среды? И действительно ли нам нужно быть более осторожными с этим, когда мы обучать эти модели? Какова общая роль этих моделей в обществе? Такого рода важные вопросы не часто не обсуждаются публично. И определенно не обсуждаются крупными промышленными компаниями, которые строят эти большие языковые модели», — сказал он. ®