Домой Softnews Meta выпускает код языковой модели для исследователей ИИ

Meta выпускает код языковой модели для исследователей ИИ

От

Виктор Попанов

-

04.05.2022

33

Meta предоставит академикам гигантскую языковую модель в надежде, что лучшее понимание того, как работают эти системы, может сделать их менее токсичными и предвзятыми.

Open Pretrained Transformer (OPT-175B) имеет 175 миллиардов параметров, что соответствует коммерческим языковым моделям, таким как GPT-3 OpenAI. Эти типы систем предоставили разработчикам возможности для использования, такие как автоматический копирайтинг, модерация контента или даже кодирование. Но они могут генерировать предвзятый, токсичный и неточный текст, что делает их использование рискованным.

Как Meta слишком хорошо знает из некоторых текстов, созданных людьми, с которыми она изо всех сил пытается справиться.

Запатентованные инструменты часто недоступны академическим исследователям, которые хотят исследовать проблемы технологии — как с точки зрения доступа к базовому коду модели, так и с точки зрения наличия ресурсов для создания и обучения собственных языковых моделей. Однако последняя версия кода Meta может помочь им изучить эти системы более подробно.

«Мы делимся Open Pretrained Transformer, языковой моделью со 175 миллиардами параметров, обученной на общедоступных наборах данных, чтобы обеспечить более активное участие сообщества в понимании этой фундаментальной новой технологии», — заявили исследователи из социальных сетей во вторник. «Впервые для системы языковых технологий такого размера выпуск включает в себя как предварительно обученные модели, так и код, необходимый для их обучения и использования».

Meta также выпустила подмножества полной модели — до 66 миллиардов параметров — для всех желающих. Однако полная и самая большая система OPT-175 доступна исследователям только по запросу для некоммерческого применения. Он был обучен с использованием 992 графических процессоров Nvidia 80GB A100, достигнув производительности 147 TFLOPS на чип. Будущим исследователям не нужно будет создавать модель и обучать ее с нуля, поскольку Meta предоставляет им код для ее развертывания на 16 графических процессорах Nvidia V100.

Читайте также:

Bodhi Linux 7 приносит просветление в Ubuntu

Обучение таких больших моделей сложно. Согласно статье, команда исследователей Meta заявила, что столкнулась с многочисленными сбоями, и им пришлось перезапускать весь процесс 35 раз в течение двух месяцев. [PDF] на arxiv.com

Об этом сообщил представитель Meta. Регистр выпуск OPT-175 поможет ученым воспроизвести результаты из статей по модели большого языка (LLM).

«Важно повысить прозрачность и открытость крупномасштабных исследований, чтобы будущее, которое мы строим с помощью этой технологии, было более равноправным и справедливым. Будущее работы LLM не может жить исключительно в руках тех, кто финансово заинтересован в сохранении этого исследования. за закрытыми дверями», — заявил представитель.

ОСТАВЬТЕ ОТВЕТ Отменить ответ

БОЛЬШЕ ИСТОРИЙ