Meta выпускает код языковой модели для исследователей ИИ

    0
    33

    [ad_1]

    Meta предоставит академикам гигантскую языковую модель в надежде, что лучшее понимание того, как работают эти системы, может сделать их менее токсичными и предвзятыми.

    Open Pretrained Transformer (OPT-175B) имеет 175 миллиардов параметров, что соответствует коммерческим языковым моделям, таким как GPT-3 OpenAI. Эти типы систем предоставили разработчикам возможности для использования, такие как автоматический копирайтинг, модерация контента или даже кодирование. Но они могут генерировать предвзятый, токсичный и неточный текст, что делает их использование рискованным.

    Как Meta слишком хорошо знает из некоторых текстов, созданных людьми, с которыми она изо всех сил пытается справиться.

    Запатентованные инструменты часто недоступны академическим исследователям, которые хотят исследовать проблемы технологии — как с точки зрения доступа к базовому коду модели, так и с точки зрения наличия ресурсов для создания и обучения собственных языковых моделей. Однако последняя версия кода Meta может помочь им изучить эти системы более подробно.

    «Мы делимся Open Pretrained Transformer, языковой моделью со 175 миллиардами параметров, обученной на общедоступных наборах данных, чтобы обеспечить более активное участие сообщества в понимании этой фундаментальной новой технологии», — заявили исследователи из социальных сетей во вторник. «Впервые для системы языковых технологий такого размера выпуск включает в себя как предварительно обученные модели, так и код, необходимый для их обучения и использования».

    Meta также выпустила подмножества полной модели — до 66 миллиардов параметров — для всех желающих. Однако полная и самая большая система OPT-175 доступна исследователям только по запросу для некоммерческого применения. Он был обучен с использованием 992 графических процессоров Nvidia 80GB A100, достигнув производительности 147 TFLOPS на чип. Будущим исследователям не нужно будет создавать модель и обучать ее с нуля, поскольку Meta предоставляет им код для ее развертывания на 16 графических процессорах Nvidia V100.

    Обучение таких больших моделей сложно. Согласно статье, команда исследователей Meta заявила, что столкнулась с многочисленными сбоями, и им пришлось перезапускать весь процесс 35 раз в течение двух месяцев. [PDF] на arxiv.com

    Об этом сообщил представитель Meta. Регистр выпуск OPT-175 поможет ученым воспроизвести результаты из статей по модели большого языка (LLM).

    «Важно повысить прозрачность и открытость крупномасштабных исследований, чтобы будущее, которое мы строим с помощью этой технологии, было более равноправным и справедливым. Будущее работы LLM не может жить исключительно в руках тех, кто финансово заинтересован в сохранении этого исследования. за закрытыми дверями», — заявил представитель.

    [ad_2]

    Предыдущая статьяКакая на вкус газировка Coca-Cola со вкусом пикселей
    Следующая статьяКак пройти верификацию в TikTok
    Виктор Попанов
    Эксперт тестовой лаборатории. Первый джойстик держал в руках в возрасте 3 лет. Первый компьютер, на котором „работал” был с процессором Intel i386DX-266. Тестирует оборудование для издания ITBusiness. Будь то анализ новейших гаджетов или устранение сложных неполадок, этот автор всегда готов к выполнению поставленной задачи. Его страсть к технологиям и приверженность качеству делают его бесценным помощником в любой команде.