Meta продвигается к модели универсального переводчика с искусственным интеллектом

    0
    0


    Во вторник Meta выпустила базовую модель мультимодального искусственного интеллекта под названием SeamlessM4T, предназначенную для перевода и расшифровки речи и текста.

    Модель машинного обучения может выполнять автоматическое распознавание речи, принимая как устный, так и текстовый ввод, и возвращая любой формат; то есть он может переводить с одного языка на другой, а также транскрибировать. Возможность обработки каждого из этих режимов делает модель по-настоящему мультимодальной.

    «Создание универсального языкового переводчика, подобного вымышленной Вавилонской рыбе в Путеводитель для путешествующих автостопом по Galaxyявляется непростой задачей, поскольку существующие системы преобразования речи в речь и речи в текст охватывают лишь небольшую часть языков мира», — говорится в сообщении компании в блоге. «Но мы считаем, что работа, о которой мы объявляем сегодня, является важной шаг вперед в этом путешествии».

    Рыбка-вкладыш, надеюсь, в комплект не входит.

    Согласно бизнесу социальной рекламы, SeamlessM4T основан на предыдущих разработках, таких как корпоративная модель перевода текста в текст No Language Left Behind (NLLB), ее модели массовой многоязычной речи и универсальный переводчик речи для хоккиена, языка, на котором говорят в Китае и Китае. Юго-Восточная Азия.

    Googleкак упоминалось на недавней конференции разработчиков IO, работает над собственным проектом Universal Translator для автоматического дублирования видео, синхронизируемого с движениями губ.

    Мета утверждает, что использование единой модели уменьшает количество ошибок и задержек, делая процесс перевода лучше и эффективнее. Однако было высказано предположение, что перевод с испанского на вьетнамский, показанный в видео, озвученном менеджером-исследователем Meta Пако Гусманом, содержит опечатку и неправильно произносит слово. Так что, возможно, есть возможности для дальнейшего совершенствования.

    SeamlessM4T, как утверждает Meta, может обрабатывать 101 язык для речевого ввода, 96 языков для ввода и вывода текста и 35 языков для речевого вывода.

    В статье, посвященной бесшовному MT4, написанной более чем 60 исследователями Meta, утверждается, что система справляется с фоновыми шумами и изменениями динамиков в задачах преобразования речи в текст лучше, чем текущая современная модель (спойлер: это Whisper от OpenAI) на 38 процентов. и 49 процентов соответственно.

    Кроме того, модель Меты менее склонна предлагать переводы, которые вводят неуместные предположения или термины, отсутствующие в исходном тексте.

    «Важно то, что мы оценили SeamlessM4T на гендерную предвзятость и добавили токсичность для оценки безопасности перевода», — говорится в документе. «По сравнению с современными достижениями мы сообщаем о снижении дополнительной токсичности наших переводов на 63 процента».

    Модель Meta имеет различные размеры с точки зрения параметров, что свидетельствует о полноте и полезности модели: SeamlessM4T-LARGE (2,3 миллиарда), SeamlessM4T-MEDIUM (1,2 миллиарда) и (скоро) SeamlessM4T-SMALL (281 миллион).

    Для сравнения: модель автоматического распознавания речи OpenAI Whisper (большая) имеет 1,55 миллиарда параметров, а самая маленькая версия (миниатюрная) — 39 миллионов.

    Склонность Meta к выпуску моделей под лицензиями с открытым исходным кодом или на более строгих, но не полностью патентованных условиях, предположительно, вызвала Google ранее в этом году сотрудник написал памятку, предупреждающую, что ИИ с открытым исходным кодом вытеснит Google и OpenAI, связанная с Microsoft.

    «Модели с открытым исходным кодом быстрее, более настраиваемы, более конфиденциальны и гораздо более функциональны», — говорится в просочившейся записке. «Они делают вещи с параметрами в 100 и 13 миллиардов долларов, с которыми мы боремся при 10 миллионах и 540 миллиардов долларов. И они делают это за недели, а не месяцы».

    Действительно, если кто-то и планировал получить прибыль от явных изображений ИИ, то публичный выпуск моделей преобразования текста в изображения с открытым исходным кодом, который называют катализатором распространения порнографии с ИИ без согласия, превратил этот рынок в товар. А с учетом недавних постановлений о копирайтинге, можно получить гораздо больше.

    Но GoogleБеспокойство компании может придать Meta слишком большое значение, поскольку в последнее время бизнес социальной рекламы был менее чем открыт в плане лицензирования. Так же, как лицензия Meta LLaMA 2 не является открытым исходным кодом, лицензия SeamlessM4T накладывает ограничения, которые делают ее менее полезной за пределами академических кругов.

    «В соответствии с нашим подходом к открытой науке мы публично выпускаем SeamlessM4T под CC BY-NC 4.0, чтобы позволить исследователям и разработчикам развивать эту работу», — пояснили в компании.

    Лицензия CC BY-NC 4.0 запрещает коммерческое использование, поэтому разработчики, желающие реализовать автоматическую транскрипцию или перевод на английский язык в приложении, могут счесть модель OpenAI Whisper под лицензией MIT более подходящей. ®

    Предыдущая статьяПридерживаться Intel или перейти на чипы Apple M?
    Следующая статьяOpenAI теперь предлагает тонкую настройку для GPT-3.5 Turbo
    Виктор Попанов
    Эксперт тестовой лаборатории. Первый джойстик держал в руках в возрасте 3 лет. Первый компьютер, на котором „работал” был с процессором Intel i386DX-266. Тестирует оборудование для издания ITBusiness. Будь то анализ новейших гаджетов или устранение сложных неполадок, этот автор всегда готов к выполнению поставленной задачи. Его страсть к технологиям и приверженность качеству делают его бесценным помощником в любой команде.