Meta продвигается к модели универсального переводчика с искусственным интеллектом

От

23.08.2023

Во вторник Meta выпустила базовую модель мультимодального искусственного интеллекта под названием SeamlessM4T, предназначенную для перевода и расшифровки речи и текста.

Модель машинного обучения может выполнять автоматическое распознавание речи, принимая как устный, так и текстовый ввод, и возвращая любой формат; то есть он может переводить с одного языка на другой, а также транскрибировать. Возможность обработки каждого из этих режимов делает модель по-настоящему мультимодальной.

«Создание универсального языкового переводчика, подобного вымышленной Вавилонской рыбе в Путеводитель для путешествующих автостопом по Galaxyявляется непростой задачей, поскольку существующие системы преобразования речи в речь и речи в текст охватывают лишь небольшую часть языков мира», — говорится в сообщении компании в блоге. «Но мы считаем, что работа, о которой мы объявляем сегодня, является важной шаг вперед в этом путешествии».

Рыбка-вкладыш, надеюсь, в комплект не входит.

Согласно бизнесу социальной рекламы, SeamlessM4T основан на предыдущих разработках, таких как корпоративная модель перевода текста в текст No Language Left Behind (NLLB), ее модели массовой многоязычной речи и универсальный переводчик речи для хоккиена, языка, на котором говорят в Китае и Китае. Юго-Восточная Азия.

Googleкак упоминалось на недавней конференции разработчиков IO, работает над собственным проектом Universal Translator для автоматического дублирования видео, синхронизируемого с движениями губ.

Мета утверждает, что использование единой модели уменьшает количество ошибок и задержек, делая процесс перевода лучше и эффективнее. Однако было высказано предположение, что перевод с испанского на вьетнамский, показанный в видео, озвученном менеджером-исследователем Meta Пако Гусманом, содержит опечатку и неправильно произносит слово. Так что, возможно, есть возможности для дальнейшего совершенствования.

SeamlessM4T, как утверждает Meta, может обрабатывать 101 язык для речевого ввода, 96 языков для ввода и вывода текста и 35 языков для речевого вывода.

В статье, посвященной бесшовному MT4, написанной более чем 60 исследователями Meta, утверждается, что система справляется с фоновыми шумами и изменениями динамиков в задачах преобразования речи в текст лучше, чем текущая современная модель (спойлер: это Whisper от OpenAI) на 38 процентов. и 49 процентов соответственно.

Кроме того, модель Меты менее склонна предлагать переводы, которые вводят неуместные предположения или термины, отсутствующие в исходном тексте.

«Важно то, что мы оценили SeamlessM4T на гендерную предвзятость и добавили токсичность для оценки безопасности перевода», — говорится в документе. «По сравнению с современными достижениями мы сообщаем о снижении дополнительной токсичности наших переводов на 63 процента».

Модель Meta имеет различные размеры с точки зрения параметров, что свидетельствует о полноте и полезности модели: SeamlessM4T-LARGE (2,3 миллиарда), SeamlessM4T-MEDIUM (1,2 миллиарда) и (скоро) SeamlessM4T-SMALL (281 миллион).

Для сравнения: модель автоматического распознавания речи OpenAI Whisper (большая) имеет 1,55 миллиарда параметров, а самая маленькая версия (миниатюрная) — 39 миллионов.

Склонность Meta к выпуску моделей под лицензиями с открытым исходным кодом или на более строгих, но не полностью патентованных условиях, предположительно, вызвала Google ранее в этом году сотрудник написал памятку, предупреждающую, что ИИ с открытым исходным кодом вытеснит Google и OpenAI, связанная с Microsoft.

«Модели с открытым исходным кодом быстрее, более настраиваемы, более конфиденциальны и гораздо более функциональны», — говорится в просочившейся записке. «Они делают вещи с параметрами в 100 и 13 миллиардов долларов, с которыми мы боремся при 10 миллионах и 540 миллиардов долларов. И они делают это за недели, а не месяцы».

Действительно, если кто-то и планировал получить прибыль от явных изображений ИИ, то публичный выпуск моделей преобразования текста в изображения с открытым исходным кодом, который называют катализатором распространения порнографии с ИИ без согласия, превратил этот рынок в товар. А с учетом недавних постановлений о копирайтинге, можно получить гораздо больше.

Но GoogleБеспокойство компании может придать Meta слишком большое значение, поскольку в последнее время бизнес социальной рекламы был менее чем открыт в плане лицензирования. Так же, как лицензия Meta LLaMA 2 не является открытым исходным кодом, лицензия SeamlessM4T накладывает ограничения, которые делают ее менее полезной за пределами академических кругов.

«В соответствии с нашим подходом к открытой науке мы публично выпускаем SeamlessM4T под CC BY-NC 4.0, чтобы позволить исследователям и разработчикам развивать эту работу», — пояснили в компании.

Лицензия CC BY-NC 4.0 запрещает коммерческое использование, поэтому разработчики, желающие реализовать автоматическую транскрипцию или перевод на английский язык в приложении, могут счесть модель OpenAI Whisper под лицензией MIT более подходящей. ®

Meta продвигается к модели универсального переводчика с искусственным интеллектом

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Mozilla приостанавливает подверженную ошибкам функцию объяснения AI в MDN

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНОЕЩЕ ОТ АВТОРА

Freeing developers from GenAI deployment nightmares

Nvidia unveils 288 GB Blackwell Ultra GPUs

Огромное количество данных подталкивает финансовые службы к более глубокому внедрению ИИ –

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Mozilla приостанавливает подверженную ошибкам функцию объяснения AI в MDN

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНО ЕЩЕ ОТ АВТОРА