Во вторник Meta выпустила базовую модель мультимодального искусственного интеллекта под названием SeamlessM4T, предназначенную для перевода и расшифровки речи и текста.
Модель машинного обучения может выполнять автоматическое распознавание речи, принимая как устный, так и текстовый ввод, и возвращая любой формат; то есть он может переводить с одного языка на другой, а также транскрибировать. Возможность обработки каждого из этих режимов делает модель по-настоящему мультимодальной.
«Создание универсального языкового переводчика, подобного вымышленной Вавилонской рыбе в Путеводитель для путешествующих автостопом по Galaxyявляется непростой задачей, поскольку существующие системы преобразования речи в речь и речи в текст охватывают лишь небольшую часть языков мира», — говорится в сообщении компании в блоге. «Но мы считаем, что работа, о которой мы объявляем сегодня, является важной шаг вперед в этом путешествии».
Рыбка-вкладыш, надеюсь, в комплект не входит.
Согласно бизнесу социальной рекламы, SeamlessM4T основан на предыдущих разработках, таких как корпоративная модель перевода текста в текст No Language Left Behind (NLLB), ее модели массовой многоязычной речи и универсальный переводчик речи для хоккиена, языка, на котором говорят в Китае и Китае. Юго-Восточная Азия.
Googleкак упоминалось на недавней конференции разработчиков IO, работает над собственным проектом Universal Translator для автоматического дублирования видео, синхронизируемого с движениями губ.
Мета утверждает, что использование единой модели уменьшает количество ошибок и задержек, делая процесс перевода лучше и эффективнее. Однако было высказано предположение, что перевод с испанского на вьетнамский, показанный в видео, озвученном менеджером-исследователем Meta Пако Гусманом, содержит опечатку и неправильно произносит слово. Так что, возможно, есть возможности для дальнейшего совершенствования.
SeamlessM4T, как утверждает Meta, может обрабатывать 101 язык для речевого ввода, 96 языков для ввода и вывода текста и 35 языков для речевого вывода.
В статье, посвященной бесшовному MT4, написанной более чем 60 исследователями Meta, утверждается, что система справляется с фоновыми шумами и изменениями динамиков в задачах преобразования речи в текст лучше, чем текущая современная модель (спойлер: это Whisper от OpenAI) на 38 процентов. и 49 процентов соответственно.
Кроме того, модель Меты менее склонна предлагать переводы, которые вводят неуместные предположения или термины, отсутствующие в исходном тексте.
«Важно то, что мы оценили SeamlessM4T на гендерную предвзятость и добавили токсичность для оценки безопасности перевода», — говорится в документе. «По сравнению с современными достижениями мы сообщаем о снижении дополнительной токсичности наших переводов на 63 процента».
Модель Meta имеет различные размеры с точки зрения параметров, что свидетельствует о полноте и полезности модели: SeamlessM4T-LARGE (2,3 миллиарда), SeamlessM4T-MEDIUM (1,2 миллиарда) и (скоро) SeamlessM4T-SMALL (281 миллион).
Для сравнения: модель автоматического распознавания речи OpenAI Whisper (большая) имеет 1,55 миллиарда параметров, а самая маленькая версия (миниатюрная) — 39 миллионов.
Склонность Meta к выпуску моделей под лицензиями с открытым исходным кодом или на более строгих, но не полностью патентованных условиях, предположительно, вызвала Google ранее в этом году сотрудник написал памятку, предупреждающую, что ИИ с открытым исходным кодом вытеснит Google и OpenAI, связанная с Microsoft.
«Модели с открытым исходным кодом быстрее, более настраиваемы, более конфиденциальны и гораздо более функциональны», — говорится в просочившейся записке. «Они делают вещи с параметрами в 100 и 13 миллиардов долларов, с которыми мы боремся при 10 миллионах и 540 миллиардов долларов. И они делают это за недели, а не месяцы».
Действительно, если кто-то и планировал получить прибыль от явных изображений ИИ, то публичный выпуск моделей преобразования текста в изображения с открытым исходным кодом, который называют катализатором распространения порнографии с ИИ без согласия, превратил этот рынок в товар. А с учетом недавних постановлений о копирайтинге, можно получить гораздо больше.
Но GoogleБеспокойство компании может придать Meta слишком большое значение, поскольку в последнее время бизнес социальной рекламы был менее чем открыт в плане лицензирования. Так же, как лицензия Meta LLaMA 2 не является открытым исходным кодом, лицензия SeamlessM4T накладывает ограничения, которые делают ее менее полезной за пределами академических кругов.
«В соответствии с нашим подходом к открытой науке мы публично выпускаем SeamlessM4T под CC BY-NC 4.0, чтобы позволить исследователям и разработчикам развивать эту работу», — пояснили в компании.
Лицензия CC BY-NC 4.0 запрещает коммерческое использование, поэтому разработчики, желающие реализовать автоматическую транскрипцию или перевод на английский язык в приложении, могут счесть модель OpenAI Whisper под лицензией MIT более подходящей. ®