Стремление Meta перевести недостаточно обслуживаемые языки ознаменовало свою первую победу выпуском языковой модели с открытым исходным кодом, способной расшифровывать 202 языка.
Названная в честь инициативы Meta «No Language Left Behind» и получившая название NLLB-200, эта модель, по словам ее создателей, является первой, способной переводить так много языков, и все это с целью улучшить перевод для языков, которые не учитываются в аналогичных проектах.
«Подавляющее большинство улучшений, внесенных в машинный перевод за последние десятилетия, касалось языков с высокими ресурсами», — пишут исследователи Meta в статье. [PDF]. «Хотя машинный перевод продолжает развиваться, плоды, которые он приносит, распределяются неравномерно», — сказали они.
Согласно анонсу NLLB-200, модель может переводить 55 африканских языков «с высоким качеством результата». По словам Мета, до создания NLLB-200 менее 25 африканских языков были охвачены широко используемыми инструментами перевода. Мета сообщила, что при тестировании на соответствие стандарту BLEU NLLB-200 продемонстрировал улучшение в среднем на 44 процента по сравнению с другими современными моделями перевода. Сообщается, что для некоторых африканских и индийских языков улучшение достигло 70 процентов.
Наряду с выпуском на GitHub в качестве модели с открытым исходным кодом Meta заявила, что также предоставляет гранты в размере 200 000 долларов США некоммерческим организациям, желающим исследовать реальные приложения для NLLB-200.
Помимо высоких целей, Meta уже запускает NLLB-200. Модель и другие результаты программы NLLB «будут поддерживать более 25 миллиардов переводов, ежедневно публикуемых в новостной ленте Facebook, Instagram и других наших платформах».
Кроме того, Meta сотрудничает с Фондом Викимедиа, чтобы использовать NLLB-200 в качестве серверной части инструмента перевода контента Википедии. Включив NLLB-200, CTT добавила 10 языков, которые не поддерживались ни одним другим инструментом перевода.
Есть еще препятствия. Meta объясняет, что ей пришлось проделать немало работы, чтобы преодолеть препятствия на пути удвоения возможностей NLLB, которые она преодолела за счет «регуляризации и обучения по учебной программе, обучения с самоконтролем и диверсификации обратного перевода». Meta также широко использовала дистилляцию языковых моделей, которая превращает ранее обученный ИИ в обучающие данные для новых моделей.
В рамках открытого исходного кода NLLB-200 Meta также выпускает новый оценочный набор данных Flores-200, который она создала для проекта, данные обучения семян, свой список токсичности на 200 языках, свой новый кодировщик предложений LASER3, библиотеку интеллектуального анализа данных Stopes. , 3,3 миллиарда и 1,3 миллиарда моделей плотных трансформаторов параметров, 1,3 миллиарда и 600 миллионов моделей параметров, полученных из NLLB-200 и самого NLLB-200, который содержит 54,5 миллиарда параметров.
Не все сообщества могут приветствовать включение их языка в NLLB или другие программы в этом отношении. Сообщество маори Новой Зеландии в прошлом году столкнулось с переводческими компаниями, утверждая, что организации не имеют права покупать языковые данные и продавать язык маори его носителям. ®