Этот новый ИИ может имитировать человеческие голоса всего за 3 секунды обучения.

От

09.01.2023

Человечество сделало еще один шаг к неизбежной войне с машинами (которую мы проиграем) с созданием Vall-E, ИИ, разработанного группой исследователей из Microsoft, который может воспроизводить высококачественные реплики человеческого голоса всего за несколько секунд. аудиотренинга.

Vall-E — не первый голосовой инструмент на базе искусственного интеллекта — xVASynth. (откроется в новой вкладке), например, работает уже пару лет, но обещает превзойти их всех с точки зрения чистых возможностей. В статье, доступной в Корнельском университете (откроется в новой вкладке) (через Windows Central (откроется в новой вкладке)), исследователи Vall-E говорят, что большинство современных систем преобразования текста в речь ограничены тем, что они полагаются на «высококачественные чистые данные» для точного синтеза высококачественной речи.

«Большие объемы данных, сканируемые из Интернета, не могут соответствовать требованиям и всегда приводят к снижению производительности», — говорится в документе. «Поскольку обучающие данные относительно малы, современные системы TTS по-прежнему страдают от плохого обобщения. Сходство говорящих и естественность речи резко снижаются для невидимых говорящих в сценарии с нулевым выстрелом».

(“Нулевой сценарий (откроется в новой вкладке)“в данном случае, по сути, означает способность ИИ воссоздавать голоса без специального обучения на них.)

Vall-E, с другой стороны, обучается на гораздо большем и разнообразном наборе данных: 60 000 часов англоязычной речи, извлеченной из более чем 7000 уникальных носителей, и все они расшифрованы с помощью программного обеспечения для распознавания речи. Данные, передаваемые ИИ, содержат «более шумную речь и неточную транскрипцию», чем данные, используемые другими системами преобразования текста в речь, но исследователи считают, что сам масштаб ввода и его разнообразие делают его гораздо более гибким, адаптируемым, и — это самый большой — естественный, чем его предшественники.

«Результаты эксперимента показывают, что Vall-E значительно превосходит современную систему TTS с нулевым выстрелом с точки зрения естественности речи и сходства говорящих», — говорится в документе, который наполнен числами, уравнениями, диаграммами и другим подобным. сложности. «Кроме того, мы обнаружили, что VALL-E может сохранять эмоции говорящего и акустическую среду акустической подсказки в синтезе».

Диаграмма Валл-Э — (Изображение предоставлено: Валл-Э)

Вы действительно можете услышать Vall-E в действии на Github. (откроется в новой вкладке), где исследовательская группа поделилась кратким описанием того, как все это работает, а также десятками примеров входных и выходных данных. Качество варьируется: некоторые голоса заметно роботизированы, а другие звучат вполне по-человечески. Но как своего рода техническое демо первого прохода, это впечатляет. Представьте, какой будет эта технология через год, два или пять, по мере совершенствования систем и дальнейшего расширения набора данных для обучения голосу.

Вот, конечно, почему это проблема. Dall-E, генератор искусств на основе искусственного интеллекта, сталкивается с проблемами конфиденциальности и прав собственности (откроется в новой вкладке)а бот ChatGPT настолько убедителен, что недавно был запрещен Департаментом образования Нью-Йорка. (откроется в новой вкладке). Vall-E может вызвать еще большее беспокойство из-за возможного использования в мошеннических маркетинговых звонках или для усиления видео с дипфейками. Это может звучать немного неуверенно, но, как сказал в начале года наш исполнительный редактор Тайлер Уайлд, эта ерунда никуда не денется. (откроется в новой вкладке)и очень важно, чтобы мы признавали проблемы и регулировали создание и использование систем ИИ до того, как потенциальные проблемы превратятся в реальные (и действительно большие).

Этот новый ИИ может имитировать человеческие голоса всего за 3 секунды обучения.

ОСТАВЬТЕ ОТВЕТ Отменить ответ

10 Frostpunk 2 tips to get started saving New London

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНОЕЩЕ ОТ АВТОРА

Diablo 4’s lead live game designer says difficulty is ‘a tricky

I thought I knew my keyboard until I played the Initial D typing game,

Last Epoch’s excellent new update proves we’re in a golden age of

ОСТАВЬТЕ ОТВЕТ Отменить ответ

10 Frostpunk 2 tips to get started saving New London

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНО ЕЩЕ ОТ АВТОРА