Microsoft VALL-E может имитировать чей-либо голос с помощью 3-секундного аудио

От

11.01.2023

Microsoft только что представила VALL-E (Voice-Aware Language-Learned Encoder-Decoder), новую модель искусственного интеллекта для преобразования текста в речь, которая может имитировать чей-либо голос всего за трехсекундный звуковой образец. VALL-E основан на технологии сжатия звука EnCodec от Meta, которая использует искусственный интеллект для сжатия высококачественного звука до скорости передачи данных, намного меньшей, чем у файлов MP3.

Новый искусственный интеллект Microsoft может сохранять эмоциональный тон говорящего и акустическую среду.

Технология, лежащая в основе VALL-E, является новаторской, поскольку она позволяет модели анализировать, как звучит человек, а затем разбивать эту информацию на отдельные компоненты, называемые «токенами». VALL-E может использовать эту информацию, чтобы сопоставить то, что он «знает» о том, как звучал бы этот голос, если бы он произносил другие фразы помимо трехсекундного образца.

Современные системы преобразования текста в речь требуют высококачественных, очень чистых обучающих данных, и это делается в студии звукозаписи с профессиональным оборудованием. Microsoft продвинулась в этой области с VALL-E, позволяя модели имитировать любой голос, используя только трехсекундный образец. VALL-E теперь может имитировать практически любой голос без необходимости проводить недели в студии.

Возможности VALL-E были отточены с помощью аудиобиблиотеки LibriLight, которая содержит 60 000 часов речи из более чем 7 000 динамиков. Это позволяет VALL-E воспроизводить реалистично звучащие голоса на английском языке. В сочетании с другими генеративными моделями искусственного интеллекта у него есть потенциал для создания высококачественных приложений для преобразования текста в речь.

Читайте также:

Где взять лучшие обои 4K

Microsoft предоставила большую коллекцию сэмплов, сгенерированных VALL-E, чтобы вы могли послушать сами. Хотя результаты не идеальны, сэмплы, сгенерированные VALL-E, звучат естественно и неотличимо от оригинального сэмпла динамика.

Несмотря на впечатляющие возможности VALL E, Microsoft осознает возможность злоупотреблений этой технологией. По данным компании, злоумышленники могут использовать звук в злонамеренных целях, таких как подделка голосовой идентификации или выдача себя за другое лицо. Чтобы снизить эти риски, Microsoft предлагает разработать модель обнаружения, позволяющую различать синтезированную и подлинную речь, сгенерированную VALL-E.

Наконец, VALL-E — это значительный шаг вперед в технологии преобразования текста в речь. Его способность имитировать чей-либо голос, используя только трехсекундный звуковой образец, является революционной для различных целей. Однако корпорация Майкрософт должна продолжать совершенствовать VALL-E, обеспечивая при этом соответствующие меры безопасности для предотвращения ее неправомерного использования.

Microsoft VALL-E может имитировать чей-либо голос с помощью 3-секундного аудио

Новый искусственный интеллект Microsoft может сохранять эмоциональный тон говорящего и акустическую среду.

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Apple iOS 18 может принести массу функций искусственного интеллекта на iPhone

Новый искусственный интеллект Microsoft может сохранять эмоциональный тон говорящего и акустическую среду.

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНОЕЩЕ ОТ АВТОРА

6 вещей, которые я бы делал по -другому при строительстве домашнего офиса с нуля

Umidigi сияет на гонконгской мобильной электронике с A100 5G и G100

Мой выбор для лучшей бесплатной альтернативы TeamViewer

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Apple iOS 18 может принести массу функций искусственного интеллекта на iPhone

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНО ЕЩЕ ОТ АВТОРА