Microsoft только что представила VALL-E (Voice-Aware Language-Learned Encoder-Decoder), новую модель искусственного интеллекта для преобразования текста в речь, которая может имитировать чей-либо голос всего за трехсекундный звуковой образец. VALL-E основан на технологии сжатия звука EnCodec от Meta, которая использует искусственный интеллект для сжатия высококачественного звука до скорости передачи данных, намного меньшей, чем у файлов MP3.
Новый искусственный интеллект Microsoft может сохранять эмоциональный тон говорящего и акустическую среду.
Технология, лежащая в основе VALL-E, является новаторской, поскольку она позволяет модели анализировать, как звучит человек, а затем разбивать эту информацию на отдельные компоненты, называемые «токенами». VALL-E может использовать эту информацию, чтобы сопоставить то, что он «знает» о том, как звучал бы этот голос, если бы он произносил другие фразы помимо трехсекундного образца.
Современные системы преобразования текста в речь требуют высококачественных, очень чистых обучающих данных, и это делается в студии звукозаписи с профессиональным оборудованием. Microsoft продвинулась в этой области с VALL-E, позволяя модели имитировать любой голос, используя только трехсекундный образец. VALL-E теперь может имитировать практически любой голос без необходимости проводить недели в студии.
Возможности VALL-E были отточены с помощью аудиобиблиотеки LibriLight, которая содержит 60 000 часов речи из более чем 7 000 динамиков. Это позволяет VALL-E воспроизводить реалистично звучащие голоса на английском языке. В сочетании с другими генеративными моделями искусственного интеллекта у него есть потенциал для создания высококачественных приложений для преобразования текста в речь.
Microsoft предоставила большую коллекцию сэмплов, сгенерированных VALL-E, чтобы вы могли послушать сами. Хотя результаты не идеальны, сэмплы, сгенерированные VALL-E, звучат естественно и неотличимо от оригинального сэмпла динамика.
Несмотря на впечатляющие возможности VALL E, Microsoft осознает возможность злоупотреблений этой технологией. По данным компании, злоумышленники могут использовать звук в злонамеренных целях, таких как подделка голосовой идентификации или выдача себя за другое лицо. Чтобы снизить эти риски, Microsoft предлагает разработать модель обнаружения, позволяющую различать синтезированную и подлинную речь, сгенерированную VALL-E.
Наконец, VALL-E — это значительный шаг вперед в технологии преобразования текста в речь. Его способность имитировать чей-либо голос, используя только трехсекундный звуковой образец, является революционной для различных целей. Однако корпорация Майкрософт должна продолжать совершенствовать VALL-E, обеспечивая при этом соответствующие меры безопасности для предотвращения ее неправомерного использования.