Microsoft VALL-E может имитировать чей-либо голос с помощью 3-секундного аудио

    0
    19


    Microsoft только что представила VALL-E (Voice-Aware Language-Learned Encoder-Decoder), новую модель искусственного интеллекта для преобразования текста в речь, которая может имитировать чей-либо голос всего за трехсекундный звуковой образец. VALL-E основан на технологии сжатия звука EnCodec от Meta, которая использует искусственный интеллект для сжатия высококачественного звука до скорости передачи данных, намного меньшей, чем у файлов MP3.

    Новый искусственный интеллект Microsoft может сохранять эмоциональный тон говорящего и акустическую среду.

    Технология, лежащая в основе VALL-E, является новаторской, поскольку она позволяет модели анализировать, как звучит человек, а затем разбивать эту информацию на отдельные компоненты, называемые «токенами». VALL-E может использовать эту информацию, чтобы сопоставить то, что он «знает» о том, как звучал бы этот голос, если бы он произносил другие фразы помимо трехсекундного образца.

    how valle work

    Современные системы преобразования текста в речь требуют высококачественных, очень чистых обучающих данных, и это делается в студии звукозаписи с профессиональным оборудованием. Microsoft продвинулась в этой области с VALL-E, позволяя модели имитировать любой голос, используя только трехсекундный образец. VALL-E теперь может имитировать практически любой голос без необходимости проводить недели в студии.

    ИИ может имитировать чей-либо голос с помощью 3 секунд звука

    Возможности VALL-E были отточены с помощью аудиобиблиотеки LibriLight, которая содержит 60 000 часов речи из более чем 7 000 динамиков. Это позволяет VALL-E воспроизводить реалистично звучащие голоса на английском языке. В сочетании с другими генеративными моделями искусственного интеллекта у него есть потенциал для создания высококачественных приложений для преобразования текста в речь.

    Microsoft предоставила большую коллекцию сэмплов, сгенерированных VALL-E, чтобы вы могли послушать сами. Хотя результаты не идеальны, сэмплы, сгенерированные VALL-E, звучат естественно и неотличимо от оригинального сэмпла динамика.

    Несмотря на впечатляющие возможности VALL E, Microsoft осознает возможность злоупотреблений этой технологией. По данным компании, злоумышленники могут использовать звук в злонамеренных целях, таких как подделка голосовой идентификации или выдача себя за другое лицо. Чтобы снизить эти риски, Microsoft предлагает разработать модель обнаружения, позволяющую различать синтезированную и подлинную речь, сгенерированную VALL-E.

    Наконец, VALL-E — это значительный шаг вперед в технологии преобразования текста в речь. Его способность имитировать чей-либо голос, используя только трехсекундный звуковой образец, является революционной для различных целей. Однако корпорация Майкрософт должна продолжать совершенствовать VALL-E, обеспечивая при этом соответствующие меры безопасности для предотвращения ее неправомерного использования.

    Предыдущая статьяElden Ring: Лучшие объединенные боевые сборки
    Следующая статьяПоля сражений Hearthstone: полное руководство
    Петр Григорин
    Интересуется софтом, разработкой и использование новых приложений, технология искусственного интеллекта. Этот писатель - человек с техническими знаниями, который увлечен разработкой программного обеспечения и использованием новых приложений. Его особенно интересуют технологии искусственного интеллекта и то, как они могут быть использованы для улучшения различных отраслей промышленности и повседневной жизни. Обладая прочной основой в области информатики и острым взглядом на инновации, этот писатель обязательно привнесет ценные идеи и соображения в любую дискуссию на эти темы. Пишет ли он о последних открытиях в области ИИ или исследует потенциал новых программных инструментов, его работа обязательно будет увлекательной и заставляющей задуматься.