Этот новый ИИ может имитировать человеческие голоса всего за 3 секунды обучения.


    Человечество сделало еще один шаг к неизбежной войне с машинами (которую мы проиграем) с созданием Vall-E, ИИ, разработанного группой исследователей из Microsoft, который может воспроизводить высококачественные реплики человеческого голоса всего за несколько секунд. аудиотренинга.

    Vall-E — не первый голосовой инструмент на базе искусственного интеллекта — xVASynth. (откроется в новой вкладке), например, работает уже пару лет, но обещает превзойти их всех с точки зрения чистых возможностей. В статье, доступной в Корнельском университете (откроется в новой вкладке) (через Windows Central (откроется в новой вкладке)), исследователи Vall-E говорят, что большинство современных систем преобразования текста в речь ограничены тем, что они полагаются на «высококачественные чистые данные» для точного синтеза высококачественной речи.

    «Большие объемы данных, сканируемые из Интернета, не могут соответствовать требованиям и всегда приводят к снижению производительности», — говорится в документе. «Поскольку обучающие данные относительно малы, современные системы TTS по-прежнему страдают от плохого обобщения. Сходство говорящих и естественность речи резко снижаются для невидимых говорящих в сценарии с нулевым выстрелом».

    (“Нулевой сценарий (откроется в новой вкладке)“в данном случае, по сути, означает способность ИИ воссоздавать голоса без специального обучения на них.)

    Vall-E, с другой стороны, обучается на гораздо большем и разнообразном наборе данных: 60 000 часов англоязычной речи, извлеченной из более чем 7000 уникальных носителей, и все они расшифрованы с помощью программного обеспечения для распознавания речи. Данные, передаваемые ИИ, содержат «более шумную речь и неточную транскрипцию», чем данные, используемые другими системами преобразования текста в речь, но исследователи считают, что сам масштаб ввода и его разнообразие делают его гораздо более гибким, адаптируемым, и — это самый большой — естественный, чем его предшественники.

    «Результаты эксперимента показывают, что Vall-E значительно превосходит современную систему TTS с нулевым выстрелом с точки зрения естественности речи и сходства говорящих», — говорится в документе, который наполнен числами, уравнениями, диаграммами и другим подобным. сложности. «Кроме того, мы обнаружили, что VALL-E может сохранять эмоции говорящего и акустическую среду акустической подсказки в синтезе».

    (Изображение предоставлено: Валл-Э)

    Вы действительно можете услышать Vall-E в действии на Github. (откроется в новой вкладке), где исследовательская группа поделилась кратким описанием того, как все это работает, а также десятками примеров входных и выходных данных. Качество варьируется: некоторые голоса заметно роботизированы, а другие звучат вполне по-человечески. Но как своего рода техническое демо первого прохода, это впечатляет. Представьте, какой будет эта технология через год, два или пять, по мере совершенствования систем и дальнейшего расширения набора данных для обучения голосу.

    Вот, конечно, почему это проблема. Dall-E, генератор искусств на основе искусственного интеллекта, сталкивается с проблемами конфиденциальности и прав собственности (откроется в новой вкладке)а бот ChatGPT настолько убедителен, что недавно был запрещен Департаментом образования Нью-Йорка. (откроется в новой вкладке). Vall-E может вызвать еще большее беспокойство из-за возможного использования в мошеннических маркетинговых звонках или для усиления видео с дипфейками. Это может звучать немного неуверенно, но, как сказал в начале года наш исполнительный редактор Тайлер Уайлд, эта ерунда никуда не денется. (откроется в новой вкладке)и очень важно, чтобы мы признавали проблемы и регулировали создание и использование систем ИИ до того, как потенциальные проблемы превратятся в реальные (и действительно большие).

    Исследовательская группа Vall-E рассмотрела эти «более широкие последствия» в заключении своей статьи. «Поскольку VALL-E может синтезировать речь, сохраняющую личность говорящего, она может нести потенциальные риски при неправильном использовании модели, например, подделка голосовой идентификации или выдача себя за конкретного говорящего», — написала команда. «Чтобы снизить такие риски, можно построить модель обнаружения, чтобы различать, был ли аудиоклип синтезирован VALL-E. Мы также будем применять принципы искусственного интеллекта Microsoft при дальнейшей разработке моделей».

    Если вам нужны дополнительные доказательства того, что имитация голоса на лету ведет к плохим местам:

    Предыдущая статьяCivilization 6: советы по игре за Токугаву
    Следующая статьяDisney Dreamlight Valley: Гайд по персонажу ВАЛЛ-И
    Илларион Товаркин
    Илларион Товаркин - талантливый писатель, страстно любящий все, что связано с играми. От захватывающих экшн-игр до сложных ролевых игр, они обладают глубоким пониманием игровой индустрии и того, что делает игру великой. Благодаря острому вниманию к деталям и способности создавать захватывающие сюжетные линии, Илларион Товаркин способен перенести читателей в захватывающие игровые миры, наполненные приключениями и азартом. Пишет ли он о последней игре-блокбастере или углубляются в историю классических игр, его статьи всегда увлекательны и информативны. Так что если вы поклонник игр или просто ищете отличное чтение, обязательно ознакомьтесь с его работами - вы не будете разочарованы!