
Недавно Adobe выпустила бесплатный инструмент для обработки звука на базе искусственного интеллекта, который может улучшить некоторые некачественные голосовые записи, удалив фоновый шум и сделав голос более громким. Когда это работает, результат звучит как запись, сделанная в профессиональной звуковой кабине с высококачественным микрофоном.
Новый инструмент под названием Enhance Speech был создан в рамках исследовательского проекта ИИ под названием Project Shasta. Недавно Adobe переименовала Project Shasta в Adobe Podcast.
Использование Enhance Speech бесплатно, но требует создания учетной записи Adobe и лучше всего работает с настольным веб-браузером. После регистрации пользователи могут загружать файлы MP3 или WAV продолжительностью до одного часа или размером 1 ГБ. Через несколько минут вы можете прослушать результат в своем браузере или загрузить полученный очищенный звук.
В наших тестах с сервисом Enhance Speech лучше всего работал со звуком, который содержал голос без перекрестных помех или чрезмерного шума. Например, мы записали звук со встроенного микрофона iMac человека, стоящего на расстоянии 10 футов, включая шум вентилятора поблизости, и полученный звук (после обработки с помощью Enhance Speech) звучал так, как будто он был записан с близкого расстояния в бесшумной среде. студия с профессиональным микрофоном.

Adobe
Как это работает? Adobe не предоставила никаких подробностей, но мы подозреваем, что компания обучила модель глубокого обучения на многих (возможно, тысячах) часах чистого и шумного звука. Затем модель могла бы «научиться» различать частоты человеческого голоса и синтезировать факсимиле, точно соответствующее источнику. Это предположение, пока Adobe не предоставит больше технических деталей, и мы обратились к компании за комментариями.
В связи с этим некоторые комментаторы Hacker News сообщают о галлюцинациях — неожиданных результатах, таких как фантомные голоса, когда ИИ неправильно интерпретирует входной звук — от чрезвычайно шумного звука (например, речи, записанной рядом с водопадом) или от неанглоязычных источников, что предполагает, что Enhance Speech делает больше, чем просто обычная техника шумоподавления.
Enhance Speech — не первый инструмент, обеспечивающий такую возможность шумоподавления на основе ИИ. Например, пакет с открытым исходным кодом mayavoz и коммерческая служба Audo Studio делают что-то подобное.
Стоит отметить, что Enhance Speech является частью более крупной группы инструментов для подкастинга на базе искусственного интеллекта от Adobe, включая инструмент Mic Check (в настоящее время также доступен бесплатно) и инструмент для редактирования аудио на основе расшифровки, который все еще проходит только по приглашению. бета-тест.