Есть несколько способов расшифровать интервью или видео. Вы можете сделать это вручную, просто слушая, что даст вам максимальную точность, но займет больше всего времени, или вы можете использовать услугу или инструмент. Например, раньше я использовал YouTube, позволявший ему автоматически генерировать субтитры, сохранять эти субтитры и редактировать их, чтобы устранить все проблемы. Сейчас существуют различные инструменты искусственного интеллекта, которые отлично справляются со своей задачей, и одним из таких инструментов является Whisper от OpenAI.
Чтобы продемонстрировать, насколько хорошо работает этот инструмент, я расшифровал последнее телевизионное видео XDA. Как вы можете видеть ниже, он будет расшифровывать разделы и отмечать их временем, которые можно легко использовать в качестве субтитров на таких платформах, как YouTube. Это тоже работает быстро; Я использовал его на своем MacBook M1. Pro расшифровать 10-минутное видео всего за пять с половиной минут.
Этот инструмент меняет правила игры для создателей контента, которым необходимо создавать субтитры, людей, которым необходимо расшифровывать интервью, или тех, кто просто хочет превратить любой аудиофайл в текст. Я нашел его точность невероятной, и недавно я записал 25-минутное интервью, в котором ни одна вещь не была расшифрована неправильно. Whisper также может переводить языки в расшифрованном аудио.
Что такое Шепот?
Whisper — это система автоматического распознавания речи, демонстрирующая невероятную точность понимания произносимых слов. Он был создан OpenAI, предположительно для использования в таких системах, как ChatGPT, где теперь вы можете общаться с ИИ, но компания также открыла исходный код Whisper, чтобы сообщество также могло его использовать.
Принцип его работы достаточно продвинутый и включает в себя обучение на 680 000 часов контролируемых данных, собранных из Интернета, треть из которых была не на английском языке. Аудио разбивается на 30-секундные фрагменты, преобразуется и затем передается в кодер, а обученный декодер пытается предсказать соответствующий текстовый заголовок. Здесь также происходят и другие шаги, но они довольно технические и включают в себя определение языка, на котором говорят, многоязычную транскрипцию речи и перевод на английский.
Что касается сравнения его с другими инструментами, OpenAI утверждает, что Whisper допускает на 50% меньше ошибок, чем другие языковые модели, и я этому верю. На протяжении многих лет я использовал множество инструментов, чтобы попытаться расшифровать аудио, и ничто не было для меня столь же точным, как Whisper. Как я уже упоминал, я записал 25-минутное интервью, которое получилось безупречно, с чем сталкивается практически каждый инструмент.
Что особенно интересно в Whisper, так это то, что это инструмент, предназначенный не для конечных пользователей, а скорее для разработчиков и исследователей. В OpenAI заявили, что причина открытия исходного кода моделей и кода заключалась в том, чтобы «служить основой для создания полезных приложений и дальнейших исследований в области надежной обработки речи». Вы все еще можете настроить его и использовать, но это еще не потребительский продукт.
Существует несколько моделей, которые можно использовать при расшифровке звука, и для каждой из них существуют разные требования к vRAM. Самая большая модель требует 10 ГБ видеопамяти, но она также и самая точная. Также есть модели, поддерживающие только английский язык, за исключением самой большой модели, которая должна снизить требования к vRAM, если вы знаете, что расшифровываемый вами контент написан только на английском языке. В любом случае вам понадобится хороший графический процессор с достаточным количеством видеопамяти, чтобы запустить его.
Как использовать Whisper OpenAI
Whisper от OpenAI — это инструмент с открытым исходным кодом, который вы можете легко запустить локально, следуя нескольким руководствам. Если у вас MacBook, есть несколько более запутанных шагов, чтобы заставить его работать, но это не так уж и плохо, поскольку вам просто нужно будет самостоятельно скомпилировать C++-версию Whisper из исходного кода. Это не официальный порт, но это единственный способ заставить его работать на процессоре Apple. Вы можете воспользоваться этим руководством на Medium, чтобы узнать, как это сделать.
Вы также можете просто запустить его Google Collab, хотя это медленнее, или вы можете запустить его локально, если у вас машина x86. Вам просто нужно убедиться, что у вас установлен ffmpeg, и вы можете клонировать репозиторий Git, в котором находится Whisper, и запустить его. Просто следуйте инструкциям в репозитории Whisper Git, и вы сможете настроить Whisper в кратчайшие сроки. Чем мощнее ваше оборудование, тем лучше, конечно, но оно будет работать практически на чем угодно, просто это займет больше времени, если ваш компьютер медленнее.