Парсинг видео — это лишь один из многих новых приемов, которые возможны с появлением новейших моделей больших языков (LLM), таких как GoogleGemini и GPT-4o от Gemini на самом деле являются «мультимодальными» моделями, позволяющими вводить аудио, видео, изображения и текст. Эти модели преобразуют любой мультимедийный ввод в токены (фрагменты данных), которые они используют для прогнозирования того, какие токены должны идти следующими в последовательности.
Такой термин, как «модель прогнозирования токенов» (TPM), в наши дни может быть более точным, чем «LLM», для моделей ИИ с мультимодальными входами и выходами, но обобщенный альтернативный термин еще не получил широкого распространения. Но как бы вы это ни называли, наличие модели искусственного интеллекта, способной принимать видеовходы, имеет интересные последствия, как хорошие, так и потенциально плохие.
Ломая входные барьеры
Уиллисон далеко не первый человек, который вводит видео в модели ИИ для достижения интересных результатов (подробнее об этом ниже, а вот статья 2015 года, в которой используется термин «сборка видео»), но как только Gemini запустила функцию видеоввода, он начал серьезно с этим экспериментировать.
В феврале Уиллисон продемонстрировал в своем блоге еще одно раннее применение очистки видео с помощью ИИ, где он снял семисекундное видео с книгами на своих книжных полках, а затем получил Gemini 1.5. Pro чтобы извлечь все названия книг, которые он видел в видео, и поместить их в структурированный или организованный список.
Преобразование неструктурированных данных в структурированные важно для Уиллисона, поскольку он также является журналистом данных. В прошлом Уиллисон создавал инструменты для журналистов данных, такие как проект Datasette, который позволяет любому публиковать данные в виде интерактивного веб-сайта.
К разочарованию каждого журналиста данных, некоторые источники данных оказываются устойчивыми к очистке (сбору данных для анализа) из-за того, как данные форматируются, хранятся или представляются. В этих случаях Уиллисон радуется возможности парсинга видео с помощью ИИ, поскольку он обходит эти традиционные барьеры на пути извлечения данных.