Дешевый ИИ-скребок видео теперь может извлекать данные из любой записи экрана

    0
    0



    abstract cubes

    Парсинг видео — это лишь один из многих новых приемов, которые возможны с появлением новейших моделей больших языков (LLM), таких как GoogleGemini и GPT-4o от Gemini на самом деле являются «мультимодальными» моделями, позволяющими вводить аудио, видео, изображения и текст. Эти модели преобразуют любой мультимедийный ввод в токены (фрагменты данных), которые они используют для прогнозирования того, какие токены должны идти следующими в последовательности.

    Такой термин, как «модель прогнозирования токенов» (TPM), в наши дни может быть более точным, чем «LLM», для моделей ИИ с мультимодальными входами и выходами, но обобщенный альтернативный термин еще не получил широкого распространения. Но как бы вы это ни называли, наличие модели искусственного интеллекта, способной принимать видеовходы, имеет интересные последствия, как хорошие, так и потенциально плохие.

    Ломая входные барьеры

    Уиллисон далеко не первый человек, который вводит видео в модели ИИ для достижения интересных результатов (подробнее об этом ниже, а вот статья 2015 года, в которой используется термин «сборка видео»), но как только Gemini запустила функцию видеоввода, он начал серьезно с этим экспериментировать.

    В феврале Уиллисон продемонстрировал в своем блоге еще одно раннее применение очистки видео с помощью ИИ, где он снял семисекундное видео с книгами на своих книжных полках, а затем получил Gemini 1.5. Pro чтобы извлечь все названия книг, которые он видел в видео, и поместить их в структурированный или организованный список.

    Преобразование неструктурированных данных в структурированные важно для Уиллисона, поскольку он также является журналистом данных. В прошлом Уиллисон создавал инструменты для журналистов данных, такие как проект Datasette, который позволяет любому публиковать данные в виде интерактивного веб-сайта.

    К разочарованию каждого журналиста данных, некоторые источники данных оказываются устойчивыми к очистке (сбору данных для анализа) из-за того, как данные форматируются, хранятся или представляются. В этих случаях Уиллисон радуется возможности парсинга видео с помощью ИИ, поскольку он обходит эти традиционные барьеры на пути извлечения данных.

    Предыдущая статьяУкус безопасности: хакеры теперь направляют пользователей в терминал для обхода
    Следующая статьяКак использовать VirtualBox для создания домашней лаборатории
    Петр Григорин
    Интересуется софтом, разработкой и использование новых приложений, технология искусственного интеллекта. Этот писатель - человек с техническими знаниями, который увлечен разработкой программного обеспечения и использованием новых приложений. Его особенно интересуют технологии искусственного интеллекта и то, как они могут быть использованы для улучшения различных отраслей промышленности и повседневной жизни. Обладая прочной основой в области информатики и острым взглядом на инновации, этот писатель обязательно привнесет ценные идеи и соображения в любую дискуссию на эти темы. Пишет ли он о последних открытиях в области ИИ или исследует потенциал новых программных инструментов, его работа обязательно будет увлекательной и заставляющей задуматься.