Как построить базовые рабочие процессы в ComfyUI

    0
    0


    ComfyUI — это графический интерфейс Gradio на основе узлов, предназначенный для генеративных моделей искусственного интеллекта. Это один из наиболее универсальных способов создания AI-изображений, видео и аудио локально на вашем собственном оборудовании. Он не требует цензуры программного обеспечения или подписки и предлагает тысячи узлов и моделей искусственного интеллекта с исключительным пользовательским контролем. ComfyUI — невероятно мощный инструмент для всех, кто хочет оставаться на шаг впереди рынка искусственного интеллекта.




    То, что вам нужно иметь безумно мощный графический процессор или быть программистом, как некоторые могут полагать, — это миф, хотя это действительно ускоряет процесс. Вы можете запустить множество моделей генерации изображений с видеопамятью объемом от 6 до 8 ГБ на хорошем ноутбуке. ComfyUI и другие варианты графического интерфейса, такие как Automatic1111 или InvokeAI, могут потребовать значительного обучения, но они не сложнее, чем изучение Adobe Photoshop.

    Связанный

    Это лучшие альтернативы Adobe Photoshop, которые я использовал бесплатно.

    Прощай, подписка Creative Cloud!

    Что вам нужно для начала

    Настройка ComfyUI вручную требует некоторых технических знаний и знания Python. Настольное приложение ComfyUI V1, находящееся сейчас в закрытой бета-версии, обещает упростить процесс установки. До его выпуска вы можете использовать виртуальный компьютер Pinokio для простой установки ComfyUI, если вы не хотите возиться с командами терминала и виртуальными средами Python.

    Это руководство не предназначено просто для начинающих. Вместо этого он предоставляет фундаментальные знания, необходимые для экспериментирования и самостоятельного обучения. Каждый шаг освещает основные методы и ведет к базовому рабочему процессу. Цель состоит в том, чтобы помочь вам понять основные элементы рабочего процесса, не разочаровываясь в расшифровке сложного процесса другого человека.


    Установка моделей Checkpoint, LoRA, VAE и пользовательских узлов

    Сначала установите ComfyUI вручную или с помощью Pinokio, посетив ресурсы выше. В учебных целях в этом руководстве используется более старая модель Stable Diffusion 1.5 (SD 1.5), которая имеет более низкие требования к видеопамяти и более высокую скорость генерации.

    Civitai — отличный ресурс для загрузки моделей, инструментов и рабочих процессов. Вы можете фильтровать по наивысшему рейтингу и сортировать, чтобы найти самые популярные варианты. Для начала предлагаю вам попробовать MeinaMix V12 – Final для аниме и Realistic Vision V6.0 B1 для фотореализма. Как правило, они просты в использовании и стабильно дают достойные результаты даже при использовании самых простых рабочих процессов.

    Базовые модели являются оригинальными обученными моделями, такими как SD 1.5, SDXL, Pony или Flux. Учитывать модели контрольно-пропускных пунктов быть похожими на базовые модели, которые были усовершенствованы или объединены с другими контрольными точками для создания определенных типов изображений, наиболее широкими из которых являются аниме и фотореалистичные.


    На Civitai.com есть много контента NSFW, а Civitai.green предлагает альтернативу, безопасную для работы. Обязательно проверьте, какой URL-адрес вы посещаете.

    Вы собираетесь использовать Модели ЛоРА (Адаптация низкого ранга) часто в будущем. Думайте об этом как о меньших моделях, которые вносят очень специфические изменения в модель контрольной точки. Например, вы можете использовать LoRA в стиле Studio Ghibli с MeinaMix для создания изображений в этом художественном стиле. Однако LoRA не ограничиваются стилем: существуют LoRA для конкретных персонажей и людей, предметов одежды, поз, причесок, окружающей среды и т. д. Мы будем использовать простой LoRA, предназначенный для повышения качества этого руководства под названием Perfection «SD1. 5 дюймов v0.9.

    Загрузите совершенство «SD1.5» v0.9 LoRA на Civitai


    Запустите ComfyUI и нажмите кнопку Менеджер кнопка в правом верхнем углу. Нажмите на Менеджер пользовательских узлов. Найдите «выборщик» и нажмите Установить для ID #241 Выбор изображения. Нажмите Закрывать чтобы вернуться в меню ComfyUI Manager, нажмите Модельный менеджер. Найдите «vae» и нажмите Установить для ID № 105 vae-ft-mse-840000-ema-обрезанный. Закройте меню диспетчера ComfyUI, чтобы вернуться на главный экран. Нажмите Обновить в верхней части экрана, если вы используете Pinokio, или просто обновите веб-страницу, если вы используете стандартный веб-браузер.

    Выбор изображения пользовательский узел будет единственным неосновным узлом, который мы будем использовать. Он приостанавливает рабочий процесс после создания изображения, поэтому вы можете отменить его перед сохранением или некоторыми важными шагами в более сложных рабочих процессах. отличная модель (Вариационный автоэнкодер) часто встроен в большинство моделей контрольных точек, но мы устанавливаем его, чтобы вы знали, как использовать различные VAE в будущем. В следующем разделе мы рассмотрим, что такое VAE и что он делает.


    Я настоятельно рекомендую сайт Stable Diffusion Art, если вы застряли на каком-либо этапе. Уроки хорошо написаны, и им легко следовать.

    Основные узлы в базовом рабочем процессе

    Я предлагаю вам создавать базовые элементы рабочего процесса с нуля каждый раз, когда вы начинаете новый проект, до тех пор, пока вы не сможете делать это по памяти. Понимание этой базовой структуры поможет вам устранять неполадки в рабочих процессах других, когда вы начнете их опробовать и неизбежно столкнетесь с проблемами. ComfyUI и пользовательские узлы часто обновляются, и вы можете легко столкнуться с недостающими узлами в старых рабочих процессах.

    Дважды щелкните в любом месте экрана и найдите узел по имени, чтобы добавить его в рабочий процесс.

    Дважды щелкните в любом месте экрана, найдите Контрольную точку загрузки и добавьте узел в ComfyUI.


    Начните с Загрузите контрольную точку, загрузите VAE и пустое скрытое изображение узел. Нажмите на текстовые поля в узлах, чтобы загрузить загруженные ранее модели. В удобный интерфейс папка – это папка с именем модели. Внутри этой папки есть подпапки для размещения загрузок с соответствующими названиями.

    Загрузка выходов узла Checkpoint

    CLIP-выход (Предварительная тренировка по контрастному языку и изображению) из Загрузить контрольную точку node подключится к узлам, где вы вводите текстовое приглашение. CLIP — это еще одна модель искусственного интеллекта, встроенная в модель контрольных точек. Он был обучен определять, насколько хорошо текстовые подписи соответствуют изображениям. Думайте об этом как о переводчике, который может преобразовать подсказку на вашем естественном языке в язык, который понимает ИИ.

    Подключите выходы CLIP к входам клипов в узлах ComfyUI.


    Загрузить узел VAE

    Обычно вы будете использовать выход ВАЭ узла Load Checkpoint. VAE также встроен в большинство контрольно-пропускных пунктов, но вы можете использовать Загрузка ФУТОВ node, если вы хотите переопределить его и использовать другой VAE или когда контрольная точка не имеет встроенного VAE. VAE преобразует (декодирует) изображения, созданные в скрытом пространстве, в окончательные видимые изображения. В рабочем процессе преобразования изображения в изображение входное изображение преобразуется (кодируется) в скрытое изображение с помощью VAE.

    Узел Load Checkpoint имеет выход VAE, но вам нужен узел Load VAE, чтобы использовать другой VAE.

    Пустой узел скрытого изображения

    Пустое скрытое изображение узел предоставляет пустой «холст» для генерации изображения. Определение ширины и высоты пустого латента похоже на настройку размера холста, хотя латенты — это не просто новая пустая страница для рисования. Базовые модели и контрольные точки обучены генерировать изображения определенных размеров. Вы можете найти рекомендуемые размеры для базовой модели или использовать такие узлы, как Comfyroll Studio (ID #78) Соотношение сторон варианты выбора общих размеров. размер_пакета Параметр в этом узле определяет, сколько изображений будет создано.


    Пустой скрытый узел в ComfyUI

    Добавить CLIP устанавливает последний слой, повторяет скрытый пакет, загрузит LoRA и два кодирования текста CLIP (подсказка) узлы, как показано на изображении. В простом рабочем процессе вам не нужны узлы CLIP «Установить последний слой» или «Повторить скрытую партию», но вы, скорее всего, будете использовать их по мере продвижения.

    Добавьте CLIP Set Last Later, повторите скрытую партию, загрузите LoRA и два узла CLIP Text Encode (Prompt) в ComfyUI.

    Узел «Повторить скрытую партию»

    Повторить скрытую партию то же самое, что и параметр пакетного_размерано если вместо этого вы конвертируете изображение в скрытое для создания изображения в изображение, вам понадобится способ установить, сколько вариантов должно быть создано при запуске рабочего процесса.


    Узел «Повторить скрытый пакет» можно использовать в рабочих процессах преобразования изображения в изображение, в которых нет пустого узла «Пустой скрытый».

    Изменения узла CLIP Set Last Layer CLIP Skip

    Вы часто будете видеть упоминание «CLIP Skip» при обсуждении стабильной диффузии. CLIP Установить последний слой меняет этот параметр. Иногда контрольные точки рекомендуют настройку CLIP Skip, но в большинстве случаев вам не нужно устанавливать ее самостоятельно. С этим параметром легко поэкспериментировать, и я советую вам его попробовать. Эта настройка буквально пропускает уровень в процессе генерации: -1 завершает процесс обычно на последнем уровне, -2 заканчивается на предпоследнем слое и т. д. Каждый удаленный уровень делает быстрое соблюдение более общим.

    Узел CLIP Set Last Layer изменяет параметр CLIP Skip в ComfyUI.


    Загрузить узел LoRA

    Загрузить ЛоРА параметры узла просты. предлагаю не менять Strength_clip когда вы начинаете, и используйте сила_модель параметр, позволяющий настроить степень влияния LoRA на окончательное изображение. LoRA часто предлагают диапазоны, которые работают лучше всего, и их можно найти в описаниях на Civitai. Вы можете объединить несколько LoRA, соединив их МОДЕЛЬ и CLIP-выходы к модель и клип-входы другого загрузчика LoRA. Например, вы можете использовать персонажа LoRA из вашего любимого аниме в сочетании с художественным стилем, в котором вы хотите, чтобы этот персонаж был изображен.

    Узел загрузки LoRA в ComfyUI

    Узел CLIP Text Encode (подсказка)

    два Кодирование текста CLIP (подсказка) узлы используются для ваших положительных и отрицательных подсказок, где вы сообщаете ИИ, что вы хотите видеть или не видеть на изображении.


    Два узла CLIP Text Encode (Prompt) в ComfyUI

    Узел KSampler и соединения

    Добавить Узел KSampler и подключите КОНДИЦИОНИРОВАНИЕ выходов к позитивный и отрицательные входынаряду с модель и скрытое_изображение связи. KSampler можно рассматривать как процессор специализированного типа. Он обрабатывает информацию из модели контрольных точек, LoRA и ваших запросов для создания изображения.

    Добавьте узел KSampler и подключитесь к другим узлам в рабочем процессе ComfyUI.


    KSampler имеет несколько ключевых параметров. семя Параметр генерирует случайный шум для заполнения пустого скрытого изображения. Каждое начальное число уникально, что позволяет вам воссоздавать идентичные изображения, используя одно и то же начальное число и настройки. control_after_generate Настройка определяет, как изменяется начальное число или остается ли оно фиксированным после каждого поколения. шаги Настройка определяет, сколько шагов потребуется для преобразования шума в связное изображение. Более высокие шаги дают больше деталей, но требуют больше времени. cfg Настройка регулирует, насколько сильно модель соответствует вашим текстовым подсказкам, балансируя творческий подход и контроль.

    Меньшее число позволяет модели быть более «творческой» в том, что она производит, а большее число дает вашим подсказкам больший контроль над тем, что производится. Более высокие значения могут привести к появлению артефактов, искажений и резких изображений, которые являются перенасыщенными и высококонтрастными. Рабочий диапазон cfg может коррелировать с силой модели LoRA, поэтому вы можете уменьшить силу LoRA, чтобы еще больше увеличить cfg.

    СОВЕТ: Установите меньшее количество шагов для более быстрого создания изображений. Когда вы видите изображение, которое, по вашему мнению, имеет потенциал, или композицию, которая вам нравится, исправьте затравку и увеличьте количество шагов.


    Сэмплеры и планировщики в узле KSampler

    Имя_семплера и планировщик может показаться ошеломляющим из-за количества вариантов. пробоотборник это инструмент и метод, используемые для шумоподавления изображения. Очень упрощенно вы можете думать об этом как о мазках кисти. Некоторые техники рисования быстрые и грубые, а некоторые медленные и точные. Планировщики определить общий план шумоподавления, сообщая сэмплеру, когда удалять шум и сколько шума удалять на каждом этапе.

    Не все семплеры и планировщики работают вместе, и не все они хорошо работают для разных моделей контрольных точек. Я предлагаю вам не тратить слишком много времени на их изменение, если только ваше оборудование не способно очень быстро генерировать изображения. Посмотрите описание модели контрольной точки или изображения, созданные с использованием этой модели на Civitai, чтобы найти пробоотборники, работающие с этой моделью.


    Вероятно, вам будет больше интересно играть с LoRA и подсказками. Я предлагаю придерживаться нескольких комбинаций сэмплера и планировщика, которые часто используются и обычно работают с большинством моделей. Euler и euler_ancestral хорошо работают с нормальным, каррасовым и экспоненциальным планировщиками. Сэмплеры dpmpp_2m_sde и dpmpp_3m_sde часто используются с планировщиком karras. DDIM и ddim_uniform иногда могут хорошо работать для фотореалистичных изображений. Если в Civitai не предложено иное, придерживайтесь их до тех пор, пока не почувствуете, что хорошо разбираетесь в подсказках и использовании LoRA.

    Узлы декодирования VAE, выбора предварительного просмотра и сохранения изображения.

    Используйте VAE-декодирование узел для преобразования скрытого изображения в изображение, которое вы можете просмотреть. Используйте Выбор предварительного просмотра узел для просмотра изображения и передачи его в Сохранить изображение node, если вы хотите сохранить его. Этот базовый рабочий процесс обеспечивает четкое понимание каждого этапа процесса создания изображения.


    Критики могут утверждать, что генерация изображений с помощью ИИ дает результаты низкого качества, но ComfyUI предлагает детальный контроль над процессом. Его интерфейс на основе узлов на первый взгляд может показаться пугающим, но изучение основ дает пользователям возможность устранять неполадки и эффективно творить. Понимание контрольных точек, скрытых изображений, подсказок, сэмплеров и VAE создает прочную основу для поддержки ИИ в творческих проектах.

    Модели контрольных точек содержат информацию о том, как могут выглядеть разные изображения. Скрытые изображения подобны холсту, на котором создается изображение. Подсказки CLIP определяют содержимое изображения с помощью вашего ввода. KSampler добавляет шум к скрытому, а затем обрабатывает все для создания изображения, удаляя небольшое количество шума на каждом этапе. Модели VAE преобразуют изображения в скрытые изображения, а скрытые изображения — в изображения, поэтому вы можете работать с существующими изображениями или просматривать результаты после обработки.

    ИИ может стать полезным инструментом в вашем творческом процессе, даже если вы не лучший традиционный художник. Самовыражение проявляется во многих формах, и у каждого должна быть возможность. Профессиональным креативщикам будет полезно научиться использовать эти инструменты сейчас, а не пытаться наверстать упущенное позже. Другие профессиональные творческие инструменты, такие как Adobe Photoshop, интегрируют собственный генеративный искусственный интеллект на базе Firefly, и многие другие креативно-ориентированные компании обязательно последуют их примеру.


    Связанный

    Как сделать генеративную заливку и расширение Adobe менее разочаровывающей
    Логотип ComfyUI
    Удобный интерфейс

    Программа с открытым исходным кодом, основанная на узлах, которая позволяет пользователям генерировать изображения, видео и аудио, используя бесплатные модели распространения ИИ и другие инструменты ИИ.

    Предыдущая статьяSteam’s background recording feature is the new gold standard of game
    Следующая статьяИнженер Valve так старательно исправлял 3D-освещение, что ему пришлось рассказать всем
    Петр Григорин
    Интересуется софтом, разработкой и использование новых приложений, технология искусственного интеллекта. Этот писатель - человек с техническими знаниями, который увлечен разработкой программного обеспечения и использованием новых приложений. Его особенно интересуют технологии искусственного интеллекта и то, как они могут быть использованы для улучшения различных отраслей промышленности и повседневной жизни. Обладая прочной основой в области информатики и острым взглядом на инновации, этот писатель обязательно привнесет ценные идеи и соображения в любую дискуссию на эти темы. Пишет ли он о последних открытиях в области ИИ или исследует потенциал новых программных инструментов, его работа обязательно будет увлекательной и заставляющей задуматься.