OpenAI открывает двери для службы преобразования текста в изображения DALL-E

    0
    15


    OpenAI в среду сделала DALL-E, свой облачный сервис для создания изображений из текстовых подсказок, доступным для публики без какого-либо списка ожидания. Но толпа, собравшаяся у его ворот, могла уйти.

    Оригинальный DALL-E дебютировал в январе 2021 года и был заменен DALL-E 2 в апреле этого года. Последний выпуск, который предлагает значительно улучшенные возможности преобразования текста в изображение, позволил людям зарегистрироваться для использования сервиса, но поместил начинающих художников ИИ в список ожидания, который не менялся в течение последних пяти месяцев для этого. Рег репортер. Новый общественный сервис называется DALL-E, хотя это все еще версия 2 технологии.

    OpenAI оправдал закрытый список, сославшись на необходимость быть осторожным. Организация хотела помешать пользователям создавать изображения насилия, ненависти или порнографии, а также предотвратить создание фотореалистичных изображений общественных деятелей. И она создала политику для этого, потому что злоупотребление и дезинформация — подлинные проблемы с технологией создания изображений с машинным обучением.

    «Чтобы обеспечить ответственное использование и отличный опыт, мы будем рассылать приглашения постепенно с течением времени», — сообщил OpenAI участникам бета-тестирования в апреле по электронной почте. «Мы сообщим вам, когда будем готовы принять вас».

    В то время как OpenAI раздавал доступ 1000 пользователям в неделю (по состоянию на май), Midjourney — конкурирующий сервис преобразования текста в изображение на основе ИИ — в июле перешел в публичную бета-версию. По сообщениям, к концу июля сервер Discord Midjourney, через который пользователи взаимодействуют с сервисом, достиг около миллиона пользователей.

    Примерно столько же приглашений было отправлено OpenAI в то время после перехода к бета-тестированию. На сервере Discord Midjourney в настоящее время насчитывается 2,7 миллиона участников, в то время как OpenAI в настоящее время утверждает, что у него 1,5 миллиона пользователей.

    В августе еще одна компания по созданию изображений с использованием ИИ под названием Stability.ai выпустила собственную модель преобразования текста в изображение под названием Stable Diffusion под разрешающей лицензией CreativeML Open RAIL-M.

    Результатом стал всплеск интереса к Stable Diffusion, потому что люди могут запускать код на локальном компьютере, не беспокоясь о комиссиях — OpenAI и Midjouney требуют оплаты, когда пользователи превышают свои нормы бесплатного уровня.

    Кроме того, Stable Diffusion рассматривается как способ создания явных изображений, не беспокоясь о придирчивых облачных привратниках — независимо от того, соответствуют ли эти изображения ограниченным (и вряд ли будут применяться) ограничениям лицензии Stable Diffusion.

    «Всего за несколько дней вокруг него произошел взрыв инноваций», — написал Саймон Уиллисон, разработчик программного обеспечения с открытым исходным кодом, в своем блоге примерно через неделю после публичного выпуска Stable Diffusion. «Вещи, которые строят люди, просто поразительны».

    Поздно на вечеринку

    Прошел всего месяц, и похоже, что OpenAI опаздывает со стартовых ворот.

    «DALL-E открыт для всех (без списка ожидания)!» пошутил Брендан Долан-Гавитт, доцент кафедры компьютерных наук и инженерии в NYU Tandon, через твиттер. «Удивительно, на что способны несколько недель конкуренции с открытым исходным кодом ;)»

    «Проблема, с которой сталкивается OpenAI, заключается в том, что они конкурируют не только с командой разработчиков Stable Diffusion, но и с тысячами исследователей и инженеров, которые создают новые инструменты на основе Stable Diffusion», — сказал Уиллисон. Регистр.

    «Скорость инноваций там всего за последние пять недель была экстраординарной. DALL-E — мощное программное обеспечение, но оно только улучшается самими OpenAI. Трудно представить, как они смогут идти в ногу».

    Художник Райан Мердок (англ.@advadnoun), который помог запустить искусственный интеллект для преобразования текста в изображение, перевернув модель оценки подсказок OpenAI CLIP и подключив ее к VQGAN, выразил аналогичное мнение.

    «Я думаю, что OpenAI по-прежнему актуален, а DALL-E — нет», — сказал он в беседе с Регистр. «Я вижу очень мало людей, использующих DALL-E на сцене, потому что он стоит денег, ограничен с точки зрения того, что он может или будет производить, и не может использоваться для интересных новых исследований».

    Мердок также заметил, что текстура изображений DALL-E «выглядит очень плохо, потому что сверхразрешение не зависит от текста».

    Это одна из областей, где помогли инновации с открытым исходным кодом: среди первых дополнений к процессу генерации изображений Stable Diffusion были две библиотеки кода, GFPGAN и Real-ESRGAN, которые занимаются исправлением ошибок рендеринга лица AI и масштабированием изображения соответственно.

    Ссылаясь на непрекращающиеся дебаты о праве собственности на изображения — многие художники не в восторге от того, что их работы использовались без их согласия для обучения этих моделей — Мердок сказал, что корабль, похоже, уплыл, потому что модели Stable Diffusion теперь живут на компьютерах людей. Он ожидает еще большего сопротивления, поскольку эти модели искусственного интеллекта эволюционируют для создания видео.

    Не боясь внешних разработок, которые превратили генерацию изображений ИИ в товар и рекламируют более надежную фильтрацию для обеспечения безопасности изображений, OpenAI видит возможности для бизнеса.

    «В настоящее время мы тестируем API DALL-E с несколькими клиентами и рады вскоре предложить его более широко разработчикам и предприятиям, чтобы они могли создавать приложения на этой мощной системе», — сказали в компании. ®



    Предыдущая статьяSamsung и Intel представляют грядущий раскладной ПК
    Следующая статьяУправляйте яркостью внешнего дисплея с вашего Mac
    Виктор Попанов
    Эксперт тестовой лаборатории. Первый джойстик держал в руках в возрасте 3 лет. Первый компьютер, на котором „работал” был с процессором Intel i386DX-266. Тестирует оборудование для издания ITBusiness. Будь то анализ новейших гаджетов или устранение сложных неполадок, этот автор всегда готов к выполнению поставленной задачи. Его страсть к технологиям и приверженность качеству делают его бесценным помощником в любой команде.