Искусственный интеллект 09.11.2023

Магия нейросетей: лучшие инструменты на основе ИИ для генерации изображений

Редактор корисних текстів

В 2023 году только ленивый не публикует впечатляющие картины, сделанные искусственным интеллектом. Для генерации визуального контента разработчики создают всё более совершенные инструменты. Знание их особенностей позволит читателям выбрать наиболее подходящую нейросеть для решения своих конкретных задач.

Редакция MC.today изучила преимущества, стили и способы использования наиболее популярных платформ для создания изображений на основе текстовых запросов пользователей.

Содержание

Midjourney
Stable Diffusion
Adobe Firefly
BlueWillow
Leonardo AI
Сравнение нейросетей по одному запросу
Заключение

Midjourney

Официальный сайт
Галлерея
Стоимость: платно, от $10/месяц до $120/месяц

Пожалуй самая популярная сегодня нейросеть для создания изображений по текстовым описаниям. Она стала широко известной благодаря их высокому качеству и большому количеству завирусившихся в интернете дипфейков.

Примеры изображений сгенерированных Midjourney / Источник: legacy.midjourney.com

Ранее мы уже писали о Папе Франциске в пуховике Balenciaga и сгенерированном с помощью Midjourney изображении возможного ареста бывшего президента США Дональда Трампа.

Из-за злоупотребления подобными реалистичными медиафалами для распространения ложной информации владельцы Midjourney были вынуждены отключить бесплатные пробные версии. Теперь стоимость доступа к платформе начинается с $10/месяц.

За эти деньги пользователь получает 200 GPU-минут. Разберемся, что это такое. Для генерации изображений Midjourney использует графические процессоры, или GPU. Время их использования вы и оплачиваете, когда покупаете подписку.

На сколько изображений хватит 200 GPU-минут в минимальном пакете точно сказать сложно, так как это зависит от множества факторов. Назовем основные закономерности: меньше всего тратят вариации, больше – сама генерация (примерно 40 секунд) и еще больше апскейл (Upscale) – увеличение разрешения изображений.

Как работать с Midjourney

Первым делом вам нужно будет создать аккаунт в Discord, так как работа с нейросетью происходит там. Для тех, кто не в курсе, это система мгновенного обмена сообщений с поддержкой видеоконференций, предназначенная для использования различными сообществами по интересам.

Заставка сайта midjourney.com

После этого можно зайти на сайт Midjourney, где вас встретит впечатляющая заставка в стиле «Матрицы».

На главной странице сайта можно изучить документацию, посмотреть примеры работ или нажать на кнопку «Join the Beta», чтобы перейти на сервер Midjourney в Discord.

Лента сервера Midjourney в Discord

Далее в левой части меню выбираете любой канал для новичков – его можно отличить по слову newbies в названии. Теперь в окно внизу, как и в любом другом чат-боте, можно вводить команды.

Команды бота Midjourney

Начинаются они всегда с косой черты. После ее ввода вы увидите список возможных команд. Команда /info показывает информацию. Например, сколько у вас осталось GPU-минут. Команда /settings выводит на экран параметры, которые можно отрегулировать.

Самая важная для вас команда называется /imagine и позволяет создать с помощью Midjourney изображение. Для этого нужно будет ввести в появившееся поле на английском языке запрос для нейросети, или «промпт», и отправить его в чат.

Желательно использовать в запросе такую последовательность: описание объекта, двойное двоеточие (::), основная стилистика, дополнительные параметры. Пример запроса: Epic portrait of baby yoda in the jungle :: hyperrealistic, intricate details, shiny, cinematic, unreal engine, artstation, –aspect 2:3.

Кроме этого, есть множество сайтов, где можно подсмотреть удачный запрос на примере готовых картинок, или сервисов, где вам помогут составить промпт на основе перечня стилей и параметров изображения.

Кнопки для работы с изображениями в Midjourney

Через некоторое время вы получите четыре варианта изображения для своего запроса. Под ними вы увидите кнопки U1, U2, U3, U4 и V1, V2, V3, V4. «U» значит Upscale — увеличить масштаб и качество, «V» значит Version — создать еще 4 версии выбранного изображения.

Меню для работы с отдельным изображением

Например, я ввел простой запрос «kitty robot, 3d cartoon, colorful background» и получил четыре варианта с «котоботом», из которых мне больше понравился верхний левый. Жму на кнопку «U1» и получаю улучшенный вариант первого фото с новым меню.

Vary создает новые 4 изображения похожие на выбранное.
Vary (Region) позволяет изменить только указанный фрагмент фото.

Команда Vary (Region) меняет выбранный фрагмент изображения

Upscale (2x) и Upscale (4x) – вариации апскейла. Исходя из названия, второй в два раза сильнее.
Zoom out – отдаляет центральный объект и создает четыре новых изображения с разными вариациями фона.

Команда «Стрелка вправо» добавляет справа от объекта свободное место

Стрелки расширяют изображение влево, вправо, вверх или вниз и делают четыре варианта с разным фоном. Но скриншоте можно увидеть, что свободного места добавилось справа от котенка.
Эмодзи позволяют оценить свою или чужую работу.
Web открывает ссылку на изображение на сайте-галерее.

Настройка параметров изображения в Midjourney

Соотношения сторон / Aspect Ratios

Параметр –aspect или –ar изменяет соотношение сторон созданного изображения. Обычно оно обозначается двумя числами, разделенными двоеточием, например 7:4 или 4:3.

Примеры соотношения сторон в Midjourney

Стандартным для Midjourney является соотношение сторон 1:1. В параметре –aspect можно использовать только целые числа. Поэтому всегда используйте 16:10 вместо 1,6:1.

Уровень хаоса / Chaos

Параметр –chaos или –c влияет на разнообразие изображений и может принимать значения от нуля до 100. Высокие значения –chaos дают более необычные и неожиданные результаты и композиции. Низкие –chaos дают более надежные и повторяющиеся результаты.

Уровень хаоса в запросе Midjourney

Для примера сравните изображения по запросу «гибрид арбуза и совы». Левая четверка отвечает параметру –chaos 0, для правой использовали значение –chaos 80.

Изменение качества / Quality comparison

Параметр –quality, или –q изменяет количество времени, которое нейросеть тратит на создание изображения. Настройки более высокого качества обрабатываются дольше и обеспечивают в результате больше мелких деталей.

Влияние параметра –q на результат генерации в Midjourney

Качество изображения в Midjourney может принимать значения –quality .25, –quality .5 и –quality 1. По умолчанию оно равно единице, но может быть уменьшено для экономии времени и вычислительных ресурсов. На скриншоте левый рисунок соответствует минимальному значению качества, а правый – максимальному.

Стилизация / Stylize

Midjourney умеет создавать изображения с художественными цветами, композицией и формами. Параметр –stylize или –s влияет на то, насколько сильно применяется эти характеристики. По умолчанию он равен 100 и может меняться от нуля до 1000.

Влияние стилизации на результат генерации в Midjourney

Низкие значения стилизации создают изображения, которые более точно соответствуют подсказке, но при этом выглядят менее художественными. Высокие значения стилизации создают очень художественные изображения, но менее связанные с подсказкой.

Для примера сравните изображения по запросу «детский рисунок кота». Левая четверка отвечает параметру –stylize 0, для правой было принято значение –stylize 750. Первая выглядит, как рисунок пятилетнего ребенка. Вторая скорее похожа на произведение профессионального художника.

Как сохранить созданные в Midjourney картинки

Все созданные вами изображения автоматически сохраняются в галерее вашего кабинета на сайте Midjourney. При этом очень удобно, что вместе с ними сохраняются и использованные промпты.

Еще один вариант – кликнуть на картинку в чате. После этого можно сохранить изображение в контекстном меню правой кнопкой мыши. Но лучше нажать на ссылку «Открыть в браузере», это позволяет сохранить фото в большем разрешении.

Лайфхак для более удобной работы

Один из главных недостатков Midjourney, который отталкивает многих от работы с этой платформой, – это постоянно сдвигающаяся лента сообщений Discord. Искать свои картинки в их потоке – довольно утомительное занятие. Но из этой ситуации есть выход.

Бота от Midjourney можно добавить на собственный сервер Discord. Для этого нужно найти его в списке пользователей справа и нажать на большую кнопку «добавить на сервер». Если списка на вашей странице нет, нажмите на кнопку «Показать список участников» в верхней части меню. На скриншоте она помечена стрелкой.

Размещение бота Midjourney на своем сервере одним махом решает сразу несколько проблем: ваши картинки не затеряются в море других сообщений и вам не мешают сообщения других новичков, а значит можно целиком сосредоточиться на творчестве.

Преимущества Midjourney

Высокое качество изображений.
Поддержка большого количества стилей.
Возможность генерировать несколько изображений одновременно.
Удобная функция улучшения и увеличения изображений.
В вашем аккаунте сохраняются все изображения и промпты.

Недостатки Midjourney

Нет пробной версии.
Реже, чем в других нейросетях, но встречаются проблемы с человеческой анатомией, особенно с пальцами и глазами.
Относительно долгая генерация изображений.
Работа в Discord не всем может показаться удобной.

Stable Diffusion

Официальный сайт
Галлерея
Ссылка для скачивания
Стоимость: бесплатно

Stable Diffusion (SD) – это полностью бесплатная программа с открытым исходным кодом, которая может стать отличной альтернативой Midjourney. Более того, при желании ее даже можно установить на свой персональный компьютер. А значит вы не будете зависеть от интернет-соединения, цензуры или других ограничений владельцев нейросети.

Примеры изображений сгенерированных Stable Diffusion / Источник: prompthero.com

Если сравнивать изображения Stable Diffusion с аналогичными от Midjourney, то можно сказать, что у бесплатной нейросети они получаются чуть менее выразительными, но более точно соответствуют запросу.

Энтузиасты научили SD создавать наборы предметов для компьютерных игр и делать по запросу целые видеоролики из последовательно меняющихся изображений. Кроме того, она может похвастаться функциями, которых нет у конкурентов.

Так, функция Inpainting позволяет заменить любой объект на картинке на другой, сгенерированный нейросетью. Например, в этом ролике видно, что с помощью Stable Diffusion легко заменить собаку на фото котом или лисой.

Еще интереснее возможности, которые открывает функция Outpainting. С ее помощью можно генерировать фон вокруг готовых картинок и дорисовывать существующие на них объекты. Например, как вам идея дорисовать платье героине картины «Девушки с жемчужной сережкой» нидерландского художника Яна Вермеера?

В Stable Diffusion также можно указывать негативный промпт (Negative Prompt) – это перечень объектов, которые не должны появляться на картинке. Например, вы создали изображение по запросу «Осенний Париж», но вам не нравится, как получились люди. Повторяете генерацию с негативным промптом «люди» – и ваш Париж становится совершенно безлюдным.

Самую подробную информацию по разным аспектам использования Stable Diffusion можно найти в ветке reddit r/StableDiffusion. Мы же опишем несколько простых способов работы с этой нейросетью через веб-браузер.

Генерация изображений на dezgo.com

Сайт dezgo.com позволяет генерировать изображения с помощью Stable Diffusion без регистрации, достаточно выбрать в выпадающем списке моделей ИИ пункт «Stable Diffusion 2.1».

Генерация изображений на replicate.com

На сайте replicate.com требуется регистрация. Но зато есть возможность задать подробные настройки: разрешение изображения по ширине и высоте, количество генерируемых изображений, количество шагов генерации и так далее.

Генерация изображений в DreamStudio

Платформа DreamStudio использует нейросеть Stable Diffusion, обеспечивает быструю работу и высокое качество изображений, но требует создания аккаунта и ограничивает количество генераций 25 токенами (примерно 100 изображений). За $10 можно приобрести еще 1000 токенов.

Преимущества Stable Diffusion

В отличие от конкурентов, Stable Diffusion – это бесплатный проект с открытым исходным кодом, поэтому его возможностями могут пользоваться абсолютно все. А при желании его даже можно развернуть на своем ПК. Правда, сделать это не очень просто. Нужно, как минимум, «дружить» с командной строкой.
Stable Diffusion знает стили от художников времен ренессанса и до современных создателей видеоигр. Например, пользователи нейросети довольно часто обращаются к фентезийному стилю польского художника Грега Рутковски.
SD имеет оригинальные инструменты Inpainting и Outpainting, которые могут облегчить редактирование изображений.
Функциональность SD регулярно расширяется за счет новых инструментов, плагинов и расширений, которые создают энтузиасты.

Недостатки Stable Diffusion

Для запуска и стабильной работы Stable Diffusion на вашем ПК подойдет далеко не всякое «железо». Потребуется мощная видеокарта и несколько десятков гигабайт свободного места на диске.
Не самый дружелюбный интерфейс.

Adobe Firefly

Официальный сайт
Галлерея
Стоимость подписки: 25 генеративных кредитов ежемесячно для бесплатных аккаунтов Adobe Express, Adobe Firefly, Creative Cloud.

Примеры изображений сгенерированных Adobe Firefly / Источник: firefly.adobe.com

Adobe Firefly – это ИИ-программа для генерации изображений по описанию от компании Adobe – лидера в области цифровых продуктов для графического дизайна. Чтобы начать использовать Firefly, нужно зайти в свой аккаунт Adobe или зарегистрироваться и дождаться приглашения.

Результат генерации по запросу «Kitty robot, 3d cartoon, colorful background»

Интерфейс приложения отличается простотой и дружелюбностью. Тут можно в один клик поменять пропорции изображения, настроить его интенсивность, освещение и композицию, подобрать из готовых списков стиль и визуальные эффекты.

Интересно, что на фоне последних скандалов с дипфейками от нейросетей, продукт Adobe напрочь лишили возможности создавать изображения с известными людьми и персонажами.

Результат запроса «Leonardo Di Caprio portrait painted by Vincent van Gogh»

Так, на мой запрос «portrait of Baby Yoda in the jungle» нейросеть просто выдала портреты красивых девушек в джунглях. А на запрос «Leonardo Di Caprio portrait painted by Vincent van Gogh» выдала портреты женщин в стиле Ван Гога. Между тем Midjourney и Stable Diffusion не испытывали с задачами никаких затруднений.

Автоматическое удаление фона в Adobe Firefly

Несомненным преимуществом Firefly является его тесная интеграция с другими сервисами Adobe. Это очень удобно, когда в пару кликов к готовому изображению можно добавить яркую подпись из коллекции шаблонов, отрегулировать контраст и яркость или полностью удалить фон.

Нанесение на изображение надписи с помощью шаблонов Adobe

Одним словом, Firefly предлагает все, чтобы создание и редактирование изображений стало для вас захватывающим и приятным занятием. Признаюсь, мне самому было довольно сложно оторваться от экспериментов с kitty robot.

Результат запроса «Kitty robot, 3d cartoon, colorful background» с указанием текстуры материала metal

Еще один момент, при сохранении сгенерированного изображения через меню «Сохранить» Firefly добавляет на него водяной знак. Но если выбрать один из пунктов в меню «Изменить», например, «Добавить объекты», то изображение автоматически открывается в редакторе. А из него уже сохраняется без водяного знака.

Преимущества Adobe Firefly

Простой и дружелюбный интерфейс, возможность легко выбирать из огромной коллекции эффектов и стилей.
Интеграция с другими продуктами Adobe.
Высокое качество изображений.
Быстрая генерация.
Функция использования сгенерированного изображения в качестве референса, чтобы создать похожие изображения.

Недостатки Adobe Firefly

Проблемы с анатомией людей.
Нет истории генерации.
Firefly игнорирует имена известных людей и некоторые слова, которые считает запрещенными.
Добавляет на работы небольшой водяной знак Adobe.
До 1 ноября 2023 года для подписчиков Creative Cloud, Adobe Firefly, Adobe Express і Adobe Stock не применялись лимиты на кредиты. Но теперь для создания изображений, генеративной заливки и добавления эффектов прийдется тратить по одному кредиту. Больше о тарифных планах и количестве кредитов для каждого из них можно узнать в справочном разделе сайта Adobe.

BlueWillow

Официальный сайт
Галлерея
Стоимость: 10 изображений в день (20 кредитов) бесплатно, 2000 изображений в месяц за $9,99

Примеры изображений сгенерированных BlueWillow / Источник: bluewillow.ai

На заглавной странице сайта BlueWillow вас встречает большая кнопка «Generate Artwork». Нажатие на нее открывает портал LimeWare, где можно генерировать изображения с помощью нейронной сети модели BlueWillow v4.

Генерация изображений на портале LimeWare

Кстати, на этом же сайте при желании можно выбрать для использования и другие нейронки. Например, Stable Diffusion v2.1; Stable Diffusion v1.5; Stable Diffusion XL v1.0; Google Imagen; Dalle-2.

Есть также возможность генерации изображений в Discord, но работа в общем канале, который постоянно обновляется, – удовольствие не из лучших.

BlueWillow поддерживает 11 языков и разные стили, позволяет выбирать количество изображений для одновременной генерации, разрешение картинки, уровень ее качества и степень соответствия запросу.

Преимущества BlueWillow

Поддержка нескольких языков: английский, французский, немецкий, португальский, испанский, итальянский, русский, китайский, индийский, корейский, филиппинский.
Наличие на сайте подробного словаря с перечислением поддерживаемых стилей и примерами промптов.

Недостатки BlueWillow

Уровень креативности изображений, на мой взгляд, несколько уступает Firefly и Midjourney.
Есть проблемы с анатомией людей.

Leonardo AI

Официальный сайт
Стоимость: до 150 генераций в день бесплатно и более 8,5 тыс. генераций за $10

Главная страница Leonardo.Ai

Заходим на официальный сайт и сразу же видим надпись «Кредитная карта не нужна». Это многообещающее заявление! Жмем на кнопку «Создать аккаунт», соглашаемся использовать для регистрации Google-аккаунт и попадаем на платформу Leonardo.

Домашняя страница платформы Leonardo

Её интерфейс насыщен большим количеством элементов, куда вводить промпт пока непонятно, поэтому стоит разобраться с интерфейсом подробнее. Начнем с левого верхнего угла. Тут в глаза бросаются 150 монет и кнопка Upgraide.

Тарифные планы Leonardo.Ai

При нажатии на нее открывается страница с тарифными планами. Как мы уже писали, 150 генераций в день можно получить бесплатно, далее идут тарифы за $10, $24 и $48 в месяц.

Кроме тарифных планов в левой панели главной страницы можно найти следующие разделы:

Home – домашняя страница, где мы сейчас и находимся.
Community Feed – лента с популярными работами пользователей.
Personal Feed – лента с вашими работами.
Training & Datasets – страница для обучения собственной модели. Да, вы не ошиблись – в Leonardo можно создать и обучить собственную модель нейросети.
Finetuned Models – модели, созданные сообществом пользователей.
AI Image Generation – страница для генерации изображений, где мы будем вводить свой запрос.

Страница введения промпта на Leonardo.Ai

Итак, переходим на страницу генерации. Сразу бросается огромная яркая кнопка «Generate», справа от которой указана стоимость выбранных по умолчанию настроек – 20 кредитов. Уменьшение количества изображений с 4 до 1 уменьшает стоимость генерации до 16 кредитов. Отключение режима Alchemy V2 – до 8 кредитов.

Левая панель на странице генерации содержит настройки, которые можно использовать при создании изображения. Тут можно выбрать количество создаваемых изображений (по умолчанию 4), режим Alchemy для более точной генерации, пропорции изображения (по умолчанию стоит 3:2) и точность соответствия запросу.

Результат генерации по запросу «Kitty robot, 3d cartoon, colorful background»

Вводим запрос и жмем «Generate». Нейросеть выдает четверку изображений. Удобно, что при желании отредактировать промпт его не нужно искать где-то в недрах настроек. Прямо над сгенерированными изображениями слева мы видим свой промпт, справа – список настроек.

Меню редактирования изображения в Leonardo.Ai

Нажатием одной кнопки мы можем скопировать промпт или использовать его еще раз. При выборе конкретного изображения появляются функции «скачать / Download», «удалить фон / Remove background», «улучшить качество изображения / Alchemy Refiner», «Редактировать на холсте / Edit in canvas».

Попробуем увеличить изображение во встроенном редакторе. Генерируем девушку-панка и жмем кнопку «Edit in canvas».

Генеративная заливка во встроенном редакторе Leonardo.Ai

Перемещаем рамку редактирования в область, которую хотим расширить. Пишем запрос «graffity» и нажимаем кнопку «Generate». Как видите, справа от девушки появляется еще один кусок стены с граффити.

Перемещаем рамку редактирования влево и пишем в запросе «TV set» – cлева от девушки появляется что-то, отдаленно напоминающее телевизор. При этом более подходящий вариант можно выбрать из 4 предложенных.

Преимущества Leonardo AI

Высокое качество изображений.
Сохраняется история генерации со всеми настройками и промптами.
Есть возможность копировать промпты нажатием одной кнопки.
Кредитов достаточно много и они обновляются каждый день.

Недостатки Leonardo AI

Есть проблемы с анатомией.
Иногда генерации длятся по 45 и больше секунд.

Сравнение нейросетей по одному запросу

Для сравнения мы использовали самый простой запрос «Kitty robot, 3d cartoon, colorful background». Результаты вы сами можете оценить ниже.

Midjourney

Stable Diffusion

Adobe Firefly

BlueWillow

Leonardo AI

Заключение

Итак, каждая нейронная сеть имеет свой уникальный стиль и может предложить пользователям разные преимущества. Определить лучшую из них вряд ли возможно, так как оценка изображений – вопрос субъективный. Поэтому выбирайте те изображения, которые пришлись вам по душе, смело экспериментируйте с запросами и создавайте собственные шедевры.