Гайди09.11.2023 22:59

Магія нейромереж: найкращі інструменти на основі ШІ для генерації зображень

Редактор корисних текстів

2023 року тільки лінивий не публікує вражаючі картини, зроблені штучним інтелектом. Для створення візуального контенту розробники створюють все більш досконалі інструменти. Знання їх особливостей дозволить читачам вибрати найбільш відповідну нейромережу для вирішення своїх конкретних завдань.

Редакція MC.today вивчила переваги, стилі та способи використання найпопулярніших платформ для створення зображень на основі текстових запитів користувачів.

Зміст

Midjourney
Stable Diffusion
Adobe Firefly
BlueWillow
Леонардо А.І
Порівняння нейромереж за одним запитом
Висновок

Midjourney

Офіційний сайт
Галерея
Вартість: платно, від $10/місяць до $120/місяць

Мабуть, найпопулярніша сьогодні нейромережа для створення зображень за текстовими описами. Вона стала широко відомою завдяки їх високій якості та великій кількості дипфейків, що завірусилися в інтернеті.

Приклади згенерованих Midjourney зображень / Джерело: legacy.midjourney.com

Раніше ми вже писали про Папу Франциска в пуховику Balenciaga і згенероване за допомогою Midjourney зображення можливого арешту колишнього президента США Дональда Трампа.

Через зловживання подібними реалістичними медіафайлами для поширення хибної інформації власники Midjourney були змушені відключити безкоштовні пробні версії. Тепер вартість доступу до платформи починається з $10/місяць.

За ці гроші користувач отримує 200 GPU хвилин. Розберемося, що таке. Для створення зображень Midjourney використовує графічні процесори, або GPU. Час їх використання ви й оплачуєте, коли купуєте передплату.

На скільки зображень вистачить 200 GPU-хвилин у мінімальному пакеті точно сказати складно, оскільки це залежить від багатьох факторів. Назвемо основні закономірності: найменше часу витрачають варіації, більше – сама генерація (приблизно 40 секунд) та ще більше апскейл (Upscale) – збільшення роздільної здатності зображень.

Як працювати з Midjourney

Насамперед вам потрібно буде створити обліковий запис в Discord, так як робота з нейромережею відбувається там. Для тих, хто не в курсі, це система миттєвого обміну повідомлень із підтримкою відеоконференцій, призначена для використання різними спільнотами за інтересами.

Заставка сайту midjourney.com

Після цього можна зайти на сайт Midjourney, де вас зустріне вражаюча заставка у стилі «Матриці».

На головній сторінці сайту можна вивчити документацію, подивитися приклади робіт або натиснути на кнопку «Join the Beta», щоб перейти на сервер Midjourney в Discord.

Стрічка сервера Midjourney в Discord

Далі в лівій частині меню вибираєте будь-який канал для новачків – його можна відрізнити за словом newbies у назві. Тепер у вікно внизу, як і в будь-якому іншому чат-боті, можна вводити команди.

Команди бота Midjourney

Починаються команди завжди з косою межі. Після її введення ви побачите список можливих команд. Команда /info показує інформацію. Наприклад, скільки у вас залишилося GPU-хвилин. Команда /settings відображає параметри, які можна налаштувати.

Найважливіша для вас команда називається /imagine і дозволяє створити за допомогою Midjourney зображення. Для цього потрібно буде ввести в поле англійською мовою запит для нейромережі, або «промпт», і відправити його в чат.

Бажано використовувати в запиті таку послідовність: опис об’єкта, подвійна двокрапка (::), основна стилістика, додаткові параметри. Приклад запиту: Epic portrait of baby yoda in the jungle :: hyperrealistic, intricate details, shiny, cinematic, unreal engine, artstation, –aspect 2:3.

Крім цього, є безліч сайтів, де можна підглянути вдалий запит на прикладі готових картинок, або сервісів, де допоможуть скласти промпт на основі переліку стилів і параметрів зображення.

Кнопки для роботи із зображеннями у Midjourney

Через деякий час ви отримаєте чотири варіанти зображення для запиту. Під ними ви побачите кнопки U1, U2, U3, U4 та V1, V2, V3, V4. «U» означає Upscale – збільшити масштаб і якість, «V» означає Version – створити ще 4 різних версії вибраного зображення.

Меню для роботи з окремим зображенням

Наприклад, я ввів простий запит «kitty robot, 3d cartoon, colorful background» і отримав чотири варіанти з «котоботом», з яких мені більше сподобався верхній лівий. Натискаю на кнопку «U1» і отримую покращений варіант першого фото з новим меню.

Vary створює нові 4 зображення, схожі на обране.
Vary (Region) дозволяє змінити лише вказаний фрагмент фото.

Команда Vary (Region) змінює вибраний фрагмент зображення

Upscale (2x) та Upscale (4x) – варіації апскейлу. Виходячи з назви, другий вдвічі сильніший.
Zoom out – віддаляє центральний об’єкт та створює чотири нові зображення з різними варіаціями фону.

Команда «Стрілка вправо» додає праворуч від об’єкта вільне місце

Стрілки розширюють зображення вліво, вправо, вгору або вниз і роблять чотири варіанти з різним тлом. На скриншоті можна побачити, що вільного місця додалося праворуч від кошеня.
Емодзі дозволяють оцінити свою чи чужу роботу.
Web відкриває посилання зображення на сайті-галереї.

Налаштування параметрів зображення у Midjourney

Співвідношення сторін / Aspect Ratios

Параметр –aspect або –ar змінює співвідношення сторін створеного зображення. Зазвичай воно позначається двома числами, розділеними двокрапкою, наприклад, 7:4 або 4:3.

Приклади співвідношення сторін у запитах до Midjourney

Стандартним для Midjourney є співвідношення сторін 1:1. У параметрі –aspect можна використовувати лише цілі числа. Тому завжди використовуйте 16:10 замість 1,6:1.

Рівень хаосу / Chaos

Параметр –chaos або –c впливає на різноманітність зображень і може набувати значення від нуля до 100. Високі значення –chaos дають більш незвичайні та несподівані результати та композиції. Низькі –chaos дають більш надійні та повторювані результати.

Рівень хаосу у запиті Midjourney

Для прикладу порівняйте зображення на запит «гібрид кавуна та сови». Ліва четвірка відповідає параметру –chaos 0, для правої використовували значення –chaos 80.

Зміна якості / Quality comparison

Параметр –quality, чи –q змінює кількість часу, яке нейромережа витрачає на створення зображення. Налаштування вищої якості обробляються довше та забезпечують у результаті більше дрібних деталей.

Вплив параметра –q на результат генерації у Midjourney

Якість зображення в Midjourney може приймати значення –quality .25, –quality .5 і –quality 1. За замовчуванням вона дорівнює одиниці, але може бути зменшено для економії часу та обчислювальних ресурсів. На скріншоті лівий малюнок відповідає мінімальному значенню якості, а правий – максимальному.

Стилізація / Stylize

Midjourney вміє створювати зображення з художніми кольорами, композицією та формами. Параметр –stylize або –s впливає на те, наскільки сильно застосовуються ці характеристики. За умовчанням він дорівнює 100 і може змінюватися від нуля до 1000.

Вплив стилізації на результат генерації у Midjourney

Низькі значення стилізації створюють зображення, які більш точно відповідають підказці, але виглядають менш художніми. Високі значення стилізації створюють дуже художні зображення, але менш пов’язані з підказкою.

Для прикладу порівняйте зображення на запит «дитячий малюнок кота». Ліва четвірка відповідає параметру –stylize 0, для правої було прийнято значення –stylize 750. Перша виглядає як малюнок п’ятирічної дитини. Друга радше схожа на твір професійного художника.

Як зберегти створені в Midjourney картинки

Усі створені вами зображення автоматично зберігаються у галереї вашого кабінету на сайті Midjourney. При цьому дуже зручно, що разом із ними зберігаються й використані промпти.

Ще один варіант зберегти створені в Midjourney зображення – натиснути на картинку в чаті. Після цього можна зберегти її у контекстному меню правою кнопкою миші. Але краще натиснути на посилання «Відкрити в браузері», це дозволяє зберегти фото у більшій роздільній здатності.

Лайфхак для зручнішої роботи

Один з головних недоліків Midjourney, який відштовхує багатьох від роботи з цією платформою, – це стрічка повідомлень Discord, що постійно зсувається. Шукати свої картинки у їхньому потоці – досить стомлююче заняття. Але із цієї ситуації є вихід.

Бота Midjourney можна додати на власний сервер Discord. Для цього потрібно знайти його у списку користувачів праворуч та натиснути на велику кнопку «додати на сервер». Якщо списку на вашій сторінці немає, натисніть кнопку «Показати список учасників» у верхній частині меню. На скріншоті вона позначена стрілкою.

Розміщення бота Midjourney на своєму сервері одним махом вирішує відразу кілька проблем: ваші картинки не губляться в морі інших повідомлень і вам не заважають повідомлення інших новачків, а отже, можна цілком зосередитися на творчості.

Переваги Midjourney

Висока якість зображень.
Підтримка величезної кількості стилів.
Можливість генерувати кілька зображень одночасно.
Зручна функція покращення та збільшення зображень.
У вашому обліковому записі зберігаються всі зображення та промпти.

Недоліки Midjourney

Нема пробної версії.
Рідше, ніж в інших нейромережах, але трапляються проблеми з людською анатомією, особливо з пальцями та очима.
Доволі довга генерація зображень.
Робота в Discord не всім може здатися зручною.

Stable Diffusion

Офіційний сайт
Галерея
Посилання для скачування
Вартість: безкоштовно

Stable Diffusion (SD) – це повністю безкоштовна програма з відкритим вихідним кодом, яка може стати чудовою альтернативою Midjourney. Більше того, за бажання її можна навіть встановити на свій персональний комп’ютер. Отже, ви не залежатимете від інтернет-з’єднання, цензури або інших обмежень власників нейромережі.

Приклади зображень згенерованих Stable Diffusion / Джерело: prompthero.com

Якщо порівнювати зображення Stable Diffusion з аналогічними від Midjourney, можна сказати, що з безкоштовної нейромережі вони виходять трохи менш виразними, але більш точно відповідають запиту.

Ентузіасти навчили SD створювати набори предметів для комп’ютерних ігор та робити на запит цілі відеоролики з послідовно змінних зображень. Крім того, ця нейромережа може похвалитися функціями, яких немає у конкурентів.

Так, функція Inpainting дозволяє замінити будь-який об’єкт на зображенні на інший, згенерований нейромережею. Наприклад, у цьому ролику видно, що за допомогою Stable Diffusion легко замінити собаку на фото котом чи лисою.

Ще цікавіше можливості, які відкриває функція Outpainting. З її допомогою можна генерувати фон навколо готових картинок і домальовувати об’єкти, що існують на них. Наприклад, як вам ідея домалювати сукню героїні картини «Дівчина із перлиною сережкою» нідерландського художника Яна Вермеєра?

У Stable Diffusion також можна вказувати негативний промпт (Negative Prompt) – це список об’єктів, які не повинні з’являтися на малюнку. Наприклад, ви створили зображення на запит «Осінній Париж», але вам не подобається, як вийшли люди. Повторюєте генерацію з негативним промптом «люди»- і ваш Париж стає абсолютно безлюдним.

Найбільш детальну інформацію з різних аспектів використання Stable Diffusion можна знайти у гілці reddit r/StableDiffusion. А ми опишемо кілька простих способів роботи з цією нейромережею через веб-браузер.

Генерація зображень на dezgo.com

Сайт dezgo.com дозволяє генерувати зображення за допомогою Stable Diffusion без реєстрації, достатньо вибрати в списку моделей ШІ пункт «Stable Diffusion 2.1».

Генерація зображень на replicate.com

На сайті replicate.com потрібна реєстрація. Але є можливість задати докладні налаштування: роздільну здатність зображення по ширині та висоті, кількість генерованих зображень, кількість кроків генерації і так далі.

Генерація зображень у DreamStudio

Платформа DreamStudio використовує нейромережу Stable Diffusion, забезпечує швидку роботу та високу якість зображень, але вимагає створення облікового запису та обмежує кількість генерацій 25 токенами (приблизно 100 зображень). За $10 можна придбати ще 1000 токенів.

Переваги Stable Diffusion

На відміну від конкурентів, Stable Diffusion – це безкоштовний проект із відкритим вихідним кодом, тому його можливостями можуть користуватися абсолютно всі. А за бажання його можна навіть розгорнути на своєму ПК. Щоправда, зробити це не дуже просто. Потрібно, як мінімум, «дружити» з командним рядком.
Stable Diffusion знає стилі від художників часів ренесансу та до сучасних творців відеоігор. Наприклад, користувачі нейромережі часто звертаються до фентезійного стилю польського художника Грега Рутковські.
SD має оригінальні інструменти Inpainting та Outpainting, які можуть полегшити редагування зображень.
Функціональність SD регулярно розширюється за рахунок нових інструментів, плагінів та розширень, які створюють ентузіасти.

Недоліки Stable Diffusion

Для запуску та стабільної роботи Stable Diffusion на вашому ПК підійде далеко не всяке залізо. Потрібна потужна відеокарта та кілька десятків гігабайт вільного місця на диску.
Не найприязніший інтерфейс.

Adobe Firefly

Офіційний сайт
Галерея
Вартість підписки: 25 генеративних кредитів щомісяця для безкоштовних облікових записів Adobe Express, Adobe Firefly, Creative Cloud.

Приклади зображень згенерованих Adobe Firefly / Джерело: firefly.adobe.com

Adobe Firefly – це ШІ-програма для створення зображень за описом від компанії Adobe – лідера в області цифрових продуктів для графічного дизайну. Щоб почати використовувати Firefly, потрібно зайти на свій обліковий запис Adobe або зареєструватися та дочекатися запрошення.

Результат генерації на запит «Kitty robot, 3d cartoon, colorful background»

Інтерфейс програми відрізняється простотою та доброзичливістю. Тут можна в один клік поміняти пропорції зображення, налаштувати його інтенсивність, освітлення та композицію, підібрати з готових списків стиль та візуальні ефекти.

Цікаво, що на тлі останніх скандалів з дипфейками від нейромереж, продукт Adobe геть-чисто позбавили можливості створювати зображення з відомими людьми та персонажами.

Результат запиту «Leonardo Di Caprio portrait painted by Vincent van Gogh»

Так, на мій запит «portrait of Baby Yoda in the jungle» нейромережа просто видала портрети красивих дівчат у джунглях. А на запит «Leonardo Di Caprio portrait painted by Vincent van Gogh» видала портрети жінок і чоловіків у стилі Ван Гога. Тим часом Midjourney та Stable Diffusion не відчували із завданням жодних труднощів.

Автоматичне видалення фону в Adobe Firefly

Безперечною перевагою Firefly є його тісна інтеграція з іншими сервісами Adobe. Це дуже зручно, коли в пару кліків до готового зображення можна додати яскравий підпис з колекції шаблонів, налаштувати контраст і яскравість або повністю видалити фон.

Нанесення на зображення написів за допомогою шаблонів Adobe

Одним словом, Firefly пропонує все, щоб створення та редагування зображень стало для вас захоплюючим та приємним заняттям. Зізнаюся, мені самому було досить складно відірватися від експериментів із kitty robot.

Результат запиту «Kitty robot, 3d cartoon, colorful background» із зазначенням текстури матеріалу metal

Ще один моментяя, при збереженні згенерованого зображення через меню «Зберегти» Firefly додає на нього водяний знак. Але якщо вибрати один із пунктів у меню «Змінити», наприклад, «Додати об’єкти», зображення автоматично відкривається в редакторі. А з нього вже зберігається без водяного знаку.

Переваги Adobe Firefly

Простий та доброзичливий інтерфейс, можливість легко вибирати з величезної колекції ефектів та стилів.
Интеграция с другими продуктами Adobe.
Висока якість зображень.
Швидка генерація
Функція використання згенерованого зображення як референс, щоб створити схожі зображення.

Недоліки Adobe Firefly

Проблеми із анатомією людей.
Нема історії генерації.
Firefly ігнорує імена відомих людей та деякі слова, які вважає забороненими.
Додає до роботи невеликий водяний знак Adobe.
До 1 листопада 2023 року для передплатників Creative Cloud, Adobe Firefly, Adobe Express та Adobe Stock не застосовувалися ліміти на кредити. Але тепер для створення зображень, генеративної заливки та додавання ефектів доведеться витрачати по одному кредиту. Більше про тарифні плани та кількість кредитів для кожного з них можна дізнатись у довідковому розділі сайту Adobe.

BlueWillow

Офіційний сайт
Галерея
Вартість: 10 зображень на день (20 кредитів) безкоштовно, 2000 зображень на місяць за $9,99

Приклади зображень, згенерованих BlueWillow / Джерело: bluewillow.ai

На великій сторінці сайту BlueWillow вас зустрічає велика кнопка «Generate Artwork». Натискання на неї відкриває портал LimeWare, де можна генерувати зображення за допомогою нейронної мережі моделі BlueWillow v4.

Генерація зображень на порталі LimeWare

До речі, на цьому ж сайті за бажання можна вибрати для використання інші нейронки. Наприклад, Stable Diffusion v2.1; Stable Diffusion v1.5; Stable Diffusion XL v1.0; Google Imagen; Dalle-2.

Є також можливість генерації зображень у Discord, але робота в загальному каналі, який постійно оновлюється, – задоволення не з найкращих.

BlueWillow підтримує 11 мов та різні стилі, дозволяє вибирати кількість зображень для одночасної генерації, роздільну здатність картинки, рівень її якості та ступінь відповідності запиту.

Переваги BlueWillow

BlueWillow підтримуе кількох мов: англійська, французька, німецька, португальська, іспанська, італійська, російська, китайська, індійська, корейська, філіппінська.
Наявність на сайті докладного словника з перерахуванням стилів, що підтримуються, і прикладами промптів.

Недоліки BlueWillow

Рівень креативності зображень, на мій погляд, дещо поступається Firefly та Midjourney.
Є проблеми із анатомією людей.

Леонардо А.І

Офіційний сайт
Вартість: до 150 генерацій на день безкоштовно та понад 8,5 тис. генерацій за $10

Головна сторінка Leonardo.Ai

Заходимо на офіційний сайт і одразу бачимо напис «Кредитна картка не потрібна». Ця перспективна заява! Тиснемо на кнопку «Створити обліковий запис», погоджуємося використовувати для реєстрації Google-аккаунт і потрапляємо на платформу Leonardo.

Домашня сторінка платформи Leonardo

Її інтерфейс насичений великою кількістю елементів, куди вводити промпт поки що незрозуміло, тому варто розібратися з інтерфейсом докладніше. Почнемо з верхнього лівого кута. Тут у вічі кидаються 150 монет і кнопка Upgraide.

Тарифні плани Leonardo.Ai

При її натисканні відкривається сторінка з тарифними планами. Як ми вже писали, 150 генерацій на день можна отримати безкоштовно, далі йдуть тарифи за $10, $24 та $48 на місяць.

Окрім тарифних планів у лівій панелі головної сторінки можна знайти такі розділи:

Home – домашня сторінка, де ми зараз і перебуваємо.
Community Feed – стрічка із популярними роботами користувачів.
Personal Feed – стрічка із вашими роботами.
Training & Datasets – сторінка для навчання власної моделі. Так, ви не помилилися – у Leonardo можна створити та навчити власну модель нейромережі.
Finetuned Models – моделі, створені спільнотою користувачів.
AI Image Generation – сторінка для створення зображень, де ми будемо вводити свій запит.

Сторінка для введення запиту на платформі Leonardo.Ai

Отже переходимо на сторінку генерації. Відразу кидається величезна яскрава кнопка «Generate», праворуч від якої вказана вартість вибраних за замовчуванням налаштувань – 20 кредитів. Зменшення кількості зображень із 4 до 1 зменшує вартість генерації до 16 кредитів. Вимкнення режиму Alchemy V2 – до 8 кредитів.

Ліва панель на сторінці генерації містить установки, які можна використовувати при створенні зображення. Тут можна вибрати кількість зображень (за замовчуванням 4), режим Alchemy для більш точної генерації, пропорції зображення (за замовчуванням це 3:2) і точність відповідності запиту.

Результат генерації на запит «Kitty robot, 3d cartoon, colorful background»

Вводимо запит і тиснемо «Generate». Після цього нейромережа видає четвірку зображень. Зручно, що за бажання відредагувати промпт його не потрібно шукати десь у надрах налаштувань. Просто над згенерованими зображеннями зліва ми бачимо свій промпт, праворуч – список налаштувань.

Меню редагування зображення у Leonardo.Ai

Натисканням однієї кнопки ми можемо скопіювати промпт або використовувати його ще раз. При виборі конкретного зображення з’являються функції «Завантажити/Download», «Видалити фон / Remove background», «Поліпшити якість зображення / Alchemy Refiner», «Редагувати на полотні / Edit in canvas».

Спробуємо збільшити зображення у вбудованому редакторі. Генеруємо дівчину-панка та тиснемо кнопку «Edit in canvas».

Генеративне заливання у вбудованому редакторі Leonardo.Ai

Переміщуємо рамку редагування до області, яку хочемо розширити. Пишемо запит «graffity» і натискаємо кнопку «Generate». Як бачите, праворуч від дівчини з’являється ще один шматок стіни з графіті.

Переміщуємо рамку редагування вліво і пишемо в запиті «TV set» – зліва від дівчини з’являється щось, що віддалено нагадує телевізор. Найбільш вдалий варіант цоього додаткового зображення можна вибрати з 4 запропонованих в спеціальному меню.

Переваги Leonardo AI

Висока якість зображень.
Зберігається історія генерації з усіма налаштуваннями та промптами.
Можна копіювати промпти натисканням однієї кнопки.
Кредитів досить багато, та вони оновлюються щодня.

Недоліки Leonardo AI

Є проблеми із анатомією.
Іноді генерації тривають по 45 секунд та більше.

Порівняння нейромереж за одним запитом

Для порівняння ми використали знайомий вже вам запит «Kitty robot, 3d cartoon, colorful background». Результати ви можете оцінити нижче.

Midjourney

Stable Diffusion

Adobe Firefly

BlueWillow

Leonardo.Ai

Висновок

Отже, кожна нейронна мережа має унікальний стиль і може запропонувати користувачам різні переваги. Точно визначити кращу з них навряд чи можливо, оскільки оцінка зображень – питання суб’єктивне. Тому вибирайте ті зображення, які припали вам до душі, сміливо експериментуйте із запитами та починайте створювати власні шедеври.