Власний досвід 11.06.2024

Як інструменти ШІ допомагають нам створювати продукт: досвід онлайн-школи All Right

CEO онлайн-школи англійської мови для дітей All Right

Сьогодні важко переоцінити роль штучного інтелекту в будь-яких сферах нашого життя – від розваг та навчання до медицини та оборонної промисловості.

CEO онлайн-школи All Right і згенерована картинка

Як ми використовуємо ШІ-інструменти для створення продуктів онлайн-школи All Right

Ділимось власним досвідом використання нейромереж для створення продукту – онлайн-школи англійської мови для дітей All Right.

1. Методологія

Специфікою нашого продукту є постійне створення нових курсів та навчальних програм. Найбільше часу займає написання текстів – в середньому, підготовка одного уроку вимагає вісім годин роботи методиста. З використанням нейромереж цей час вдалось скоротити до п’яти.

Ми впровадили використання ChatGPT для створення текстів за заданими словами, перевірки помилок, перефразування та пошуку синонімів, а також для адаптації складності тексту для різних рівнів – наприклад, можна текст для рівня A1 ускладнити до рівня В1 і навпаки. Помітили, що ускладнення у ChatGPT виходить більш вдалим, ніж спрощення.

Наразі перевіркою текстів, окрім нейромережі, також займаються методисти, але в майбутньому ми плануємо повністю автоматизувати цей процес.

У ChatGPT ми також черпаємо ідеї та теми для нових курсів – нейромережа підказує інтереси і тренди у дітей різних вікових категорій, пропонує імена персонажів, локації та сюжетні ходи.

2. Озвучення персонажів

Ми активно використовуємо Narakeet, який генерує голоси для озвучення – не дивлячись на те, що генерація дитячих голосів поки що програє по якості дорослим, всі наші нові курси вже озвучує ШІ.

Це дозволяє нам створювати контент значно швидше, адже з нашою кількістю персонажів ми мусили співпрацювати з багатьма акторами озвучення і витрачали багато часу на комунікацію, менеджмент та постійно слідкували за дедлайнами. Також використання нейромереж виключає ситуації, коли актор за певних причин більше не може з нами співпрацювати, і для внесення правок потрібно повністю переозвучувати персонажа іншою людиною.

Звісно, такі нейромережі ще не ідеальні, вони можуть озвучувати текст з помилками, іноді неправильно вимовляють скорочення та перемикаються з британського на американський акцент – для цього наші методисти прослуховують кожну фразу і виправляють помилки.

Не забуваємо і про фінансовий аспект – озвучення персонажів нейромережами в порівнянні з акторами майже в 100 разів дешевше.

3. Дизайн

Поки що, на жаль, ми не можемо повністю генерувати зображення за допомогою штучного інтелекту, адже наші персонажі, згенеровані в різних костюмах та ракурсах, часто не схожі на себе. Але ми постійно експериментуємо і, зважаючи на швидкий розвиток нейромереж, віримо, що найближчим часом це стане цілком реально.

Дуже активно використовуємо ШІ (а саме Neural.love) для «ігрових світів» нашої навчальної програми, здебільшого для покращення якості зображень та роботи з фонами.

Наприклад, щоб показати аксесуари на персонажі, нам раніше потрібно було перемальовувати картинку повністю у збільшеному вигляді, а зараз достатньо пропустити зображення через нейромережу, що сильно збільшує якість та деталізацію. Зараз створення нового аксесуара або зміна одягу для персонажа займає лічені хвилини.

Зміна одягу та аксесуарів персонажа за допомогою Neural.love

Також часто стикаємось з ситуацією, коли нам потрібно використати існуюче зображення, але іншого розміру або роздільної здатності.

Ось, наприклад, оригінальна ілюстрація:

Для іншого уроку нам знадобилась аналогічна, але ландшафтної орієнтації, отже потрібно було домалювати фон. Результат автоматичного допрацювання за допомогою ШІ:

До використання нейромереж така робота з домалювання фону могла займати кілька годин.

Нижче – ще один приклад деталізації зображень, які ми використовуємо в уроках, за допомогою штучного інтелекту.

Ми багато експериментуємо з генеративними нейромережами, особливо в курсах для старших дітей, де менше мультиплікаційних персонажів та більше фотореалістичних зображень. На стоках, скоріш за все, неможливо знайти сцену, де над сплячими львами пролітає кажан – тож ми використали вбудований ШІ від Adobe. Це дає нам можливість генерувати будь-які описані методистами ситуації, іноді фантастичні чи абстрактні.

Також використовуємо готові галереї ШІ-зображень (зокрема Freepik), експериментуємо з Midjourney, Lexica, Chat GPT (Dall-E) для нестандартних задач або для пошуку натхнення).

Окрім економії часу та фінансів, це значно розширює наші можливості, адже до впровадження нейромереж ми навіть не бралися за деякі проєкти через їх високу часозатратність.

4. Маркетинг

Протягом останніх двох років ми вивчали багато нейромереж та сервісів, що базуються на них. Серед них – нейромережі для генерації зображень (Firefly, Stable Diffusion, Dall-E, Lexica). Зупинилися на MidJourney та Bing Image Creator, оскільки вони найбільше задовольняють запити щодо створення зображень для креативних робіт.

Наступним етапом було оживлення зображень, створених у нейромережі. Для цього ми протестували і зараз використовуємо Pika Labs, HeyGen і Gen-2 Runaway. Ці нейромережі дозволяють оживляти статичні зображення, додавати рух, а також озвучувати персонажів будь-якими мовами – як згенерованими голосами, так і записами голосів реальних людей.

Окремо хотілося б зупинитися на сервісі HeyGen: він також дозволяє створювати цифрові аватари живих людей. Використовуємо їх для створення відео-контенту зі спікером – можна написати сценарій і аватар читатиме його, синхронізуючи рух губ з мовою та використанням жестів.

Для обробки звуку та записів голосів ми використовуємо сервіс Adobe Audio Enhancer, а також різні синтезатори мови.

Інші допоміжні сервіси:

LeiaPix – дозволяє анімувати зображення за принципом паралакс-анімації;
SkyBoxAІ – дозволяє створювати панорамні зображення, всередині яких можна згенерувати цілий віртуальний світ і «потрапити» всередину нього;
додаток Captions PRO для мобільних телефонів – дозволяє прискорити генерацію субтитрів на основі можливостей аналізу ШІ;
перекладач Deepl на основі штучного інтелекту – вважаємо, що він створює найбільш якісні переклади у порівнянні з аналогами.

Важко підрахувати, наскільки більше можливостей відкривається з використанням ШІ, але всі ці сервіси точно замінюють собою невеличку продакшн-команду.

5. Розробка

На платформі, де проходять індивідуальні уроки учня зі вчителем, ми використовуємо штучний інтелект для розпізнавання емоцій в класній кімнаті. Цей процес будується на класифікації об‘єктів за допомогою OpenCV Haar Cascade та згорточній нейронній мережі.

Так виглядає розпізнавання емоцій учня в підсумку уроку

Для використання масок та заміни фону на нашій платформі ми використовуємо MediaPipe: цей сервіс виявляє та класифікує об’єкти, розпізнає жести, обличчя та пози для коректного накладення масок.

Приклад накладання масок та фону в класній кімнаті

Частиною нашого продукту є домашні завдання, які учні виконують на платформі самостійно. У вправах, що тренують говоріння, для розпізнавання мови учня, ми також використовуємо нейромережі.

Тут стикнулися з проблемою – адже існуючі моделі заточені на розпізнавання дорослого голосу, і вони краще розпізнають слова з контекстом, а нам потрібно було розпізнавати дитячі голоси і часто лише окремі фрази.

Цю проблему ми вирішили наступним чином: розмітили свої дані в інструменті Label Studio, дотренували модель QuartzNet Nvidia та запустили власний сервіс для потокового опрацювання аудіо.

Результат перевершив сподівання – наша власна зв’язка AllRight+Microsoft працює набагато краще, ніж інструменти розпізнавання голосу OpenAI або Apple.

Також наші програмісти використовують Github Copilot для допомоги з рутинними задачами.

6. Чат підтримки

Для спілкування з вчителями школи ми використовуємо чат-сервіс Intercom. На допомогу команді підтримки в чаті також став Github Copilot – оскільки комунікація зі вчителями ведеться лише однією мовою, ми дали нейромережі базу знань англійською, а також всі попередні запитання і відповіді на них.

Інструмент аналізує запит і надає схожі відповіді, які давались в інших діалогах, а також може шукати та надавати інформацію зі статей нашої бази знань.

ШІ – це лише інструмент, який в руках компетентних користувачів може вирішувати нетривіальні задачі. Вважаємо, що вміння користуватися нейромережами скоро стане однією з ключових навичок нарівні з іншими «класичними» вимогами до співробітників.

Читайте також: Як ми плануємо використовувати ШІ для наймання, навчання працівників і не тільки. Кейс Ribas Hotels Group

англійська мова технології ШІ школа англійської