Власний досвід26.10.2023 10:01

Даних для навчання LLM не вистачатиме вже в 2026 році: щорічний звіт про прогрес у галузі ШІ

Senior Teacher в Українському католицькому університеті

Нещодавно вийшов State of AI Report 2023 – щорічний звіт про прогрес в галузі штучного інтелекту. Хочу поділитися кількома інсайтами, які впали мені в око.

Одразу застережу, що це суб’єктивний фокус: я звертав увагу на те, що цікаво мені, але це доволі популярні речі, тож сподіваюся, що й вам буде також цікаво.

Олексій Молчановський / Фото: Facebook Oleksii Molchanovskyi

Звіт містить 160 слайдів, які розбиті на розділи про дослідження (науку), індустрію, політики, безпеку та передбачення. Наразі напишу про цікавинки з досліджень.

ШІ не обходиться без людей

Звичайно, левова частка тут присвячена генеративному ШІ, а особливо – великим мовним моделям (Large Language Models, LLM). Зараз одним з основних інструментів покращення їх якості є Reinforcement Learning from Human Feedback (RLHF). Це коли ви, спілкуючись з моделлю в чаті можете дати їй фідбек, чи добре вона щось вам написала, чи ні.

Але, насправді, компанії наймають окремих людей, які систематично спілкуються з моделлю на різні теми та дають такі оцінки.

Тож одразу можна зрозуміти, в чому тут проблема: хто ці люди? Які вони мають упередження? Та й ще ця історія погано масштабується. Тому вчені продовжують шукати як прибрати людину з цього процесу.

Розмір лишається важливим для LLM. Вчені з Берклі показали, що можна побудувати менші мовні моделі за допомогою існуючих більших і вони будуть показувати добру стилістику тексту, але, на жаль, вони частіше генерують неточний текст (галюцинації).

Інформація про мовні моделі залишається закритою

OpenAI, на жаль, перестав бути open і не публікує інформацію про архітектуру та умови навчання своїх моделей. Так само роблять й більшість інших комерційних розробників. Але Meta (Facebook) дали інформацію про навчання своєї моделі LLaMa-1 (до речі, другої за популярністю LLM після GPT, яку розробляє OpenAI).

Тренування моделі з 65 мільярдами параметрів (зв’язків між нейронами в мережі) на наборі даних з 1,4 трильйона слів за допомогою 2048 GPU процесорів A100 (топові процесори від Nvidia) зайняло у них приблизно 21 день.

Питання доступності таких ресурсів для інших гравців й надалі лишається відкритим.

Важливо, що Meta відкрили доступ до LLaMa і дозволили її вільне комерційне використання для бізнесів, які мають до 500 мільйонів користувачів. Таким чином Meta відважує своїх конкурентів, віддаючи ці технології у відкритий доступ.

Попри те, що OpenAI не розкриває деталі своїх моделей, ходять чутки: «Sam Altman won’t tell you that GPT-4 has 220B parameters and is a 16-way mixture model with 8 sets of weights». Головний висновок з яких, що успіх GPT-4 не пов’язаний з якимись проривними інноваціями. Основним параметром, який визначає успіх LLM, був їх розмір. Але тепер також починають звертати увагу й на інший – довжину контексту. Умовно кажучи – це кількість слів, які мовна модель тримає у пам’яті при спілкуванні з користувачем.

Видається, що й тут має бути правило «чим більше, тим краще», але дослідження показують, що це не завжди так і що занадто великий або довгий контекст не дає переваг.

Також важливим є формування запиту до моделі і те, як ви розташовуєте ключові елементи в запиті: на початку, в середині чи наприкінці.

Дослідження показують, що краще важливу інформацію в запиті давати або на початку, або наприкінці.

Вже у 2026 році не вистачатиме даних для тренування LLM

Дуже критичним питанням для тренування LLM є дані. Розрахунки показують, що ми можемо «впертися у стелю» з якісними текстовими даними ще до 2026 року (для низькоякісних даних горизонт десь між 2030 та 2050 роками). Багато хто ставить на згенеровані дані, щоби на них тренувати моделі, але тут теж є низка запитань. Головне з яких, як на мене: чи це не призведе до підсилення упереджень та неточностей в моделях?

Для графічних моделей, які працюють на основі дифузій (наприклад, Stable Diffusion), виявили цікавий факт: вони інколи можуть повністю відтворити картинку, на якій тренувалися. Це нетипова поведінка для нейронних мереж, які в першу чергу вчаться узагальнювати паттерни і потім з них відтворювати нові картинки. Наприклад, таких феноменів не спостерігають для GAN (років шість тому була така популярна технологія). У Stable Diffusion виявили більше тисячі зображень, які вона змогла повністю відтворити (включно, навіть, з логотипами компаній).

Натхненні успіхами в генерації зображень та текстів, ведуться дослідження у генерації звуку (музики) та відео. Зі звуком є цікаві результати від Google, де можна послухати доволі тривалі мелодії у певних стилях, а також є приклади «аудізації» картин.

Застосування ШІ впроваджується в багатьох науках, а найбільший приріст досліджень відбувається у медицині. США лишається лідером розробки ШІ з великим відривом: понад 70% найбільш цитованих наукових статей в галузі ШІ мали авторів з американських організацій та інституцій. Звіт можна почитати тут.

Джерело: Facebook Oleksii Molchanovskyi