Даних для навчання LLM не вистачатиме вже в 2026 році: щорічний звіт про прогрес у галузі ШІ

Нещодавно вийшов State of AI Report 2023 – щорічний звіт про прогрес в галузі штучного інтелекту. Хочу поділитися кількома інсайтами, які впали мені в око.

Одразу застережу, що це суб’єктивний фокус: я звертав увагу на те, що цікаво мені, але це доволі популярні речі, тож сподіваюся, що й вам буде також цікаво.

Олексій Молчановський / Фото: Facebook Oleksii Molchanovskyi

Звіт містить 160 слайдів, які розбиті на розділи про дослідження (науку), індустрію, політики, безпеку та передбачення. Наразі напишу про цікавинки з досліджень.

ШІ не обходиться без людей

Звичайно, левова частка тут присвячена генеративному ШІ, а особливо – великим мовним моделям (Large Language Models, LLM). Зараз одним з основних інструментів покращення їх якості є Reinforcement Learning from Human Feedback (RLHF). Це коли ви, спілкуючись з моделлю в чаті можете дати їй фідбек, чи добре вона щось вам написала, чи ні.

Але, насправді, компанії наймають окремих людей, які систематично спілкуються з моделлю на різні теми та дають такі оцінки.

Тож одразу можна зрозуміти, в чому тут проблема: хто ці люди? Які вони мають упередження? Та й ще ця історія погано масштабується. Тому вчені продовжують шукати як прибрати людину з цього процесу.

Розмір лишається важливим для LLM. Вчені з Берклі показали, що можна побудувати менші мовні моделі за допомогою існуючих більших і вони будуть показувати добру стилістику тексту, але, на жаль, вони частіше генерують неточний текст (галюцинації).

Інформація про мовні моделі залишається закритою

OpenAI, на жаль, перестав бути open і не публікує інформацію про архітектуру та умови навчання своїх моделей. Так само роблять й більшість інших комерційних розробників. Але Meta (Facebook) дали інформацію про навчання своєї моделі LLaMa-1 (до речі, другої за популярністю LLM після GPT, яку розробляє OpenAI).

Тренування моделі з 65 мільярдами параметрів (зв’язків між нейронами в мережі) на наборі даних з 1,4 трильйона слів за допомогою 2048 GPU процесорів A100 (топові процесори від Nvidia) зайняло у них приблизно 21 день.

Питання доступності таких ресурсів для інших гравців й надалі лишається відкритим.

Важливо, що Meta відкрили доступ до LLaMa і дозволили її вільне комерційне використання для бізнесів, які мають до 500 мільйонів користувачів. Таким чином Meta відважує своїх конкурентів, віддаючи ці технології у відкритий доступ.

Попри те, що OpenAI не розкриває деталі своїх моделей, ходять чутки: «Sam Altman won’t tell you that GPT-4 has 220B parameters and is a 16-way mixture model with 8 sets of weights». Головний висновок з яких, що успіх GPT-4 не пов’язаний з якимись проривними інноваціями. Основним параметром, який визначає успіх LLM, був їх розмір. Але тепер також починають звертати увагу й на інший – довжину контексту. Умовно кажучи – це кількість слів, які мовна модель тримає у пам’яті при спілкуванні з користувачем.

Видається, що й тут має бути правило «чим більше, тим краще», але дослідження показують, що це не завжди так і що занадто великий або довгий контекст не дає переваг.

Також важливим є формування запиту до моделі і те, як ви розташовуєте ключові елементи в запиті: на початку, в середині чи наприкінці.

Дослідження показують, що краще важливу інформацію в запиті давати або на початку, або наприкінці.

Вже у 2026 році не вистачатиме даних для тренування LLM

Дуже критичним питанням для тренування LLM є дані. Розрахунки показують, що ми можемо «впертися у стелю» з якісними текстовими даними ще до 2026 року (для низькоякісних даних горизонт десь між 2030 та 2050 роками). Багато хто ставить на згенеровані дані, щоби на них тренувати моделі, але тут теж є низка запитань. Головне з яких, як на мене: чи це не призведе до підсилення упереджень та неточностей в моделях?

Для графічних моделей, які працюють на основі дифузій (наприклад, Stable Diffusion), виявили цікавий факт: вони інколи можуть повністю відтворити картинку, на якій тренувалися. Це нетипова поведінка для нейронних мереж, які в першу чергу вчаться узагальнювати паттерни і потім з них відтворювати нові картинки. Наприклад, таких феноменів не спостерігають для GAN (років шість тому була така популярна технологія). У Stable Diffusion виявили більше тисячі зображень, які вона змогла повністю відтворити (включно, навіть, з логотипами компаній).

Натхненні успіхами в генерації зображень та текстів, ведуться дослідження у генерації звуку (музики) та відео. Зі звуком є цікаві результати від Google, де можна послухати доволі тривалі мелодії у певних стилях, а також є приклади «аудізації» картин.

Застосування ШІ впроваджується в багатьох науках, а найбільший приріст досліджень відбувається у медицині. США лишається лідером розробки ШІ з великим відривом: понад 70% найбільш цитованих наукових статей в галузі ШІ мали авторів з американських організацій та інституцій. Звіт можна почитати тут.

Джерело: Facebook Oleksii Molchanovskyi

Нещодавні статті

Замість TikTok – книжки. Як зробити так, щоб діти читали і їм це подобалось

Наприкінці квітня Асоціація видавців Сполученого Королівства представила план із відродження дитячого читання для задоволення –…

21/05/2025

Чому вміння працювати із ШІ – це must-have для контент-менеджера та копірайтера

В одній з попередніх статей я вже висвітлював тему користі штучного інтелекту. Тоді говорив здебільшого…

14/05/2025

Івенти – ключ до залучення нової аудиторії чи пробіл у бюджеті компанії? Мій досвід

Безперечно, івенти – це можливість не лише заявити про себе, а й вибудувати стосунки з…

08/05/2025

Чи справді ШІ забере замовників у SMM-ників? Розбираємось без паніки

«Штучний інтелект забере роботу, клієнтів та замовлення в агенцій» – теза, яку я чула неодноразово.…

07/05/2025

Ейджизм, або чому я тепер завжди буду публікувати фото кількарічної давнини

Певний час перебуваю в пошуках контентних проєктів. Надіслав понад 100 відгуків на вакансії, але поки…

06/05/2025

Навіщо бізнесменові писати книгу: досвід, який не вимірюється прибутком

Скільки я заробляю на своїх книгах? З погляду класичної бухгалтерії це радше мінус, ніж плюс.…

06/05/2025