Даних для навчання LLM не вистачатиме вже в 2026 році: щорічний звіт про прогрес у галузі ШІ

Нещодавно вийшов State of AI Report 2023 – щорічний звіт про прогрес в галузі штучного інтелекту. Хочу поділитися кількома інсайтами, які впали мені в око.

Одразу застережу, що це суб’єктивний фокус: я звертав увагу на те, що цікаво мені, але це доволі популярні речі, тож сподіваюся, що й вам буде також цікаво.

Олексій Молчановський / Фото: Facebook Oleksii Molchanovskyi

Звіт містить 160 слайдів, які розбиті на розділи про дослідження (науку), індустрію, політики, безпеку та передбачення. Наразі напишу про цікавинки з досліджень.

ШІ не обходиться без людей

Звичайно, левова частка тут присвячена генеративному ШІ, а особливо – великим мовним моделям (Large Language Models, LLM). Зараз одним з основних інструментів покращення їх якості є Reinforcement Learning from Human Feedback (RLHF). Це коли ви, спілкуючись з моделлю в чаті можете дати їй фідбек, чи добре вона щось вам написала, чи ні.

Але, насправді, компанії наймають окремих людей, які систематично спілкуються з моделлю на різні теми та дають такі оцінки.

Тож одразу можна зрозуміти, в чому тут проблема: хто ці люди? Які вони мають упередження? Та й ще ця історія погано масштабується. Тому вчені продовжують шукати як прибрати людину з цього процесу.

Курс QA Manual (Тестування ПЗ мануальне) від Powercode academy.
Навчіться знаходити помилки та контролювати якість сайтів та додатків.
Записатися на курс

Розмір лишається важливим для LLM. Вчені з Берклі показали, що можна побудувати менші мовні моделі за допомогою існуючих більших і вони будуть показувати добру стилістику тексту, але, на жаль, вони частіше генерують неточний текст (галюцинації).

Інформація про мовні моделі залишається закритою

OpenAI, на жаль, перестав бути open і не публікує інформацію про архітектуру та умови навчання своїх моделей. Так само роблять й більшість інших комерційних розробників. Але Meta (Facebook) дали інформацію про навчання своєї моделі LLaMa-1 (до речі, другої за популярністю LLM після GPT, яку розробляє OpenAI).

Тренування моделі з 65 мільярдами параметрів (зв’язків між нейронами в мережі) на наборі даних з 1,4 трильйона слів за допомогою 2048 GPU процесорів A100 (топові процесори від Nvidia) зайняло у них приблизно 21 день.

Питання доступності таких ресурсів для інших гравців й надалі лишається відкритим.

Важливо, що Meta відкрили доступ до LLaMa і дозволили її вільне комерційне використання для бізнесів, які мають до 500 мільйонів користувачів. Таким чином Meta відважує своїх конкурентів, віддаючи ці технології у відкритий доступ.

Попри те, що OpenAI не розкриває деталі своїх моделей, ходять чутки: «Sam Altman won’t tell you that GPT-4 has 220B parameters and is a 16-way mixture model with 8 sets of weights». Головний висновок з яких, що успіх GPT-4 не пов’язаний з якимись проривними інноваціями. Основним параметром, який визначає успіх LLM, був їх розмір. Але тепер також починають звертати увагу й на інший – довжину контексту. Умовно кажучи – це кількість слів, які мовна модель тримає у пам’яті при спілкуванні з користувачем.

Видається, що й тут має бути правило «чим більше, тим краще», але дослідження показують, що це не завжди так і що занадто великий або довгий контекст не дає переваг.

Також важливим є формування запиту до моделі і те, як ви розташовуєте ключові елементи в запиті: на початку, в середині чи наприкінці.

Дослідження показують, що краще важливу інформацію в запиті давати або на початку, або наприкінці.

Вже у 2026 році не вистачатиме даних для тренування LLM

Дуже критичним питанням для тренування LLM є дані. Розрахунки показують, що ми можемо «впертися у стелю» з якісними текстовими даними ще до 2026 року (для низькоякісних даних горизонт десь між 2030 та 2050 роками). Багато хто ставить на згенеровані дані, щоби на них тренувати моделі, але тут теж є низка запитань. Головне з яких, як на мене: чи це не призведе до підсилення упереджень та неточностей в моделях?

Для графічних моделей, які працюють на основі дифузій (наприклад, Stable Diffusion), виявили цікавий факт: вони інколи можуть повністю відтворити картинку, на якій тренувалися. Це нетипова поведінка для нейронних мереж, які в першу чергу вчаться узагальнювати паттерни і потім з них відтворювати нові картинки. Наприклад, таких феноменів не спостерігають для GAN (років шість тому була така популярна технологія). У Stable Diffusion виявили більше тисячі зображень, які вона змогла повністю відтворити (включно, навіть, з логотипами компаній).

Натхненні успіхами в генерації зображень та текстів, ведуться дослідження у генерації звуку (музики) та відео. Зі звуком є цікаві результати від Google, де можна послухати доволі тривалі мелодії у певних стилях, а також є приклади «аудізації» картин.

Застосування ШІ впроваджується в багатьох науках, а найбільший приріст досліджень відбувається у медицині. США лишається лідером розробки ШІ з великим відривом: понад 70% найбільш цитованих наукових статей в галузі ШІ мали авторів з американських організацій та інституцій. Звіт можна почитати тут.

Джерело: Facebook Oleksii Molchanovskyi

Нещодавні статті

Сміх під час війни, або Чому в складні часи затребуваність гумору і сатири зростає

В часи, коли наша країна змушена протистояти жорстокій російській агресії, коли біль, страх і гнів…

27/04/2024

Прощати не можна сварити: як навчити дитину розпоряджатися грошима

Чи знайоме вам відчуття, коли ви не звикли витрачати гроші на себе, соромитеся робити покупки,…

27/04/2024

Amazon, Etsy і не тільки. Як обрати маркетплейс для розвитку власного бізнесу за кордоном

Вихід на міжнародний ринок може сприяти стрімкому розвитку вашого бізнесу. І часто найскладнішим етапом у…

27/04/2024

Майже казкова історія. Як ми створили платформу, присвячену українській народній казці

Казка стала моїм порятунком у найтемніші часи. Як це сталося? Чесно кажучи, доволі неочікувано для…

26/04/2024

Чіткий фокус і стороння експертиза. Як B2B-маркетологам ефективно працювати з контентом

Для B2B-маркетологів бути в курсі тенденцій – не просто корисно, а необхідно. Тож в чому…

25/04/2024

Не бійтесь грошей та помилок. 5 порад для тих, хто хоче запустити «зелений» стартап

Через програми для «зелених» стартапів, які я координую, пройшли сотні потенційних засновників. Більшість із них…

25/04/2024