Даних для навчання LLM не вистачатиме вже в 2026 році: щорічний звіт про прогрес у галузі ШІ

Нещодавно вийшов State of AI Report 2023 – щорічний звіт про прогрес в галузі штучного інтелекту. Хочу поділитися кількома інсайтами, які впали мені в око.

Одразу застережу, що це суб’єктивний фокус: я звертав увагу на те, що цікаво мені, але це доволі популярні речі, тож сподіваюся, що й вам буде також цікаво.

Олексій Молчановський / Фото: Facebook Oleksii Molchanovskyi

Звіт містить 160 слайдів, які розбиті на розділи про дослідження (науку), індустрію, політики, безпеку та передбачення. Наразі напишу про цікавинки з досліджень.

ШІ не обходиться без людей

Звичайно, левова частка тут присвячена генеративному ШІ, а особливо – великим мовним моделям (Large Language Models, LLM). Зараз одним з основних інструментів покращення їх якості є Reinforcement Learning from Human Feedback (RLHF). Це коли ви, спілкуючись з моделлю в чаті можете дати їй фідбек, чи добре вона щось вам написала, чи ні.

Але, насправді, компанії наймають окремих людей, які систематично спілкуються з моделлю на різні теми та дають такі оцінки.

Тож одразу можна зрозуміти, в чому тут проблема: хто ці люди? Які вони мають упередження? Та й ще ця історія погано масштабується. Тому вчені продовжують шукати як прибрати людину з цього процесу.

People Management.
За 6 тижнів ви пройдете шлях від формування відповідальної команди до написання кар'єрної карти для кожного співробітника.
Про курс

Розмір лишається важливим для LLM. Вчені з Берклі показали, що можна побудувати менші мовні моделі за допомогою існуючих більших і вони будуть показувати добру стилістику тексту, але, на жаль, вони частіше генерують неточний текст (галюцинації).

Інформація про мовні моделі залишається закритою

OpenAI, на жаль, перестав бути open і не публікує інформацію про архітектуру та умови навчання своїх моделей. Так само роблять й більшість інших комерційних розробників. Але Meta (Facebook) дали інформацію про навчання своєї моделі LLaMa-1 (до речі, другої за популярністю LLM після GPT, яку розробляє OpenAI).

Тренування моделі з 65 мільярдами параметрів (зв’язків між нейронами в мережі) на наборі даних з 1,4 трильйона слів за допомогою 2048 GPU процесорів A100 (топові процесори від Nvidia) зайняло у них приблизно 21 день.

Питання доступності таких ресурсів для інших гравців й надалі лишається відкритим.

Важливо, що Meta відкрили доступ до LLaMa і дозволили її вільне комерційне використання для бізнесів, які мають до 500 мільйонів користувачів. Таким чином Meta відважує своїх конкурентів, віддаючи ці технології у відкритий доступ.

Попри те, що OpenAI не розкриває деталі своїх моделей, ходять чутки: «Sam Altman won’t tell you that GPT-4 has 220B parameters and is a 16-way mixture model with 8 sets of weights». Головний висновок з яких, що успіх GPT-4 не пов’язаний з якимись проривними інноваціями. Основним параметром, який визначає успіх LLM, був їх розмір. Але тепер також починають звертати увагу й на інший – довжину контексту. Умовно кажучи – це кількість слів, які мовна модель тримає у пам’яті при спілкуванні з користувачем.

Видається, що й тут має бути правило «чим більше, тим краще», але дослідження показують, що це не завжди так і що занадто великий або довгий контекст не дає переваг.

Також важливим є формування запиту до моделі і те, як ви розташовуєте ключові елементи в запиті: на початку, в середині чи наприкінці.

Дослідження показують, що краще важливу інформацію в запиті давати або на початку, або наприкінці.

Вже у 2026 році не вистачатиме даних для тренування LLM

Дуже критичним питанням для тренування LLM є дані. Розрахунки показують, що ми можемо «впертися у стелю» з якісними текстовими даними ще до 2026 року (для низькоякісних даних горизонт десь між 2030 та 2050 роками). Багато хто ставить на згенеровані дані, щоби на них тренувати моделі, але тут теж є низка запитань. Головне з яких, як на мене: чи це не призведе до підсилення упереджень та неточностей в моделях?

Для графічних моделей, які працюють на основі дифузій (наприклад, Stable Diffusion), виявили цікавий факт: вони інколи можуть повністю відтворити картинку, на якій тренувалися. Це нетипова поведінка для нейронних мереж, які в першу чергу вчаться узагальнювати паттерни і потім з них відтворювати нові картинки. Наприклад, таких феноменів не спостерігають для GAN (років шість тому була така популярна технологія). У Stable Diffusion виявили більше тисячі зображень, які вона змогла повністю відтворити (включно, навіть, з логотипами компаній).

Натхненні успіхами в генерації зображень та текстів, ведуться дослідження у генерації звуку (музики) та відео. Зі звуком є цікаві результати від Google, де можна послухати доволі тривалі мелодії у певних стилях, а також є приклади «аудізації» картин.

Застосування ШІ впроваджується в багатьох науках, а найбільший приріст досліджень відбувається у медицині. США лишається лідером розробки ШІ з великим відривом: понад 70% найбільш цитованих наукових статей в галузі ШІ мали авторів з американських організацій та інституцій. Звіт можна почитати тут.

Джерело: Facebook Oleksii Molchanovskyi

Нещодавні статті

Ідеї, візуал та текст. Як SMM-фахівцям використовувати ШІ в роботі

Якщо ви SMM-фахівець, то вам точно довелося стикатись з такою думкою, що ви просто робите…

01/03/2024

Як не витрачати час на роботі даремно. 5 прийомів, щоб підвищити свою продуктивність

Люди люблять розмовляти. Розмова в робочий час про роботу завжди створює відчуття, що ви старанно…

01/03/2024

Шукайте унікальний контент та виходьте в офлайн. Як побудувати особистий бренд у 2024 році

Усі говорять про особистий бренд, ставлять лимони в офісі профілю, проводять курси й навчання, але…

29/02/2024

Історія світчингу з юриспунденції в інтернет-маркетинг. Мої поради тим, хто змінює професію

Вітаю всіх читачів та дякую що зайшли почитати історію старого-нового початківця, айтішника Павла. Якось я…

29/02/2024

Безплатне навчання професіям Data Analyst та Data Scientist для ветеранів. Як працює проєкт

Попри повномасштабне вторгнення, український IT-бізнес продовжує стрімко розвиватися, а попит на фахівців даній у галузі…

29/02/2024

Книги, речі, 3D-друк, сувеніри. Що ще пропонують бібліотеки в США

Бум читання, бібліотек і книгарень в час війни – крутецький оптимізм. Давно хотіла написати про…

28/02/2024