Статті06.04.2023 15:04

ChatGPT vs Google Bard. Журналісти влаштували тести найпопулярніших мовних моделей і назвали переможця

Головна редакторка MC.today

Two vintage tin toy robots, robotic delivery, artificial intelligence concept

Як же різко штучний інтелект (ШІ) увірвався в наше повсякденне життя! Майже одночасно після представлення чат-бота на основі ШІ ChatGPT компанією OpenAI, світові техномагнати, такі як Microsoft та Google включилися у цю гру. Журналісти Ars Technica влаштували тест найвідоміших ботів – ChatGPT та Bard. Переповідаємо, хто ж переміг у цій битві.

[social_blue social="telegram"]

Журналісти обрали доволі різноманітні теми, щоби розкрити потенціал ШІ на повну: татові жарти, битва аргументів, математичні текстові задачі, узагальнення, пошук фактів, творчість та кодування. Для кожного тесту журналісти використали однакові шаблони запитів і підказок. Вони використали перший результат, без відбору по релевантності.

Очевидно, що це не наукове дослідження, а веселий тест для порівняння можливостей чат-ботів.

Татко жартує

Для розігріву, журналісти попросили ChatGPT і Bard написати кілька жартів.

Підказка: напишіть 5 оригінальних жартів у стилі тата.

З п’яти жартів Bard автори знайшли три дослівно в інтернеті. Один із прикладів був наполовину запозиченим з твіту з жартом, але зіпсований невдалою грою слів. Але був і один оригінальний, який журналісти не змогли відшукати, але він виявився несмішним.

Між тим, п’ять жартів про тата в ChatGPT-4 були на 100% неоригінальними, усі повністю взяті з інших джерел, але вони були сформульовані точно.

Переможець: Bard.

Битва аргументів

Один зі способів перевірити сучасний чат-бот — попросити його взяти на себе ролі людей, які обговорюють тему. У цьому випадку автори запропонували Bard і ChatGPT-4 одну з найважливіших тем нашого часу: PowerPC проти Intel.

Підказка: напишіть дискусію з 5 рядків між фанатом процесорів PowerPC і фанатом процесорів Intel, уявімо, що зараз десь 2000 рік.

Спочатку ми розглянемо відповідь Bard. П’ять діалогових рядків, які він створив, не були особливо глибокими та не називали жодних технічних деталей, специфічних для чіпів PowerPC або Intel.

На відміну від цього, у відповіді ChatGPT-4 згадуються чіпи PowerPC, які використовуються в комп’ютерах Apple Macintosh, вживаються такі терміни, як «архітектура x86 Intel» і «архітектура на основі RISC» PowerPC. У ньому навіть згадується Pentium III, що є деталлю, властивою для 2000 року. Загалом, цей чат-бот навів набагато глибші аргументи. І що показово, розмова не приходить до завершення, натякаючи на нескінченну битву, яка ймовірно, все ще вирує в деяких закутках інтернету.

Переможець: ChatGPT-4.

Математична текстова задача

Традиційно це не сильна сторона великих мовних моделей (LLM), таких як ChatGPT. Тож замість того, щоб кидати кожному боту серію складних рівнянь і арифметики, ми дали кожному старомодне текстове завдання в стилі початкової школи.

Підказка: якби Microsoft Windows 11 треба було перенести на 3,5-дюймових дискетах, скільки дискет знадобилося б?

Щоб розв’язати цю задачу, кожній моделі штучного інтелекту потрібно знати розмір даних інстальованої Microsoft Windows 11 і місткість даних 3,5-дюймових дискет.

У нашій оцінці Bard правильно вказав ці три ключові моменти (досить близько — оцінки розміру встановлення Windows 11 зазвичай становлять близько 20–30 ГБ), але припустився жахливої помилки на математичному рівні, припустивши, що для цього знадобиться «15.11» дискет, додавши, що це «лише теоретичне число». Врешті він визнав, що для цього може знадобитися більше дискет, але до правильної відповіді він так і не наблизився.

На відміну від цього, ChatGPT-4 включив деякі нюанси, пов’язані з розміром Windows 11, правильно вказав місткість дискети, а потім заявив, що для цього знадобиться 14 222 дискети. Можна сперечатися про те, чи дорівнює гігабайт 1024 чи 1000 мегабайтам, але математика здорова. Також було правильно зазначено, що фактична кількість може змінюватися залежно від інших факторів.

Переможець: ChatGPT-4.

А що у підсумку?

Мовні моделі ШІ добре відомі своєю здатністю узагальнювати складну інформацію та зводити текст до ключових елементів. Щоб оцінити здатність кожної мовної моделі резюмувати текст, автори скопіювали та вставили три абзаци зі статті на сайті.

Тут вони обидва молодці. І Bard, і ChatGPT-4 взяли інформацію та скоротили її до важливих деталей. Однак версія Bard більше нагадує справжнє резюме, в якому інформація складена в нові фрази, тоді як версія ChatGPT-4 читається більше як об’єднання з вирізанням речень і склеюванням частин.

Переможець: Google Bard.

Фактологічний пошук

Наразі відомо, що великі мовні моделі припускаються грубих помилок (які дослідники часто називають «галюцинаціями»), що робить їх ненадійними джерелами пошуку фактів, якщо інформацію не перевіряти.

Цікаво, що Bard може шукати інформацію в інтернеті, тоді як ChatGPT-4 наразі не може (хоча ця функція незабаром з’явиться з плагінами).

Щоб перевірити цю здатність, автори запропонували Bard та ChatGPT-4 висловити історичні знання про складну тему з нюансами.

Підказка: Хто винайшов відеоігри?

Відповісти на питання про те, хто винайшов відеоігри, складно, оскільки це залежить від того, як ви визначаєте термін «відеогра», і це визначення різниться між істориками. Хтось вважає ранні комп’ютерні ігри відеоіграми, хтось вважає, що має бути телевізор тощо. Єдиної загальновизнаної відповіді немає.

Журналісти думали, що здатність Bard шукати речі в інтернеті дасть йому перевагу, але в цьому випадку це могло дати зворотний результат, оскільки він вибрав популярну відповідь у топі Google, назвавши Ральфа Баєра «батьком відеоігор». Усі його факти про Баєра правильні. Але Bard не згадав жодного з ранніх претендентів на «першу відеогру», як-от Tennis For Two and Spacewar!, тому його відповідь потенційно є оманливою та неповною.

ChatGPT-4 дав більш ґрунтовну та деталізовану відповідь, яка відображає поточне відчуття багатьох перших істориків відеоігор, кажучи, що винахід відеоігор «не може бути приписаний одній людині». Його єдина помилка полягає в тому, що він називає Spacewar! «першою цифровою комп’ютерною грою», хоча це не так. Можна було б розширити відповідь, включивши в неї більше деталей, але ChatGPT-4 все ж дає хороший огляд.

Переможець: ChatGPT-4.

А з креативом як?

Журналісти перевірили це, попросивши Bard та ChatGPT-4 написати коротку химерну історію.

Підказка: Напишіть творчу розповідь із двох абзаців про те, як Авраам Лінкольн винайшов баскетбол.

Результат Bard в цьому тесті не відповідає декільком параметрам. По-перше, це 10 абзаців замість двох – і до того ж коротких, уривчастих. Крім того, він ділиться деякими деталями, які не мають особливого сенсу в контексті підказки.

ChatGPT-4 вмістив історію у 2 абзаци, і тому пальму першості отримає саме він.

Переможець: ChatGPT-4.

Кодування

Про ШІ, який пише та виправляє код, вже ходять легенди.

Підказка: напишіть код на Python, який каже «Hello World», а потім створює випадковий рядок символів, що повторюється нескінченно.

Ой! Здається, Google Bard взагалі не вміє писати код. Наразі Google приховує цю функцію, але компанія каже, що кодування з’явиться незабаром. Наразі Bard відхилив нашу підказку, сказавши: «Схоже, вам потрібна моя допомога з кодуванням, але я ще не навчений цього робити».

Тим часом ChatGPT-4 не лише занурився безпосередньо в код, але й відформатував його у фантастичному полі коду з кнопкою «Копіювати код», яка копіює код у системний буфер обміну.

Переможець: ChatGPT-4.

Загалом ChatGPT-4 виграв п’ять із семи випробувань. Але результати можна оцінювати по-різному – можна з точки зору швидкості роботи, вартості підписки, креативності відповідей або ж їхньої точності. Тож ці перегони можна вважати доволі суб’єктивними, і автори експерименту це визнають.

Ми також тестували ChatGPT, запитавши в нього, чий Крим. Відповідь нас обурила.

Також пропонуємо вам почитати про те, що чат-бот Bard від Google протестували на здатність розпізнавати дезінформацію. Виявилось, що попри всі намагання розробників, чат-бот генерує контент, який підтримує відомі теорії змови. І робить це досить переконливо.