Искусственный интеллект06.04.2023 15:37

ChatGPT vs Google Bard. Журналисты устроили тесты популярных языковых моделей и назвали победителя

Главный редактор MC.today

Как же резко искусственный интеллект (ИИ) ворвался в нашу повседневную жизнь! Почти одновременно после представления чат-бота на основе ИИ ChatGPT компанией OpenAI мировые техномагнаты, такие как Microsoft и Google, включились в эту игру. Журналисты Ars Technica устроили тест самых известных ботов – ChatGPT и Bard. Рассказываем, кто же победил в этой битве.

Two vintage tin toy robots, robotic delivery, artificial intelligence concept

Журналисты выбрали довольно разнообразные темы, чтобы раскрыть потенциал ИИ по полной: папины шутки, битва аргументов, математические текстовые задачи, обобщение, поиск фактов, творчество и кодирование. Для каждого теста журналисты использовали одинаковые шаблоны запросов и подсказок и подавали одинаковые инструкции в ChatGPT (с GPT-4) и Google Bard. Они использовали первый результат без отбора по релевантности.

Очевидно, это не научное исследование, а веселый тест для сравнения возможностей чат-ботов.

Папа шутит

Для разогрева журналисты попросили ChatGPT и Bard написать несколько шуток.

Подсказка: напишите 5 оригинальных шуток в стиле папы.

Из пяти шуток Bard авторы нашли три дословно в интернете. Один из примеров был наполовину заимствован из твита с шуткой, но испорчен неудачной игрой слов. Но была и одна оригинальная, которую журналисты не смогли найти, но она оказалась несмешной.

Между тем, пять шуток о папе у ChatGPT-4 были на 100% неоригинальнымы, полностью взятыми из других источников, но они были сформулированы точно.

Победитель: Bard.

Битва аргументов

Один из способов проверить современный чат-бот – попросить его примерить на себя роли людей, обсуждающих тему. В этом случае авторы предложили Bard и ChatGPT-4 одну из важнейших тем нашего времени: PowerPC против Intel.

Подсказка: напишите дискуссию из 5 строчек между фанатом процессоров PowerPC и фанатом процессоров Intel, представим, что сейчас где-то 2000 год.

Сначала мы рассмотрим ответ Bard. Пять созданных им диалоговых строк не были особенно глубокими и не называли никаких технических деталей, специфичных для чипов PowerPC или Intel.

В отличие от этого, в ответе ChatGPT-4 упоминаются чипы PowerPC, используемые в компьютерах Apple Macintosh, используются такие термины, как «архитектура x86 Intel» и «архитектура на основе RISC» PowerPC. В нем даже упоминается Pentium III, являщийся деталью, свойственной для 2000 года. В общем, этот чат-бот привел гораздо более глубокие аргументы. И что показательно, разговор не приходит к завершению, намекая на бесконечную битву, которая, вероятно, все еще бурлит в некоторых уголках интернета.

Победитель: ChatGPT-4.

Математическая текстовая задача

Традиционно это не сильная сторона больших языковых моделей (LLM), таких как ChatGPT. Поэтому вместо того, чтобы бросать каждому боту серию сложных уравнений и арифметики, мы дали каждому старомодное текстовое заданию в стиле начальной школы.

Подсказка: если Microsoft Windows 11 нужно было перенести на 3,5-дюймовых дискетах, сколько дискет понадобилось бы?

Для решения этой задачи каждой модели искусственного интеллекта нужно знать размер данных установленной Microsoft Windows 11 и емкость данных 3,5-дюймовых дискет.

В нашей оценке Bard правильно указал эти три ключевых момента (достаточно близко — оценки размера установки Windows 11 обычно составляют около 20–30 ГБ), но допустил ужасную ошибку на математическом уровне, допустив, что для этого понадобится «15.11» дискет, добавив, что это «только теоретическое число». В конце концов, он признал, что для этого может понадобиться больше дискет, но к правильному ответу он так и не приблизился.

В отличие от этого, ChatGPT-4 включил некоторые нюансы, связанные с размером Windows 11, правильно указал емкость дискеты, а затем заявил, что для этого понадобится 14 222 дискет. Можно спорить о том, равен ли гигабайт 1024 или 1000 мегабайтам, но математика здоровая. Также было правильно отмечено, что фактическое количество может изменяться в зависимости от других факторов.

Победитель: ChatGPT-4.

А что в итоге?

Языковые модели ИИ хорошо известны своей способностью обобщать сложную информацию и сводить текст к ключевым элементам. Чтобы оценить способность каждой языковой модели резюмировать текст, авторы скопировали и вставили три абзаца из статьи на сайте.

Здесь они оба молодцы. И Bard, и ChatGPT-4 взяли информацию и сократили ее до важнейших деталей. Однако версия Bard больше напоминает подлинное резюме, в котором информация составлена в новые фразы, тогда как версия ChatGPT-4 читается больше как объединение с вырезанием предложений и склеиванием частей.

Победитель Google Bard.

Фактологический поиск

Пока известно, что большие языковые модели допускают грубые ошибки (которые исследователи часто называют «галлюцинациями»), что делает их ненадежными источниками поиска фактов, если информацию не проверять.

Интересно, что Bard может искать информацию в интернете, тогда как ChatGPT-4 пока не может (хотя эта функция скоро появится с плагинами).

Чтобы проверить это, авторы предложили Bard и ChatGPT-4 продемонстрировать исторические знания на сложную тему с нюансами.

Подсказка: Кто изобрел видеоигры?

Ответить на вопрос о том, кто изобрел видеоигры, сложно, поскольку это зависит от того, как вы определяете термин «видеоигры», и это определение различается между историками. Кто-то считает ранние компьютерные игры видеоиграми, кто-то считает, что должен быть телевизор и т. д. Единого общепризнанного ответа нет.

Журналисты думали, что способность Bard искать вещи в интернете даст ему преимущество, но в этом случае это могло дать обратный результат, поскольку он выбрал популярный ответ в топе Google, назвав Ральфа Байера «отцом видеоигр». Все его факты о Баере верны. Но Bard не упомянул ни одного из ранних претендентов на «первую видеоигру», например Tennis For Two and Spacewar!, поэтому его ответ потенциально обманчивый и неполный.

ChatGPT-4 дал более основательный и детализированный ответ, отражающий текущее чувство многих первых историков видеоигр, говоря, что изобретение видеоигр «не может быть приписано одному человеку». Его единственная ошибка состоит в том, что он называет Spacewar! «первой цифровой компьютерной игрой», хотя это не так. Можно было бы расширить ответ, включив в него больше деталей, но ChatGPT-4 все же дает хороший обзор.

Победитель: ChatGPT-4.

А с креативом как?

Журналисты проверили это, попросив Bard и ChatGPT-4 написать краткую странную историю.

Подсказка: Напишите творческий рассказ из двух абзацев о том, как Авраам Линкольн изобрел баскетбол.

Результат Bard в этом тесте не отвечает нескольким параметрам. Во-первых, это 10 абзацев вместо двух – и к тому же коротких, отрывочных. Кроме того, он делится некоторыми деталями, не имеющими особого смысла в контексте подсказки.

ChatGPT-4 поместил историю в 2 абзаца, и потому пальму первенства получит именно он.

Победитель: ChatGPT-4.

Кодирование

О ИИ, пишущем и исправляющем код, уже ходят легенды.

Подсказка: напишите код на Python, который говорит «Hello World», а затем создает повторяющуюся бесконечно случайную строку символов.

Ой! Похоже, Google Bard вообще не умеет писать код. Google скрывает эту функцию, но компания говорит, что кодировка появится в скором времени. Bard отклонил нашу подсказку, сказав: «Похоже, вам нужна моя помощь с кодом, но я еще не обучен этого делать».

Тем временем ChatGPT-4 не только погрузился прямо в код, но и отформатировал его в фантастическом поле кода с кнопкой «Копировать код», копирующей код в системный буфер обмена.

Победитель: ChatGPT-4.

В общей сложности ChatGPT-4 выиграл пять из семи испытаний. Но результаты можно оценивать по-разному – можно с точки зрения скорости работы, стоимости подписки, креативности ответов или их точности. Поэтому эту гонку можно считать достаточно субъективной, и авторы эксперимента это признают.

Мы также тестировали ChatGPT, спросив у него, чей Крым . Ответ нас возмутил.

Также предлагаем вам почитать о том, что чат-бот Bard от Google протестировали на способность распознавать дезинформацию. Оказалось, что несмотря на все попытки разработчиков, чат-бот генерирует контент, поддерживающий известные теории заговора. И делает это достаточно убедительно.