logo
02 Бер 2023

Microsoft навчила штучний інтелект розпізнавати зображення та розгадувати візуальні головоломки

Юлія Фещенко

Редакторка новин MC.today

Компанія Microsoft представила мультимодальну модель на основі штучного інтелекту, яка вміє опрацьовувати зображення та графічні елементи. Розробники вважають, що згодом вона зможе виконувати інтелектуальні завдання не гірше за людину, повідомляє Ars Technica.

3d rendering humanoid robot playing cube puzzle3d rendering humanoid robot playing cube puzzle

Новий інструмент зі штучним інтелектом назвали Kosmos-1. Він вміє аналізувати, що саме зображено на картинці чи фото, розв’язувати візуальні головоломки, розпізнавати текст на малюнку та навіть проходить IQ-тести. Дослідники вважають, що мультимодальний ШІ, який об’єднує різні режими введення даних (текст, аудіо, зображення та відео) у перспективі допоможе перетворитися на загальний штучний інтелект, який виконуватиме інтелектуальні завдання на тому ж рівні, що й людина.

Розробники назвали Kosmos-1 мультимодальною великою мовною моделлю (MLLM). Вона, як і більшість продуктів зі штучним інтелектом, заснована на обробці природного мовлення. Щоби штучний інтелект зміг розпізнавати графічні елементи, дослідники навчили його інтерпретувати картинки в спеціальну серію текстових токенів, які розуміє мовна модель на кшталт ChatGPT. Приблизно за тим самим принципом Kosmos-1 розпізнає аудіо та відео.

Курс Job Interview Crash Course від Enlgish4IT.
Отримайте 6 шаблонів відповідей на співбесіді, які ви зможете використовувати для структурування своїх відповідей. Отримайте знижку 10% за промокодом ITCENG.
Приєднатися

Особливий виклик для розробників – навчити штучний інтелект розуміти послідовність форм. Зараз він проходить візуальні IQ-тести на 22–26%, проте дослідники впевнені, що Kosmos-1 здатний на більше. У майбутньому вони збираються інтегрувати в цей продукт ще й можливість мовлення.

Нагадаємо, нещодавно Microsoft представила інструмент зі штучним інтелектом, який допоможе бізнесам автоматизувати листування з клієнтами. Також компанія додала свій розумний чат-бот Bing у мобільні застосунки, завдяки чому спілкуватися з ним можна ще й голосовими повідомленнями.

Онлайн-курс Бізнес-аналіз. Basic Level від Ithillel.
В ході курсу студенти навчаться техніці збору і аналізу вимог, документуванню та управлінню документацією, управлінню ризиками та змінами, а також навчаться моделювати процеси і прототипуванню.
Приєднатися

По темі:

Спецпроекти

Новини

Вакансії компаній

Менеджер з активних продажів B2B

Creators Media Group
20 000 – 40 000 грн, Ставка + відсоток

Надихаючі компанії-работодавці

Ваша жалоба отправлена модератору

Повідомити про помилку

Текст, який буде надіслано нашим редакторам: