logo
02 Mar 2023

Microsoft научила искусственный интеллект распознавать изображения и разгадывать визуальные головоломки

Юлія Фещенко

Редакторка новин MC.today

Компания Microsoft представила мультимодальную модель на основе искусственного интеллекта, умеющую обрабатывать изображения и графические элементы. Разработчики считают, что вскоре она сможет выполнять интеллектуальные задачи не хуже человека, пишет Ars Technica.

3d rendering humanoid robot playing cube puzzle3d rendering humanoid robot playing cube puzzle

Новый инструмент с искусственным интеллектом назвали Kosmos-1. Он умеет анализировать, что изображено на картинке или фото, разгадывать визуальные головоломки, распознавать текст на рисунке и даже проходит IQ-тесты. Исследователи считают, что мультимодальный ИИ, объединяющий различные режимы ввода данных (текст, аудио, изображение и видео) в перспективе может превратиться в общий искусственный интеллект, способный выполнять интеллектуальные задачи на том же уровне, что и человек.

Разработчики назвали Kosmos-1 мультимодальной большой языковой моделью (MLLM). Она, как и большинство продуктов с искусственным интеллектом, основывается на обработке естественной речи. Чтобы искусственный интеллект смог распознавать графические элементы, исследователи научили его интерпретировать картинки в специальную серию текстовых токенов, которые понимает языковая модель вроде ChatGPT. Приблизительно по тому же принципу Kosmos-1 распознает аудио и видео.

Курс Project Manager від Powercode academy.
Онлайн-курс Project Manager. З нуля за 3,5 місяці до нової позиції Без знання коду, англійської та стресу.
Зарееструватися

Еще один вызов для разработчиков – научить искусственный интеллект понимать последовательность форм. Сейчас он проходит визуальные IQ-тесты на 22-26%, но исследователи уверены, что Kosmos-1 способен на больше. В будущем они собираются интегрировать в этот продукт еще и возможность воспроизведения речи.

Напомним, недавно Microsoft представила инструмент с искусственным интеллектом, который поможет бизнесам автоматизировать переписку с клиентами. Также компания добавила свой умный чат-бот Bing в мобильные приложения, благодаря чему общаться с ним можно еще и голосовыми сообщениями.

Онлайн-курс "Предметний дизайн" від Skvot.
Навчіться створювати функціональні, трендові та ергономічні дизайни меблів та предметів інтер’єру.
Детальніше про програму курсу і лекторів

Новости

Вдохновляющие компании-работодатели

«БИОСФЕРА»

Ваша жалоба отправлена модератору

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: