3d rendering humanoid robot playing cube puzzle
Компания Microsoft представила мультимодальную модель на основе искусственного интеллекта, умеющую обрабатывать изображения и графические элементы. Разработчики считают, что вскоре она сможет выполнять интеллектуальные задачи не хуже человека, пишет Ars Technica.
Новый инструмент с искусственным интеллектом назвали Kosmos-1. Он умеет анализировать, что изображено на картинке или фото, разгадывать визуальные головоломки, распознавать текст на рисунке и даже проходит IQ-тесты. Исследователи считают, что мультимодальный ИИ, объединяющий различные режимы ввода данных (текст, аудио, изображение и видео) в перспективе может превратиться в общий искусственный интеллект, способный выполнять интеллектуальные задачи на том же уровне, что и человек.
Разработчики назвали Kosmos-1 мультимодальной большой языковой моделью (MLLM). Она, как и большинство продуктов с искусственным интеллектом, основывается на обработке естественной речи. Чтобы искусственный интеллект смог распознавать графические элементы, исследователи научили его интерпретировать картинки в специальную серию текстовых токенов, которые понимает языковая модель вроде ChatGPT. Приблизительно по тому же принципу Kosmos-1 распознает аудио и видео.
Еще один вызов для разработчиков – научить искусственный интеллект понимать последовательность форм. Сейчас он проходит визуальные IQ-тесты на 22-26%, но исследователи уверены, что Kosmos-1 способен на больше. В будущем они собираются интегрировать в этот продукт еще и возможность воспроизведения речи.
Напомним, недавно Microsoft представила инструмент с искусственным интеллектом, который поможет бизнесам автоматизировать переписку с клиентами. Также компания добавила свой умный чат-бот Bing в мобильные приложения, благодаря чему общаться с ним можно еще и голосовыми сообщениями.
Кровать — громоздкий элемент интерьера даже в просторной спальне. Но что, если помещение совсем небольшое,…
Украинские PR-агентства реализуют масштабные информационные кампании для бизнеса и придают мощный голос социальным проектам, которые…
Power BI (Business Intelligence) Microsoft – это не просто платформа для анализа данных, а ключевой…
Лас-Вегас — один из самых узнаваемых городов на планете, который ежегодно манит к себе миллионы…
Из-за широкомасштабного вторжения россии в Украине было введено военное положение и объявлена мобилизация. Военнообязанным мужчинам…
«Вижу цель – не вижу препятствий». Знакомая фраза? Часто ею руководствуются кандидаты, ищущие работу мечты.…