Что происходит10.05.2023 15:55

Meta представила искусственный интеллект ImageBind, который воспринимает окружающую среду, как человек

Редакторка MC.today

Компания американского техномагната Марка Цукерберга представила новаторский инструмент на базе искусственного интеллекта под названием ImageBind, говорится в блоге Meta. Разработчики утверждают, что эта модель воспринимает окружающую среду так, как это делают люди. Редакция MC.today пересказывает подробности.

Mark Zuckerberg TV set

Если визуальные генераторы изображений вроде Midjourney, Stable Diffusion и DALL-E 2 создают визуальные сцены по текстовому описанию, то новая разработка Цукерберга может работать в значительно более сложной среде, как фрагменты видео, аудио, и их комбинациями.

ImageBind может связывать текст, медиафайлы, производить 3D-измерение глубины объекта, который нужно создать, а также учитывает данные о его гипотетических тепловых качествах и перемещениях. Это мультимодальный инструмент, обучающийся на целой совокупности разных моделей, поэтому он умеет имитировать мультисенсорные связи, как это делает человек и большинство животных.

Представьте, что вы оказались где-то на оживленном перекрестке большого города. Для создания целостной картинки ваш мозг анализирует множество сенсорных впечатлений: звуки, информацию о проезжающих мимо пешеходах и машинах вокруг здания и деревья. Люди обрабатывают эту информацию благодаря определенным генетическим преимуществам и приобретенному опыту. А алгоритмы ImageBind создают полноценные сцены из реальной жизни на фрагментах данных из разных обучающих моделей.

Реалистичность и определенная трехмерность – то, что отличает этот продукт из аналогов. Если вы попросите нейросеть Midjourney изобразить бассет-хаунда в костюме Гендальфа, балансирующего на мячике для пляжного волейбола, то, вероятно, получите вполне реалистичное изображение смешного песика. Но не больше.

ImageBind по аналогичному текстовому запросу создаст полноценное видео, как собака «катится» верхом на мяче в определенном окружении, наполненном соответствующими звуками и эффектами. Например, по живописной сельской улочке, которая тонет в цветах и пении птиц. Или посреди детской комнаты с разбросанными игрушками и веселым смехом. Разработчики также утверждают, что каждая сцена воспроизводится в логической видеопоследовательности, то есть так, как она могла бы выглядеть в реальной жизни.

$META Meta just announced ImageBind.

The company is open-sourcing a new AI model that combines different senses. It understands images, video, audio, depth, thermal, and spatial movement.

ImageBind joins a recent series of Meta's open-source AI tools. pic.twitter.com/7d6HLRKGgC

— App Economy Insights (@EconomyApp) May 9, 2023

В настоящее время ImageBind работает в шести модальностях: текст, изображение, видео, аудио, тепловые и инертные данные. Впрочем, в Meta не планируют останавливаться на этом. В перспективе разработчики научат искусственный интеллект распознавать и имитировать осязание, аромат и даже мозговые сигналы. То есть следующие модели будут еще более ориентированы на человека.

Это не первый высокотехнологичный продукт, который Цукерберг представил в этом году. Так, в начале апреля компания презентовала модель искусственного интеллекта, которая распознает объекты на изображениях и видео, и анонсировала ИИ-технологию для создания и настройки рекламы в Facebook и Instagram.