logo
10 May 2023

Meta представила искусственный интеллект ImageBind, который воспринимает окружающую среду, как человек

Юлія Фещенко

Редакторка новин MC.today

Компания американского техномагната Марка Цукерберга представила новаторский инструмент на базе искусственного интеллекта под названием ImageBind, говорится в блоге Meta. Разработчики утверждают, что эта модель воспринимает окружающую среду так, как это делают люди. Редакция MC.today пересказывает подробности.

Mark Zuckerberg TV setMark Zuckerberg TV set

Если визуальные генераторы изображений вроде Midjourney, Stable Diffusion и DALL-E 2 создают визуальные сцены по текстовому описанию, то новая разработка Цукерберга может работать в значительно более сложной среде, как фрагменты видео, аудио, и их комбинациями.

ImageBind может связывать текст, медиафайлы, производить 3D-измерение глубины объекта, который нужно создать, а также учитывает данные о его гипотетических тепловых качествах и перемещениях. Это мультимодальный инструмент, обучающийся на целой совокупности разных моделей, поэтому он умеет имитировать мультисенсорные связи, как это делает человек и большинство животных.

Онлайн-курс "Business English for Marketers" від Laba.
Опануйте професійну англійську для маркетингу.Розширте карʼєрні можливості для роботи з іноземними колегами: від розробки нових продуктів до презентації стратегії бренду.
Детальніше про курс

Представьте, что вы оказались где-то на оживленном перекрестке большого города. Для создания целостной картинки ваш мозг анализирует множество сенсорных впечатлений: звуки, информацию о проезжающих мимо пешеходах и машинах вокруг здания и деревья. Люди обрабатывают эту информацию благодаря определенным генетическим преимуществам и приобретенному опыту. А алгоритмы ImageBind создают полноценные сцены из реальной жизни на фрагментах данных из разных обучающих моделей.

Реалистичность и определенная трехмерность – то, что отличает этот продукт из аналогов. Если вы попросите нейросеть Midjourney изобразить бассет-хаунда в костюме Гендальфа, балансирующего на мячике для пляжного волейбола, то, вероятно, получите вполне реалистичное изображение смешного песика. Но не больше.

ImageBind по аналогичному текстовому запросу создаст полноценное видео, как собака «катится» верхом на мяче в определенном окружении, наполненном соответствующими звуками и эффектами. Например, по живописной сельской улочке, которая тонет в цветах и ​​пении птиц. Или посреди детской комнаты с разбросанными игрушками и веселым смехом. Разработчики также утверждают, что каждая сцена воспроизводится в логической видеопоследовательности, то есть так, как она могла бы выглядеть в реальной жизни.

В настоящее время ImageBind работает в шести модальностях: текст, изображение, видео, аудио, тепловые и инертные данные. Впрочем, в Meta не планируют останавливаться на этом. В перспективе разработчики научат искусственный интеллект распознавать и имитировать осязание, аромат и даже мозговые сигналы. То есть следующие модели будут еще более ориентированы на человека.

  • Это не первый высокотехнологичный продукт, который Цукерберг представил в этом году. Так, в начале апреля компания презентовала модель искусственного интеллекта, которая распознает объекты на изображениях и видео, и анонсировала ИИ-технологию для создания и настройки рекламы в Facebook и Instagram.
Курс-професія "Junior Data Analyst" від robot_dreams.
Комплексний курc для всіх, хто хоче опанувати нову професію з нуля.На прикладі реальних датасетів ви розберете кожен етап аналізу даних.
Програма курсу і реєстрація

Новости

Вдохновляющие компании-работодатели

«БИОСФЕРА»

Ваша жалоба отправлена модератору

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: