UA RU
logo
10 Май 2023

Meta представила искусственный интеллект ImageBind, который воспринимает окружающую среду, как человек

Юлія Фещенко

Редакторка новин MC.today

Компания американского техномагната Марка Цукерберга представила новаторский инструмент на базе искусственного интеллекта под названием ImageBind, говорится в блоге Meta. Разработчики утверждают, что эта модель воспринимает окружающую среду так, как это делают люди. Редакция MC.today пересказывает подробности.

Курс
BLOCKCHAIN DEVELOPER
Опануєте технології роботи перспективного напрямку блокчейну, отримаєте навички розробки на мовах JavaScript і Solidity.
Дізнатись про програму
pic

Если визуальные генераторы изображений вроде Midjourney, Stable Diffusion и DALL-E 2 создают визуальные сцены по текстовому описанию, то новая разработка Цукерберга может работать в значительно более сложной среде, как фрагменты видео, аудио, и их комбинациями.

ImageBind может связывать текст, медиафайлы, производить 3D-измерение глубины объекта, который нужно создать, а также учитывает данные о его гипотетических тепловых качествах и перемещениях. Это мультимодальный инструмент, обучающийся на целой совокупности разных моделей, поэтому он умеет имитировать мультисенсорные связи, как это делает человек и большинство животных.

Представьте, что вы оказались где-то на оживленном перекрестке большого города. Для создания целостной картинки ваш мозг анализирует множество сенсорных впечатлений: звуки, информацию о проезжающих мимо пешеходах и машинах вокруг здания и деревья. Люди обрабатывают эту информацию благодаря определенным генетическим преимуществам и приобретенному опыту. А алгоритмы ImageBind создают полноценные сцены из реальной жизни на фрагментах данных из разных обучающих моделей.

Реалистичность и определенная трехмерность – то, что отличает этот продукт из аналогов. Если вы попросите нейросеть Midjourney изобразить бассет-хаунда в костюме Гендальфа, балансирующего на мячике для пляжного волейбола, то, вероятно, получите вполне реалистичное изображение смешного песика. Но не больше.

Курс QA
Хочете вивчити тестування програмного забезпечення з нуля та гарантовано отримати роботу? Це те що ти шукав.

Дізнатись про курс

ImageBind по аналогичному текстовому запросу создаст полноценное видео, как собака «катится» верхом на мяче в определенном окружении, наполненном соответствующими звуками и эффектами. Например, по живописной сельской улочке, которая тонет в цветах и ​​пении птиц. Или посреди детской комнаты с разбросанными игрушками и веселым смехом. Разработчики также утверждают, что каждая сцена воспроизводится в логической видеопоследовательности, то есть так, как она могла бы выглядеть в реальной жизни.

В настоящее время ImageBind работает в шести модальностях: текст, изображение, видео, аудио, тепловые и инертные данные. Впрочем, в Meta не планируют останавливаться на этом. В перспективе разработчики научат искусственный интеллект распознавать и имитировать осязание, аромат и даже мозговые сигналы. То есть следующие модели будут еще более ориентированы на человека.

  • Это не первый высокотехнологичный продукт, который Цукерберг представил в этом году. Так, в начале апреля компания презентовала модель искусственного интеллекта, которая распознает объекты на изображениях и видео, и анонсировала ИИ-технологию для создания и настройки рекламы в Facebook и Instagram.
Курс Python.
Вивчіть програмування за допомогою Python, та приборкайте цю змію.
Вивчити курс

По теме:

Спецпроекты

Спецпроекты

Новости

Спецпроекты

Вдохновляющие компании-работодатели

Alfa
«БИОСФЕРА»

Ваша жалоба отправлена модератору

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: