logo
10 Тра 2023

Meta представила штучний інтелект ImageBind, який сприймає довкілля, як людина

Юлія Фещенко

Редакторка новин MC.today

Компанія американського техномагната Марка Цукерберга представила новаторський інструмент штучного інтелекту під назвою ImageBind, йдеться в блозі Meta. Розробники стверджують, що ця модель «сприймає» довкілля так, як це роблять люди. Редакція MC.today переповідає подробиці.

Mark Zuckerberg TV setMark Zuckerberg TV set

Якщо генератори зображень на кшталт Midjourney, Stable Diffusion і DALL-E 2 створюють візуальні сцени за текстовим описом, то нова розробка Цукерберга може працювати зі значно складнішими середовищами, як-от фрагменти відео, аудіо, та їхніми комбінаціями.

ImageBind може зв’язувати текст, медіафайли, робити 3D-вимірювання глибини об’єкта, який потрібно створити, а також враховує дані про його гіпотетичні теплові якості та переміщення у просторі. Це мультимодальний інструмент, який навчають на цілій сукупності різних моделей, тому він вміє імітувати мультисенсорні зв’язки, як це робить людина та більшість тварин.

Курс English For Tech: Speaking&Listening від Enlgish4IT.
Після курсу ви зможете найкраще презентувати свої досягнення, обговорювати проекти та вирішувати повсякденні завдання англійською мовою. Отримайте знижку 10% за промокодом TCENG.
Дізнатись про курс

Уявіть, що ви опинилися десь на жвавому перехресті великого міста. Для створення цілісної картинки ваш мозок аналізує безліч сенсорних вражень: звуки, інформацію про пішоходів та машини, що проїжджають повз, будівлі та дерева довкола тощо. Люди опрацьовують цю інформацію завдяки певним генетичним перевагам та набутому досвіду. А алгоритми ImageBind створюють повноцінні сцени з реального життя на фрагментах даних із різних навчальних моделей.

Реалістичність та певна тривимірність – те, що вирізняє цей продукт з-поміж аналогів. Якщо ви попросите нейромережу Midjourney зобразити басет-гаунда в костюмі Гендальфа, який балансує на м’ячику для пляжного волейболу, то, ймовірно, отримаєте цілком реалістичне зображення смішного собачати. Але не більше.

Натомість ImageBind за аналогічним текстовим запитом створить повноцінне відео, як песик «котиться» верхи на м’ячі в певному оточенні, наповненому відповідними звуками та ефектами. Наприклад, на мальовничій сільській вуличці, що просто тоне у квітах та співі пташок. Або посеред дитячої кімнати з розкиданими іграшками та веселим сміхом. Розробники також стверджують, що кожна сцена відтворюється в логічній відеопослідовності, тобто так, який вигляд вона могла б мати в реальному житті.

Зараз ImageBind працює в шести модальностях: текст, зображення, відео, аудіо, теплові та інертні дані. Втім, в Meta не планують зупинятися на цьому. В перспективі розробники навчать штучний інтелект розпізнавати й імітувати дотик, аромат та навіть мозкові сигнали. Тобто майбутні моделі будуть ще більш орієнтованими на людину.

  • Це не перший високотехнологічний продукт, який Цукерберг представив цьогоріч. Так, на початку квітня компанія презентувала модель штучного інтелекту, яка розпізнає об’єкти на зображеннях та відео, й анонсувала ШІ-технологію для створення та налаштування реклами у Facebook та Instagram.
Онлайн-курс "Стратегічний маркетинг" від Laba.
Навчіться збільшувати ROI компанії, відстежувати тренди просування та завойовувати нові ринки завдяки комплексній маркетинговій стратегії.
Програма курсу і реєстрація

По темі:

Спецпроекти

Новини

Вакансії компаній

Менеджер з активних продажів B2B

Creators Media Group
20 000 – 40 000 грн, Ставка + відсоток

Надихаючі компанії-работодавці

Ваша жалоба отправлена модератору

Повідомити про помилку

Текст, який буде надіслано нашим редакторам: