Рубріки: Інфопривід

Meta представила штучний інтелект ImageBind, який сприймає довкілля, як людина

Компанія американського техномагната Марка Цукерберга представила новаторський інструмент штучного інтелекту під назвою ImageBind, йдеться в блозі Meta. Розробники стверджують, що ця модель «сприймає» довкілля так, як це роблять люди. Редакція MC.today переповідає подробиці.

Якщо генератори зображень на кшталт Midjourney, Stable Diffusion і DALL-E 2 створюють візуальні сцени за текстовим описом, то нова розробка Цукерберга може працювати зі значно складнішими середовищами, як-от фрагменти відео, аудіо, та їхніми комбінаціями.

ImageBind може зв’язувати текст, медіафайли, робити 3D-вимірювання глибини об’єкта, який потрібно створити, а також враховує дані про його гіпотетичні теплові якості та переміщення у просторі. Це мультимодальний інструмент, який навчають на цілій сукупності різних моделей, тому він вміє імітувати мультисенсорні зв’язки, як це робить людина та більшість тварин.

Уявіть, що ви опинилися десь на жвавому перехресті великого міста. Для створення цілісної картинки ваш мозок аналізує безліч сенсорних вражень: звуки, інформацію про пішоходів та машини, що проїжджають повз, будівлі та дерева довкола тощо. Люди опрацьовують цю інформацію завдяки певним генетичним перевагам та набутому досвіду. А алгоритми ImageBind створюють повноцінні сцени з реального життя на фрагментах даних із різних навчальних моделей.

Реалістичність та певна тривимірність – те, що вирізняє цей продукт з-поміж аналогів. Якщо ви попросите нейромережу Midjourney зобразити басет-гаунда в костюмі Гендальфа, який балансує на м’ячику для пляжного волейболу, то, ймовірно, отримаєте цілком реалістичне зображення смішного собачати. Але не більше.

Натомість ImageBind за аналогічним текстовим запитом створить повноцінне відео, як песик «котиться» верхи на м’ячі в певному оточенні, наповненому відповідними звуками та ефектами. Наприклад, на мальовничій сільській вуличці, що просто тоне у квітах та співі пташок. Або посеред дитячої кімнати з розкиданими іграшками та веселим сміхом. Розробники також стверджують, що кожна сцена відтворюється в логічній відеопослідовності, тобто так, який вигляд вона могла б мати в реальному житті.

Зараз ImageBind працює в шести модальностях: текст, зображення, відео, аудіо, теплові та інертні дані. Втім, в Meta не планують зупинятися на цьому. В перспективі розробники навчать штучний інтелект розпізнавати й імітувати дотик, аромат та навіть мозкові сигнали. Тобто майбутні моделі будуть ще більш орієнтованими на людину.

  • Це не перший високотехнологічний продукт, який Цукерберг представив цьогоріч. Так, на початку квітня компанія презентувала модель штучного інтелекту, яка розпізнає об’єкти на зображеннях та відео, й анонсувала ШІ-технологію для створення та налаштування реклами у Facebook та Instagram.

Нещодавні статті

«Нереально і несправедливо». Рєпа розповіла, чого засновникам не варто очікувати від працівників

Засновниця та CEO Health & Fitness IT-компанії BetterMe Вікторія Рєпа поділилась думками щодо того, чому…

21/04/2025

«Не чіпляйтеся за людей». Авдєєва назвала правила, важливі для ведення бізнесу

Марина Авдєєва, співвласниця СК «Арсенал страхування», розповіла про свої правила ведення бізнесу та що не…

21/04/2025

СЕО Bimp розповів, що навчило його будувати продукти та сформувало головний принцип компанії

Співзасновник та СЕО компанії-розробниці системи обліку товарів і управління запасами для бізнесу та e-commerce Bimp…

21/04/2025

Найвищі зарплати українських айтівців в Україні та за кордоном: хто отримує від $12 тис. і що з новачками

В DOU провели опитування серед українських ІТ-фахівців і визначили найвищі зарплати в Україні та за…

21/04/2025

«Велика амбіція». «Київстар» хоче збільшити частку доходу не від телеком-сервісу

«Київстар» планує отримувати 10% доходу не від телекомунікаційних послуг, а далі – збільшити такий дохід…

21/04/2025

«Прикол вийшов з-під контролю». Гороховський розповів про новий напій від monobank і «Живчик»

Необанк monobank випустив новий напій у колаборації із «Живчиком». Відсканувавши QR-код на банці можна також…

21/04/2025