Mark Zuckerberg TV set
Компанія американського техномагната Марка Цукерберга представила новаторський інструмент штучного інтелекту під назвою ImageBind, йдеться в блозі Meta. Розробники стверджують, що ця модель «сприймає» довкілля так, як це роблять люди. Редакція MC.today переповідає подробиці.
Якщо генератори зображень на кшталт Midjourney, Stable Diffusion і DALL-E 2 створюють візуальні сцени за текстовим описом, то нова розробка Цукерберга може працювати зі значно складнішими середовищами, як-от фрагменти відео, аудіо, та їхніми комбінаціями.
ImageBind може зв’язувати текст, медіафайли, робити 3D-вимірювання глибини об’єкта, який потрібно створити, а також враховує дані про його гіпотетичні теплові якості та переміщення у просторі. Це мультимодальний інструмент, який навчають на цілій сукупності різних моделей, тому він вміє імітувати мультисенсорні зв’язки, як це робить людина та більшість тварин.
Уявіть, що ви опинилися десь на жвавому перехресті великого міста. Для створення цілісної картинки ваш мозок аналізує безліч сенсорних вражень: звуки, інформацію про пішоходів та машини, що проїжджають повз, будівлі та дерева довкола тощо. Люди опрацьовують цю інформацію завдяки певним генетичним перевагам та набутому досвіду. А алгоритми ImageBind створюють повноцінні сцени з реального життя на фрагментах даних із різних навчальних моделей.
Реалістичність та певна тривимірність – те, що вирізняє цей продукт з-поміж аналогів. Якщо ви попросите нейромережу Midjourney зобразити басет-гаунда в костюмі Гендальфа, який балансує на м’ячику для пляжного волейболу, то, ймовірно, отримаєте цілком реалістичне зображення смішного собачати. Але не більше.
Натомість ImageBind за аналогічним текстовим запитом створить повноцінне відео, як песик «котиться» верхи на м’ячі в певному оточенні, наповненому відповідними звуками та ефектами. Наприклад, на мальовничій сільській вуличці, що просто тоне у квітах та співі пташок. Або посеред дитячої кімнати з розкиданими іграшками та веселим сміхом. Розробники також стверджують, що кожна сцена відтворюється в логічній відеопослідовності, тобто так, який вигляд вона могла б мати в реальному житті.
Зараз ImageBind працює в шести модальностях: текст, зображення, відео, аудіо, теплові та інертні дані. Втім, в Meta не планують зупинятися на цьому. В перспективі розробники навчать штучний інтелект розпізнавати й імітувати дотик, аромат та навіть мозкові сигнали. Тобто майбутні моделі будуть ще більш орієнтованими на людину.
Ринок нерухомості стає все більш конкурентним. Розвиток нового комплексу – це не лише якісне будівництво,…
Податковий консультант Михайло Смокович розповів про базові правила й вимоги щодо заповнення призначення платежу для…
Голова податкового комітету ВРУ Данило Гетманцев знову звернув увагу на так званий «податок на OLX»…
Голова комітету Верховної Ради з питань фінансів, податкової та митної політики Данило Гетманцев повідомив, що…
Бути чесним про свої фінанси складніше, ніж зізнатися в коханні. Але саме ця чесність може…
Асоціація IT Ukraine оголосила склад нового AI-комітету. Це платформа для компаній з різних секторів української…