Що відбувається20.04.2023 17:16

Nvidia створила нейромережу, яка за текстовими підказками генерує відео високої роздільної здатності

Редакторка MC: Money & Career

Компанія Nvidia презентувала новий продукт на основі штучного інтелекту під назвою VideoLDM, який перетворює текст на відеоролики високої роздільної здатності. В його створенні також брали участь дослідники з Корнелльського університету, пише Tech News Space.

NVIDIA VideoLDM collage

2. NVIDIA's text-to-video paper

NVIDIA just dropped a new research paper on creating high-quality short videos from text prompts.

It uses Video Latent Diffusion Models (Video LDMs), which work efficiently without using too much computing power. pic.twitter.com/qisCRI1kQR

— Rowan Cheung (@rowancheung) April 20, 2023

VideoLDM генерує відео з роздільною здатністю до 2048×1280 пікселів та частотою 24 кадри. Штучний інтелект використовує в роботі понад чотири мільярди параметрів, проте на реальних відеороликах розробники навчили приблизно 2,7 млрд. Це досить скромно для сучасної індустрії ШІ. Втім, завдяки ефективному підходу до моделі латентної дифузії (LDM) інженери навчили цю нейромережу створювати різноманітні та узгоджені за часом ролики.

JUST IN: NVIDIA dropped new text-to-video research.

While still far from Hollywood quality, it's pretty damn impressive how fast this is moving.

"a storm trooper vacuuming a beach" pic.twitter.com/nNbZU8c0Ir

— Pete (@nonmayorpete) April 19, 2023

З-поміж особливостей нейромережі варто виокремити персоналізовану генерацію відео та синтез тимчасової згортки. Тимчасові шари, які використовуються для перетворення тексту у відео, вбудовуються в опорні мережі в наборі зображень DreamBooth.

Incredible progress happening with Text-to-Video.
Here's a compilation of clips from NVIDIA's latest Text-to-Video model.
All clips made using short one line prompts. pic.twitter.com/v80sDdFDuO

— Smoke-away (@SmokeAwayyy) April 19, 2023

Ще одна родзинка – VideoLDM може створювати відеосцени водіння тривалістю до 5 хвилин. Для цього достатньо обрати вихідне зображення та прописати характеристики цікавого середовища в текстових підказках. До речі, модель може робити мультимодальні прогнози сценаріїв руху та генерувати кілька вірогідних місій на основі одного початкового кадру.

This road doesn't exist.
Those cars aren't real.
Just NVIDIA AI things. pic.twitter.com/AbrnY8s4YP

— Smoke-away (@SmokeAwayyy) April 20, 2023

Нейромережу презентують на Конференції з машинного зору та розпізнавання образів, яка відбудеться 18–22 червня у Ванкувері, Канада. Поки що це лише дослідницький проєкт, коли він стане доступним громадськості, ще не повідомляють.

NVIDIA has made a huge leap in text-to-video capabilities.

What's noteworthy is that they were able to achieve high res (1280×2048) and high frame rate with Video Latent Diffusion Models (Video LDMs) pic.twitter.com/8rhpzgdLbm

— Roberto Nickson (@rpnickson) April 19, 2023

До речі, Nvidia скоро може втратити важливого клієнта. Раніше ми розповідали, що Microsoft створила суперкомп’ютер за сотні мільйонів доларів для розробки ChatGPT з використанням чипів виробництва цієї компанії. Нещодавно стало відомо, що тепер вона працює над власними аналогами.