Nvidia создала нейросеть, которая по текстовым подсказкам генерирует видео высокого разрешения
Компания Nvidia представила новый продукт на основе искусственного интеллекта под названием VideoLDM, который превращает текст в видеоролики высокого разрешения. В его создании также принимали участие исследователи из Корнеллского университета, пишет Tech News Space.

2. NVIDIA's text-to-video paper
NVIDIA just dropped a new research paper on creating high-quality short videos from text prompts.
It uses Video Latent Diffusion Models (Video LDMs), which work efficiently without using too much computing power. pic.twitter.com/qisCRI1kQR
— Rowan Cheung (@rowancheung) April 20, 2023
VideoLDM генерирует видео с разрешением до 2048×1280 пикселей и частотой 24 кадра. Искусственный интеллект использует в работе более четырех миллиардов параметров, однако на реальных видеороликах разработчики обучили примерно 2,7 млрд. Это достаточно скромно для современной индустрии ИИ. Но благодаря эффективному подходу к модели латентной диффузии (LDM) инженеры научили эту сеть создавать разнообразные и согласованные по времени ролики.
JUST IN: NVIDIA dropped new text-to-video research.
While still far from Hollywood quality, it's pretty damn impressive how fast this is moving.
"a storm trooper vacuuming a beach" pic.twitter.com/nNbZU8c0Ir
— Pete (@nonmayorpete) April 19, 2023
Среди особенностей нейросети следует выделить персонализированную генерацию видео и синтез временной свертки. Временные слои, используемые для преобразования текста в видео, встраиваются в опорные сети в наборе DreamBooth.
Incredible progress happening with Text-to-Video.
Here's a compilation of clips from NVIDIA's latest Text-to-Video model.
All clips made using short one line prompts. pic.twitter.com/v80sDdFDuO— Smoke-away (@SmokeAwayyy) April 19, 2023
Еще одна изюминка – VideoLDM может создавать видеосцены вождения продолжительностью до 5 минут. Для этого достаточно выбрать исходное изображение и прописать характеристики интересной среды в текстовых подсказках. К слову, модель может делать мультимодальные прогнозы сценариев движения и генерировать несколько возможных миссий на основе одного первоначального кадра.
This road doesn't exist.
Those cars aren't real.
Just NVIDIA AI things. pic.twitter.com/AbrnY8s4YP— Smoke-away (@SmokeAwayyy) April 20, 2023
Нейросеть собираются презентовать на Конференции по машинному зрению и распознаванию образов, которая состоится 18–22 июня в Ванкувере, Канада. Пока это только исследовательский проект, когда он станет доступным общественности, еще не сообщают.
NVIDIA has made a huge leap in text-to-video capabilities.
What's noteworthy is that they were able to achieve high res (1280×2048) and high frame rate with Video Latent Diffusion Models (Video LDMs) pic.twitter.com/8rhpzgdLbm
— Roberto Nickson (@rpnickson) April 19, 2023
- К слову, Nvidia скоро может потерять важного клиента. Ранее мы рассказывали, что Microsoft создала суперкомпьютер за сотни миллионов долларов для разработки ChatGPT с использованием чипов производства этой компании. Недавно стало известно, что теперь она работает над собственными аналогами.
Сообщить об опечатке
Текст, который будет отправлен нашим редакторам: