Nvidia создала нейросеть, которая по текстовым подсказкам генерирует видео высокого разрешения
NVIDIA VideoLDM collage
Компания Nvidia представила новый продукт на основе искусственного интеллекта под названием VideoLDM, который превращает текст в видеоролики высокого разрешения. В его создании также принимали участие исследователи из Корнеллского университета, пишет Tech News Space.
VideoLDM генерирует видео с разрешением до 2048×1280 пикселей и частотой 24 кадра. Искусственный интеллект использует в работе более четырех миллиардов параметров, однако на реальных видеороликах разработчики обучили примерно 2,7 млрд. Это достаточно скромно для современной индустрии ИИ. Но благодаря эффективному подходу к модели латентной диффузии (LDM) инженеры научили эту сеть создавать разнообразные и согласованные по времени ролики.
Среди особенностей нейросети следует выделить персонализированную генерацию видео и синтез временной свертки. Временные слои, используемые для преобразования текста в видео, встраиваются в опорные сети в наборе DreamBooth.
Еще одна изюминка – VideoLDM может создавать видеосцены вождения продолжительностью до 5 минут. Для этого достаточно выбрать исходное изображение и прописать характеристики интересной среды в текстовых подсказках. К слову, модель может делать мультимодальные прогнозы сценариев движения и генерировать несколько возможных миссий на основе одного первоначального кадра.
Нейросеть собираются презентовать на Конференции по машинному зрению и распознаванию образов, которая состоится 18–22 июня в Ванкувере, Канада. Пока это только исследовательский проект, когда он станет доступным общественности, еще не сообщают.