Разработчики Stable Diffusion представили искусственный интеллект, превращающий текст в музыку

Компания Stability AI, которая стала известной после релиза популярного генератора изображений с искусственным интеллектом Stable Diffusion, выпустила новый ИИ-продукт Stable Audio. Это платформа для преобразования текста в аудио. Редакция MC.today передает подробности со ссылкой на сайт компании.

Stable Audio использует диффузию, или ту же модель искусственного интеллекта, которая работает на более популярной платформе для создания изображений Stable Diffusion. Но ее учили не на картинках, а на большом массиве аудиозаписей.

Большинство похожих моделей искусственного интеллекта, как правило, генерируют достаточно короткие ролики с фиксированной длиной. Это не очень удобно для создателей, например, музыкальных треков, ведь их продолжительность может быть разной.

Курс Power Skills For Tech від Enlgish4IT.
Зменшіть кількість непорозумінь на робочому місці та станьте більш ефективним у спілкуванні в мультикультурній команді. Отримайте знижку 10% за промокодом ITCENG.
Реєстрація на курс

Stability AI нашла способ обойти подобные ограничения, а настройки модели теперь позволяют пользователям Stable Audio иметь больше контроля над тем, насколько длинной будет композиция.

«Мы продолжаем совершенствовать наши архитектуры моделей, наборы данных и протоколы обучения, чтобы улучшить качество воспроизведения, управляемость, скорость вывода и продолжительность трека», – сообщили в компании.

Для тренировки модели использовали более 800 тысяч аудиофайлов с музыкой, звуковыми эффектами, инструментальными композициями и текстовые метаданные от компании AudioSparx, которая лицензирует фондовую музыку. Stability AI утверждает, что получила необходимые разрешения на использование материалов, защищенных авторским правом. Учебный набор содержит более 19,5 тыс. часов звуков.

В бесплатной версии Stable Audio можно производить до 20 треков в месяц продолжительностью до 45 секунд. Подписка профессионального уровня стоит $11,99 в месяц. За эти деньги можно создать до пятисот 90-секундных треков. В тарифе Enterprise цену формируют в соответствии с потребностями пользователей.

В Stability AI считают, что новую платформу будут использовать прежде всего для создания фоновой музыки для подкастов или видео.

  • Ранее компания сообщила о планах расширять свое присутствие в области искусственного интеллекта, в частности, для создания аудио и видеоконтента. Интересно, что, несмотря на это, глава Stability AI Эмад Мостак предсказал исчезновение программистов-людей из-за ИИ и заявлял, что эта технология подорвет мировую экономику сильнее пандемии COVID-19.

Нещодавні статті

Power BI: какой курс выбрать для начинающих

Power BI (Business Intelligence) Microsoft – это не просто платформа для анализа данных, а ключевой…

15/01/2024

Лас-Вегас: удивительная история города азарта, мафии и головной боли для архитектора

Лас-Вегас — один из самых узнаваемых городов на планете, который ежегодно манит к себе миллионы…

24/11/2023

Более 800 раз. Пограничники подсчитали, сколько взяток им предлагали уклонисты

Из-за широкомасштабного вторжения россии в Украине было введено военное положение и объявлена ​​мобилизация. Военнообязанным мужчинам…

24/11/2023

На 100 отзывов – 100 отказов? Советы рекрутеров, как не терять мотивацию при поиске работы

«Вижу цель – не вижу препятствий». Знакомая фраза? Часто ею руководствуются кандидаты, ищущие работу мечты.…

24/11/2023

Открытый банкинг. В НБУ раскрыли детали предстоящего обмена данными между банками

Национальный банк Украины работает над открытым банкингом. Речь идет о структурированном и безопасном обмене данными…

24/11/2023

Финансовый консультант потратил более $4 млн своего клиента на азартные игры и недвижимость

В США финансовому консультанту предъявили обвинение в растрате около $5 млн, которые принадлежали его клиенту.…

24/11/2023