Разработчики Stable Diffusion представили искусственный интеллект, превращающий текст в музыку
Robot Plays the Piano. 3d Illustration
Компания Stability AI, которая стала известной после релиза популярного генератора изображений с искусственным интеллектом Stable Diffusion, выпустила новый ИИ-продукт Stable Audio. Это платформа для преобразования текста в аудио. Редакция MC.today передает подробности со ссылкой на сайт компании.
[social_blue social="telegram"]Stable Audio использует диффузию, или ту же модель искусственного интеллекта, которая работает на более популярной платформе для создания изображений Stable Diffusion. Но ее учили не на картинках, а на большом массиве аудиозаписей.
Большинство похожих моделей искусственного интеллекта, как правило, генерируют достаточно короткие ролики с фиксированной длиной. Это не очень удобно для создателей, например, музыкальных треков, ведь их продолжительность может быть разной.
Stability AI нашла способ обойти подобные ограничения, а настройки модели теперь позволяют пользователям Stable Audio иметь больше контроля над тем, насколько длинной будет композиция.
«Мы продолжаем совершенствовать наши архитектуры моделей, наборы данных и протоколы обучения, чтобы улучшить качество воспроизведения, управляемость, скорость вывода и продолжительность трека», – сообщили в компании.
Для тренировки модели использовали более 800 тысяч аудиофайлов с музыкой, звуковыми эффектами, инструментальными композициями и текстовые метаданные от компании AudioSparx, которая лицензирует фондовую музыку. Stability AI утверждает, что получила необходимые разрешения на использование материалов, защищенных авторским правом. Учебный набор содержит более 19,5 тыс. часов звуков.
В бесплатной версии Stable Audio можно производить до 20 треков в месяц продолжительностью до 45 секунд. Подписка профессионального уровня стоит $11,99 в месяц. За эти деньги можно создать до пятисот 90-секундных треков. В тарифе Enterprise цену формируют в соответствии с потребностями пользователей.
В Stability AI считают, что новую платформу будут использовать прежде всего для создания фоновой музыки для подкастов или видео.
- Ранее компания сообщила о планах расширять свое присутствие в области искусственного интеллекта, в частности, для создания аудио и видеоконтента. Интересно, что, несмотря на это, глава Stability AI Эмад Мостак предсказал исчезновение программистов-людей из-за ИИ и заявлял, что эта технология подорвет мировую экономику сильнее пандемии COVID-19.