Искусственный интеллект14.09.2023 14:52

Разработчики Stable Diffusion представили искусственный интеллект, превращающий текст в музыку

Редакторка MC.today

Robot Plays the Piano. 3d Illustration

Компания Stability AI, которая стала известной после релиза популярного генератора изображений с искусственным интеллектом Stable Diffusion, выпустила новый ИИ-продукт Stable Audio. Это платформа для преобразования текста в аудио. Редакция MC.today передает подробности со ссылкой на сайт компании.

[social_blue social="telegram"]

Stable Audio использует диффузию, или ту же модель искусственного интеллекта, которая работает на более популярной платформе для создания изображений Stable Diffusion. Но ее учили не на картинках, а на большом массиве аудиозаписей.

Большинство похожих моделей искусственного интеллекта, как правило, генерируют достаточно короткие ролики с фиксированной длиной. Это не очень удобно для создателей, например, музыкальных треков, ведь их продолжительность может быть разной.

Stability AI нашла способ обойти подобные ограничения, а настройки модели теперь позволяют пользователям Stable Audio иметь больше контроля над тем, насколько длинной будет композиция.

«Мы продолжаем совершенствовать наши архитектуры моделей, наборы данных и протоколы обучения, чтобы улучшить качество воспроизведения, управляемость, скорость вывода и продолжительность трека», – сообщили в компании.

Для тренировки модели использовали более 800 тысяч аудиофайлов с музыкой, звуковыми эффектами, инструментальными композициями и текстовые метаданные от компании AudioSparx, которая лицензирует фондовую музыку. Stability AI утверждает, что получила необходимые разрешения на использование материалов, защищенных авторским правом. Учебный набор содержит более 19,5 тыс. часов звуков.

В бесплатной версии Stable Audio можно производить до 20 треков в месяц продолжительностью до 45 секунд. Подписка профессионального уровня стоит $11,99 в месяц. За эти деньги можно создать до пятисот 90-секундных треков. В тарифе Enterprise цену формируют в соответствии с потребностями пользователей.

В Stability AI считают, что новую платформу будут использовать прежде всего для создания фоновой музыки для подкастов или видео.

Ранее компания сообщила о планах расширять свое присутствие в области искусственного интеллекта, в частности, для создания аудио и видеоконтента. Интересно, что, несмотря на это, глава Stability AI Эмад Мостак предсказал исчезновение программистов-людей из-за ИИ и заявлял, что эта технология подорвет мировую экономику сильнее пандемии COVID-19.

искусственный интеллект ШІ