Искусственный интеллект14.09.2023 14:52

Разработчики Stable Diffusion представили искусственный интеллект, превращающий текст в музыку

Редакторка MC.today

Компания Stability AI, которая стала известной после релиза популярного генератора изображений с искусственным интеллектом Stable Diffusion, выпустила новый ИИ-продукт Stable Audio. Это платформа для преобразования текста в аудио. Редакция MC.today передает подробности со ссылкой на сайт компании.

Robot Plays the Piano. 3d Illustration

Stable Audio использует диффузию, или ту же модель искусственного интеллекта, которая работает на более популярной платформе для создания изображений Stable Diffusion. Но ее учили не на картинках, а на большом массиве аудиозаписей.

Stable Audio: Crafting Music with AI Just Got Simpler!
🔊🆙
Stable Audio by Stability AI is the new go-to tool for AI music and sound generation. It’s incredibly user-friendly, allowing you to create captivating tunes in no time.

Training Data: The first model is trained on… pic.twitter.com/OmvafUAiqr

— AshutoshShrivastava (@ai_for_success) September 14, 2023

Гроші, кар’єра та інвестиції
Читати у Telegram

Большинство похожих моделей искусственного интеллекта, как правило, генерируют достаточно короткие ролики с фиксированной длиной. Это не очень удобно для создателей, например, музыкальных треков, ведь их продолжительность может быть разной.

Stability AI нашла способ обойти подобные ограничения, а настройки модели теперь позволяют пользователям Stable Audio иметь больше контроля над тем, насколько длинной будет композиция.

Wow, After Stable diffusion, StableLM, StableCode, now StableAudio!! @StabilityAI is just so awesome! Is there a way to contribute to the development?

pic.twitter.com/7jYK0oOcsC

— Jibin Mathew (@jibinmathew_69) September 14, 2023

«Мы продолжаем совершенствовать наши архитектуры моделей, наборы данных и протоколы обучения, чтобы улучшить качество воспроизведения, управляемость, скорость вывода и продолжительность трека», – сообщили в компании.

Для тренировки модели использовали более 800 тысяч аудиофайлов с музыкой, звуковыми эффектами, инструментальными композициями и текстовые метаданные от компании AudioSparx, которая лицензирует фондовую музыку. Stability AI утверждает, что получила необходимые разрешения на использование материалов, защищенных авторским правом. Учебный набор содержит более 19,5 тыс. часов звуков.

Stable Audio: text-to-music generation by @StabilityAI

Try it out now! →https://t.co/z8XD6j3NXx

How does it work? ↓ pic.twitter.com/zZHFtAjW2p

— Tanishq Mathew Abraham, PhD (@iScienceLuvr) September 13, 2023

В бесплатной версии Stable Audio можно производить до 20 треков в месяц продолжительностью до 45 секунд. Подписка профессионального уровня стоит $11,99 в месяц. За эти деньги можно создать до пятисот 90-секундных треков. В тарифе Enterprise цену формируют в соответствии с потребностями пользователей.

В Stability AI считают, что новую платформу будут использовать прежде всего для создания фоновой музыки для подкастов или видео.

Ранее компания сообщила о планах расширять свое присутствие в области искусственного интеллекта, в частности, для создания аудио и видеоконтента. Интересно, что, несмотря на это, глава Stability AI Эмад Мостак предсказал исчезновение программистов-людей из-за ИИ и заявлял, что эта технология подорвет мировую экономику сильнее пандемии COVID-19.