Даже эмоции и тон. ИИ от Microsoft может имитировать любой голос по трехсекундному образцу
Корпорация Microsoft разработала новую модель искусственного интеллекта для преобразования текста в речь под названием VALL-E. ИИ может имитировать голос человека из 3-секундного образца. Об этом со ссылкой на ArsTechnica пишет MC.today.

Отмечается, что VALL-E распознает голос и синтезирует аудио. Созданный звук имитирует не только тембр голоса человека, но и его эмоциональный тон и акустику комнаты.
Модель ИИ обучали на 60 тыс. часов аудиозаписей речи более 7 тыс. говорящих на английском языке. Для этого использовали аудиотеку Meta LibriLight.
Для имитации голоса требуется трехсекундный образец речи человека, а также текст, который нужно превратить в аудиоформат. Голос, который VALL-E пытается имитировать, должен быть близок к голосу из образцов. Тогда ИИ использует учебные данные, чтобы сделать вывод, как бы звучал голос человека при озвучивании указанного текста.
Microsoft не предоставила код VALL-E, поэтому нельзя самостоятельно проверить работу ИИ. Это связано с тем, что поддельный голос можно использовать в незаконных целях. Например, злоумышленники могут подделать голосовую идентификацию или выдать себя за конкретного говорящего.
Хотя компания не опубликовала код, на GitHub есть результаты работы модели ИИ. С ними можно ознакомиться по ссылке. Спойлер: некоторые голоса звучат очень реалистично, а некоторые наоборот – сразу заметно, что это компьютерный голос. Также VALL-E удалось хорошо имитировать интонацию говорящего и акустику помещения.
Раньше мы рассказывали о нейросети, генерирующей музыку из текста. В отличие от разработки Microsoft, «музыкальной» нейросетью может воспользоваться каждый желающий
Сообщить об опечатке
Текст, который будет отправлен нашим редакторам: