Что происходит10.01.2023 18:59

Даже эмоции и тон. ИИ от Microsoft может имитировать любой голос по трехсекундному образцу

Авторка новин MC: Money & Career

Корпорация Microsoft разработала новую модель искусственного интеллекта для преобразования текста в речь под названием VALL-E. ИИ может имитировать голос человека из 3-секундного образца. Об этом со ссылкой на ArsTechnica пишет MC.today.

Отмечается, что VALL-E распознает голос и синтезирует аудио. Созданный звук имитирует не только тембр голоса человека, но и его эмоциональный тон и акустику комнаты.

Модель ИИ обучали на 60 тыс. часов аудиозаписей речи более 7 тыс. говорящих на английском языке. Для этого использовали аудиотеку Meta LibriLight.

Для имитации голоса требуется трехсекундный образец речи человека, а также текст, который нужно превратить в аудиоформат. Голос, который VALL-E пытается имитировать, должен быть близок к голосу из образцов. Тогда ИИ использует учебные данные, чтобы сделать вывод, как бы звучал голос человека при озвучивании указанного текста.

Microsoft не предоставила код VALL-E, поэтому нельзя самостоятельно проверить работу ИИ. Это связано с тем, что поддельный голос можно использовать в незаконных целях. Например, злоумышленники могут подделать голосовую идентификацию или выдать себя за конкретного говорящего.

Хотя компания не опубликовала код, на GitHub есть результаты работы модели ИИ. С ними можно ознакомиться по ссылке. Спойлер: некоторые голоса звучат очень реалистично, а некоторые наоборот – сразу заметно, что это компьютерный голос. Также VALL-E удалось хорошо имитировать интонацию говорящего и акустику помещения.

Раньше мы рассказывали о нейросети, генерирующей музыку из текста. В отличие от разработки Microsoft, «музыкальной» нейросетью может воспользоваться каждый желающий

Microsoft