OpenAI запустила сайт для озвучування текстів – що за можливості він пропонує та як спробувати

Компанія OpenAI запустила сайт, який дає можливість безплатно озвучувати тексти. Ба більше – система дозволяє обирати з-поміж низки налаштувань те, як звучатиме голос, який робитиме начитування.

OpenAI повідомила про запуск нових генеративних аудіомоделей у своєму блозі. Йдеться про gpt-4o-transcribe і gpt-4o-mini-transcribe, які забезпечують реалістичніше звучання мовлення і водночас є керованішими за моделі синтезу мовлення попереднього покоління. Розробники можуть інструктувати їх про те, як говорити речі природною мовою – наприклад, «говорити як божевільний учений» або «використовувати спокійний голос, як учитель».

Наприклад, ось витриманий голос у «справжньому кримінальному стилі»:

А це зразок жіночого «професійного» голосу:

Читайте також: ШІ ближче, ніж ми думаємо? OpenAI інтегрує ChatGPT в робочі простори Google Drive та Slack

У компанії стверджують, що нові генеративні моделі припускаються меншої кількості помилок та можуть відтворювати мовлення навіть за так званих складних умов. Наприклад, на різній швидкості, з акцентом або ж в умовах галасливого середовища.

«Моделі базуються на архітектурах GPT‑4o та GPT‑4o-mini та проходять широку попередню підготовку на основі спеціалізованих аудіоцентричних наборів даних, які були критично важливими для оптимізації їхньої продуктивності. Цей підхід забезпечує глибше розуміння нюансів мовлення та забезпечує виняткову ефективність у завданнях, пов’язаних зі звуком», – йдеться у блозі.

Нові gpt-4o-transcribe і gpt-4o-mini-transcribe створили для того, щоби покращити досвід взаємодії користувачів із ШІ та зробити озвучування наближенішим до реального спілкування. Їх можна також інтегрувати в різні застосунки й сервіси.

Розробники можуть користуватися gpt-4o-transcribe і gpt-4o-mini-transcribe через API, але спробувати можуть усі охочі – для цього достатньо перейти на сайт openai.fm.

Скриншот: openai.fm

«Ми плануємо продовжувати інвестувати в покращення інтелекту і точності наших аудіомоделей і досліджувати способи, які дозволять розробникам додавати також власні голоси для створення ще персоналізованішого досвіду відповідно до наших стандартів безпеки», – підсумували в OpenAI. 

А тут ви можете прослухати, як звучить останній абзац голосом «божевільного вченого» в режимі Ballad.

  • Раніше ми переповідали, що OpenAI представила нову функцію Deep Research. Кому вона знадобиться та як скористатись – можна прочитати тут.

Нещодавні статті

Genesis Academy запускає безплатний онлайн-курс для ШІ-креаторів. Як долучитись

Genesis Academy запускає безплатний освітній проєкт для ШІ-креаторів. Вони навчаться створювати сценарії та креативи за…

30/05/2025

Ліміти на карткові перекази ще знизяться. Що потрібно знати українцям про зміни з 1 червня

З 1 червня в Україні посилюються обмеження на карткові перекази коштів та через реквізити IBAN.…

30/05/2025

Штучний інтелект для HR: загроза професії або крок до її еволюції? Колонка за підсумками «Своє.IT»

Майбутнє HR виглядає як симбіоз технологій та людяності. Процеси найму дедалі більше рухаються у бік…

30/05/2025

Програміст MacPaw запустив власний застосунок. Як працює Huusion

Senior Research Engineer в українській MacPaw Євгеній Петелієв запустив фоторедактор Huusion. Він зазначив, що застосунок…

30/05/2025

«Подекуди може йтися навіть про зменшення». Як можуть змінитися податки після вступу до ЄС – Гетманцев

Голова комітету ВРУ з питань фінансів, податкової та митної політики Данило Гетманцев розповів, як можуть…

30/05/2025

Бар’єр для входу високий. CEO Genesis розповів, що потрібно для початку власного ІТ-бізнесу

Співзасновник і CEO Genesis Володимир Многолєтній розповів, що потрібно для того, аби почати власну справу…

30/05/2025