Dirty hands holding an old bible. Very short depth-of-field
Днями компанія Meta презентувала нову модель штучного інтелекту з відкритим кодом, яка розпізнає понад 4 тисячі мов. Щоправда, для перетворення тексту на мовлення, тобто озвучування фраз, вона користується тільки 1,1 тис. з них. Ще одна цікава деталь – розробники навчають модель на Біблії та інших релігійних текстах, йдеться в блозі компанії. Редакція MC.today переповідає подробиці.
Новий штучний інтелект Meta отримав назву Massively Multilingual Speech (MMS). Першим завданням розробників стало суттєве розширення мовного потенціалу ШІ. До появи MMS навіть найсучасніші моделі налічували щонайбільше 100 мов. Проте цього було недостатньо, щоби забезпечити користувачам доступ до інформації та пристроїв у найбільш зручний та природний спосіб.
Сьогодні у світі існує понад 7 тисяч «живих» мов, втім, багато з них можуть зникнути вже в недалекому майбутньому. Оскільки Meta створювала мультилінгвістичний штучний інтелект, він міг допомогти зберегти деякі з них.
Це означало, що для навчання потрібно було використовувати масиви інформації, доступні якомога більшою кількістю мов. Якщо задуматися, то з-поміж усіх книг, які існують у світі, найбільш прочитуваними були й будуть релігійні, як-от Біблія, Коран, Тора та інші. До того ж саме їх свого часу переклали ледь не всіма мовами світу.
Наприклад, начитування блоку навчальних даних, який включав релігійні історії, уривки зі священних книг, слова пісень та молитов тощо, використали більш як 6,2 тис. діалектів. Тільки аудіозаписи Нового Заповіту навчили MMS розпізнавати текстові повідомлення 1,1 тис. мов та відтворювати їх голосом.
Втім, досі постає питання, наскільки «нормально» використовувати релігійні матеріали для тренування штучного інтелекту. В Meta повідомили, що заздалегідь консультувалися з експертами, зокрема, з християнської етики. На їхню думку, більшість християн, наприклад, не вважає Новий Заповіт та його переклади занадто священними для машинного навчання.
Ще одна можлива проблема використання релігійних текстів для тренування ШІ – ризик того, що штучний інтелект може сформувати погляд на світ, що базується саме на них. Розробники провели додаткові тести та дійшли висновку, що упередженість MMS незначна в порівнянні з моделями, які навчали на даних з інших галузей.
В DOU провели опитування серед українських ІТ-фахівців і визначили найвищі зарплати в Україні та за…
«Київстар» планує отримувати 10% доходу не від телекомунікаційних послуг, а далі – збільшити такий дохід…
Необанк monobank випустив новий напій у колаборації із «Живчиком». Відсканувавши QR-код на банці можна також…
Айтівець і начальник Управління ІТ Міністерства оборони України Олег Берестовий іде з посади. На цій…
Транснаціональна компанія Visa запустила в Україні технологію, що дозволяє підтверджувати онлайн-покупки за допомогою біометрії –…
Очільник Міністерства цифрової трансформації Михайло Федоров повідомив, скільки податків сплатили резиденти «Дія.City» в І кварталі…