Механізм для міркування в реальному часі: як українець створив AI-агента, який Nvidia подала на патентування
Senior Site Reliability Engineer у Nvidia Станіслав Підгаєцький розробив AI-агента, який робить те саме, що й інженер, але в режимі реального часу – компанія подала його на патентування. Фото: Станіслав Підгаєцький
Українець Станіслав Підгаєцький – інноватор у Nvidia. Нещодавно він розробив AI-агента, якого компанія подала на патентування. «Це серйозний процес. Усе почалося з доведення новизни: це перша система, яка використовує LLM для діагностики складних поломок GPU серверів та для автономних дій», – говорить Станіслав. Про ідею розробки, чому вона стала одним з найбільших викликів у його кар’єрі і в чому магія цього проєкту – Підгаєцький розповів на прохання MC: Money & Career.
«Цей проєкт народився з мого щоденного “болю”»
У Nvidia я відповідаю за надійність гігантських GPU-кластерів, на яких розробляється AI. Коли в такому кластері виходить із ладу один GPU-вузол – це велика проблема, яка може змарнувати години роботи. Традиційні системи моніторингу показують лише симптоми, і ручна діагностика займає в середньому 57 хвилин. Це був величезний операційний тягар, який поступово трансформувався в просту ідею: автоматизувати цю роботу. Фактично цей проєкт народився з мого щоденного «болю» як Senior Site Reliability Engineer (SRE).
Я розробив AI-агента, який робить те саме, що й інженер, але в режимі реального часу. Коли трапляється збій, агент миттєво збирає дані з трьох джерел (логи, телеметрія, Kubernetes) і використовує LLM, щоб знайти корінну причину.
На цей час розробка в повному продакшені. Ми протестували його на 250 реальних інцидентах на GPU-кластерах Nvidia. І результати вражають: агент скоротив середній час діагностики з 57 хвилин до 18,7 секунд. Це в 183 рази швидше. Але головне – ця швидкість дає змогу перейти від реакції до дії: агент автоматично ізолює несправний вузол, запобігаючи новим збоям.
На основі цієї інновації Nvidia подала попередню патентну заявку США. Це серйозний процес. Усе почалося з доведення новизни: це перша система, яка використовує LLM для діагностики складних поломок GPU серверів та для автономних дій. Одночасно я оформив ці результати в наукову публікацію, яка наразі проходить процес рецензування.
«Я прийшов до команди не зі словами “дивіться, як швидко він працює”, а з даними»
Зараз, коли ми вже бачимо результати, все має доволі простий та зрозумілий вигляд. Проте розробка цього AI-агента стала, мабуть, найскладнішим професійним викликом.
Цікаво, що складність була не технічною. Технічний виклик (побудувати систему, яка працює в 183 рази швидше) був зрозумілий.
Справжній, найбільший виклик був психологічним та організаційним: як змусити команду досвідчених SRE-інженерів довіритися цьому AI-агенту? Як переконати їх дати «зелене світло» системі, яка буде автоматично ізолювати («кордонити») багатотисячні сервери без участі людини?
У нашій справі (SRE) ціна помилки – величезна. Якщо агент хоч раз помилково виведе з ладу здоровий вузол, це підірве довіру до всієї автоматизації на роки. Ніхто б не погодився на такий ризик.
Я зрозумів, що маю оптимізувати систему не під швидкість, а під 100% безпеку та довіру. Я не намагався змусити агента розв’язати 100% усіх проблем. Замість цього я сфокусувався на тому, щоб у тих випадках, коли він береться за проблему, його точність була ідеальною.
Ми провели глибокий аналіз на 200 реальних інцидентах. І ми знайшли «золоту середину»: поріг впевненості у 80%. Мій аналіз показав, що на цьому рівні агент досягав 100% точності, тобто мав нуль хибних спрацьовувань.
Це стало моїм головним аргументом. Я прийшов до команди не зі словами «дивіться, як швидко він працює», а з даними: «дивіться, він жодного разу не помилився і не ізолював здоровий вузол».
І в цьому полягає мій найцінніший урок: В інженерії, особливо в автономних AI-системах, ваш головний продукт – це не код і не швидкість. Ваш головний продукт – це довіра. Ви маєте не просто побудувати інструмент, ви маєте надати неспростовні, засновані на даних докази, чому цьому інструменту можна довіряти найкритичніші системи.
Цей проєкт навчив мене, що найбільші інженерні виклики – не технічні, а людські.
Хоча й технічно на прикладі цього проєкту було чого повчитися – із цього погляду я зробив два ключові висновки:
- «Магія» – не в самій LLM, а в синтезі даних. Моє дослідження (ablation study) довело, що лише на логах точність була 67%. Але коли агент поєднував логи з апаратною телеметрією, точність сягала 92% – на рівні людини-експерта.
- В автономних системах швидкість – це головне, що дає змогу діяти. 18-секундна діагностика дозволяє запобігти майбутнім збоям, тоді як 57-хвилинна дозволяє лише аналізувати минулі.
Звичайно, очікування від мого AI-агента доволі високі. Насамперед він має позитивно вплинути на всю індустрію. Фактично це готові «креслення» для AIOps-індустрії, як будувати автономні, самовідновлювані системи (self-healing infrastructure).
Найбільший обмежувальний фактор у AI-революції – це вартість та надійність GPU-інфраструктури. Мій агент безпосередньо підвищує капітальну ефективність (capital efficiency) та надійність цих критичних AI-кластерів. Це означає менше змарнованого часу та грошей і, як наслідок, прискорення інновацій – насамперед у технологічному розвитку США.
Нарешті, розробка дає перевірену модель використання LLM не як «чорної скриньки», а як потужного «механізму для міркування» в реальному часі – це має неабияке значення для міжнародної спільноти інженерів.
- Нагадаємо, раніше Станіслав Підгаєцький розповів, з чого починався його кар’єрний шлях, як він став інноватором в найдорожчій компанії світу, які підходи з українського IT допомогли в цьому і що довелося змінити.