logo

Механізм для міркування в реальному часі: як українець створив AI-агента, який Nvidia подала на патентування

Юлія Фещенко
Редакторка MC: Money & Career
Розкажіть про статтю:

Українець Станіслав Підгаєцький – інноватор у Nvidia. Нещодавно він розробив AI-агента, якого компанія подала на патентування. «Це серйозний процес. Усе почалося з доведення новизни: це перша система, яка використовує LLM для діагностики складних поломок GPU серверів та для автономних дій», – говорить Станіслав. Про ідею розробки, чому вона стала одним з найбільших викликів у його кар’єрі і в чому магія цього проєкту – Підгаєцький розповів на прохання MC: Money & Career.

Senior Site Reliability Engineer у Nvidia Станіслав Підгаєцький розробив AI-агента, який робить те саме, що й інженер, але в режимі реального часу – компанія подала його на патентування. Фото: Станіслав ПідгаєцькийSenior Site Reliability Engineer у Nvidia Станіслав Підгаєцький розробив AI-агента, який робить те саме, що й інженер, але в режимі реального часу – компанія подала його на патентування. Фото: Станіслав Підгаєцький

«Цей проєкт народився з мого щоденного “болю”»

У Nvidia я відповідаю за надійність гігантських GPU-кластерів, на яких розробляється AI. Коли в такому кластері виходить із ладу один GPU-вузол – це велика проблема, яка може змарнувати години роботи. Традиційні системи моніторингу показують лише симптоми, і ручна діагностика займає в середньому 57 хвилин. Це був величезний операційний тягар, який поступово трансформувався в просту ідею: автоматизувати цю роботу. Фактично цей проєкт народився з мого щоденного «болю» як Senior Site Reliability Engineer (SRE).

Я розробив AI-агента, який робить те саме, що й інженер, але в режимі реального часу. Коли трапляється збій, агент миттєво збирає дані з трьох джерел (логи, телеметрія, Kubernetes) і використовує LLM, щоб знайти корінну причину.

На цей час розробка в повному продакшені. Ми протестували його на 250 реальних інцидентах на GPU-кластерах Nvidia. І результати вражають: агент скоротив середній час діагностики з 57 хвилин до 18,7 секунд. Це в 183 рази швидше. Але головне – ця швидкість дає змогу перейти від реакції до дії: агент автоматично ізолює несправний вузол, запобігаючи новим збоям.

На основі цієї інновації Nvidia подала попередню патентну заявку США. Це серйозний процес. Усе почалося з доведення новизни: це перша система, яка використовує LLM для діагностики складних поломок GPU серверів та для автономних дій. Одночасно я оформив ці результати в наукову публікацію, яка наразі проходить процес рецензування.

«Я прийшов до команди не зі словами “дивіться, як швидко він працює”, а з даними»

Зараз, коли ми вже бачимо результати, все має доволі простий та зрозумілий вигляд. Проте розробка цього AI-агента стала, мабуть, найскладнішим професійним викликом.

Цікаво, що складність була не технічною. Технічний виклик (побудувати систему, яка працює в 183 рази швидше) був зрозумілий.

Справжній, найбільший виклик був психологічним та організаційним: як змусити команду досвідчених SRE-інженерів довіритися цьому AI-агенту? Як переконати їх дати «зелене світло» системі, яка буде автоматично ізолювати («кордонити») багатотисячні сервери без участі людини?

У нашій справі (SRE) ціна помилки – величезна. Якщо агент хоч раз помилково виведе з ладу здоровий вузол, це підірве довіру до всієї автоматизації на роки. Ніхто б не погодився на такий ризик.

Я зрозумів, що маю оптимізувати систему не під швидкість, а під 100% безпеку та довіру. Я не намагався змусити агента розв’язати 100% усіх проблем. Замість цього я сфокусувався на тому, щоб у тих випадках, коли він береться за проблему, його точність була ідеальною.

Ми провели глибокий аналіз на 200 реальних інцидентах. І ми знайшли «золоту середину»: поріг впевненості у 80%. Мій аналіз показав, що на цьому рівні агент досягав 100% точності, тобто мав нуль хибних спрацьовувань.

Це стало моїм головним аргументом. Я прийшов до команди не зі словами «дивіться, як швидко він працює», а з даними: «дивіться, він жодного разу не помилився і не ізолював здоровий вузол».

І в цьому полягає мій найцінніший урок: В інженерії, особливо в автономних AI-системах, ваш головний продукт – це не код і не швидкість. Ваш головний продукт – це довіра. Ви маєте не просто побудувати інструмент, ви маєте надати неспростовні, засновані на даних докази, чому цьому інструменту можна довіряти найкритичніші системи.

Цей проєкт навчив мене, що найбільші інженерні виклики – не технічні, а людські.

Хоча й технічно на прикладі цього проєкту було чого повчитися – із цього погляду я зробив два ключові висновки:

  • «Магія» – не в самій LLM, а в синтезі даних. Моє дослідження (ablation study) довело, що лише на логах точність була 67%. Але коли агент поєднував логи з апаратною телеметрією, точність сягала 92% – на рівні людини-експерта.
  • В автономних системах швидкість – це головне, що дає змогу діяти. 18-секундна діагностика дозволяє запобігти майбутнім збоям, тоді як 57-хвилинна дозволяє лише аналізувати минулі.

Звичайно, очікування від мого AI-агента доволі високі. Насамперед він має позитивно вплинути на всю індустрію. Фактично це готові «креслення» для AIOps-індустрії, як будувати автономні, самовідновлювані системи (self-healing infrastructure).

Найбільший обмежувальний фактор у AI-революції – це вартість та надійність GPU-інфраструктури. Мій агент безпосередньо підвищує капітальну ефективність (capital efficiency) та надійність цих критичних AI-кластерів. Це означає менше змарнованого часу та грошей і, як наслідок, прискорення інновацій – насамперед у технологічному розвитку США.

Нарешті, розробка дає перевірену модель використання LLM не як «чорної скриньки», а як потужного «механізму для міркування» в реальному часі – це має неабияке значення для міжнародної спільноти інженерів.

  • Нагадаємо, раніше Станіслав Підгаєцький розповів, з чого починався його кар’єрний шлях, як він став інноватором в найдорожчій компанії світу, які підходи з українського IT допомогли в цьому і що довелося змінити.

Повідомити про помилку

Текст, який буде надіслано нашим редакторам: