Nvidia показала систему для навчання роботів

Дослідники Nvidia, Carnegie Mellon University і Каліфорнійського університету в Берклі представили ENPIRE — фреймворк, який дозволяє ШІ-агентам для програмування покращувати політики керування роботами на реальному обладнанні.
Система запускає замкнений цикл: робот виконує завдання, середовище автоматично оцінює результат і повертається у вихідний стан, а ШІ-агент аналізує помилки, переписує код і запускає наступну серію випробувань.
Як працює ENPIRE
У робототехніці навчання на реальному обладнанні залишається дорогим і повільним процесом. Після невдалої спроби потрібно повернути сцену у вихідний стан, перевірити результат, змінити алгоритм і знову провести випробування. Зазвичай частина цієї роботи вимагає участі інженерів.
ENPIRE переносить у фізичний світ підхід, який у Nvidia називають AutoResearch: ШІ-агенти пишуть код, тестують його й покращують у наступних ітераціях. Однак на відміну від цифрового середовища тут кожен експеримент пов'язаний з реальними роботами, камерами, об'єктами, помилками захоплення, тертям та іншими фізичними обмеженнями.
Фреймворк складається з чотирьох модулів:
- Environment відповідає за автоматичне скидання сцени, перевірку результату, логування та інтерфейси безпеки;
- Policy Improvement запускає покращення політики керування;
- Rollout оцінює політику на одному чи кількох фізичних роботах;
- Evolution дозволяє агентам аналізувати логи, шукати ідеї в літературі, змінювати інфраструктуру навчання та виправляти код.
Після первинного налаштування середовища цикл може йти без постійного спостереження людини. Агент отримує дані з відео, траєкторій і функції винагороди, пропонує нову гіпотезу, змінює код, тестує результат на роботі та зберігає зміни, якщо вони покращують показник.
Навіщо потрібні автоматична перевірка та скидання
Ключовий елемент ENPIRE — автоматизація двох операцій: перевірки результату та повернення сцени у вихідний стан. Перша потрібна для того, щоб система могла сама визначити, чи виконане завдання. Наприклад, у сценарії з кабельною стяжкою функція оцінки об'єднувала детектор, сегментаційну модель і перевірку за двома камерами. Так агент отримував сигнал успіху чи помилки без ручного розмічання кожного прогону.
Автоматичне скидання дозволяє запускати багато спроб поспіль. Після невдалої дії робот має повернути об'єкт або сцену в стан, придатний для наступного експерименту. Без цього навчання на реальному обладнанні швидко впирається в потребу постійної участі людини.
Як зазначили в Decrypt, на першому етапі людина допомагає агенту створити постійні інструменти — процедуру скидання та функцію винагороди. Після цього вони використовуються повторно, а агент бере на себе подальше покращення політики.
Що показали на роботах
У реальних експериментах команда тестувала ENPIRE на кількох завданнях маніпуляції. Push-T перевіряє, чи може робот штовхати T-подібний об'єкт у задану зону. Pin Insertion вимагає вставляти штирі в отвори діаметром 4 мм. Також показано встановлення GPU й операції з кабельною стяжкою.
На сторінці проєкту Nvidia зазначено, що в реальних завданнях маніпуляції система успішно справлялася із завданням у 99% випадків, якщо агенту давали до восьми спроб з урахуванням попередніх помилок. Показник відображає здатність системи відновлюватися після невдач і повторювати дії з урахуванням контексту, а не точність однієї ізольованої спроби.
Як агентів для програмування команда порівняла Codex на GPT-5.5, Claude Code на Opus 4.7 і Kimi Code на Kimi K2.6. Оцінка проходила в бенчмарку AutoEnvBench на завданнях Push-T і Pin Insertion.
Дослідники також перевірили ENPIRE у RoboCasa — симуляторі побутових завдань на кшталт відкривання шаф, шухляд і вмикання чи вимикання об'єктів на кухні. У цих сценаріях ENPIRE перевершив GR00T від Nvidia і CaP-X — агентну систему, яка використовує інструменти, але не запускає повний цикл автоматичного дослідження.
Вісім роботів пришвидшили навчання
Окремий блок роботи присвячено масштабуванню на парк роботів. Nvidia провела експеримент на восьми роботизованих станціях із двома маніпуляторами. Кожна мала власне обладнання, комп'ютер і ШІ-агента для програмування.
Станції обмінювалися результатами через Git: вдала ідея або зміна коду могли швидко поширюватися між агентами. Такий підхід дозволив скоротити час навчання. За даними Decrypt, перехід від одного робота до восьми скоротив час освоєння Push-T приблизно з п'яти до двох годин. Для Pin Insertion час знизився з понад 90 хвилин до близько 40 хвилин.
Обмеження
Автори підкреслили, що масштабування не розв'язує всіх проблем. Коли агенти читають логи, пишуть код, налагоджують його або чекають на відповідь базової мовної моделі, роботи й обчислювальні ресурси використовуються не повністю. Зі зростанням кількості роботів збільшується GPU-активність, але середнє завантаження самих роботів знижується. Команди агентів витрачають більше часу на узагальнення результатів інших гілок і координацію, а не лише на фізичні прогони.
Ще одне обмеження — зростання витрати токенів. Більший парк роботів швидше приводить політику до робочого стану, але вимагає більше токенів через читання логів, обмін ідеями та координацію між агентами.
Крім того, ENPIRE поки що показано на обмеженому наборі завдань маніпуляції. Його результати не означають, що роботи вже можуть самостійно освоювати довільні фізичні навички у відкритому середовищі без інженерної підготовки.
Нагадаємо, у червні Nvidia представила Isaac GR00T Reference Humanoid Robot — дослідницький референс-дизайн для розробки й тестування навичок гуманоїдних роботів. У конфігурацію ввійшли корпус Unitree H2 Plus і тактильні п'ятипалі кисті Sharpa Wave.
Раніше Unitree представила «першого у світі готового до серійного виробництва» пілотований робот. Андроїд здатний пересуватися на двох і чотирьох кінцівках.
Джерело: ForkLog
Новости в мире криптовалют
Випадкова цитата про гроші
"За деньги нельзя купить одного - бедности. Тут нужно обратиться к помощи фондовой биржи."














* для пошуку по базі проксі просто вводьте назву країни, наприклад: Росія, США, Таїланд