Alibaba представила ШІ-моделі для керування роботами

Alibaba представила Qwen-Robot Suite — набір ШІ-моделей для роботів та завдань у фізичному середовищі: Qwen-RobotNav для навігації, Qwen-RobotManip для дій з об'єктами та Qwen-RobotWorld для прогнозування розвитку сцени. Команда описала проєкт як «повний стек для втіленого штучного інтелекту».
Ідеться про програмні моделі, які мають допомагати фізичним агентам сприймати навколишнє середовище, планувати дії та виконувати команди природною мовою. Qwen-Robot Suite вже проходить пілотні випробування в окремих корпоративних клієнтів Alibaba Cloud у сфері робототехніки.
Навіщо Alibaba виводить Qwen у фізичний світ
Великі мовні та мультимодальні моделі вже вміють працювати з текстом, зображеннями, відео та мовленням, але цього недостатньо для роботів. Фізичним агентам потрібно не лише розуміти команду, а й переводити її в рух, враховувати простір, властивості об'єктів, обмеження сенсорів та наслідки дій.
Alibaba називає це напрямом physical AI, або «втіленого ШІ». За такого підходу модель має працювати не лише з цифровими даними, а й з фізичним середовищем: переміщатися, знаходити об'єкти, керувати маніпуляторами та прогнозувати, що станеться після дії.
Qwen-RobotNav: п'ять завдань навігації в одній моделі
Qwen-RobotNav відповідає за навігацію. Модель об'єднує п'ять груп завдань:
- дотримання інструкцій;
- рух до заданої точки;
- пошук об'єктів;
- відстеження цілі;
- автономне водіння.
За даними Alibaba, Qwen-RobotNav побудована на базі Qwen3-VL та навчена на 15,6 млн зразків, пов'язаних із плануванням маршрутів і візуально-мовним міркуванням.
Компанія заявила 76,5% успішності на VLN-CE RxR та 90% на EVT-Bench. В Alibaba також уточнили, що модель може працювати як інструмент для більших агентних систем: верхньорівнева модель планує завдання, а Qwen-RobotNav відповідає за переміщення.
У демонстраціях Alibaba описує сценарії на кшталт пошуку загубленого предмета в приміщенні або перевірки, чи відкритий конкретний об'єкт у будівлі. У таких завданнях робот має не просто рухатися, а збирати візуальні докази та повертати відповідь користувачеві.
Qwen-RobotManip: дії з об'єктами
Qwen-RobotManip призначена для фізичних дій з об'єктами. Модель має допомагати роботам брати, переміщати та розміщувати предмети, а також переносити навички між різними типами пристроїв.
Одна з ключових проблем робототехніки полягає в тому, що роботи описують дії по-різному. Маніпулятор, дворуча платформа, робот із кистю чи мобільна система використовують різні координати, суглоби та формати команд. Qwen-RobotManip намагається привести ці дані до спільного представлення, щоб навчання на одному типі робота допомагало іншому.
Для навчання Alibaba використала понад 38 100 годин даних. У цей обсяг увійшли 11 320 годин відкритих робототехнічних даних, 1933 години відео дій людини від першої особи та 24 808 годин синтетичних роботичних демонстрацій, створених на основі таких відео.
Компанія заявила, що модель посіла перше місце в RoboChallenge Table30 v1 у треку універсальних моделей. За даними Alibaba, Qwen-RobotManip також показала стійкість до нових інструкцій, незнайомих об'єктів та перенесення навичок між різними роботами.
Qwen-RobotWorld: модель світу для роботів
Qwen-RobotWorld — відеомодель світу, керована природною мовою. Вона має прогнозувати, як розвиватиметься сцена після заданої дії.
Наприклад, модель отримує поточне спостереження та текстову команду, а потім генерує ймовірний майбутній стан середовища. Такий підхід може використовуватися для маніпуляцій, автономного водіння, навігації, планування та створення синтетичних навчальних даних для роботів.
Для навчання Qwen-RobotWorld команда зібрала корпус Embodied World Knowledge. Він включає 8,6 млн пар «відео-текст» та понад 200 млн кадрів, охоплює понад 20 типів роботичних платформ і понад 500 категорій дій.
Alibaba заявила, що Qwen-RobotWorld посіла перше місце в EWMBench та DreamGen Bench, а також перевершила всі відкриті моделі у WorldModelBench та PBench. У технічному описі також стверджується, що модель показує високу узгодженість із базовими фізичними закономірностями — рухом, збереженням маси, рідинами та гравітацією.
До масових роботів ще далеко
Попри заявлені результати, Qwen-Robot Suite поки що залишається набором моделей, а не готовою споживчою робототехнічною платформою. Реальне впровадження стикається із шумом сенсорів, зношуванням приводів, нестандартними ситуаціями, помилками сприйняття та величезною кількістю рідкісних сценаріїв. Багато бенчмарків, на яких порівнюють такі системи, проходять у симуляції або в обмежених експериментальних умовах.
Alibaba також не розкрила вартість доступу, терміни публічного запуску та список клієнтів, які вже тестують Qwen-Robot Suite.
Нагадаємо, у квітні Alibaba Cloud представила агентну модель Qwen3.6-Plus із контекстним вікном 1 млн токенів та підтримкою зовнішніх інструментів.
Джерело: ForkLog
Новости в мире криптовалют
Випадкова цитата про гроші
"Помните, что деньги обладают способностью размножаться."














* для пошуку по базі проксі просто вводьте назву країни, наприклад: Росія, США, Таїланд