ДИНАМІЧНА СТІЙКІСТЬ КРОКУЮЧИХ РОБОТІВ: ВИКЛИКИ ТА ПЕРСПЕКТИВИ
Анотація
Динамічна стійкість є базовою вимогою для крокуючих роботів, що працюють за умов похибок моделі, мінливого рельєфу та переривчастих контактів із поверхнею. У статті розглянуто опубліковані підходи, що сприяють стабільній ході та цілісній поведінці всього тіла, з урахуванням комерційних, відкритих і академічних платформ.
Мета. Узагальнити та зіставити модельно орієнтовані й навчальні методи забезпечення стійкості, практики перенесення із симуляції в “реальність”, підходи до оцінювання стану та релевантні апаратні рішення, а також виокремити відкриті виклики та пропозиції для подальших досліджень.
Методи. Узагальнено модельно орієнтовані методи, зокрема лінійну модель оберненого маятника, центроїдну динаміку, ієрархічну інверсну динаміку з квадратичним програмуванням та MPC з горизонтом передбачення. Підсумовано навчальні методи: PPO, SAC, DDPG, TD3, імітаційне навчання (включно із змагальним та прикладно керованим), ієрархічні політики, метанавчання та новітні політики на основі трансформерів для двоногого пересування. Розглянуто засоби перенесення (доменна й динамічна рандомізація, навчання за програмою, дистиляція політик, progressive nets, Rapid Motor Adaptation), оцінювання стану (EKF/IEKF-злиття кінематики ніг та інерціальних даних, мультимодельні/контакт-обізнані фільтри, інваріантний нейромережею доповнений фільтр Калмана, низькочастотні візуальні/LiDAR-оновлення у Pronto) та апаратні тренди (пружні й послідовно-еластичні приводи, енергонакопичувальні ланки, допоміжні рушії).
Результати. Наведене дослідження в MuJoCo на Unitree Go1 ілюструє типовий компроміс: MPC з передбачувальним горизонтом ефективніше компенсував зовнішні поштовхи великої амплітуди завдяки явній оптимізації із врахуванням обмежень, тоді як PPO забезпечив нижчу енергоємність руху на рівній поверхні (менший cost of transport). У частині перенесення показано, що доменна й динамічна рандомізація, змішане навчання за програмою та RMA підвищують надійність до змін рельєфу, навантаження і швидких переходів між типами ходи; дистиляція політик та progressive nets зменшують «забування» і спрощують багатозадачні політики. Для оцінювання стану підтверджено ефективність EKF/IEKF-інтеграції leg–IMU, мульти-модельних/контакт-обізнаних фільтрів та інваріантного нейро-доповненого Кальмана, а також користь низькочастотних візуальних/LiDAR-оновлень у Pronto для стримування довготривалої помилки. Коротко означено апаратні чинники стійкості: комплаєнтні та SEA-приводи, енергонакопичувальні ланки й допоміжні рушії, що розширюють робочу область стабільних режимів. Додатково узагальнено елементи безпеково-орієнтованого керування – оптимізацію політик з обмеженнями, резервні регулятори та шари на основі функцій Ляпунова/CBF – як механізми зниження частоти падінь і ризикованих дій.
Висновки. Стаття виокремлює відкриті виклики, зазначені в літературі: формальне забезпечення безпеки для навчальних політик, працездатність під час збоїв або втрат контакту та методики перенесення з симуляції на реальних роботів, що зберігають продуктивність на апаратній платформі. Практично значущими кроками є інтеграція CBF/Ляпунова як захисних шарів до RL-політик, стандартизація бенчмарків із енергетичними метриками та сценаріями локоманіпуляції, ширше застосування контакт-обізнаних/інваріантних оцінювачів стану та пріоритет апаратних конфігурацій із комплаєнтними приводами й енергоакумуляцією, що разом сприятиме безпечній, енергоефективній та узагальнюваній поведінці крокуючих роботів у реальному світі.
Завантаження

Ця робота ліцензована відповідно доCreative Commons Attribution 4.0 Міжнародної ліцензії.






