Учёные из Китая представили новую архитектуру искусственного интеллекта, призванную повысить манипуляционные способности гуманоидных роботов. Исследователи из Уханьского университета разработали систему RGMP (recurrent geometric-prior multimodal policy), которая предназначена для повышения точности захвата широкого спектра объектов и позволяет роботам выполнять более сложные ручные задачи.
В отличие от многих методов, опирающихся на большие наборы данных для обучения, RGMP включает в себя геометрическое мышление для улучшения обобщения в новых или непредсказуемых условиях. Данная система демонстрирует 87-процентный показатель успешности в новых условиях и в 5 раз более эффективно использует данные по сравнению с передовыми диффузионными моделями, сочетая пространственное мышление с эффективным обучением. Исследователи заявляют, что их разработка может стать шагом на пути к созданию более адаптируемых и совершенных гуманоидных систем.
Для самостоятельной работы гуманоидные роботы должны надёжно управлять множеством объектов в различных средах. Современные модели машинного обучения часто хорошо работают только в условиях, аналогичных учебным. Эти системы сильно зависят от больших наборов данных и не используют в полной мере геометрическое мышление или пространственное восприятие, что затрудняет адаптацию роботов в новых ситуациях.
Модели, работающие со зрением и языком, способны понимать инструкции, но часто не могут связать их с правильными действиями, особенно когда форма объектов или контекст меняются. Другие подходы, такие как диффузионные модели или имитационное обучение, требуют множества демонстраций и всё равно не справляются с обобщением.
Чтобы решить эти проблемы, команда разработала RGMP — сквозную архитектуру, которая сочетает геометрическое мышление с эффективным обучением. Первый компонент, Геометрический селектор навыков (GSS), помогает роботу выбрать правильное действие на основе формы объекта и требований задачи, подобно тому, как человек решает, схватить, ущипнуть или толкнуть предмет.
Он использует простые геометрические правила и работает даже в новых условиях. Вторая часть, Адаптивная рекуррентная гауссова сеть (ARGN), улучшает обучение на небольших наборах данных, сохраняя и обновляя пространственную память. Она моделирует взаимодействие робота с объектами во времени, избегая проблемы затухающих градиентов. Вместе эти компоненты помогают роботам лучше обобщать навыки и справляться со сложными задачами, используя меньше учебных примеров.
Команда протестировала архитектуру RGMP для оценки её производительности и способности к обобщению. Эксперименты проводились на гуманоидной системе и настольном роботе с двумя манипуляторами, оснащёнными камерами и руками с 6 степенями свободы. Использовался набор данных из 120 демонстрационных траекторий, а производительность измерялась по двум показателям: выбор правильного навыка и точность его выполнения. RGMP сравнивали с ведущими моделями, включая ResNet50, Diffusion Policy, Octo и OpenVLA.
Результаты показали, что RGMP превзошёл другие модели в различных задачах манипулирования, включая работу с незнакомыми объектами и в новых условиях. Исследователи утверждают, что модуль GSS улучшил выбор навыков до 25 процентов, а ARGN и гауссово моделирование повысили точность выполнения. Система также требовала значительно меньше учебных примеров — для достижения высоких результатов хватило 40 демонстраций по сравнению с 200, необходимыми базовым моделям, — что демонстрирует высокую эффективность и адаптивность.
Подчёркивается, что, привязывая навыки к контексту объекта и разбивая движения на гауссовы компоненты, система улучшает как эффективность, так и обобщение. RGMP достигает 87-процентной точности обобщения и использует в 5 раз меньше данных, чем Diffusion Policy, в тестах взаимодействия человека и робота.
Результаты показывают, что интеграция символьного мышления с обучением улучшает адаптивность к новым объектам и средам. Будущие исследования будут сосредоточены на том, чтобы позволить роботам определять действия для новых объектов после обучения всего на одном примере. С подробностями исследования команды Уханьского университета можно ознакомиться на сервере препринтов arXiv.
Источник: New-Science.ru
