Les robots actuels ne ressemblent en rien à des humains. Même s’ils sont dotés de capacités égales à celles des humains, telles que conduire une automobile mieux que ne le font généralement les humains, cela ne se voit pas. Il faudrait qu’un robot humanoïde, c’est-à-dire ressemblant à un humain, soit assis au volant et fasse les gestes d’un conducteur.
Il en est de même pour la station debout et la marche. Les humains ne s’intéresseront vraiment aux robots que si ceux-ci sont bipèdes comme eux, et peuvent comme eux marcher et jouer au ballon.
Or s’il est facile aux auteurs de science-fiction d’imaginer un robot bipède et footballeur, il reste encore très difficile aux ingénieurs roboticiens d’en fabriquer de comparables. Cela tient au fait que la simple marche impose le contrôle coordonné de dizaines de nerfs et de muscles, capacité que les jeunes enfants mettent au moins deux ans à acquérir..
C’est ce défi que s’est donné une équipe de roboticiens pilotée par le finlandais Tuomas Haarnoja et que finance actuellement Google. Nous en publions ci-dessous les références et l’abstract. Ils ont mis au point une méthode basée sur le Deep reinforcement learning destinée à permettre le contrôle dit full body de deux robots humanoïdes jouant au foot-ball l’un contre l’autre.
Ces robots ont acquis des comportements émergents sous forme de capacités motrices dynamiques leur permettant notamment de se redresser apès une chute et de protéger le ballon contre les attaques de leur adversaire. Ces capacités devraient à l’avenir les rendre capables d’interactions multi-robots plus complexes.
Jean-Paul Baquiast
Référence
[Submitted on 26 Apr 2023 (v1), last revised 11 Apr 2024 (this version, v2)]
Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement Learning
Tuomas Haarnoja,and others
We investigate whether Deep Reinforcement Learning (Deep RL) is able to synthesize sophisticated and safe movement skills for a low-cost, miniature humanoid robot that can be composed into complex behavioral strategies in dynamic environments. We used Deep RL to train a humanoid robot with 20 actuated joints to play a simplified one-versus-one (1v1) soccer game. The resulting agent exhibits robust and dynamic movement skills such as rapid fall recovery, walking, turning, kicking and more; and it transitions between them in a smooth, stable, and efficient manner. The agent’s locomotion and tactical behavior adapts to specific game contexts in a way that would be impractical to manually design. The agent also developed a basic strategic understanding of the game, and learned, for instance, to anticipate ball movements and to block opponent shots. Our agent was trained in simulation and transferred to real robots zero-shot. We found that a combination of sufficiently high-frequency control, targeted dynamics randomization, and perturbations during training in simulation enabled good-quality transfer. Although the robots are inherently fragile, basic regularization of the behavior during training led the robots to learn safe and effective movements while still performing in a dynamic and agile way — well beyond what is intuitively expected from the robot. Indeed, in experiments, they walked 181% faster, turned 302% faster, took 63% less time to get up, and kicked a ball 34% faster than a scripted baseline, while efficiently combining the skills to achieve the longer term objectives.
Tuomas Haarnoja
