Home » Projet

AMAC

taxonomy

La robotique représente un défi pour les méthodes d’apprentissage car elle combine les difficultés suivantes : espaces d’état et d’action de grande dimension et continus, récompenses rares, monde dynamique, ouvert et partiellement observable avec des perceptions et des actions bruitées. Leur mise en œuvre est donc délicate et nécessite une analyse poussée des tâches à accomplir, ce qui réduit leur potentiel d’application. Dans le projet Européen DREAM, nous avons défini les bases d’une approche développementale permettant de combiner différentes méthodes pour réduire ces contraintes et donc augmenter les capacités d’adaptation des robots par le biais de l’apprentissage. 

Le contexte

La conception de robots nécessite d’anticiper toutes les conditions auxquelles ils peuvent être confrontés et de prévoir les comportements appropriés. Une situation imprévue peut donc provoquer un dysfonctionnement susceptible de se reproduire si les mêmes conditions surviennent de nouveau. Ce manque d’adaptation est un frein à de nombreuses applications de la robotique, en particulier lorsqu’elles ciblent un environnement non contrôlé comme notre environnement quotidien (pour des robots compagnons, par exemple) ou plus généralement pour des robots collaboratifs, c’est-à-dire agissant au contact d’humains. Les méthodes d’apprentissage artificiel pourraient aider à rendre les robots plus adaptatifs, si toutefois elles parviennent à surmonter les multiples difficultés liées au contexte de la robotique. Ce sont ces difficultés spécifiques que ce projet se propose d’aborder.

Les objectifs

L’objectif du projet est d’aider à concevoir des robots en interaction avec un environnement non contrôlé, sur des tâches pour lesquelles le comportement désiré est partiellement connu ou même totalement inconnu.

Dans ce contexte, l’apprentissage permet de laisser le robot explorer son environnement en autonomie, afin d’en extraire des représentations sensorielles, sensori-motrices ou purement motrices pertinentes. Par exemple, apprendre à reconnaître des objets, identifier sont ceux qui sont manipulables, apprendre à les saisir, les pousser, les jeter, etc. Explorer le vaste espace sensori-moteur de manière pertinente est central, d’autant plus que nombre d’interactions sont rares (la probabilité d’attraper un objet avec un mouvement purement aléatoire est quasiment nulle).

Nous nous intéressons donc à la construction de ces représentations et nous appuyons sur une approche modulaire et itérative visant à explorer les capacités du robot et à en déduire des représentations qui faciliteront la résolution des tâches qui se présentent, que ce soit avec des méthodes de planification ou d’apprentissage. 

Les résultats

La création de représentations d’états et d’actions susceptibles de servir ultérieurement nécessite dans un premier temps de générer des comportements pertinents par rapport aux capacités du robot. Un comportement est pertinent s’il met en avant la capacité du robot à obtenir un effet particulier en interagissant avec son environnement. Sachant que beaucoup de mouvements du robot ne créent aucun effet, découvrir les effets que le robot est susceptible de générer est difficile. A cela s’ajoute la difficulté d’explorer pour apprendre des comportements sans disposer de représentations appropriées.

Nous nous appuyons donc sur des algorithmes d’exploration basés notamment sur de la recherche de nouveauté et des algorithmes de Qualité-Diversité pour générer des comportements d’exploration en grande quantité et en déduire des espace d’état et d’action appropriés pour des apprentissages ultérieurs. 

Figure 1: Le robot Baxter a appris un répertoire d’actions de manipulation du Joystick qu’il utilise pour apprendre à piloter un petit robot à roues.

Partenariats et collaborations

Le projet Européen DREAM, coordonné par Sorbonne Université (FET H2020 2015-2018), a lancé cette thématique de recherche au laboratoire (http://dream.isir.upmc.fr/).

Son consortium était composé de :

Il s’agissait d’un projet académique, sans partenaire industriel. 

Elle se poursuit dans le cadre de plusieurs projets visant à appliquer ces travaux à un contexte industriel. La capacité d’adaptation de l’apprentissage est destinée à aider les ingénieurs dans la phase de conception et de mise à jour du comportement d’un robot. Le projet Européen SoftManBot (http://softmanbot.eu) vise des applications à la manipulation d’objets déformables. Il dispose d’un consortium de 11 partenaires, notamment SIGMA, à Clermont-Ferrand, l’IIT à Gênes et des entreprises comme Decathlon et Michelin. Le projet VeriDREAM (https://veridream.eu/), en collaboration avec le DLR, l’ENSTA-Paristech, Magazino GmbH, Synesis et GoodAI, vise à faciliter le transfert de ces méthodes dans un contexte industriel plus large, incluant en particulier des petites et moyennes entreprises avec un focus sur les secteurs de la logistique et du jeu vidéo.

Les vertébrés sont capables d’apprendre à modifier leur comportement sur la base de récompenses et de punitions. Cet apprentissage, dit « par renforcement », est également l’objet de nombreuses recherches en Intelligence Artificielle pour augmenter l’autonomie décisionnelle des robots.

Comment apprendre par récompenses et punitions, le plus vite possible pour un coût de calcul minimal ? C’est à cette question que nous nous attelons en combinant des algorithmes d’apprentissage par renforcement aux caractéristiques complémentaires.

Ce projet interdisciplinaire vise à améliorer les performances des robots, mais également à mieux expliquer l’apprentissage chez les vertébrés.

Le contexte

L’apprentissage par renforcement distingue deux grandes familles d’algorithmes :

Les vertébrés, eux, sont capables d’exhiber des comportement dirigés vers un but résultant de déductions sur la structure de l’environnement. En cas d’apprentissage prolongé, ils développent des habitudes qui sont difficiles à remettre en cause. Il est couramment accepté, depuis le milieu des années 2000 (Daw et al., 2005), que les algorithmes MB sont un bon modèle des comportements dirigés vers un but, et les algorithmes MF un bon modèle de la formation d’habitudes.

Les objectifs

Nous cherchons à définir des méthodes de coordination de ces deux types d’algorithmes permettant de les combiner au mieux, afin d’apprendre rapidement et de s’adapter aux changement, tout en minimisant les calculs lorsque c’est possible. Nous testons nos réalisations dans des tâches de navigation robotique et de coopération homme-machine.

Nnous cherchons plutôt à expliquer les interactions observées entre comportement flexibles et habituels, qui ne semblent pas nécessairement optimales. Cela implique que les méthodes de coordination développées pour la robotique et pour les neurosciences ne sont pas nécessairement identiques.

Les résultats

Nous avons initialement proposé une méthode de coordination des algorithmes MB-MF permettant d’expliquer des effets de compétition et de coopération entre systèmes d’apprentissage chez le rat (Dollé et al., 2010, 2018).

Elle a ensuite été adaptée pour son utilisation en navigation robotique (Caluwaerts et al., 2012), et dotée à l’occasion d’un système de détection de contexte permettant d’apprendre et de ré-apprendre rapidement en cas de changement de la tâche. Le développement d’un nouveau critère de coordination prenant en compte explicitement le temps de calcul a permis de proposer un nouveau système robotique ayant des performances maximales, identiques à celles d’un algorithme MB, pour un coût de calcul divisé par trois (Dromnelle et al., 2020a, 2020b).

En parallèle, des modèles ont été développés pour expliquer les décisions et les temps de réponse chez l’humain (Viejo et al., 2015) et le macaque (Viejo et al., 2018).

L’ensemble des réalisations de ce projet de fond ont été résumées dans l’article (en anglais) « Adaptive coordination of multiple learning strategies in brains and robots » (Khamassi, 2020).

Partenariats et collaborations

Ces travaux ont été menés dans le cadre de divers projets, financés entre autres par l’ANR (LU2, STGT, RoboErgoSum), la Ville de Paris (Emergence(s) HABOT), l’Observatoire B2V des mémoire, le CNRS, etc.

Ils s’appuient sur des collaborations entre :