Home » Projet » Coopération de système multiples d’apprentissage par renforcement

Coopération de système multiples d’apprentissage par renforcement

Les vertébrés sont capables d’apprendre à modifier leur comportement sur la base de récompenses et de punitions. Cet apprentissage, dit « par renforcement », est également l’objet de nombreuses recherches en Intelligence Artificielle pour augmenter l’autonomie décisionnelle des robots.

Comment apprendre par récompenses et punitions, le plus vite possible pour un coût de calcul minimal ? C’est à cette question que nous nous attelons en combinant des algorithmes d’apprentissage par renforcement aux caractéristiques complémentaires.

Ce projet interdisciplinaire vise à améliorer les performances des robots, mais également à mieux expliquer l’apprentissage chez les vertébrés.

Le contexte

L’apprentissage par renforcement distingue deux grandes familles d’algorithmes :

Les vertébrés, eux, sont capables d’exhiber des comportement dirigés vers un but résultant de déductions sur la structure de l’environnement. En cas d’apprentissage prolongé, ils développent des habitudes qui sont difficiles à remettre en cause. Il est couramment accepté, depuis le milieu des années 2000 (Daw et al., 2005), que les algorithmes MB sont un bon modèle des comportements dirigés vers un but, et les algorithmes MF un bon modèle de la formation d’habitudes.

Les objectifs

Nous cherchons à définir des méthodes de coordination de ces deux types d’algorithmes permettant de les combiner au mieux, afin d’apprendre rapidement et de s’adapter aux changement, tout en minimisant les calculs lorsque c’est possible. Nous testons nos réalisations dans des tâches de navigation robotique et de coopération homme-machine.

Nous cherchons plutôt à expliquer les interactions observées entre comportement flexibles et habituels, qui ne semblent pas nécessairement optimales. Cela implique que les méthodes de coordination développées pour la robotique et pour les neurosciences ne sont pas nécessairement identiques.

Les résultats

Nous avons initialement proposé une méthode de coordination des algorithmes MB-MF permettant d’expliquer des effets de compétition et de coopération entre systèmes d’apprentissage chez le rat (Dollé et al., 2010, 2018).

Elle a ensuite été adaptée pour son utilisation en navigation robotique (Caluwaerts et al., 2012), et dotée à l’occasion d’un système de détection de contexte permettant d’apprendre et de ré-apprendre rapidement en cas de changement de la tâche. Le développement d’un nouveau critère de coordination prenant en compte explicitement le temps de calcul a permis de proposer un nouveau système robotique ayant des performances maximales, identiques à celles d’un algorithme MB, pour un coût de calcul divisé par trois (Dromnelle et al., 2020a, 2020b).

En parallèle, des modèles ont été développés pour expliquer les décisions et les temps de réponse chez l’humain (Viejo et al., 2015) et le macaque (Viejo et al., 2018).

L’ensemble des réalisations de ce projet de fond ont été résumées dans l’article (en anglais) « Adaptive coordination of multiple learning strategies in brains and robots » (Khamassi, 2020).

Partenariats et collaborations

Ces travaux ont été menés dans le cadre de divers projets, financés entre autres par l’ANR (LU2, STGT, RoboErgoSum), la Ville de Paris (Emergence(s) HABOT), l’Observatoire B2V des mémoire, le CNRS, etc.

Ils s’appuient sur des collaborations entre :

Membres du projet

Raja Chatila
Professor Emeritus
Benoît Girard
Directeur de Recherche
Mehdi Khamassi
Directeur de recherche