Institut des Systèmes Intelligents
et de Robotique

Partenariats

UPMC

CNRS

INSERM

Tremplin CARNOT Interfaces

Labex SMART

Rechercher

Titre de la thèse : Modélisation du conditionnement animalpar représentations factorisées dans unsystème d’apprentissage dual : Explication des différences inter-individuelles aux niveauxcomportemental et neurophysiologique

 

Mots clés :  Neurosciences computationnelles,  Conditionnement Pavlovien,  Conditionnement instrumental,  Apprentissage par renforcement,  Représentations factorisées,  Variabilité inter-individuelle

 

Cette soutenance aura lieu le

26 septembre 2014 à 14h00

UPMC – Campus Jussieu, 4 Place Jussieu - 75005 Paris

Tour 55, 3ème étage, couloir 65-66, salle 304

 

Jury : 

ARLEO Angelo                  

COUTUREAU Etienne

DAYAN Peter                    

KHAMASSI Mehdi

LEBLOIS Arthur

SIGAUD Olivier

 

 

Résumé :

            Le conditionnement Pavlovien, l'acquisition de réponses vers des stimuli neutres associés à des récompenses, et le conditionnement instrumental, l'expression de comportements pour atteindre des buts, sont au cœur de nos capacités d'apprentissage. Ils sont souvent étudiés séparément malgré les preuves de leur enchevêtrement.  Les modèles de conditionnement instrumental reposent sur le formalisme de l'apprentissage par renforcement (RL), alors que les modèles du conditionnement Pavlovien reposent surtout sur des architectures dédiées souvent incompatibles avec ce formalisme, compliquant l'étude de leurs interactions. Notre objectif est de trouver des concepts, qui combinés à des modèles RL puissent offrir une architecture unifiée permettant une telle étude. Nous développons un modèle qui combine un système RL classique, qui apprend une valeur par état, avec un système RL révisé, évaluant les stimuli séparément et biaisant le comportement vers ceux associés aux récompenses.  Le modèle explique certaines réponses inadaptées par l'interaction néfaste des systèmes, ainsi que certaines différences inter-individuelles par une simple variation au niveau de la population de la contribution de chaque système dans le comportement global. Il explique une activité inattendue de la dopamine, vis-à-vis de l'hypothèse qu'elle encode un signal d'erreur, par son calcul sur les stimuli et non les états. Il est aussi compatible avec une hypothèse alternative que la dopamine contribue aussi à rendre certains stimuli recherchés pour eux-mêmes. Le modèle présente des propriétés prometteuses pour l'étude du conditionnement Pavlovien, du conditionnement instrumental et de leurs interactions.