Institut des Systèmes Intelligents
et de Robotique

Partenariats

UPMC

CNRS

INSERM

Tremplin CARNOT Interfaces

Labex SMART

Rechercher

A voir également

Profil

BELLOT Jean
Titre : Doctorant
Adresse : 4 place Jussieu, CC 173, 75252 Paris cedex 05
Téléphone : +33 (0) 1 44 27 62 01
Email : jbellot(at)isir.upmc.fr
Equipe : AMAC (AMAC)

 

Depuis Décembre 2011, j'effectue un doctorat sous la direction de Benoît Girard et Mehdi Khamassi financé par le projet HABOT (Emergence(s) Ville de Paris).

 

Sujet de thèse: Modélisation computationnelle du rôle de la dopamine dans les boucles cortico-striatales dans l'apprentissage par renforcement lors de tâches de choix multiples.

 

Mots clefs: ganglions de la base, dopamine, apprentissage par renforcement

 

Ma thèse se propose de concevoir un modèle neurocomputationnel du système dopaminergique fondé sur le principe d’un double système de contrôle de l’action : (1) un contrôleur des comportements orientés vers un but (GDB) qui construit un modèle du monde, prend des décisions plus lentement par estimation des conséquences des actions en fonction de ce modèle, mais produit une grande flexibilité comportementale lorsque le monde change ; (2) un contrôleur permettant l’apprentissage des habitudes (HB), qui prend des décisions plus rapidement en réagissant aux stimuli immédiats, qui est donc plus efficace lorsque l’environnement est stable et familier, mais qui est moins flexible lorsqu’un changement de l’environnement intervient nécessitant un ré-apprentissage des habitudes (Daw et al. 2005).


Il s’agira de tester la capacité de ce double système à mieux décrire les différentes activités dopaminergiques reportées dans des tâches de choix multiples que le modèle classique Actor-Critic. Le mécanisme de compétition entre les deux systèmes de contrôle du modèle sera étendu à une proposition récente suggérant des critères d’incertitude et de compromis vitesse/précision (Keramati et al. 2011) permettant au modèle de reproduire les variations des temps de réaction des animaux dans les tâches neurophysiologiques citées. Le modèle sera simulé sur les tâches multi-choix dans lesquelles les neurones dopaminergiques ont été enregistrés pour permettre une comparaison quantitative avec les signaux d’erreur de prédiction de la récompense enregistrés  électrophysiologiquement au niveau des neurones dopaminergiques. Il s’agira d’étudier dans quelle mesure les distinctions entre types d’apprentissage par renforcement permettent d’expliquer les différents types de signaux observés.

La dernière partie de la thèse consistera à tester ce modèle sur un robot pour lui permettre de reproduire les mêmes performances comportementales (temps d’apprentissage, temps de réaction, flexibilité en réponse aux changements de l’environnement) que les animaux dans les tâches étudiées.

 

 

Parcours:

2011 Master Intelligence Artificielle et Décision, Université Pierre et Marie Curie.

Stage de Master: Quel algorithme de TD learning permet de reproduire l'activité dopaminergique dans le cadre d'un apprentissage multi-choix ?
Sous la direction de Mehdi Khamassi et d'Olivier Sigaud.

2009 Licence Mathématiques et Informatique, spécialité Statistiques et Intelligence Artificielle, Université Pierre et Marie Curie.