Institut des Systèmes Intelligents
et de Robotique

Partenariats

Sorbonne Universite

CNRS

INSERM

Tremplin CARNOT Interfaces

Labex SMART

Rechercher

A voir également

Profil

CINOTTI François
Titre : Doctorant
Adresse : 4 place Jussieu, CC 173, 75252 Paris cedex 05
Téléphone : +33 (0) 1 44 27 62 01
Email : cinotti(at)isir.upmc.fr
Equipe : AMAC (AMAC)

Sujet de thèse: Modélisation de la variabilité de l'apprentissage par renforcement chez le rat

Encadrants: Benoît Girard et Mehdi Khamassi

Résumé: L'apprentissage par renforcement, à l'intersection entre psychologie comportementale, neurosciences et machine learning, est la capacité d'un système intelligent à apprendre la valeur d'un stimulus (conditionement pavlovien) ou d'une action (conditionnement instrumental) à partir de signaux simples et discrets de l'environnement sous forme de récompense ou de punition. Chez les Mammifères, ce système d'apprentissage reposerait essentiellement sur le système dopaminergique qui signalerait les erreurs de prédiction nécessaires à cet apprentissage. L'objectif de cette thèse est d'étudier la variabilité de ce système au niveau intra- et inter-individuel en se basant sur la modélisation computationnelle de données expérimentales. Au niveau intra-individuel, j'étudie la variabilité des paramètres d'apprentissage, en établissant dans un premier temps que la dopamine fixe le niveau d'exploration d'un individu et en montrant ensuite que l'amélioration sur le long terme de la performance dans une tâche d'apprentissage peut s'expliquer par une régulation de ces paramètres. Au niveau inter-individuel, je poursuis les travaux de Florian Lesaint sur la modélisation des comportements sign-trackers (ST) et goal-trackers (GT). Dans le cadre du conditionnement pavlovien, lors de la présentation du stimulus prédictif, les individus ST sont fortement motivés par ce stimulus et cherchent à interagir avec lui, en le mordillant par exemple, tandis que les individus GT se rendent directement vers le lieu où la récompense sera livrée. Un modèle rendant compte de nombreuses observations comportementales mais aussi pharmacologiques et neurologiques relatives à cette distinction a déjà été proposé par un ancien doctorant de l'équipe, Florian Lesaint. Ce modèle repose sur la collaboration plus ou moins équilibrée entre deux systèmes d'apprentissage par renforcement "model-based" et "model-free" dont les contributions relatives au comportement final déterminent son caractère ST ou GT et avait donné lieu à des prédictions dont la vérification constitue un objectif de cette thèse.

Formation:

  • 2009-2011: Classes préparatoires BCPST au lycée Saint-Louis, Paris
  • 2011-2014: AgroParisTech
  • 2013-2014: M2 AIV
  • 2014-2015: M2 Cogmaster