Institut des Systèmes Intelligents
et de Robotique

Partenariats

UPMC

CNRS

INSERM

Tremplin CARNOT Interfaces

Labex SMART

Rechercher

Titre :  " Tout est dans le regard : reconnaissance visuelle du comportement humain en vue subjective "


La soutenance aura lieu le mardi 9 juillet à 13h30 dans la salle suivante :

 UPMC - Campus Jussieu
 4 Place Jussieu, 75005 Paris
 Amphi Astier (Bâtiment Esclangon)


Composition du jury :

Rapporteurs :

M. Liming Chen - Professeur à l'Ecole Centrale de Lyon (LIRIS)
M. Jean-Marc Odobez - Senior Researcher à l'IDIAP et Maître d'Enseignement et de Recherche à l'EPFL

Examinateurs :

M. François Brémond - Directeur de recherche à l'INRIA Sophia-Antipolis
Mme Alice Caplier - Professeur à l'Institut National Polytechnique de Grenoble (GIPSA-lab)
M. Mathieu Cord - Professeur à l'Université Pierre et Marie Curie (LIP6)
M. Bruno Gas - Professeur à l'Université Pierre et Marie Curie (ISIR)

Directrice de thèse :

Mme Edwige Pissaloux - Professeur à l'Université Pierre et Marie Curie (ISIR)

Co-encadrant :

M. Andrea Carbone - Chercheur à l'Université Paris 8 (CHArt-LUTIN)



Resumé :

 

Dans cette thèse, nous nous intéressons à l’analyse visuelle du comportement humain à partir de l’information du regard. A l’inverse des caméras statiques et externes, nous adoptons un point de vue subjectif, ce qui permet de placer le contexte d’étude au centre de l’être humain et de ses interactions avec l’environnement. Pour atteindre cet objectif, nous avons développé un eye-tracker porté, ainsi que des outils d’analyse associés, en particulier la reconnaissance d’attention dans le cadre d’interactions sociales et la reconnaissance
d’activités subjectives.
Dans la première partie de cette thèse, nous présentons un eye-tracker binoculaire tête porté à partir duquel nous estimons le regard du sujet. Contrairement à la plupart des systèmes basés sur l’éclairage infrarouge, notre approche fonctionne en éclairage visible.
Pour cela, nous nous inspirons des méthodes basées apparence qui, au lieu, d’extraire des caractéristiques géométriques (par exemple, la pupille), exploitent l’image de l’oeil dans sa globalité et elles permettent donc de prendre en compte toutes les caractéristiques de l’oeil.
Pour apprendre la relation entre les caractéristiques d’apparence et les coordonnées du point de regard dans l’image de la caméra scène, deux modèles de régression sont comparés : le Support Vector Regression et le Relevance Vector Regression.
Nous proposons, ensuite, une nouvelle méthode de reconnaissance d’attention en vue subjective. Le regard subjectif est obtenu à l’aide de notre eye-tracker, tandis que le regard d’autrui est construit à partir de l’estimation de l’orientation de la tête par régression à noyaux multiples localisés. En combinant ces deux types de regard, nous calculons alors des scores d’attention qui permettent d’identifier des motifs attentionnels dyadiques tels que le regard mutuel, mais aussi des motifs d’ordre supérieur émanant de la nature triadique de notre expérience.
Notre outil final d’analyse concerne la reconnaissance d’activités basée sur le regard et l’égo-mouvement. Ces mouvements sont quantifiés en fonction de leur direction et de leur amplitude et encodés sous forme de symboles. Des caractéristiques statistiques sont alors
extraites via un codage multi-échelle et un partitionnement temporel. Pour la classification et la segmentation d’activités, nous décrivons une approche par apprentissage contextuel en intégrant des scores de prédiction d’un voisinage à longue portée. Une étude détaillée
permet également de comprendre quelles caractéristiques jouent un rôle prédominant dans la représentation d’une activité.

 

Mots-clés : suivi du regard, estimation de la pose de la tête, vue subjective,  reconnaisance d’attention et d’activités, modèle d’apparence, mouvements oculaires, régression, classification, apprentissage contextuel, égo-mouvement.