Institut des Systèmes Intelligents
et de Robotique

Partenariats

UPMC

CNRS

INSERM

Tremplin CARNOT Interfaces

Labex SMART

Rechercher

Titre :  « Ancrages et modèles dynamiques de la prosodie : application à la reconnaissance d’émotions actées et spontanées »

 

Mots-Clés : Traitement automatique de la parole, Extraction de caractéristiques prosodiques, Techniques de modélisation du rythme, Caractérisation des interactions sociales affectives, Reconnaissance automatique d’émotions, Analyse des troubles de la communication.  

 

Cette soutenance aura lieu

le lundi 4 avril à 14h à l’ISIR, en salle 211, (accès Tour 55, 2ème étage, couloir 55-65), sur le campus de Jussieu.

 

Le jury est composé de :

 

Rapporteurs :

Pr. Hervé Glotin, LSIS, Université Toulon Var Sud

Pr. Yannis Stylianou, MMI, University of Creete, GRECE

 

Examinateurs :

Pr. Olivier Adam, LAM, Université Pierre et Marie Curie

Dr. Bjoern Schuller, MMK, Technische Universität München, ALLEMAGNE

 

Directeur de thèse :

Pr. Jean-Luc Zarader, ISIR, Université Pierre et Marie Curie

 

Encadrant :

Dr. Mohamed Chetouani, ISIR, Université Pierre et Marie Curie

 

Invité :

Pr. David Cohen, ISIR, Université Pierre et Marie Curie

 

Resumé :

 

      La reconnaissance de l’état émotionnel d’un locuteur est une étape importante pour rendre la communication Homme-machine plus naturelle et conviviale. Nous étudions dans cette thèse la problématique du traitement automatique de la parole (TAP) orienté émotion sur des données actées et naturelles. L’étude des émotions spontanées a été effectuée en parallèle avec celles des troubles de la communication (TC), puisque ces troubles limitent les capacités d’interaction de l’enfant. Les techniques incluses dans les systèmes de TAP orienté émotion doivent reposer sur des paramètres robustes dans la description des corrélats de l’affect, mais aussi face aux contraintes liées au changement de locuteur et de contexte sémantique. Dans cet esprit, nos travaux ont exploité un ensemble de traitements automatiques pour effectuer la reconnaissance des émotions. Nous avons notamment identifié des points d’ancrage complémentaires de la parole (e.g., pseudo-phonèmes) pour extraire plusieurs types de paramètres (e.g., acoustique et prosodique) sur le signal. Des techniques de fusion ont aussi été employées pour estimer la contribution de ces approches dans la tâche de reconnaissance. De plus, un effort a été tout spécialement porté sur le développement de modèles non-conventionnels du rythme, puisque cette composante apparaît clairement comme étant sous modélisée dans les systèmes état-de-l’art. Les expériences effectuées dans cette thèse visent à démontrer la pertinence des points d’ancrage de la parole et des modèles du rythme pour identifier les paramètres corrélés aux émotions prototypiques ou spontanées.