Home » Projet » ACDC

ACDC

Projet ACDC – Apprentissage Contrefactuel pour Data-to-text Contrôlé

Le projet ACDC s’appuie sur les avancées en génération de la langue via des architectures neuronales, pour aborder des problématiques de synthèse textuelle d’informations contenues sous forme de données tabulaires. Nous travaillons particulièrement sur la recherche d’invariance dans les données d’entrée, la définition et l’apprentissage d’opérateurs de sélection des informations saillantes qu’ils contiennent, et la personnalisation des sorties produites. On propose de s’appuyer sur des techniques d’apprentissage profond et par renforcement, impliquant l’inférence, la manipulation et le décodage de représentations d’opérations de synthèse de contenu dans un espace sémantique continu.

Le contexte

La très grande disponibilité des données est un fait bien établi dans notre société. Que les données proviennent de textes, de traces d’utilisateurs, de capteurs, de robots, ou encore de bases de connaissances, l’un des défis communs est d’accéder rapidement aux informations contenues dans ces données. Une des réponses à ce défi consiste à générer des synthèses textuelles des données considérées, le langage naturel présentant de nombreux avantages en terme d’interprétabilité, de compositionnalité, d’accessibilité et de transférabilité. La génération de descriptions textuelles constitue un problème qui fait référence à un champ émergent dans le domaine du traitement du langage naturel, appelé Data-to-Text

Les objectifs

L’objectif du projet est de produire des espaces de représentation réguliers, encodant divers types de symétrie sémantique des opérateurs appliqués aux contenus, permettant de contrôler le mode de compression des textes générés, en fonction d’un tableau d’entrée. Ce projet se démarque car il propose de s’intéresser à l’expression des opérateurs d’extraction, afin de gagner en interprétabilité des modèles, ainsi qu’en capacité de contrôle sur les textes générés. 

Notre démarche est donc de chercher à déduire les opérateurs d’extraction de contenu permettant de passer d’un tableau à un texte observé, en ayant pour but d’avoir un apprentissage robuste, qui soit à la fois fortement généralisable et contrôlable par un utilisateur. Les défis que ce projet relève sont donc :

Les résultats

Si l’on n’ambitionne pas dans ce projet d’atteindre un niveau humain pour interpréter des tableaux de données, nous sommes convaincus que les méthodes que l’on envisage auront un fort impact pour la communauté scientifique, car ils définissent des mécanismes d’adaptation haut-niveau pour la compréhension des données, dans les cadres applicatifs visés. Les avancées récentes en apprentissage profond (e.g. les transformeurs structurels), nous permettent d’envisager sereinement ce genre d’objectifs, qui constitueront un pas important pour la communauté vers des systèmes généralisables et personnalisables, dont l’apprentissage ne se contente pas d’imiter les sorties observées mais recherche à combiner des stratégies d’extraction complexes pour répondre à des besoins peu définis. 

Partenariats et collaborations

Le projet est coordonné par Sylvain Lamprier, Chercheur à l’ISIR et Maître de Conférences en informatique à Sorbonne Université. Le consortium est composé de la manière suivante :

Membres du projet