Projet MaTOS – Machine Translation for Open Science
Le projet MaTOS s’intéresse à la traduction automatique (TA) de documents, en étudiant aussi bien aux problèmes de modélisation terminologique que les problèmes de traitement du discours et de son organisation dans un cadre de génération automatique de texte. Il comprend enfin un volet portant sur l’étude des méthodes d’évaluation et une expérimentation à grande échelle sur l’archive HAL.
Le contexte
L’anglais scientifique est la lingua franca utilisée dans de nombreux domaines scientifiques pour publier et communiquer les résultats de la recherche. Pour que ces résultats soient accessibles pour les étudiant·e·s, les journalistes scientifiques ou pour les décideurs·euses, une traduction doit toutefois s’opérer. La barrière de la langue apparaît donc comme un obstacle qui limite ou ralentit la dissémination des connaissances scientifiques. La traduction automatique peut-elle aider à relever ces défis ?
Le projet MaTOS – Machine Translation for Open Science (ou Traduction automatique pour la science ouverte) – est un projet ANR qui a pour objectif de proposer de nouvelles méthodes pour la traduction automatique pour des documents complets, qui posent des problèmes spécifiques aux systèmes de traduction actuels. En appliquant ces méthodes à des textes scientifiques, MaTOS aidera à fluidifier la circulation et la diffusion des connaissances scientifiques par une traduction automatique améliorée.
Les objectifs
Le projet MaTOS (Machine Translation for Open Science) vise à développer de nouvelles méthodes pour la traduction automatique intégrale de documents scientifiques, ainsi que des métriques automatiques pour évaluer la qualité des traductions produites. Notre principale cible applicative est la traduction d’articles scientifiques entre le français et l’anglais, pour laquelle des ressources linguistiques peuvent être exploitées pour obtenir des traductions plus fiables, aussi bien dans une optique d’aide à la publication que pour des besoins de lecture ou de fouille de textes. Les efforts pour améliorer la traduction automatique de documents complets sont toutefois freinés par l’incapacité des métriques automatiques existantes à détecter les faiblesses des systèmes comme à identifier les meilleures façons d’y remédier. Le projet MaTOS se propose d’aborder ces deux difficultés de front.
Les résultats
Ce projet s’inscrit dans un mouvement visant à automatiser le traitement d’articles scientifiques. Le domaine de la traduction automatique n’échappe pas à cette tendance, en particulier pour ce qui concerne le domaine bio-médical. Les applications sont nombreuses : fouille de textes, analyse bibliométrique, détection automatique de plagiats et d’articles rapportant des conclusions falsifiées, etc. MaTOS ambitionne de tirer profit des résultats de ces travaux, mais également d’y contribuer de multiples manières :
- en développant de nouvelles ressources ouvertes pour la traduction automatique spécialisée ;
- en améliorant, par l’étude des variations terminologiques, la description des marqueurs de cohérence textuelle pour les articles scientifiques ;
- en étudiant de nouvelles méthodes de traitement multilingue pour ces documents ;
- en proposant des métriques dédiées à la mesure des progrès pour ce type de tâches.
Le résultat final permettra, par une traduction améliorée, de fluidifier la circulation et la diffusion des savoirs et des connaissances scientifiques.
Partenariats et collaborations
Coordonné par François Yvon, chercheur à l’ISIR (équipe MLIA) de Sorbonne Université, le projet MaTOS réunit trois autres partenaires :
- le CLILLAC (Centre de linguistique inter-langues, de lexicologie, de linguistique anglaise et de corpus-atelier),
- l’Inist (Institut de l’Information Scientifique et Technique),
- et l’Inria.
Projet « Le langage et sa sémantique »
Le contexte
Ce groupe de travail s’intéresse aux différentes formes de langage (texte écrit et langage oral, parole et signaux sociaux, geste, visage, etc.) ainsi qu’à la notion de sémantique qui en découle. A l’intersection entre le traitement automatique du langage, la perception, les sciences cognitives et la robotique, le langage soulève de nombreux enjeux dérivant de l’analyse à la génération, que ce soit dans un contexte individuel ou interactif.
Voici une liste non exhaustive d’exemples d’applications tirées de nos domaines de recherche :
- Prise en compte des hésitations, du rire et autres signaux sociaux
- Lien parole et comportements non verbaux ;
- Dialogues contextualisés (historique, tâche, interaction) / Systèmes de questions-réponses ;
- Synthèse textuelle d’information et d’interaction ;
- Recommandation et recherche d’information ;
- Analyse et représentation de la sémantique ;
- Variation de style ou de contenu.
Les objectifs
L’objectif de ce groupe est de rassembler des chercheuses et chercheurs ayant des expertises différentes autour du langage. A ce jour, les activités mises en place sont essentiellement des groupes de discussion ou présentation scientifiques dans l’objectif de faire émerger des centres d’intérêts communs.
Sur le long terme, un des enjeux sera de mettre en place des co-supervisions de stagiaires et/ou doctorantes et doctorants autour de cette thématique ou des mini-projets scientifiques.
Partenariats et collaboration
Le projet « Le langage et sa sémantique » est un projet fédérateur, interne à l’ISIR, qui n’implique pas de collaboration extérieure au laboratoire.
Contact du projet : projet-federateur-langage(at)listes.isir.upmc.fr
Projet Learn2Grasp : Learning Human-like Interactive Grasping based on Visual and Haptic Feedback
Le projet Learn2Grasp a pour but de développer des stratégies interactives de saisie d’objets dans des environnements encombrés en utilisant un bras robotique et une main dextre très sensible. Les stratégies de saisie seront apprises à l’aide de méthodes d’apprentissage par renforcement profond dans une simulation et sur robot réel, en utilisant des informations provenant de caméras RGB-D et des capteurs tactiles. La saisie est une tâche difficile pour l’apprentissage car il s’agit d’un problème à récompenses rares. Pour résoudre ce problème, deux approches seront combinées : une initialisation à partir de démonstrations par un humain avec une interface de téléopération immersive et une exploration des comportements améliorée par des algorithmes de qualité-diversité.

Le contexte
Les approches existantes de la manipulation fondées sur la théorie du contrôle sont efficaces mais requièrent habituellement un modèle précis des objets à saisir et de leur environnement. Inversement, les méthodes reposant sur l’apprentissage peuvent être entraînées de bout en bout sans un modèle élaboré de l’environnement, mais elles sont souvent inefficaces sur les problèmes d’exploration difficile, et demandent des gros volumes de données d’entraînement. Une troisième possibilité est d’apprendre à partir de démonstrations humaines, mais la généralisation au-delà des conditions des démonstrations est difficile.
Le partenariat franco-allemand Learn2Grasp, fait intervenir deux partenaires complémentaires pour résoudre ce problème. L’Université de Bonn a une expérience reconnue en perception visuelle, modélisation de scène et apprentissage par démonstration, et Sorbonne Université a une expertise en apprentissage d’actions et stratégies d’exploration efficace dans des contextes de récompense rare. Les deux partenaires utiliseront des plateforme robotiques modernes intégrant des mains dotées de capacités tactiles avancées.
Les objectifs
Les objectifs scientifiques du projet sont les suivants :
- Coupler les méthodes de modélisation et d’analyse de scènes développées par Bonn et les techniques de génération de politiques diverses de Sorbonne Université, de façon à développer une méthode de génération de mouvements de saisie robuste, efficace, et économe en données et en calcul.
- Intégrer la modalité tactile avec les méthodes de perception basée sur la vision de façon a apprendre des politiques en boucle fermée plus flexibles et robustes.
- Permettre un apprentissage sur des données hybrides, exploitant au mieux des données issues de simulations, de démonstrations humaines (par une interface de téléopération) et d’expériences sur système réel.
Ces tâches sont structurées en 4 unités de travail :
- WP1 : Modélisation et prédiction de scène structurée et multimodale (Leader : Université de Bonn),
- WP2 : Apprentissage de la saisie interactive (Leader : Sorbonne Université),
- WP3 : Intégration technique (Leader : University of Bonn),
- WP4 : Management et collaboration scientifique (Leader : Sorbonne Université).

Les résultats
Le projet aura pour issue la réalisation d’un système intégré faisant appel aux technologies de perception visuelle et tactile développées pour construire des représentations de la scène, et utilisant de ces représentations pour apprendre efficacement, avec un volume de données non-simulées réduit, des politiques en boucle ouverte et en boucle fermée diverses permettant une saisie robuste en environnement encombré. Ce système devra être évalué sur environnement simulé et réel.
Un autre objectif du projet Learn2Grasp est de renforcer les liens et la collaboration scientifique entre l’équipe AIS de Bonn et l’ISIR à Sorbonne Université, de façon à développer un pôle d’expertise compétent sur tous les aspects de l’apprentissage pour la manipulation d’objets, allant de la perception et la création de représentations jusqu’à la génération d’actions.
Partenariats et collaborations
Le projet Learn2Grasp (réf. ANR-21-FAI1-0004) est une collaboration de recherche entre :
- l’équipe AIS de l’Université de Bonn,
- et l’ISIR de Sorbonne Université.
Cette collaboration est menée dans le cadre de l’appel à projets bilatéral franco-allemand en intelligence artificielle (MESRI-BMBF) 2021. Sa réalisation s’échelonne sur 4 ans, de 2021 à 2025.
Il est coordonné à Sorbonne Université par Alex Coninx, maître de conférences dans l’équipe AMAC de l’ISIR, et à l’université de Bonn par Prof. Dr. Sven Behnke, responsable de l’équipe AIS (Autonomous Intelligent Systems).
Projet COST – Modélisation des tâches de recherche complexes
Les moteurs de recherche, et plus généralement les systèmes de recherche, constituent le principal accès à au Web – une bibliothèque numérique mondiale, en permettant aux personnes d’effectuer des tâches de recherche. Dans le projet CoST, nous envisageons de passer de moteurs de recherche à des moteurs d’accomplissement de tâches, en aidant de manière dynamique les utilisateurs à prendre les meilleures décisions, leur permettant ainsi d’accomplir des tâches de recherche multi-étapes et complexes. Cela nécessite le développement (1) de modèles plus prévisibles et automatiques de l’interaction utilisateur-système et des tâches de recherche et (2) de modèles d’accès à l’information plus orientés vers les tâches.
Le contexte
Au cours des dernières années, le niveau de complexité des tâches de recherche a considérablement augmenté, passant de tâches simples comme la recherche de faits à des tâches plus intensives axées sur les connaissances, comme la recherche par hypothèse pour le diagnostic médical ou l’apprentissage humain à des fins éducatives. Ces tâches s’étalent sur plusieurs sessions, nécessitent une interaction soutenue entre l’utilisateur et le système, et sont structurées en plusieurs sous-tâches et/ou plusieurs sujets. Si les systèmes de recherche actuels sont très efficaces pour les tâches simples de consultation d’information (recherche de faits), ils sont incapables de guider les utilisateurs engagés dans des processus de recherche complexes. Ainsi, paradoxalement, alors que nous considérons aujourd’hui que la recherche d’informations est « naturelle » et « facile », les systèmes de recherche ne sont pas encore en mesure de fournir un support adéquat pour réaliser un large éventail de tâches de recherche dans la vie réelle.
Les objectifs
- Modéliser des modèles de comportement de recherche à partir des interactions des utilisateurs. L’objectif est d’extraire des modèles de comportement de haut niveau des utilisateurs en reliant conjointement les multiples interactions observables des utilisateurs (par exemple, la reformulation des requêtes, les clics) aux sous-tâches et aux attributs des tâches (par exemple, le niveau de complexité cognitive) et au contexte cognitif de l’utilisateur (par exemple, la connaissance du domaine).
- Apprendre des représentations de tâches de recherche complexes. Par analogie avec l’importance de la représentation des requêtes et des documents dans les modèles traditionnels de RI, cette étape est fondamentale pour la conception de modèles d’accès à l’information basés sur les tâches. Dans CoST, nous essayons de construire les représentations des tâches qui soutiennent leur achèvement sur la base d’une assistance pilotée par le système.
- Conception de modèles d’accès à l’information axés sur les tâches. Nous considérons ici le problème de l’adéquation entre la pertinence de l’information et la réalisation de la tâche. Seuls quelques travaux récents ont abordé ce défi dans le contexte de tâches spécifiques. Notre objectif dans le projet CoST est de fournir des solutions aux tâches de recherche complexes génériques en s’appuyant sur les représentations apprises et la compréhension des capacités de recherche des utilisateurs cognitifs.
Les résultats
Les résultats attendus pour le projet consiste en :
- Un ensemble de données avec des journaux d’utilisateurs (générés lors de tâches de recherche complexes, en français).
- Des publications dans les principales conférences et revues sur la RI.
Partenariats et collaborations
Le consortium du projet est composé de :
- L’ISIR. Objectif : Modèles pour les utilisateurs engagés dans des tâches de recherche complexes.
- Le laboratoire Cognition, Langues, Langage, Ergonomie de Toulouse 2 (CLLE). Objectif : Identifier les processus et stratégies cognitifs développés par les utilisateurs finaux au cours de tâches d’apprentissage humain cognitif afin d’améliorer les modèles cognitifs de recherche d’information utilisés au cours de la première étape de la récupération.
- Le laboratoire d’Informatique de Grenoble (LIG). Objectif : Modéliser la recherche par extraction basée sur les tâches.
- L’Institut de Recherche en Informatique de Toulouse (IRIT). Objectif : Modéliser les représentations des tâches et sous-tâches de recherche et Identifier des modèles connexes de comportements d’utilisateurs dans les sessions de recherche.
Projet ANR https://www.irit.fr/COST/
Projet ADONIS : Asynchronous Decentralized Optimization of machiNe learnIng modelS
Les modèles modernes d’apprentissage en profondeur, tout en fournissant des résultats de pointe sur divers benchmarks, deviennent prohibitifs en termes de calcul. Le parallélisme est l’une des principales caractéristiques qui permet aux modèles à grande échelle d’être entraînés de bout en bout dans un délai raisonnable. En pratique, ce parallélisme revient à répliquer le modèle sur plusieurs GPU (Graphics Processing Unit) coordonnés par un CPU (Central Processing Unit). Cela garantit que toutes les opérations sont homogènes et synchrones, ce qui est nécessaire lors de la formation avec rétropropagation. Le projet ADONIS explore les moyens théoriques et pratiques de former des modèles statistiques de manière décentralisée et asynchrone. L’objectif ultime est de tirer parti de la puissance de calcul potentiellement énorme cachée dans l’Internet des objets et de la mettre à la disposition des praticiens de l’apprentissage automatique.

Le contexte
Les modèles d’apprentissage automatique modernes, généralement des modèles de langage à la pointe de la technologie, nécessitent d’utiliser des ressources informatiques considérables. Le parallélisme des données s’est concentré sur la distribution des calculs de manière centralisée, avec une gamme de GPU gérés par un CPU central. Toute cette coordination est nécessaire pour former des modèles à grande échelle, car l’algorithme de rétropropagation largement utilisé nécessite des calculs en série à travers les couches. Alors qu’un nombre croissant d’appareils informatiques devient disponible sur Internet, peu de littérature traite de la formation dans un environnement hétérogène et peu fiable. Le projet ADONIS explore les problèmes posés lors de la formation d’un modèle statistique sur un cluster de dispositifs hétérogènes avec une connectivité variable. Les membres du projet de l’ISIR ont obtenu des résultats encourageants vers l’optimisation asynchrone décentralisée. Ce projet est motivé par le fait que si la littérature couvre les algorithmes synchrones, la décentralisation et l’asynchronisme restent difficiles à étudier, en particulier dans le cas de l’apprentissage en profondeur. L’apport de l’ISIR en optimisation convexe distribuée est l’occasion d’étudier le problème d’un point de vue théorique, tandis que son expérience en apprentissage décentralisé sera utile pour souligner la pertinence pratique des apports.

Les objectifs
- Le premier objectif du projet est de dériver un cadre théorique pour rendre compte de la dynamique de formation qui doit être modélisée pour le cas d’utilisation en question. À savoir, la formation d’un modèle statistique sur un cluster d’appareils hétérogènes avec une connectivité potentiellement mauvaise et une topologie variable devrait bénéficier de l’étude de l’optimisation décentralisée asynchrone.
- De plus, pour évaluer dans quelle mesure les résultats théoriques atteignent leur objectif dans des cas d’utilisation réels, l’objectif du projet est de dériver des algorithmes compétitifs par rapport à leurs homologues traditionnels.
- Enfin, le projet propose de dériver une procédure objective facilement implémentable pour évaluer les performances de sorte que tout chercheur puisse reproduire tout résultat asynchrone dans un environnement contrôlé et le comparer à ses propres contributions.
Les résultats
Le projet ADONIS est motivé par une littérature en émergence lente mais plutôt dispersée en optimisation décentralisée asynchrone. Le PI a initié une ligne de travail sur l’apprentissage glouton qui permet de briser le verrou imposé par l’algorithme traditionnel de rétropropagation. Bien que ce travail montre des résultats prometteurs sur des jeux de données du monde réel, une première ligne de résultats théoriques est attendue de l’étude de l’optimisation convexe asynchrone décentralisée. À savoir, les taux de convergence optimaux et les conditions sur la matrice de connectivité variant dans le temps devraient être dérivés prochainement. Compte tenu de certaines connaissances théoriques sur la dynamique de formation décentralisée, l’un des objectifs est d’adapter les performances de l’apprentissage glouton découplé à des ensembles de données tels que Imagenet. Une meilleure compréhension de l’impact des astuces d’ingénierie nécessaires pour faire face à la contrainte de ressources est attendue, plus précisément sur les stratégies de quantification et l’utilisation d’un tampon de relecture. Enfin, un ensemble de procédures objectives pour évaluer les performances du modèle devrait émerger de l’expérimentation extensive prévue au cours du projet.
Partenariats et collaborations
Le projet coordonné par l’équipe MLIA est structuré autour de plusieurs organismes :
- le MILA – Institut québécois d’intelligence artificielle de Montréal,
- le centre INRIA de l’Université de Lille,
- et de l’Ecole Polytechnique de l’Université Paris-Saclay.
Projet SESAMS : SEarch-oriented ConverSAtional systeMS
Jusqu’à présent, dans le cadre de la recherche traditionnelle sur la recherche d’information (RI), le besoin d’information de l’utilisateur est représenté par un ensemble de mots-clés et les documents renvoyés sont principalement déterminés par leur inclusion dans ces mots-clés.
Le projet SESAMS envisage un nouveau paradigme dans la RI dans lequel l’utilisateur peut interagir avec le moteur de recherche en langage naturel par l’intermédiaire d’un système conversationnel. Nous appelons cela des systèmes conversationnels orientés recherche. Plusieurs défis importants sont sous-jacents ce nouveau paradigme, que nous aborderons dans ce projet :
- comprendre le besoin d’information de l’utilisateur en exploitant à la fois les interactions en langage naturel et le feedback implicite des utilisateurs ;
- concevoir un système proactif qui anticipe les actions des utilisateurs et leur intention de recherche en sollicitant directement l’utilisateur ;
- et évaluer ce nouveau paradigme en concevant de nouveaux cadres d’évaluation théoriques et pratiques pour les systèmes conversationnels orientés recherche et en construisant des ensembles de données à grande échelle adaptés qui permettraient d’apprendre et d’évaluer les modèles proposés.

Le contexte
La RI conversationnelle a une forte relation avec les systèmes de dialogue (chat-bots). Dans les deux cas, une conversation à plusieurs tours est établie entre l’utilisateur et le système. Cependant, l’objectif de la RI conversationnelle diffère de celui d’un système de bavardage général : l’objectif est de trouver plus facilement les informations pertinentes souhaitées d’une manière plus naturelle, plutôt que de simplement maintenir la conversation. Elle est également différente d’une conversation orientée vers une tâche dans un monde fermé, car aucun modèle basé sur un domaine en particulier domaine ne peut être construit pour la RI dans un domaine ouvert.
La RI conversationnelle est également liée aux questions-réponses (QA). En effet, la RI est généralement utilisée comme première étape des systèmes de QA pour localiser un petit ensemble de documents ou de passages candidats dans lesquels des réponses peuvent être trouvées. Les moteurs de recherche actuels incluent également les systèmes de QA en tant que sous-module, car des questions de plus en plus complètes sont soumises aux moteurs de recherche. Cependant, une grande différence entre la RI conversationnelle et la QA est qu’un besoin d’information ne peut généralement pas être décrit par une question précise. La réponse à une telle requête n’est pas non plus un type d’entité spécifique, mais toute information pertinente. Par conséquent, la RI conversationnelle doit répondre à des demandes d’utilisateurs plus larges que la QA.
Les objectifs
Nous présentons deux innovations majeures dans ce projet :
- Un nouveau paradigme de RI qui transforme le cadre bien établi de la RI ad-hoc en un cadre naturaliste. Cela implique la conception de modèles de RI capables de 1) capturer le besoin d’information des utilisateurs dans un contexte hétérogène (caractérisé par des interactions en langage naturel et le feedback implicite des utilisateurs) et 2) de rendre la session de recherche proactive dans laquelle le système anticipe ou affine activement le besoin des utilisateurs.
- De nouveaux modèles d’apprentissage automatique exploitant les interactions des utilisateurs de RI qui imposent 1) la prise en compte des particularités des actions de RI (par exemple, la reformulation des requêtes, l’expression des préférences en matière de documents, etc.) et 2) l’optimisation de l’efficacité globale de la recherche.
En outre, nous relevons les défis suivants :
- Exploitation d’un contexte hétérogène. Les différents niveaux d’interactions (utilisateur-système conversationnel et utilisateur-moteur de recherche) fournissent un contexte de session riche qu’il est crucial d’exploiter. Cependant, ces interactions sont hétérogènes puisqu’elles comprennent à la fois des interactions exprimées en langage naturel et des retours implicites collectés à travers les logs de recherche utilisateurs. Une question clé du projet est d’exploiter ce contexte hétérogène et de définir comment ces deux types d’information pourraient être pris en compte à la fois pour comprendre le besoin d’information des utilisateurs et pour engager le système dans des interactions proactives.
- Apprendre avec une petite quantité de données. Le choix méthodologique de concevoir des modèles formels basés sur l’apprentissage profond donne lieu au défi critique de la quantité de données pour l’apprentissage de modèles neuronaux profonds. C’est particulièrement le cas dans ce projet puisque le cadre adressé basé sur des systèmes conversationnels orientés recherche est un nouveau paradigme qui a émergé très récemment. Par conséquent, à notre connaissance, il n’existe pas de jeux de données impliquant simultanément les interactions des utilisateurs avec les moteurs de recherche et les systèmes conversationnels. Un autre enjeu du projet est d’intégrer des techniques basées sur l’augmentation des données ou la simulation d’utilisateurs pour apprendre les modèles que nous proposons.
- Concevoir des cadres d’évaluation adaptés. Il s’agit d’un défi majeur dans le projet puisque nous abordons un nouveau paradigme de RI qui implique un cadre plus complexe et impose la conception de nouveaux ensembles de données, protocoles, métriques et lignes de base. En tenant compte du fait que la construction d’ensembles de données à grande échelle basés sur les logs de recherche des utilisateurs réels pourrait être longue et coûteuse, ce défi impose également de simuler les journaux des utilisateurs, ce qui n’est pas évident dans un cadre aussi complexe avec des interactions hétérogènes.
Les résultats
La contribution attendue de ce projet est double, à la fois dans les domaines de l’apprentissage profond et de la RI :
- l’introduction et la mise en œuvre d’un nouveau paradigme en RI reposant sur des systèmes conversationnels orientés recherche ;
- l’introduction de l’humain dans le cadre de l’apprentissage automatique, en prenant en considération les interactions des utilisateurs avec le moteur de recherche et le système conversationnel.
Les participants attacheront une importance particulière à la publication de la contribution proposée dans des conférences et des revues de haut niveau dans les communautés de la recherche d’information (par exemple, SIGIR, CIKM, ECIR) et de l’apprentissage automatique (par exemple, NIPS, ICML, ICLR). Nous participerons également à des ateliers traitant de ce paradigme émergent (CAIR à SIGIR ou SCAI à ICTIR). Tous les codes sources des algorithmes proposés seront mis à la disposition de la communauté en open source.
Partenariats et collaborations
SESAMS est un projet développé à l’ISIR sous la direction de Laure Soulier (Maîtresse de Conférences) qui est spécialisée dans la recherche d’information (en particulier, la RI interactive) et l’apprentissage par représentation. Le projet est mené en collaboration avec des spécialistes aux compétences complémentaires :
- Ludovic Denoyer de Sorbonne Université (apprentissage par renforcement et réseaux de neurones profonds),
- Vincent Guigue de l’ISIR (apprentissage par représentation et traitement du langage naturel),
- Philippe Preux du CRIStAL/Inria Lille (apprentissage par renforcement et réseaux de neurones profonds),
- et Jian-Yun Nie du DIRO/Université de Montréal (recherche d’information et apprentissage profond).
Projet ACDC – Apprentissage Contrefactuel pour Data-to-text Contrôlé
Le projet ACDC s’appuie sur les avancées en génération de la langue via des architectures neuronales, pour aborder des problématiques de synthèse textuelle d’informations contenues sous forme de données tabulaires. Un accent particulier est porté sur la recherche d’invariance dans les données d’entrée, l’extraction d’opérateurs de compression haut-niveau et la personnalisation des sorties produites. On propose de s’appuyer sur des techniques d’apprentissage profond et par renforcement, impliquant l’inférence, la manipulation et le décodage de représentations d’opérations de synthèse de contenu dans un espace sémantique continu. L’objectif est de produire des espaces de représentation réguliers, encodant divers types de symétrie sémantique des opérateurs appliqués aux contenus, permettant de contrôler le mode de compression des textes générés, en fonction d’un tableau d’entrée. L’inférence d’opérateurs explicites envisagée dans ce projet permettra de mettre en place des modèles interprétables, facilitant ainsi l’analyse des synthèses produites, et la planification de rapports textuels cohérents, détaillant divers aspects saillants des données d’entrée.

Le contexte
La très grande disponibilité des données est un fait bien établi dans notre société. Que les données proviennent de textes, de traces d’utilisateurs, de capteurs ou encore de bases de connaissances, l’un des défis communs est de comprendre et d’accéder rapidement aux informations contenues dans ces données. Une des réponses à ce défi consiste à générer des synthèses textuelles des données considérées, le langage naturel présentant de nombreux avantages en terme d’interprétabilité, de compositionnalité, d’accessibilité et de transférabilité. Néanmoins, si la génération de résumés pour données textuelles est un problème pour lequel les solutions commencent à être satisfaisantes, la génération de descriptions textuelles dans un cadre plus général (par exemple, conditionnelles à des données numériques ou structurées) constitue toujours un problème particulièrement difficile. Ce problème fait référence à un champ émergent dans le domaine du traitement du langage naturel, appelé Data-to-Text, possédant de très nombreuses applications, notamment dans les domaines scientifiques, du journalisme, de la santé, du marketing, de la finance, etc.
L’ensemble des approches récentes de data-to-text travaillent de manière supervisée, sans représentation explicite des opérateurs d’extraction qu’ils manipulent pour passer du contenu tabulaire global à la synthèse textuelle. Ce projet se démarque car il propose de s’intéresser à l’expression de ces opérateurs, afin de gagner en interprétabilité des modèles, ainsi qu’en capacité de contrôle sur les textes générés. En outre, si dans un cadre figé bien défini, avec de nombreuses ressources pour la supervision, il est possible de s’affranchir de l’expression explicite de ces opérateurs, car le mode de sélection peut être implicitement adapté en fonction des sorties désirées, ce n’est plus envisageable dans un cadre plus large avec une grande hétérogénéité des données d’entrée et des attendus dans un contexte où la supervision est limitée.
Les objectifs
Notre démarche, en forte rupture avec les approches de la littérature, est donc de chercher à inférer les opérateurs d’extraction de contenu permettant de passer d’un tableau à un texte observé, en ayant pour but d’avoir un apprentissage robuste, qui soit à la fois fortement généralisable et contrôlable par un utilisateur.
Les défis que ce projet cible sont donc :
- l’inférence d’opérateurs d’extraction d’information dans les tableaux,
- la gestion de l’hétérogénéité dans les données d’entrée,
- et la synthèse contrôlée de descriptions textuelles.
Le projet sera centré sur deux cas d’étude complémentaires, aux propriétés différentes, dans les domaines de l’analyse de données biologiques et l’analyse de documents d’entreprise. Il est articulé autour de 4 lots de travail :
- le WP1 s’intéresse à l’apprentissage d’opérateurs et l’extraction de contenu,
- le WP2 se focalise sur la planification et la personnalisation des synthèses produites,
- le WP3 concerne la production de données supervisées et l’évaluation des synthèses produites par la communauté biologique,
- le WP4 concerne des problématiques de transfert au cas d’étude financier, où les capacités de supervision sont limitées, mais les enjeux économiques considérables.
Les résultats
Si l’on n’ambitionne pas dans ce projet d’atteindre un niveau humain pour interpréter des tableaux de données, nous sommes convaincus que les méthodes que l’on envisage auront un fort impact pour la communauté scientifique, car ils définissent des mécanismes d’adaptation haut-niveau pour la compréhension des données, dans les cadres applicatifs visés. Les avancées récentes en apprentissage profond (par exemple, transformeurs structurels), nous permettent d’envisager sereinement ce genre d’objectifs, qui constitueront un pas important pour la communauté vers des systèmes généralisables et personnalisables, dont l’apprentissage ne se contente pas d’imiter les sorties observées mais recherche à combiner des stratégies d’extraction complexes pour répondre à des besoins peu définis. Pour la communauté TAL, ce genre d’avancée est cruciale pour définir divers types de systèmes guidés par les données à disposition, plutôt que d’apprendre à simplement imiter des humains. Le séquençage et la planification d’opérateurs est une proposition à fort potentiel pour dépasser les problématiques d’effondrement de postérieure ou de biais d’exposition auxquels sont très souvent confrontés les systèmes de génération de la langue naturelle. Enfin, le domaine de l’apprentissage statistique est confronté à un besoin grandissant de méthodes capables d’expliquer les décisions qu’elles prennent (xAI), portées par diverses politiques pour la protection des individus face aux machines. Un reproche très souvent fait aux architectures neuronales concerne leur opacité, ce projet apporte un élément de réponse important à cette critique, par la définition de modèles d’extraction et de verbalisation basés sur des opérateurs explicites, dont on peut interpréter la sémantique, tout en conservant de grandes capacités d’expressivité.
Pour le domaine biologique, au-delà d’une simple amélioration, par synthèse textuelle, des conditions d’accès aux informations contenues dans les tableaux de données scientifiques, le projet ACDC pourra apporter une aide à la décision importante, en pointant des informations remarquables pouvant suggérer des orientations pour des recherches à mener. Pour le domaine du Document Intelligence, la thématique du data-to-text présente des enjeux considérables pour le traitement d’informations critiques dans les secteurs de la finance, de la gestion des risques et du suivi des réglementations. L’analyse et l’interprétation des données produites par les entreprises est un enjeu crucial pour la réglementation, le suivi, l’analyse et l’amélioration du fonctionnement de structures géantes et mondialisées dont l’influence est aujourd’hui considérable. Les impacts à court terme du projet correspondent à l’intégration de méthodes efficaces pour extraire les éléments importants des tableaux de manière facilement interprétable par des auditeurs financiers, comme ceux des clients de RECITAL, qui sont confrontés à l’analyse de longs rapport pour prendre des décisions de subvention importantes en fonction des politiques courantes. À plus long terme, on peut envisager que ce genre de projet aboutira à des systèmes capables d’interpréter seuls des rapports entiers et émettre un avis circonstancié, avec prise en compte de la multi-modalité des documents analysés. Ce projet est un pas important dans ce sens et ouvre de nombreuses possibilités pour le futur.
Partenariats et collaborations
Le consortium réunit trois partenaires avec de fortes compétences en apprentissage profond et par renforcement pour la modélisation de données non structurées, le data-to-text, la recherche d’information et la génération du langage naturel.
- L’équipe MLIA de Sorbonne Université, intégrée depuis peu au laboratoire ISIR, est spécialisée en apprentissage statistique et apprentissage profond. C’est l’une des entités leader en apprentissage profond en France. Sa recherche va de la conception théorique aux développements algorithmiques, pour de nombreux domaines d’application tels que la vision par ordinateur, le traitement du langage naturel et l’analyse de données complexes. L’apprentissage de représentation, l’inférence bayésienne et l’apprentissage par renforcement pour la génération de données structurées sont au cœur de ses recherches depuis de nombreuses années.
- Le LAMSADE, de l’Université Paris Dauphine, est un laboratoire d’Informatique initialement dédié à l’aide à la décision et la recherche opérationnelle, et dont une partie des membres s’est spécialisée dans l’apprentissage profond, notamment pour le traitement et la génération de la langue.
- Le troisième partenaire du projet reciTAL est une PME dont l’activité R&D est centrée sur le traitement automatique du langage. Son implication permet de confronter les avancées du projet à des cas d’usages industriels avec enjeux très importants dans le domaine du Document Intelligence.
- Le Muséum National d’Histoire Naturelle (MNHN – Sorbonne Université) vient compléter le consortium, en y apportant sa grande expertise scientifique dans le domaine de la biologie, pour la spécification des attendus, la constitution des ressources et la validation des sorties générées.