FHF : A Frontal Human Following technology for mobile robots
Les robots suivant les humains sont une fonction efficace et pratique, en particulier dans le contexte de la robotique de service. Cependant, la majorité des recherches existantes se sont concentrées sur le suivi derrière un humain, avec relativement peu d’attention accordée au robot opérant devant l’humain. Ce projet de suivi frontal, où le robot reste dans le champ de vision de l’utilisateur, est plus rassurante et facilite l’interaction. De nouveaux défis se présenteront lors de la mise au point d’un tracker capable d’estimer la pose d’un utilisateur à partir d’un LiDAR 2D à hauteur de genou, en particulier lorsque les jambes sont souvent masquées l’une par l’autre. Il est également nécessaire d’assurer la sécurité de l’utilisateur tout en se demandant comment le robot peut suivre l’utilisateur dans les situations où le robot serait en retard.
Le contexte
Les robots mobiles sont de plus en plus omniprésents dans divers environnements, tels que les centres commerciaux, les hôpitaux, les entrepôts et les usines. Nombre de tâches dans ces applications sont partagées entre les robots et les opérateurs humains par la voix, la vidéo, l’interaction par la force, etc., soit parce que l’expertise ou l’agilité humaine inhérente est requise pour certaines tâches, soit parce que le robot peut fournir une assistance potentielle à l’opérateur. Dans ce projet, nous nous concentrons sur l’étude du suivi automatique de l’utilisateur par le robot mobile basé sur le LiDAR 2D. Les algorithmes communs de suivi à l’arrière maintiennent le robot à une distance de l’utilisateur. Certaines études ont montré que les gens préfèrent voir les robots dans leur champ de vision, et peuvent se sentir mal à l’aise et en danger lorsque les robots apparaissent derrière eux. En outre, les services spécifiques exigent que les robots se présentent devant les utilisateurs. Par exemple, les robots d’assistance agissent comme des chiens d’aveugle pour fournir une aide à la navigation aux malvoyants. Par conséquent, le suivi frontal devient progressivement populaire.
Les objectifs
Les objectifs scientifiques de ce projet sont les suivants :
- Construire un tracker de pose humaine (orientation et position) basé sur le LiDAR 2D à hauteur du genou pour les robots mobiles en étudiant la marche humaine ;
- Collecter des scans LiDAR de différents volontaires ainsi que des données de vérité terrain sur l’orientation humaine afin de construire un modèle basé sur les données pour améliorer l’estimation de l’orientation humaine ;
- Résoudre le problème des jambes se cachant l’une et l’autre lors du balayage en modélisant la marche ou en utilisant des techniques d’apprentissage automatique ;
- Développer un générateur de mouvement permettant au robot de se déplacer devant l’utilisateur en toute sécurité et de manière naturelle.
Les résultats
Douze volontaires (trois femmes et neuf hommes) ont été invités à participer à l’expérience de suivi frontal, et le tracker de posture humaine basé sur la marche humaine a montré de bonnes performances. Les analyses quantitatives ont révélé que l’erreur absolue moyenne (MAE) de position était d’environ 4 cm et que la MAE d’orientation était inférieure à 12 degrés pour la marche complexe.
Les données collectées pendant six heures sur cinq volontaires (une femme et quatre hommes) ont été utilisées pour construire des modèles permettant d’améliorer l’estimation de l’orientation. Grâce à la résolution du problème de retard, le modèle personnalisé a permis d’obtenir une MAE de 4 à 7 degrés pour les cinq volontaires.
Le générateur de mouvement à suivi frontal permet au robot de venir naturellement devant l’utilisateur, toujours à une distance de sécurité d’un mètre au cours de l’expérience. Voir la vidéo pour plus de détails.
Publications
- 2D LiDAR-Based Human Pose Tracking for a Mobile Robot, ICINCO 2023,
- Human Orientation Estimation from 2D Point Clouds Using Deep Neural Networks in Robotic Following Tasks, soumis à IROS 2024,
- Large Workspace Frontal Human Following for Mobile Robots Utilizing 2D LiDAR, soumis à JIRS.
Projet TELIN – The Laughing Infant
Le projet TELIN se concentre sur le développement d’un agent robotique socialement interactif (SIA) capable de reproduire le comportement d’un nourrisson pendant son apprentissage du rire. Ses principaux défis résident dans la modélisation des rires du robot et dans la décision en temps réel de déterminer quand rire, en tenant compte de l’état cognitif des nourrissons, dépassant ainsi les capacités cognitives actuellement supposées.
Pour répondre à ces défis, TELIN compile un vaste corpus d’enregistrements d’enfants riant dans divers contextes, et développe des méthodes d’annotation manuelle et automatique. Le projet analyse ensuite la production de rires chez les nourrissons pour créer un modèle formel. À partir de ce modèle, TELIN développe et évalue un modèle computationnel qui permet au robot de décider et de générer des rires en temps réel lors d’interactions. Cette initiative nécessite une collaboration interdisciplinaire entre la linguistique formelle, l’intelligence artificielle et le traitement du signal audio.
Le contexte
Le rire, l’une des premières formes de communication chez les nourrissons, se manifeste dès l’âge de trois mois, bien avant le langage, les gestes ou la marche. Des études récentes ont mis en lumière le lien étroit entre l’acquisition du rire et des compétences cognitives avancées, notamment liées à la compréhension de la négation, offrant ainsi une perspective intrigante sur l’évolution de la communication humaine.
Le projet The Laughing Infant (TELIN) s’appuie sur une synthèse de recherches variées portant sur l’acquisition du langage, la sémantique et la pragmatique du rire, les Agents Socialement Interactifs (SIA), ainsi que sur l’analyse et la synthèse du rire, combinées à des avancées en matière d’apprentissage automatique. Son objectif est de développer un SIA capable d’imiter un nourrisson pendant l’acquisition du rire, et d’utiliser ce SIA pour évaluer plusieurs algorithmes d’apprentissage. Ces algorithmes prennent en compte différentes modalités d’entrée telles que l’audio, l’expression faciale et le langage, ainsi que divers contextes tels que le jeu avec des jouets et les interactions familiales, pour générer des réponses de rire.
Le projet est soutenu par La Mission pour les Initiatives Transverses et l’Interdisciplinarité (MITI) du CNRS qui soutient des projets de recherche interdisciplinaires en finançant des allocations doctorales d’une durée de trois ans, qui sont associées à un budget de recherche durant les deux premières années.
Les objectifs
Le sujet de thèse de ce projet TELIN est de développer des modèles formels et computationnels qui calculent quand et comment un bébé robot (utilisation du robot Furhat avec un masque de bébé) répond à l’expression et à l’activité d’un participant humain. L’accent est mis sur la production du rire chez les bébés. Cela implique :
- l’analyse d’un corpus de rires de bébés,
- le développement d’une analyse théorique rigoureuse du rire lors d’une interaction entre un parent et des bébés,
- le développement d’un modèle computationnel basé sur une approche d’apprentissage profonde qui simule quand le rire doit être déclenché.
Les modèles seront évalués objectivement ainsi que par des études expérimentales.
Les résultats
L’intégration du langage et du non-verbal est un objectif essentiel pour l’IA. TELIN fait progresser ce domaine en l’étudiant dans un environnement plus simple, mais écologiquement valide, en ce qui concerne la compréhension du langage naturel, l’interaction et la connaissance du monde.
La modélisation du moment où le rire doit se produire dans une interaction entre l’humain et l’IA n’en est qu’à ses débuts. La recherche dans le cadre de TELIN abordera cette question et contribuera à recentrer les efforts dans cette direction. En outre, le développement d’un modèle informatique d’un agent virtuel rieur (intégré dans la plateforme Greta) profitera à la communauté de l’IA en fournissant une nouvelle architecture séquence à séquence.
Enfin, TELIN fournira une plate-forme permettant une étude plus écologique du développement de la communication, étant donné l’accent mis sur l’interaction multimodale. Il fournira des comptes rendus empiriques et formels détaillés de l’émergence du rire, un domaine encore relativement peu exploré. La plateforme SIA issue de TELIN sera disponible pour mener des études humain-agent.
Partenariats et collaborations
Le projet est porté par l’Université Paris-Cité et implique également :
- l’ISIR de Sorbonne Université,
- et le laboratoire Sciences et Technologies de la Musique et du Son (STMS) de Sorbonne Université.
Projet GUIDANCE – « General pUrpose dIalogue-assisted Digital iNformation aCcEss »
Le projet GUIDANCE vise à fédérer la communauté française de recherche en Récupération de l’Information (IR), en réunissant des experts du domaine pour faire progresser le développement de modèles d’Accès à l’Information basés sur le Dialogue (DbIA) exploitant les grands modèles linguistiques (LLM).
Le but du projet est de développer de nouveaux modèles et ressources pour l’accès à l’information interactif, par exemple dialoguer avec un système informatique afin d’accéder à de l’information (éventuellement générée de manière automatique), tout en assurant, d’une part, l’adaptation à des domaines ou langues avec de faibles ressources (par rapport à l’anglais), et d’autre part, l’explicabilité et la véracité des informations générées.
Le contexte
Le projet GUIDANCE s’inscrit dans le contexte des grands modèles linguistiques (LLM) et des systèmes conversationnels (par exemple, ChatGPT, WebGPT), qui ont connu d’importants progrès pratiques au cours des derniers mois. Il vise à mener des recherches sur l’Accès à l’Information Numérique Assisté par Dialogue à Usage Général, en se concentrant particulièrement sur la manière de permettre aux utilisateurs et utilisatrices d’accéder à l’information numérique, dans le but de surmonter plusieurs limitations des LLM actuels :
- Les LLM n’ont pas été conçus avec l’accès à l’information, que ce soit au niveau des tâches de pré-entraînement ou de celles de fine-tuning ;
- Les LLM ont des capacités de généralisation limitées à de nouveaux domaines et/ou langues ;
- La véracité et la fiabilité des résultats sont discutables ;
- Les modèles LLM potentiellement à la pointe de la technologie ne sont pas en accès libre, et la méthodologie scientifique ainsi que l’évaluation adéquate sont à peine décrites dans la littérature scientifique.
Les objectifs
D’un point de vue de la recherche, GUIDANCE aborde quatre défis associés à ce projet :
- Comment concevoir de nouveaux grands modèles linguistiques (LLM) ou réutiliser des LLM pour développer des modèles d’Accès à l’Information basés sur le Dialogue (DbIA) ;
- Comment tirer parti des techniques d’apprentissage machine améliorées par la recherche (ReML) pour améliorer la précision et l’efficacité des systèmes de recherche d’information ;
- Adapter les LLM et développer de nouvelles architectures (pour les modèles DbIA) pour faire face à la faible ressource et à l’adaptation de domaine, en accordant une attention particulière aux langues à ressources faibles ou moyennes (par exemple, l’occitan, le français) ;
- Concevoir des modèles DbIA capables de garantir la véracité et l’explicabilité des informations extraites et synthétisées, tout en préservant la subjectivité de l’utilisateur.
Les résultats
Les résultats attendus du projet GUIDANCE sont multiples, ouvrant la voie à des avancées significatives dans le domaine de l’accès à l’information.
Premièrement, le développement de ressources pour entraîner les modèles d’accès à l’information (mise à disposition de la communauté). Il s’agit de corpus d’apprentissage qui peuvent être utilisés pour entraîner de nouveaux modèles plus puissants.
Deuxièmement, le projet vise à développer de nouveaux modes d’interactions avec les systèmes d’accès à l’information : un moteur de recherche peut être pro-actif pour guider l’utilisateur vers des résultats pertinents (bien plus qu’en proposant les questions proches comme actuellement).
Enfin, la mise à disposition de modèles pré-entraînés pour l’accès à l’information, qui permettront d’utiliser ces modèles interactifs librement, que cela pour la recherche ou bien pour d’autres usages.
Partenariats et collaborations
Porté par Benjamin Piwowarski, chargé de recherche CNRS à l’ISIR (équipe MLIA), le projet GUIDANCE (projet ANR) implique également :
- l’Institut de Recherche en Informatique de Toulouse (IRIT) à travers les deux équipes de recherche IRIS et SIG,
- le Laboratoire d’Informatique de Grenoble (LIG) à travers les équipes de recherche APTIKAL et MRIM,
- et le Laboratoire d’Informatique et Systèmes (LIS) à travers l’équipe de recherche R2I.
Le projet qui a débuté en octobre 2023 rassemble 18 chercheurs et chercheuses de 6 groupes de recherche en Récupération de l’Information (IR) et en traitement du langage naturel (NLP).
Projet NeuroHCI – Prise de décisions multi-échelle avec les systèmes interactifs
Ce projet pluridisciplinaire s’appuie sur les Neurosciences Computationnelles pour développer des modèles IHM du comportement utilisateur-utilisatrice. Il s’agit d’étudier dans quelle mesure on peut transposer les théories, modèles et méthodes des Neurosciences Computationnelles à l’IHM.
Le projet NeuroHCI vise à améliorer la prise de décision humaine dans les mondes physique et numérique dans des contextes interactifs. Les situations dans lesquelles un humain prend une décision avec un système interactif sont variées :
Est-ce que j’utilise mon expérience ou Google Maps pour choisir mon itinéraire ? Est-ce que je réponds à cet e-mail sur mon smartphone ou sur mon PC ? Est-ce que j’utilise des menus ou des raccourcis pour sélectionner cette commande fréquente ? Est-ce que j’utilise le robot chirurgical Da Vinci pour opérer mon patient ou les instruments laparoscopiques traditionnels ? Comment puis-je atteindre cet objet avec ma prothèse robotique ?
La décision peut porter sur un choix complexe dans le monde réel assisté par un ordinateur (par exemple, un traitement médical) ou sur le choix d’une méthode pour réaliser une tâche numérique (par exemple, modifier une photo avec l’outil préféré).
Le contexte
Les neurosciences étudient les phénomènes impliquant à la fois la prise de décision et l’apprentissage chez les humains, mais ont reçu peu d’attention en IHM.
Le projet NeuroHCI est un projet en interaction humain-machine (IHM) qui vise à concevoir des systèmes interactifs développant l’expertise de l’utilisateur-utilisatrice en établissant un partenariat humain-machine. L’interaction avec ces systèmes peut être vue comme un problème de prise de décision à plusieurs échelles :
- Une tâche, par exemple choisir le bon traitement médical sur la base de recommandations basées sur l’IA ;
- Une méthode, par exemple choisir parmi différents dispositifs ou modalités pour réaliser une tâche ;
- Un objet, par exemple avec quel objet physique ou virtuel les utilisateurs-utilisatrices vont interagir ;
- Un mouvement, par exemple quelle trajectoire pour atteindre l’objet cible.
Les objectifs
L’objectif scientifique est de comprendre comment les utilisateurs-utilisatrices prennent des décisions avec des systèmes interactifs et comment ces décisions évoluent dans le temps. En effet, les utilisateurs-utilisatrices développent progressivement une expertise au cours de l’utilisation répétée des systèmes interactifs. Cette expertise influence la façon dont ils/elles prennent leurs décisions. Cela nécessite l’étude simultanée des phénomènes d’apprentissage et de prise de décision qui sous-tendent l’utilisation des systèmes interactifs.
L’objectif applicatif est de concevoir et de mettre en œuvre de meilleurs systèmes interactifs et adaptatifs. L’être humain s’adapte et développe son expertise en utilisant un système interactif. L’objectif ici est que le système, de son côté, évolue également pour s’adapter à ses utilisateurs-utilisatrices, c’est-à-dire qu’il s’habitue à leur comportement et en particulier à leur expertise. Il s’agit donc d’établir un partenariat humain-machine dans lequel les deux acteurs (humain et machine) s’adaptent l’un à l’autre.
Les résultats
Pour atteindre ces objectifs, nous démontrons les avantages de notre approche à travers 3 applications, pour lesquelles des plateformes existent déjà et sont maintenues par les partenaires, mais où des défis scientifiques demeurent pour leur adoption dans le monde réel. Ces trois applications sont :
- les interfaces graphiques intelligentes comme les systèmes de recommandation basés sur l’IA ;
- les systèmes de simulation immersifs offrant un riche retour haptique ;
- et les interfaces cobotiques médicales qui visent à restaurer ou à améliorer la capacité des humains à interagir avec des objets dans le monde réel.
Notre hypothèse de recherche est qu’il est nécessaire de développer des modèles computationnels robustes d’apprentissage et de prise de décision en IHM. Les modèles computationnels permettent d’expliquer et de prédire le comportement humain en synthétisant des phénomènes complexes de manière testable et réfutable. En IHM, ils servent à évaluer la qualité d’une interface sans avoir à mener des études d’utilisateurs-utilisatrices longues et coûteuses. Lorsque ces modèles sont robustes, ils peuvent être intégrés dans des systèmes interactifs pour optimiser l’interaction et adapter l’interface en fonction de l’expertise et/ou des actions des utilisateurs-utilisatrices.
Partenariats et collaborations
Porté par Gilles Bailly, directeur de recherche CNRS à l’ISIR, le projet ANR NeuroHCI est un projet inter-équipes interne à l’ISIR, qui implique plusieurs membres du laboratoire.
Projet Tralalam – Translating with Large Language Models
Le projet TraLaLaM vise à explorer l’utilisation de grands modèles de langue (LLM) pour la traduction automatique, en posant deux questions principales :
- dans quels scénarios les informations contextuelles peuvent-elles être utilisées efficacement par le biais de prompts ?
- pour les scénarios à faibles ressources (en mettant l’accent sur les dialectes et les langues régionales), les LLM peuvent-ils être affinés efficacement sans aucune donnée parallèle ?
Accepté dans le cadre de l’appel ANR 2023 portant sur les très grands modèles de langue (LLM), le projet se positionne au croisement de l’intelligence artificielle, de la linguistique et de la traduction automatique.
Le contexte
Entraînés sur des giga corpus multilingues, les modèles de langue (LLM) peuvent être employés à diverses fins. Une des finalités possibles est la traduction automatique, tâche pour laquelle l’approche à base de LLM permet de répondre simplement à deux points difficiles :
- la prise en charge d’un contexte étendu et enrichi (par des exemples ou des entrées de dictionaires terminologiques) ;
- et la prise en charge de domaines et directions de traduction pour lesquels les données d’apprentissage parallèles sont lacunaires, voire inexistantes.
Les objectifs
L’objectif principal du projet est d’analyser en profondeur la pertinence des LLM.
D’une part, nous nous concentrerons sur des cas d’usage industriels en étudiant des scénarios d’adaptation au domaine, de prise en compte de données terminologiques ou de mémoires de traduction, qui correspondent à des situations réalistes. D’autre part, nous nous intéresserons à la réalisation d’un système de traduction automatique depuis et vers toutes les langues de France à partir d’un LLM massivement monololingue et entrainé avec peu (voire pas du tout) de données parallèles.
Des défis scientifiques significatifs sont à relever, tels que l’extension de modèles pré-entrainés à de nouvelles langues très peu dotées ou encore la prise en charge de textes très idiomatiques, présentant de nombreuses instances d’alternance codique entre une langue minoritaire et le français.
Les résultats
Du point de vue industriel, Tralalam vise à évaluer les coûts et compromis computationnels VS la performance induits par l’utilisation des LLM en traduction automatique. Ces nouvelles architectures ont le potentiel de transformer en profondeur la manière d’entrainer et de déployer opérationnellement des systèmes de traductions. Les outils actuels sont soit toutefois trop gourmands en calcul, soit bien moins performants que les modèles de traduction optimisés pour cette seule tâche.
Concernant les langues de France, en partenariat avec divers acteurs représentant les communautés linguistiques concernées, nous souhaitons aboutir à des solutions opérationnelles pour certaines applications bien ciblées, telles que la traduction de pages Wikipedia, de textes administratifs ou réglementaires, etc.
Partenariats et collaborations
Porté par l’entreprise Systran, le projet Tralalam implique également :
- l’ISIR de Sorbonne Université,
- et l’équipe-projet ALMAnaCH du centre Inria de Paris.
Projet CAVAA – Counterfactual Assessment and Valuation for Awareness Architecture
Le projet CAVAA propose que la conscience serve à la survie dans un monde régi par des états cachés, pour faire face à « l’invisible », des environnements inexplorés aux interactions sociales qui dépendent des états internes des agents et des normes morales. La conscience reflète un monde virtuel, un hybride de preuves perceptives, d’états de mémoire et « d’inobservables » déduits, étendus dans l’espace et le temps.
Le projet CAVAA mettra en œuvre une théorie de la conscience instanciée sous la forme d’une architecture informatique intégrée et de ses composants, de façon à contribuer à l’explication de la conscience dans les systèmes biologiques et à sa conception dans les systèmes technologiques. Le projet concevra les composants informatiques sous-jacents à la perception, la mémoire, la virtualisation, la simulation mentale, et à leur intégration. Puis cette architecture et ses composants seront testés et validés de manière incarnée, dans des robots et des agents artificiels, dans une série de scénarios impliquant l’interaction entre plusieurs humains et agents artificiels, en utilisant des mesures quantitatives standards et des corrélats comportementaux de la prise de conscience. Les scénarios porteront sur la navigation et recherche de ressources par les robots, la robotique sociale, les jeux informatiques et les arbres de décision générés par l’humain pour un coach de santé. Les tests se concentreront sur la résolution de différents compromis, par exemple entre exploration et exploitation, ou entre efficacité de la recherche et robustesse, et évalueront l’acceptabilité d’une telle technologie consciente par les utilisateurs humains.
L’ingénierie de la conscience du projet CAVAA s’accompagne d’un cadre éthique pour les utilisateurs-trices humains et les artefacts conscients dans le spectre plus large de l’IA digne de confiance, en tenant compte des ontologies partagées, de la complémentarité des intentions et de la correspondance des comportements, de l’empathie, de la pertinence des résultats, de la réciprocité, des contrefactuels et des projections vers de nouveaux scénarios futurs, ainsi que de la prévision de l’impact des choix. CAVAA offrira une meilleure expérience à l’utilisateur-trice grâce à sa capacité d’explication, d’adaptation et de lisibilité. Le cadre intégré de CAVAA redéfinit la façon dont nous envisageons la relation entre les humains, les autres espèces et les technologies intelligentes, car il rend visible l’invisible.
Le contexte
Selon Thomas Nagel, les agents conscients ont conscience de ce que c’est que d’être cet agent. Cette définition à la première personne exclut une recherche scientifique à la troisième personne, ce qui conduit à ce que le philosophe David Charlmers appelle « le problème difficile de la conscience », donc à une lacune explicative avec sa solution pragmatique consistant à distinguer la conscience phénoménale de la conscience d’accès. La conscience peut en outre être caractérisée en termes de niveaux, du coma à l’éveil, et de contenu ou de quale concernant la distinction entre le monde extérieur et le soi et le niveau d’abstraction. Face à ces défis définitionnels, les théories de la conscience ont mis l’accent sur différents aspects non exclusifs tels que l’ancrage dans le soi et les contingences sensori-motrices, la complexité, l’accès à l’information, la prédiction, l’attention ou les méta-représentations. Cependant, aucune de ces théories ne donne d’hypothèse sur ce que pourrait être la fonction de la conscience, sans parler de son rôle dans les technologies futures et les systèmes d’intelligence artificielle. Les suggestions vont plutôt du panpsychisme à l’épiphénoménalisme, ou à la réalisation de fonctions cognitives spécifiques. Il n’est pas surprenant que la réalisation de machines conscientes soit considérée comme peu plausible.
Le projet CAVAA se démarque de cette position. CAVAA propose que la conscience ait une fonction spécifique dans le contrôle du comportement adaptatif qui est apparu pendant l’explosion cambrienne : la capacité de survivre dans un monde régi par des états cachés, en particulier ceux qui concernent d’autres agents. En effet, CAVAA propose que la conscience permette aux agents de se découpler des états sensoriels immédiats et de gérer « l’invisible », allant des politiques comportementales dans des environnements inexplorés et des aspects non observables des tâches, aux complexités de l’interaction sociale qui dépendent des états internes des agents (par exemple, les intentions, les connaissances et les émotions), et aux normes morales qui guident l’action de l’interaction collective. La conscience reflète donc un monde virtuel qui est un hybride de preuves perceptives, d’états de mémoire et « d’inobservables » déduits, étendu dans l’espace et le temps et qui repose sur cinq processus fondamentaux : la capacité de virtualiser des espaces de tâches, de fusionner des éléments « réels » et virtuels dans ces modèles internes, d’exécuter des simulations parallèles orientées vers l’avenir d’états possibles du soi-monde, de les fusionner en une seule scène consciente qui définit le contenu de la conscience, et d’utiliser la conscience pour biaiser l’évaluation et la consolidation de la mémoire.
Pour atteindre cet objectif, le consortium CAVAA s’appuiera sur notre compréhension croissante de des bases biologiques de la conscience et de son rôle dans la construction de modèles internes de mondes virtualisés dans lesquels se déroule la vie mentale.
Les objectifs
Le projet se concentre sur la mise en place du plan de gestion des données, l’organisation des flux de collecte de données, la mise en place du cadre éthique et juridique, la définition des exigences et des spécifications de la technologie, la réalisation d’une analyse des brevets et du marché et la mise en place des bases de l’architecture CAVA et de ses composants, des scénarios de validation et des métriques, et des spécifications des aspects éthiques et juridiques. Les principaux objectifs du projet sont :
- développer cette activité et accélérer l’interfaçage de l’architecture avec les systèmes externes et l’intégration globale ;
- déployer des scénarios et valider l’obtention des premiers résultats, sous réserve d’une analyse plus approfondie et de la mise à jour des exigences. Ces résultats permettront également d’identifier les limites éventuelles de l’architecture et de ses composants ;
- mettre à jour de l’architecture pour en faire une solution clé en main et se concentrer sur l’avancement des tâches de référence les plus difficiles. L’architecture et son code sous-jacent seront présentés et documentés en vue d’une diffusion publique dans l’attente des objectifs des petites et moyennes entreprises en vue d’une commercialisation ultérieure.
Les résultats
Le projet CAVAA développera une architecture de contrôle cognitif au-delà de l’état de l’art pour des systèmes synthétiques avancés validés dans des tâches d’interaction spatiale et sociale. La réalisation de l’architecture CAVAA fait progresser l’état de l’art en matière d’intelligence artificielle, d’interaction homme-robot et d’informatique basée sur les neurosciences en fournissant une architecture intégrée et en ayant un impact sur plusieurs domaines de recherche : des neurosciences théoriques et computationnelles et des sciences cognitives à l’ingénierie, la philosophie et les sciences sociales. L’approche à cinq niveaux de CAVAA comprend l’architecture cognitive, les systèmes informatiques, la conscience de la machine, l’incarnation et le comportement conscient.
Partenaires et collaboration
Le projet est financé par le Conseil Européen de l’Innovation (EIC) de l’Union Européenne, sous la référence : EIC 101071178. Il s’agit d’un projet européen collaboratif incluant les partenaires suivants :
- Radboud University, Pays-Bas ;
- Centre for Research & Technology, Hellas (CERTH), Grèce ;
- University of Technology Chemnitz, Allemagne ;
- Sorbonne University, France ;
- Eodyne, Espagne ;
- Robotnik, Espagne ;
- Uppsala University, Suède ;
- Tp21, Allemagne ;
- University of Oxford, Royaume-Uni ;
- University of Sheffield, Royaume-Uni.
Projet ANITA – Adaptive iNterfaces for accessible and Inclusive digiTal services for older Adults
Le projet ANITA aborde la question de l’accessibilité et de l’e-inclusion pour les personnes âgées. En utilisant une approche multidisciplinaire et intégrative, nous visons à contribuer à une meilleure compréhension des besoins et des préférences des personnes âgées en ce qui concerne l’accès aux services numériques utilisant des assistants virtuels. Des méthodes qualitatives et expérimentales (associant des évaluations cliniques, des approches UX (expérience utilisateur), de l’apprentissage automatique, des techniques de traitement des signaux sociaux, des méthodes de sciences sociales) permettront une meilleure compréhension des besoins des personnes âgées afin de concevoir des interfaces d’assistants virtuels plus inclusives, efficaces, utiles et accessibles.
À son terme, le projet proposera des moyens concrets de réduire le fossé numérique chez les personnes âgées en identifiant les points clés d’une conception d’interface accessible. Ces résultats seront résumés dans un ensemble de lignes directrices pratiques destinées aux parties prenantes souhaitant s’engager dans une approche de conception inclusive et utiliser ces solutions. ANITA fournira également une base technologique et conceptuelle pour d’autres publics ayant des besoins spécifiques, et qui pourraient également bénéficier de l’adaptabilité dynamique des assistants numériques pour différentes tâches.
Le contexte
Les technologies numériques sont devenues indispensables dans notre vie quotidienne, mais elles peuvent poser des défis pour les personnes âgées qui ne sont pas toujours familières avec ces outils. Le numérique est souvent source d’exclusion pour les seniors. C’est pour cela que le projet ANITA a été mis en place, afin d’aider les personnes âgées à s’approprier les outils numériques et à les utiliser en toute autonomie.
Le projet ANITA – Adaptive iNterfaces for accessible and Inclusive digiTal services for older Adults est un projet ANR qui vise à améliorer l’accessibilité et l’inclusion numérique pour les personnes âgées.
Les objectifs
L’objectif principal d’ANITA est la conception, le développement et l’évaluation d’une plateforme d’assistants virtuels adaptatifs, pour fournir un accès aux services numériques, qui est capable de répondre aux différents besoins et capacités des personnes âgées. Les deux principales caractéristiques du projet sont :
- l’accent mis sur la reconnaissance automatique et dynamique du comportement de l’utilisateur (verbal et non verbal), qui servira de base au système pour fournir des ajustements personnalisés des paramètres d’accessibilité et des modalités d’interaction,
- et la conception de comportements d’interface pour les assistants virtuels qui favorisent l’accessibilité, ainsi que des interactions efficaces et positives lors de l’utilisation du système.
Les résultats
La principale application est la mise en place d’interfaces facilitant l’accès à des services.
ANITA fournira une approche complète de la conception et de l’utilisation des assistants virtuels pour les organismes d’évaluation, en abordant des thèmes tels que la fracture numérique, l’inclusion sociale, les représentations, ainsi que les avantages et les inconvénients liés à l’utilisation des assistants virtuels par les organismes d’évaluation eux-mêmes et par les concepteurs technologiques. Nous examinerons également les risques éthiques (par exemple, la déception, l’attachement, le remplacement de l’assistance humaine, la vulnérabilité, la stigmatisation) et les préoccupations juridiques (par exemple, le consentement, la vie privée, la sécurité) concernant les technologies utilisant l’IA, la collecte de données des utilisateurs et le profilage des utilisateurs pour le fonctionnement efficace des services.
Partenariats et collaborations
Coordonné par l’Hôpital Broca (APHP), le projet implique plusieurs partenaires européens à savoir :
- le Laboratoire d’Informatique de Grenoble (LIG),
- l’Assistance Publique des Hôpitaux de Paris (APHP),
- l’ISIR de Sorbonne Université,
- et Spoon .
Projet MaTOS – Machine Translation for Open Science
Le projet MaTOS s’intéresse à la traduction automatique (TA) de documents, en étudiant aussi bien aux problèmes de modélisation terminologique que les problèmes de traitement du discours et de son organisation dans un cadre de génération automatique de texte. Il comprend enfin un volet portant sur l’étude des méthodes d’évaluation et une expérimentation à grande échelle sur l’archive HAL.
Le contexte
L’anglais scientifique est la lingua franca utilisée dans de nombreux domaines scientifiques pour publier et communiquer les résultats de la recherche. Pour que ces résultats soient accessibles pour les étudiant·e·s, les journalistes scientifiques ou pour les décideurs·euses, une traduction doit toutefois s’opérer. La barrière de la langue apparaît donc comme un obstacle qui limite ou ralentit la dissémination des connaissances scientifiques. La traduction automatique peut-elle aider à relever ces défis ?
Le projet MaTOS – Machine Translation for Open Science (ou Traduction automatique pour la science ouverte) – est un projet ANR qui a pour objectif de proposer de nouvelles méthodes pour la traduction automatique pour des documents complets, qui posent des problèmes spécifiques aux systèmes de traduction actuels. En appliquant ces méthodes à des textes scientifiques, MaTOS aidera à fluidifier la circulation et la diffusion des connaissances scientifiques par une traduction automatique améliorée.
Les objectifs
Le projet MaTOS (Machine Translation for Open Science) vise à développer de nouvelles méthodes pour la traduction automatique intégrale de documents scientifiques, ainsi que des métriques automatiques pour évaluer la qualité des traductions produites. Notre principale cible applicative est la traduction d’articles scientifiques entre le français et l’anglais, pour laquelle des ressources linguistiques peuvent être exploitées pour obtenir des traductions plus fiables, aussi bien dans une optique d’aide à la publication que pour des besoins de lecture ou de fouille de textes. Les efforts pour améliorer la traduction automatique de documents complets sont toutefois freinés par l’incapacité des métriques automatiques existantes à détecter les faiblesses des systèmes comme à identifier les meilleures façons d’y remédier. Le projet MaTOS se propose d’aborder ces deux difficultés de front.
Les résultats
Ce projet s’inscrit dans un mouvement visant à automatiser le traitement d’articles scientifiques. Le domaine de la traduction automatique n’échappe pas à cette tendance, en particulier pour ce qui concerne le domaine bio-médical. Les applications sont nombreuses : fouille de textes, analyse bibliométrique, détection automatique de plagiats et d’articles rapportant des conclusions falsifiées, etc. MaTOS ambitionne de tirer profit des résultats de ces travaux, mais également d’y contribuer de multiples manières :
- en développant de nouvelles ressources ouvertes pour la traduction automatique spécialisée ;
- en améliorant, par l’étude des variations terminologiques, la description des marqueurs de cohérence textuelle pour les articles scientifiques ;
- en étudiant de nouvelles méthodes de traitement multilingue pour ces documents ;
- en proposant des métriques dédiées à la mesure des progrès pour ce type de tâches.
Le résultat final permettra, par une traduction améliorée, de fluidifier la circulation et la diffusion des savoirs et des connaissances scientifiques.
Partenariats et collaborations
Coordonné par François Yvon, chercheur à l’ISIR (équipe MLIA) de Sorbonne Université, le projet MaTOS réunit trois autres partenaires :
- le CLILLAC (Centre de linguistique inter-langues, de lexicologie, de linguistique anglaise et de corpus-atelier),
- l’Inist (Institut de l’Information Scientifique et Technique),
- et l’Inria.
Projet MARGSurg – Markerless Augmented Reality for the Future Orthopedic Surgery
Dans le cadre du projet MARSurg, nous ciblons les segments du remplacement des articulations. La solution visée a pour ambition d’être générique et facilement adaptable à d’autres disciplines de la chirurgie orthopédique et au-delà. Axé sur l’efficacité, le démonstrateur MARSurg concernera le placement optimal des prothèses dans la chirurgie du genou, dans le but d’effectuer régulièrement des transpositions et des tests de vérification sur d’autres chirurgies orthopédiques (comme l’épaule ou la hanche).
Le contexte
Avec le vieillissement de la population, le nombre d’interventions chirurgicales pour le remplacement des articulations défaillantes (hanche, genou, épaule, etc.) est en forte croissance. Cela représente plus d’un tiers du marché des dispositifs médicaux implantables.
En chirurgie orthopédique, le positionnement 3D des articulations défaillantes et des prothèses artificielles de remplacement est un critère important de la réussite de la chirurgie. Ces informations géométriques et cinématiques sont généralement obtenues à l’aide d’un ensemble d’instruments métalliques spécifiques très souvent invasifs. L’estimation de position spatiale des prothèses a fait des progrès significatifs avec le développement de l’imagerie médicale et des méthodes de navigation assistées par ordinateur et de la robotique. Cependant, même si ces méthodes apportent une réelle valeur ajoutée clinique pour le patient (meilleur fonctionnement des prothèses, meilleure acceptabilité par les patients, durée de vie améliorée, etc.), elles présentent plusieurs limites : complexité d’utilisation, coût important, et elles ne répondent pas entièrement aux exigences en termes de précision.
C’est dans ce contexte que s’inscrit le projet ANR PRCE MARSurg – Markerless Augmented Reality for the Future Orthopedic Surgery, qui vise à développer une solution innovante de navigation chirurgicale à fort potentiel scientifique, technologique et clinique. Cette plateforme sera fondée sur l’utilisation de la Réalité Augmentée (RA) et des méthodes de vision par ordinateur et d’Intelligence Artificielle (machine learning), pour estimer les paramètres géométriques et cinématiques des articulations et les restituer, en temps réel, au chirurgien pendant l’intervention chirurgicale.
Les objectifs
Dans ce contexte, plusieurs objectifs à la fois technologiques, scientifiques et cliniques sont visés dans le cadre de MARSurg. Parmi ces objectifs, on peut citer :
- Mettre en place un nouveau protocole chirurgical pour le remplacement total des articulations du genou en garantissant une moindre invasivité tout en améliorant les fonctionnalités de la prothèse de remplacement (stabilité, durée de vie, etc.) ;
- Développer un nouveau système préindustriel comprenant une plateforme logicielle de réalité augmentée qui fournira de manière intuitive toutes les informations dont le chirurgien a besoin durant l’intervention chirurgicale ;
- Améliorer les méthodes de l’état de l’art sur le calcul de pose 3D sans marqueurs artificiels en utilisant des méthodes géométriques et d’intelligence artificielle ;
- Faire progresser les méthodes de l’état de l’art sur la segmentation et le recalage d’images 3D issues de caméras dites RGB-D (une caméra qui fournit simultanément une image couleur et une carte de profondeur caractérisant la distance des objets vus dans l’image), notamment dans le contexte d’applications cliniques ;
- Accélérer le transfert industriel des méthodes développées pour faire de Pixee Medical un leader mondial en chirurgie orthopédique.
Les résultats
Le projet MARSurg vise à développer une plateforme logicielle générique pour la chirurgie orthopédique (au-delà de la chirurgie du genou) en ciblant le remplacement des articulations défaillantes par des prothèses articulaires artificielles. Pour ce faire, plusieurs disciplines scientifiques seront abordées, comme la perception visuelle, en utilisant des caméras de profondeur, la vision par ordinateur, l’intelligence artificielle, le génie logiciel et la réalité augmentée. Un démonstrateur final de la plateforme de réalité augmentée qui sera développée sera testée et évaluée dans des conditions proches de celles d’un bloc opératoire, en présence de chirurgiens spécialistes.
Partenariats et collaborations
Le projet d’une durée de 4 ans est coordonné par Brahim Tamadazte, Chargé de Recherche CNRS et membre de l’ISIR, Sorbonne Université. Le consortium du projet est également composé de :
- l’Inria Rennes Bretagne-Atlantique, représenté par Eric Marchand, Professeur des Universités à Rennes 1,
- et de Pixee Medical, une entreprise française spécialisée dans le développement de solutions innovantes pour la chirurgie du genou, représentée par Anthony Agustinos, responsable R&D.
Projet VirtuAlz – Outil de formation par simulation « Patient Virtuel » pour des professionnels des secteurs sanitaire et medicosocial travaillant auprès de personnes atteintes de la maladie d’Alzheimer ou maladies apparentées.
Comment permettre aux soignants, en particulier infirmiers et aides-soignants, de surmonter les difficultés à interagir au quotidien avec les patients atteints de la maladie d’Alzheimer ? Comment les former aux bons gestes et à une communication appropriée à chaque stade de la maladie ? Comment peut-on améliorer la pratique professionnelle par la simulation ? C’est en réponse à ce besoin de formation exprimé par les professionnels de santé qu’est né le projet VirtuAlz.
Le jeu sérieux VirtuAlz est conçu pour fournir, aux professionnels en gériatrie, un module de formation au raisonnement clinique et aux compétences de communication non verbales en proposant différents scénarii de situations critiques fréquemment rencontrées et de prise, en charge délicate (i.e refus de prise de médicaments, déambulation), dans un cadre sécurisé.
Le contexte
Les capacités de communication des personnes présentant la maladie d’Alzheimer ou autre maladie apparentée (MAAD) s’altèrent avec le temps, à mesure que s’aggravent les pertes de mémoire et/ou les atteintes de certaines fonctions cognitives. Ces troubles dégradent la qualité de leurs relations avec leurs aidants et soignants, et cette dimension serait peu prise en compte dans la formation initiale et continue des professionnels de santé.
Une préparation insuffisante, en particulier en communication non verbale à laquelle ces patients seraient très sensibles, serait aujourd’hui la cause de nombreuses dicultés rencontrées par les soignants. Les formations pour les professionnels de santé au contact et en charge de personnes atteintes de troubles cognitifs devraient inclure des connaissances non seulement théoriques, mais également pratiques afin de communiquer efficacement avec ces patients et de gérer des situations complexes en respectant leur sécurité et dignité.
Ces compétences, pourtant essentielles pour les professionnels de santé et le personnel en charge des personnes atteintes de la maladie d’Alzheimer sont aujourd’hui insuffisamment maîtrisées et rarement enseignées, que ce soit en formation initiale ou en formation continue.
Les objectifs
Le projet VirtuAlz avait pour objectif d’élaborer, de développer et d’évaluer un patient virtuel (PV) qui pouvait simuler des symptômes de maladie d’Alzheimer, sur le plan verbal et non verbal (expression du visage, posture, mouvements). Le projet s’est appuyé sur l’analyse de l’activité en situation de travail pour la formation, la scénarisation de simulation numérique relationnelle avec patient virtuel et l’interprétation automatisée et en temps réel du comportement de l’apprenant à partir de signaux sociaux (mouvements, gestes, expressions faciales, distance interpersonnelle).
Les résultats
Dans les pré-tests, nous avons évalué les qualités ergonomiques du dispositif et des scénarii proposés à l’aide d’entretiens et de questionnaires auprès de professionnels de santé. Cette étape a permis de faire les modifications techniques nécessaires dans le dispositif.
Puis, nous avons conduit deux vagues d’expérimentations, incluant deux scénarios (« la prise de médicaments » et « la déambulation ») auprès de professionnels de santé et montré que le dispositif Virtualz permettait d’interagir avec un patient virtuel utilisable, acceptable et ayant un bon niveau de réalisme selon ces professionnels.
Nous avons pu développer la génération de comportements du patient virtuel tels que des comportements verbaux (voix synthétisée) et non verbaux (mouvements du corps et de la tête, direction du regard, expressions faciales) imitant un patient âgé présentant des signes de la maladie d’Alzheimer (apathie, perte de mémoire, agitation, agressivité ou refus de soins). Le stagiaire pouvait interagir en langage naturel avec le patient virtuel par le biais d’une simulation en magicien d’Oz. La plateforme développée analyse le flux vidéo et transmet en temps-réel une suite de symboles décrivant les comportements non-verbaux du professionnel de santé aux autres modules informatiques du projet VirtuALZ.
Un aspect essentiel du jeu sérieux Virtualz concernait l’évaluation automatique des comportements non verbaux (expressions faciales, proxémie, toucher facial, mouvements, postures) des apprenants capturés pendant l’interaction avec le patient virtuel.
Enfin, nous avons examiné les conditions d’implémentation du dispositif dans la formation des professionnels. Le dispositif de patient virtuel créé pose les bases pour un socle de modules de formations variées dans tout type de contexte.
Partenariats et collaborations
Soutenu par l’Agence Nationale de la Recherche (ANR) dans le cadre du Challenge Life, health and wellbeing, le projet Virtualz a associé l’Assistance Publique-Hôpitaux de Paris (APHP, coordinnateur), l’Institut des Systèmes Intelligents et de Robotique (ISIR), le laboratoire d’Informatique pour la Mécanique et les Sciences de l’Ingénieur (LIMSI), le laboratoire Centre interuniversitaire de recherche en éducation de Lille (CIREL), ainsi que l’entreprise SimForHealth (Interaction Healthcare). Il a duré 48 mois (mai 2018 à mai 2022).