Le projet « Apprentissage Robotique pour la Manipulation Mobile et l’Interaction Sociale » s’inscrit dans un contexte où les robots autonomes doivent répondre à des besoins complexes, tels que l’interaction physique et sociale dans des environnements réels. Les défis actuels incluent l’adaptabilité aux situations imprévues, la collaboration fluide avec les humains, et la capacité à naviguer dans des environnements variés. Ces enjeux sont particulièrement cruciaux dans des domaines tels que les services domestiques, la logistique et l’agriculture.
Le contexte
Le contexte de l’ISIR permet d’apporter une expertise unique dans les aspects multidisciplinaires de l’apprentissage robotique, incluant le contrôle, l’apprentissage automatique et l’interaction sociale. L’ISIR met également à disposition ses plateformes robotiques avancées, telles que Tiago, Miroki, Pepper et PR2, spécialement conçues pour la manipulation mobile. Avec ces ressources et son approche innovante, le laboratoire joue un rôle crucial dans le développement de robots autonomes, capables de relever les défis sociétaux et industriels, tout en renforçant les collaborations au sein de la communauté européenne de la robotique.
Les objectifs
Le projet vise à atteindre un niveau d’autonomie élevé pour les robots dans des environnements complexes. L’un des objectifs principaux est l’utilisation des modèles de langage (LLMs) pour la planification robotique, l’identification des affordances et la saisie d’objets, permettant une meilleure compréhension et interaction avec le monde réel. En parallèle, le projet cherche à développer un système intégré combinant des modèles de perception à la pointe de la technologie, notamment basés sur la vision, et des méthodes avancées de contrôle. Par exemple, la technique de QD grasp (Quality-Diversity), développée à l’ISIR, est un pilier de cette approche.
L’objectif global est de créer des robots capables d’interagir de manière autonome, efficace et fiable avec leur environnement, tout en exploitant les synergies entre perception, contrôle et apprentissage automatique pour des applications dans des domaines variés.
Les résultats
Le projet a permis l’intégration de la pile QD-grasp sur le robot Tiago, incluant des fonctionnalités avancées telles que la génération de saisies, la détection, la segmentation et l’identification d’objets. De plus, une planification basée sur les modèles de langage (LLMs) a été intégrée, permettant au robot de comprendre et d’exécuter des tâches exprimées en langage naturel par des utilisateurs humains. Ces développements améliorent considérablement l’interaction humain-robot et la capacité des robots à évoluer dans des environnements complexes.
Le projet a également participé à la compétition annuelle euROBIN, où il a démontré ses avancées en matière de modularité et de transférabilité des compétences robotiques. Nous partageons continuellement nos composants développés pour la manipulation mobile avec la communauté, contribuant ainsi à l’évolution collective des technologies robotiques et à leur application à des défis concrets.
Partenariats et collaborations
Ce projet est une initiative interne à l’ISIR, regroupant des expertises issues de différents axes de recherche et de développement. Il s’appuie notamment sur les contributions de :
- l’équipe ASIMOV (sur l’aspect manipulation et interaction robotique),
- l’équipe ACIDE (sur l’aspect cognition et interaction,
- et de l’axe prioritaire Ingénierie des systèmes intelligents.
Ces collaborations internes permettent de mobiliser des compétences complémentaires en apprentissage robotique, perception, contrôle et interaction sociale, renforçant ainsi la capacité de l’ISIR à relever des défis scientifiques et technologiques majeurs.
Projet Open A-Eye
L’originalité du dispositif de l’équipe A-Eye est de fournir un guidage kinesthésique qui se veut plus intuitif que les retours audio et/ou vibrants proposés dans les solutions du commerce. Cela permet de réduire la charge cognitive nécessaire pour suivre les informations. Ce dispositif, les réglages fins de la rétroaction qu’il propose ainsi que toutes les autres solutions permettant de répondre aux différents challenges du Cybathlon* ont été co-conçus avec l’aide de notre « pilote ». L’équipe A-Eye place en effet la co-création au cœur du processus, travaillant avec des associations, des experts en accessibilité et la pilote aveugle d’A-Eye. L’objectif est de créer une solution ergonomique, accessible, facile à utiliser et adaptée à la vie quotidienne.
Le dispositif de l’équipe A-Eye intègre des technologies de pointe, combinant le retour kinesthésique intuitif à des fonctionnalités de vision par ordinateur et d’intelligence artificielle. Le dispositif portable, sous forme d’un harnais/sac à dos offre une navigation précise, mimant l’interaction avec un guide humain et offrant ainsi une expérience intuitive.
*Le Cybathlon est un évènement qui a lieu tous les 4 ans et organisé par l’École polytechnique fédérale de Zurich qui met au défi des équipes du monde entier autour de 8 épreuves. L’objectif est de démontrer les progrès technologiques d’assistance dans l’accomplissement des tâches de la vie quotidienne de personnes en situation d’handicap.
Le contexte
Il est connu que le guidage le moins fatiguant dans un environnement nouveau est celui fourni par une personne formée aux techniques de guide. Ce guidage est bien plus intuitif et nécessite ainsi beaucoup moins de concentration qu’une déambulation avec un dispositif classique d’assistance comme la canne blanche.
Un environnement nouveau suppose des obstacles difficilement prévisibles (notamment ceux à hauteur de tête) et une trajectoire à préparer à l’avance. Cela a pour effet de demander une surcharge cognitive importante. Dans cette situation, une assistance numérique capable de capter l’environnement, de calculer une trajectoire et de fournir une information intuitive (information positive) sur la direction à suivre serait beaucoup plus simple à intégrer qu’une solution qui indique seulement les obstacles (information négative), comme c’est le cas des cannes blanches même celles dites « intelligentes ». L’information intuitive pourrait mimer les informations de forces et mouvements échangées entre guidant et guidé. Nous appelons ce type d’informations des informations kinesthésiques.
Notre expertise sur le sujet prend plusieurs formes :
- En tant que roboticien, nous avons noté que les technologies utilisées pour la détection d’obstacles et la planification de trajectoire pour les robots autonomes pourraient trouver un écho positif dans l’élaboration d’un dispositif d’assistance ;
- D’autre part, l’ISIR et ses activités spécifiques s’intéressent justement aux bonnes pratiques et à l’élaboration de nouveaux dispositifs permettant d’augmenter/substituer de l’information sensorielle dans différents cadres d’application (assistance/rééducation/chirurgie).
Les objectifs
Nous avions pour ambition de concevoir un dispositif d’une intuitivité optimale. Ainsi, le dispositif de l’équipe A-Eye a été créé avec une série d’objectifs convergents :
- exploiter le contexte offert par la compétition internationale du Cybathlon pour valider l’efficacité des retours sensoriels élaborés au sein de nos équipes,
- et tirer parti des compétences des étudiants de nos formations afin de mettre en évidence tout le potentiel de ces dernières.
Le dispositif se présente sous la forme d’un harnais/plastron sur lequel est fixé un système de retour kinesthésique (pantographe), avec une caméra 3D. Il possède aussi un ordinateur puissant permettant d’analyser/cartographier l’environnement avant de proposer une trajectoire permettant d’atteindre la position désirée tout en actualisant cette dernière en fonction de l’apparition de nouveaux obstacles. Le retour kinesthésique permet d’appliquer un effort dans deux directions (gauche/droite et avant/arrière), ce qui permet d’indiquer la direction à suivre de manière intuitive.
Ce dispositif représente une solution innovante à la frontière des technologies et des logiciels actuels développés en robotique, en traitement d’image, en intelligence artificielle et en communication haptique/kinesthésique.
Les résultats
Le dispositif développé à l’ISIR a atteint un niveau de maturité suffisant, permettant désormais une utilisation autonome par la pilote, avec la capacité de changer de mode en fonction des défis rencontrés.
Les séances d’entraînement hebdomadaires de la pilote, Salomé Nashed, malvoyante depuis sa naissance est chercheuse en biologie, permet d’affiner et de personnaliser le guidage pour s’adapter aux différentes épreuves du Cybathlon. Bien qu’elle qualifie le retour d’ « intuitif », il devient essentiel de l’éprouver auprès d’un plus large panel d’utilisateurs et utilisatrices afin de continuer à améliorer la solution et d’en renforcer les possibilités de personnalisation. Parallèlement, présenter le dispositif permettra de sensibiliser aux avancées technologiques actuelles, en montrant à la fois leur potentiel et leurs limites. Le partenariat avec l’INJA (Institut National des Jeunes Aveugles) Louis Braille permettra ainsi de présenter le dispositif aux élèves mais aussi aux instructeurs en mobilités.
La mission principale sera de rendre le dispositif existant open-source. Nous détaillons ici la démarche envisagée pour atteindre cet objectif :
- La documentation et la maintenance d’un GIT accessible en open source,
- Le bilan et l’optimisation des choix de matériaux et de quincailleries,
- L’élaboration de plans pour l’impression 3D et la découpe laser,
- La création de tutoriels vidéo,
- Tout le long du développement, nous recueillerons les retours des utilisateurs « techniques »:
- Prendre en compte les retours d’un groupe d’étudiants utilisateurs du fablab de Sorbonne Université qui auront à reproduire le dispositif à partir de la documentation disponible,
- Prendre en compte les retours des instructeurs en locomotion de l’INJA Louis Braille, premiers testeurs du dispositif en tant qu’équipe technique nouvellement formée. Leur rôle sera de s’approprier le dispositif et de proposer des personnalisations adapt.es aux utilisateurs, afin d’améliorer son ergonomie de mieux répondre aux besoins et aux difficultés spécifiques de chaque usager.
Au-delà de l’ouverture du dispositif actuel, le projet vise aussi à évaluer et développer des solutions plus en connections avec les personnes concernées. Ainsi des contacts ont été pris avec l’INJA Louis Braille pour avoir l’occasion de travaux d’innovations participatives. Ce projet s’effectue également avec le FabLab de Sorbonne Université. Ce projet sera par ailleurs l’occasion d’organiser des groupes de discussion et idéations entre les chercheurs-chercheuses, les étudiants-étudiantes de nos formations à Sorbonne Université, et des jeunes aveugles et personnes déficientes visuels. Ces animations seront portées par le projet pour développer des briques technologiques adaptés aux personnes concernées.
Partenariats et collaborations
L’équipe A-Eye a été fondé par Ludovic Saint-Bauzel et Fabien Vérité, chercheurs à l’ISIR et maîtres de conférences à Sorbonne Université. L’ingénieur en charge du projet est Axel Lansiaux, avec l’aide d’Aline Baudry et de Samuel Hadjes, ingénieur·e·s à l’ISIR. De nombreux étudiant·e·s des masters de Sorbonne université, des spécialités Main et ROB de l’école Polytech Sorbonne, ont participé au projet dans le cadre de leur projet de fin d’étude. Ce projet concerne aussi d’autres collègues à l’ISIR comme Nicolas Baskiotis et Olivier S. (Machine Learning), Nizar Ouarti (Perception) qui sont intéressés d’apporter leurs expertises à ce projet opensource.
Lien vers le site internet de l’équipe A-Eye : https://a-eye.isir.upmc.fr
Projet RODEO – Apprentissage profond robuste pour la robotique chirurgicale
Le projet ANR RODEO vise à transformer la robotique chirurgicale en intégrant les dernières avancées en intelligence artificielle (IA). Le cadre d’application est la chirurgie guidée par robot pour la colonne vertébrale, basée sur une plateforme chirurgicale disponible à l’ISIR.
Dans ce contexte, un bras robotique à 7 degrés de liberté (DoFs) est équipé de divers capteurs (position, vitesse, force, conductivité électrique, vibrations) et utilisé pendant des interventions chirurgicales, comme l’insertion de vis pédiculaires dans la colonne vertébrale. Cette plateforme robotique actuelle utilise un ensemble de lois de commande déjà implémentées (e.g., contrôle de position, de vitesse, de force) pour exécuter des tâches ou sous-tâches chirurgicales, comme le perçage d’une trajectoire préliminaire pour le placement des vis pédiculaires. Avant l’opération, un scanner 3D du patient est réalisé, permettant au chirurgien de définir la procédure médicale à suivre pendant la chirurgie.
Bien que des contrôleurs entièrement automatiques puissent être utilisés pour certaines sous-tâches sûres, les chirurgiens préfèrent un paradigme de co-manipulation pour les opérations sensibles, où les robots chirurgicaux assistent les procédures médicales. Dans ce cas, l’assistant robotique doit réagir fidèlement aux instructions du chirurgien tout en garantissant la sécurité du patient et du personnel médical, et s’adapter à l’environnement.
Le contexte
Bien que le système actuel de co-manipulation soit utile et réponde à certains besoins des chirurgiens, il peut être considérablement amélioré pour enrichir l’expérience chirurgicale. La plateforme chirurgicale de l’ISIR manque de modules de perception et d’enregistrement, et la procédure actuelle suppose que le patient ne bouge pas une fois positionné pour la chirurgie et que la colonne vertébrale est rigide. Cela peut rendre le transfert d’informations préopératoires complexe, imprécis et dangereux pour le patient. De plus, les contrôleurs actuels ne représentent pas certains phénomènes physiques complexes lors de la co-manipulation, comme les frottements du robot, les vibrations ou la compensation gravitationnelle, tous cruciaux pour des interventions chirurgicales précises.
Les objectifs
Le projet RODEO vise à développer la prochaine génération d’IA génératives profondes pour surmonter les principaux défis mentionnés. L’objectif est de concevoir des systèmes d’IA avec une robustesse améliorée en termes de flexibilité et de fiabilité, tout en restant durables, ainsi que des modèles hybrides capables d’intégrer des connaissances physiques du monde.
L’hypothèse centrale de la recherche est que ces améliorations peuvent conduire à une avancée majeure dans la robotique chirurgicale. Des systèmes d’IA plus fiables peuvent améliorer leur acceptation par les experts médicaux et les patients, notamment en leur permettant d’évaluer leur propre confiance ou d’expliquer leurs décisions de manière compréhensible. Les modèles hybrides et durables pourraient considérablement améliorer le niveau d’automatisation dans la co-manipulation robot/chirurgien, réduisant ainsi la charge cognitive des chirurgiens et leur permettant de se concentrer entièrement sur les interventions médicales, ce qui améliorerait les procédures chirurgicales et les soins aux patients.
Les résultats
Dans notre cadre de test pour la chirurgie de la colonne vertébrale, nous attendons des améliorations majeures dans trois domaines principaux :
- concevoir des contrôleurs hybrides capables d’utiliser l’IA pour apprendre les composants résiduels des contrôleurs actuels difficiles à modéliser, tels que les frottements ou les vibrations ;
- augmenter la flexibilité du système avec des IA génératives profondes multimodales pour planifier à long terme en utilisant la perception visuelle et des méthodes basées sur l’IA pour enregistrer les scanners CT préopératoires avec les caméras de profondeur opératoires ;
- doter les systèmes d’IA de la capacité de quantifier leur propre confiance et d’expliquer leurs décisions à l’équipe chirurgicale de manière compréhensible.
Partenariat et collaboration
Le projet ANR RODEO est un projet mono-équipe mené par l’équipe projet MLR (Machine Learning and Robotics) de l’ISI, porté par Nicolas Thome, chercheur à l’ISIR et professeur à Sorbonne Université.
Projet « Intégration multi-sensorielle pour le maintien de l’équilibre »
Le contexte
Le maintien de l’équilibre nécessite l’intégration d’informations venant des différents systèmes sensoriels : visuels, vestibulaires, proprioceptifs et haptiques. Ces différents sens sont typiquement étudiés un par un, ce qui laisse ouverte la question de leur intégration. L’équipe IRIS de l’ISIR regroupe des experts et expertes sur le contrôle postural, l’haptique et l’adaptation visio-motrice.
Les objectifs
L’objectif est de combiner ces expertises pour étudier l’intégration multi-sensorielle pendant des perturbations de l’équilibre, en combinant des perturbations :
- mécaniques (via une plateforme de perturbation),
- visuelles (en réalité virtuelle),
- et haptiques (avec un dispositif de « light touch » et des dispositifs de stimulation haptique).
Partenariats et collaboration
Le projet « Intégration multi-sensorielle pour le maintien de l’équilibre » est un projet fédérateur, interne à l’ISIR, qui n’implique pas de collaboration extérieure au laboratoire.
FHF : A Frontal Human Following technology for mobile robots
Les robots suivant les humains sont une fonction efficace et pratique, en particulier dans le contexte de la robotique de service. Cependant, la majorité des recherches existantes se sont concentrées sur le suivi derrière un humain, avec relativement peu d’attention accordée au robot opérant devant l’humain. Ce projet de suivi frontal, où le robot reste dans le champ de vision de l’utilisateur, est plus rassurant et facilite l’interaction. De nouveaux défis se présenteront lors de la mise au point d’un tracker capable d’estimer la pose d’un utilisateur à partir d’un LiDAR 2D à hauteur de genou, en particulier lorsque les jambes sont souvent masquées l’une par l’autre. Il est également nécessaire d’assurer la sécurité de l’utilisateur tout en se demandant comment le robot peut suivre l’utilisateur dans les situations où le robot serait en retard.
Le contexte
Les robots mobiles sont de plus en plus omniprésents dans divers environnements, tels que les centres commerciaux, les hôpitaux, les entrepôts et les usines. Nombre de tâches dans ces applications sont partagées entre les robots et les opérateurs humains par la voix, la vidéo, l’interaction par la force, etc., soit parce que l’expertise ou l’agilité humaine inhérente est requise pour certaines tâches, soit parce que le robot peut fournir une assistance potentielle à l’opérateur. Dans ce projet, nous nous concentrons sur l’étude du suivi automatique de l’utilisateur par le robot mobile basé sur le LiDAR 2D. Les algorithmes communs de suivi à l’arrière maintiennent le robot à une distance de l’utilisateur. Certaines études ont montré que les gens préfèrent voir les robots dans leur champ de vision, et peuvent se sentir mal à l’aise et en danger lorsque les robots apparaissent derrière eux. En outre, les services spécifiques exigent que les robots se présentent devant les utilisateurs. Par exemple, les robots d’assistance agissent comme des chiens d’aveugle pour fournir une aide à la navigation aux malvoyants. Par conséquent, le suivi frontal devient progressivement populaire.
Les objectifs
Les objectifs scientifiques de ce projet sont les suivants :
- Construire un tracker de pose humaine (orientation et position) basé sur le LiDAR 2D à hauteur du genou pour les robots mobiles en étudiant la marche humaine ;
- Collecter des scans LiDAR de différents volontaires ainsi que des données de vérité terrain sur l’orientation humaine afin de construire un modèle basé sur les données pour améliorer l’estimation de l’orientation humaine ;
- Résoudre le problème des jambes se cachant l’une et l’autre lors du balayage en modélisant la marche ou en utilisant des techniques d’apprentissage automatique ;
- Développer un générateur de mouvement permettant au robot de se déplacer devant l’utilisateur en toute sécurité et de manière naturelle.
Les résultats
Douze volontaires (trois femmes et neuf hommes) ont été invités à participer à l’expérience de suivi frontal, et le tracker de posture humaine basé sur la marche humaine a montré de bonnes performances. Les analyses quantitatives ont révélé que l’erreur absolue moyenne (MAE) de position était d’environ 4 cm et que la MAE d’orientation était inférieure à 12 degrés pour la marche complexe.
Les données collectées pendant six heures sur cinq volontaires (une femme et quatre hommes) ont été utilisées pour construire des modèles permettant d’améliorer l’estimation de l’orientation. Grâce à la résolution du problème de retard, le modèle personnalisé a permis d’obtenir une MAE de 4 à 7 degrés pour les cinq volontaires.
Le générateur de mouvement à suivi frontal permet au robot de venir naturellement devant l’utilisateur, toujours à une distance de sécurité d’un mètre au cours de l’expérience. Voir la vidéo pour plus de détails.
Publications
- 2D LiDAR-Based Human Pose Tracking for a Mobile Robot, ICINCO 2023,
- Human Orientation Estimation from 2D Point Clouds Using Deep Neural Networks in Robotic Following Tasks, soumis à IROS 2024,
- Large Workspace Frontal Human Following for Mobile Robots Utilizing 2D LiDAR, soumis à JIRS.
Projet TELIN – The Laughing Infant
Le projet TELIN se concentre sur le développement d’un agent robotique socialement interactif (SIA) capable de reproduire le comportement d’un nourrisson pendant son apprentissage du rire. Ses principaux défis résident dans la modélisation des rires du robot et dans la décision en temps réel de déterminer quand rire, en tenant compte de l’état cognitif des nourrissons, dépassant ainsi les capacités cognitives actuellement supposées.
Pour répondre à ces défis, TELIN compile un vaste corpus d’enregistrements d’enfants riant dans divers contextes, et développe des méthodes d’annotation manuelle et automatique. Le projet analyse ensuite la production de rires chez les nourrissons pour créer un modèle formel. À partir de ce modèle, TELIN développe et évalue un modèle computationnel qui permet au robot de décider et de générer des rires en temps réel lors d’interactions. Cette initiative nécessite une collaboration interdisciplinaire entre la linguistique formelle, l’intelligence artificielle et le traitement du signal audio.
Le contexte
Le rire, l’une des premières formes de communication chez les nourrissons, se manifeste dès l’âge de trois mois, bien avant le langage, les gestes ou la marche. Des études récentes ont mis en lumière le lien étroit entre l’acquisition du rire et des compétences cognitives avancées, notamment liées à la compréhension de la négation, offrant ainsi une perspective intrigante sur l’évolution de la communication humaine.
Le projet The Laughing Infant (TELIN) s’appuie sur une synthèse de recherches variées portant sur l’acquisition du langage, la sémantique et la pragmatique du rire, les Agents Socialement Interactifs (SIA), ainsi que sur l’analyse et la synthèse du rire, combinées à des avancées en matière d’apprentissage automatique. Son objectif est de développer un SIA capable d’imiter un nourrisson pendant l’acquisition du rire, et d’utiliser ce SIA pour évaluer plusieurs algorithmes d’apprentissage. Ces algorithmes prennent en compte différentes modalités d’entrée telles que l’audio, l’expression faciale et le langage, ainsi que divers contextes tels que le jeu avec des jouets et les interactions familiales, pour générer des réponses de rire.
Le projet est soutenu par La Mission pour les Initiatives Transverses et l’Interdisciplinarité (MITI) du CNRS qui soutient des projets de recherche interdisciplinaires en finançant des allocations doctorales d’une durée de trois ans, qui sont associées à un budget de recherche durant les deux premières années.
Les objectifs
Le sujet de thèse de ce projet TELIN est de développer des modèles formels et computationnels qui calculent quand et comment un bébé robot (utilisation du robot Furhat avec un masque de bébé) répond à l’expression et à l’activité d’un participant humain. L’accent est mis sur la production du rire chez les bébés. Cela implique :
- l’analyse d’un corpus de rires de bébés,
- le développement d’une analyse théorique rigoureuse du rire lors d’une interaction entre un parent et des bébés,
- le développement d’un modèle computationnel basé sur une approche d’apprentissage profonde qui simule quand le rire doit être déclenché.
Les modèles seront évalués objectivement ainsi que par des études expérimentales.
Les résultats
L’intégration du langage et du non-verbal est un objectif essentiel pour l’IA. TELIN fait progresser ce domaine en l’étudiant dans un environnement plus simple, mais écologiquement valide, en ce qui concerne la compréhension du langage naturel, l’interaction et la connaissance du monde.
La modélisation du moment où le rire doit se produire dans une interaction entre l’humain et l’IA n’en est qu’à ses débuts. La recherche dans le cadre de TELIN abordera cette question et contribuera à recentrer les efforts dans cette direction. En outre, le développement d’un modèle informatique d’un agent virtuel rieur (intégré dans la plateforme Greta) profitera à la communauté de l’IA en fournissant une nouvelle architecture séquence à séquence.
Enfin, TELIN fournira une plate-forme permettant une étude plus écologique du développement de la communication, étant donné l’accent mis sur l’interaction multimodale. Il fournira des comptes rendus empiriques et formels détaillés de l’émergence du rire, un domaine encore relativement peu exploré. La plateforme SIA issue de TELIN sera disponible pour mener des études humain-agent.
Partenariats et collaborations
Le projet est porté par l’Université Paris-Cité et implique également :
- l’ISIR de Sorbonne Université,
- et le laboratoire Sciences et Technologies de la Musique et du Son (STMS) de Sorbonne Université.
Projet GUIDANCE – « General pUrpose dIalogue-assisted Digital iNformation aCcEss »
Le projet GUIDANCE vise à fédérer la communauté française de recherche en Récupération de l’Information (IR), en réunissant des experts du domaine pour faire progresser le développement de modèles d’Accès à l’Information basés sur le Dialogue (DbIA) exploitant les grands modèles linguistiques (LLM).
Le but du projet est de développer de nouveaux modèles et ressources pour l’accès à l’information interactif, par exemple dialoguer avec un système informatique afin d’accéder à de l’information (éventuellement générée de manière automatique), tout en assurant, d’une part, l’adaptation à des domaines ou langues avec de faibles ressources (par rapport à l’anglais), et d’autre part, l’explicabilité et la véracité des informations générées.
Le contexte
Le projet GUIDANCE s’inscrit dans le contexte des grands modèles linguistiques (LLM) et des systèmes conversationnels (par exemple, ChatGPT, WebGPT), qui ont connu d’importants progrès pratiques au cours des derniers mois. Il vise à mener des recherches sur l’Accès à l’Information Numérique Assisté par Dialogue à Usage Général, en se concentrant particulièrement sur la manière de permettre aux utilisateurs et utilisatrices d’accéder à l’information numérique, dans le but de surmonter plusieurs limitations des LLM actuels :
- Les LLM n’ont pas été conçus avec l’accès à l’information, que ce soit au niveau des tâches de pré-entraînement ou de celles de fine-tuning ;
- Les LLM ont des capacités de généralisation limitées à de nouveaux domaines et/ou langues ;
- La véracité et la fiabilité des résultats sont discutables ;
- Les modèles LLM potentiellement à la pointe de la technologie ne sont pas en accès libre, et la méthodologie scientifique ainsi que l’évaluation adéquate sont à peine décrites dans la littérature scientifique.
Les objectifs
D’un point de vue de la recherche, GUIDANCE aborde quatre défis associés à ce projet :
- Comment concevoir de nouveaux grands modèles linguistiques (LLM) ou réutiliser des LLM pour développer des modèles d’Accès à l’Information basés sur le Dialogue (DbIA) ;
- Comment tirer parti des techniques d’apprentissage machine améliorées par la recherche (ReML) pour améliorer la précision et l’efficacité des systèmes de recherche d’information ;
- Adapter les LLM et développer de nouvelles architectures (pour les modèles DbIA) pour faire face à la faible ressource et à l’adaptation de domaine, en accordant une attention particulière aux langues à ressources faibles ou moyennes (par exemple, l’occitan, le français) ;
- Concevoir des modèles DbIA capables de garantir la véracité et l’explicabilité des informations extraites et synthétisées, tout en préservant la subjectivité de l’utilisateur.
Les résultats
Les résultats attendus du projet GUIDANCE sont multiples, ouvrant la voie à des avancées significatives dans le domaine de l’accès à l’information.
Premièrement, le développement de ressources pour entraîner les modèles d’accès à l’information (mise à disposition de la communauté). Il s’agit de corpus d’apprentissage qui peuvent être utilisés pour entraîner de nouveaux modèles plus puissants.
Deuxièmement, le projet vise à développer de nouveaux modes d’interactions avec les systèmes d’accès à l’information : un moteur de recherche peut être pro-actif pour guider l’utilisateur vers des résultats pertinents (bien plus qu’en proposant les questions proches comme actuellement).
Enfin, la mise à disposition de modèles pré-entraînés pour l’accès à l’information, qui permettront d’utiliser ces modèles interactifs librement, que cela pour la recherche ou bien pour d’autres usages.
Partenariats et collaborations
Porté par Benjamin Piwowarski, chargé de recherche CNRS à l’ISIR (équipe MLIA), le projet GUIDANCE (projet ANR) implique également :
- l’Institut de Recherche en Informatique de Toulouse (IRIT) à travers les deux équipes de recherche IRIS et SIG,
- le Laboratoire d’Informatique de Grenoble (LIG) à travers les équipes de recherche APTIKAL et MRIM,
- et le Laboratoire d’Informatique et Systèmes (LIS) à travers l’équipe de recherche R2I.
Le projet qui a débuté en octobre 2023 rassemble 18 chercheurs et chercheuses de 6 groupes de recherche en Récupération de l’Information (IR) et en traitement du langage naturel (NLP).
Projet NeuroHCI – Prise de décisions multi-échelle avec les systèmes interactifs
Ce projet pluridisciplinaire s’appuie sur les Neurosciences Computationnelles pour développer des modèles IHM du comportement utilisateur-utilisatrice. Il s’agit d’étudier dans quelle mesure on peut transposer les théories, modèles et méthodes des Neurosciences Computationnelles à l’IHM.
Le projet NeuroHCI vise à améliorer la prise de décision humaine dans les mondes physique et numérique dans des contextes interactifs. Les situations dans lesquelles un humain prend une décision avec un système interactif sont variées :
Est-ce que j’utilise mon expérience ou Google Maps pour choisir mon itinéraire ? Est-ce que je réponds à cet e-mail sur mon smartphone ou sur mon PC ? Est-ce que j’utilise des menus ou des raccourcis pour sélectionner cette commande fréquente ? Est-ce que j’utilise le robot chirurgical Da Vinci pour opérer mon patient ou les instruments laparoscopiques traditionnels ? Comment puis-je atteindre cet objet avec ma prothèse robotique ?
La décision peut porter sur un choix complexe dans le monde réel assisté par un ordinateur (par exemple, un traitement médical) ou sur le choix d’une méthode pour réaliser une tâche numérique (par exemple, modifier une photo avec l’outil préféré).
Le contexte
Les neurosciences étudient les phénomènes impliquant à la fois la prise de décision et l’apprentissage chez les humains, mais ont reçu peu d’attention en IHM.
Le projet NeuroHCI est un projet en interaction humain-machine (IHM) qui vise à concevoir des systèmes interactifs développant l’expertise de l’utilisateur-utilisatrice en établissant un partenariat humain-machine. L’interaction avec ces systèmes peut être vue comme un problème de prise de décision à plusieurs échelles :
- Une tâche, par exemple choisir le bon traitement médical sur la base de recommandations basées sur l’IA ;
- Une méthode, par exemple choisir parmi différents dispositifs ou modalités pour réaliser une tâche ;
- Un objet, par exemple avec quel objet physique ou virtuel les utilisateurs-utilisatrices vont interagir ;
- Un mouvement, par exemple quelle trajectoire pour atteindre l’objet cible.
Les objectifs
L’objectif scientifique est de comprendre comment les utilisateurs-utilisatrices prennent des décisions avec des systèmes interactifs et comment ces décisions évoluent dans le temps. En effet, les utilisateurs-utilisatrices développent progressivement une expertise au cours de l’utilisation répétée des systèmes interactifs. Cette expertise influence la façon dont ils/elles prennent leurs décisions. Cela nécessite l’étude simultanée des phénomènes d’apprentissage et de prise de décision qui sous-tendent l’utilisation des systèmes interactifs.
L’objectif applicatif est de concevoir et de mettre en œuvre de meilleurs systèmes interactifs et adaptatifs. L’être humain s’adapte et développe son expertise en utilisant un système interactif. L’objectif ici est que le système, de son côté, évolue également pour s’adapter à ses utilisateurs-utilisatrices, c’est-à-dire qu’il s’habitue à leur comportement et en particulier à leur expertise. Il s’agit donc d’établir un partenariat humain-machine dans lequel les deux acteurs (humain et machine) s’adaptent l’un à l’autre.
Les résultats
Pour atteindre ces objectifs, nous démontrons les avantages de notre approche à travers 3 applications, pour lesquelles des plateformes existent déjà et sont maintenues par les partenaires, mais où des défis scientifiques demeurent pour leur adoption dans le monde réel. Ces trois applications sont :
- les interfaces graphiques intelligentes comme les systèmes de recommandation basés sur l’IA ;
- les systèmes de simulation immersifs offrant un riche retour haptique ;
- et les interfaces cobotiques médicales qui visent à restaurer ou à améliorer la capacité des humains à interagir avec des objets dans le monde réel.
Notre hypothèse de recherche est qu’il est nécessaire de développer des modèles computationnels robustes d’apprentissage et de prise de décision en IHM. Les modèles computationnels permettent d’expliquer et de prédire le comportement humain en synthétisant des phénomènes complexes de manière testable et réfutable. En IHM, ils servent à évaluer la qualité d’une interface sans avoir à mener des études d’utilisateurs-utilisatrices longues et coûteuses. Lorsque ces modèles sont robustes, ils peuvent être intégrés dans des systèmes interactifs pour optimiser l’interaction et adapter l’interface en fonction de l’expertise et/ou des actions des utilisateurs-utilisatrices.
Partenariats et collaborations
Porté par Gilles Bailly, directeur de recherche CNRS à l’ISIR, le projet ANR NeuroHCI est un projet inter-équipes interne à l’ISIR, qui implique plusieurs membres du laboratoire.
Le projet CoVR vise à améliorer le retour haptique, c’est à dire le sens du toucher, en réalité virtuelle. CoVR est une arène de réalité virtuelle augmentée d’un système robotisé pour rendre des objets virtuels tangibles. Cette plateforme est au carrefour de l’interaction humain-machine (IHM), de la réalité virtuelle, de la robotique et de l’haptique et illustre donc une grande variété des compétences de l’ISIR.
Le contexte
De nombreux systèmes pour stimuler le toucher sont développés à travers le monde. L’originalité du projet CoVR tient dans son interface robotisée, qui anticipe les mouvements de l’utilisateur-utilisatrice, et qui déplace des « props », des objets réels (une balle, une porte, un mur, etc.) et bon marché du quotidien pour qu’ils soient en contact avec l’utilisateur-utilisatrice.
Concrètement, une colonne attachée à un robot cartésien se déplace au milieu d’une arène et interagit avec l’utilisateur-utilisatrice. Quand l’utilisateur-utilisatrice va approcher sa main du mur virtuel, la colonne robotisée va se déplacer et arriver exactement au bon endroit, au bon moment. Ainsi, lorsque la main virtuelle touche le mur virtuel, la main réelle va toucher la colonne exactement au même moment, et donc avoir l’impression de toucher un vrai mur solide.
Les objectifs
Les objectifs du projet CoVR sont les suivants :
- Se positionner comme un démonstrateur d’expérience VR pour exposer le savoir faire du laboratoire aux partenaires universitaires et industriels ;
- Une plateforme éducative pour que de futur ingénieur-e en réalité virtuelle puisse avoir une expérience sur une plateforme mettant en œuvre des techniques et outils de pointe ;
- Un espace de vulgarisation pour transmettre au public les avancés dans le domaine de la robotique et des interactions Humain-Machine et qui sait éveiller une passion pour les plus jeunes.
Les résultats
La plateforme CoVR a fait l’objet d’une publication à la conférence ACM UIST : https://hal.science/hal-02931830.
C’est également une plateforme fonctionnelle avec plusieurs démonstrateurs qui ont déjà été montrés à la fête des Sciences. Des travaux continuent pour améliorer l’immersion et proposer de nouvelles démonstrations encore plus bluffantes.
Partenariats et collaborations
L’ISIR collabore actuellement avec ISART Digital, une école du jeu vidéo et d’animation 3D et d’effets spéciaux qui incorpore dans leur programme l’aspect scientifique. Des étudiants et étudiantes ont pu contribuer au projet en apportant un savoir-faire propre, ce qui a permis l’élaboration de scènes mettant en avant les points fort de la plateforme.
Découvrez en vidéo la plateforme CoVR et la collaboration entre ISART Digital et l’ISIR :
Projet Tralalam – Translating with Large Language Models
Le projet TraLaLaM vise à explorer l’utilisation de grands modèles de langue (LLM) pour la traduction automatique, en posant deux questions principales :
- dans quels scénarios les informations contextuelles peuvent-elles être utilisées efficacement par le biais de prompts ?
- pour les scénarios à faibles ressources (en mettant l’accent sur les dialectes et les langues régionales), les LLM peuvent-ils être affinés efficacement sans aucune donnée parallèle ?
Accepté dans le cadre de l’appel ANR 2023 portant sur les très grands modèles de langue (LLM), le projet se positionne au croisement de l’intelligence artificielle, de la linguistique et de la traduction automatique.
Le contexte
Entraînés sur des giga corpus multilingues, les modèles de langue (LLM) peuvent être employés à diverses fins. Une des finalités possibles est la traduction automatique, tâche pour laquelle l’approche à base de LLM permet de répondre simplement à deux points difficiles :
- la prise en charge d’un contexte étendu et enrichi (par des exemples ou des entrées de dictionaires terminologiques) ;
- et la prise en charge de domaines et directions de traduction pour lesquels les données d’apprentissage parallèles sont lacunaires, voire inexistantes.
Les objectifs
L’objectif principal du projet est d’analyser en profondeur la pertinence des LLM.
D’une part, nous nous concentrerons sur des cas d’usage industriels en étudiant des scénarios d’adaptation au domaine, de prise en compte de données terminologiques ou de mémoires de traduction, qui correspondent à des situations réalistes. D’autre part, nous nous intéresserons à la réalisation d’un système de traduction automatique depuis et vers toutes les langues de France à partir d’un LLM massivement monololingue et entrainé avec peu (voire pas du tout) de données parallèles.
Des défis scientifiques significatifs sont à relever, tels que l’extension de modèles pré-entrainés à de nouvelles langues très peu dotées ou encore la prise en charge de textes très idiomatiques, présentant de nombreuses instances d’alternance codique entre une langue minoritaire et le français.
Les résultats
Du point de vue industriel, Tralalam vise à évaluer les coûts et compromis computationnels VS la performance induits par l’utilisation des LLM en traduction automatique. Ces nouvelles architectures ont le potentiel de transformer en profondeur la manière d’entrainer et de déployer opérationnellement des systèmes de traductions. Les outils actuels sont soit toutefois trop gourmands en calcul, soit bien moins performants que les modèles de traduction optimisés pour cette seule tâche.
Concernant les langues de France, en partenariat avec divers acteurs représentant les communautés linguistiques concernées, nous souhaitons aboutir à des solutions opérationnelles pour certaines applications bien ciblées, telles que la traduction de pages Wikipedia, de textes administratifs ou réglementaires, etc.
Partenariats et collaborations
Porté par l’entreprise Systran, le projet Tralalam implique également :
- l’ISIR de Sorbonne Université,
- et l’équipe-projet ALMAnaCH du centre Inria de Paris.