Artificial intelligence and deep learning

AI and Deep Learning

L’essor rapide de l’apprentissage profond suscite une mobilisation croissante de la communauté scientifique et un afflux significatif de fonds, tant privés que publics, orientés vers la recherche. L’IA en général et l’apprentissage profond en particulier, sont vus comme un réservoir potentiel de réponses innovantes à une multitude de problématiques, en particulier dans le domaine du développement durable (Nishant et al. 2020). Cette vision élargit considérablement le champ des possibles, soulignant l’importance cruciale de la recherche dans la poursuite d’avancées technologiques aptes à révolutionner non seulement le développement durable, mais aussi à apporter des réponses innovantes dans les domaines de l’environnement, de la santé publique et de l’écologie. Les avancées de ce domaine sont directement liées à, d’une part, la génération de très larges quantités de données et au développement rapide du calcul sur GPU, et, d’autre part, à l’amélioration continue des algorithmes d’apprentissage profond et à l’intégration de techniques d’intelligence artificielle plus sophistiquées. Cette synergie entre disponibilité massive de données, puissance de calcul accrue et avancées algorithmiques a conduit à des percées significatives dans des domaines tels que la reconnaissance vocale, la vision par ordinateur, la traduction automatique, ou encore la conduite autonome. De plus, elle a facilité le développement d’applications innovantes qui transforment des secteurs variés, allant de la santé (Nat. Med. 2024), où elle permet par exemple de détecter précocement certaines maladies, à l’environnement, en optimisant les systèmes de gestion d’énergie pour réduire leur empreinte carbone. Cette science de plus en plus ouverte a donné naissance à de nombreuses approches algorithmiques innovantes permettant de découvrir de manière automatique des abstractions complexes cachées dans les données. Tout naturellement, UMMISCO, en tant qu’unité de recherche en modélisation, a contribué de manière active à la recherche de nouvelles approches pour faire face aux nombreux verrous méthodologiques soulevés par la construction de modèles toujours plus complexes. Ceci s’est traduit par le financement de plusieurs projets nationaux et internationaux couvrant de nombreux domaines allant de la santé et de l’environnement à la biodiversité et aux sciences sociales (AIME, DeepECG4U, DeepIngegromics, Ecol+, Metaplantcode, etc).

Objectifs scientifiques et contexte

Les objectifs de ce thème sont nombreux et se placent dans le contexte très compétitif du développement d’un cadre méthodologique et théorique couvrant différents domaines et sous-domaines de l’IA. Parmi les objectifs majeurs, il est possible de citer :

La recherche de représentations. L’utilisation de l’apprentissage profond offre de nouveaux moyens pour trouver automatiquement des représentations complexes et abstraites de données non structurées et multimodales. Ceci se traduit par la recherche automatique d’embeddings (représentations denses de données de haute dimension, telles que des phrases, des images ou même des séquences génétiques entières) dans un espace vectoriel de dimension réduite. Ces embeddings capturent la sémantique et les relations entre les éléments, permettant ainsi aux modèles d’apprentissage d'effectuer des tâches de classification, de recommandation, ou de prédiction avec une précision accrue. Par exemple, pour caractériser au mieux un patient et définir son jumeau numérique, il est possible de convertir en vecteurs ses données métagénomiques issues du séquençage à haut débit (Queyrell et al. 2021) ou bien ses biosignaux comme les électrocardiogrammes (Prifti et al. 2021). Ces vecteurs peuvent ensuite être manipulés afin de mieux représenter le système étudié, étant attendu qu’une meilleure représentation participe directement à une modélisation plus utile.
Le développement de méthodes interprétables et robustes. L'efficacité de l'apprentissage profond est étroitement liée à la qualité des données, ce qui souligne l'importance cruciale de la sélection, du nettoyage et de la préparation des données. Cependant, au-delà de la qualité des données, se pose également le défi de l'interprétabilité des modèles. Pour garantir une utilisation éthique et efficace de l'apprentissage profond, il est indispensable de développer des modèles non seulement performants mais aussi compréhensibles, capables de fournir des explications claires sur leurs décisions et sur leur fonctionnement. Cela permet non seulement de renforcer la confiance des utilisateurs, mais aussi de faciliter leur amélioration continue et leur adaptation à de nouveaux contextes ou données. Enfin, il a été démontré à de nombreuses reprises que ces modèles peuvent rapidement être biaisés (Goyal & Bengio 2022) et qu’il est important de pouvoir donner sens aux inférences que produisent les modèles profonds (Chakraborty et al. 2017). L’interprétabilité des modèles constitue ainsi un verrou scientifique majeur, auquel UMMISCO se donne pour objectif, via ce thème, de contribuer activement.
L’IA discriminative et générative. L'accélération du développement des grands modèles de langages (LLM) a effectivement démontré le potentiel de renouveau dans le domaine du traitement automatique des langues naturelles. Les applications envisageables sont multiples tant en IA discriminative qu’en IA générative et ouvrent de nouvelles perspectives de modélisation. UMMISCO s'intéresse de près à ces approches et les met déjà en œuvre dans divers domaines tels que la santé (analyse d'ADN, d'ECG, de textes biologiques, etc.) ou la construction de programmes et d'images 3D pour des environnements virtuels (dans le cadre du projet SIMPLE). Ces applications représentent autant de problèmes de recherche fascinants, chacun posant ses propres défis en termes de modélisation, d'analyse de données et d'interprétation. Elles requièrent une compréhension approfondie des fondements théoriques des LLM ainsi que des compétences techniques avancées pour leur mise en œuvre efficace.
L’IA discriminative et gL’IA embarquée et frugale. Un des aspects négatifs des réseaux profonds, au cœur des nouvelles approches en IA, est leur taille, la puissance de calcul et la quantité phénoménale d’énergie dont ils ont besoin pour fonctionner. Très sensible à cet aspect, UMMISCO souhaite développer dans ce thème un programme de recherche tourné vers l’IA frugale, pouvant par exemple être embarquée dans des petits dispositifs comme les capteurs développés dans le thème 3.énérative. L'accélération du développement des grands modèles de langages (LLM) a effectivement démontré le potentiel de renouveau dans le domaine du traitement automatique des langues naturelles. Les applications envisageables sont multiples tant en IA discriminative qu’en IA générative et ouvrent de nouvelles perspectives de modélisation. UMMISCO s'intéresse de près à ces approches et les met déjà en œuvre dans divers domaines tels que la santé (analyse d'ADN, d'ECG, de textes biologiques, etc.) ou la construction de programmes et d'images 3D pour des environnements virtuels (dans le cadre du projet SIMPLE). Ces applications représentent autant de problèmes de recherche fascinants, chacun posant ses propres défis en termes de modélisation, d'analyse de données et d'interprétation. Elles requièrent une compréhension approfondie des fondements théoriques des LLM ainsi que des compétences techniques avancées pour leur mise en œuvre efficace.

Scientific challenges

Dans le cadre de ce thème, UMMISCO a pour objectif d’avancer la recherche méthodologique en IA tout en attaquant de nombreux verrous dont certains sont évoqués ici. Ils sont liés à la nature même des réseaux profonds, des tâches d’apprentissage et des applications finales. Parmi les principaux nous pouvons mentionner :

La qualité et le biais des données : Déjà mentionné dans le thème 1, ce verrou est traité en partie et en lien fort avec lui (génération de données) et avec le thème 3 (collecte de données). Les actions prévues touchent à la fois la qualité, la standardisation et la taille des ensembles de données utilisés, mais aussi les thématiques de calibration et de généralisation des modèles (Bayet et al. 2022).
L’annotation des données et l’apprentissage semi-supervisé : parmi les verrous clés dans le cadre de l’apprentissage supervisé, la qualité des données annotées occupe une place importante, car elle peut expliquer les plateaux auxquels se heurtent l’apprentissage profond, en raison notamment de la discordance naturelle entre experts annotateurs. Le thème s’intéressera (en lien avec le thème 4) à “remettre l’humain dans la boucle”, mais d’autres approches d’apprentissage profond telles que l’apprentissage semi-supervisé ou encore l’apprentissage continu offrent aussi des perspectives intéressantes (Chen 2020).
Le design des architectures : la recherche des meilleures architectures, adaptées à une tâche ou à un type de données, reste aujourd’hui un verrou majeur. Les meilleures architectures sont souvent identifiées de manière expérimentale, ce qui demande des ressources de calcul extrêmement coûteuses. Même si des méthodes d’optimisation d’architectures commencent à apparaître (Miikkulainen 2024), le développement d’un cadre théorique et un meilleur balisage du domaine restent nécessaires, en particulier dans le développement de systèmes d’IA plus frugaux.
L’acceptabilité de l’IA : ce verrou concentre divers aspects importants touchant à l’IA, tels que l’interprétabilité, la sécurité, la confiance, la robustesse, etc. Un bon exemple est constitué par les modèles qui vont influer directement sur la prise en charge des patients. Sommes-nous prêts aujourd’hui à faire confiance à un modèle chargé d’évaluer si un patient doit subir une chirurgie cardiaque ? Comment mettre en place une évaluation de ces modèles profonds par des études cliniques semblables à celles qui évaluent l’efficacité des médicaments ?

Ce verrou comporte également des aspects réglementaires (Al Mouatamid et al. 2023) ainsi que des aspects “sciences humaines” (épistémologie, sciences cognitives).

Applications

UMMISCO 3 a contribué à de nombreux projets dans lesquels l’IA a été au centre des développements méthodologiques et applicatifs. Parmi les applications les plus marquantes qui continueront sous UMMISCO 4, nous pouvons citer :

AIME (Artificial Intelligence for Marine Ecosystems): ce projet s’intéresse à la quantification et à la modélisation des changements de la biodiversité dans différents écosystèmes marins. Une équipe scientifique internationale avec une vaste expérience en IA, écologie et biologie marine a été constituée afin de développer des techniques pour générer automatiquement des indicateurs pointus de la santé de ces écosystèmes et de créer des modèles novateurs capables d’estimer les changements dans la biodiversité. A titre d’exemple, la classification et la détection d’objets appliquées à des images de récifs coralliens permettent de générer des indicateurs de blanchiment des coraux (Younes et al. 2024) et les techniques de traitement automatique du langage appliquées aux documents juridiques des indicateurs sur la protection juridique des océans (Al Mouatamid et al, 2023).

DeepIntegromics (apprentissage profond et intégratif des données omiques) : Il s’agit d’un projet stratégique permettant de traiter de nombreux objectifs de la modélisation IA vus § 2.2.2. Ce projet, mené en collaboration avec des équipes cliniques de SU, vise à exploiter l’apprentissage profond pour identifier les phénotypes des patients à partir de données cliniques et omiques, et se concentre sur le défi d’apprendre à partir de données métagénomiques brutes. Une innovation clé du projet est l’adoption d’une cascade de classeurs, une approche séquentielle où les modèles de machine learning s’alimentent les uns les autres avec des données de plus en plus coûteuses, utilisées uniquement lorsque nécessaire pour affiner les prédictions ou classifications. Cette méthode permet une analyse plus précise et interprétable, réduisant les coûts en ne recourant à des données onéreuses que lorsqu’elles sont indispensables pour améliorer la prédiction. Cette stratégie s’est révélée par exemple pertinente pour améliorer la prise en charge de patients souffrant de maladies cardiométaboliques.
DeepECG4U (apprentissage profond et translationnel pour l’analyse des électrocardiogrammes) : Il s’agit d’un des nombreux projets translationnels (au sens où ils ont vocation à être utilisé en routine par les médecins) ayant pour objectif le développement de modèles profonds robustes et interprétables pouvant identifier les patients à risque de faire des arythmies telles que les torsades-de-pointes, qui peuvent entraîner une mort subite. Ce programme a engendré de nombreuses collaborations nationales et internationales au Nord (France, Italie, Etats Unis, Pays Bas …) et au Sud (Sénégal, Albanie) et a pour objectif de valider les modèles profonds dans le cadre d’études cliniques.

eCOL+ : Il s’agit dans ce projet d’utiliser la puissance de l’IA pour annoter les collections uniques et très larges du Muséum National d’Histoire Naturelle (MNHN). Ce projet est unique par la taille des données traitées (> 2PO), leur diversité et celle des approches développées. Lancé en 2021 pour une durée de 8 ans, ce projet réunit de nombreuses disciplines telles que la paléontologie, la botanique, l’imagerie, l’analyse de données, la modélisation, etc.

MetaPlantCode : Financé par le programme Européen Biodiversa+, et démarré en 2024, ce projet consiste à standardiser les protocoles de traitement de la biodiversité des plantes. UMMISCO est le leader d’un workpackage travaillant sur les approches IA et en particulier l’apprentissage profond pour aider à la classification des séquences d’ADN environnemental.
I-Maroc : Dans ce projet déjà cité, UMMISCO développe une IA embarquée permettant, à partir d’un flux vidéo, de synthétiser périodiquement un trafic routier sous différents paramètres (nombre de véhicules, vitesse, temps inter-véhiculaire, etc.). L’objectif est de développer une station de comptage durable et à faible coût qui permettra de faire des études dans des villes non équipées de capteurs fixes.
NAWRAS10 : Il s’agit d’un projet multidisciplinaire où les techniques du traitement automatique des langues (Al Mouatamid et al, 2023), les avancées récentes relatives aux grands modèle de langages et leur raffinement (fine-tuning), sont utilisées pour extraire automatiquement de l’information à partir de collections de textes juridiques afin de construire des indicateurs juridiques permettant de mieux comprendre la contribution des différents droits nationaux à la préservation de l’océan. Le produit final du projet est un tableau de bord accessible au public, permettant d’effectuer des comparaisons entre plusieurs pays (+de 30 pays actuellement). Ce projet est coordonné par UMMISCO (département informatique de la Faculté des sciences Semlalia, université Cadi Ayyad et par IRD/LEMAR).
ESPERANTO11 : il s’agit d’un projet H2020 dont le centre UMMISCO Afrique centrale est partenaire. Ce dernier intervient sur le traitement automatique des langues africaines ainsi que le traitement de la parole pour ces langues. Les verrous scientifiques adressés sont principalement liés aux caractéristiques linguistiques des langues africaines qui sont différentes de celles des langues les plus utilisées en TALN et Traitement Automatique de la Parole (tons, alphabet, agglutination, …). De plus, ces langues sont faiblement dotées ce qui nécessite, d’une part, de proposer de nouveaux algorithmes d’apprentissage, d’autre part de collecter et diffuser des jeux de données (étiquetés) pour les mettre à disposition de la communauté scientifique (Kenfack et al. 2023). Le centre collabore avec des linguistes en tant qu’experts métiers ce qui introduit dans le projet la question de l’explicabilité des modèles; des modèles d’explicabilité par prototypage sont explorés.

Activities

The scientific leadership of this theme will aim to encourage and facilitate exchanges between researchers from different disciplines and geographical centers. The theme will fund transdisciplinary or inter-center projects through an annual call for projects, in coordination with the other themes. The theme will participate in the dissemination of knowledge via training courses (Master's, PDI) and seminars with the unit's various partners, in particular around Deep Learning. Finally, the theme will also set up a series of seminars to enable members of the theme to exchange views on advances in the field of AI, which are proceeding at a frenetic pace. The theme also has a large number of members, including PhD students, interns, post-docs and young researchers from all centers. This increases the unit's dynamism, but also requires specific scientific animation needs. For example, since 2022, weekly seminars have been organized for researchers, doctoral students and post-doctoral fellows, with around thirty events per year. This dynamic approach to methodological issues and scientific watch will continue in the new edition of the unit. It complements the internal meetings held for each project in conjunction with our partners.