Capteurs et collecte de données

Pour être efficaces, réalistes, utiles et pertinents, les modèles développés dans les thèmes 1 et 2 doivent pouvoir avoir accès à des données abondantes et de qualité pour leur conception, leur calibration ou leur validation. Mais comme cela a été dit dans ces deux thèmes, il est extrêmement rare de disposer des données en quantité et en qualité nécessaires : dans de nombreux domaines d’intervention d’UMMISCO et, plus généralement, de l’IRD, les données manquent, car la collecte ou la production de données de qualité était jusqu’à présent un luxe que peu de gouvernements ou d’institutions pouvaient s’offrir, soit par manque de moyens, soit par manque d’intérêt. La collecte de données est donc un défi majeur, en particulier dans les pays du Sud, où l’acquisition d’une donnée fiable est pourtant nécessaire à la conception de modèles capables d’accompagner les porteurs d’enjeux dans les décisions. Si les thèmes 1 et 2 proposent, quand les données ne sont pas disponibles, de développer des stratégies complexes pour générer ou approximer des données synthétiques, ce thème s’intéressera aux atouts  et défis scientifiques que représentent la production et la collecte de données dans un contexte profondément renouvelé par l’arrivée de solutions embarquées et connectées à faible coût.

Objectifs scientifiques et contexte

Nous sommes aujourd’hui en effet témoin d’une mutation profonde autour de l’usage et de l’acquisition des données. L’avènement du low-cost, des low-techs et des FabLabs ouvrent des perspectives nouvelles : les coûts réduits de bon nombre de capteurs environnementaux (eau, air, sol) facilitent leur dissémination et leur densification sur les territoires étudiés et favorisent la production continue d’un grand volume de données environnementales. Les systèmes de mesure “de référence” commencent à laisser la place à un écosystème interconnecté de micro-stations durables, réparables, remplaçables et parfois mobiles. Si les données étaient, hier, uniquement produites par les institutions gouvernementales ou scientifiques, elles deviennent le fruit d’une participation active et combinée d’acteurs aux capacités, aux intérêts et aux objectifs parfois divergents. Ce foisonnement de responsabilités et de solutions technologiques soulève des inquiétudes auprès des scientifiques et décideurs, en particulier sur la qualité et la fiabilité des données produites et leur utilisabilité dans le cadre d’une activité de recherche ou de prise de décision. Par exemple, l’agence de la qualité de l’air de Dakar, une des références en Afrique de l’Ouest, rencontrant des difficultés à maintenir son coûteux réseau de stations de mesure, s’est récemment interrogée sur l’utilisation de micro-capteurs à bas coût avant de découvrir que, conçus au Nord, ils n’étaient pas adaptés au climat local, que les données produites étaient erratiques et que leur maintenance s’avérait problématique.
Dans beaucoup d’autres exemples, la production, le stockage et la qualité des données sont de moins en moins maîtrisées par les acteurs qui en ont besoin et cela a une incidence directe sur la qualité des modèles dont ils peuvent disposer. Il devient alors urgent de proposer des solutions qui permettent aux scientifiques d’obtenir des données fiables pour mener leurs recherches. En mettant en avant ce thème pour son renouvellement, UMMISCO souhaite ainsi s’appuyer sur près de dix ans de développements pour proposer des recherches innovantes concernant l’acquisition, la production et le traitement pérennes des données, en mettant plus particulièrement
l’accent sur les quatre points ci-dessous :

Comment intégrer les aspects d’observation continue, en temps réel, l’acceptation et l’appropriation de ces observations par les communautés et leur assimilation dans des modèles d’aide à la décision ? Pour relever ce défi qui mêle problématiques technologiques et sociales, en articulation avec ses objectifs de développement d’une science participative (cf. thème 4), UMMISCO travaillera à associer les communautés locales au processus même de
conception des capteurs, en particulier via les réseaux de FabLab au Sud avec lesquels l’unité entretient des relations de longue date. Cette conception, ainsi que le déploiement pérenne de capteurs scientifiques, nécessiteront de lever les verrous principaux suivants :

  • Développer des capteurs open-source et à faible coût tout en assurant la fiabilité et la reproductibilité de la mesure. Les capteurs du marché sont habituellement des “boîtes noires” non modifiables par les utilisateurs finaux, à la fois pour des raisons industrielles et également pour assurer la qualité de la mesure. Les coûts, délais de maintenance et dépendance à l’égard des fournisseurs rendent ces solutions peu adaptées à des contextes de développement. Depuis plusieurs années, UMMISCO développe des capteurs ouverts comme QameleO ou Waou, avec la philosophie de permettre leur construction, calibration et maintenance au niveau local (via ses partenaires scientifiques ou des FabLabs). Cette volonté se heurte cependant au verrou de la fiabilité et de la reproductibilité de l’acquisition : développer un capteur ne se résume en effet pas à la construction d’un instrument et il est important d’établir des protocoles, des moyens de qualification et des modèles de détection des pannes et de recalibration temps-réel (par l’IA notamment). Les projets Waqatali (ANR Labcom 2022-2026), AirCrowd (en cours de soumission au FID ; AirCrowd Africa en cours d’évaluation par BPIFrance) entrent dans cette dynamique.
  • Développer des techniques d’assimilation de données pour intégrer, en temps réel, les données de capteurs dans les modèles de simulation. Connecter les modèles développés dans les thèmes 1 et 2 à des données réelles, acquises en continu, est un enjeu crucial en vue de permettre à ces mêmes modèles d’être utilisés, par exemple, pour accompagner les décideurs en situation de crise. L’assimilation de données vise à automatiser la traduction d’une mesure réelle (température, humidité, concentration de CO2, …), faite périodiquement et localement, en une donnée, parfois spatialisée, qui évolue à la temporalité des modèles l’utilisant (Ngom et al. 2021). Cette assimilation pose de nombreux problèmes d’ordre technique et méthodologique, dont le thème s’emparera dans le cadre d’applications spécifiques, mais avec la volonté de produire des méthodes génériques.
  • Concevoir et intégrer des modèles embarqués au sein des capteurs. Deux des défis principaux des approches que nous proposons résident dans (1) la réduction du volume de données produit; (2) la pertinence des données produites par rapport aux besoins, notamment lorsque ceux-ci évoluent. Ces deux défis se heurtent au même verrou, qui est celui de la capacité à embarquer dans les capteurs individuels des capacités de calcul et des modèles suffisamment performants pour pouvoir traiter les données in situ, soit pour les synthétiser (e.g. avoir une IA embarquée pour compter les véhicules sur un tronçon, pour compter des pirogues dans des images ou détecter des événements sonores dans des enregistrements acoustiques), soit pour les calibrer ou recalibrer en fonction de conditions extérieures, soit pour les transformer (e.g. embarquer des modèles de traduction automatique et de traitement de la parole dans des micro-puces pour faciliter leur utilisation en ligne par des enquêteurs).

 

Dans UMMISCO 4 seront développés des capteurs dédiés aux thématiques abordées dans les différents centres qui composent l’unité, en favorisant capitalisation et transfert de compétences entre les centres : capteurs de qualité de l’air, capteurs d’acoustique sous-marine, capteurs de flux de trafic, capteurs sonores, avec des objectifs de construction d’indicateurs ou de données, tels que le degré de pollution atmosphérique, la biodiversité marine, la densité de trafic, etc.

  • Qualité de l’air et santé. Il s’agit de développer une suite technologique innovante, scientifiquement validée, pour mieux mesurer la qualité de l’air (stations QameleO), pour mieux positionner ces capteurs (TeleSense) en vue, in fine, de répondre à l’aggravation de la pollution atmosphérique dans les pays du Sud, avec ses conséquences sanitaires, environnementales et économiques pour la population et les territoires concernés. Notre projet présente aussi l’originalité d’impliquer la population et les acteurs locaux et d’encourager l’évolution des habitudes de vie et comportements individuels, et in fine inciter l’action publique.
  • Ecologie urbaine. La durabilité des villes ne peut s’abstraire d’une végétalisation cohérente de l’espace urbain et d’une planification intelligente via des outils d’aide à la décision. Le laboratoire commun Waqatali s’inscrit dans cette dynamique en combinant l’internet des objets, l’intelligence artificielle, l’aide à la décision participative et des services innovants de conseils aux collectivités pour augmenter les co-bénéficices environnementaux et sociétaux du végétal en ville. Les villes et les sociétés actuelles connaissent de profondes mutations pour faire face aux enjeux climatiques, environnementaux et sociétaux qui sont prégnants au Nord et au Sud. Le végétal, considéré hier comme un ornement, devient aujourd’hui une infrastructure qui rend des services aux habitants, au même titre que la voirie, le réseau de bus ou la fibre optique. Penser les espaces végétalisés comme une infrastructure urbaine est une idée nouvelle que nous défendons. L’infrastructure végétale est alors qualifiée par ses bénéfices (température, qualité de l’air, etc) et ses coûts (économique, spatial et hydrique). Sa conception et son implantation, du capteur à l’aide à la décision, sont le fruit d’actions concertées entre cabinets d’expertise, décideurs et gestionnaires de la ville, dans le cadre de politiques durables de programmation urbaines.
  • Langues africaines. La collecte de données pour les langues africaines (toutes faiblement dotées) a mis en évidence l’intérêt d’embarquer des modèles d’apprentissage automatique dans des capteurs sonores. L’objectif est de faciliter la collecte de données en automatisant des tâches de pré-traitement (élimination du bruit, segmentation des signaux, …) et de certaines tâches d’étiquetage tel que la détection des tons et la diarisation. Dans UMMISCO 4 il est prévu de continuer avec le travail initié en collaboration avec l’équipe SYEL du LIP6 (SU) pour concevoir et réaliser des capteurs sonores à base de circuits programmables pour la détection des tons (Mba et al., 2022).
  • Irrigation optimisée. Les stratégies d’irrigation ont dû s’adapter aux changements environnementaux et climatiques. Des stratégies d’irrigation résilientes, telles que l’irrigation par réutilisation des eaux usées ou récupération des eaux de pluies deviennent courantes. Pour améliorer encore leur efficacité (i.e. économiser l’eau tout en maximisant les rendements des végétaux), des approches telles que l’irrigation intelligente basée sur l’intelligence artificielle et l’utilisation de capteurs avancés (Navinkumar et al., 2021; Gao et al., 2023) commencent à être expérimentées. Modélisation et capteurs combinés à des pratiques relevant de l’agroécologie contribuent à de nouvelles approches d’irrigation durable, comme l’irrigation déficitaire développée pour les pays arides et semi arides (Chalmers et al., 1981; Marsal et al., 2000; Kang et al., 2023, Bur et al. 2022).
  • Biosignaux cardiaques. Dans ce volet, UMMISCO 4 souhaite développer des applications translationnelles basées sur l’analyse automatique des électrocardiogrammes par des modèles d’IA pour prévenir notamment le risque de mort subite. Cependant, l’acquisition des ECG dans un environnement clinique reste très complexe pour les pays en développement et très souvent ni disponible, ni suffisante. Récemment, le développement de capteurs d’ECG sous forme de patch ou dispositifs portables permet d’enregistrer des ECG en continue, mais ces capteurs sont souvent très chers et pas adaptés aux modèles IA entraînés sur un contexte de capteurs cliniques. L’objectif d’UMMISCO sera de faire sauter ces verrous, en co-développant avec les collègues du Sud des dispositifs d’enregistrement des ECG et en adaptant les modèles IA afin qu’ils soient efficaces avec ce type de données et validées dans des études cliniques.

En plus des tâches d’animation interne et transversale dévolues à tous les thèmes d’UMMISCO 4, ce thème aura comme objectif de promouvoir un ensemble d’activités pratiques autour des capteurs. Cela passera tout d’abord par la conception, réalisation et diffusion de tutoriels sous la forme de vidéos pour former les chercheurs et usagers à la collecte de données sur les thématiques de l’unité. Un séminaire pratique, centré sur une de ces thématiques, sera ensuite organisé chaque année en complément de ces vidéos. Enfin, des hackathons seront régulièrement organisés dans les centres ou les FabLabs partenaires sur des thèmes comme le prétraitement des données collectées afin de les annoter et d’améliorer leur qualité pour l’apprentissage automatique.