B. LA BONNE UTILISATION DES DONNÉES ET LA LUTTE CONTRE LES BIAIS
Si l'accès aux données est stratégique, leur bonne utilisation pour entraîner les systèmes d'IA l'est tout autant. Avec le développement des IA génératives, fondées sur de l'apprentissage automatique, la lutte contre les biais doit être intégrée au processus de production d'information par le système lui-même.
Ainsi, l'entraînement des IA génératives sur des données non représentatives de la population générale par manque de diversité d'âge, de genre, voire d'origine ethnique dans les données de base, peut conduire à « passer à côté » lorsque l'on cherche à appliquer l'outil sur des individus présentant des caractéristiques spécifiques. En imagerie médicale, par exemple, si une base comprend plus d'hommes que de femmes, ces dernières risquent d'être moins bien diagnostiquées par l'IA35(*).
Une récente revue de littérature a identifié six sources de biais inhérents aux données numériques de santé : des biais liés aux essais cliniques antérieurs, des biais liés à l'insuffisance de données ou leur insuffisante annotation, des biais liés à des préjugés cliniques, des biais de références, des biais liés aux profils de risques, et des biais liés aux machines et algorithmes eux-mêmes36(*). Ces multiples biais peuvent se combiner entre eux et avoir des effets exponentiels.
Si les professionnels de santé utilisateurs des systèmes d'IA ne connaissent pas bien les limites de leurs outils, et notamment ne sont pas informés des possibles biais des systèmes d'IA qu'ils utilisent, ils ne peuvent pas se distancier des résultats proposés par les machines et sont alors susceptibles d'être induits en erreur dans leur analyse clinique.
Il existe également un risque d'erreurs non détectées lorsque l'IA travaille sur des données « falsifiées » (volontairement ou pas), conduisant à des résultats absurdes qu'une intelligence humaine aurait pu écarter par un simple raisonnement logique. Il est donc nécessaire d'effectuer un contrôle sur les données qui seront utilisées dans les systèmes d'IA en santé.
* 35 Voir l'étude américaine datant de 2020 : Larrazabal AJ, Nieto N, Peterson V, Milone DH, Ferrante E., « Gender imbalance in medical imaging datasets produces biased classifiers for computer-aided diagnosis », Proc Natl Acad Sci USA, 9 juin 2020 ; https://pubmed.ncbi.nlm.nih.gov/32457147/.
* 36 Voir l'étude américaine datant de 2024 : Perets O, Stagno E, Yehuda EB, McNichol M, Anthony Celi L, Rappoport N, Dorotic M., « Inherent Bias in Electronic Health Records: A Scoping Review of Sources of Bias », medRxiv [Preprint], 12 avril 2024 ; https://pubmed.ncbi.nlm.nih.gov/38680842/.