C. DES BÉNÉFICES CONSIDÉRABLES POUR LA RECHERCHE
1. La fertilisation des autres disciplines scientifiques par l'IA
Bien qu'elle constitue une discipline scientifique en soi, l'intelligence artificielle ne saurait être traitée isolément des autres disciplines scientifiques, selon une approche « en silo ». Par les possibilités qu'elle offre, l'intelligence artificielle est en effet un outil pour toutes les disciplines scientifiques, c'est d'ailleurs pourquoi en 2024 les prix Nobel de Physique et de Chimie sont l'un et l'autre revenus à des chercheurs en IA297(*). C'est aussi le sens de l'expression « IA plus X », développée par l'exécutif dans la seconde phase du programme d'investissement pour l'IA.
En France, nos instituts de recherches, à l'image de l'Institut national de recherche en sciences et technologies du numérique (Inria) ou du Commissariat à l'énergie atomique et aux énergies alternatives (CEA), rencontrés par vos rapporteurs, mènent des projets transversaux visant à développer l'intelligence artificielle autour de projets liant recherche en IA et autres domaines de recherche. Ainsi, le CEA conduit des projets visant à développer des systèmes d'intelligence artificielle suffisamment fiables pour être déployés dans des chaînes de production industrielle, ce qui nécessite de croiser les compétences de chercheurs en intelligence artificielle et de chercheurs spécialisés dans différents domaines industriels.
L'intelligence artificielle est un outil qui peut être utilisé dans un ensemble de disciplines scientifiques, ce qui implique une réflexion sur l'usage des intelligences artificielles dans des contextes divers. L'utilisation d'une IA comme agent conversationnel diffère par exemple de l'utilisation d'une IA dans un contexte d'industrie lourde ou médicale.
Le fait que GPT-4 ait été capable de résoudre en 2023 un problème complexe de physique du concours d'entrée à Polytechnique298(*) prouve que les IA peuvent être des ressources très utiles pour des projets de recherche scientifique, y compris dans des domaines avancés. Il est souvent dit que les LLM ont actuellement, malgré leurs défauts (comme les hallucinations ou leur absence de logique), les capacités de bons doctorants299(*).
Les modèles d'IA permettent d'accélérer les progrès scientifiques. En 2022, ils ont par exemple été utilisés pour aider à la fusion de l'hydrogène, améliorer l'efficacité de la manipulation de matrices ou, encore, générer de nouveaux anticorps. En matière de santé, la recherche peut bénéficier de gains de temps, du criblage des médicaments et de nouvelles opportunités vers la médecine personnalisée. Pour analyser des problèmes de géométrie, DeepMind a créé Alphageometry qui donne d'excellents résultats et se base sur une architecture hybride (IA symbolique avec des systèmes à base de règles conjuguée à une IA connexionniste basée sur des réseaux de neurones).
En décembre 2023, un autre modèle d'IA de DeepMind - FunSearch (appelé ainsi car il recherche des fonctions mathématiques, pas parce qu'il serait drôle) - est parvenu à résoudre un problème mathématique jusqu'alors non résolu. Cette réussite est d'autant plus marquante que la solution n'était absolument pas présente dans les données d'entraînement300(*).
Selon plusieurs chercheurs, cette expérience s'apparente au premier cas où un grand modèle de langage utilisé pour résoudre un problème mathématique et son succès plaide en faveur de l'IA301(*).
Avant cette résolution d'un problème mathématique, un autre modèle d'IA de DeepMind - AlphaFold - s'est illustré avec sa capacité à produire une analyse décisive du repliement des protéines.
2. Les cas emblématiques de l'analyse du repliement des protéines en 2018 et de la génomique en 2024
L'un des premiers domaines scientifiques dans lequel l'intelligence artificielle s'est révélée au grand public est celui de l'analyse du repliement des protéines. Les protéines sont des molécules de grande taille composées de polypeptides, eux-mêmes composés d'acides aminés. Il existe vingt acides aminés différents qui peuvent constituer des polypeptides lorsqu'ils s'assemblent en chaîne. En connaissant les acides aminés composant les chaînes polypeptidiques, il est possible de déterminer la « séquence primaire » d'une protéine.
La forme d'une protéine est complexe à déterminer puisqu'elle dépend d'interactions entre les différents éléments des chaînes polypeptidiques de la protéine. Le repliement des protéines est le résultat d'interactions chimiques au sein de la molécule (liaisons hydrogène, interactions hydrophobes, forces de van der Waals, etc.). Pour connaître la forme d'une protéine, il faut déterminer la configuration dans laquelle l'énergie libre de la molécule est la plus basse afin d'atteindre une conformation stable, fonctionnelle et thermodynamiquement favorable. Trouver une telle configuration n'est pas chose aisée alors que ce sont des centaines voire des milliers d'atomes qui sont en interaction en son sein. Par exemple la formule chimique de l'insuline humaine est
soit 788 atomes.
Utiliser des moyens computationnels d'IA pour parvenir à connaître la forme d'une protéine à partir de sa structure primaire permet de mieux comprendre les propriétés d'une protéine, ce qui revêt une importance capitale en médecine et en biologie. Le Critical Assessment of protein Structure Prediction (CASP) est un concours biannuel organisé depuis 1994 par le Protein Structure Prediction Center (PSPC)302(*), faisant se confronter des modèles sur des tâches de prédiction de structure protéique. Dans ce concours, les organisateurs collectent la structure en trois dimensions de séquences de protéines qui ont été déterminées mais qui n'ont pas fait l'objet d'une publication scientifique. On communique au participant la structure de séquences cibles et ils doivent alors trouver la structure en trois dimensions de la protéine associée à cette structure.
En 2018, la société DeepMind participe au CASP13 avec son logiciel d'intelligence artificielle AlphaFold et remporte le concours. Ils participent au concours deux ans plus tard avec AlphaFold2 et arrivent à nouveau en tête, encore plus largement303(*). C'est cette large domination du CASP14 en 2020 qui va mettre en lumière les performances des modèles d'apprentissage profond pour le cas de la prédiction de la structure des protéines.
Mesure de la performance d'Alphafold par rapport aux autres modèles
N.B. : La mesure de la performance d'AlphaFold2 est la barre bleue la plus à gauche, dominant largement tous les autres modèles participant au concours CASP14 en 2020.
Source : PSPC
Ce sont ces travaux qui ont conduit David Baker, John Jumper et Demis Hassabis, fondateur et directeur du laboratoire d'IA Google DeepMind, à se voir décerner en 2024 le prix Nobel de chimie.
Dans le rapport de l'Office de 2017, la perspective d'une prédiction optimisée du repliement des protéines par l'IA avait été dessinée en soulignant l'enjeu qu'un tel progrès représenterait pour la médecine304(*). Le rapport précisait que « le processus physique, par lequel un polypeptide se replie dans sa structure tridimensionnelle caractéristique dans laquelle il est fonctionnel, est important en ce que de nombreuses maladies, en particulier les maladies neurodégénératives, sont considérées comme résultant d'une accumulation de protéines mal repliées ».
En novembre 2024, l'analyse génomique connaît un progrès important avec le lancement du premier modèle d'IA dédié, nommé Evo. Formé par des données de 2,7 millions de génomes de procaryotes et de phages diversifiés sur le plan de l'évolution, sur le modèle des LLM, ce modèle est capable d'interpréter et de générer de longues séquences génomiques à grande échelle. Cela représente un grand potentiel pour interpréter les données de séquences biologiques (l'ADN, l'ARN, les protéines...) et réaliser des prédictions (comment de petits changements d'ADN affectent la forme physique d'un organisme, générer des séquences réalistes de la longueur du génome), voire concevoir de nouveaux systèmes biologiques, y compris avec la validation en laboratoire des technologies synthétiques CRISPR et des éléments transposables de type IS200/IS605.
La revue Science a consacré sa couverture à ce nouveau modèle dans un numéro spécial du 15 novembre 2024 contenant l'article scientifique qui présente cette révolution de la compréhension complète du code génétique jusqu'aux génomes entiers, une avancée majeure dans la capacité à concevoir la biologie et les sciences du vivant selon des modalités et des échelles multiples et complexes jusqu'alors impossibles305(*).
3. Les jumeaux numériques et le perfectionnement des simulations
Un jumeau numérique (parfois désigné par son terme anglais « digital twin ») est une représentation virtuelle d'un objet, bâtiment, processus ou système306(*). Il s'agit d'un perfectionnement des simulations.
Cette pratique est utilisée depuis le début des années 2000 et se développe particulièrement depuis les années 2010. Elle permet d'avoir un modèle informatique d'objets ou de processus existants, qui donne ainsi la possibilité de l'étudier dans un environnement numérique et de réaliser des simulations en agrégeant des données concernant l'objet.
Ces jumeaux numériques peuvent être créés et animés par de l'intelligence artificielle, les données récoltées sur le système réel servent alors à entraîner le jumeau pour qu'il parvienne à imiter au mieux son comportement. De tels jumeaux numériques sont développés par des entreprises comme Dassault Systèmes ou des laboratoires comme le CEA-List (Laboratoire d'intégration des systèmes), spécialisé dans les systèmes numériques intelligents. Les applications sont innombrables.
4. Adapter nos politiques de recherche aux perspectives ouvertes par l'IA
Ces progrès grâce à l'IA nécessitent d'adapter nos politiques de recherche qui doivent tirer le meilleur parti de ces technologies. Non seulement il faut chercher à déployer des outils d'IA dans tous les champs de recherche, mais il faut que la recherche fondamentale en IA elle-même se nourrisse des autres disciplines.
Il faut donc envisager un nouveau paradigme dans le rapport au savoir et une politique de recherche plus que jamais pluridisciplinaire voire, mieux, transdisciplinaire. Cet objectif global pourra se décliner dans des dispositifs plus précis.
* 297 En 2024, le prix Nobel de Physique a été attribué à Geoffrey Hinton et John Hopfield pour leurs travaux sur les réseaux de neurones artificiels et le prix Nobel de Chimie a été décerné aux trois pionniers de l'exploration des protéines assistée par ordinateur, David Baker, John Jumper et Demis Hassabis, fondateur et directeur du laboratoire d'IA Google DeepMind.
* 298 La question posée relative à la détection de rayonnements avec un bolomètre nécessitait, avant même de répondre, de comprendre un problème de physique avec un diagramme complexe écrit en français. Cf. le rapport technique 2023 sur GPT-4 réalisé par OpenAI : https://cdn.openai.com/papers/gpt-4.pdf
* 299 Cf. le commentaire Dan Hendrycks à propos du graphique d'OpenAI sur les capacités de leur nouveau système en écriture, mathématiques, raisonnement logique et codage dans ce tweet : https://x.com/DanHendrycks/status/1778588753721950514
* 300 Cf. Will Douglas Heaven, décembre 2023, « Google DeepMind used a large language model to solve an unsolved math problem », MIT Technology Review : https://www.technologyreview.com/2023/12/14/1085318/google-deepmind-large-language-model-solve-unsolvable-math-problem-cap-set/
* 301 Cf. Bernardino Romera-Paredes et al., 2024, « Mathematical discoveries from program search with large language models », Nature n° 625, 468-75 : https://doi-org.stanford.idm.oclc.org/10.1038/s41586-023-06924-6
* 302 Pour en savoir plus, le site du PSPC : https://predictioncenter.org/
* 303 Résultats du CASP14 : https://predictioncenter.org/casp14/zscores_final.cgi
* 304 Cf. le rapport précité de l'OPECST, op. cit., pp. 77 et 78.
* 305 Eric Nguyen et al., 15 novembre 2024, « Sequence modeling and design from molecular to genome scale with Evo », in Science, volume 386, n° 67 :
https://www.science.org/doi/10.1126/science.ado9336
* 306 Mengnan Liu, Shuiliang Fang, Huiyue Dong, et Cunzhi Xu, 2021, « Review of digital twin about concepts, technologies, and industrial applications », Journal of manufacturing systems :
https://www.researchgate.net/profile/Mengnan-Liu/publication/342807853_Review_of_digital_twin_about_concepts_technologies_and_industrial_applications/links/5fa7f90e92851cc286a04b21/Review-of-digital-twin-about-concepts-technologies-and-industrial-applications.pdf.