1.1.2. LA BIO-INFORMATIQUE

La bio-informatique, combinaison de l'informatique et de la biologie, est la science sans laquelle aucune des découvertes évoquées ci-dessus ni aucune de celles qui en découleront n'aurait été possible. Domaine fondateur de la génomique, la bio-informatique est constituée de l'ensemble des concepts et des techniques nécessaires à l'acquisition et à l'interprétation de l'information génétique. Elle seule permet de gérer cette information, qui est quantitativement considérable.

La bio-informatique, véritable clé de la génomique, en est un outil indispensable : à partir d'une séquence d'ADN nouvellement identifiée, elle permet de retrouver les séquences similaires déjà décrites dans des banques de données, construire des séquences " virtuelles " issues de leur assemblage, déduire quels sont les gènes associés et leur distribution au niveau d'un organe ou d'un tissu, établir un lien entre des gènes présents dans une pathologie et la présence en surabondance d'une certaine protéine in situ, prédire la structure, et même la fonction de cette protéine, cible potentielle pour un futur médicament.

La bio-informatique est rendue indispensable par la quantité même d'informations qu'elle permet de recueillir en décryptant le génome. " Le nombre de données est tellement important qu'il est impensable qu'on soit aujourd'hui en mesure de les interpréter dans toute leur complexité et ainsi parvenir à les intégrer dans un schéma global de fonctionnement de la cellule. C'est dire, dans le long terme, l'importance du pari de la bio-informatique pour tirer le meilleur parti de l'utilisation de cette technologie révolutionnaire. " 13( * )

1.1.2.1. L'acquisition et l'analyse de l'information génétique

L'activité de séquençage consiste à transformer de la matière en information. Dans un premier temps, il s'agit d'utiliser des programmes informatiques qui, intégrés aux séquenceurs permettent de décrypter les fragments d'ADN, de les " lire ".

Interviennent ensuite des moyens d'analyse intensive de la séquence :

- Les supercalculateurs :

Des moyens de calculs importants mettant en oeuvre des techniques d'analyse d'images et de compression de données permettent non seulement d'organiser la grande quantité de données brutes générées quotidiennement, mais aussi de reconstituer la séquence de longues régions du génome à partir d'éléments beaucoup plus petits. On est ainsi amené à reconstituer des puzzles dont chacune des pièces est une séquence que l'on comparera à toutes les autres. Pour un génome bactérien entier, par exemple, la reconstitution du puzzle peut demander plus de deux cent mille milliards de comparaisons de caractères .

Les séquences reconstituées doivent ensuite être comparées à celles déterminées par des milliers de chercheurs à travers le monde et stockées dans des bases de données internationales : ces comparaisons sont actuellement le meilleur moyen d'attribuer une fonction biologique aux séquences.

- L'algorithmique du génome :

C'est ce qui permet le calcul de certaines occurrences, de relations phylogénétiques, et la mise en évidence de phénomènes inattendus par l'examen systématique des données. Pour la détection et la prédiction des gènes, pour la connaissance des structures et des fonctions des protéines correspondantes, il est indispensable, en effet, de rechercher des événements tels que la présence simultanée de plusieurs motifs dans une configuration donnée.

Enfin, l'ultime étape de la connaissance génomique, c'est-à-dire la découverte de la structure des protéines passe aussi par l'informatique. Celle-ci permet en effet, à partir des données sur les séquences ou motifs de séquences, de reconstruire la structure spatiale des protéines. Cette structure en trois dimensions est indispensable à la conception de molécules capables d'interagir avec les protéines.

1.1.2.2. L'organisation et la conservation de l'information

C'est ce que certains appellent l'informatique d'intégration. L'informaticien essaie d'assister le biologiste dans l'organisation des résultats et la mise en concordance d'observations scientifiques distinctes, qui lui permettent d'émettre une hypothèse et de la valider sur de grands ensembles de données. Elle consiste notamment à constituer de gigantesques bases de données, à permettre la recherche d'informations (" data mining ") et la mise en évidence de " voisinage " à partir des connaissances scientifiques publiées et de banques de données spécialisées.

Par ailleurs, la découverte des séquences génomiques de plus en plus nombreuses suppose que soit rapidement assurées, par la constitution de bases de données " d'archives ", la conservation et bien entendu la mise à jour des séquences, ainsi que le classement par niveaux de complexité croissants, des résultats de la démarche génomique d'ensemble (séquences, structures, fonctions, propriétés physiologiques, etc.).

- La communication de l'information

Elle suppose la constitution de réseaux d'information cohérents, homogènes en format et en qualité permettant, par des échanges nationaux et internationaux, de mettre en commun les connaissances, les technologies et les compétences.

À l'heure actuelle les standards d'Internet structurent le développement des environnements informatiques appliqués à la biologie moléculaire. C'est bien entendu la démarche suivie au Génoscope d'Évry :

" Les données produites au Génoscope sont mises à la disposition des autres membres de la communauté scientifique internationale. Réciproquement, le Génoscope réactualise journellement les bases des données produites ailleurs dans le monde, via Internet. Chaque jour, il met ainsi de l'ordre de plusieurs millions d'octets de données nouvelles à disposition sur le réseau et recueille des millions d'octets représentant les nouvelles données découvertes par des biologistes du monde entier. À cette fin, nous exploitons une connexion au réseau qui permet d'échanger deux millions de bits (Mbits) -250 000 octets- par seconde. 14( * ) "

Page mise à jour le

Partager cette page