1.1.2. LA BIO-INFORMATIQUE
La
bio-informatique, combinaison de l'informatique et de la biologie, est la
science sans laquelle aucune des découvertes évoquées
ci-dessus ni aucune de celles qui en découleront n'aurait
été possible. Domaine fondateur de la génomique, la
bio-informatique est constituée de l'ensemble des concepts et des
techniques nécessaires à l'acquisition et à
l'interprétation de l'information génétique. Elle seule
permet de gérer cette information, qui est quantitativement
considérable.
La bio-informatique, véritable clé de la génomique, en est
un outil indispensable : à partir d'une séquence d'ADN
nouvellement identifiée, elle permet de retrouver les séquences
similaires déjà décrites dans des banques de
données, construire des séquences " virtuelles " issues
de leur assemblage, déduire quels sont les gènes associés
et leur distribution au niveau d'un organe ou d'un tissu, établir un
lien entre des gènes présents dans une pathologie et la
présence en surabondance d'une certaine protéine in situ,
prédire la structure, et même la fonction de cette
protéine, cible potentielle pour un futur médicament.
La bio-informatique est rendue indispensable par la quantité même
d'informations qu'elle permet de recueillir en décryptant le
génome.
" Le nombre de données est tellement
important
qu'il est impensable qu'on soit aujourd'hui en mesure de les
interpréter dans toute leur complexité et ainsi parvenir à
les intégrer dans un schéma global de fonctionnement de la
cellule. C'est dire, dans le long terme, l'importance du pari de la
bio-informatique pour tirer le meilleur parti de l'utilisation de cette
technologie révolutionnaire. "
13(
*
)
1.1.2.1. L'acquisition et l'analyse de l'information génétique
L'activité de séquençage consiste
à transformer de la matière en information. Dans un premier
temps, il s'agit d'utiliser des programmes informatiques qui,
intégrés aux séquenceurs permettent de décrypter
les fragments d'ADN, de les " lire ".
Interviennent ensuite des moyens d'analyse intensive de la
séquence :
- Les supercalculateurs :
Des moyens de calculs importants mettant en oeuvre des techniques d'analyse
d'images et de compression de données permettent non seulement
d'organiser la grande quantité de données brutes
générées quotidiennement, mais aussi de reconstituer la
séquence de longues régions du génome à partir
d'éléments beaucoup plus petits. On est ainsi amené
à reconstituer des puzzles dont chacune des pièces est une
séquence que l'on comparera à toutes les autres. Pour un
génome bactérien entier, par exemple, la reconstitution du puzzle
peut demander plus de
deux cent mille milliards de comparaisons de
caractères
.
Les séquences reconstituées doivent ensuite être
comparées à celles déterminées par des milliers de
chercheurs à travers le monde et stockées dans des bases de
données internationales : ces comparaisons sont actuellement le
meilleur moyen d'attribuer une fonction biologique aux séquences.
- L'algorithmique du génome :
C'est ce qui permet le calcul de certaines occurrences, de relations
phylogénétiques, et la mise en évidence de
phénomènes inattendus par l'examen systématique des
données. Pour la détection et la prédiction des
gènes, pour la connaissance des structures et des fonctions des
protéines correspondantes, il est indispensable, en effet, de rechercher
des événements tels que la présence simultanée de
plusieurs motifs dans une configuration donnée.
Enfin, l'ultime étape de la connaissance génomique,
c'est-à-dire la découverte de la structure des protéines
passe aussi par l'informatique. Celle-ci permet en effet, à partir des
données sur les séquences ou motifs de séquences, de
reconstruire la structure spatiale des protéines. Cette structure en
trois dimensions est indispensable à la conception de molécules
capables d'interagir avec les protéines.
1.1.2.2. L'organisation et la conservation de l'information
C'est ce
que certains appellent l'informatique d'intégration. L'informaticien
essaie d'assister le biologiste dans l'organisation des résultats et la
mise en concordance d'observations scientifiques distinctes, qui lui permettent
d'émettre une hypothèse et de la valider sur de grands ensembles
de données. Elle consiste notamment à constituer de gigantesques
bases de données, à permettre la recherche d'informations
("
data mining
") et la mise en évidence de
" voisinage " à partir des connaissances scientifiques
publiées et de banques de données spécialisées.
Par ailleurs, la découverte des séquences génomiques de
plus en plus nombreuses suppose que soit rapidement assurées, par la
constitution de bases de données " d'archives ", la
conservation et bien entendu la mise à jour des séquences, ainsi
que le classement par niveaux de complexité croissants, des
résultats de la démarche génomique d'ensemble
(séquences, structures, fonctions, propriétés
physiologiques, etc.).
-
La communication de l'information
Elle suppose la constitution de réseaux d'information cohérents,
homogènes en format et en qualité permettant, par des
échanges nationaux et internationaux, de mettre en commun les
connaissances, les technologies et les compétences.
À l'heure actuelle les standards d'Internet structurent le
développement des environnements informatiques appliqués à
la biologie moléculaire. C'est bien entendu la démarche suivie au
Génoscope d'Évry :
" Les données produites au Génoscope sont mises à
la disposition des autres membres de la communauté scientifique
internationale. Réciproquement, le
Génoscope
réactualise journellement les bases des données produites
ailleurs dans le
monde, via Internet. Chaque jour, il met ainsi de
l'ordre de plusieurs millions d'octets de données nouvelles à
disposition sur le
réseau et recueille des millions d'octets
représentant
les
nouvelles données découvertes par
des biologistes du monde entier. À cette fin, nous exploitons une
connexion au réseau qui permet d'échanger deux millions de bits
(Mbits) -250 000 octets- par seconde.
14(
*
)
"