B.- LES LIMITES DU RENOUVELLEMENT DE LA BIOLOGIE PAR LA BIOLOGIE DE SYNTHÈSE
Si, comme l'indique le rapport de la Commission présidentielle américaine de bioéthique, la BS est profondément ancrée dans la biologie moléculaire, c'est parce que celle-ci a contribué au développement de celle-là. S'y ajoute également l'apport de la biologie des systèmes, qui représente une autre étape du développement de la biologie moléculaire. Par ailleurs, l'une comme l'autre se heurtent aux mêmes verrous, liés essentiellement à la complexité du vivant.
1.- LA BIOLOGIE MOLÉCULAIRE ET LA BIOLOGIE DES SYSTÈMES, CONTRIBUTRICES DE LA BIOLOGIE DE SYNTHÈSE
La BS a, en effet, tiré profit des progrès technologiques et de l'accroissement considérable des connaissances intervenus dans la biologie moléculaire et dans la biologie des systèmes au cours des dernières décennies.
a) L'influence des progrès technologiques intervenus dans la biologie moléculaire
« L'espoir de pouvoir modifier le contenu génétique d'un organisme est aussi ancien que la génétique elle-même » , fait observer Michel Morange 84 ( * ) , indiquant ainsi que les débuts du génie génétique remontent à 1927.
Toutefois, ce sont quatre catégories de techniques développées au cours des cinquante dernières années qui ont ouvert la voie aux travaux des biologistes de synthèse, ou dont ils ont pu tirer profit.
1° La synthèse chimique de l'ADN
Le développement de techniques chimiques pour la synthèse de poly-nucléotides possédant une séquence de base spécifique a commencé au début des années 60. C'est en 1972 que H. Gobind Khorana est parvenu à synthétiser un gène bactérien de l'ARN de transfert de la tyrosine. Le gène, totalisant 126 paires de bases, provenait de la réunion de plus de 20 segments synthétisés séparément puis réunis par voie enzymatique. Ce gène artificiel fut ensuite introduit dans des cellules bactériennes portant des mutations inactivantes pour cet ARN de transfert. L'ADN synthétique fut capable de se substituer à la fonction précédemment perdue.
Le premier gène synthétisé par voie chimique codant une protéine de taille plus importante - l'interféron humain - fut préparé en 1981, requérant la synthèse et l'assemblage de 67 fragments différents pour produire un seul duplex de 514 paires de bases avec les signaux d'initiation et de terminaison reconnus par l'ARN polymérase bactérienne.
Gérald Karp, biologiste moléculaire américain, classe la synthèse par Eckard Wimmer en 2002 du poliovirus - dont il a été question précédemment - dans le prolongement de ces travaux sur la synthèse chimique de l'ADN 85 ( * ) . Dans cette expérience, la séquence de 7 741 nucléotides du virus à ARN a reposé sur l'assemblage d'oligo-nucléotides pour créer une copie d'ADN du génome viral. Les chercheurs ont alors introduit cet ADN dans des extraits cellulaires, où il a été transcrit en ARN et traduit en protéines. L'ARN et les protéines du virus, produits dans ce système cellulaire, se sont assemblés en particules capables d'infecter et de tuer les souris, ce qui a suscité des craintes quant aux risques potentiels d'une telle expérience.
Gérald Karp cite également l'ingénierie des protéines parmi les applications de la synthèse de l'ADN. Ainsi rappelle-t-il que grâce aux techniques actuellement disponibles, il est possible de créer un gène artificiel et de s'en servir pour produire une protéine possédant une séquence d'acides aminés prédéterminée 86 ( * ) .
De même encore, la modification d'ADN déjà synthétisés dans les cellules permet-elle de produire des protéines nouvelles. C'est grâce à une technique, appelée mutagénèse ponctuelle dirigée, que les chercheurs ont été en mesure d'isoler un gène individuel à partir de chromosomes humains, d'altérer son information dans une direction précise et de synthétiser la protéine modifiée avec sa nouvelle séquence d'acides aminés. Cette technique a de nombreuses applications en recherche fondamentale et en biologie appliquée.
2° L'ADN recombinant
L'ADN recombinant désigne la recombinaison génétique entre molécules d'ADN d'espèces différentes (ou non). On a vu dans ce travail effectué en 1972 par Paul Berg et ses collègues à l'Université de Stanford la possibilité de procéder à des manipulations génétiques.
Si la recombinaison génétique est un processus naturel qui se produit de manière aléatoire tant chez les bactéries que chez les organismes supérieurs, l'expérience de Paul Berg a toutefois consisté à insérer un gène de virus de bactérie dans le génome du virus SV40 du singe. Pour ce faire, il a utilisé successivement un grand nombre d'enzymes qui constituent les outils de base de toute expérimentation en génie génétique, dont les enzymes de restriction 87 ( * ) pour couper l'ADN. La recherche de Paul Berg a visé à montrer que la molécule obtenue a la possibilité de se répliquer au sein d'une cellule de mammifère (ou dans une bactérie) et d'obtenir une expression des gènes assemblés au sein de ces cellules.
Ces recherches furent complétées par Herbert Boyer et Stanley Cohen qui démontrèrent qu'un gène de grenouille pouvait être exprimé dans une bactérie.
Ce rappel historique permet de mieux comprendre pourquoi, pour Steven Benner, un lien direct existe entre les recherches sur l'ADN recombinant des années 70 et celles de Craig Venter et de ses collègues sur le génome minimal, ce que reconnaît d'ailleurs ce dernier. En effet, devant la Commission présidentielle américaine de bioéthique, Craig Venter a établi un parallèle entre ses travaux et ceux qu'il a qualifiés de pionniers entrepris par Arthur Kornberg. Ce chercheur a non seulement ouvert la voie à l'expérience précitée de Paul Berg, mais il a aussi permis la mise au point d'une autre technique fondatrice du génie génétique, à savoir la réaction en chaîne due à une polymérase ( Polymerase Chain Reaction - PCR ).
3° La PCR
Le principe de la Polymerase Chain Reaction (PCR) est très simple. Il repose entièrement sur les propriétés de l'ADN polymérase de type 1, isolé et caractérisé par Arthur Kornberg en 1956.
Il faut attendre 1967 pour que ce même chercheur, Prix Nobel en 1959 pour le travail précédent, démontre formellement que cette enzyme pouvait produire fidèlement de l'ADN. Il utilise pour cela l'ADN d'un virus bactérien, le phage PhiX174, dont la taille du génome est parmi les plus petits génomes existants (5 386 bp : 11 gènes). Arthur Kornberg réussit à copier, in vitro , l'ADN du virus par de l'ADN polymérase I, et obtint une molécule capable « d'infecter » une bactérie et, fait important, de produire des virus infectieux.
Ces travaux inspirent à Craig Venter le commentaire suivant : « Kornberg a copié avec l'ADN polymérase, le génome de Phix, que l'on pourrait assimiler à un fragment photocopié d'ADN. Mais le plus important est qu'il ait inséré cet ADN dans E. coli , ce qui a permis la production de particules virales. »
La voie est désormais ouverte à la PCR, re-découverte en 1983 par Kary Mullis et dont Kjell Kleppe avait posé les bases dès 1971. Cette méthode, d'un niveau de performance exceptionnelle, permet de préparer une grande quantité d'ADN à partir de quantités initiales extrêmement faibles, voire de traces. Elle est désormais utilisée par la plupart des laboratoires dans le monde, en particulier par la police scientifique.
L'ADN, à l'état naturel, est composé de deux brins complémentaires. Lorsque cette molécule d'ADN est chauffée à 95°, les deux brins se séparent. Si l'on ajoute de l'ADN polymérase classique, rien ne se passe pour deux raisons :
1) à cette température, cette polymérase est détruite,
2) il manque à l'ADN polymérase un motif même très court d'ADN double brin sur lequel cet enzyme s'accroche et se positionne pour poursuivre la synthèse d'un brin complémentaire. L'ADN polymérase ne peut pas fonctionner sur un brin simple.
Pour remédier à ces difficultés, on abaisse donc la température à 50°, après avoir ajouté, dans le milieu où se trouve l'ADN désormais simple brin, de petits morceaux d'ADN (oligonucléotides de synthèse appelés amorces) capables par leur structure de reconnaître une zone à l'extrémité du brin d'ADN à copier. En abaissant la température, des hybrides se forment entre les grands fragments d'ADN simple brin et les tout petits morceaux d'ADN double brin. En répétant l'opération, c'est-à-dire en ajoutant à chaque cycle une petite quantité d'enzymes, on passe à 2 `' molécules pour n cycles.
Le trait de génie de Kary Mullis fut d'utiliser l'ADN polymérase (Taq polymérase) d'une bactérie dite « extrémophile » qui vit naturellement dans les sources d'eau très chaudes et dont l'ADN polymérase n'est pas détruite à 95°. Dès lors, il suffit de placer dans un tube une petite quantité d'ADN, des amorces bien choisies et la Taq polymérase. Le tout est placé dans un appareil appelé « thermocycleur » qui porte alternativement la température à 95°, puis à 56-60°, puis à 72°, puis à nouveau à 95°, etc. Un cycle prend quelques minutes.
Il existe de nombreux protocoles différents de PCR destinés à une multitude d'applications différentes et à l'amplification de populations très diverses d'ADN. Grâce à cette technique largement répandue, il est possible, en quelques heures seulement, de produire des milliards de copies d'un fragment spécifique d'ADN. On a pu ainsi dire à son sujet qu'« il s'agit d'une technique simple, utilisant les propriétés du vivant - ici les enzymes de réplication de l'ADN - comme outils au service du chercheur 88 ( * ) ». C'est pourquoi les biologistes de synthèse y recourent pour synthétiser des gènes entiers ou des fragments.
4° Les outils employés par les « omiques ».
« Omiques » est un diminutif désignant les disciplines à l'aide desquelles s'est développée la biologie des systèmes, celle-ci marquant une nouvelle étape par rapport à la biologie moléculaire. « La biologie moléculaire traditionnelle, de nature " réductionniste " s'est jusqu'ici concentrée principalement sur la caractérisation des composants individuels de la cellule, gènes, protéines ou encore ARN non codants, avec pour but de comprendre la vie à partir de la caractérisation des macromolécules qui la constituent. Toutefois protéines et ARN opèrent en interagissant les uns avec les autres, formant ainsi des systèmes dont la complexité peut difficilement être comprise une molécule à la fois. La biologie systémique, de nature " intégrative et holistique " entend comprendre la vie à partir de ces systèmes. 89 ( * ) »
La définition de François Képès de la biologie des systèmes est la suivante : science de l'analyse systémique des comportements dynamiques et spatiaux de réseaux d'interaction entre bio-molécules.
Les « omiques » sont principalement :
- la génomique, science des génomes complets, qui étudie la structure, le fonctionnement, l'évolution, les fonctions des génomes de diverses espèces dans leur globalité,
- la transcriptomique, qui étudie l'ensemble des ARN messagers produits à un moment donné lors du processus de transcription d'un génome,
- la protéomique, qui vise à inventorier l'ensemble des protéines présentes au sein d'une cellule ou d'un organe et étudie la structure et l'expression de ces protéines ainsi que leurs interactions,
- la métabolomique, qui étudie l'ensemble des métabolites - sucres, acides aminés, acides gras, etc. - présents dans une cellule, un organe ou un organisme et leurs relations.
L'étude récente de Jiang Lian et al . 2 indique que les biologistes de synthèse recourent aux outils de la génomique, de la protéomique et de la métabolomique.
b) L'accroissement considérable des connaissances
Si plusieurs de mes interlocuteurs ont qualifié la biologie des systèmes d'instrument indispensable de la BS, c'est précisément parce que la biologie des systèmes tente de parvenir à une vision plus globale et prédictive du système cellulaire (comparé à la biologie moléculaire classique), qui peut revêtir un intérêt pour la BS.
L'objectif d'une vision globale est ancien puisque, par exemple, après la seconde guerre mondiale, François Jacob et Jacques Monod avaient déjà introduit la notion de système en biochimie, comme un processus susceptible d'expliquer la différenciation cellulaire, c'est-à-dire les modalités selon lesquelles des cellules au génome identique peuvent exprimer des formes et des propriétés aussi différentes que celles d'un globule rouge et de cellules cardiaques. Ainsi, leurs recherches et celles d'autres chercheurs sur les mécanismes de régulation moléculaires ont-elles permis, fût-ce à une petite échelle, de découvrir les composants moléculaires et la logique sous-tendant les processus cellulaires, souvent en parallèle avec les caractérisations des macromolécules individuelles.
Le séquençage du génome, le développement des technologies à haut débit et la modélisation mathématique et informatique ont conduit les biologistes des systèmes à s'intéresser à l'identification et à la modélisation des réseaux, grâce auxquels gènes et protéines interagissent pour remplir les fonctions cellulaires.
Or, de tels champs d'étude sont d'autant plus importants que des mécanismes aussi différents que la synthèse de l'ADN, la production d'ATP (Adénosine Triphosphate) 90 ( * ) et la maturation de l'ARN sont tous accomplis par des « machines moléculaires » impliquant des interactions entre de nombreuses protéines, parfois plusieurs dizaines, produisant soit des relations stables, soit des liaisons transitoires.
C'est pourquoi les biologistes de synthèse estiment que l'intérêt de la biologie des systèmes réside dans la possibilité de comprendre et de fabriquer des réseaux biologiques, qu'ils concernent les mécanismes de régulation intracellulaires ou les rapports entre les cellules et leur environnement physique et chimique 91 ( * ) . Estimant que l'ingénierie biologique implique de concevoir des systèmes entiers et des circuits, outre le fait de standardiser et de mélanger des modules protéiques destinés à l'accomplissement de tâches spécifiques, Petra Schwille, professeure à l'Université de Dresde, souligne que « pour réussir, la BS, quelle que soit son approche, doit unir ses forces à la biologie des systèmes » 92 ( * ) .
Cette affirmation est d'autant plus fondée qu'un second aspect de la biologie des systèmes - l'objectif d'élaborer des modèles prédictifs - ne peut manquer d'intéresser les biologistes de synthèse.
Une telle méthode illustre bien l'application de la démarche de l'ingénieur à la biologie, notamment par le recours à la bio-informatique, caractéristique essentielle de la biologie de synthèse.
Ce souci de prédiction répond également à celui que les biologistes de synthèse assignent aux circuits génétiques et même, au-delà, à la BS 93 ( * ) . Des banques de données - généralistes ou spécialisées - concourent à la poursuite de cet objectif de prédiction. Elles fournissent des informations sur la structure et la fonction de la protéine codée, en vue de procéder à ce que l'on appelle l'annotation des gènes.
Cette annotation se déroule en deux étapes : la première, l'annotation structurelle, permet d'identifier les zones de la séquence génomique qui déterminent les séquences protéiques. Une seconde étape cherche à associer une information aux zones identifiées et, en particulier, la ou les fonctions de la protéine dans l'organisme. Cette deuxième étape, l'annotation fonctionnelle, se réalise en précisant les réactions biochimiques auxquelles la protéine participe ou ses rôles dans les processus biologiques. La plupart des informations concernant l'annotation d'une protéine sont générées par des prédictions basées sur le calcul ou par des comparaisons avec des protéines similaires.
Concrètement, pour associer une annotation à une séquence protéique, l'annotateur exploite différents critères et met en oeuvre plusieurs étapes. Lorsque l'on suppose l'annotation structurale résolue, annoter fonctionnellement une protéine consiste à identifier :
- ses caractéristiques intrinsèques directement calculables à partir de la séquence protéique ;
- les caractéristiques issues des prédictions apportées par l'analyse des résultats des logiciels bio-informatiques ;
- une protéine déjà annotée et dont la séquence en acides aminés présente des similitudes.
Les paramètres intrinsèques directement calculables concernent, par exemple, la taille en acides aminés, la séquence, le début et la fin de la traduction.
Les paramètres prédits nécessitent le lancement d'un logiciel bio-informatique et l'analyse des résultats obtenus. Pour procéder à celle-ci, l'annotateur s'appuie sur les valeurs scores proposées par les logiciels, si elles sont suffisamment discriminantes. On observe les résultats plus en détail dans le cas contraire avant de conclure. Les prédictions concernent, par exemple, la localisation sub-cellulaire de la protéine dans les différents compartiments cellulaires. Les prédictions touchent aussi aux informations issues du contexte génique, telles que les annotations fonctionnelles associées aux gènes présents en amont ou en aval du gène codant pour la protéine en cours d'annotation.
La prédiction de la structure tridimensionnelle de toutes les protéines, ce à quoi tente de parvenir la protéomique structurale, fournit une autre illustration de cette démarche prédictive de la biologie des systèmes.
La connaissance de la structure 3D des protéines apporte une information particulièrement pertinente pour permettre de comprendre son mode d'action : activité enzymatique, interaction avec d'autres protéines. La détermination de la structure d'une seule protéine demande un travail de laboratoire qui peut durer plusieurs années pour chaque structure. Par conséquent, dans le cadre de la génomique structurale, il est essentiel d'automatiser chacune des étapes décrites ci-après.
|
Source : Greg Gibson et Spencer V. Muse, Précis de génomique, 2005, p. 207
Les deux méthodes expérimentales pour résoudre les structures des protéines sont la radiocristallographie ou diffraction des rayons X par des cristaux et la spectroscopie par résonance magnétique nucléaire (RMN).
Trois méthodes sont utilisées pour prédire la structure tridimensionnelle des protéines :
La prédiction ab initio , dans laquelle la structure est directement déduite de la séquence, en acides aminés, c'est-à-dire en prédisant la probabilité qu'une sous-séquence se replie en une hélice alpha 94 ( * ) ou en un feuillet bêta 95 ( * ) à l'aide notamment de paramètres physico-chimiques. Une contrainte majeure de ce type de modélisation théorique est le nombre considérable de calculs à effectuer pour déterminer les fonctions d'énergie de tous les contacts possibles. Pour répondre à cet objectif, IBM a construit en 2005 un superordinateur appelé « Blue Gene » , qui effectue 280 600 milliards d'opérations de calcul par seconde.
L'identification d'un repliement : le repliement désigne le processus par lequel les chaînes d'acides aminés qui constituent les protéines se replient en une spirale tridimensionnelle plus complexe. En comprenant comment les protéines se replient et quelles structures finales elles sont susceptibles d'adopter, les chercheurs espèrent en prédire la fonction. L'identification d'un repliement désigne une méthode de prédiction de la structure tertiaire 96 ( * ) d'une protéine. On combine les données de prédiction de structure secondaire avec des données de similitude de séquence pour rechercher le domaine dont le repliement est déjà connu et qui s'apparente au mieux avec la structure de la protéine inconnue.
Les méthodes de calcul de la modélisation du repliement des protéines existent depuis une vingtaine d'années. Mais le professeur Jérôme Waldispühl, chercheur au centre de bio-informatique de l'Université MacGill (Montréal) a réussi à développer, avec des collaborateurs du MIT, des algorithmes adaptables à un portable pour étudier les propriétés chimiques fondamentales d'une protéine, puis évaluer les différentes formes qu'elle peut prendre avant de prédire la structure finale qu'elle est susceptible d'adopter.
L'ajustement sur un modèle ( threading ) : cette approche de la prédiction de la structure protéique se base sur la conjonction de similarités de la structure secondaire et la vérification des énergies probables de liaison des repliements potentiels.
Une fois publiées, les structures des protéines sont déposées dans une banque de données, le Protein Data Bank (PDB). PDB est une collection mondiale de données sur la structure 3D de macromolécules biologiques : protéines, principalement, et acides nucléiques. Ces structures sont principalement déterminées par cristallographie aux rayons X ou par spectroscopie RMN. Ces données expérimentales sont déposées par des chercheurs du monde entier et appartiennent au domaine public. Leur consultation est gratuite et peut être effectuée depuis le site internet de la banque. La PDB est la principale source de données de biologie structurale et permet surtout d'accéder à des structures 3D de protéines d'intérêt pharmaceutique. La PDB contenait, au 31 janvier 2012, 78952 structures.
Pour ce qui est du rôle des modèles prédictifs élaborés en biologie des systèmes, une récente étude 97 ( * ) fait état des avancées suivantes :
L'étude de la régulation du cycle cellulaire chez Caulobacter crescentus 98 ( * ) , du chimiotactisme bactérien 99 ( * ) , de l'organisation subcellulaire des protéines et de l'ADN dans les cellules bactériennes. A ce jour, selon les auteurs, les réseaux de régulation de la transcription sont un exemple des systèmes les mieux caractérisés par des modèles prédictifs à l'échelle du génome. Même le procaryote le plus étudié, E. coli , a bénéficié et bénéfice encore de l'analyse systémique de ces réseaux.
Des avancées substantielles sont également intervenues dans la reconstruction du métabolisme de divers procaryotes. Le modèle métabolique d' E. coli , par exemple, contient maintenant 48 % de l'ensemble des gènes ayant des fonctions déterminées expérimentalement. Ces modèles ont été utilisés pour fabriquer des souches, en vue d'une production de métabolite, et ce afin d'identifier des gènes putatifs 100 ( * ) pour des réactions orphelines. Il est important de relever que des approches adoptées pour la reconstruction de réseaux métaboliques peuvent être étendues aux systèmes complexes eucaryotes, comme dans le cas de la levure, Aspergillus nodulans 101 ( * ) , ou de Caenorhabditis elegans. 102 ( * )
* 84 Michel Morange, « Histoire de la biologie moléculaire», p.239.
* 85 Gérald Karp, « Biologie cellulaire et moléculaire», p.764.
* 86 Gérald Karp, « Biologie cellulaire et moléculaire», p.73.
* 87 Une enzyme de restriction est une protéine qui peut couper un fragment d'ADN au niveau d'une séquence de nucléotides caractéristique appelée site de restriction.
* 88 Michel Morange, « Histoire de la biologie moléculaire ».
* 89 Anne-Ruzandra Carvenis et al. , « Biologie systémique », Médecine-sciences, juin-juillet, 2009.
2 Jiang Lian et al ., «Synthetic Biology: putting synthesis into biology», Systems Biology and Medecine, janvier-février 2011.
* 90 L'ATP est une substance chimique qui fournit l'énergie à de nombreux processus cellulaires et qui est l'un des précurseurs de l'ARN.
* 91 Eric Young et Al Halper, « Synthetic Biology: Tools to Design, Build and Optimize cellular process», Journal of Biomedicine and Biotechnology, janvier 2010.
* 92 Petra Schwille, «Bottom up Synthetic Biology: engineering in a Tinkerer's world», Science, 2 septembre 2011.
* 93 « La capacité à concevoir un système biologique qui se comporte de façon prédictible et fonctionne mieux que son équivalent naturel est le rêve des biologistes de synthèse. » , Jian Liang et al. , article précité.
* 94 Hélice alpha : une des structures secondaires possibles des polypeptides, dans laquelle la chaîne d'acides aminés prend une conformation spiralée (hélicoïdale) .
* 95 Feuillet bêta : une des structures secondaires d'un polypeptide, dans laquelle plusieurs plages bêta sont parallèles les unes aux autres, donnant ainsi la disposition en feuille.
* 96 La structure tertiaire d'une protéine correspond au repliement de la chaîne polypeptidique dans l'espace. On parle plus couramment de structure tridimensionnelle ou structure 3D.
* 97 Tic Kode et al. , « The role of predictive modelling in rationally reengineering biological systems », PubMed Central, avril 2009.
* 98 Caulobacter crescentus est une bactérie dont le pédicule a une grande capacité adhésive due à des polysaccharides.
* 99 Le chimiotactisme est le phénomène par lequel les cellules somatiques, les bactéries et autres organismes cellulaires ou pluricellulaires dirigent leurs mouvements en fonction de certains produits chimiques dans leur environnement. Pour les bactéries, il est important de trouver de la nourriture (par exemple le glucose) en nageant vers la plus forte concentration de molécules alimentaires ou pour fuir des poisons (par exemple, le phénol).
* 100 Gènes putatifs : encore appelés gènes hypothétiques, les gènes putatifs sont des fragments d'ADN considérés comme étant des gènes, en se fondant sur leur séquence. Mais ni leur produit, ni leur fonction ne sont connus.
* 101 Il s'agit de l'une des nombreuses espèces de champignons filamenteux du genre aspergillus. Il a beaucoup été utilisé comme matériel de recherche pour des études sur les eucaryotes.
* 102 Caenorhabditis elegans est un petit vers transparent d'un millimètre de longueur, hermaphrodite ou mâle, se reproduisant environ tous les trois jours et dont la durée de vie est d'environ trois semaines. Il a été introduit dans les laboratoires de génétique dans les années 70 pour répondre au besoin d'un modèle génétique destiné à comprendre l'élaboration d'un organisme pluricellulaire.