- Code génétique
-
Le code génétique est l'ensemble des règles permettant d'exprimer sous forme de protéines les informations contenues dans le matériel génétique des cellules vivantes. Ce code établit une correspondance entre d'une part chaque acide aminé constitutif des protéines et d'autre part un ou plusieurs codons, qui sont une suite de trois bases nucléiques d'un ARN messager, lui même transcription fidèle de l'ADN (et de ses codons) constituant les gènes.
Le matériel génétique d'une cellule est constitué d'ADN, certains virus ayant leurs gènes codés en ARN. La succession des codons de l'ADN (ou de l'ARN) est dupliquée sur un ou plusieurs ARN messagers (ARNm), lesquels véhiculent l'information contenue dans les gènes jusqu'aux ribosomes, situés dans le cytoplasme de la cellule. Les ribosomes assemblent les protéines en réalisant séquentiellement la traduction génétique des codons d'ARNm à travers le code génétique, une suite donnée de codons d'ARNm se traduisant toujours par la même suite d'acides aminés, appelée séquence peptidique. Chaque protéine est définie par la séquence peptidique des sous-unités qui la constitue, de sorte que les gènes permettent de spécifier toutes les protéines de la cellule au moyen d'une succession d'un très grand nombre de codons d'ADN.
Les codons ne contiennent cependant pas toute l'information génétique d'une cellule : une fraction de celle-ci est codée dans les gènes par des mécanismes plus subtils, qui modifient et/ou complètent le résultat de la traduction « littérale » codon ⇒ acide aminé.
Par extension, et de façon impropre, le grand public appelle parfois « code génétique » ce qui est en fait le génotype d'une cellule, c'est-à-dire l'ensemble de ses gènes.
Sommaire
Expression du génome
La séquence des bases nucléiques de l'ADN (ou de l'ARN le cas échéant) peut être vue comme la suite des lettres d'un texte dont les mots seraient constitués de regroupements de trois lettres consécutives, les codons. La traduction génétique s'opérant à partir de l'ARN messager (ARNm), le code génétique est exprimé en codons d'ARNm, dont les « lettres » sont les bases A, C, G et U.
Ces quatre « lettres » étant regroupées en codons de trois bases, il s'ensuit que le code génétique dispose de 43 = 64 codons différents, codant directement 20 acides aminés et la fin de la traduction, ainsi que deux acides aminées supplémentaires de façon indirecte au moyen de séquences d'insertion particulières. Ce code est donc très redondant — on dit qu'il est dégénéré — car chaque élément exprimé (acides aminés, fin de traduction) y est codé en moyenne par trois codons distincts : une mutation génétique sur trois affectant une séquence d'ADN codante n'entraîne pas de modification de la protéine traduite.
Ce code permet la synthèse des protéines. L'ADN est transcrit en ARN-messager (ARNm). Celui-ci est traduit par les ribosomes qui assemblent les acides aminés présents sur des ARN de transfert (ARNt). L'ARNt contient un « anti-codon », complémentaire d'un codon, et porte l'acide aminé correspondant au codon. L'estérification spécifique de l'acide aminé correspondant à un ARNt donné est réalisé par les aminoacyl-ARNt synthétases, une famille d'enzymes spécifique chacune d'un acide aminé donné. Pendant la traduction, le ribosome lit l'ARNm codon par codon, met en relation un codon de l'ARNm avec l'anti-codon d'un ARNt et ajoute l'acide aminé porté par celui-ci à la protéine en cours de synthèse.
Codons
Le tableau suivant donne la signification standard de chaque codon de trois bases nucléiques d'ARN messager. Les principaux codages alternatifs sont indiqués après une barre oblique :
2e base U C A G 1re base U UUU F Phe UCU S Ser UAU Y Tyr UGU C Cys U 3e base UUC F Phe UCC S Ser UAC Y Tyr UGC C Cys C UUA L Leu UCA S Ser UAA STOP Ocre UGA STOP Opale / U Sec / W Trp A UUG L Leu / START UCG S Ser UAG STOP Ambre / O Pyl UGG W Trp G C CUU L Leu CCU P Pro CAU H His CGU R Arg U CUC L Leu CCC P Pro CAC H His CGC R Arg C CUA L Leu CCA P Pro CAA Q Gln CGA R Arg A CUG L Leu CCG P Pro CAG Q Gln CGG R Arg G A AUU I Ile ACU T Thr AAU N Asn AGU S Ser U AUC I Ile ACC T Thr AAC N Asn AGC S Ser C AUA I Ile ACA T Thr AAA K Lys AGA R Arg A AUG M Met & START ACG T Thr AAG K Lys AGG R Arg G G GUU V Val GCU A Ala GAU D Asp GGU G Gly U GUC V Val GCC A Ala GAC D Asp GGC G Gly C GUA V Val GCA A Ala GAA E Glu GGA G Gly A GUG V Val / START GCG A Ala GAG E Glu GGG G Gly G Acide aminé apolaire Acide aminé polaire Acide aminé acide Acide aminé basique Codon STOP - Tableau inverse
Comme chaque acide aminé d'une protéine est codé par un ou plusieurs codons, il est parfois utile de se référer au tableau suivant ; les principaux codages alternatifs sont indiqués en petits caractères entre parenthèses.
Acide aminé Codons Alanine Ala A GCU, GCC, GCA, GCG. Arginine Arg R CGU, CGC, CGA, CGG ; AGA, AGG. Asparagine Asn N AAU, AAC. Acide aspartique Asp D GAU, GAC. Cystéine Cys C UGU, UGC. Glutamine Gln Q CAA, CAG. Acide glutamique Glu E GAA, GAG. Glycine Gly G GGU, GGC, GGA, GGG. Histidine His H CAU, CAC. Isoleucine Ile I AUU, AUC, AUA. Leucine Leu L UUA, UUG ; CUU, CUC, CUA, CUG. Lysine Lys K AAA, AAG. Méthionine Met M AUG. Phénylalanine Phe F UUU, UUC. Proline Pro P CCU, CCC, CCA, CCG. Pyrrolysine Pyl O UAG, après séquence PylIS. Sélénocystéine Sec U UGA, après séquence SecIS. Sérine Ser S UCU, UCC, UCA, UCG ; AGU, AGC. Thréonine Thr T ACU, ACC, ACA, ACG. Tryptophane Trp W UGG. (UGA) Tyrosine Tyr Y UAU, UAC. Valine Val V GUU, GUC, GUA, GUG. START AUG. (UUG, GUG) STOP Ambre UAG. STOP Ocre UAA. STOP Opale UGA. Un ARNm et un gène se terminent toujours par un « codon non-sens » aussi appelé « codon-stop », il existe 3 codons-stop (UAG, UAA et UGA). Ceux-ci tiennent le rôle du point en bout de phrase. Le codon UGA peut parfois coder une sélénocystéine, produisant alors une sélénoprotéine.
Dégénérescence du code génétique
Comme on peut le voir dans le tableau ci-dessus, le code génétique est dégénéré, c'est-à-dire qu'il existe plusieurs combinaisons de trois lettres pour coder le même acide aminé. Ainsi, l'histidine peut être codée par les codons CAU et CAC. On parle alors de codons synonymes. Seuls deux acides aminés ne montrent pas de redondance de leur code: la méthionine et le tryptophane. Le nombre de codons synonymes n'est pas la même pour tous les acides aminés. Ainsi, en fonction du nombre de codons différents codant le même acide aminé, on distingue des duo (histidine, lysine, asparagine, glutamine, acide glutamique, asparagine, tyrosine, cystéine et phénylalanine), des trio (isoleucine et codons stop), des quatuor (thréonine, proline, alanine, glycine et valine) et des sextuor (arginine, leucine et serine). Il existe donc souvent plusieurs ARNt associé au même acide aminé, capables de lier les différents triplets dégénérés de nucléotides sur l'ADN. On parle alors d'ARNt isoaccepteurs, car ils acceptent le même acide aminé.
Cette dégénérescence du code génétique a pour conséquence pour la plupart des organismes un biais d'usage du code. En effet, les principales molécules fonctionnelles de la cellule sont les protéines, polymères d'acides aminés, et la dégénérescence du code fait qu'il y a plusieurs manières de coder chaque acide aminé. La cellule exprime en général des préférences assez marquées dans le choix des codons synonymes, ainsi par exemple, le codon AUA qui code l'isoleucine est largement évité chez l'homme comme chez Escherichia coli, par rapport aux deux autres codons synonymes AUU et AUC.
Cette préférence d'usage des codons est très variable, et dépend de l'organisme, du génome (nucléaire, mitochondrial, chloroplastique, ...), de la région génique et même du gène considéré.
Son universalité
À de très rares exceptions près, le code génétique est le même pour tous les êtres vivants.
Principe de base
Ce système de codage entre l'ADN et les acides aminés s'est avéré être utilisé par l'immense majorité des être vivants. De l'Homme à la bactérie, ce même code est utilisé. Cette universalité du code est expliquée en termes d'évolution : si le changement d'une base dans l'ADN peut entraîner des changements parfois bénéfiques dans l'être vivant, cela n'est que peu probable dans le cas d'un changement du codage. En effet, cela reviendrait à changer la position des touches d'une machine à écrire d'un dactylographe tapant à l'aveugle : le texte résultant sera fort probablement complètement illisible. Le système de codage est ainsi resté inchangé durant les milliards d'années d'évolution de la vie. On estime généralement qu'il s'est fixé ainsi très tôt dans l'histoire de la vie, probablement avant le dernier ancêtre commun à tous les êtres vivants (baptisé LUCA). Certains scientifiques ont émis l'hypothèse que la structure du code génétique était née dans les abysses, chez des organismes thermophiles et barophiles[1].
Exceptions
Cette vision des choses est simpliste : si l'immense majorité des organismes vivants aujourd'hui utilisent le code génétique standard, les généticiens ont découvert quelques variantes à ce code. De plus, ces variantes se retrouvent dans les différentes lignées évolutives et consistent en des traductions différentes de quelques codons.
- Le codon CUG, traduit habituellement par la leucine, correspond à la sérine[2] chez de nombreuses espèces de champignons Candida[3] .
- De nombreuses espèces d'algues vertes du genre Acetabularia utilisent les codons-stop UAG et UAA pour coder la glycine.
- De nombreux ciliés, comme Paramecium tetraurelia, Tetrahymena thermophila ou Stylonychia[4] lemnae utilisent les codons UAG et UAA pour coder la glutamine au lieu de stop. Seul UGA est stop chez ces cellules.
- Le cilié Euplotes octocarinatus utilise le codon UGA pour coder la cystéine, ne laissant que UAG et UAA comme stops.
- Dans les trois règnes du vivant, on trouve parfois un 21e acide aminé, la sélénocystéine, codé par le codon UGA (habituellement un codon-stop).
- Dans les archées et les eubactéries, un 22e acide aminé, la pyrrolysine est parfois rencontré, codé par UAG (également habituellement un codon-stop).
Le premier acide aminé incorporé (déterminé par le codon-start AUG) est une méthionine chez la plupart des eucaryotes, plus rarement une valine (chez certains eucaryotes), et une formyl-méthionine chez la plupart des procaryotes. En outre, ce codon d'initiation est parfois GUG ou GUU chez certains procaryotes.
On pense donc aujourd'hui que la vie comptait à l'origine un nombre plus restreint d'acides aminés. Ces acides aminés ont été modifiés et ont vu leur nombre augmenter (par un phénomène similaire à la formation de la sélénocytéine et à la pyrrolysine qui dérivent de la sérine et de la lysine, respectivement, modifiées alors qu'elles sont sur leur ARN de transfert sur le ribosome.) Ces nouveaux acides aminés ont alors utilisé un sous-ensemble des ARN de transfert et leur codage associé. On remarque peut-être des traces de ce phénomène avec la glutamine, qui dans certaines bactéries, dérive du glutamate encore attaché à son ARN de transfert.
Autre exception : le code est parfois ambigu. Ainsi par exemple, le codon UGA peut dans un même organisme (Escherichia coli par exemple) coder tantôt pour le 21ème acide aminé évoqué plus haut (sélénocystéine) ou pour "stop".
Mitochondries
Article détaillé : génome mitochondrial.Les variations du code utilisés par les mitochondries sont encore plus nombreuses.
- Dans le génome mitochondrial de la levure de boulanger (Saccharomyces cerevisiaie), la thréonine est codée par 4 des 6 codons correspondant classiquement à la leucine.
- Dans les mitochondries humaines, AUA, comme AUG, code la méthionine et non l'isoleucine.
- Dans les mitochondries humaines, AGA et AGG sont des codons-stop et ne codent pas l'arginine.
- Dans les mitochondries humaines, de la levure de boulanger, de spiroplasmes et de Mycoplasma mollicutes, UGA n'est pas un codon-stop mais code le tryptophane.
Notes et références
- (en) Di Giulio, 2005, The ocean abysses witnessed the origin of the genetic code ; Gene 14, 346:7-12.
- Non-universal usage of the leucine CUG codon and the molecular phylogeny of the genus Candida
- génomde candida albicans
- (en) Stylonychia voir
Voir aussi
Lien externe
- Portail de la biologie cellulaire et moléculaire
Wikimedia Foundation. 2010.