Séquences biologiques

Séquences biologiques

Séquence biologique

Une séquence biologique est généralement un fichier informatique au format texte contenant la séquence d'une macromolécule biologique. Ce peut être la séquence des bases de l'ADN à la sortie d'un séquenceur de gène ou la traduction de cette séquence en acide aminés.
Il s'agit d'un fichier contenant l'information génétique brute.

Sommaire

Séquences nucléotidiques

Séquences d'ADN

Séquence d'ADN associée à son électrophorègramme.

Dans le cas d'une séquence d'ADN, le "texte" est une suite formée uniquement de 4 lettres correspondant aux quatre nucléotides formant l'enchainement de l'ADN : A pour adénine, G pour guanine, T pour thymine, C pour cytosine. Il faut faire attention si le sens de lecture peut être 3' vers 5' ou inverse.

Exemple d'une séquence biologique d'ADN pour le gène Antennapedia CG1028-RH de Drosophila melanogaster :


       1 ttcagttgtg aatgaatgga cgtgccaaat agacgtgccg ccgccgctcg attcgcactt
      61 tgctttcggt tttgccgtcg tttcacgcgt ttagttccgt tcggttcatt cccagttctt
     121 aaataccgga cgtaaaaata cactctaacg gtcccgcgaa gaaaaagata aagacatctc
     181 gtagaaatat taaaataaat tcctaaagtc gttggtttct cgttcacttt cgctgcctgc
     241 tcaggacgag ggccacacca agaggcaaga gaaacaaaaa gagggaacat aggaacagga
     301 accagataat agtgacataa gcgacccttt cgcaaatatt ttggcgcaaa atgagcgggc
     361 gccaagtgcc gcgtggtgga gccgcctgaa aatgacatgg aaaattcgcc gaaaatcgcg
     421 cgttttggca gcatcaatcc caaagcacaa aattaatttc tatcataatt tctgggtgca
     481 acacggaccc ataattgaat cgaatatagg gcttatctga tagcccggca gcaacattga
     541 actttccggc tgcaaaggag acgacaccga gatcgccaat tttcgttggg ctcgttctct
     601 gggctccggc gataagaaat ccatgctgat aaggacagga ggacggtctg cggcaaattg
     661 aattcgattc tgacctgtat gaaagccagc ggagatacgg atacctctgg gtttatgggt
     721 agaaaacgca gagcgtcgcg ccaacatcga aattatttgc gtttgcatct tctcgtcctt
     781 tcgtttatcg ttctgattgc catcgtggtg gcgcggtttc tattaatttt gcttctgtat
     841 cgtttgcaaa atctcaaaag attcaaaaag ttcgtcatca gcagccgcaa cacaaaaacc
     901 aacgagtgta aagccgagca tacaaatatc aataaaaaca taaacattta cccaatctca
     961 atctcaaaac attcgcatcg tttccacaca aatatgctta gttcgcccaa attgtgattg
    1021 tatatatata tttaacggca ttaaatacaa aagattaagc cctaaattaa gtgtaaatct
    1081 tacaaaacgt ctacgttttt aaacaagaaa ttgtgatatt atatattaat cgggaaattc
    1141 gaagtatgag aacaaaacgg tgtatatatg taagtgggcg atgaacatca atgaatattt
    1201 tagctgagca aagtacacac gaatgaatat aaatatacat gaaaatatat tttgggcacc
    1261 gacttttaca ccacaattat atatcgatag aaaagacacg aaaacaatca cagaaaacta
    1321 agagtttcaa aatcaaaatt gaggaatacc aactagagga taaggctact taaggatcaa
    1381 aaaacaccaa ggagacgaga ttttctacca aatcgagaga cgaggggcag gttaatttcg
    1441 tcatttttgg ccaagacagc aaatagagga acagcaaagc gaaaatcatt ttatacctca
    1501 cacaacaact acacactaac taagattagg ctacgcaact gtacattgta cttaagtgtt
    1561 caaagtatat ttagtttact ttgtatataa gaaaagtagc taaaagcacg cggacaggga
    1621 ggcaggagca ccacagtcac tagccactaa gcagagtcac agtcacgatc acgttcactc
    1681 caggatcagg actcggggcg ggatcagcag acgctgagga agctgccacg atgacgatga
    1741 gtacaaacaa ctgcgagagc atgacctcgt acttcaccaa ctcgtacatg ggggcggaca
    1801 tgcatcatgg gcactacccg ggcaacgggg tcaccgacct ggacgcccag cagatgcacc
    1861 actacagcca gaacgcgaat caccagggca acatgcccta cccgcgcttt ccaccctacg
    1921 accgcatgcc ctactacaac ggccagggga tggaccagca gcagcagcac caggtctact
    1981 cccgcccgga cagcccctcc agccaggtgg gcggggtcat gccccaggcg cagaccaacg
    2041 gtcagttggg tgttccccag cagcaacagc agcagcagca acagccctcg cagaaccagc
    2101 agcaacagca ggcgcagcag gccccacagc aactgcagca gcagctgccg caggtgacgc
    2161 aacaggtgac acatccgcag cagcaacaac agcagcccgt cgtctacgcc agctgcaagt
    2221 tgcaagcggc cgttggtgga ctgggtatgg ttcccgaggg cggatcgcct ccgctggtgg
    2281 atcaaatgtc cggtcaccac atgaacgccc agatgacgct gccccatcac atgggacatc
    2341 cgcaggcgca gttgggctat acggacgttg gagttcccga cgtgacagag gtccatcaga
    2401 accatcacaa catgggcatg taccagcagc agtcgggagt tccgccggtg ggtgccccac
    2461 ctcagggcat gatgcaccag ggccagggtc ctccacagat gcaccaggga catcctggcc
    2521 aacacacgcc tccttcccaa aacccgaact cgcagtcctc ggggatgccg tctccactgt
    2581 atccctggat gcgaagtcag tttggtaagt gtcaaggaaa gtgatcgaca attccacgaa
    2641 acgtattaag tggaattttt cttcttctta tcgtagtggg ttgaagtagt tagttccccg
    2701 tttagaattg gtcgtagttc ccattagaat cgtaactgtg catacaacag ctagagctgt
    2761 attatcttaa attgtataat accataacta ttacagcgaa cctcgtgcag cgaagcaaag
    2821 cagtaaaaag cagtctagat gtactgcttt atattgtgtt tcctgcttga tattagatca
    2881 ctaagcaagc agacgcgcaa gcagttcacg cagatcacgc agacgttaaa aatttaaaaa
    2941 tgtttttgtt tgcagaaaga agtaccctct tcgcttttca attttgtagt taaaattcga
    3001 gcaaatatat ttaaattaaa aaggctcaaa cttaaagtac tatgtatgtc ttgtattttt
    3061 gaaaaaattc taaagtttat tataaaatgc attttaaata cattttttaa cctaccttgt
    3121 cgcttgaaat atataaaatt taagttttag atatggaata gataaacaaa atatttccct
    3181 ctgtcttaac taatttcttt aattaaatgt taagccccaa agcgactaca gcttcatgtc
    3241 aaactcttac cttaaatatt tagagtttgt ttgcatttga actgagaacg ttttgtcgac
    3301 gaccttgaca cgtccgggta atttcacttt attgccttgg ccaattgctt gacatcatcc
    3361 gtaatccatc tgcaaagaca tcccgatacc tgacatttgt tcaaatttgc gaatttccca
    3421 aatccgagca aatcgatgaa tgcaggcaga tgaaagacga aagaggtggc ggaagaggtg
    3481 ctccttgggt tccgcttgcc cagaagatcg cagcacagga ggcggtcctg ccagctaatg
    3541 caaattgaca atagctcgaa atcgtgcaag aaaaaggttt gccaaaaccc taggcgtaac
    3601 taatgagggc tggaaaatag agcacactga ctgcatgtgg tactgcttta ggcttagagg
    3661 atgttgcata agtggggata gggctcggcc gcctttcgag cgaaaaaggt gtaaggtcta
    3721 ggaggcgagt ccttttcaaa tatagaattc caatggcatg tcactttcct cggagaaagt
    3781 gaaagtaggc ctcaagtggt cggtgccttt gccttgccct ccagctgacc tgctccctgg
    3841 tcattacgca gtccaaggag ctctagctct ccccataccc agctctcaat gttgttgtgg
    3901 ttttttgttt gtagccggct gaattttttc gccaaagcca gattgagatg taaagcacaa
    3961 ttgatgagcg ccattagtta cacgttatgt gcaatggatg ccatcaattt attaatctcc
    4021 agaacacgcc gaggctccat tcatagcacc acttcgtcgt cttaatcccc tccctcatcc
    4081 gccatggcgg tgcaaaaaat aaaaagaact c

Séquences d'ARN

Dans le cas d'une séquence d'ARN, la lettre U est utilisée pour désigner l'uracile remplaçant la thymine pour ces molécules.

Séquences protéiques (peptidiques)

Cette séquence correspond à ce qu'on appelle la structure primaire de la protéine en biochimie. On appelle traduction, l'étape de synthèse protéique à partir d'une séquence nucléotidique, cette étape peut être facilement prédite par des logiciels informatiques pour l'identification de gènes jusqu'alors inconnus. Le code génétique donne une lettre de l'alphabet pour chacun des 20 acides aminés existant, en correspondance aux différents codons. Comme un codon est formé de trois bases, la séquence protéique est trois fois plus courte que la séquence nucléique correspondante.

Voici un exemple en protéique du gène Antennipedia de Drosophile :

       1 mtmstnnces mtsyftnsym gadmhhghyp gngvtdldaq qmhhysqnan hqgnmpyprf
      61 ppydrmpyyn gqgmdqqqqh qvysrpdsps sqvggvmpqa qtngqlgvpq qqqqqqqqps
     121 qnqqqqqaqq apqqlqqqlp qvtqqvthpq qqqqqpvvya scklqaavgg lgmvpeggsp
     181 plvdqmsghh mnaqmtlphh mghpqaqlgy tdvgvpdvte vhqnhhnmgm yqqqsgvppv
     241 gappqgmmhq gqgppqmhqg hpgqhtppsq npnsqssgmp splypwmrsq fgkcqgk

Autres séquences

  • Séquence glucidique,

Traitements informatiques

Analyse de séquences

Article détaillé : Alignement de séquences.

Des séquences comme celles-ci peuvent être utilisées en entrée (copiées/collées avec toutes leurs annotations) pour faire des analyses de séquences comme avec le programme BLAST.
D'autres programmes permettent d'effectuer des recherches de structures palindromiques.
Bluejay est un programme en java permettant de transformer des données de séquences d'ADN en XML.

Annotations génomiques

Ensembl est un logiciel servant à annoter les séquences génomiques.

Types de séquences biologiques particulières

Articles connexes

Voir aussi

  • Portail de la biologie Portail de la biologie
Ce document provient de « S%C3%A9quence biologique ».

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Séquences biologiques de Wikipédia en français (auteurs)

Игры ⚽ Нужен реферат?

Regardez d'autres dictionnaires:

  • Séquences bioinformatiques — Séquence biologique Une séquence biologique est généralement un fichier informatique au format texte contenant la séquence d une macromolécule biologique. Ce peut être la séquence des bases de l ADN à la sortie d un séquenceur de gène ou la… …   Wikipédia en Français

  • Séquences d'ADN — Séquence biologique Une séquence biologique est généralement un fichier informatique au format texte contenant la séquence d une macromolécule biologique. Ce peut être la séquence des bases de l ADN à la sortie d un séquenceur de gène ou la… …   Wikipédia en Français

  • Séquences glucidiques — Séquence biologique Une séquence biologique est généralement un fichier informatique au format texte contenant la séquence d une macromolécule biologique. Ce peut être la séquence des bases de l ADN à la sortie d un séquenceur de gène ou la… …   Wikipédia en Français

  • Séquences génomiques — Séquence biologique Une séquence biologique est généralement un fichier informatique au format texte contenant la séquence d une macromolécule biologique. Ce peut être la séquence des bases de l ADN à la sortie d un séquenceur de gène ou la… …   Wikipédia en Français

  • Séquences nucléiques — Séquence biologique Une séquence biologique est généralement un fichier informatique au format texte contenant la séquence d une macromolécule biologique. Ce peut être la séquence des bases de l ADN à la sortie d un séquenceur de gène ou la… …   Wikipédia en Français

  • Séquences nucléotidiques — Séquence biologique Une séquence biologique est généralement un fichier informatique au format texte contenant la séquence d une macromolécule biologique. Ce peut être la séquence des bases de l ADN à la sortie d un séquenceur de gène ou la… …   Wikipédia en Français

  • Séquences peptidiques — Séquence biologique Une séquence biologique est généralement un fichier informatique au format texte contenant la séquence d une macromolécule biologique. Ce peut être la séquence des bases de l ADN à la sortie d un séquenceur de gène ou la… …   Wikipédia en Français

  • Séquences protéiques — Séquence biologique Une séquence biologique est généralement un fichier informatique au format texte contenant la séquence d une macromolécule biologique. Ce peut être la séquence des bases de l ADN à la sortie d un séquenceur de gène ou la… …   Wikipédia en Français

  • Alignement de séquences — Pour les articles homonymes, voir Alignement. En bio informatique, l alignement de séquences (ou alignement séquentiel) est une manière de disposer les composantes (nucléotides ou acides aminés) des ADN, des ARN, ou des séquences primaires de… …   Wikipédia en Français

  • Alignement De Séquences — Pour les articles homonymes, voir Alignement. En bio informatique, l alignement de séquences (ou alignement séquentiel) est une manière de disposer les composantes (nucléotides ou acides aminés) des ADN, des ARN, ou des séquences primaires de… …   Wikipédia en Français

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”