EasyGene - napovedovanje prokariontskih genov#

Avtorja: Nik Vidmar, Gašper Struna

Datum predstavitve: 2022-5-4


Namen vaje#

Spoznati se s spletnim orodjem EasyGene. S pomočjo tega orodja napovedati gene v delu prokariontskega genoma.


Program#

Program: EasyGene 1.2

Avtorji programa: Thomas Schou Larsen, Anders Krogh; Technical University of Denmark

Reference:

  • Nielsen P, Krogh A. Large-scale prokaryotic gene prediction and comparison to genome annotation. Bioinformatics. 2005;21: 4322–4329. 10.1093/bioinformatics/bti701

  • Larsen TS, Krogh A. EasyGene–a prokaryotic gene finder that ranks ORFs by statistical significance. BMC Bioinformatics. 2003;4: 21. 10.1186/1471-2105-4-21

Opis programa#

Vsak genom poleg pravih genov vsebuje tudi odprte bralne okvire (ORF), ki ne kodirajo ničesar. Prave gene moramo znati ločiti od naključnih ORF in eden izmed programov, ki ga lahko uporabljamo za napovedovanje genov pri prokariontih je EasyGene.

EasyGene uporablja skrite modele Markova (HMM) za določanje, identifikacijo genov. Program vsebuje set podatkov za genome 138 prokariontov, izmed the izberemo modelni organizem, ki je najbolj soroden ali pa kar identičen organizmu, iz katerega prihaja izbrano zaporedje. Na podlagi genoma izbranega organizma program oceni HMM. S to oceno potem ovrednoti najdene ORF v podanem zaporedju. Za vsak ORF izračuna R-vrednost. To je pričakovano število ORF, ki bi jih našli v 1 Mbp velikem naključnem zaporedju. Na koncu program poda le gene, ki imajo R-vrednost nižjo od te, ki smo jo izbrali. Izračuna pa tudi verjetnosti, da se nek gen začne pri določenem nukleotidu. Pri končnem izpisu upošteva le izhodišča z največjimi verjetnostmi.

EasyGene poda dobre rezultate (prave lokacije posameznih genov) pri prokariontih, če seveda izberemo pravi modelni genom. Ob nepravi izbiri so rezultati napačni, saj ocena HMM ni primerna zaradi napačne izbire modelnega genoma. Ker so med modelnimi organizmi le prokarionti program ni primeren za evkariontske organizme, saj ocena HMM ne bi bila ustrezna. Prednost tega programa je tudi, da za vsak nukleotid izračuna verjetnost, da se tam začne gen. S tem daje ustrezne rezultate tudi za genome, ki vsebujejo prekrivajoče se gene, kar se pri prokariontih pogosto pojavlja. Problem tega programa pri prokariontih so krajši geni (geni krajši od 100 nt). Pri ekstrakciji genov iz genomov modelnih organizmov, ki jih nato uporabi za oceno HMM in izračun R-vrednosti, so namreč upoštevali le ORF daljše od 120 baz.

Vhodni podatki#

Nukleotidno zaporedje v FASTA-zapisu.