Pogosti formati datotek#
Na tej strani najdete opise nekaterih formatov datotek, s katerimi se srečuje bioinformatik.
FASTA#
To je eden najpogostejših formatov v bioinformatiki, uporablja pa se za zapis aminokislinskih in nukleotidnih zaporedij. Ime izhaja iz imena programa FASTA za primerjavo zaporedij oz. iskanje podobnih zaporedij, ki sta ga razvila Pearson in Lipman leta 1985 (zadnja verzija programa na GitHub; spletni vmesnik na strani EBI). Včasih se temu formatu reče kar Pearson po imenu enega od avtorjev programa, ali pa Pearson/FASTA.
Format je nadvse preprost – prva vrstica se začne z znakom “večje” (>
), ki mu v isti vrstici sledi ime zaporedja, nato pa v drugi vrstici sledi zaporedje sámo. Slednje se lahko sicer razteza čez več vrstic. Primer zaporedja z imenom HEPC_LARCR:
>HEPC_PIG
MALSVQIRAACLLLLLLVSLTAGSVLPSQTRQLTDLRTQDTAGATAGLTPVAQRLRRDTHFPICIFCCGCCRKAICGMCCKT
V isto datoteko lahko shranimo več zaporedij, kar je prikazano na primeru treh kratkih nukleotidnih zaporedij:
>oligo1
AGCTGCGATAGAGGCTCGCGATGCTA
>oligo2
AGGAGATAGAGAGATGCGCGCGCCGC
>oligo3
AGCTAGCCTAGATGCGCTAGATCGAT
Za večjo preglednost lahko zaporedja ločimo s praznimi vrsticami, kot je prikazano na primeru zaporedij proteina hepcidina iz štirih različnih organizmov:
>HEPC_PIG
MALSVQIRAACLLLLLLVSLTAGSVLPSQTRQLTDLRTQDTAGATAGLTPVAQRL
RRDTHFPICIFCCGCCRKAICGMCCKT
>HEPC_RAT
MALSTRIQAACLLLLLLASLSSGAYLRQQTRQTTALQPWHGAESKTDDSALLMLK
RRKRDTNFPICLFCCKCCKNSSCGLCCIT
>HEPC_HUMAN
MALSSQIWAACLLLLLLLASLTSGSVFPQQTGQLAELQPQDRAGARASWMPMFQR
RRRRDTHFPICIFCCGCCHRSKCGMCCKT
>HEPC1_DANRE
MKLSNVFLAAVVILTCVCVFQITAVPFIQQVQDEHHVESEELQENQHLTEAEHRQ
TDPLVLFRTKRQSHLSLCRFCCKCCRNKGCGYCCKF
Več o FASTA formatu lahko preberete na Wikipediji.
Posebne oblike#
Obstaja več formatov, izvedenih iz osnovnega, nekaj jih je opisanih v nadaljevanju.
FASTQ#
FASTQ je posebna različica formata FASTA, ki zraven zaporedja vsebuje še oceno kvalitete zaporedja za vsak ostanek posebej. Je standardni format, ki se uporablja za zapis zaporedij, določenih z visoko zmogljivimi sekvenatorji (high-throuput sequencing). Format se uporablja zgolj za zapis nukleotidnih zaporedij.
Več o formatu na Wikipediji.
Poravnan FASTA format#
Poravnava v formatu FASTA (aligned FASTA format) je izvedenka, kjer je v isti datoteki FASTA zapisanih več zaporedij, ki so enako dolga – enake dolžine sicer niso zato, ker vsebujejo enako število nukleotidnih/aminokislinskih ostankov, ampak ker so zaporedja dejansko poravnana in so vanje vstavljeni znaki -
kot oznake za vrzeli.
Kot primer si oglejmo poravnavo štirih aminokislinskih zaporedij hepcidina, poravnanih s programom Clustal Omega, prikazanih v standardnem formatu Clustal (neporavnana zaporedja so prikazana pri opisu snovnega formata FASTA, kjer je razvidno, da niso enako dolga):
CLUSTAL O(1.2.4) multiple sequence alignment
HEPC1_DANRE MKLSNVFLAAVVILTCVCVFQITAVP-FIQQVQDEHHVESEELQENQHLTEAEHRQTDPL 59
HEPC_RAT MALSTRIQAACLLLL-LLA-SLSSGAYLRQQTRQ-----TTAL-QPWHGAESKTDDSALL 52
HEPC_PIG MALSVQIRAACLLLL-LLV-SLTAGSVLPSQTRQ-----LTDL-RTQDTAGATAG-LTPV 51
HEPC_HUMAN MALSSQIWAACLLLLLLLA-SLTSGSVFPQQTGQ-----LAEL-QPQDRAGARAS-WMPM 52
* ** : ** ::* : . .::: : .*. : * . . : : :
HEPC1_DANRE VLFRTKRQSHLSLCRFCCKCCRNKGCGYCCKF 91
HEPC_RAT MLKRRKRDTNFPICLFCCKCCKNSSCGLCCIT 84
HEPC_PIG AQR-LRRDTHFPICIFCCGCCRKAICGMCCKT 82
HEPC_HUMAN FQRRRRRDTHFPICIFCCGCCHRSKCGMCCKT 84
:*:::: :* *** **:. ** **
To poravnavo lahko zapišemo v sicer manj preglednem “poravnanem FASTA” formatu:
>HEPC1_DANRE
MKLSNVFLAAVVILTCVCVFQITAVP-FIQQVQDEHHVESEELQENQHLTEAEHRQTDPL
VLFRTKRQSHLSLCRFCCKCCRNKGCGYCCKF
>HEPC_RAT
MALSTRIQAACLLLL-LLA-SLSSGAYLRQQTRQ-----TTAL-QPWHGAESKTDDSALL
MLKRRKRDTNFPICLFCCKCCKNSSCGLCCIT
>HEPC_PIG
MALSVQIRAACLLLL-LLV-SLTAGSVLPSQTRQ-----LTDL-RTQDTAGATAG-LTPV
AQR-LRRDTHFPICIFCCGCCRKAICGMCCKT
>HEPC_HUMAN
MALSSQIWAACLLLLLLLA-SLTSGSVFPQQTGQ-----LAEL-QPQDRAGARAS-WMPM
FQRRRRRDTHFPICIFCCGCCHRSKCGMCCKT
Primer govori sam zase :)
CSV in TSV#
Datoteke CSV so enostavne tekstovne datoteke, v katerih so shranjeni tabelirani podatki. Vsaka vrstica v datoteki predstavlja vrstico tabele, v vsaki vrstici pa poseben ločitveni znak (delimiting character) ločuje posamezne celice oz. stolpce. V osnovi je ta ločitveni znak vejica (od tod izhaja ime Comma Separated Values), a ker format CSV ni standardiziran se v tovrstnih datotekah lahko kot ločitveni znak pojavlja tabulator, podpičje, presledek ipd. Uporaba drugačnega znaka kot je vejica je pogosta na primer v državah, kjer se že kot decimalni simbol uporablja vejica, tudi v Sloveniji, saj bi v tem primeru prišlo do napak pri interpretaciji, kje se konča in kje začne nova vrednost v posamezni vrstici. Več o formatu CSV lahko preberete na Wikipediji.
Na primer, tabelo
T: Gene names |
T: id |
Intensity CD86_1 |
Intensity CD86_2 |
---|---|---|---|
DDX39A |
29 |
16.9839 |
17.2317 |
DDX3X;DDX3Y |
34 |
16.3093 |
16.1811 |
ACACB |
35 |
23.5791 |
23.9303 |
TNFRSF10B |
37 |
19.4167 |
19.7823 |
PLXNB2 |
38 |
19.529 |
21.4844 |
FZD7 |
45 |
17.5487 |
15.8987 |
bi v formatu CSV zapisali kot
T: Gene names,T: id,Intensity CD86_1,Intensity CD86_2
DDX39A,29,16.9839,17.2317
DDX3X;DDX3Y,34,16.3093,16.1811
ACACB,35,23.5791,23.9303
TNFRSF10B,37,19.4167,19.7823
PLXNB2,38,19.529,21.4844
FZD7,45,17.5487,15.8987
TSV je varianta, kjer se namesto vejice za ločevanje polj uporablja tabulator (tab), torej gre za Tab Separated Values. Končnica TSV se uporablja redkeje, včasih nosi datoteka v formatu TSV kar končnico CSV. Tabelo iz zgornjega primera bi kot TSV zapisali tako:
T: Gene names T: id Intensity CD86_1 Intensity CD86_2
DDX39A 29 16.9839 17.2317
DDX3X;DDX3Y 34 16.3093 16.1811
ACACB 35 23.5791 23.9303
TNFRSF10B 37 19.4167 19.7823
PLXNB2 38 19.529 21.4844
FZD7 45 17.5487 15.8987
Datoteke formata CSV/TSV lahko odprete z običajnimi programi za delo s tekstovnimi datotekami (Notepad/Beležnica, TextEdit, …), s specializiranimi programi za datoteke CSV, lahko pa kar z Microsoft Excel.
PDB in PDBx/mmCIF#
Gre za datoteke, v katerih shranjujemo strukturne podatke, pravzaprav koordinate atomov in spremljajoče podatke (anotacije, B-faktor, zasedenost, …). Spet gre za posebej oblikovane tekstovne datoteke. Format PDB je starejši, razvit ob nastanku World Wide Protein Data Bank (1971), prve zbirke, namenjene zbiranju, shranjevanju in dostopu do strukturnih podatkov bioloških makromolekul. Format je dolgo zadoščal vsem potrebam strukturnih biologov, a z razvojem novih metod in programov ter pojava modelov/struktur vedno večjih makromolekul(skih kompleksov) so se pokazale nekatere omejitve tega formata. Na primer, v datoteko PDB lahko shranimo modele iz največ 99.999 atomov ter iz največ 62 različnih polipeptidnih/polinukleotidnih verig; omejitev glede števila atomov izhaja iz širine polja, namenjenega za zapis zaporedne številke atoma (vsi atomi imajo unikatno številko!), ki lahko vsebuje zgolj 5 znakov. To je vodilo do nastanka formata PDBx/mmCIF (mmCIF = macromolecular CIF), ki je pravzaprav posebna izvedba formata CIF (Crystallographic Information File, Wikipedia), primarno namenjenega shranjevanju strukturnih podatkov manjših molekul.