<no title>

Med pospravljanjem si v zadnjem delu zamrzovalnika v hladni sobi odkril neko neoznačeno epico, ki je imela skoraj izbrisan napis. Vse kar si uspel razbrati je “plazmid”, zraven sta bili črki “CR”, ki sta očitno označevali začetek neke druge besede, spodaj pa je pisalo “2a”. Tvoja radovednost ti ni pustila spati, zato si vsebino odmrznil in v laboratoriju transformiral celice, da si plazmid namnožil. Uspelo ti je pridelati zadostno koncentracijo, da si ga poslal na sekvenciranje. Nazaj si prejel podatek, da je to plazmid pUC18 z vključkom. Sekvenca vključka je prikazana spodaj:

(v nalogi je uporabljena zgolj moška oblika glagolov, zato mi ne zameri, če si srečna dobitnica moje naloge)

### Iskanje neznanega proteina

>neznana\_sekvenca

CGGGACCATGTCCTTACAACAAACGTCATTAAGTGCCGGCCTAGGAACAACCGGACACCAACGCCGGAAG

AAGCCGCTTTCTGCGCCCATCGCATCCTTGACGAGGAGCTGCGCCTTATTGCGCCCAAAGTCATCATTGC

CTTGGGCGGCGTAGCCCTCAAATACTTCAAAGGTCCCGAGGCCCGCATCACCAAGGAACGAGGCCAATGG

TTCCGGACAAACCAAGGCTTTGACGCCATTGCCACCTTCCATCCCTCCTATCTCCTGCGCCTATCGGGAA

AAGCCCAGATTGACGCCAAGTGGCAAGTCTTCCATGACCTTGAAGCGGCAAAAGCCAAAGTCCTTGAATC

CGTTCCCGATTATCCCTTTTGTTCCGACCATCCGGTCAATCTCTTTGCCCGCTTCCGCAAGCGGGAATAA

ATGACCCAATTTGAAGGTTTTACCAATTTATACCAAGTTTCGAAGACCCTTCGTTTTGAACTGATTCCCC

AAGGAAAAACACTCAAACATATCCAGGAGCAAGGGTTCATTGAGGAGGATAAAGCTCGCAATGACCATTA

CAAAGAGTTAAAACCAATCATTGACCGCATCTATAAGACTTATGCTGATCAATGTCTCCAACTGGTACAG

CTTGACTGGGAGAATCTATCTGCAGCCATAGACTCCTATCGTAAGGAAAAAACCGAAGAAACACGAAATG

CGCTGATTGAGGAGCAAGCAACATATAGAAATGCGATTCATGACTACTTTATAGGTCGGACGGATAATCT

GACAGATGCCATAAATAAGCGCCATGCTGAAATCTATAAAGGACTTTTTAAAGCTGAACTTTTCAATGGA

AAAGTTTTAAAGCAATTAGGGACCGTAACCACGACAGAACATGAAAATGCTCTACTCCGTTCGTTTGACA

AATTTACGACCTATTTTTCCGGCTTTTATGAAAACCGAAAAAATGTCTTTAGCGCTGAAGATATCAGCAC

GGCAATTCCCCATCGAATCGTCCAGGACAATTTCCCTAAATTTAAGGAAAACTGCCATATTTTTACAAGA

TTGATAACCGCAGTTCCTTCTTTGCGGGAGCATTTTGAAAATGTCAAAAAGGCCATTGGAATCTTTGTTA

GTACGTCTATTGAAGAAGTCTTTTCCTTTCCCTTTTATAATCAACTTCTAACCCAAACGCAAATTGATCT

TTATAATCAACTTCTCGGCGGCATATCTAGGGAAGCAGGCACAGAAAAAATCAAGGGACTTAATGAAGTT

CTCAATCTGGCTATCCAAAAAAATGATGAAACAGCCCATATAATCGCGTCCCTGCCGCATCGTTTTATTC

CTCTTTTTAAACAAATTCTTTCCGATCGAAATACGTTATCCTTTATTTTGGAAGAATTCAAAAGCGATGA

GGAAGTCATCCAATCCTTCTGCAAATATAAAACCCTCTTGAGAAACGAAAATGTACTGGAGACTGCAGAA

GCCCTTTTCAATGAATTAAATTCCATTGATTTGACTCATATCTTTATTTCCCATAAAAAGTTAGAAACCA

TCTCTTCAGCGCTTTGTGACCATTGGGATACCTTGCGCAATGCACTTTACGAAAGACGGATTTCTGAACT

CACTGGCAAAATAACAAAAAGTGCCAAAGAAAAAGTTCAAAGGTCATTAAAACATGAGGATATAAATCTC

CAAGAAATTATTTCTGCTGCAGGAAAAGAACTATCAGAAGCATTCAAACAAAAAACAAGTGAAATTCTTT

CCCATGCCCATGCTGCACTTGACCAGCCTCTTCCCACAACATTAAAAAAACAGGAAGAAAAAGAAATCCT

CAAATCACAGCTCGATTCGCTTTTAGGCCTTTATCATCTTCTTGATTGGTTTGCTGTCGATGAAAGCAAT

GAAGTCGACCCAGAATTCTCAGCACGGCTGACAGGCATTAAACTAGAAATGGAACCAAGCCTTTCGTTTT

ATAATAAAGCAAGAAATTATGCGACAAAAAAGCCCTATTCGGTGGAAAAATTTAAATTGAATTTTCAAAT

GCCAACCCTTGCCTCTGGTTGGGATGTCAATAAAGAAAAAAATAATGGAGCTATTTTATTCGTAAAAAAT

GGTCTCTATTACCTTGGTATCATGCCTAAACAGAAGGGGCGCTATAAAGCCCTGTCTTTTGAGCCGACAG

AAAAAACATCAGAAGGATTCGATAAGATGTACTATGACTACTTCCCAGATGCCGCAAAAATGATTCCTAA

GTGTTCCACTCAGCTAAAGGCTGTAACCGCTCATTTTCAAACTCATACCACCCCCATTCTTCTCTCAAAT

AATTTCATTGAACCTCTTGAAATCACAAAAGAAATTTATGACCTGAACAATCCTGAAAAGGAGCCTAAAA

AGTTTCAAACGGCTTATGCAAAGAAGACAGGCGATCAAAAAGGCTATAGAGAAGCGCTTTGCAAATGGAT

TGACTTTACGCGGGATTTTCTCTCTAAATATACGAAAACAACTTCAATCGATTTATCTTCACTCCGCCCT

TCTTCGCAATATAAAGATTTAGGGGAATATTACGCCGAACTGAATCCGCTTCTCTATCATATCTCCTTCC

AACGAATTGCTGAAAAGGAAATCATGGATGCTGTAGAAACGGGAAAATTGTATCTGTTCCAAATCTACAA

TAAGGATTTTGCGAAGGGCCATCACGGGAAACCAAATCTCCACACCCTGTATTGGACAGGTCTCTTCAGT

CCTGAAAACCTTGCGAAAACCAGCATCAAACTTAATGGTCAAGCAGAATTGTTCTATCGACCTAAAAGCC

GCATGAAGCGGATGGCCCATCGTCTTGGGGAAAAAATGCTGAACAAAAAACTAAAGGACCAGAAGACACC

GATTCCAGATACCCTCTACCAAGAACTGTACGATTATGTCAACCACCGGCTAAGCCATGATCTTTCCGAT

GAAGCAAGGGCCCTGCTTCCAAATGTTATCACCAAAGAAGTCTCCCATGAAATTATAAAGGATCGGCGGT

TTACTTCCGATAAATTTTTCTTCCATGTTCCCATTACACTGAATTATCAAGCAGCCAATAGTCCCAGTAA

ATTCAACCAGCGTGTCAATGCCTACCTTAAGGAGCATCCGGAAACGCCCATCATTGGTATCGATCGTGGA

GAACGCAATCTAATCTATATTACCGTCATTGACAGTACTGGGAAAATTTTGGAGCAGCGTTCCCTGAATA

CCATCCAGCAATTTGACTACCAAAAAAAATTGGACAACAGGGAAAAAGAGCGTGTTGCCGCCCGTCAAGC

CTGGTCCGTCGTCGGAACGATCAAAGACCTTAAACAAGGCTACTTGTCACAGGTCATCCATGAAATTGTA

GACCTGATGATTCATTACCAAGCTGTTGTCGTCCTTGAAAACCTCAACTTCGGATTTAAATCAAAACGGA

CAGGCATTGCCGAAAAAGCAGTCTACCAACAATTTGAAAAGATGCTAATAGATAAACTCAACTGTTTGGT

TCTCAAAGATTATCCTGCTGAGAAAGTGGGAGGCGTCTTAAACCCGTATCAACTTACAGATCAGTTCACG

AGCTTTGCAAAAATGGGCACGCAAAGCGGCTTCCTTTTCTATGTACCGGCCCCTTATACCTCAAAGATTG

ATCCCCTGACTGGTTTTGTCGATCCCTTTGTATGGAAGACCATTAAAAATCATGAAAGTCGGAAGCATTT

CCTAGAAGGATTTGATTTCCTGCATTATGATGTCAAAACAGGTGATTTTATCCTCCATTTTAAAATGAAT

CGGAATCTCTCTTTCCAGAGAGGGCTTCCTGGCTTCATGCCAGCTTGGGATATTGTTTTCGAAAAGAATG

AAACCCAATTTGATGCAAAAGGGACGCCCTTCATTGCAGGAAAACGAATTGTTCCTGTAATCGAAAATCA

TCGTTTTACGGGTCGTTACAGAGACCTCTATCCCGCTAATGAACTCATTGCCCTTCTGGAAGAAAAAGGC

ATTGTCTTTAGAGACGGAAGTAATATATTACCCAAACTTTTAGAAAATGATGATTCTCATGCAATTGATA

CGATGGTCGCCTTGATTCGCAGTGTACTCCAAATGAGAAACAGCAATGCCGCAACGGGGGAAGACTACAT

CAACTCTCCCGTTAGGGATCTGAACGGGGTGTGTTTCGACAGTCGATTCCAAAATCCAGAATGGCCAATG

GATGCGGATGCCAACGGAGCTTATCATATTGCCTTAAAAGGGCAGCTTCTTCTGAACCACCTCAAAGAAA

GCAAAGATCTGAAATTACAAAACGGCATCAGCAACCAAGATTGGCTGGCCTACATTCAGGAACTGAGAAA

CTGATGACAATTAACGATTTTTGCGCAAAGCAAATTGCCTTTATTTTTTTAGGGCAAGGAGAAAAGCTTT

CATTTCGCAATGATAACCTTCTTATTCTCGATAAAGACAAAAAAATAAAATACCAAATTACGTGTTATCG

CATCTTTGCCCTTTTCATAGTAGGACACTTCGTCCTAACAAGCGGATTGATTCAACGCTCCCATAAATTT

GGATTTCCGATTTACCTCATGACAAATTCCCTAAAACTTTATGAATCCTTTGGTGGACAGATGGATGGAA

ATGTACTTTTAAGGAAAGCGCAATACGAATACGAGGGACTTTCCATTGGAAAACATATCTTGTCTAACAA

AATTCTTGTACAAAGATCCGTCCTTAATCTGCAAAGAAAAAAAGATGCTTCCTTACTAAATGCTATTCAC

CTATTGGCTGACTATAATCAACGAATTCATGATTATGAAGGGCCCTTGGATGGATTATTAGGATACGAAG

* Želiš ugotoviti, kaj za vraga bi ta sekvenca zapisovala. Zamisel, ki se ti porodi je, da poiščeš ali kodira za kakšen protein … S pomočjo bioinformatskih orodij najdi najverjetnešo sekvenco, ki nekaj zapisuje in zapiši katere nukleotide vključuje. Koliko različnih ORF (open reading frame) najdeš? Kako dolg je najverjetnejši ORF? Kako dolg bi moral biti protein, ki nastane? Utemelji, zakaj je ta najverjetnejši in ne kakšen od ostalih najdenih.

* Zdaj imaš najverjetnejši ORF, ki zapisuje za nek protein. Predlagam, da si ga shraniš v neko datoteko. Nadalje pa bi rad izvedel, ali je v bioinformacijskih bazah ta sekvenca že deponirana? Katero orodje je najbolj uporabno za ta postopek? Kako ugotovimo relevantnost naših zadetkov? (NAMIG: če si postopek izvedel kot sem ga jaz, bi moral dobiti tri zadetke, od katerih sta prva dva relevantna)

* Na podlagi zadetkov, ki si jih dobil z danim orodjem ugotovi, za kateri protein gre in iz katerega organizma izhaja. Kje v genomu izvornega organizma je zaporedje za ta protein? Kakšen organizem je to? (NAMIG: ker je genom, ki sem ga sam dobil kot zadetek slabo anotiran si pri iskanju CDS pomagaj s podatkom o nahajanju zaporedja v genomu)

* Kako bi preveril, ali se aminokislinski zaporedji, ki nastaneta iz nukleotidnih med seboj razlikujeta? Kateri tip takega preverjanja bi uporabil na podlagi dosedanjega vedenja o teh dveh sekvencah (oglej si dolžini)?

* Kaj lahko opaziš na začetku daljšega zaporedja? Meniš, da je to del naravnega proteina, ali ne? Kaj pa na skrajnem koncu daljšega zaporedja? Čemu služi takšen “dodatek”?

* Če poravnavo pogledaš “od daleč” lahko opaziš, da je daljša sekvanca v resnici fuzijski protein. Po čem se to vidi? Kateri ak ostanki so prisotni v linkerju in zakaj ravno ti? Poišči drug protein, ki ga zaporedje kodira (tisti, ki se ne poravna) in zapiši njegov UniProt AC. Kakšno aktivnost ima ta protein?

* Zdaj pa končno poiščimo protein, za katerega nukleotidno zaporedje je bilo prisotno v skrivnostni epici. Na podlagi podatkov, ki jih sedaj imaš in aminokislinske sekvence, ki se prevede iz danega zaporedja nukleotidov poišči za kateri protein gre. Predlagam, da ga najdeš na UniProt. Zapiši kodo dostopa. (NAMIG: ker je protein dobro anotrian lahko iščeš po SwissProt)

* Ali ima protein, ki si ga dobil na UniProt enako ime, kot tisto, ki si ga našel prej? Ali sta obe imeni pravilni? Kaj zelo verjetno pomenita črki CR, ki sta napisani na epici, kaj pa 2a?

### Analiza neznanega proteina

#### (če še nisi rešil prejšnjih nalog, toplo priporočam, da jih dokončaš preden se lotiš tega dela naloge)

Preiskovani protein je očitno udeležen v sistem CRISPR-Cas, ki za bakterijo predstavlja nekakšen imunski sistem, s katerim se ubrani virusnemu dednemu materialu, tujim plazmidom … Na kratko deluje tako, da si celica shrani fragmente DNA virusov in tuje DNA s katero je že imela opravka v preteklosti. Ta se lahko nato prepiše v RNA, ki se vključi v protein Cas in ga tako usmeri do tuje DNA (saj jo RNA prepozna) in nato protein Cas z endonukeazno aktivnostjo razgradi in inaktivira tujo DNA.

![Grafična shema delovanje CRISPR-Cas sistema](https://upload.wikimedia.org/wikipedia/commons/thumb/5/5f/Crispr.png/1280px-Crispr.png)

* Morda si v kontekstu CRISPR že slišal za protein Cas9. Najprej preveri, ali bi lahko naš protein Cas12a imel kakšen skupen izvor s tem proteinom iz organizma Streptococcus thermophilus (taxid:1308) (v katerem je bil protein Cas9 najprej odkrit).

* Zdaj pa pripravi poravnavo zaporedja aminokislinskih ostankov iz večih organizmov, ki imajo protein Cas12a (izberi vsaj 10 začetnih zadetkov na UniProt). Nato pa iz dobljenih rezultatov ustvari WebLogo in pokomentiraj ohranjenost aminokislinskih ostankov glede na anotacije v UniProt za protein, ki smo ga analizirali v prvem delu naloge (ni treba za vse ohranjene aminokislinske ostanke, ampak samo za nekaj). Nariši tudi filogenetsko drevo in iz njega razberi, kateri organizem ima protein Cas12a najbolj podoben proteinu iz našega organizma.

* Ali je takšno sklepanje dovolj, da zaključimo da sta proteina podobna oziroma ortologa? Ali bi bilo dobro narediti še kakšen tip poravnave? (NAMIG: za poravnavo uporabi PDB kodi: 8KGF in 5B43)

Proteini Cas so izrednega pomena pri genskem inženirstvu in imajo vse bolj naraščajočo vlogo v znanosti. Za nadaljne informacije o temi CRISPR pa obstaja seveda malo morje člankov, kjer lahko najdeš dodatne informacije. Upam, da si z nalogo utrdil znanja, pridobljeno na vajah iz Biokemijske informatike, se naučil še kaj novega in da ti je bila naloga zabavna.

Contents