# S2-06
- **Datum izdelave**: 2026-05-08
- **Koda seminarja**: S02-06
## Detektivski primer neoznačene epice
Med pospravljanjem si v zadnjem delu zamrzovalnika v hladni sobi odkril neko neoznačeno epico, ki je imela skoraj izbrisan napis. Vse kar si uspel razbrati je “plazmid”, zraven sta bili črki “CR”, ki sta očitno označevali začetek neke druge besede, spodaj pa je pisalo “2a”. Tvoja radovednost ti ni pustila spati, zato si vsebino odmrznil in v laboratoriju transformiral celice, da si plazmid namnožil. Uspelo ti je pridelati zadostno koncentracijo, da si ga poslal na sekvenciranje. Nazaj si prejel podatek, da je to plazmid pUC18 z vključkom. Sekvenca vključka je prikazana spodaj:
(v nalogi je uporabljena zgolj moška oblika glagolov, zato mi ne zameri, če si srečna dobitnica moje naloge)
### Iskanje neznanega proteina
>neznana\_sekvenca
CGGGACCATGTCCTTACAACAAACGTCATTAAGTGCCGGCCTAGGAACAACCGGACACCAACGCCGGAAG
AAGCCGCTTTCTGCGCCCATCGCATCCTTGACGAGGAGCTGCGCCTTATTGCGCCCAAAGTCATCATTGC
CTTGGGCGGCGTAGCCCTCAAATACTTCAAAGGTCCCGAGGCCCGCATCACCAAGGAACGAGGCCAATGG
TTCCGGACAAACCAAGGCTTTGACGCCATTGCCACCTTCCATCCCTCCTATCTCCTGCGCCTATCGGGAA
AAGCCCAGATTGACGCCAAGTGGCAAGTCTTCCATGACCTTGAAGCGGCAAAAGCCAAAGTCCTTGAATC
CGTTCCCGATTATCCCTTTTGTTCCGACCATCCGGTCAATCTCTTTGCCCGCTTCCGCAAGCGGGAATAA
ATGACCCAATTTGAAGGTTTTACCAATTTATACCAAGTTTCGAAGACCCTTCGTTTTGAACTGATTCCCC
AAGGAAAAACACTCAAACATATCCAGGAGCAAGGGTTCATTGAGGAGGATAAAGCTCGCAATGACCATTA
CAAAGAGTTAAAACCAATCATTGACCGCATCTATAAGACTTATGCTGATCAATGTCTCCAACTGGTACAG
CTTGACTGGGAGAATCTATCTGCAGCCATAGACTCCTATCGTAAGGAAAAAACCGAAGAAACACGAAATG
CGCTGATTGAGGAGCAAGCAACATATAGAAATGCGATTCATGACTACTTTATAGGTCGGACGGATAATCT
GACAGATGCCATAAATAAGCGCCATGCTGAAATCTATAAAGGACTTTTTAAAGCTGAACTTTTCAATGGA
AAAGTTTTAAAGCAATTAGGGACCGTAACCACGACAGAACATGAAAATGCTCTACTCCGTTCGTTTGACA
AATTTACGACCTATTTTTCCGGCTTTTATGAAAACCGAAAAAATGTCTTTAGCGCTGAAGATATCAGCAC
GGCAATTCCCCATCGAATCGTCCAGGACAATTTCCCTAAATTTAAGGAAAACTGCCATATTTTTACAAGA
TTGATAACCGCAGTTCCTTCTTTGCGGGAGCATTTTGAAAATGTCAAAAAGGCCATTGGAATCTTTGTTA
GTACGTCTATTGAAGAAGTCTTTTCCTTTCCCTTTTATAATCAACTTCTAACCCAAACGCAAATTGATCT
TTATAATCAACTTCTCGGCGGCATATCTAGGGAAGCAGGCACAGAAAAAATCAAGGGACTTAATGAAGTT
CTCAATCTGGCTATCCAAAAAAATGATGAAACAGCCCATATAATCGCGTCCCTGCCGCATCGTTTTATTC
CTCTTTTTAAACAAATTCTTTCCGATCGAAATACGTTATCCTTTATTTTGGAAGAATTCAAAAGCGATGA
GGAAGTCATCCAATCCTTCTGCAAATATAAAACCCTCTTGAGAAACGAAAATGTACTGGAGACTGCAGAA
GCCCTTTTCAATGAATTAAATTCCATTGATTTGACTCATATCTTTATTTCCCATAAAAAGTTAGAAACCA
TCTCTTCAGCGCTTTGTGACCATTGGGATACCTTGCGCAATGCACTTTACGAAAGACGGATTTCTGAACT
CACTGGCAAAATAACAAAAAGTGCCAAAGAAAAAGTTCAAAGGTCATTAAAACATGAGGATATAAATCTC
CAAGAAATTATTTCTGCTGCAGGAAAAGAACTATCAGAAGCATTCAAACAAAAAACAAGTGAAATTCTTT
CCCATGCCCATGCTGCACTTGACCAGCCTCTTCCCACAACATTAAAAAAACAGGAAGAAAAAGAAATCCT
CAAATCACAGCTCGATTCGCTTTTAGGCCTTTATCATCTTCTTGATTGGTTTGCTGTCGATGAAAGCAAT
GAAGTCGACCCAGAATTCTCAGCACGGCTGACAGGCATTAAACTAGAAATGGAACCAAGCCTTTCGTTTT
ATAATAAAGCAAGAAATTATGCGACAAAAAAGCCCTATTCGGTGGAAAAATTTAAATTGAATTTTCAAAT
GCCAACCCTTGCCTCTGGTTGGGATGTCAATAAAGAAAAAAATAATGGAGCTATTTTATTCGTAAAAAAT
GGTCTCTATTACCTTGGTATCATGCCTAAACAGAAGGGGCGCTATAAAGCCCTGTCTTTTGAGCCGACAG
AAAAAACATCAGAAGGATTCGATAAGATGTACTATGACTACTTCCCAGATGCCGCAAAAATGATTCCTAA
GTGTTCCACTCAGCTAAAGGCTGTAACCGCTCATTTTCAAACTCATACCACCCCCATTCTTCTCTCAAAT
AATTTCATTGAACCTCTTGAAATCACAAAAGAAATTTATGACCTGAACAATCCTGAAAAGGAGCCTAAAA
AGTTTCAAACGGCTTATGCAAAGAAGACAGGCGATCAAAAAGGCTATAGAGAAGCGCTTTGCAAATGGAT
TGACTTTACGCGGGATTTTCTCTCTAAATATACGAAAACAACTTCAATCGATTTATCTTCACTCCGCCCT
TCTTCGCAATATAAAGATTTAGGGGAATATTACGCCGAACTGAATCCGCTTCTCTATCATATCTCCTTCC
AACGAATTGCTGAAAAGGAAATCATGGATGCTGTAGAAACGGGAAAATTGTATCTGTTCCAAATCTACAA
TAAGGATTTTGCGAAGGGCCATCACGGGAAACCAAATCTCCACACCCTGTATTGGACAGGTCTCTTCAGT
CCTGAAAACCTTGCGAAAACCAGCATCAAACTTAATGGTCAAGCAGAATTGTTCTATCGACCTAAAAGCC
GCATGAAGCGGATGGCCCATCGTCTTGGGGAAAAAATGCTGAACAAAAAACTAAAGGACCAGAAGACACC
GATTCCAGATACCCTCTACCAAGAACTGTACGATTATGTCAACCACCGGCTAAGCCATGATCTTTCCGAT
GAAGCAAGGGCCCTGCTTCCAAATGTTATCACCAAAGAAGTCTCCCATGAAATTATAAAGGATCGGCGGT
TTACTTCCGATAAATTTTTCTTCCATGTTCCCATTACACTGAATTATCAAGCAGCCAATAGTCCCAGTAA
ATTCAACCAGCGTGTCAATGCCTACCTTAAGGAGCATCCGGAAACGCCCATCATTGGTATCGATCGTGGA
GAACGCAATCTAATCTATATTACCGTCATTGACAGTACTGGGAAAATTTTGGAGCAGCGTTCCCTGAATA
CCATCCAGCAATTTGACTACCAAAAAAAATTGGACAACAGGGAAAAAGAGCGTGTTGCCGCCCGTCAAGC
CTGGTCCGTCGTCGGAACGATCAAAGACCTTAAACAAGGCTACTTGTCACAGGTCATCCATGAAATTGTA
GACCTGATGATTCATTACCAAGCTGTTGTCGTCCTTGAAAACCTCAACTTCGGATTTAAATCAAAACGGA
CAGGCATTGCCGAAAAAGCAGTCTACCAACAATTTGAAAAGATGCTAATAGATAAACTCAACTGTTTGGT
TCTCAAAGATTATCCTGCTGAGAAAGTGGGAGGCGTCTTAAACCCGTATCAACTTACAGATCAGTTCACG
AGCTTTGCAAAAATGGGCACGCAAAGCGGCTTCCTTTTCTATGTACCGGCCCCTTATACCTCAAAGATTG
ATCCCCTGACTGGTTTTGTCGATCCCTTTGTATGGAAGACCATTAAAAATCATGAAAGTCGGAAGCATTT
CCTAGAAGGATTTGATTTCCTGCATTATGATGTCAAAACAGGTGATTTTATCCTCCATTTTAAAATGAAT
CGGAATCTCTCTTTCCAGAGAGGGCTTCCTGGCTTCATGCCAGCTTGGGATATTGTTTTCGAAAAGAATG
AAACCCAATTTGATGCAAAAGGGACGCCCTTCATTGCAGGAAAACGAATTGTTCCTGTAATCGAAAATCA
TCGTTTTACGGGTCGTTACAGAGACCTCTATCCCGCTAATGAACTCATTGCCCTTCTGGAAGAAAAAGGC
ATTGTCTTTAGAGACGGAAGTAATATATTACCCAAACTTTTAGAAAATGATGATTCTCATGCAATTGATA
CGATGGTCGCCTTGATTCGCAGTGTACTCCAAATGAGAAACAGCAATGCCGCAACGGGGGAAGACTACAT
CAACTCTCCCGTTAGGGATCTGAACGGGGTGTGTTTCGACAGTCGATTCCAAAATCCAGAATGGCCAATG
GATGCGGATGCCAACGGAGCTTATCATATTGCCTTAAAAGGGCAGCTTCTTCTGAACCACCTCAAAGAAA
GCAAAGATCTGAAATTACAAAACGGCATCAGCAACCAAGATTGGCTGGCCTACATTCAGGAACTGAGAAA
CTGATGACAATTAACGATTTTTGCGCAAAGCAAATTGCCTTTATTTTTTTAGGGCAAGGAGAAAAGCTTT
CATTTCGCAATGATAACCTTCTTATTCTCGATAAAGACAAAAAAATAAAATACCAAATTACGTGTTATCG
CATCTTTGCCCTTTTCATAGTAGGACACTTCGTCCTAACAAGCGGATTGATTCAACGCTCCCATAAATTT
GGATTTCCGATTTACCTCATGACAAATTCCCTAAAACTTTATGAATCCTTTGGTGGACAGATGGATGGAA
ATGTACTTTTAAGGAAAGCGCAATACGAATACGAGGGACTTTCCATTGGAAAACATATCTTGTCTAACAA
AATTCTTGTACAAAGATCCGTCCTTAATCTGCAAAGAAAAAAAGATGCTTCCTTACTAAATGCTATTCAC
CTATTGGCTGACTATAATCAACGAATTCATGATTATGAAGGGCCCTTGGATGGATTATTAGGATACGAAG
* Želiš ugotoviti, kaj za vraga bi ta sekvenca zapisovala. Zamisel, ki se ti porodi je, da poiščeš ali kodira za kakšen protein … S pomočjo bioinformatskih orodij najdi najverjetnešo sekvenco, ki nekaj zapisuje in zapiši katere nukleotide vključuje. Koliko različnih ORF (open reading frame) najdeš? Kako dolg je najverjetnejši ORF? Kako dolg bi moral biti protein, ki nastane? Utemelji, zakaj je ta najverjetnejši in ne kakšen od ostalih najdenih.
* Zdaj imaš najverjetnejši ORF, ki zapisuje za nek protein. Predlagam, da si ga shraniš v neko datoteko. Nadalje pa bi rad izvedel, ali je v bioinformacijskih bazah ta sekvenca že deponirana? Katero orodje je najbolj uporabno za ta postopek? Kako ugotovimo relevantnost naših zadetkov? (NAMIG: če si postopek izvedel kot sem ga jaz, bi moral dobiti tri zadetke, od katerih sta prva dva relevantna)
* Na podlagi zadetkov, ki si jih dobil z danim orodjem ugotovi, za kateri protein gre in iz katerega organizma izhaja. Kje v genomu izvornega organizma je zaporedje za ta protein? Kakšen organizem je to? (NAMIG: ker je genom, ki sem ga sam dobil kot zadetek slabo anotiran si pri iskanju CDS pomagaj s podatkom o nahajanju zaporedja v genomu)
* Kako bi preveril, ali se aminokislinski zaporedji, ki nastaneta iz nukleotidnih med seboj razlikujeta? Kateri tip takega preverjanja bi uporabil na podlagi dosedanjega vedenja o teh dveh sekvencah (oglej si dolžini)?
* Kaj lahko opaziš na začetku daljšega zaporedja? Meniš, da je to del naravnega proteina, ali ne? Kaj pa na skrajnem koncu daljšega zaporedja? Čemu služi takšen “dodatek”?
* Če poravnavo pogledaš “od daleč” lahko opaziš, da je daljša sekvanca v resnici fuzijski protein. Po čem se to vidi? Kateri ak ostanki so prisotni v linkerju in zakaj ravno ti? Poišči drug protein, ki ga zaporedje kodira (tisti, ki se ne poravna) in zapiši njegov UniProt AC. Kakšno aktivnost ima ta protein?
* Zdaj pa končno poiščimo protein, za katerega nukleotidno zaporedje je bilo prisotno v skrivnostni epici. Na podlagi podatkov, ki jih sedaj imaš in aminokislinske sekvence, ki se prevede iz danega zaporedja nukleotidov poišči za kateri protein gre. Predlagam, da ga najdeš na UniProt. Zapiši kodo dostopa. (NAMIG: ker je protein dobro anotrian lahko iščeš po SwissProt)
* Ali ima protein, ki si ga dobil na UniProt enako ime, kot tisto, ki si ga našel prej? Ali sta obe imeni pravilni? Kaj zelo verjetno pomenita črki CR, ki sta napisani na epici, kaj pa 2a?
### Analiza neznanega proteina
#### (če še nisi rešil prejšnjih nalog, toplo priporočam, da jih dokončaš preden se lotiš tega dela naloge)
Preiskovani protein je očitno udeležen v sistem CRISPR-Cas, ki za bakterijo predstavlja nekakšen imunski sistem, s katerim se ubrani virusnemu dednemu materialu, tujim plazmidom … Na kratko deluje tako, da si celica shrani fragmente DNA virusov in tuje DNA s katero je že imela opravka v preteklosti. Ta se lahko nato prepiše v RNA, ki se vključi v protein Cas in ga tako usmeri do tuje DNA (saj jo RNA prepozna) in nato protein Cas z endonukeazno aktivnostjo razgradi in inaktivira tujo DNA.

* Morda si v kontekstu CRISPR že slišal za protein Cas9. Najprej preveri, ali bi lahko naš protein Cas12a imel kakšen skupen izvor s tem proteinom iz organizma Streptococcus thermophilus (taxid:1308) (v katerem je bil protein Cas9 najprej odkrit).
* Zdaj pa pripravi poravnavo zaporedja aminokislinskih ostankov iz večih organizmov, ki imajo protein Cas12a (izberi vsaj 10 začetnih zadetkov na UniProt). Nato pa iz dobljenih rezultatov ustvari WebLogo in pokomentiraj ohranjenost aminokislinskih ostankov glede na anotacije v UniProt za protein, ki smo ga analizirali v prvem delu naloge (ni treba za vse ohranjene aminokislinske ostanke, ampak samo za nekaj). Nariši tudi filogenetsko drevo in iz njega razberi, kateri organizem ima protein Cas12a najbolj podoben proteinu iz našega organizma.
* Ali je takšno sklepanje dovolj, da zaključimo da sta proteina podobna oziroma ortologa? Ali bi bilo dobro narediti še kakšen tip poravnave? (NAMIG: za poravnavo uporabi PDB kodi: 8KGF in 5B43)
Proteini Cas so izrednega pomena pri genskem inženirstvu in imajo vse bolj naraščajočo vlogo v znanosti. Za nadaljne informacije o temi CRISPR pa obstaja seveda malo morje člankov, kjer lahko najdeš dodatne informacije. Upam, da si z nalogo utrdil znanja, pridobljeno na vajah iz Biokemijske informatike, se naučil še kaj novega in da ti je bila naloga zabavna.