# S1-15

- **Datum izdelave**: 2026-05-07
- **Koda seminarja**: S1-15

## Kdo reže DNA?

CRISPR-Cas je obrambni sistem, s katerim se lahko bakterije in arheje obranijo pred okužbami z bakteriofagi ali drugimi genskimi elementi. Sekvenciral si del genoma neznane bakterije, za katerega sumiš, da vsebuje gene povezane s CRISPR-Cas obrambnim sistemom ter dobil sledeče zaporedje:

```
TTCTAAGCATTCAAAGACAATCAGTTCTGTAATCGTAGCAACCAATTTGTCAATCATCGA
TTTCACTTCGGGTTTCTCATTAAATTGAGATTCTAAATCTGCATGAATCAATTTTAAAAT
GGTTGAGGAGTTAACATCAAATCCTAAAATATCTGTTACAAGCATGATTTCTGATTCTTT
GATTGTTTTCATCTTGTGATCAAAAAATTTAAGTTCAGAATCTTCCTCATATTTGTAACA
ATATTGCACTATTTTTGAAAATACACAGACATCTTCGAGCACAAGAATTGTACCGCCTCT
TAATGGAATCGGTTCATCTAATAAGGGAAAATTAAGATTCATCAAAAGCCTCCCCAAGAA
ATACAAGTCTCTCATCGGAGTTTGCAATACAATTATTTCTTTCACCATGTAAATAAATCA
TTCGTGCAAACTGTTTTTCTGTGACTGTTAGTAATGTAATATTTCCTTTATGAGGATTAT
GCTCCCTCAGCCGACCAATCATGGCGTTGTTAGCTGTATTATTCAACAGTAACTTACTAT
AAATAGAAAATTGATGCATGATAAACCCTTCACTAAGTAAAAATTTCCGAAATTTTCGAT
AAGCTTTTCGTTCCTCAGCAGTGTCCGTCGGCATATCAAACATAAGTATCATTCTCATAT
ATCTATAACTCATATCCTAAATTCAGGAACTCCTTTCCCTTCATTATTCAGAGCTTTGAC
AACTTTTTTAGTATAATCGCTAATAATATTCGTGAGATACATCTCTTTACCATTATATGA
AAATGTATCTGAAAACAAAGTAAATAACTCTCTCTTTATTTTGGGAAAAGGCTGATTTCG
ATTTTCATAAACAATCTTATCCACCAAAGGCCTAAATGGTTCCATAATATCGCTAGCAAA
ATTGAACTGATTAAACTGATTGGCGTGTTTGAGTCCAAATTGAGTCATACATCCAGACAC
AACCACTTCACGCGCAAACATACTCAATAATAAAGTATAACCATAATCCAGACCTGCATT
GATTGGATGCTCCAAATCTCTTGAGAAATCGTTCCCAAAAAGTGTATTAAAATAAATTCT
CGCTGCATGCCCTTCTCGATTACTCGGATCAAAATTTTCCAAACCATGATATAAATCCAT
AATAGATTGGGATTTTTCAAAATAGGAGCATGCTCCTAGATAGCAAGATTGATTCAAAAT
CTTTTGAGCAATAATCGTCGTCCAAACCTGCGATTTGACTGTTTCTGACCAGGACATTTG
TTTCCCAAGCTGTAAACTCGAATCATGACGACCATAAAAAGGCATCAGCATAGCTGTTGG
TAATCGTTTATCATCACAGAATATGACAAGGACATTCTCATCCACTAGCCGTTTTACCAG
CATAGTGGACAAGACAATATCGGTCGTTTCTAATAACAAAATATCAATTTCTGATAAATG
GATCAGCTCCGTTTTATAGGCATCCTTAAAAATCAGATGATTATTCTTATAGGATAATTT
CGAGTGGGTATTTACCACAACAGTACGCCAACCAGCCATTCAGTCACCTCCTAGCTGACT
CAAATCAATGCGTGTTTCATAAAGACCAGTAATGGATTGATGGATAAGAGTGGCATCTAA
AACTTCTTTTGTAGACGTATATCGTTTACGATCAATTGTTGTATCAAAATATTTAAAAGC
AGCGGGAGCTCCAAGATTCGTCAACGTAAATAAATGAATAATATTTTCTGCTTGTTCACG
TATTGGTTTGTCTCTATGTTTGTTATATGCACTAAGAACTTTATCTAAATTGGCATCTGC
TAAAATAACACGCTTAGAAAATTCACTGATTTGCTCAATAATCTCATCTAAATAATGCTT
ATGCTGCTCCACAAACAATTGTTTTTGTTCGTTATCTTCTGGACTACCCTTCAACTTTTC
ATAATGACTAGCTAAATATAAAAAATTCACATATTTGCTTGGCAGAGCCAGCTCATTTCC
TTTTTGCAATTCCCCGGCGCTAGCCAGCATCCGTTTACGACCGTTTTCTAACTCAAAAAG
ACTATATTTAGGTAGTTTAATGATTAAATCTTTTCTAACTTCCTTATATCCTTTAGCTTC
TAAAAAGTCAATCGGATTTTTTTCAAAGGAACTTCTTTCCATAATTGTGATCCCTAGTAA
CTCTTTAACGGATTTTAACTTCTTCGATTTCCCTTTTTCCACCTTAGCAACCACTAGGAC
TGAATAAGCTACCGTTGGACTATCAAAACCACCATATTTTTTTGGATCCCAGTCTTTTTT
ACGAGCAATAAGCTTGTCCGAATTTCTTTTTGGTAAAATTGACTCCTTGGAGAATCCGCC
TGTCTGTACTTCTGTTTTCTTGACAATATTGACTTGGGGCATGGACAATACTTTGCGCAC
TGTGGCAAAATCTCGCCCTTTATCCCAGACAATTTCTCCAGTTTCCCCATTAGTTTCGAT
TAGAGGGCGTTTGCGAATCTCTCCATTTGCAAGTGTAATTTCTGTTTTGAAGAAGTTCAT
GATATTAGAGTAAAAGAAATATTTTGCGGTTGCTTTGCCTATTTCCTGCTCAGACTTAGC
AATCATTTTACGAACATCATAAACTTTATAATCACCATAGACAAACTCCGATTCAAGTTT
TGGATATTTCTTAATCAAAGCAGTTCCAACGACGGCATTAAGATACGCATCATGGGCATG
ATGGTAATTGTTAATCTCACGTACTTTATAGAATTGGAAATCTTTTCGGAAGTCAGAAAC
TAATTTAGATTTTAAGGTAATCACTTTAACCTCTCGAATAAGTTTATCATTTTCATCGTA
TTTAGTATTCATGCGACTATCCAAAATTTGTGCCACATGCTTAGTGATTTGGCGAGTTTC
AACCAATTGGCGTTTGATAAAACCAGCTTTATCAAGTTCACTCAAACCTCCACGTTCAGC
TTTCGTTAAATTATCAAACTTACGTTGAGTGATTAACTTGGCGTTTAGAAGTTGTCTCCA
ATAGTTTTTCATCTTTTTGACTACTTCTTCACTTGGAACGTTATCCGATTTACCACGATT
TTTATCAGAACGCGTTAAGACCTTATTGTCTATTGAATCGTCTTTAAGGAAACTTTGTGG
AACAATGTGATCGACATCATAATCACTTAAACGATTAATATCTAATTCTTGGTCCACATA
CATGTCTCTTCCATTTTGGAGATAATAGAGATAGAGCTTTTCATTTTGTAATTGAGTGTT
TTCAACAGGATACTCCTTTAGAATATCACTTCCTAGTTCTTTTATTCCTTCTTCAATACG
TTTCATACGCTCACGCGAATTTTTCTGGCCCTTTTGAGTTGTCTGATTTTCACGTGCCAT
TTCAATAACGATATTTTCTGGCTTATGCCGCCCCATTACTTTGACCAATTCATCAACAAC
TTTTACAGTCTGTAAAATACCTTTTTTAATAGCAGGGCTACCAGCTAAATTTGCAATATG
TTCATGTAAACTATCGCCTTGTCCAGACACTTGTGCTTTTTGAATATCTTCTTTAAATGT
CAAACTATCATCATGGATCAGCTGCATAAAATTGCGATTGGCAAAACCATCTGATTTCAA
AAAATCTAATATTGTTTTGCCAGATTGCTTATCCCTAATACCATTAATCAATTTTCGAGA
CAAACGTCCCCAACCAGTATAACGGCGACGTTTAAGCTGTTTCATCACCTTATCATCAAA
GAGGTGAGCATATGTTTTAAGTCTTTCCTCAATCATCTCCCTATCTTCAAATAAGGTCAA
TGTTAAAACAATATCCTCTAAGATATCTTCATTTTCTTCATTATCCAAAAAATCTTTATC
TTTAATAATTTTTAGCAAATCATGGTAGGTGCCTAATGAAGCATTAAATCTATCTTCAAC
TCCTGAAATTTCAACACTATCAAAACATTCTATTTTTTTGAAATAATCTTCTTTTAATTG
CTTAACGGTTACTTTTCGATTTGTTTTGAAGAGTAAATCAACAATGGCTTTCTTCTGTTC
ACCTGAAAGAAATGCTGGTTTTCGCATTCCCTCAGTAACATATTTGACCTTTGTCAATTC
GTTATAAACCGTAAAATACTCATAAAGCAAACTATGTTTTGGTAGTACTTTTTCATTTGG
AAGATTTTTATCAAAGTTTGTCATGCGTTCAATAAATGATTGAGCTGAAGCACCTTTATC
GACAACTTCTTCAAAATTCCATGGGGTAATTGTTTCTTCAGACTTCCGAGTCATCCATGC
AAAACGACTATTGCCACGCGCCAATGGACCAACATAATAAGGAATTCGAAAAGTCAAGAT
TTTTTCAATCTTCTCACGATTGTCTTTTAAAAATGGATAAAAGTCTTCTTGTCTTCTCAA
AATAGCATGCAGCTCACCCAAGTGAATTTGATGGGGAATAGAGCCGTTGTCAAAGGTCCG
TTGCTTGCGCAGCAAATCTTCACGATTTAGTTTCGCCAATAATTCCTCAGTACCATCCAT
TTTTTCTAAAATTGGTTTGATAAATTTATAAAATTCTTCTTGGCTAGCTCCCCCATCAAT
ATAACCTGCATATCCGTTTTTTGATTGATCAAAAAAGATTTCTTTATACTTTTCTGGAAG
TTGTTGTCGAACTAAAGCTTTTAAAAGAGTCAAGTCTTGATGATGTTCATCGTAGCGCTT
AATCATTGAAGCTGATAGGGGAGCCTTAGTTATTTCACTATTTACTCTTAGGATATCTGA
AAGTAAAGTAGCATCTGATAAATTCTTAGCTGCCAAAAACAAATCAGCATATTGATCTCC
AATTTGCGCCAATAAATTATCTAAATCATCATCGTAAGTATCTTTTGAAAGCTGTAATTT
AGCATCTTCTGCCAAATCAAAATTTGATTTAAAATTAGGGGTCAATCCCAATGACAAAGC
AATGAGATTCCCAAACAATCCATTTTTCTTCTCACCGGGGAGCTGAGCAATGAGATTTTC
TAATCGTCTTGATTTACTCAATCGTGCAGAAAGAATCGCTTTAGCATCTACTCTACTTGC
GTTAATAGGGTTTTCTTCAAATAATTGATTGTAGGTTTGTACCAACTGGATAAATAGTTT
GTCCACATCACTATTATCAGGATTTAAATCTCCCTCAATCAAAAAATGACCACGAAACTT
AATCATATGCGCTAAGGCCAAATAGATTAAGCGCAAATCCGCTTTATCAGTAGAATCTGC
CAATTTTTTTCGCAGATGATAGATAGTTGGATATTTCTCATGATAAGCAACTTCATCTAC
TATATTTCCAAAAATAGGATGACGTTCATGCTTCTTGTCTTCTTCCACCAAAAAAGACTC
TTCAAGTCGATGAAAGAAACTATCATCTACTTTCGCCATCTCATTTGAAAAAATCTCCTG
TAGATAACAAATACGATTCTTCCGACGTGTATACCTTCTACGAGCTGTCCGTTTGAGACG
AGTCGCTTCCGCTGTCTCTCCACTGTCAAATAAAAGAGCCCCTATAAGATTTTTTTTGAT
ACTGTGGCGGTCTGTATTTCCCAGAACCTTGAACTTTTTAGACGGAACCTTATAATCATC
AGTGATCACCGCCCATCCGACGCTATTTGTGCCGATATCTAAGCCTATTGAGTATTTCTT
ATCCAT
```
1. Zanima te, kateri protein kodira sekvencirano zaporedje, zato uporabiš orodje [ORFfinder](https://www.ncbi.nlm.nih.gov/orffinder/), ki se uporablja za identifikacijo odprtih bralnih okvirov - delov nukleotidnega zaporedja, ki v določenem bralnem okviru ne vsebujejo STOP kodonov. V polje poimenovano "enter query sequence" vstaviš zgornje zaporedje, ostalih nastavitev pa ne spreminjaš in na dnu strani pritisneš "submit".
* Koliko odprtih bralnih okvirjev najdeš?
* Kateri izmed njih je pravilen in zakaj?
* Kateri protein kodira to zaporedje (ime ter UniProt accession code) in iz katerega organizma je? 
* Kako velik je celoten genom tega organizma?
* Kateri ion je potreben za aktivnost tega proteina?
* Kakšna je funkcija tega proteina v bakterijskih celicah?

2. CRISPER-Cas sistemi so zaradi nizke cene, ponovljivosti, učinkovitosti in preprostosti med najbolj uporabljenimi pristopi urejanja genomov.
* Koliko člankov objavljenih med letoma 2022 in 2024 vsebuje v naslovu besedo *CRISPR* (vključno z navedenima letoma)?
* Koliko člankov, katerih besedilo je prosto dostopno, pa vsebuje besedo *cas9*?

3. Iskani protein je večdomenski. Za aktivacijo in opravljanje svoje funkcije mora tvoriti kompleks z gRNA (vodilno RNA). Ta je sestavljena iz dveh RNA molekul: tracrRNA ("trans-activating crRNA") in crRNA, ki omogočata prepoznavo tarčnega zaporedja. Poleg tega pa vsebuje še domene za vezavo tarčne DNA ter nukleazne domene.
* Katere izmed domen zgornjega proteina so nukleazne? Zapiši njihova imena ter katere aminokislinske ostanke zajemajo.
* Kateri aminokislinski ostanki so v aktivnem mestu nukleaznih domen?
* Katera molekula inhibira nukleazno aktivnost?
* Katere sekundarne strukture so prisotne v strukturi HNH domene (namig: uporabi [InterPro](https://www.ebi.ac.uk/interpro/))?

4. Poišči iskani protein pri vsaj še desetih drugih organizmih ter s pomočjo poravnave več zaporedij odgovori na spodnja vprašanja:
* Zakaj je v poravnavi prisotnih toliko vrzeli in nepodobnih delov?
* Katere domene oz. aminokislinski ostanki so najbolj ohranjeni in zakaj?

5. Za pravilno delovanje proteina je ključnega pomena njegova struktura. Ko proučevani protein tvori kompleks z gRNA, pride do konformacijskih sprememb, ki omogočajo njegovo aktivacijo.
* Poišči strukturi proteina brez dodanih ligandov ter v kompleksu z vodilno RNA in tarčno DNA. Kakšni sta njuni PDB kodi?
* S katero metodo so določili ti dve strukturi?
* Kateri ekspresijski sistem so uporabili za določanje strukture proteina?
* Kateri del strukture omogoča vezavo RNA molekul?







