S28#

  • Avtor: Jasna Čarman

  • Datum izdelave: 2024-05-17

  • Koda seminarja: S28


Vhodni podatek#

Povezava do datoteke z vhodnim podatkom: S28


Rezultati analiz#

IME, VELIKOST IN IZVORNI ORGANIZEM PROTEINA#

ime: hipotetični protein ASZ90_018747, hidrolaza iz HAD naddružine (GenBank: KUG03850, UniProt: A0A0W8E5A1)

velikost: 274 aminokislinskih ostankov

izvorni organizem: ogljikovodični metagenom (hydrocarbon metagenome), podobne proteine - fosfataze najdemo v bakteriji Escherichia coli in v organizmu Thermotoga maritima

Potek analize:#

Nukleotidno zaporedje plazmidnega konstrukta, ki je dolgo 3558 nukleotidov, sem razdelila na 10 krajših fragmentov. Za vsak fragment posebej sem nato s spletnim orodjem BlastX poiskala proteine s podobnimi nukleotidnimi zaporedji. Ker se raziskovalna skupina ukvarja z metagenomiko, sem podobne proteine iskala po zbirki Metagenomic proteins(env_nr). Med najdenimi podobnimi proteini, sem v več regijah našla neimenovane proteinske produkte iz metagenomov morskih sedmentov. Nekatere regije so pokazale podobnost s proteinom betalaktamazo, ki omogoča odpornost na antibiotike. Zapis za ta protein je primarno del klonirnega vektorja pUC57, zato ga nisem obravnavala kot vključek. Nekje v sredini zapisa za plazmidni konstrukt pa najdemo visoko (100,00 %) identičnost in daljši odsek ujemajočega se zaporedja (99 %).

segment plazmidnega konstrukta 4

segment plazmidnega konstrukta 5

segment plazmidnega konstrukta 6

Ta fragment plazmidnega konstrukta se ujema z zapisom za hipotetični protein ASZ90_018747, ki je del ogljikovodičnega metagenoma, ki so ga izolirali iz jarka, onesnaženega z ogljikovodiki. Na GenBanku preberemo, da se podobni proteini nahajajo v bakteriji Escherichia coli (protein Cof) in v organizmu Thermotoga maritima (protein TM0651). Iz podatkov v GenBanku pa preberemo še, da je protein dolg 274 aminokislinskih ostankov.

GenBank zapis za hipotetični protein ASZ90_018747 1

GenBank zapis za hipotetični protein ASZ90_018747 2


LOKALIZACIJA#

lokacija: citosol (predvidena lokacija glede na nahajanje podobnih proteinov)

Potek analize:#

Informacije o proteinih, kot je lokacija proteina v celici, se navadno nahajajo v zbirki UniProt. Vendar pa ima hipotetični protein ASZ90_018747 v tej zbirki zelo malo anotacij. Informacijo o tem, kje v celici se nahaja, lahko dobimo le tako, da ugotovimo, kje se nahajajo podobni proteini. Nekaj podobnih proteinov najdemo že v UniProt na dnu zapisa (50 % identičnost), vendar so tudi anotacije teh proteinov tako pomanjkljive, da moramo poiskati podobne proteine z anotiranimi zapisi v Uniprot.

podobni proteini

Za to iskanje uporabimo orodje BlastP. Iščemo torej aminokislinska zaoredja, ki so podobna hipotetičnemu proteinu ASZ90_018747. Iz zbirke UniProt prenesemo aminokislinsko zaporedje preiskovanega proteina v fasta formatu v orodje BlastP. Preden zaženemo iskanje, nastavimo iskanje po zbirki UniProtKB/Swiss-Prot, ki vsebuje le pregledane, bolje anotirane zapise.

podobni anotirani, pregledani proteini

Kot rezultat dobimo več proteinov, s sicer manjšim deležem identičnosti, ki pa imajo v zbirki UniProt zapisano lokacijo nahajanja v celici (večina ima zapis za lokacijo, ne pa vsi). Ko s pomočjo zbirke UniProt pregledamo nekaj zadetkov, ugotovimo, da se večina teh proteinov nahaja v citosolu celice. Iz tega lahko sklepamo, da se bo tudi raziskovani protein, ki je tem podoben, nahajal v citosolu.

lokacija proteina v celici


ZGRADBA PROTEINA, FUNKCIJE IN OHRANJENOST REGIJ#

domenska zgradba: HAD Pase domena, ki spada v družino HAD podobnih hidrolaz oziroma med halogenokislinski dehalogenazi podobnih hidrolaz; domena je fosfatazna, podobna Cof proteinu bakterije Escherichia coli in proteinu TM0651 iz organizma Thermotoga maritima

funkcija encima, kofaktor in substrat: defosforilacija (protein je fosfataza), je hidrolaza, ker za odcep fosfatne skupine porabi molekulo vode, kofaktor: magnezijev kation, substrat: najverjetneje sladkorni fosfat (glede na podobne proteine, ki so bolje anotirni)

aktivno mesto in vezavna mesta za substrat in kofaktor: (s številkami so označeni aminokislinski ostanki na Cof proteinu):

  • aktivno mesto: D9

  • vezavno mesto z substrat: T43, G44, K197, N223

  • vezavno mesto za magnezijev kation: D9, D11, D220

Na hipotetičnem proteinu ASZ90_018747 so ti aminokislinski ostanki ohranjeni, kar potrjuje poravnava zaporedja hipotetičnega proteina ASZ90_018747 in proteina Cof iz bakterije Escherichia coli.

poravnava s Cof proteinom

ohranjenost regij: Iz poravnave zaporedja hipotetičnega proteina ASZ90_018747 s konsenznim zaporedjem tovrstne domene v podobnih proteinih ugotovimo, da so ohranjeni aminokislinski ostanki, ki so odgovorni za vezavo substrata in kofaktorja pri podobnem proteinu Cof bakterije Escherichia coli.

weblogo

Na mestih 40 in 42 v konsenznem zaporedju sta ohranjena dva aspartatna aminokislinska ostanka. Ohranjena sta tudi treonin in glicin na mestih 74 in 75. Na 250. mestu konsenznega zaporedja je ohranjen lizinski aminokislinski ostanek. Na mestu 274 v konsenznem zaporedju je ohranjen še en aspartatni aminokislinski ostanek in za tem na mestu 277 še asparaginski. Vsi ti aminokislinski ostanki se nahajajo v aktivnem mestu dobro anotiranega proteina Cof bakterije Escherichia coli in so glede na poravnavo tega proteina s preiskovanim proteinom ohranjeni tudi v preiskovanem proteinu ASZ90_018747.

poravnava s konsenznim zaporedjem

Manj ohranjene regije so na začetne neurejene regije in vmesne regije, ki glede na strukturo preiskovanega proteina sestavljajo zanke in neurejene regije na zunanjosti proteina. Primer take regije je regija med ostanki 15 do 30 (ostanki proteina) oziroma 46 do 61 v konsenznem zaporedju, regija med ostanki 74 in 102 oziroma 107 do 136 v konsenznem zaporedju.

Opomba: V konsenznem zaporedju je več manj ohranjenih regij, a se te pri preiskovanem proteinu ne pojavljajo. Na teh mestih bi lahko v preteklosti prišlo do delecije in so se izgubila. Manj ohranjena mesta se torej nanašajo na regije, ki so prisotne v preiskovanem proteinu.

Potek analize:#

Informacije o domenski zgradbi proteina lahko najdemo v zbirki UniProt, kjer se nahaja povezava do zbirke InterPro, ki skrbi za analizo in klasifikacijo proteinskih domen. Tu ugotovimo, da je protein verjetno hidrolaza iz HAD naddružine in družine Cof. Ugotovimo tudi, da je zgrajen iz ene same večje domene HAD Pase.

domenska zgradba

Ta domena pa je podobna Cof proteinu bakterije Escherichia coli in proteinu TM0651 iz organizma Thermotoga maritima ter spada med halogenokislinski dehalogenazi podobne hidrolze. Poleg tega pa je zapisano tudi, da gre za fosfatazo.

opis domene

Da bi ugotovili še funkcijo proteina, moramo ponovno uporabiti informacije o sorodnih proteinih. Iz identifikacije domene vemo, da gre verjetno za fosfatazo. Kot kofaktor encim verjetno uprablja magnezijev kation, saj je ta v UniProtu zapisan kot kofaktor več podobnih proteinov. Substrat tovrstnih encimov pa je navadno sladkorni fosfat, kar prav tako razberemo iz zapisa na InterPro.

Če protein poravnamo s Cof proteinom iz bakterije Escherichia coli (postopek poravnave v naslednjem poglavju), ugotovimo, da so ohranjena vsa (razen enega) vezavnega mesta za substrat in kofaktor magnezijev kation, ohranjeno pa je tudi aktivno mesto. Seveda pa je pomembno tudi dejstvo, da zgolj s primerjavo z enim proteinom, ne moremo potrditi, da so ta mesta v preiskovanem proteinu dejansko vezavna mesta oziroma aktivno mesto.

Nazadnje sem določala še ohranjenost regij v tem proteinu. Da bi to ugotovila, sem primerjala, kateri aminokislinski ostanki so ohranjeni pri podobnih proteinih, ki imajo enako domeno kot hipotetični protein ASZ90_018747. Odločila sem se, da bom zaporedje hipotetičnega proteina ASZ90_018747 primerjala s konsenznim zaporedjem tovrstne domene. Z orodjem PsiBlast sem najprej poiskala več zaporedij, ki so podobna zaporedju hipotetičnega proteina ASZ90_018747. PsiBlast ustvari lastno matriko za iskanje zaporedij (glede na najdena podobna zaporedja). S tem lahko delno zagotovimo, da bodo imeli tudi proteini, ki jih program najde, podobna ohranjena mesta kot protein ASZ90_018747.

psiblast - ohranjenost regij

V PsiBlastu sem izvedla 3 iteracije, nato pa zaporedja najdenih proteinov prenesla v orodje Cobalt in tam naredila poravnavo večih zaporedij.

poravnava večih zaporedij

To poravnavo sem nato uporabila za izdelavo logotipa sekvenc, za kar sem uporabila orodje WebLogo. Ohranjenost regij in ostankov v teh podobnih proteinih pa sem nato želela direktno primerjati s hipotetičnim proteinom ASZ90_018747.

Iz poravnave, ki jo je izračunal program Cobalt, sem v orodje EMBOSS Cons prenesla datoteko fasta plus gaps, orodje pa je iz poravnave večih zaporedij ustvarilo konsenzno zaporedje.

konsenzno zaporedje

To konsenzno zaporedje sem nato z EMBOSS Water poravnala z zaporedjem hipotetičnega proteina ASZ90_018747. In primerjala ohranjene regije. Ugotovila sem, da so dobro ohranjena prav mesta, za katere sem domnevala, da so aktivno in vezavna mesta.


POST-TRANSLACIJSKE MODIFIKACIJE#

post-translacijske modifikacije: niso bile najdene (tudi ne pri sorodnih proteinih)

Potek analize:#

V večini primerov proteini, ki so podobni hipotetičnemu proteinu ASZ90_018747 nimajo posebnih post-translacijskih modifikacij, ali pa te vsaj še niso raziskane in zapisane v zbirki UniProt. Med pregledovanjem teh podobnih proteinov sem pri nekaterih zasledila posamezen disulfidni mostiček (na primer pri proteinu TM0651 iz organizma Thermotoga maritima), a večina ni imela niti tega. Vseeno sem se odločila preveriti ohranjenost tega disulfidnega mostička. Poravnala sem protein ASZ90_018747 in proteinu TM0651 in ugotovila, da cisteina (C35 in C265 na TM0651) v proteinu ASZ90_018747 nista ohranjena. (prikaz poravnave - v naslednjem poglavju)

posttranslacijske modifikcije sorodnega proteina


SORODNI PROTEINI#

sorodni proteini: protein iz družine HAD fosfataz iz Syntrophomonadaceae bacterium (največji odstotek identičnosti), Cof protein bakterije Escherichia coli in protein TM0651 iz organizma Thermotoga maritima (najbolj podobna pregledana proteina, verjetno podobna tudi funkcijsko, v GenBanku sta omenjena kot podobna proteina)

poravnave s sorodnimi proteini:

  • poravnava s proteinom iz družine HAD fosfataz Syntrophomonadaceae bacterium:

poravnava s proteinom iz družine HAD fosfataz

  • poravnava s Cof proteinom bakterije Escherichia coli:

poravnava s Cof proteinom

  • poravnava s proteinom TM0651 iz organizma Thermotoga maritima:

poravnava s proteinom TM0651

filogenetsko drevo:

Filogenetsko drevo prikazuje povezavo med proteini, ki so podobni hipotetičnemu proteinu ASZ90_018747. Protein, ki ga raziskujem je označen z velikimi tiskanimi črkami in je najbolj soroden proteinom iz družine HAD fosfataz.

filogenetsko drevo

podobni evkariontski proteini:

  • nekateri primeri: sladkorna fosfataza YidA iz žuželke Culicoides impunctatus, hipotetični protein BSKO_11483 iz rodu zelenih alg Bryopsis in domnevna fosfataza M6_Spy0533 iz spužve Geodia barretti

  • nekateri bolje anotirani primeri: predvidena fosfoserin fosfataza iz kvasovke Schizosaccharomyces pombe, fosfolipid transportna ATPaza dnf2 iz kvasovke Schizosaccharomyces pombe, fosfolipid transportna ATPaza iz črva Caenorhabditis elegans

Potek analize:#

Sorodne proteine sem našla s pomočjo orodja BlastP, v katerega sem vnesla zaporedje hipotetičnega proteina ASZ90_018747. Največji odstotek identičnosti (71,59 %) sem dobila pri proteinu HAD fosfatazne družine iz Syntrophomonadaceae bacterium.

podobni proteini

Podobne proteine, ki pa so v zbirkah pregledani in vsebujejo enako domeno, pa sem pri našla z orodjem BlastP, ko sem iskala po zbirki UniProtKB/Swiss-Prot, ki vsebuje le pregledane, dobro anotirane zapise. Kot podobne proteine je program našel več domnevnih fosfataz in protein YidA (Cof protein bakterije Escherichia coli).

podobni anotirani, pregledani proteini

Z orodjem EMBOSS Water lahko naredimo lokalno poravnavo zaporedij. Program je izračunal poravnave zaporedja preiskovanega proteina s proteinom Cof, proteinom TM0651 in s proteinom iz družine HAD fosfataz.

Z orodjem Clustal Omega sem izvedla poravnavo večih zaporedij. Pri tem sem uporabila zaporedja nekaj podobnih proteinov iz različnih organizmov v fasta formatu. Vključila sem tako najbolj podobne proteine, kot tudi tiste, ki so podobni in imajo hkrati pregledane zapise v UniProt.

poravnava večih zaporedij

Iz rezultatov poravnave sem prenesla podatke za izris filogenetskega drevesa v orodje beta.phylo.io, ki je izrisalo filogenetsko drevo. Kot najbolj podoben oziroma najbolj soroden se je izkazal protein iz družine HAD fosfataz.

Da bi našla podobne evkariontske proteine, sem ponovno uporabila BlastP. Podobno kot prej, sem vnesla aminokislinsko zaporedje hipotetičnega proteina ASZ90_018747, le da sem tokrat nastavila iskanje med evkariontskimi proteini (organism: Eucaryotes (taxid:2759)).

podobni evkariontski proteini

Za najbolj podobne evkariontske proteine so se izkazali sladkorna fosfataza YidA iz žuželke Culicoides impunctatus, hipotetični protein BSKO_11483 iz rodu zelenih alg Bryopsis in domnevna fosfataza M6_Spy0533 iz spužve Geodia barretti.

Ker o teh proteinih ni veliko znanih informacij, sem analizo izvedla ponovno in tokrat med evkariontskimi proteini iskala tiste, ki imajo pregledane zapise (zbirka UniProtKB/Swiss-Prot). Pri tem sem prag nastavila na 100, sicer sem dobila le 1 rezultat.

podobni pregledani evkariontski proteini


INTERAKCIJE#

interakcije: glede na interakcije podobnih proteinov in njegovo potencialno funkcijo verjetno tvori interakcije z drugimi encimi, ki sodelujejo v presnovi sladkorjev

Potek analize:#

Ker je protein ASZ90_018747 slabo anotiran in nima zapisov o interakcijah, sem si pri obravnavi interakcij pomagala z njemu najbolj podobnim anotiranim proteinom, ki pa je protein Cof iz bakterije Escherichia coli. Preko zbirke UniProt sem pri opisu njegovih interakcij našla povezavo do zbirke proteinskih in drugih interakcij med molekulemi BioGRID.

BioGRID interakcije

Interakcije proteina Cof

Ugotovila sem, da protein Cof v bakteriji Escherichia coli tvori interakcije s kriptično fosfobetaglukozidazo, ribonukleazo G, galaktoza-1-fosfat uridililtransferazo, s podenoto poliamin transporterja, dehidratazo, rRNA metilazo in več drugimi. Ker ima ta protein funkcijo defosforilacije sladkorja, sem predvidevala, da bi morda tudi preiskovani protein lahko imel to funkcijo in posledično interagiral s kakšnim drugim encimom, ki sodeluje v metabolizmu sladkorjev.

Podobni evkariontski proteini, ki imajo v zbirkah pripisane informacije o interakcijah z drugimi molekulami, imajo funkcije, ki so med drugim povezane s transportom fosfolipidov. Temu ustrezno so tudi njihove interakcije drugačne. Povezujejo se z drugimi kinazami in transporterji.


MODEL STRUKTURE#

model strukture:

model strukture proteina, obarvanost N --> C koncu

model strukture s prikazanim aktivnim mestom:

  • rdeča: aktivno mesto

  • vijolična: vezavna mesta za kofaktor magnezijev kation

  • rumena: vezavna mesta za substrat

model strukture s prikazanim aktivnim mestom

superpozicija s podobnimi proteini:

superpozicija s proteinom Cof bakterije Escherichia coli:

  • vijolično: z X-žarkovno kristalografijo določen model strukture proteina Cof

  • zeleno: AlphaFold model strukture hipotetičnega proteina ASZ90_018747

superpozicija Cof

Modela struktur teh dveh proteinov se zelo dobro ujemata, iz česar lahko sklepamo, da imata podobno funkcijo (defosforilacija) in podobno aktivno mesto. Prav tako pa bi lahko imela proteina podoben substrat (sladkorni fosfat). Pri tem pa ne smemo pozabiti, da je struktura protein, ki ga preučujemo le računalniško napovedana in ne eksperimentalno potrjena.

superpozicija s proteinom TM0651 iz organizma Thermotoga maritima:

  • rumeno: z X-žarkovno kristalografijo določen model strukture proteina TM0651

  • zeleno: AlphaFold model strukture hipotetičnega proteina ASZ90_018747

superpozicija TM0651

Proteina sta si sicer strukturno zelo podobna, a so ponekod nekatere zanke na drugačnih mestih. Proteina zavzemata nekoliko drugačno konformacijo in razdalje med posameznimi deli strukture so različne.

superpozicija s proteinom BSKO_11438 iz rodu zelenih alg Bryopsis:

  • rumeno: AlphaFold model strukture hipotetičnega proteina BSKO_11438

  • zeleno: AlphaFold model strukture hipotetičnega proteina ASZ90_018747

superpozicija BSKO_11438

Strukturi proteinov sta si sicer podobni, vendar glede na to, da sta si proteina že v osnovi podobna (zato sem ju izbrala za superpozicijo) in glede na to, da sta oba modela struktur narejena s pomočjo orodja AlphaFold3, smo to lahko tudi že prej predvidevali. V modelih opazimo, da se sekundarne strukture precej ujemajo, morda so le nekoliko razmaknjene. Več razlik pa je v končnih neurejenih regijah.

Potek analize:#

Model strukture hipotetičnega proteina ASZ90_018747 ni eksperimentalno določen. Strukturo lahko predvidimo le z uporabo orodij kot je AlphaFold. Model strukture program AlphaFold3 izdela na podlagi aminokislinskega zaporedja proteina in že poznanih, eksperimentalno določenih modelov struktur.

model strukture hipotetičnega proteina ASZ90_018747

Sicer pa se z AlphaFoldom predviden model strukture nahaja že v zbirki UniProt.

Model strukture, ki ga je predvidil program AlphaFold3, sem prenesla in odprla v orodju MolStar Viewer. Tam sem protein obarvala glede na potek polipeptidne verige (N–>C), nato pa na njem označila še aktivno mesto, vezavna mesta za magnezijev kation in vezavna mesta za substrat.

Za poravnavo preiskovanega proteina s podobnimi proteini sem uporabila orodje MolStar Viewer, ki omogoča, da v programu odpremo več kot eno strukturo in ju nato z ukazom superpose strukturno poravnamo. Tovrstno poravnavo sem naredila z več podobnimi proteini, in sicer s TM0651, s proteinom Cof in še z evkariontskim hipotetičnim proteinom BSKO_11483 iz rodu zelenih alg Bryopsis. Strukturo za ta protein sem morala določiti z uporabo programa AlphaFold3, ker nisem našla dovolj podobnega proteina, ki bi imel eksperimentalno določeno strukturo.