NetSolP - topnost proteinov#

Avtorja: Pia Trošt, Tina Zajec

Datum predstavitve: 2022-04-20


Namen vaje#

Izražanje proteinov v sistemu E. coli za potrebe biotehnologije, farmacevtske industrije in zadnje čase vse bolj tudi medicine, je zaradi enostavnosti, cenovne ugodnosti in predvsem hitrosti postalo precej priljubljeno. Pogosto pa napačno zvitje in tvorba inkluzijskih telesc, onemogočajo in močno zmanjšujejo izkoristek takšne proizvodnje. V namen povečanja topnosti proteinskih produktov je poleg prilagajanja pogojev eksperimenta precej priročna tudi manipulacija aminokislinskega zaporedja. Pri načrtovanju in optimizaciji le-te, oziroma predvidevanju topnosti proteina na podlagi aminokislinskega zaporedja si lahko pomagamo z obravnavanim programom.


Program#

Program: NetSolP - 1.0

Avtorji programa: Vineet Thumuluri, Hannah-Marie Martiny (Research Group for Genomic Epidemiology, National Food Institute, Technical University of Denmark), Jose J. Almagro Armenteros (Faculty of Health and Medical Sciences, University of Copenhagen), Jesper Salomon (Novozymes A/S), Henrik Nielsen (Department of Health Technology, Technical University of Denmark), Alexander R. Johansen (Department of Computer Science, Stanford University)

Reference:

  • Thumuluri, V.; Martiny, H.M.; Armenteros, J.J.A; Salomon, J.; Nielsen, H.; Rosenberg Johansen, A. (2021) NetSolP: predicting protein solubility in Escherichia coli using language models. Bioinformatics 38, 941–946. 10.1093/bioinformatics/btab801

Opis programa#

Program NetSolP-1.0 s kompleksnim modelom procesiranja naravnega jezika - seveda tukaj prilagojenega na jezik proteinov - iz aminokislinskega zaporedja predvidi topnost in uporabnost proteinov v ekspresijskem sistemu E.coli. Globoko učenje na modelu transformerjev omogoča, da posamezne aminokisline postavi v kontekst celotnega proteina in se tako na tej višji ravni osredotoča na tiste, ki so pomembnejše za določanje topnosti in eksperimentalne uporabnosti našega iskalnega niza. Profil iskalnega niza vzpostavi s primerjavo s podatki iz podatkovnih zbirk na katerih je program “naučen” (podatkovna zbirka PSI: Biology dataset, podatkovna zbirka Price inštituta North East Structural Consortium, zbirka Camsol z eksperimentalnimi podatki o 19 proteinih s 56 mutacijskimi variantami).

Zaradi velike količine podatkov, ki jih program pri svoji izvedbi uporabi in omejitve velikosti transformerskega modela, program naenkrat obravnava zgoj 1022 aminokislin, posledično je njegova napoved boljša in seveda tudi hitrejša za krajše iskalne nize.

Vhodni podatki#

Vhodni podatki so eno ali več aminokislinskih zaporedij v FASTA formatu.