Zanimivosti#

Nekaj zanimivosti s področja bioinformatike, Za nekatere od njih bi lahko celo rekli “Saj ni res, pa je!”.

Excel rad preimenuje gene#

Imena genov so oblikovana v skladu z nomenklaturo, pri tem pa obstajajo za posamezne organizme ali skupine organizmov posebna pravila. Na primer, za pravila za oblikovanje imen za človeške gene so drugačna od pravil za poimenovanje genov pri Drosophili melanogaster. Na splošno kombinacijo črk in številk, pri genih, ki kodirajo za proteine, gre pogosto kar za kratico za ta protein (npr. zapis za človeški protein EpCAM nosi gen EPCAM, za poenoto 4 človeške DNA polimeraze epsilon (DNA polymerase epsilon subunit 4) pa gen DPOE4). Do sem je vse enostavno, težava pa se je pojavila, ko so raziskovalci imena genov vnašali v celice v programu Microsoft Excel. Imena nekaterih genov je namreč slednji zmotno prepoznal kot datume, najbolj znana primera sta SEPT2 (gen za septin 1) ter MARCH1 (Membrane-Associated Ring Finger (C4HC4) 1), ki ji je Excel samovoljno spremenil v “2. september” in “1. marec”. Težava pa ni bila samo pri imenih genov temveč tudi pri nekaterih identifikacijskih kodah zapisov v zbirkah. En tak nesrečni primer je koda 2310009E13, ki je bila prepoznana kot decimalno število \(2.31 \times 10^{19}\) (2.31E+19). Tovrstna problematika je podrobneje opisana v članku iz leta 2016 avtorjev Ziemann, Eren in El-Osta z naslovom Gene name erros are widespread in the scientific literature, od koder so povzeti tudi zgoraj navedeni primeri.

Dokončen popravek je prišel šele 19. oktobra 2023, ko je Microsoft objavil spremembe v nastavitvah za avtomatsko pretvorbo podatkov.

Napaka v matriki zamenjav BLOSUM62 izboljša iskanje#

Matrika zamenjav BLOSUM62 je bila opisana v letu 1992 (članek Amino acid substitution matrices from protein blocks v PNAS avtorjev Henikoff in Henikoff), leta 2008 pa so Styczynski in sodelavci opisali napako v programu (članek BLOSUM62 miscalculations improve search performance), uporabljenem za izračun matrike, zaradi katere so matrike, ki so bile v uporabi, vsebovale vrednosti, drugačne od tistih, ki bi sicer bile izračunane po algoritmu Henikoffa. Te sicer napačno izračunane matrike so bile v uporabi kar 15 let in so se presenetljivo izkazale kot boljše od pravilno izračunanih matrik. Na novo izračunana in napačno izračunana matrika se razlikujeta v približno 15 % vrednosti, napačno izračunana matrika pa je v poravnavah dveh zaporedij po algoritmu Smith-Waterman ter pri hevrističnem iskanju oddaljenih homologov z BLAST bila nekoliko boljša od pravilno izračunane, npr. pri BLAST je bila pri napačno izračunani matriki vrednost EPQ nižja (errors-per-query, ki predstavlja delež zaznanih nehomolognih proteinov glede na vse zaznane proteine med zadetki iskanja, merilo za homologijo pa je bilo določeno glede na strukturno klasifikacijo proteinov SCOP). Problem je bil kasneje še večkrat naslovljen, na primer v članku Addressing inaccuracies in BLOSUM computation improves homology search performance v BMC Bioinformatics avtorja Hess in sodelavcev leta 2016.