Protein Sequence Prediction Evaluator
Department of Mathematics and Computer Science
Projekt-beskrivelse
Der findes mange metoder til at evaluere forudsigelser af proteiners sekundære struktur, f.eks.
- Q-score: Det procentvise antal aminosyrer, som blev forudsagt korrekt
- SOV (Segment OVerlap): Et tal, som beregnes ud fra en kompliceret formel i et forsøg på at måle, ikke blot hvor tit der er gættet rigtigt, men også hvor sammenhængende gættene er
- Matthews korrelations-koefficient
Dette projekt går ud på at implementere en ny metode til at evaluere kvaliteten af forudsigelser af proteiners sekundære struktur. Metoden kan ses om en udvidelse af begrebet "confusion matrix", som er en 3 x 3 matrice, hvor rækkerne svarer til de tre struktur-elementer α-helix (H); β-strand (E), coil (C) i den virkelig struktur, og søjlerne svarer til H, E, C i den forudsagte struktur. Hvert felt i matricen deles op i fem underfelter: "udvidelse", "forkortelse", "bro", "hul" og "andet". I eksemplet nedenfor vil position 5 f.eks. svare til "udvidelse" i feltet (virkelig: C, forudsagt: H), og position 12-13 svarer til "bro" i feltet (virkelig: C, forudsagt: E).
forudsagt: HHHHHCCEEEEEEEEE virkelig: HHHHCCEEEEECCEEE 1234567890123456
Metoden kan implementeres vha. en tilstandsmaskine, som læser forudsagt og virkelig struktur samtidigt. Metoden skal anvendes på forudsigelser af forskellige protein-strukturer, f.eks. fra de to familier cytokiner og chymotrypsiner. Resultaterne sammenlignes med de tilsvarende SOV-resultater for at undersøge, om den nye metode giver mere anvendelig information.
Rapport and implementation
- Evaluating protein secondary structure predictions - the rapport
- JavaDoc for using the application
- Source code for application