VK Lars Arvestad 2004-02-20 A NADA Lösningsförslag, extenta 1 En del lösningar här nedan är mycket knapphändiga och kortfattade. Ni måste var utförligare för att vara säkra på att få full poäng! 1. Duplikationer är märkta med ’X’ i trädet nedan. Detta är alternativet med minst antal duplikationer: 4 st. Det måste ha varit en genförlust eftersom det finns en ’human4’ som grenat av innan gorillagenerna, och ingen ortolog till ’human4’ är hittad hos gorilla. human 1--| X--| human 2--| | X--| human 3-----| | |--| gorilla 1--| | | X---| X-gorilla 2--| | | human 4-----------| 2. Metoderna är inte byggda för TM-proteiner med deras speciella struktur. Tex tar de inte hänsyn till den sk ’positive-inside rule’. Deras parametrar är inte heller skattade med avsikt på just TM-proteiner, utan är mer generella. 3. Introner hos eukaryoter. Prokaryoter har mycket tätare med gener. Transkriptionsfaktorer. 4. En ORF är en serie med codon mellan två stopp-codon. En gen är dels uppdelad i exoner och kan därför inte hittas bara genom titta efter ORFar, dels kan exoner vara mycket korta och det är svårt att skilja ut om en ORF är en gen eller bara en ren slumphändelse. 5. SwissProt är en välannoterad och kurerad databas och är därför mer informativ än EMBL. PDB är också mycket väl underhållen, men har ett relativt litet antal sekvenser eftersom den först och främst lagrar struktuer. 6. Man kan använda PSI-blast till att hitta homologer med känd struktur. Om ditt protein tillhör en familj utan bestämd struktur så hjälper inte homologisökningar. 7. Givet likhet med en viss score mellan din söksekvens och en databas uttrycker E-värdet hur många träffar med samma eller högre score du kan förvänta dig om sökte i samma databas med en ren slumpsekvens. P-värdet uttrycker sannolikheten för att du får samma score eller bättre. E-värdet (och p-värdet om det presenteras) hjälper dig att utvärdera om du ska tro att likheten beror på homologi eller slump. 8. När du gör en global linjering tvingar du hela sekvenserna att linjeras mot varandra. Med en lokal linjering letar du bara efter en delsträng i vardera sekvensen som kan linjeras till en så hög positiv score som möjligt. 9. På grund av det som kallas multi-domänproblemet: Två proteiner som har domäner från samma familj kan tex ha andra domäner från olika familjer. Att försöka linjer två sådana proteiner globalt ger dåliga resultat. 1