VK
Lars Arvestad
2004-02-20
A
NADA
Lösningsförslag, extenta 1
En del lösningar här nedan är mycket knapphändiga och kortfattade. Ni måste var utförligare för
att vara säkra på att få full poäng!
1. Duplikationer är märkta med ’X’ i trädet nedan. Detta är alternativet med minst antal
duplikationer: 4 st. Det måste ha varit en genförlust eftersom det finns en ’human4’ som
grenat av innan gorillagenerna, och ingen ortolog till ’human4’ är hittad hos gorilla.
human 1--|
X--|
human 2--| |
X--|
human 3-----| |
|--|
gorilla 1--|
| |
X---| X-gorilla 2--|
|
|
human 4-----------|
2. Metoderna är inte byggda för TM-proteiner med deras speciella struktur. Tex tar de inte
hänsyn till den sk ’positive-inside rule’. Deras parametrar är inte heller skattade med avsikt
på just TM-proteiner, utan är mer generella.
3. Introner hos eukaryoter. Prokaryoter har mycket tätare med gener. Transkriptionsfaktorer.
4. En ORF är en serie med codon mellan två stopp-codon. En gen är dels uppdelad i exoner
och kan därför inte hittas bara genom titta efter ORFar, dels kan exoner vara mycket korta
och det är svårt att skilja ut om en ORF är en gen eller bara en ren slumphändelse.
5. SwissProt är en välannoterad och kurerad databas och är därför mer informativ än EMBL.
PDB är också mycket väl underhållen, men har ett relativt litet antal sekvenser eftersom
den först och främst lagrar struktuer.
6. Man kan använda PSI-blast till att hitta homologer med känd struktur. Om ditt protein
tillhör en familj utan bestämd struktur så hjälper inte homologisökningar.
7. Givet likhet med en viss score mellan din söksekvens och en databas uttrycker E-värdet hur
många träffar med samma eller högre score du kan förvänta dig om sökte i samma databas
med en ren slumpsekvens. P-värdet uttrycker sannolikheten för att du får samma score eller
bättre. E-värdet (och p-värdet om det presenteras) hjälper dig att utvärdera om du ska tro
att likheten beror på homologi eller slump.
8. När du gör en global linjering tvingar du hela sekvenserna att linjeras mot varandra. Med
en lokal linjering letar du bara efter en delsträng i vardera sekvensen som kan linjeras till en
så hög positiv score som möjligt.
9. På grund av det som kallas multi-domänproblemet: Två proteiner som har domäner från
samma familj kan tex ha andra domäner från olika familjer. Att försöka linjer två sådana
proteiner globalt ger dåliga resultat.
1