VK
Lars Arvestad
2004-02-24
A
NADA
Lab 4: Annoteringsprojekt
Introduktion
Den här labben har formen av ett mini-projekt där ni ges ett antal sekvenser som ni ska ta
annotera, dvs ta fram så mycket information ni kan om dem, och sedan skriva en liten rapport
som har formen av en vetenskaplig artikel.
Scenariot är att ni har deltagit i ett EST-projekt för kyckling och att ni är givna så kallade
transcripts, dvs EST-sekvenser som har satts grupperats efter överlapp och sedan satts ihop för
approximera cDNA för en gen.
Varje grupp får en egen uppsättning gener.
Program
Det kan vara bra att veta att Blast kan användas för mer än att jämföra proteinsekvenser med en
proteindatabas. Det du gör är att välja vilket program som blastall ska använda. Det generalla
förfarandet är
blastall -p blastprogram -d databasnamn -i infil -o utfil
Du väljer blastprogram enligt följande:
blastp
Frågesekvenser är protein, databas innehåller proteiner.
blastx
Frågesekvenser är DNA, databas innehåller proteiner.
blastn
Frågesekvenser är DNA, databas innehåller DNA.
tblastn
Frågesekvenser är protein, databas innehåller DNA.
tblastx
Frågesekvenser är DNA och databas innehåller DNA, men vi vill jämföra som proteiner och
använder bästa översättningen av både fråge- och databas-sekvenser.
Det kan vara bekvämt och enkelt att leta upp databaser på WWW som erbjuder sökmöjligheter.
NCBI erbjuder tex Blast mot olika databaser. På Nadas datorer kommer ni åt följande databaser:
sprot
Proteindatabasen SwissProt.
britchick
De sekvenser ni fått är tagna från en samling EST:er framtagna av ett Brittiskt forskarlag.
För att använda fastacmd på den här databasen, tex från en Blast-träff med identifieraren
gnl|bl\_ord\_id|100053, måste man skriva
fastacmd -d britchick -s "gnl|bl\_ord\_id|100053"
1
Märk att ni har fått DNA-sekvenser som kan vara bra att översätta till aminosyrasekvenser. För
detta har ni tidigare använt transeq. Genom att ge väljarna -2 eller -3 kan man få det programmet
att översätta med start på andra eller tredje basen också! Det kan vara bra eftersom man i en EST
inte vet var en gen startar: Det kan vara mitt i den kodande regionen, men det kan också vara
en bit tidigare, i en UTR, untranslated region. Samma sajt som erbjuder SwissProt har också en
webbaserad tjänst1 som gör översättning. Där får man resultatet i sex läsramar: Tre framåt, från
5’-änden, och tre bakåt, från 3’-änden, men de senare ska inte behövas.
Uppgift
Alla registrerade till kursen, med undantag från några som började på labben tidigt, har fått ett
mejl med en länk till de sekvenser som ska användas. Hör av er om det är några problem med att
komma åt dem!
Ta fram så mycket information ni kan om de givna sekvenserna. Det kan var homologi, struktur,
fylogenetiskt sammanhang, genstruktur, mm. Kom ihåg att sekvenserna med all sannolikhet är
ofullständiga, och det kanske bara är en liten del av sekvensen som faktiskt kodar för en gen.
Använd gärna olika tjänster som ni kan hitta på WWW. Titta på tex Ensembl2 , PubMed3 , SwissProt4 , olika proteinstrukturprediktorer, och motiv-databaser. Vad har du hittat i kursboken som
verkar intressant? Använd gärna Google eller liknande för att hitta information och tjänster.
När du är nöjd skriver du en rapport på engelska eller svenska som ska innehålla Abstract, Introduktion, eventuellt Materials and methods, Results och Discussion. De sista två kan eventuellt
kombineras. Om man använt olika tjänster och databaser som inte är välkända, eller om man har
råkat på litteratur om generna, är en referenslista på slutet ett måste. Skriv kort och koncist och
ta gärna med beskrivande bilder.
Skriv i rapporten vilket nummer (se länken i brevet: i ’gallusX.fa’ är X ert nummer) på datasetet
så att det är lätt att dubbelkolla era resultat!
En skriftlig version av rapporten ska lämnas in. Handskrivna rapporter godkänns ej.
Om rapporten lämnas in före tentamen kan betyget på rapporten dra upp betyget på tentan: Om
betyget på rapporten är högre än betyget på tentan blir kursbetyget ett steg högre än tentabetyget,
men högst 5.
1 http://www.expasy.org/tools/dna.html
2 http://www.ensembl.org
3 http://www.ncbi.nlm.nih.gov/PubMed/
4 http://www.expasy.org/sprot/
2