VK Lars Arvestad 2004-02-24 A NADA Lab 4: Annoteringsprojekt Introduktion Den här labben har formen av ett mini-projekt där ni ges ett antal sekvenser som ni ska ta annotera, dvs ta fram så mycket information ni kan om dem, och sedan skriva en liten rapport som har formen av en vetenskaplig artikel. Scenariot är att ni har deltagit i ett EST-projekt för kyckling och att ni är givna så kallade transcripts, dvs EST-sekvenser som har satts grupperats efter överlapp och sedan satts ihop för approximera cDNA för en gen. Varje grupp får en egen uppsättning gener. Program Det kan vara bra att veta att Blast kan användas för mer än att jämföra proteinsekvenser med en proteindatabas. Det du gör är att välja vilket program som blastall ska använda. Det generalla förfarandet är blastall -p blastprogram -d databasnamn -i infil -o utfil Du väljer blastprogram enligt följande: blastp Frågesekvenser är protein, databas innehåller proteiner. blastx Frågesekvenser är DNA, databas innehåller proteiner. blastn Frågesekvenser är DNA, databas innehåller DNA. tblastn Frågesekvenser är protein, databas innehåller DNA. tblastx Frågesekvenser är DNA och databas innehåller DNA, men vi vill jämföra som proteiner och använder bästa översättningen av både fråge- och databas-sekvenser. Det kan vara bekvämt och enkelt att leta upp databaser på WWW som erbjuder sökmöjligheter. NCBI erbjuder tex Blast mot olika databaser. På Nadas datorer kommer ni åt följande databaser: sprot Proteindatabasen SwissProt. britchick De sekvenser ni fått är tagna från en samling EST:er framtagna av ett Brittiskt forskarlag. För att använda fastacmd på den här databasen, tex från en Blast-träff med identifieraren gnl|bl\_ord\_id|100053, måste man skriva fastacmd -d britchick -s "gnl|bl\_ord\_id|100053" 1 Märk att ni har fått DNA-sekvenser som kan vara bra att översätta till aminosyrasekvenser. För detta har ni tidigare använt transeq. Genom att ge väljarna -2 eller -3 kan man få det programmet att översätta med start på andra eller tredje basen också! Det kan vara bra eftersom man i en EST inte vet var en gen startar: Det kan vara mitt i den kodande regionen, men det kan också vara en bit tidigare, i en UTR, untranslated region. Samma sajt som erbjuder SwissProt har också en webbaserad tjänst1 som gör översättning. Där får man resultatet i sex läsramar: Tre framåt, från 5’-änden, och tre bakåt, från 3’-änden, men de senare ska inte behövas. Uppgift Alla registrerade till kursen, med undantag från några som började på labben tidigt, har fått ett mejl med en länk till de sekvenser som ska användas. Hör av er om det är några problem med att komma åt dem! Ta fram så mycket information ni kan om de givna sekvenserna. Det kan var homologi, struktur, fylogenetiskt sammanhang, genstruktur, mm. Kom ihåg att sekvenserna med all sannolikhet är ofullständiga, och det kanske bara är en liten del av sekvensen som faktiskt kodar för en gen. Använd gärna olika tjänster som ni kan hitta på WWW. Titta på tex Ensembl2 , PubMed3 , SwissProt4 , olika proteinstrukturprediktorer, och motiv-databaser. Vad har du hittat i kursboken som verkar intressant? Använd gärna Google eller liknande för att hitta information och tjänster. När du är nöjd skriver du en rapport på engelska eller svenska som ska innehålla Abstract, Introduktion, eventuellt Materials and methods, Results och Discussion. De sista två kan eventuellt kombineras. Om man använt olika tjänster och databaser som inte är välkända, eller om man har råkat på litteratur om generna, är en referenslista på slutet ett måste. Skriv kort och koncist och ta gärna med beskrivande bilder. Skriv i rapporten vilket nummer (se länken i brevet: i ’gallusX.fa’ är X ert nummer) på datasetet så att det är lätt att dubbelkolla era resultat! En skriftlig version av rapporten ska lämnas in. Handskrivna rapporter godkänns ej. Om rapporten lämnas in före tentamen kan betyget på rapporten dra upp betyget på tentan: Om betyget på rapporten är högre än betyget på tentan blir kursbetyget ett steg högre än tentabetyget, men högst 5. 1 http://www.expasy.org/tools/dna.html 2 http://www.ensembl.org 3 http://www.ncbi.nlm.nih.gov/PubMed/ 4 http://www.expasy.org/sprot/ 2