Metoder och redskap för framtagning av webbstatistik för BIBSAM Ulf Kronman, Karolinska Institutets Bibliotek. 2002-09-12. Denna handbok riktar sig främst till forskningsbibliotekens webbtekniker. Den föreslår några metoder för insamlingen av de olika statistikuppgifter som ingår i den nationella forskningsbiblioteksstatistiken och diskuterar i slutet några redskap som kan vara lämpliga för statistikbearbetningen. För att få ett underlag för att diskutera lämpliga metoder för statistikframtagning börjar vi med en kort genomgång av hur webben fungerar. Tekniken bakom World Wide Web Tekniken bakom webben är i grund och botten enkel: En transaktion börjar med att ett webbläsarprogram kontaktar en webbserver och sänder en förfrågan om ett dokument. Webbservern kontrollerar om dokumentet finns på webbplatsen, svarar på webbläsarens förfrågan och levererar sedan dokumentet till webbläsaren. Efter detta kopplas nätverksförbindelsen mellan webbläsare och webbserver ned. Efter att transaktionen är klar finns en kopia av webbsidan på den dator som webbläsaren befinner sig på. Det är alltså den lokalt lagrade sidan som besökaren på webbplatsen läser och har som utgångspunkt om han letar efter länkar för att sända en förfrågan om en ny sida till en webbserver. Bild 1 visar hur en sådan förfrågan och överföring går till. Bilden visar också att webbservern skriver en rad i en transaktionslogg för varje förfrågan och datafil som levereras till webbläsaren. Bild 1. Tekniken bakom World Wide Web HTTP – hypertext transport protocol Webbläsarens förfrågningar och webbserverns svar och dokument sänds över nätet med hjälp av Internet-protokollet TCP/IP och webbens eget protokoll HTTP – Hypertext 1 (1) Transport Protocol. HTTP är vad man kallar ett tillståndslöst (stateless) protokoll. Det innebär att inga kopplingar mellan webbläsare och webbserver – sessioner – bevaras efter att en webbsida har levererats till webbläsaren. Tekniskt sett existerar det alltså inte något sådant som ett "besök" på webben. Det är denna brist på sessioner som är ett grundläggande problem för insamlingen av uppgifter om besök på en webbplats. Webbsidornas uppbyggnad En webbsida är en datafil som innehåller text i form av HTML-direktiv. Direktiven styr hur webbläsaren ska presentera sidan. Om man vill ha något annat än text på sidan måste man anropa en separat datafil för varje element som ska infogas på sidan. På så vis infogas till exempel bilder med HTML-direktivet <img src="…">. Bild 2 visar exempel på HTML-kod med några direktiv för att infoga en stilmall, ett JavaScript och några bilder. Bild 2. En webbsidas uppbyggnad Webbserverns transaktionslogg För varje del av en webbsida som webbservern levererar till en webbläsare skriver den en rad i sin transaktionslogg. Det är vanligen denna transaktionslogg som ligger till grund för insamlingen av statistik från en webbplats. Oftast görs analysen med ett separat program som läser transaktionsloggen och översätter uppgifterna i den till meningsfull information. Resultatet presenteras sedan direkt i analysprogrammet, på en webbsida, i en textfil eller som ett ordbehandlings- eller kalkyldokument. Common Log File Format Det första gemensamma formatet för webbservrarnas transaktionsloggar som skapades kallas Common Log File Format (CLF). Bild 3 visar vilka uppgifter som lagras i denna enkla typ av transaktionslogg. 2 (2) Bild 3. Transaktionslogg i Common Log File Format. W3C Extended Log File Format År 1996 utfärdade webbkonsortiet W3C en rekommendation för ett utbyggbart loggformat kallat W3C Extended Log File Format. I detta loggformat kan webbmastern bestämma vilka uppgifter som ska finnas i webbserverns transaktionslogg och i vilken ordning på raden de ska placeras. Det görs genom att transaktionsloggen inleds med en rad med formatdirektivet #Fields:, se bild 4. Bild 4. Transaktionslogg i W3C Extended Log File Format. Nytillkomna uppgifter i jämförelse med Common Log File Format är markerade med fetstil. I skrivande stund år 2002 verkar det endast vara Microsofts webbserver Internet Information Server (IIS) som kan generera transaktionsloggar i W3C Extended Log File Format. Apache, som är den vanligaste webbservern, använder sig tyvärr fortfarande av Common Log File Format, eller en egen utvidgad variant av detta. 3 (3) Cookies används för att skapa sessioner För att försöka råda bot på bristen på besökarsessioner i HTTP har man infört en teknik som kallas cookies. En cookie är en liten textfil som levereras från webbservern till webbläsaren första gången den hämtar en sida från en webbplats. Vid varje efterkommande anrop till webbplatsen skickar webbläsaren sedan med denna cookie tillsammans med anropet. På så vis kan man åstadkomma en unik identifiering av en specifikt webbläsarprogram. En cookie gör alltså att man kan avläsa en slags "session" mellan en webbläsare och en webbserver genom att studera de datafiler som i följd har levererats till en specifik webbläsare. Cookies möjliggör också identifiering av webbläsare bakom brandmurar och proxyservrar, eftersom de är kopplade till webbläsaren snarare än datorns IP-adress som ju inte syns för datorer bakom en proxyserver. Mer om brandmurar och proxyservrar senare. För att kunna utnyttja cookies för identifiering av webbläsare på sin webbplats krävs någon form av programmering. Det vanligaste är att man använder sig av så kallade dynamiska webbsidor, programmerade med JavaScript, ASP, PHP, JSP, Perl eller Cold Fusion. Vissa leverantörer av analysprogram tillhandahåller insticksprogram som man kan installera på sin webbserver för att kunna generera cookies för att identifiera besökarnas webbläsare i samband med analysen av loggfilen. Komplikationer i webben Innan vi kan börja reda ut begreppen kring frågorna om besökare, besök och sidleveranser är det några fler komplicerande faktorer på webben som vi behöver belysa. Det handlar om mellanlagring av webbsidor i det som kallas fil-cache och proxy-servrar som gör att webbservern inte kan se IP-adresserna på besökarnas datorer. Fil-cache Alla webbläsarprogram har en fil-cache som gör att nedladdade webbsidor och sidelement lagras lokalt på hårddisken på den dator där webbläsaren arbetar. Om användaren väljer att titta på en sida som webbläsaren tidigare har laddat ned över nätet kommer den att läsa in sidan från datorns hårddisk istället för via nätet. Det gör att webbsidor kan laddas in mycket snabbare, speciellt om man använder Internet via ett modem. För att vara säker på att webbläsaren inte visar föråldrade sidor ska den sända ett så kallat villkorligt GET-kommando till webbservern och kontrollera om filen på servern är ändrad senare än filen i cachen. Om filen på servern är ändrad ska webbservern sända tillbaks denna. Webbläsarna verkar dock ofta slarva med denna kontroll, speciellt när man använder webbläsarens bakåt-knapp. Vi får alltså räkna med att besökarna kan läsa en hel del återanvända sidor som webbservern inte har kunnat registrera nedladdningen av. Proxyservrar och brandmurar En proxyserver är en slags mellanstation som fungerar som en webbläsande bulvan för besökare bakom brandmurar eller besökare som av någon orsak vill ha en annan IPadress än vad de har i sin egen dator. En brandmur är en dator som av säkerhetsskäl filtrerar TCP/IP-trafiken mellan två olika nätverk och stänger ute vissa tjänster. Många brandmurar har inbyggda proxyservrar. Proxyservrar genererar två olika problem för den som vill hämta statistik ur transaktionsloggen på sin webbserver: Dels går ursprungsdatorns IP-adress förlorad och dels har proxyservern en fil-cache som webbsidor kan hämtas ifrån utan att webbservern får någon möjlighet att registrera detta i sin transaktionslogg. Det finns undersökningar som indikerar att runt en femtedel av publika webbtjänsters sidor hämtas från cachen på besökarnas proxyservrar. 4 (4) Möjliga mått webbplatsernas användning Denna del av handboken diskuterar felkällor, fördelar och nackdelar med olika mått för en webbplats användning, samt föreslår definitioner av begreppen. Bild 5 åskådliggör relationerna mellan begreppen besökare, besök, sidor och anrop: Bild 5. Relationer mellan besökare, besök, sidor och anrop. En besökare gör två besök och hämtar tre sidor vid varje besök. Sidorna består vardera av fem element som genererar varsitt anrop. Webbplatsbesökare När vi i vardagslag talar om en besökare på en webbplats menar vi som regel en person, men i webbserverns transaktionslogg registreras oftast bara IP-adresser. Mellan den läsande personen och den IP-adress som webbservern registrerar i sin transaktionslogg finns alltid en minst en webbläsare och en dator. Ofta finns det även en proxyserver som gör att många besökare får samma IP-adress. För att försöka komma förbi problemen med brandmurar och proxyservrar använder man sig vanligen av cookies för att identifiera en unik webbläsare. Tekniken med cookies ger en långt mindre osäkerhet än att använda IP-adresser som identifiering av en besökande person. Men relationen mellan personer och webbläsare är ändå inte helt entydig: En publik webbläsare kan användas av många personer och en person kan använda flera olika webbläsare - hemma, på arbetet och på publika datorer. Färska undersökningar visar att så många som hälften av de amerikanska Internetanvändarna når webben från mer än en plats. Att kräva inloggning med användarnamn och lösenord på sin webbplats är naturligtvis det säkraste sättet att identifiera personer. Men det är också ett av de säkraste sätten att tappa besökare på en publik webbplats. Det kan knappast rättfärdigas endast för statistikändamål. Om vi sorterar bort alternativet inloggade användare står vi inför frågan om vi ska definiera en besökare som en IP-adress eller en webbläsare. Några andra val ger webbserverns loggfil oss inte. Här är en sammanställning av fördelar och nackdelar med respektive val: Besökare = IP-adress (IP-besökare) Fördelar: 5 (5) • Enkelt, kräver oftast inga ändringar i webbservern • Analysen går att göra med enkla statistikprogram Nackdelar: • Alla personer bakom samma brandmur/proxyserver blir en enda besökare • Flera personer som använder samma publika dator blir samma besökare • Personer som använder flera datorer blir flera besökare Besökare = webbläsare (webbläsarbesökare) Fördelar: • Statistiken över besökare blir mycket mer korrekt i förhållande till den allmänna uppfattningen att en besökare är en person Nackdelar: • Flera personer som använder samma publika webbläsare blir samma besökare • Personer som använder flera webbläsare blir flera besökare • Alla webbservrar som ingår i webbtjänsten måste kunna hantera cookies och vara konfigurerade för utvidgad transaktionsloggning • Statistikinsamlingen kräver ett analysprogram som kan hantera cookies Någon standardiserad definition av begreppet besökare på webben finns alltså inte, men det verkar som om de flesta kommersiella aktörer som räknar antal besökare på ett seriöst sätt använder sig av cookiehantering och räknar en webbläsare som en besökare. Söktjänster är inte besökare Söktjänsterna på Internet har speciella program – så kallade robotar eller crawlers – som automatiskt samlar in sidor och följer länkar på samma vis som en vanlig webbläsare gör. Dessa program blir en speciell typ av "besökare" som vi inte vill ha med i vår statistik för webbplatsen. Det är relativt enkelt att filtrera bort söktjänsternas program om man i förväg har sett till att uppgiften om webbläsarens identifierare (user agent) finns med i transaktionsloggen. Söktjänsternas program brukar identifiera sig som webbläsare med speciella namn som till exempel Googlebot (Google) och Scooter (Alta Vista). För att få in den uppgiften i loggfilen måste man använda sig av utvidgad transaktionsloggning enligt W3C:s specifikation eller det utvidgade CLF-formatet XLF/ELF som Apache-servern använder sig av. Identifierarna för de seriösa robotar som besökt ens webbplats hittar man genom extrahera fram alla rader i loggfilen med förfrågningar efter filen robots.txt. Det är denna fil som innehåller instruktioner om vilka delar av webbplatsen ett insamlingsprogram får besöka och varje korrekt programmerat insamlingsprogram ska därför inleda sitt besök på webbplatsen med att läsa den. Det finns också listor över de vanligaste robotidentifierarna att hämta på webben. I Bilaga A: Identifierare för söktjänsternas insamlingsprogram finns en lista över de program som bör uteslutas vid beräkningen av antal besök på webbplatsen vid beräkning av statistiken för BIBSAM. Är bibliotekets personal webbplatsbesökare? Oavsett om man bestämmer sig för att en besökare är lika med en webbläsare eller en IP-adress brukar man undvika att räkna organisationens eller företagets egen personal som en besökare. Det ordnar man relativt enkelt i analysprogrammen genom att filtrera bort besök från organisationens egna IP-adresser från statistiken. Man bör dock undvika att filtrera bort publika datorer i sina egna byggnader, eftersom besök från dessa ju måste betraktas som externa besök. För insamlingen av statistik från bibliotekens webbplatser har BIBSAM valt att inte kräva att man ska exkludera personalens besök från statistiken. Detta har gjorts för att hålla en konsekvent linje i statistikrapporteringen (i den nationella forskningsbiblioteksstatistiken exkluderas inte personalens användning av biblioteket, ex avseende personalens lån, inpasseringar, databassökningar osv) och för att i någon mån förenkla för biblioteken. Det kan vara komplicerat att skilja ut publika datorer i den egna 6 (6) byggnaden och inkludera dem i statistiken, samtidigt som man exkluderar personalens datorer För den nationellla forkningsbiblioteksstatistiken gäller alltså följande: Bibliotekens personal räknas som webbplatsbesökare. Definition av begreppen unika webbläsarbesökare och unika IP-besökare Eftersom det råder en viss sammanblandning av begreppen besökare och besök har man i webbsammanhang valt att införa begreppet unika besökare (unique visitors) för att beteckna en enda besökare, oavsett hur många besök han har gjort på webbplatsen under mätperioden. För att ytterligare tydliggöra om vi baserar räkningen av unika besökare på webbläsare eller IP-adresser blir vi tvungna att införa de något klumpiga begreppen unika webbläsarbesökare och unika IP-besökare. Vi får då följande definitioner av begreppen: • En unik webbläsarbesökare är en unikt identifierad webbläsare, använd minst en gång av en eller flera fysiska personer för att göra anrop om filer från webbplatsen under den mätta tidsperioden. • En unik IP-besökare är en IP-adress, använd minst en gång av en eller flera fysiska personer för att göra anrop om filer från webbplatsen under den mätta tidsperioden. I den nationella forskningsbiblioteksstatistiken är det dock inte antalet unika webbläsarbesökare eller unika IP-besökare som ska rapporteras, utan antalet virtuella besök. Virtuella besök Den konventionella definitionen av ett besök på en webbplats brukar vara: "En sekvens av anrop efter datafiler från samma webbläsare eller IP-adress med ett uppehåll mindre än 30 minuter mellan två konsekutiva anrop." Ett uppehåll längre än 30 minuter initierar ett nytt besök. Om begreppet webbplatsbesökare är behäftat med otydlighet i relationen mellan person och webbläsare eller person och IP-adress, så är begreppet virtuellt besök belastat med ytterligare en komplikation; både webbläsare och proxyservrar har en fil-cache, där webbsidor kan hämtas utan att webbservern är inblandad. Det betyder att en besökare kan läsa webbsidor från vår webbplats utan att det syns i webbserverns transaktionslogg. Begreppet virtuellt besök är alltså behäftat med följande felkällor: • Flera personer kan använda samma webbläsare • En person kan använda flera webbläsare • Sidor kan hämtas från webbläsarens cache utan att det syns i transaktionsloggen • Sidor kan hämtas från en proxyservers cache utan att det syns i transaktionsloggen • Många webbläsare kan besöka webbplatsen via proxyservrar och få samma IPadress och se ut som en och samma besökare, varvid sidorna som hämtas till de olika webbläsarna kommer att flätas ihop till ett enda långt besök Eftersom begreppet virtuellt besök är beroende av vilken definition man väljer på webbplatsbesökare kommer vi även här att få två möjliga definitioner. För tydlighetens skull väljer vi att införa begreppen webbläsarbesök och IP-besök. Om söktjänsternas insamlingsprogram inte ska räknas som besökare får vi följande förslag till definitioner av virtuella besök på en webbplats: • Ett webbläsarbesök på en webbplats utgörs av en serie anrop efter datafiler från samma unika webbläsarbesökare, där tidsskillnaden mellan två konsekutiva anrop alltid är mindre än 30 minuter. • Ett IP-besök på en webbplats utgörs av en serie anrop efter datafiler från samma unika IP-besökare, där tidsskillnaden mellan två konsekutiva anrop alltid är mindre än 30 minuter. 7 (7) Sidleveranser Vår uppfattning av vad som är sidor och de uppgifter vi hittar webbserverns transaktionslogg skiljer sig åt. Det vi uppfattar som en helhet är i webbserverns loggfil representerat av en samling datafiler som levererats till webbläsaren och byggts ihop av den. När vi vill redovisa hur många sidor som levererats från vår webbtjänst måste vi alltså räkna bort de "icke-innehållande" dekorations- och navigationselement som används till att bygga upp sidan. Det rör sig i regel om stilmallar, JavaScript, bilder och andra mediafiler, men ibland också navigationsdelarna av ett ramset (frameset). När man beräknar antalet levererade sidor gäller det även här att se till att exkludera sidor som levererats till söktjänsternas insamlingsprogram från statistiken. Eftersom det i detta fall inte spelar någon roll om vi baserar statistiken på besökande webbläsare eller IP-adresser kan vi göra en gemensam definition av begreppet sidleverans: Sidleveranser är innehållsfiler från en webbtjänst levererade till unika webbläsarbesökare eller IP-besökare. Vi får inte glömma att även måttet sidleveranser är behäftat med fel. Många av sidorna som besökarna läser kan de ha fått ur cachen på sin webbläsare eller cachen på en proxyserver. Vi kan dock hoppas att felen är någorlunda jämt fördelade över tiden och mellan olika webbplatser. Anrop Begreppet anrop (hits, requests) används för att redovisa hur många förfrågningar efter datafiler som webbtjänsten totalt har bearbetat. Det är främst ett tekniskt mått på hur mycket webbservrarna arbetar och bör undvikas i vanliga statistiksammanhang. Anrop har alltför ofta sammanblandats med antalet levererade sidor, vilket leder till en mycket felaktig statistik. Antalet anrop är ofta fem gånger större än antalet levererade sidor, beroende på hur många dekorationselement varje sida innehåller. Om man väljer att mäta antalet anrop är det sannolikt inte relevant att utesluta anrop från personal och söktjänsternas insamlingsprogram, eftersom de ju belastar webbservern och datanätet lika mycket som externa förfrågningar. Förslag till definition av begreppet anrop: Anrop är en webbtjänsts besvarade förfrågningar efter datafiler. I den nationella forskningsbiblioteksstatistiken ska antalet virtuella besök rapporteras och inte antalet anrop. Metoder för beräkning av olika statistikmått Här följer en diskussion om vad som måste göras för att använda de olika metoderna för att beräkna statistik på en webbplats. Vi väljer att diskutera dem i ordning efter stigande svårighetsgrad i planering och programanpassning. Gemensamma åtgärder för alla statistikmått Oavsett vilket mått man avser att använda för att redovisa utnyttjandet av sin webbplats är det en del förberedande åtgärder man måste tillgripa för att kunna få fram uppgifterna. 1. Identifiera vilka webbservrar som ingår i webbtjänsten Först måste man besluta vilka webbservrar som ska räknas som en del av webbtjänsten. Den definition på ett biblioteks webbplats som den nationella forskningsbiblioteksstatistiken bygger på säger följande: "Som bibliotekets webbplats räknas alla webbservrar som besvarar externa förfrågningar i bibliotekets unika domän på Internet." Webbservrar som tillhandahåller tjänster vars statistik redovisas på annan plats ska exkluderas från webbplatsstatistiken. Om till exempel bibliotekets katalog har 8 (8) webbgränssnitt bör besök till och leveranser av dessa sidor exkluderas från webbplatsstatistiken, om användningen av bibliotekskatalogen har redovisats på annan plats. Till webbplatsen räknas inte dokument som kan definieras som elektroniska resurser (till exempel licensierade databaser) eller externa Internetresurser som är länkade från bibliotekets webbplats. Till bibliotekets webbplats bör inte heller räknas eventuella webbtjänster i bibliotekets domän som drivs på uppdrag av andra organisationer och finansieras av dessa. Gränsdragningarna om vad som ska räknas till bibliotekets webbplats blir ibland en ren samvetsfråga; ibland tillhandahåller biblioteket tjänster till moderorganisationen som är mer eller mindre diffust förknippade med bibliotekets huvuduppdrag och därför otydligts finansierade. Ett sådant exempel är elektroniskt publicering av universitetets doktorsavhandlingar och forskningsprojekt. Är detta en reguljär bibliotekstjänst eller en externt finansierad tjänst? 2. Ställ in alla ingående webbservrar för utvidgad transaktionsloggning Efter att man har beslutat vilka webbservrar som ska betraktas som ingående i bibliotekets webbplats måste man preparera dem för utvidgad transaktionsloggning. Detta behöver göras för att uppgiften om vilken webbläsare besökaren använder – user agent - måste finnas i transaktionsloggen för att man ska kunna exkludera söktjänsternas insamlingsprogram från statistiken. Om man avser att beräkna antalet webbläsarbesök på sin webbplats måste man också se till att uppgift om besökarens cookie hamnar i transaktionsloggen för att kunna identifiera unika webbläsare. När man ändå ställer in utvidgad transaktionsloggning kan det också vara bra att se till att man får med uppgiften om HTTP Referer – det vill säga vilken sida som länkade till webbplatsen - i loggfilen. Med den uppgiften kan man få fram mycket intressant information om varifrån besökarna kommer och vilka söktjänster och sökord de använt för att hitta till webbplatsen. Metoderna för att ställa in utvidgad transaktionsloggning skiljer sig naturligtvis för olika webbservrar. Här ger vi exempel på hur denna inställning görs för de vanligaste webbservrarna: Microsoft Internet Information Server (IIS) version 5 och Apache version 2. Internet Information Server använder sig av W3C:s rekommenderade format för transaktionsloggar: W3C Extended, men har inte med uppgifter om user agent, cookie och referer i sin grundinställning. För att justera vilka uppgifter som ska loggas, gör följande: Välj Properties för den webbplats som ska konfigureras. Under fliken Web Site finns en inställning som heter Active Log Format. Där klickar man på knappen Properties… och får upp en ny dialogruta. I denna dialogruta väljer man Extended Properties och kryssar för User Agent och i förekommande fall även Cookie och Referer. Apache använder som vi sett tyvärr fortfarande av det gamla Common Logfile Format (CLF) som standard. Om man vill få med uppgifter om user agent, cookie och referer i Apaches loggfil gör man på följande vis: Redigera direktivet LogFormat i konfigureringsfilen config/http.conf så att loggformatet inkluderar de uppgifter du vill ha med. Ett vanligt fördefinierat format som många statistikprogram kan läsa är det som kallas combined (kallas ibland ELF eller XLF) och ser ut enligt följande: LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\"" combined Efter att man definierat ett namn (combined) för sitt format kan man använda sig av det i direktivet CustomLog, som anger både placering och format enligt följande: CustomLog logs/access.log combined Den som vill gå ännu längre och även få in uppgiften om cookie i Apaches loggfil kan använda sig av ett eget format som efterliknar W3C Extended genom att definiera hela formatet själv enligt följande (på en rad): LogFormat "%{%Y-%m%d}t\t%{%H:%M:%S}t\t%a\t%A\t%p\t%m\t%U\t%q\t%s\t%B\t%T\t%H\t%V\t%{Useragent}i\t%{Cookie}i\t%{Referer}i" W3CExtended Och anropa det på samma sätt som förut: CustomLog logs/access.log W3CExtended 9 (9) Nackdelen med att skapa sitt eget W3C Extended är att Apache ju inte skriver in några fältkoder med direktivet #Fields:, som ju egentligen krävs i rekommendationen för W3C Extended. Man är alltså tvungen att skriva in fältkoderna manuellt överst i loggfilen eller tala om för sitt statistikprogram exakt vilket format man använder och använda samma format genom hela loggfilen. 3. Planera för insamling och eventuell sammanslagning av loggfilerna Efter att man har identifierat sina webbservrar och ställt in dem för utvidgad transaktionsloggning måste man ordna så att statistikprogrammet kan läsa in loggfilerna för analys. Det kan antingen göras genom att man samlar ihop loggfilerna till den dator där statistikprogrammet exekveras eller genom att man ordnar så att statistikprogrammet kan nå loggfilerna på de datorer där webbservrarna finns. Om man arbetar i en ren Windows-miljö eller en ren UNIX-miljö kan man ordna så att statistikprogrammet har behörighet att nå loggfiler på andra servrar via fildelning. Om man arbetar i en blandad miljö måste man ibland förlita sig på FTP eller HTTP. En del kommersiella analysprogram har inbyggda funktioner för att hämta transaktionsloggar med FTP eller HTTP. Om miljön är för komplex kan det enklaste vara att manuellt kopiera transaktionsloggarna till analysservern. En del gratisprogram förutsätter att hela transaktionsloggen finns i en enda fil. Om man avser att använda ett sådant program måste man slå ihop sina transaktionsloggar för hela året till en enda lång fil. I Windows görs detta med kommandotolkens copy på följande vis: > copy jan.log + feb.log + mar.log year.log Alternativt: > copy *.log year.log I UNIX kan detta göras med kommandot cat: # cat jan.log feb.log mar.log > year.log 4. Exkludera söktjänsternas insamlingsprogram I bilaga A finns en förteckning över de identifierare (user agent) som de 340 vanligaste söktjänsternas insamlingsprogram använder sig av när de besöker webbplatser. De program som ingår i denna förteckning bör uteslutas när man räknar fram sin BIBSAMstatistik för att den ska bli så rättvisande som möjligt mellan de olika biblioteken. Metoden för att exkludera söktjänsternas program är beroende av vilket analysprogram man använder sig av. I de flesta program använder man sig av ett filter för user agent och säger att alla rader i transaktionsloggen med en viss user agent ska ignoreras. En del program kan också redovisa besöken av söktjänsternas program separat. Beräkning av antal levererade sidor (sidleveranser) För att kunna beräkna antal sidleveranser enligt ovanstående definition måste man kunna avgöra vad som är innehållsfiler på webbplatsen och se till att få bort leveranser av andra filer ur statistiken. Detta gör många av de bättre analysprogrammen helt automatiskt, men det är ändå viktigt att finjustera denna mekanism manuellt, speciellt om man använder ramar (frames) på sin webbplats. Definiera vad som är innehållssidor I del 1 av bilaga B finns en förteckning över suffix för de typer av filer som oftast betraktas som innehållsfiler på en webbplats. Om det analysprogram man använder har en möjlighet att ställa in att endast dessa filtyper ska räknas vid beräkning av antal sidleveranser är det enklast att göra det och låta programmet ignorera alla övriga filtyper. Observera dock att vissa filtyper kan representera både innehållsfiler och dekorationsfiler. HTML-filer och Flash-filer är exempel på filtyper som både kan representera innehåll och dekoration. I vissa fall kan bildfiler och ljudfiler också anses representera innehåll, men det vanliga är ju att dessa element ändå ligger inbäddade i 10 (10) HTML-filer och att det blir mest rättvisande att räkna statistik på de inramande HTMLfilerna snarare än själva mediafilerna. Filtrera bort bilder, stilmallar, JavaScript och delar av ramset Som ett alternativ eller komplement till att definiera vad som är innehållsfiler på webbplatsen kan man välja att ange vilka filtyper som inte är det. Det finns en rad filtyper som i stort sett aldrig betraktas som innehåll. Vanliga exempel på sådana är bilder (gif, jpg, png), stilmallar (css), JavaScript (js) och delar av ramset (html, htm, asp, php, cmf). Del 2 av bilaga B innehåller en förteckning över filtyper man bör beakta när man väljer att filtrera bort icke-innehållande filer från statistiken. Om man använder ramar (frames) på sin webbplats kräver analysen extra eftertanke. Man bör kunna ange för sitt analysprogram i vilka kataloger navigationsdelarna av ramsetet finns eller vilka namn navigationsfilerna har för att programmet ska kunna exkludera dem från statistiken. En bra metod för att få bort sådana filer är att lägga dem alla i en katalog med ett signifikant namn, till exempel /_elements/ och utesluta alla filer och kataloger under denna ur statistiken. Ett annat alternativ är att ha en konsekvent namngivning (t.ex. index_nav.htm) eller suffix (.htm) på navigationsdelarna av ramsetet, så att man kan filtrera bort dem ur statistiken. Några redskap för att beräkna sidleveranser Antal sidleveranser är ett så grundläggande mått på en webbplats användning att i stort sett alla statistikprogram kan beräkna detta. Möjligen kan man få vissa problem med att utesluta filer från ramset och sidor levererade till söktjänsternas insamlingsprogram om man använder något gratisprogram. Några program som kan beräkna antal sidleveranser från loggfiler i ELF eller W3C-format för ett helt år är: • Analog (freeware) • Webalizer (freeware) • Summary • WebTrends • NetTracker Mer om fördelar och nackdelar med de olika programmen i avsnittet "Några redskap för analys…". Beräkning av antal virtuella besök per IP-adress (IP-besök) Att beräkna antal besök per IP-adress kräver inte några ytterligare förberedelser utöver dem som redan gjorts för att beräkna antal sidleveranser. Det är dock viktigt att se till att beräkningen av besök baseras på en time-out om 30 minuter för att värdena mellan olika bibliotek ska bli jämförbara. I de flesta program som kan beräkna besök kan man ställa in vilken time-out man vill ha, men standardinställningen brukar vara 30 minuter. Man måste också se till att analysprogrammet exkluderar besökande insamlingsprogram från sin statistik över antal besök. Några redskap för att beräkna IP-besök Några program som kan beräkna antal IP-besök från loggfiler i ELF eller W3C-format för ett helt år är: • Webalizer (freeware) • Summary • WebTrends • NetTracker Mer om fördelar och nackdelar med de olika programmen i avsnittet "Några redskap för analys…". 11 (11) Beräkning av antal virtuella besök per webbläsare (webbläsarbesök) Den mest rättvisande uppgiften om antal besök på sin webbplats beräknar man genom att basera uppgiften på antal besökande webbläsare istället för besökande IP-adresser. Denna mätning är dock också den mest komplicerade att genomföra eftersom man måste vidta åtgärder för att identifiera besökande webbläsare på samtliga webbservrar som ingår i webbtjänsten. Identifiering av webbläsare görs med så kallade cookies. Läs mer om cookies i avsnittet "Cookies används för att skapa sessioner". Cookies kan bara skapas med hjälp av någon form av programmering, antingen på med något programmeringsspråk på webbservern eller i webbläsaren med hjälp av JavaScript eller Java. Som ett alternativ kan man också välja att installera ett cookie-hanterande insticksprogram på sin webbserver. Företaget NetIQ som säljer analysprodukten WebTrends erbjuder gratis nedladdning av cookiehanterande insticksprogram för Apache, IIS och Netscape servrar på sin webbplats (http://www.netiq.com/support/wrc/plugins.asp). Även med denna mätmetod gäller att man ska se till att time-outen för beräkning av ett besök är satt till 30 minuter. Man måste även här se till att analysprogrammet utesluter besökande insamlingsprogram från sin statistik. Några redskap för att beräkna webbläsarbesök Om man vill basera sin statistik på antal besökande webbläsare verkar det som om man är hänvisad till kommersiella program. Ett par sådana som kan beräkna antal webbläsarbesök från loggfiler i XLF/ELF eller W3C-format för ett helt år är: • WebTrends • NetTracker Mer om fördelar och nackdelar med de olika programmen i avsnittet "Några redskap för analys…". Några redskap för analys av webbloggar I denna del redogör jag för några av de redskap jag har testat för att ta fram de statistikmått som BIBSAM önskar att biblioteken levererar för sina webbplatser. Jag har testat ett 15-tal olika program i prisklasser från freeware upp till 10 000 kr. Testerna av programmen har skett i relativt raskt tempo, och ibland har flera program testats parallellt. Jag vill därför reservera mig för eventuella felaktigheter i bedömningarna. Om det är någon som har bättre information eller känner till något bra program i prisklassen under 10 000 kr som inte nämns här tar jag gärna emot kommentarer på e-postadress [email protected]. För den som vill utvärdera statistikprogram själv finns omfattande lista över analysredskap på adress: http://www.uu.se/Software/Analyzers/Access-analyzers.html Gratisprogram Många av de enklare gratisprogrammen har fallit ifrån i utvärderingen då de inte kan hantera det W3C:s Extended Log Format som Internet Information Server använder. Några gratisprogram som testats, men fallit ifrån är: • AWStats [http://awstats.sourceforge.net] – kan inte hantera W3C Extended med valfria fält • Basic Traffic Reporter [http://www.householdventures.com/software/btr.htm] – kan inte filtrera bort söktjänsternas insamlingsprogram • wwwstat – stödjer inte W3C Extended Här följer en mer detaljerad diskussion av de mest intressanta gratisprogrammen: 12 (12) Webalizer Webbplats http://www.mrunix.net/webalizer/ Pris Freeware Version – Datum 2.01 - September 2000, patch för W3C Extended juli 2002 Plattformar UNIX, Windows Administrativt gränssnitt Kommandorad, konfigurationsfiler Loggfilsformat som stöds CLF, ELF/XLF, W3C via en patchad version för Windows Hanterar flera loggfiler Nej, men kan spara analyshistoria och sammanställa flera loggfiler från samma webbserver Antal samtidiga webbplatser 1 Rapporterar sidleveranser Ja Beräknar IP-besök Ja Beräknar webbläsarbesök (cookies) ? Kan exkludera robots Ja Fördelar • Snabbt Nackdelar • Ej DNS-uppslagning för Windows • Analyserar bara en webbserver i taget • Relativt komplicerad konfigurering för att hantera flera loggfiler Kommentarer Det enda gratisprogrammet som kan räkna IP-besök baserat på W3C:s loggformat Slutsats Kan användas för att beräkna IP-besök och sidleveranser från en webbserver för inrapportering till den nationella statistiken f. Webbplatser med flera webbservrar måste summera resultaten från dessa manuellt. Sammanfattning: • Det bästa gratisprogrammet för beräkning av den webbstatistik som ingår den nationella forskningsbiblioteksstatistiken. • Krånglig installation och anpassning för beräkning av data över ett helt år. • W3C-loggar kräver specialvariant av programmet. • Kan bara räkna statistik på en webbserver i taget. Webalizer är det enda gratisprogrammet jag hittat som kan beräkna både antal sidleveranser och antal IP-besök för loggfiler i W3C-format. Programmet är egentligen inte avsett för att beräkna statistik för ett helt år, utan snarare för en månad i taget. Det har dock en funktion som an mellanlagra statistik för varje månad och sedan summera statistiken för ett helt år. Några nackdelar med programmet är att det egentligen är skrivet för en UNIX-miljö och främst avsett för att analysera transaktionsloggar från webbservern Apache. För att kunna analysera W3C-loggar i Windows-miljö är man tvungen att hämta en modifierad version av programmet på en annan webbplats med adressen: http://www.ailis.de/~k/patches/ (augusti 2002). Förhoppningsvis kommer denna modifikation att införas i det ordinarie programmet inom kort. En annan nackdel med programmet är att Windows-versionen inte kan göra DNS-uppslag för att omvandla IP-adresser till datornamn, men detta är ju inte viktigt för den nationella statistikinsamlingen. 13 (13) Ytterligare en nackdel med Webalizer att den bara kan beräkna statistik på en webbserver i taget. Det betyder att webbplatser med flera webbservrar måste beräkna antal sidleveranser och IP-besök separat för varje server och sedan summera dessa manuellt. Trots alla dessa nackdelar är programmet alltså det bästa gratisprogrammet för att redovisa antal IP-besök på en webbplats. Programmet bearbetar runt 500 MB loggfil (4 miljoner rader) på cirka 6 minuter utan DNS-uppslag (Dator: 800 MHz Pentium III, 256 MB RAM). Analog Webbplats http://www.analog.cx Pris Freeware (GPL) Version – Datum 5.24 - Juni 2002 Plattformar UNIX, Windows NT/2000/XP, MacOS Administrativt gränssnitt Kommandorad, konfigurationsfiler Loggfilsformat som stöds CLF, ELF/XLF, W3C Hanterar flera loggfiler Ja Antal samtidiga webbplatser Obegränsat Rapporterar sidleveranser Ja Beräknar IP-besök Nej Beräknar webbläsarbesök (cookies) Nej Kan exkludera robots Ja Fördelar Nackdelar • Snabbt • Stabilt • Mycket konfigurerbart • Beräknar inte besök Kommentarer Kraftfullt och beprövat. Det mest använda webbanalysprogrammet. Slutsats Går att använda för att beräkna sidleveranser för inrapportering till den nationella forskningsbiblioteksstatistiken, dock ej virtuella besök Sammanfattning: • Det bästa gratisprogrammet för beräkning av antal sidleveranser • Ett snabbt, stabilt och beprövat program för alla typer av system och loggfiler • Beräknar inte besök Analog är det mest använda analysprogrammet för webbloggar. Programmet är populärt på grund av sin stabilitet och hastighet samt att det finns för så många olika plattformar och stödjer så många olika loggformat. Det kan också slå ihop statistik från många loggfiler i olika format. En allvarlig nackdel med programmet är dock att det inte kan räkna ut vare sig IP-besök eller webbläsarbesök, eftersom programmets utvecklare Stephen Turner anser att detta är ett missvisande mått på en webbplats användning och därför vägrar att ta fram den funktionen för programmet. (Turners förklaring finns på adress: http://www.analog.cx/docs/webworks.html) För den som beslutar sig för att redovisa statistik i form av antal sidleveranser är dock Analog ett utmärkt redskap med ett utmärkt pris/prestanda-förhållande. Eftersom programmet är så populärt finns det också en rad tilläggsprogram för bearbetning av data att hämta från webbplatsen, dock ännu inget som kan beräkna antal IP-besök, tyvärr. 14 (14) Programmet bearbetar runt 500 MB loggfil (4 miljoner rader) på cirka 2 minuter utan DNS-uppslag (Dator: 800 MHz Pentium III, 256 MB RAM). Logfile Analyse Webbplats http://www.jan-winkler.de/dev/e_logf.htm Pris Freeware Version 6.0 Plattformar Windows Administrativt gränssnitt Grafiskt Loggfilsformat som stöds CLF, W3C Hanterar flera loggfiler Ja Antal samtidiga webbplatser 1 Rapporterar sidleveranser Ja Beräknar IP-besök Nej Beräknar webbläsarbesök (cookies) Nej Kan exkludera robots Ja? Fördelar • Grafiskt gränssnitt Nackdelar • Beräknar inte besök • Knapphändig dokumentation • Relativt långsamt • Oklart om designelement utesluts från statistiken • Räknar anrop snarare än sidleveranser Kommentarer Den knapphändiga dokumentationen gör det svårt att förstå om programmet utesluter robots från statistiken Slutsats Kan kanske användas för att beräkna sidleveranser för inrapportering till den nationella forskningsbiblioteksstatistiken, dock inte antal besök. Sammanfattning: • Ett enklare Windows-baserat program för beräkning av antal sidleveranser på mindre webbplatser Programmet har varit svårt att utvärdera på grund av den knapphändiga och dåligt översatta dokumentationen. Med sitt grafiska administratörsgränssnitt kan det möjligen vara ett alternativ till Analog och Webalizer för den som tycker att det är besvärligt att använda konfigureringsfiler och kommandoprompt för att exekvera statistikprogrammen. Den som väljer att använda programmet för att redovisa sidleveranser bör dock ta reda på huruvida det kan exkludera designelement och besökande robotar från statistiken. Programmet bearbetar runt 500 MB loggfil (4 miljoner rader) på cirka 40 minuter utan DNS-uppslag (Dator: 800 MHz Pentium III, 256 MB RAM). Kommersiella program Bland de kommersiella programmen finns naturligtvis en mycket större skara program som kan beräkna både sidleveranser, IP-besök och webbläsarbesök. Med de kommersiella programmen är dock prisbilden det största problemet – om man har sin webbplats utspridd över en rad olika fysiska servrar måste man lösa flera licenser och kostnaderna springer lätt upp i 50 000 kr. Här är en lista med pris och webbadresser för några kommersiella program med baskostnad under 10 000 kr: • WebTrends Log Analyzer ($499) - http://www.webtrends.com/ 15 (15) • Net Tracker ($495) - http://www.sane.com/ • Summary ($59) - http://www.summary.net/ • Funnel Web Analyzer (gratis i 70 dagar) http://www.quest.com/funnel_web/analyzer/ • 123 Log Analyzer ($130) - http://www.123loganalyzer.com/ • SawMill ($400) - http://www.sawmill.net/ • AccessWatch ($40) - http://accesswatch.com/ • Wusage ($75) - http://www.boutell.com/wusage/ • FastStats - http://www.mach5.com/products/analyzer/index.php • WebSite Reporter - http://www.websitereporter.com/ • WebSuxess ($750) http://www.exody.net/eng/products/websuxess/websuxess.html • Urchin ($695) - http://www.urchin.com/ • SurfStats ($95) - http://www.surfstats.com/ Jag har försökt testa och utvärdera några av de mest intressanta programmen. Här följer en mer detaljerad redogörelse för ett par av de mest intressanta programmen. Jag har främst valt att fokusera på programleverantörer med svensk representation. WebTrends Log Analyzer Webbplats http://www.webtrends.com/ Svensk representation Nocom Partner Networks – http://www.nocom.se Kontakt: Michael Karletorp, tel. 0708-651037 Pris $499 Version 7.0 Testperiod 14 dagar Plattformar Windows Administrativt gränssnitt Grafiskt Loggfilsformat som stöds CLF, ELF/XLF, W3C Hanterar flera loggfiler Ja Antal samtidiga webbplatser 50 (på samma fysiska webbserver) Rapporterar sidleveranser Ja Beräknar IP-besök Ja Beräknar webbläsarbesök (cookies) Ja Kan exkludera robots Ja Fördelar Nackdelar • Bra grafiskt gränssnitt • Kan arbeta med cookie-hanterande insticksprogram • Kan bara användas för en enda fysisk webbserver • Log Analyzer finns bara för Windows Kommentarer WebTrends Reporting Center (45 000 kr) kan användas för 500 webbplatser spridda över flera fysiska servrar Slutsats Kan användas för den nationella forskningsbiblioteksstatistiken. Sammanfattning: • Det mest använda kommersiella webbanalysprogrammet. 16 (16) • Rimlig kostnad om man har alla sina webbservrar på samma fysiska server. WebTrends är inte utan orsak det mest använda kommersiella analysprogrammet. Programmet har ett trevligt och relativt kraftfullt grafiskt gränssnitt för administration och har en rimlig prisbild för den som har sin webbtjänst lokaliserad till en och samma fysiska server. För den som har sin webbtjänst på flera fysiska webbservar rekommenderar företaget NetQI som producerar WebTrends att man köper WebTrends Reporting Center. Prestanda för WebTrends har inte kunnat beräknas då testperioden löpte ut innan jag hann utföra detta test. NetTracker Webbplats http://www.sane.com/ Svensk representation Cybernetics Solutions Nordic AB http://www.cybernetics.se/. Kontakt: Ted Lagerström, tel. 08-470 39 78 Pris $495 Version NetTracker 5.5 Professional Testperiod 15 dagar Plattformar Windows, UNIX, MacOS Loggfilsformat som stöds CLF, XLF, W3C Antal samtidiga webbplatser 1 Hanterar flera loggfiler Ja Rapporterar sidleveranser Ja Beräknar IP-besök Ja, använder en kombination av IP och user agent Beräknar webbläsarbesök (cookies) Ja, om cookies finns används de i första hand Kan exkludera robots Ja Fördelar Nackdelar • Räknar besök baserat på IP-adresser och cookies • Kan användas på distans via webbgränssnitt med lösenord • Administreras via klumpigt webbgränssnitt • Långsam import av data • Endast en samtidig rapport per installation Kommentarer NetTracker 5.5 Enterprise; $995 för 5 webbplatser, $1495 för 10 webbplatser Slutsats Kan användas för den nationella forskningsbiblioteksstatistiken på en webbserver Sammanfattning: • Ett kraftfullt program med webbserver-baserat gränssnitt både för administration och rapportering. NetTracker är en webbaserad produkt som främst är avsedd att exekvera på själva webbservern. En stor fördel med programmet är därför att många olika personer kan ta fram den statistik de önskar. En nackdel är dock att webbgränssnittet är avsevärt klumpigare att använda för administration än ett lokalt grafiskt gränssnitt. Programmet beräknar i första hand besökstatistik baserad på inloggade användare, i andra hand cookies, om sådana finns, i sista hand använder programmet en kombination av IP-adress och user agent för att identifiera besökare. Definierade robotar utesluts automatiskt från statistiken. 17 (17) En nackdel med programmet är att den billigaste versionen endast är avsedd att användas för en enda fysisk webbserver. Vill man analysera fler webbservrar får man köpa fler licenser och kostnaden åker raskt i höjden. Programmet bearbetar runt 500 MB loggfil (4 miljoner rader) på cirka 80 minuter utan DNS-uppslag (Dator: 800 MHz Pentium III, 256 MB RAM). Summary Webbplats http://www.summary.net/ Pris $59 Version - datum 2.2.2 – 2002-08-13 Testperiod 30 dagar Plattformar Windows, UNIX Administrativt gränssnitt Webb Loggfilsformat som stöds CLF, ELF/XLF, W3C Hanterar flera loggfiler Ja Antal samtidiga webbplatser 3 Rapporterar sidleveranser Ja Beräknar IP-besök Ja Beräknar webbläsarbesök (cookies) ? Kan exkludera robots Ja Fördelar Nackdelar Kommentarer Slutsats • • • • Rapporter kan skapas via webbgränssnitt Mycket snabbt Kan ladda ned loggfiler över nätet Svårnavigerat webbgränssnitt för administration • Icke-intuitiv hantering av loggfilernas placering Verkar mycket bra för sitt pris. Summary Plus ($249) kan analysera 50 logiska webbservrar (domains). Kan användas för IP-besök och sidleveranser för den nationella forskningsbiblioteksstatistiken på en fysisk webbserver med maximalt tre logiska webbservrar. Om webbplatsen består av flera servrar måste statistik från servrarna adderas manuellt. Sammanfattning: • Ett mycket prisvärt och snabbt program • Något klumpigt webbgränssnitt, som dock har fördelen att rapporter kan skapas på distans direkt över webben Summary är en webbaserad produkt som främst är avsedd att exekvera som en egen webbserver. En stor fördel med programmet är därför att många olika personer kan ta fram den statistik de önskar. En nackdel är dock att webbgränssnittet är avsevärt klumpigare att använda för administration än ett lokalt grafiskt gränssnitt. Programmet kräver att de loggfiler som ska analyseras ligger i en speciell, ickekonfigurerbar katalog på den dator där programmet exekveras. Det kan dock också ladda en loggfil från nätet, om den kan nås med HTTP eller FTP. Programmet framstår som ett gott alternativ för att ta fram BIBSAM-statistik för IPbesök och sidleveranser för den som inte har så stor budget. Programmet bearbetar runt 500 MB loggfil (4 miljoner rader) på cirka 2 minuter utan DNS-uppslag (Dator: 800 MHz Pentium III, 256 MB RAM). 18 (18) Resurser för statistik från webbservrar Diskussionsforum vid IDG På webbplatsen eforums.idg.se finns två diskussionsforum för frågor kring analys av webbservrarnas loggfiler. Du når dem på adress http://eforum.idg.se/webbanalys/ Det är fritt för alla att läsa inläggen, men vill du göra egna inlägg måste du vara registrerad hos IDG. Webb-komplement till denna handbok På Karolinska Institutets Biblioteks webbplats finns mer material kring denna handbok för BIBSAM-statistik. Här finns konfigureringsfiler, JavaScript och uppdateringar av utvärderingarna av olika statistikprogram. Adress: http://vision.kib.ki.se/portfolio/statistics/ Bilagor A. Identifierare för söktjänsternas insamlingsprogram Här följer en lista på insamlingsprogram som bör uteslutas ur BIBSAM-statistiken för antal besök eller antal sidleveranser för att denna ska bli rättvisande mellan olika bibliotek. Känner man till några egna lokala insamlingsprogram bör dessa naturligtvis också uteslutas ur statistiken. I följande lista finns identifierare (user agent) för 342 stycken av de vanligaste insamlingsprogrammen (med högertrunkering för att fånga upp olika versioner och varianter av programmen): AbachoBOT* Atomz* contype* entireweb* abadoor.de* AvantGo* CoolBot* EOE Spider* abador.de* AVSearch* CoolVVeb* EricssonR* Active Cache Request* BaiDuSpider* cosmos* EroCrawler* ADP BOT* beholder* craftbot@yahoo* e-sense* AIRF* bigfoot* Crawler V* ESISmartSpider* Albatros Search* Bilbo* CrawlerBoy* etchels* AlkalineBOT* bjaaland* CyberSpyder* Excalibur* ALLSearch* Blitzsuche* DataDetective* EZResult* almaden* BlogBot* davesengine* FastCrawler* AltaVista* BNet* DaviesBot* fastrun* Ankiro* bombensex* daypopbot* fastwebcrawler* antibot* boris* DFusionBot* FAST-WebCrawler* A-Online Search* Buibui* DiaGem* FDSE* Aport* bumblebee* Digimarc WebReader* fetch* appie* Bun* DIIbot* Findmore* Arachne* Cafi* Direct Hit Grabber* Fireball* Arachnoidea* Cartographer* DoCoMo* Firefly* ArchitextSpider* ChemieDE-NodeBot* EADS* first-search* arianna* chercheBot* earthlisten* fix-suche* Armadillo* Chimera* EchO* FlipDog* Ask Jeeves* CityReview* EcommBot* Fluffy* AskMax* CLIPS-index* eidetica* flunky* ASPSeek* ClueWeb* ForschungsPortal* asterias* COMBINE* empyreum-monolithiccrawler* AtlantisSearch* CONNINC* enola* FreeFind* FragGo* 19 (19) FREESERVE* larbin* ocnie* Sidewinder* FruitAgent* LEIA* OliverPerry* Site Server* funksuchmaschine-spider* Libro* onlinepilot.de* Slarp* fusionbot* libwww* Openfind* SliderSearch* FUX_Page_Loader* linecker* OpenTextSiteCrawler* Slurp* Gaisbot* Link Valet Online* openxxx* SlySearch* galaxy* LinkAlarm* ORA_checksite* SmartSpider* gazz* Linkbot* PageDown* SnoopRob* GemInEye* LinkGuard* parallelContextFocusCrawler* SoccerCrawler* GentleSpider* Links2Go Similarity Engine* pavuk* somewhere* GHKS_WebSearch* LinkWalker* PCBeaconBot* SpaceBison* gigabaz* LNSpiderguy* Peggy* Spinne* godado* LotusDiscovery* PerMan Surfer* StackRambler* Goggle* Lycos_Spider* PicoSearch* Streamguide* GolfFindIt* marvin* Pioneer* suchfuzzy* Googlebot* MATTER_BOT* Pita* suchnase* GoSearch* MaxBot* PlantyNet* SuperScout* griffon* m-crawler* Plumtree* sureseeker* grub* MediaCrawler-* Poacher* surfer.ch* Gulliver* MegaSheep* polybot* SurferX* Gulper* menshealth* Pompos* suzuran* Harvest-NG* Merc_resh* porncrawler* SyncBot* Het Net* Mercator* princeton* Szukacz* htdig* MetaGer-LinkChecker* psbot* takoy* http client* Microsoft URL Control* PUA* Tarantula* HTTrack* MIIxpc* rabaz* targetblaster* Hubater* MitakeWebIndexer* Rainbot* targetblaster* Hubbard One* moget* Rainspider* Tateji_Crawler* ia_archiver* MOSES Spider* ramBot* TECOMAC* ImageCollector* MS Search* RC7.3 Release* Teleport* IMS Crawler* MSIECrawler* RealNamesBot* teoma_agent* Indy Library* MSpider* RepoMonkey Bait & Tackle* teomaagent* Inet library* multimedia search* roach* T-H-U-N-D-E-R-S-T-O-N-E* Infoseek* MultiText* [email protected]* TITAN* Inktomi* mumpits* RockBot* tivraSpider* InternetAmi* MuscatFerret* Rondello* Tomorrow* InternetArchive* MyFinances* Rotondo* Toutatis* internetseer* nabot* RRZN* TridentSpider* iQuest* NationalDirectory-WebSpider* ru-robot* Iron* Net_Vampire* Scooter* TSBOT* Jack* NetAnts* ScourCrawler* UdmSearch* Java* NetMechanic* ScoutAbout* Ultraseek* Jellyfish* NetSprint* scoutmaster* UltraSpider* JennyBot* NetZippy_Search* ScreenSurfer* unlostBot* JPSnet* NetzwegSpider* search.ch* URL Spider Pro* jScoot* NewsBoardAgent* SearchNZ* user-1.ip3000.com* JustView* nkeeper* SearchTone* user-1.petersnews.com* Katriona* nkeeper.com* seifertfamily* utobia* KIMO* Nocilla* Septera* utopy* KIT-Fireball* Nutscrape* SERcrawler* Vagabondo* Kolibri* nutSPIDER* SerialData* VILL Spider* kototoi-crawl* o@o* sexy-eyes* VillSpider* kulturarw3* oBot* sherlock* ViperNET* Trovatore* 20 (20) Virgilio* WebReaper* Wget* yellopet* vspider* webresult* whatUseek* Zeus* walhello* WebSauger* WhizBang* ZyBorg* Wanadoo* Website Quester* www.eventax.de* WDG_SiteValidator* WebTrends* WWWijzer* WebCraft* WebWalker* xyro* WebFountain* webwombat* yahoo.com* Webinator* WFARC* Yandex* Listan finns också som textfil för nedladdning på adress http://vision.kib.ki.se/porfolio/statistics/crawlers.txt För den som inte tycker att listan ovan räcker finns fler identifierare på adress: http://www.jafsoft.com/searchengines/webbots.html B. Vanliga filtyper i webbtjänster Suffix för vanligt förekommande innehållsfiler • html, htm, shtml, sht – Statiska HTML-dokument • asp, cfm, php, jsp, pl, cgi – Dynamiska webbsidor • txt, rtf – text • pdf – Portable Document Format - Acrobat • ps, eps – PostScript • doc, dot, wiz – Microsoft Word • xls, xlb – Excel • ppt, pps, pot – PowerPoint • swf - Macromedia Shockwave Flash • mpeg, mpg, mpe, qt, mov - Video • zip, sit, sea, gz, tar, z, hqx, cpt – Komprimerade filarkiv • bin, com – Binära filer • exe – Windows-program Suffix för vanligt förekommande dekorations- och navigationsfiler • html, htm, shtml, sht – HTML-dokument i navigationsdelar av ett ramset • asp, cfm, php, jsp, pl, cgi – Dynamiska webbsidor i navigationsdelar av ett ramset • gif, jpg, jpeg, jpe, png, tiff, tif, ico, bmp – Bilder • css – Stilmallar • js, jar, class – JavaScript och Java-program • mp3, au, wav, mid, snd, aif, aiff – Ljudfiler • ram, ra – Real Audio • swf - Macromedia Shockwave Flash 21 (21)