Metoder och redskap för framtagning av
webbstatistik för BIBSAM
Ulf Kronman, Karolinska Institutets Bibliotek. 2002-09-12.
Denna handbok riktar sig främst till forskningsbibliotekens webbtekniker. Den föreslår
några metoder för insamlingen av de olika statistikuppgifter som ingår i den nationella
forskningsbiblioteksstatistiken och diskuterar i slutet några redskap som kan vara
lämpliga för statistikbearbetningen.
För att få ett underlag för att diskutera lämpliga metoder för statistikframtagning börjar
vi med en kort genomgång av hur webben fungerar.
Tekniken bakom World Wide Web
Tekniken bakom webben är i grund och botten enkel: En transaktion börjar med att ett
webbläsarprogram kontaktar en webbserver och sänder en förfrågan om ett dokument.
Webbservern kontrollerar om dokumentet finns på webbplatsen, svarar på webbläsarens
förfrågan och levererar sedan dokumentet till webbläsaren. Efter detta kopplas
nätverksförbindelsen mellan webbläsare och webbserver ned.
Efter att transaktionen är klar finns en kopia av webbsidan på den dator som
webbläsaren befinner sig på. Det är alltså den lokalt lagrade sidan som besökaren på
webbplatsen läser och har som utgångspunkt om han letar efter länkar för att sända en
förfrågan om en ny sida till en webbserver.
Bild 1 visar hur en sådan förfrågan och överföring går till. Bilden visar också att
webbservern skriver en rad i en transaktionslogg för varje förfrågan och datafil som
levereras till webbläsaren.
Bild 1. Tekniken bakom World Wide Web
HTTP – hypertext transport protocol
Webbläsarens förfrågningar och webbserverns svar och dokument sänds över nätet med
hjälp av Internet-protokollet TCP/IP och webbens eget protokoll HTTP – Hypertext
1 (1)
Transport Protocol. HTTP är vad man kallar ett tillståndslöst (stateless) protokoll. Det
innebär att inga kopplingar mellan webbläsare och webbserver – sessioner – bevaras
efter att en webbsida har levererats till webbläsaren. Tekniskt sett existerar det alltså
inte något sådant som ett "besök" på webben. Det är denna brist på sessioner som är ett
grundläggande problem för insamlingen av uppgifter om besök på en webbplats.
Webbsidornas uppbyggnad
En webbsida är en datafil som innehåller text i form av HTML-direktiv. Direktiven styr hur
webbläsaren ska presentera sidan. Om man vill ha något annat än text på sidan måste
man anropa en separat datafil för varje element som ska infogas på sidan. På så vis
infogas till exempel bilder med HTML-direktivet <img src="…">.
Bild 2 visar exempel på HTML-kod med några direktiv för att infoga en stilmall, ett
JavaScript och några bilder.
Bild 2. En webbsidas uppbyggnad
Webbserverns transaktionslogg
För varje del av en webbsida som webbservern levererar till en webbläsare skriver den
en rad i sin transaktionslogg. Det är vanligen denna transaktionslogg som ligger till grund
för insamlingen av statistik från en webbplats. Oftast görs analysen med ett separat
program som läser transaktionsloggen och översätter uppgifterna i den till meningsfull
information. Resultatet presenteras sedan direkt i analysprogrammet, på en webbsida, i
en textfil eller som ett ordbehandlings- eller kalkyldokument.
Common Log File Format
Det första gemensamma formatet för webbservrarnas transaktionsloggar som skapades
kallas Common Log File Format (CLF).
Bild 3 visar vilka uppgifter som lagras i denna enkla typ av transaktionslogg.
2 (2)
Bild 3. Transaktionslogg i Common Log File Format.
W3C Extended Log File Format
År 1996 utfärdade webbkonsortiet W3C en rekommendation för ett utbyggbart
loggformat kallat W3C Extended Log File Format.
I detta loggformat kan webbmastern bestämma vilka uppgifter som ska finnas i
webbserverns transaktionslogg och i vilken ordning på raden de ska placeras. Det görs
genom att transaktionsloggen inleds med en rad med formatdirektivet #Fields:, se bild 4.
Bild 4. Transaktionslogg i W3C Extended Log File Format. Nytillkomna uppgifter i
jämförelse med Common Log File Format är markerade med fetstil.
I skrivande stund år 2002 verkar det endast vara Microsofts webbserver Internet
Information Server (IIS) som kan generera transaktionsloggar i W3C Extended Log File
Format. Apache, som är den vanligaste webbservern, använder sig tyvärr fortfarande av
Common Log File Format, eller en egen utvidgad variant av detta.
3 (3)
Cookies används för att skapa sessioner
För att försöka råda bot på bristen på besökarsessioner i HTTP har man infört en teknik
som kallas cookies. En cookie är en liten textfil som levereras från webbservern till
webbläsaren första gången den hämtar en sida från en webbplats. Vid varje
efterkommande anrop till webbplatsen skickar webbläsaren sedan med denna cookie
tillsammans med anropet. På så vis kan man åstadkomma en unik identifiering av en
specifikt webbläsarprogram. En cookie gör alltså att man kan avläsa en slags "session"
mellan en webbläsare och en webbserver genom att studera de datafiler som i följd har
levererats till en specifik webbläsare.
Cookies möjliggör också identifiering av webbläsare bakom brandmurar och
proxyservrar, eftersom de är kopplade till webbläsaren snarare än datorns IP-adress som
ju inte syns för datorer bakom en proxyserver. Mer om brandmurar och proxyservrar
senare.
För att kunna utnyttja cookies för identifiering av webbläsare på sin webbplats krävs
någon form av programmering. Det vanligaste är att man använder sig av så kallade
dynamiska webbsidor, programmerade med JavaScript, ASP, PHP, JSP, Perl eller Cold
Fusion. Vissa leverantörer av analysprogram tillhandahåller insticksprogram som man
kan installera på sin webbserver för att kunna generera cookies för att identifiera
besökarnas webbläsare i samband med analysen av loggfilen.
Komplikationer i webben
Innan vi kan börja reda ut begreppen kring frågorna om besökare, besök och
sidleveranser är det några fler komplicerande faktorer på webben som vi behöver belysa.
Det handlar om mellanlagring av webbsidor i det som kallas fil-cache och proxy-servrar
som gör att webbservern inte kan se IP-adresserna på besökarnas datorer.
Fil-cache
Alla webbläsarprogram har en fil-cache som gör att nedladdade webbsidor och
sidelement lagras lokalt på hårddisken på den dator där webbläsaren arbetar. Om
användaren väljer att titta på en sida som webbläsaren tidigare har laddat ned över nätet
kommer den att läsa in sidan från datorns hårddisk istället för via nätet. Det gör att
webbsidor kan laddas in mycket snabbare, speciellt om man använder Internet via ett
modem.
För att vara säker på att webbläsaren inte visar föråldrade sidor ska den sända ett så
kallat villkorligt GET-kommando till webbservern och kontrollera om filen på servern är
ändrad senare än filen i cachen. Om filen på servern är ändrad ska webbservern sända
tillbaks denna. Webbläsarna verkar dock ofta slarva med denna kontroll, speciellt när
man använder webbläsarens bakåt-knapp.
Vi får alltså räkna med att besökarna kan läsa en hel del återanvända sidor som
webbservern inte har kunnat registrera nedladdningen av.
Proxyservrar och brandmurar
En proxyserver är en slags mellanstation som fungerar som en webbläsande bulvan för
besökare bakom brandmurar eller besökare som av någon orsak vill ha en annan IPadress än vad de har i sin egen dator. En brandmur är en dator som av säkerhetsskäl
filtrerar TCP/IP-trafiken mellan två olika nätverk och stänger ute vissa tjänster. Många
brandmurar har inbyggda proxyservrar.
Proxyservrar genererar två olika problem för den som vill hämta statistik ur transaktionsloggen på sin webbserver: Dels går ursprungsdatorns IP-adress förlorad och dels har
proxyservern en fil-cache som webbsidor kan hämtas ifrån utan att webbservern får
någon möjlighet att registrera detta i sin transaktionslogg. Det finns undersökningar som
indikerar att runt en femtedel av publika webbtjänsters sidor hämtas från cachen på
besökarnas proxyservrar.
4 (4)
Möjliga mått webbplatsernas användning
Denna del av handboken diskuterar felkällor, fördelar och nackdelar med olika mått för
en webbplats användning, samt föreslår definitioner av begreppen.
Bild 5 åskådliggör relationerna mellan begreppen besökare, besök, sidor och anrop:
Bild 5. Relationer mellan besökare, besök, sidor och anrop. En besökare gör två besök
och hämtar tre sidor vid varje besök. Sidorna består vardera av fem element som
genererar varsitt anrop.
Webbplatsbesökare
När vi i vardagslag talar om en besökare på en webbplats menar vi som regel en person,
men i webbserverns transaktionslogg registreras oftast bara IP-adresser. Mellan den
läsande personen och den IP-adress som webbservern registrerar i sin transaktionslogg
finns alltid en minst en webbläsare och en dator. Ofta finns det även en proxyserver som
gör att många besökare får samma IP-adress.
För att försöka komma förbi problemen med brandmurar och proxyservrar använder man
sig vanligen av cookies för att identifiera en unik webbläsare. Tekniken med cookies ger
en långt mindre osäkerhet än att använda IP-adresser som identifiering av en besökande
person. Men relationen mellan personer och webbläsare är ändå inte helt entydig: En
publik webbläsare kan användas av många personer och en person kan använda flera
olika webbläsare - hemma, på arbetet och på publika datorer. Färska undersökningar
visar att så många som hälften av de amerikanska Internetanvändarna når webben från
mer än en plats.
Att kräva inloggning med användarnamn och lösenord på sin webbplats är naturligtvis
det säkraste sättet att identifiera personer. Men det är också ett av de säkraste sätten
att tappa besökare på en publik webbplats. Det kan knappast rättfärdigas endast för
statistikändamål.
Om vi sorterar bort alternativet inloggade användare står vi inför frågan om vi ska
definiera en besökare som en IP-adress eller en webbläsare. Några andra val ger
webbserverns loggfil oss inte.
Här är en sammanställning av fördelar och nackdelar med respektive val:
Besökare = IP-adress (IP-besökare)
Fördelar:
5 (5)
•
Enkelt, kräver oftast inga ändringar i webbservern
•
Analysen går att göra med enkla statistikprogram
Nackdelar:
•
Alla personer bakom samma brandmur/proxyserver blir en enda besökare
•
Flera personer som använder samma publika dator blir samma besökare
•
Personer som använder flera datorer blir flera besökare
Besökare = webbläsare (webbläsarbesökare)
Fördelar:
•
Statistiken över besökare blir mycket mer korrekt i förhållande till den allmänna
uppfattningen att en besökare är en person
Nackdelar:
•
Flera personer som använder samma publika webbläsare blir samma besökare
•
Personer som använder flera webbläsare blir flera besökare
•
Alla webbservrar som ingår i webbtjänsten måste kunna hantera cookies och vara
konfigurerade för utvidgad transaktionsloggning
•
Statistikinsamlingen kräver ett analysprogram som kan hantera cookies
Någon standardiserad definition av begreppet besökare på webben finns alltså inte, men
det verkar som om de flesta kommersiella aktörer som räknar antal besökare på ett
seriöst sätt använder sig av cookiehantering och räknar en webbläsare som en besökare.
Söktjänster är inte besökare
Söktjänsterna på Internet har speciella program – så kallade robotar eller crawlers – som
automatiskt samlar in sidor och följer länkar på samma vis som en vanlig webbläsare
gör. Dessa program blir en speciell typ av "besökare" som vi inte vill ha med i vår
statistik för webbplatsen.
Det är relativt enkelt att filtrera bort söktjänsternas program om man i förväg har sett till
att uppgiften om webbläsarens identifierare (user agent) finns med i transaktionsloggen.
Söktjänsternas program brukar identifiera sig som webbläsare med speciella namn som
till exempel Googlebot (Google) och Scooter (Alta Vista). För att få in den uppgiften i
loggfilen måste man använda sig av utvidgad transaktionsloggning enligt W3C:s
specifikation eller det utvidgade CLF-formatet XLF/ELF som Apache-servern använder sig
av.
Identifierarna för de seriösa robotar som besökt ens webbplats hittar man genom
extrahera fram alla rader i loggfilen med förfrågningar efter filen robots.txt. Det är denna
fil som innehåller instruktioner om vilka delar av webbplatsen ett insamlingsprogram får
besöka och varje korrekt programmerat insamlingsprogram ska därför inleda sitt besök
på webbplatsen med att läsa den. Det finns också listor över de vanligaste robotidentifierarna att hämta på webben. I Bilaga A: Identifierare för söktjänsternas
insamlingsprogram finns en lista över de program som bör uteslutas vid beräkningen av
antal besök på webbplatsen vid beräkning av statistiken för BIBSAM.
Är bibliotekets personal webbplatsbesökare?
Oavsett om man bestämmer sig för att en besökare är lika med en webbläsare eller en
IP-adress brukar man undvika att räkna organisationens eller företagets egen personal
som en besökare. Det ordnar man relativt enkelt i analysprogrammen genom att filtrera
bort besök från organisationens egna IP-adresser från statistiken. Man bör dock undvika
att filtrera bort publika datorer i sina egna byggnader, eftersom besök från dessa ju
måste betraktas som externa besök.
För insamlingen av statistik från bibliotekens webbplatser har BIBSAM valt att inte kräva
att man ska exkludera personalens besök från statistiken. Detta har gjorts för att hålla
en konsekvent linje i statistikrapporteringen (i den nationella
forskningsbiblioteksstatistiken exkluderas inte personalens användning av biblioteket, ex
avseende personalens lån, inpasseringar, databassökningar osv) och för att i någon mån
förenkla för biblioteken. Det kan vara komplicerat att skilja ut publika datorer i den egna
6 (6)
byggnaden och inkludera dem i statistiken, samtidigt som man exkluderar personalens
datorer
För den nationellla forkningsbiblioteksstatistiken gäller alltså följande: Bibliotekens
personal räknas som webbplatsbesökare.
Definition av begreppen unika webbläsarbesökare och unika IP-besökare
Eftersom det råder en viss sammanblandning av begreppen besökare och besök har man
i webbsammanhang valt att införa begreppet unika besökare (unique visitors) för att
beteckna en enda besökare, oavsett hur många besök han har gjort på webbplatsen
under mätperioden.
För att ytterligare tydliggöra om vi baserar räkningen av unika besökare på webbläsare
eller IP-adresser blir vi tvungna att införa de något klumpiga begreppen unika
webbläsarbesökare och unika IP-besökare.
Vi får då följande definitioner av begreppen:
•
En unik webbläsarbesökare är en unikt identifierad webbläsare, använd minst
en gång av en eller flera fysiska personer för att göra anrop om filer från
webbplatsen under den mätta tidsperioden.
•
En unik IP-besökare är en IP-adress, använd minst en gång av en eller flera
fysiska personer för att göra anrop om filer från webbplatsen under den mätta
tidsperioden.
I den nationella forskningsbiblioteksstatistiken är det dock inte antalet unika
webbläsarbesökare eller unika IP-besökare som ska rapporteras, utan antalet virtuella
besök.
Virtuella besök
Den konventionella definitionen av ett besök på en webbplats brukar vara: "En sekvens
av anrop efter datafiler från samma webbläsare eller IP-adress med ett uppehåll mindre
än 30 minuter mellan två konsekutiva anrop." Ett uppehåll längre än 30 minuter initierar
ett nytt besök.
Om begreppet webbplatsbesökare är behäftat med otydlighet i relationen mellan person
och webbläsare eller person och IP-adress, så är begreppet virtuellt besök belastat med
ytterligare en komplikation; både webbläsare och proxyservrar har en fil-cache, där
webbsidor kan hämtas utan att webbservern är inblandad. Det betyder att en besökare
kan läsa webbsidor från vår webbplats utan att det syns i webbserverns transaktionslogg.
Begreppet virtuellt besök är alltså behäftat med följande felkällor:
•
Flera personer kan använda samma webbläsare
•
En person kan använda flera webbläsare
•
Sidor kan hämtas från webbläsarens cache utan att det syns i transaktionsloggen
•
Sidor kan hämtas från en proxyservers cache utan att det syns i
transaktionsloggen
•
Många webbläsare kan besöka webbplatsen via proxyservrar och få samma IPadress och se ut som en och samma besökare, varvid sidorna som hämtas till de
olika webbläsarna kommer att flätas ihop till ett enda långt besök
Eftersom begreppet virtuellt besök är beroende av vilken definition man väljer på
webbplatsbesökare kommer vi även här att få två möjliga definitioner. För tydlighetens
skull väljer vi att införa begreppen webbläsarbesök och IP-besök. Om söktjänsternas
insamlingsprogram inte ska räknas som besökare får vi följande förslag till definitioner av
virtuella besök på en webbplats:
•
Ett webbläsarbesök på en webbplats utgörs av en serie anrop efter datafiler från
samma unika webbläsarbesökare, där tidsskillnaden mellan två konsekutiva anrop
alltid är mindre än 30 minuter.
•
Ett IP-besök på en webbplats utgörs av en serie anrop efter datafiler från samma
unika IP-besökare, där tidsskillnaden mellan två konsekutiva anrop alltid är
mindre än 30 minuter.
7 (7)
Sidleveranser
Vår uppfattning av vad som är sidor och de uppgifter vi hittar webbserverns
transaktionslogg skiljer sig åt. Det vi uppfattar som en helhet är i webbserverns loggfil
representerat av en samling datafiler som levererats till webbläsaren och byggts ihop av
den.
När vi vill redovisa hur många sidor som levererats från vår webbtjänst måste vi alltså
räkna bort de "icke-innehållande" dekorations- och navigationselement som används till
att bygga upp sidan. Det rör sig i regel om stilmallar, JavaScript, bilder och andra
mediafiler, men ibland också navigationsdelarna av ett ramset (frameset).
När man beräknar antalet levererade sidor gäller det även här att se till att exkludera
sidor som levererats till söktjänsternas insamlingsprogram från statistiken. Eftersom det i
detta fall inte spelar någon roll om vi baserar statistiken på besökande webbläsare eller
IP-adresser kan vi göra en gemensam definition av begreppet sidleverans:
Sidleveranser är innehållsfiler från en webbtjänst levererade till unika
webbläsarbesökare eller IP-besökare.
Vi får inte glömma att även måttet sidleveranser är behäftat med fel. Många av sidorna
som besökarna läser kan de ha fått ur cachen på sin webbläsare eller cachen på en
proxyserver. Vi kan dock hoppas att felen är någorlunda jämt fördelade över tiden och
mellan olika webbplatser.
Anrop
Begreppet anrop (hits, requests) används för att redovisa hur många förfrågningar efter
datafiler som webbtjänsten totalt har bearbetat. Det är främst ett tekniskt mått på hur
mycket webbservrarna arbetar och bör undvikas i vanliga statistiksammanhang. Anrop
har alltför ofta sammanblandats med antalet levererade sidor, vilket leder till en mycket
felaktig statistik. Antalet anrop är ofta fem gånger större än antalet levererade sidor,
beroende på hur många dekorationselement varje sida innehåller.
Om man väljer att mäta antalet anrop är det sannolikt inte relevant att utesluta anrop
från personal och söktjänsternas insamlingsprogram, eftersom de ju belastar
webbservern och datanätet lika mycket som externa förfrågningar.
Förslag till definition av begreppet anrop:
Anrop är en webbtjänsts besvarade förfrågningar efter datafiler.
I den nationella forskningsbiblioteksstatistiken ska antalet virtuella besök rapporteras och
inte antalet anrop.
Metoder för beräkning av olika statistikmått
Här följer en diskussion om vad som måste göras för att använda de olika metoderna för
att beräkna statistik på en webbplats. Vi väljer att diskutera dem i ordning efter stigande
svårighetsgrad i planering och programanpassning.
Gemensamma åtgärder för alla statistikmått
Oavsett vilket mått man avser att använda för att redovisa utnyttjandet av sin webbplats
är det en del förberedande åtgärder man måste tillgripa för att kunna få fram
uppgifterna.
1. Identifiera vilka webbservrar som ingår i webbtjänsten
Först måste man besluta vilka webbservrar som ska räknas som en del av webbtjänsten.
Den definition på ett biblioteks webbplats som den nationella
forskningsbiblioteksstatistiken bygger på säger följande: "Som bibliotekets webbplats
räknas alla webbservrar som besvarar externa förfrågningar i bibliotekets unika domän
på Internet."
Webbservrar som tillhandahåller tjänster vars statistik redovisas på annan plats ska
exkluderas från webbplatsstatistiken. Om till exempel bibliotekets katalog har
8 (8)
webbgränssnitt bör besök till och leveranser av dessa sidor exkluderas från
webbplatsstatistiken, om användningen av bibliotekskatalogen har redovisats på annan
plats. Till webbplatsen räknas inte dokument som kan definieras som elektroniska
resurser (till exempel licensierade databaser) eller externa Internetresurser som är
länkade från bibliotekets webbplats. Till bibliotekets webbplats bör inte heller räknas
eventuella webbtjänster i bibliotekets domän som drivs på uppdrag av andra
organisationer och finansieras av dessa.
Gränsdragningarna om vad som ska räknas till bibliotekets webbplats blir ibland en ren
samvetsfråga; ibland tillhandahåller biblioteket tjänster till moderorganisationen som är
mer eller mindre diffust förknippade med bibliotekets huvuduppdrag och därför otydligts
finansierade. Ett sådant exempel är elektroniskt publicering av universitetets
doktorsavhandlingar och forskningsprojekt. Är detta en reguljär bibliotekstjänst eller en
externt finansierad tjänst?
2. Ställ in alla ingående webbservrar för utvidgad transaktionsloggning
Efter att man har beslutat vilka webbservrar som ska betraktas som ingående i
bibliotekets webbplats måste man preparera dem för utvidgad transaktionsloggning.
Detta behöver göras för att uppgiften om vilken webbläsare besökaren använder – user
agent - måste finnas i transaktionsloggen för att man ska kunna exkludera
söktjänsternas insamlingsprogram från statistiken. Om man avser att beräkna antalet
webbläsarbesök på sin webbplats måste man också se till att uppgift om besökarens
cookie hamnar i transaktionsloggen för att kunna identifiera unika webbläsare.
När man ändå ställer in utvidgad transaktionsloggning kan det också vara bra att se till
att man får med uppgiften om HTTP Referer – det vill säga vilken sida som länkade till
webbplatsen - i loggfilen. Med den uppgiften kan man få fram mycket intressant
information om varifrån besökarna kommer och vilka söktjänster och sökord de använt
för att hitta till webbplatsen.
Metoderna för att ställa in utvidgad transaktionsloggning skiljer sig naturligtvis för olika
webbservrar. Här ger vi exempel på hur denna inställning görs för de vanligaste
webbservrarna: Microsoft Internet Information Server (IIS) version 5 och Apache version
2.
Internet Information Server använder sig av W3C:s rekommenderade format för
transaktionsloggar: W3C Extended, men har inte med uppgifter om user agent, cookie
och referer i sin grundinställning. För att justera vilka uppgifter som ska loggas, gör
följande: Välj Properties för den webbplats som ska konfigureras. Under fliken Web Site
finns en inställning som heter Active Log Format. Där klickar man på knappen
Properties… och får upp en ny dialogruta. I denna dialogruta väljer man Extended
Properties och kryssar för User Agent och i förekommande fall även Cookie och Referer.
Apache använder som vi sett tyvärr fortfarande av det gamla Common Logfile Format
(CLF) som standard. Om man vill få med uppgifter om user agent, cookie och referer i
Apaches loggfil gör man på följande vis: Redigera direktivet LogFormat i
konfigureringsfilen config/http.conf så att loggformatet inkluderar de uppgifter du vill ha
med. Ett vanligt fördefinierat format som många statistikprogram kan läsa är det som
kallas combined (kallas ibland ELF eller XLF) och ser ut enligt följande:
LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\""
combined
Efter att man definierat ett namn (combined) för sitt format kan man använda sig av det
i direktivet CustomLog, som anger både placering och format enligt följande:
CustomLog logs/access.log combined
Den som vill gå ännu längre och även få in uppgiften om cookie i Apaches loggfil kan
använda sig av ett eget format som efterliknar W3C Extended genom att definiera hela
formatet själv enligt följande (på en rad):
LogFormat "%{%Y-%m%d}t\t%{%H:%M:%S}t\t%a\t%A\t%p\t%m\t%U\t%q\t%s\t%B\t%T\t%H\t%V\t%{Useragent}i\t%{Cookie}i\t%{Referer}i" W3CExtended
Och anropa det på samma sätt som förut:
CustomLog logs/access.log W3CExtended
9 (9)
Nackdelen med att skapa sitt eget W3C Extended är att Apache ju inte skriver in några
fältkoder med direktivet #Fields:, som ju egentligen krävs i rekommendationen för W3C
Extended. Man är alltså tvungen att skriva in fältkoderna manuellt överst i loggfilen eller
tala om för sitt statistikprogram exakt vilket format man använder och använda samma
format genom hela loggfilen.
3. Planera för insamling och eventuell sammanslagning av loggfilerna
Efter att man har identifierat sina webbservrar och ställt in dem för utvidgad
transaktionsloggning måste man ordna så att statistikprogrammet kan läsa in loggfilerna
för analys. Det kan antingen göras genom att man samlar ihop loggfilerna till den dator
där statistikprogrammet exekveras eller genom att man ordnar så att
statistikprogrammet kan nå loggfilerna på de datorer där webbservrarna finns.
Om man arbetar i en ren Windows-miljö eller en ren UNIX-miljö kan man ordna så att
statistikprogrammet har behörighet att nå loggfiler på andra servrar via fildelning. Om
man arbetar i en blandad miljö måste man ibland förlita sig på FTP eller HTTP. En del
kommersiella analysprogram har inbyggda funktioner för att hämta transaktionsloggar
med FTP eller HTTP. Om miljön är för komplex kan det enklaste vara att manuellt kopiera
transaktionsloggarna till analysservern.
En del gratisprogram förutsätter att hela transaktionsloggen finns i en enda fil. Om man
avser att använda ett sådant program måste man slå ihop sina transaktionsloggar för
hela året till en enda lång fil. I Windows görs detta med kommandotolkens copy på
följande vis:
> copy jan.log + feb.log + mar.log year.log
Alternativt:
> copy *.log
year.log
I UNIX kan detta göras med kommandot cat:
# cat jan.log feb.log mar.log > year.log
4. Exkludera söktjänsternas insamlingsprogram
I bilaga A finns en förteckning över de identifierare (user agent) som de 340 vanligaste
söktjänsternas insamlingsprogram använder sig av när de besöker webbplatser. De
program som ingår i denna förteckning bör uteslutas när man räknar fram sin BIBSAMstatistik för att den ska bli så rättvisande som möjligt mellan de olika biblioteken.
Metoden för att exkludera söktjänsternas program är beroende av vilket analysprogram
man använder sig av. I de flesta program använder man sig av ett filter för user agent
och säger att alla rader i transaktionsloggen med en viss user agent ska ignoreras. En del
program kan också redovisa besöken av söktjänsternas program separat.
Beräkning av antal levererade sidor (sidleveranser)
För att kunna beräkna antal sidleveranser enligt ovanstående definition måste man
kunna avgöra vad som är innehållsfiler på webbplatsen och se till att få bort leveranser
av andra filer ur statistiken. Detta gör många av de bättre analysprogrammen helt
automatiskt, men det är ändå viktigt att finjustera denna mekanism manuellt, speciellt
om man använder ramar (frames) på sin webbplats.
Definiera vad som är innehållssidor
I del 1 av bilaga B finns en förteckning över suffix för de typer av filer som oftast
betraktas som innehållsfiler på en webbplats. Om det analysprogram man använder har
en möjlighet att ställa in att endast dessa filtyper ska räknas vid beräkning av antal
sidleveranser är det enklast att göra det och låta programmet ignorera alla övriga
filtyper.
Observera dock att vissa filtyper kan representera både innehållsfiler och
dekorationsfiler. HTML-filer och Flash-filer är exempel på filtyper som både kan
representera innehåll och dekoration. I vissa fall kan bildfiler och ljudfiler också anses
representera innehåll, men det vanliga är ju att dessa element ändå ligger inbäddade i
10 (10)
HTML-filer och att det blir mest rättvisande att räkna statistik på de inramande HTMLfilerna snarare än själva mediafilerna.
Filtrera bort bilder, stilmallar, JavaScript och delar av ramset
Som ett alternativ eller komplement till att definiera vad som är innehållsfiler på
webbplatsen kan man välja att ange vilka filtyper som inte är det. Det finns en rad
filtyper som i stort sett aldrig betraktas som innehåll. Vanliga exempel på sådana är
bilder (gif, jpg, png), stilmallar (css), JavaScript (js) och delar av ramset (html, htm,
asp, php, cmf). Del 2 av bilaga B innehåller en förteckning över filtyper man bör beakta
när man väljer att filtrera bort icke-innehållande filer från statistiken.
Om man använder ramar (frames) på sin webbplats kräver analysen extra eftertanke.
Man bör kunna ange för sitt analysprogram i vilka kataloger navigationsdelarna av
ramsetet finns eller vilka namn navigationsfilerna har för att programmet ska kunna
exkludera dem från statistiken. En bra metod för att få bort sådana filer är att lägga dem
alla i en katalog med ett signifikant namn, till exempel /_elements/ och utesluta alla filer
och kataloger under denna ur statistiken. Ett annat alternativ är att ha en konsekvent
namngivning (t.ex. index_nav.htm) eller suffix (.htm) på navigationsdelarna av
ramsetet, så att man kan filtrera bort dem ur statistiken.
Några redskap för att beräkna sidleveranser
Antal sidleveranser är ett så grundläggande mått på en webbplats användning att i stort
sett alla statistikprogram kan beräkna detta. Möjligen kan man få vissa problem med att
utesluta filer från ramset och sidor levererade till söktjänsternas insamlingsprogram om
man använder något gratisprogram.
Några program som kan beräkna antal sidleveranser från loggfiler i ELF eller W3C-format
för ett helt år är:
•
Analog (freeware)
•
Webalizer (freeware)
•
Summary
•
WebTrends
•
NetTracker
Mer om fördelar och nackdelar med de olika programmen i avsnittet "Några redskap för
analys…".
Beräkning av antal virtuella besök per IP-adress (IP-besök)
Att beräkna antal besök per IP-adress kräver inte några ytterligare förberedelser utöver
dem som redan gjorts för att beräkna antal sidleveranser. Det är dock viktigt att se till
att beräkningen av besök baseras på en time-out om 30 minuter för att värdena mellan
olika bibliotek ska bli jämförbara. I de flesta program som kan beräkna besök kan man
ställa in vilken time-out man vill ha, men standardinställningen brukar vara 30 minuter.
Man måste också se till att analysprogrammet exkluderar besökande insamlingsprogram
från sin statistik över antal besök.
Några redskap för att beräkna IP-besök
Några program som kan beräkna antal IP-besök från loggfiler i ELF eller W3C-format för
ett helt år är:
•
Webalizer (freeware)
•
Summary
•
WebTrends
•
NetTracker
Mer om fördelar och nackdelar med de olika programmen i avsnittet "Några redskap för
analys…".
11 (11)
Beräkning av antal virtuella besök per webbläsare
(webbläsarbesök)
Den mest rättvisande uppgiften om antal besök på sin webbplats beräknar man genom
att basera uppgiften på antal besökande webbläsare istället för besökande IP-adresser.
Denna mätning är dock också den mest komplicerade att genomföra eftersom man
måste vidta åtgärder för att identifiera besökande webbläsare på samtliga webbservrar
som ingår i webbtjänsten.
Identifiering av webbläsare görs med så kallade cookies. Läs mer om cookies i avsnittet
"Cookies används för att skapa sessioner". Cookies kan bara skapas med hjälp av någon
form av programmering, antingen på med något programmeringsspråk på webbservern
eller i webbläsaren med hjälp av JavaScript eller Java.
Som ett alternativ kan man också välja att installera ett cookie-hanterande
insticksprogram på sin webbserver. Företaget NetIQ som säljer analysprodukten
WebTrends erbjuder gratis nedladdning av cookiehanterande insticksprogram för Apache,
IIS och Netscape servrar på sin webbplats
(http://www.netiq.com/support/wrc/plugins.asp).
Även med denna mätmetod gäller att man ska se till att time-outen för beräkning av ett
besök är satt till 30 minuter. Man måste även här se till att analysprogrammet utesluter
besökande insamlingsprogram från sin statistik.
Några redskap för att beräkna webbläsarbesök
Om man vill basera sin statistik på antal besökande webbläsare verkar det som om man
är hänvisad till kommersiella program. Ett par sådana som kan beräkna antal
webbläsarbesök från loggfiler i XLF/ELF eller W3C-format för ett helt år är:
•
WebTrends
•
NetTracker
Mer om fördelar och nackdelar med de olika programmen i avsnittet "Några redskap för
analys…".
Några redskap för analys av webbloggar
I denna del redogör jag för några av de redskap jag har testat för att ta fram de
statistikmått som BIBSAM önskar att biblioteken levererar för sina webbplatser. Jag har
testat ett 15-tal olika program i prisklasser från freeware upp till 10 000 kr.
Testerna av programmen har skett i relativt raskt tempo, och ibland har flera program
testats parallellt. Jag vill därför reservera mig för eventuella felaktigheter i
bedömningarna. Om det är någon som har bättre information eller känner till något bra
program i prisklassen under 10 000 kr som inte nämns här tar jag gärna emot
kommentarer på e-postadress [email protected].
För den som vill utvärdera statistikprogram själv finns omfattande lista över
analysredskap på adress: http://www.uu.se/Software/Analyzers/Access-analyzers.html
Gratisprogram
Många av de enklare gratisprogrammen har fallit ifrån i utvärderingen då de inte kan
hantera det W3C:s Extended Log Format som Internet Information Server använder.
Några gratisprogram som testats, men fallit ifrån är:
•
AWStats [http://awstats.sourceforge.net] – kan inte hantera W3C Extended med
valfria fält
•
Basic Traffic Reporter [http://www.householdventures.com/software/btr.htm] –
kan inte filtrera bort söktjänsternas insamlingsprogram
•
wwwstat – stödjer inte W3C Extended
Här följer en mer detaljerad diskussion av de mest intressanta gratisprogrammen:
12 (12)
Webalizer
Webbplats
http://www.mrunix.net/webalizer/
Pris
Freeware
Version – Datum
2.01 - September 2000, patch för W3C Extended juli
2002
Plattformar
UNIX, Windows
Administrativt gränssnitt
Kommandorad, konfigurationsfiler
Loggfilsformat som stöds
CLF, ELF/XLF, W3C via en patchad version för
Windows
Hanterar flera loggfiler
Nej, men kan spara analyshistoria och sammanställa
flera loggfiler från samma webbserver
Antal samtidiga webbplatser
1
Rapporterar sidleveranser
Ja
Beräknar IP-besök
Ja
Beräknar webbläsarbesök
(cookies)
?
Kan exkludera robots
Ja
Fördelar
•
Snabbt
Nackdelar
•
Ej DNS-uppslagning för Windows
•
Analyserar bara en webbserver i taget
•
Relativt komplicerad konfigurering för att
hantera flera loggfiler
Kommentarer
Det enda gratisprogrammet som kan räkna IP-besök
baserat på W3C:s loggformat
Slutsats
Kan användas för att beräkna IP-besök och
sidleveranser från en webbserver för inrapportering till
den nationella statistiken f. Webbplatser med flera
webbservrar måste summera resultaten från dessa
manuellt.
Sammanfattning:
•
Det bästa gratisprogrammet för beräkning av den webbstatistik som ingår den
nationella forskningsbiblioteksstatistiken.
•
Krånglig installation och anpassning för beräkning av data över ett helt år.
•
W3C-loggar kräver specialvariant av programmet.
•
Kan bara räkna statistik på en webbserver i taget.
Webalizer är det enda gratisprogrammet jag hittat som kan beräkna både antal
sidleveranser och antal IP-besök för loggfiler i W3C-format. Programmet är egentligen
inte avsett för att beräkna statistik för ett helt år, utan snarare för en månad i taget. Det
har dock en funktion som an mellanlagra statistik för varje månad och sedan summera
statistiken för ett helt år.
Några nackdelar med programmet är att det egentligen är skrivet för en UNIX-miljö och
främst avsett för att analysera transaktionsloggar från webbservern Apache. För att
kunna analysera W3C-loggar i Windows-miljö är man tvungen att hämta en modifierad
version av programmet på en annan webbplats med adressen:
http://www.ailis.de/~k/patches/ (augusti 2002). Förhoppningsvis kommer denna
modifikation att införas i det ordinarie programmet inom kort.
En annan nackdel med programmet är att Windows-versionen inte kan göra DNS-uppslag
för att omvandla IP-adresser till datornamn, men detta är ju inte viktigt för den
nationella statistikinsamlingen.
13 (13)
Ytterligare en nackdel med Webalizer att den bara kan beräkna statistik på en
webbserver i taget. Det betyder att webbplatser med flera webbservrar måste beräkna
antal sidleveranser och IP-besök separat för varje server och sedan summera dessa
manuellt.
Trots alla dessa nackdelar är programmet alltså det bästa gratisprogrammet för att
redovisa antal IP-besök på en webbplats.
Programmet bearbetar runt 500 MB loggfil (4 miljoner rader) på cirka 6 minuter utan
DNS-uppslag (Dator: 800 MHz Pentium III, 256 MB RAM).
Analog
Webbplats
http://www.analog.cx
Pris
Freeware (GPL)
Version – Datum
5.24 - Juni 2002
Plattformar
UNIX, Windows NT/2000/XP, MacOS
Administrativt gränssnitt
Kommandorad, konfigurationsfiler
Loggfilsformat som stöds
CLF, ELF/XLF, W3C
Hanterar flera loggfiler
Ja
Antal samtidiga webbplatser
Obegränsat
Rapporterar sidleveranser
Ja
Beräknar IP-besök
Nej
Beräknar webbläsarbesök
(cookies)
Nej
Kan exkludera robots
Ja
Fördelar
Nackdelar
•
Snabbt
•
Stabilt
•
Mycket konfigurerbart
•
Beräknar inte besök
Kommentarer
Kraftfullt och beprövat. Det mest använda
webbanalysprogrammet.
Slutsats
Går att använda för att beräkna sidleveranser för
inrapportering till den nationella
forskningsbiblioteksstatistiken, dock ej virtuella besök
Sammanfattning:
•
Det bästa gratisprogrammet för beräkning av antal sidleveranser
•
Ett snabbt, stabilt och beprövat program för alla typer av system och loggfiler
•
Beräknar inte besök
Analog är det mest använda analysprogrammet för webbloggar. Programmet är populärt
på grund av sin stabilitet och hastighet samt att det finns för så många olika plattformar
och stödjer så många olika loggformat. Det kan också slå ihop statistik från många
loggfiler i olika format.
En allvarlig nackdel med programmet är dock att det inte kan räkna ut vare sig IP-besök
eller webbläsarbesök, eftersom programmets utvecklare Stephen Turner anser att detta
är ett missvisande mått på en webbplats användning och därför vägrar att ta fram den
funktionen för programmet. (Turners förklaring finns på adress:
http://www.analog.cx/docs/webworks.html)
För den som beslutar sig för att redovisa statistik i form av antal sidleveranser är dock
Analog ett utmärkt redskap med ett utmärkt pris/prestanda-förhållande. Eftersom
programmet är så populärt finns det också en rad tilläggsprogram för bearbetning av
data att hämta från webbplatsen, dock ännu inget som kan beräkna antal IP-besök,
tyvärr.
14 (14)
Programmet bearbetar runt 500 MB loggfil (4 miljoner rader) på cirka 2 minuter utan
DNS-uppslag (Dator: 800 MHz Pentium III, 256 MB RAM).
Logfile Analyse
Webbplats
http://www.jan-winkler.de/dev/e_logf.htm
Pris
Freeware
Version
6.0
Plattformar
Windows
Administrativt gränssnitt
Grafiskt
Loggfilsformat som stöds
CLF, W3C
Hanterar flera loggfiler
Ja
Antal samtidiga webbplatser
1
Rapporterar sidleveranser
Ja
Beräknar IP-besök
Nej
Beräknar webbläsarbesök
(cookies)
Nej
Kan exkludera robots
Ja?
Fördelar
•
Grafiskt gränssnitt
Nackdelar
•
Beräknar inte besök
•
Knapphändig dokumentation
•
Relativt långsamt
•
Oklart om designelement utesluts från
statistiken
•
Räknar anrop snarare än sidleveranser
Kommentarer
Den knapphändiga dokumentationen gör det svårt att
förstå om programmet utesluter robots från statistiken
Slutsats
Kan kanske användas för att beräkna sidleveranser för
inrapportering till den nationella
forskningsbiblioteksstatistiken, dock inte antal besök.
Sammanfattning:
•
Ett enklare Windows-baserat program för beräkning av antal sidleveranser på
mindre webbplatser
Programmet har varit svårt att utvärdera på grund av den knapphändiga och dåligt
översatta dokumentationen. Med sitt grafiska administratörsgränssnitt kan det möjligen
vara ett alternativ till Analog och Webalizer för den som tycker att det är besvärligt att
använda konfigureringsfiler och kommandoprompt för att exekvera statistikprogrammen.
Den som väljer att använda programmet för att redovisa sidleveranser bör dock ta reda
på huruvida det kan exkludera designelement och besökande robotar från statistiken.
Programmet bearbetar runt 500 MB loggfil (4 miljoner rader) på cirka 40 minuter utan
DNS-uppslag (Dator: 800 MHz Pentium III, 256 MB RAM).
Kommersiella program
Bland de kommersiella programmen finns naturligtvis en mycket större skara program
som kan beräkna både sidleveranser, IP-besök och webbläsarbesök. Med de
kommersiella programmen är dock prisbilden det största problemet – om man har sin
webbplats utspridd över en rad olika fysiska servrar måste man lösa flera licenser och
kostnaderna springer lätt upp i 50 000 kr.
Här är en lista med pris och webbadresser för några kommersiella program med
baskostnad under 10 000 kr:
•
WebTrends Log Analyzer ($499) - http://www.webtrends.com/
15 (15)
•
Net Tracker ($495) - http://www.sane.com/
•
Summary ($59) - http://www.summary.net/
•
Funnel Web Analyzer (gratis i 70 dagar) http://www.quest.com/funnel_web/analyzer/
•
123 Log Analyzer ($130) - http://www.123loganalyzer.com/
•
SawMill ($400) - http://www.sawmill.net/
•
AccessWatch ($40) - http://accesswatch.com/
•
Wusage ($75) - http://www.boutell.com/wusage/
•
FastStats - http://www.mach5.com/products/analyzer/index.php
•
WebSite Reporter - http://www.websitereporter.com/
•
WebSuxess ($750) http://www.exody.net/eng/products/websuxess/websuxess.html
•
Urchin ($695) - http://www.urchin.com/
•
SurfStats ($95) - http://www.surfstats.com/
Jag har försökt testa och utvärdera några av de mest intressanta programmen.
Här följer en mer detaljerad redogörelse för ett par av de mest intressanta programmen.
Jag har främst valt att fokusera på programleverantörer med svensk representation.
WebTrends Log Analyzer
Webbplats
http://www.webtrends.com/
Svensk representation
Nocom Partner Networks – http://www.nocom.se
Kontakt: Michael Karletorp, tel. 0708-651037
Pris
$499
Version
7.0
Testperiod
14 dagar
Plattformar
Windows
Administrativt gränssnitt
Grafiskt
Loggfilsformat som stöds
CLF, ELF/XLF, W3C
Hanterar flera loggfiler
Ja
Antal samtidiga webbplatser
50 (på samma fysiska webbserver)
Rapporterar sidleveranser
Ja
Beräknar IP-besök
Ja
Beräknar webbläsarbesök
(cookies)
Ja
Kan exkludera robots
Ja
Fördelar
Nackdelar
•
Bra grafiskt gränssnitt
•
Kan arbeta med cookie-hanterande
insticksprogram
•
Kan bara användas för en enda fysisk
webbserver
•
Log Analyzer finns bara för Windows
Kommentarer
WebTrends Reporting Center (45 000 kr) kan
användas för 500 webbplatser spridda över flera
fysiska servrar
Slutsats
Kan användas för den nationella
forskningsbiblioteksstatistiken.
Sammanfattning:
•
Det mest använda kommersiella webbanalysprogrammet.
16 (16)
•
Rimlig kostnad om man har alla sina webbservrar på samma fysiska server.
WebTrends är inte utan orsak det mest använda kommersiella analysprogrammet.
Programmet har ett trevligt och relativt kraftfullt grafiskt gränssnitt för administration
och har en rimlig prisbild för den som har sin webbtjänst lokaliserad till en och samma
fysiska server. För den som har sin webbtjänst på flera fysiska webbservar
rekommenderar företaget NetQI som producerar WebTrends att man köper WebTrends
Reporting Center.
Prestanda för WebTrends har inte kunnat beräknas då testperioden löpte ut innan jag
hann utföra detta test.
NetTracker
Webbplats
http://www.sane.com/
Svensk representation
Cybernetics Solutions Nordic AB http://www.cybernetics.se/.
Kontakt: Ted Lagerström, tel. 08-470 39 78
Pris
$495
Version
NetTracker 5.5 Professional
Testperiod
15 dagar
Plattformar
Windows, UNIX, MacOS
Loggfilsformat som stöds
CLF, XLF, W3C
Antal samtidiga webbplatser
1
Hanterar flera loggfiler
Ja
Rapporterar sidleveranser
Ja
Beräknar IP-besök
Ja, använder en kombination av IP och user agent
Beräknar webbläsarbesök
(cookies)
Ja, om cookies finns används de i första hand
Kan exkludera robots
Ja
Fördelar
Nackdelar
•
Räknar besök baserat på IP-adresser och
cookies
•
Kan användas på distans via webbgränssnitt
med lösenord
•
Administreras via klumpigt webbgränssnitt
•
Långsam import av data
•
Endast en samtidig rapport per installation
Kommentarer
NetTracker 5.5 Enterprise; $995 för 5 webbplatser,
$1495 för 10 webbplatser
Slutsats
Kan användas för den nationella
forskningsbiblioteksstatistiken på en webbserver
Sammanfattning:
•
Ett kraftfullt program med webbserver-baserat gränssnitt både för administration
och rapportering.
NetTracker är en webbaserad produkt som främst är avsedd att exekvera på själva
webbservern. En stor fördel med programmet är därför att många olika personer kan ta
fram den statistik de önskar. En nackdel är dock att webbgränssnittet är avsevärt
klumpigare att använda för administration än ett lokalt grafiskt gränssnitt.
Programmet beräknar i första hand besökstatistik baserad på inloggade användare, i
andra hand cookies, om sådana finns, i sista hand använder programmet en kombination
av IP-adress och user agent för att identifiera besökare. Definierade robotar utesluts
automatiskt från statistiken.
17 (17)
En nackdel med programmet är att den billigaste versionen endast är avsedd att
användas för en enda fysisk webbserver. Vill man analysera fler webbservrar får man
köpa fler licenser och kostnaden åker raskt i höjden.
Programmet bearbetar runt 500 MB loggfil (4 miljoner rader) på cirka 80 minuter utan
DNS-uppslag (Dator: 800 MHz Pentium III, 256 MB RAM).
Summary
Webbplats
http://www.summary.net/
Pris
$59
Version - datum
2.2.2 – 2002-08-13
Testperiod
30 dagar
Plattformar
Windows, UNIX
Administrativt gränssnitt
Webb
Loggfilsformat som stöds
CLF, ELF/XLF, W3C
Hanterar flera loggfiler
Ja
Antal samtidiga webbplatser
3
Rapporterar sidleveranser
Ja
Beräknar IP-besök
Ja
Beräknar webbläsarbesök
(cookies)
?
Kan exkludera robots
Ja
Fördelar
Nackdelar
Kommentarer
Slutsats
•
•
•
•
Rapporter kan skapas via webbgränssnitt
Mycket snabbt
Kan ladda ned loggfiler över nätet
Svårnavigerat webbgränssnitt för
administration
• Icke-intuitiv hantering av loggfilernas placering
Verkar mycket bra för sitt pris. Summary Plus ($249)
kan analysera 50 logiska webbservrar (domains).
Kan användas för IP-besök och sidleveranser för den
nationella forskningsbiblioteksstatistiken på en fysisk
webbserver med maximalt tre logiska webbservrar.
Om webbplatsen består av flera servrar måste statistik
från servrarna adderas manuellt.
Sammanfattning:
•
Ett mycket prisvärt och snabbt program
•
Något klumpigt webbgränssnitt, som dock har fördelen att rapporter kan skapas
på distans direkt över webben
Summary är en webbaserad produkt som främst är avsedd att exekvera som en egen
webbserver. En stor fördel med programmet är därför att många olika personer kan ta
fram den statistik de önskar. En nackdel är dock att webbgränssnittet är avsevärt
klumpigare att använda för administration än ett lokalt grafiskt gränssnitt.
Programmet kräver att de loggfiler som ska analyseras ligger i en speciell, ickekonfigurerbar katalog på den dator där programmet exekveras. Det kan dock också ladda
en loggfil från nätet, om den kan nås med HTTP eller FTP.
Programmet framstår som ett gott alternativ för att ta fram BIBSAM-statistik för IPbesök och sidleveranser för den som inte har så stor budget.
Programmet bearbetar runt 500 MB loggfil (4 miljoner rader) på cirka 2 minuter utan
DNS-uppslag (Dator: 800 MHz Pentium III, 256 MB RAM).
18 (18)
Resurser för statistik från webbservrar
Diskussionsforum vid IDG
På webbplatsen eforums.idg.se finns två diskussionsforum för frågor kring analys av
webbservrarnas loggfiler. Du når dem på adress http://eforum.idg.se/webbanalys/
Det är fritt för alla att läsa inläggen, men vill du göra egna inlägg måste du vara
registrerad hos IDG.
Webb-komplement till denna handbok
På Karolinska Institutets Biblioteks webbplats finns mer material kring denna handbok för
BIBSAM-statistik. Här finns konfigureringsfiler, JavaScript och uppdateringar av
utvärderingarna av olika statistikprogram.
Adress: http://vision.kib.ki.se/portfolio/statistics/
Bilagor
A. Identifierare för söktjänsternas insamlingsprogram
Här följer en lista på insamlingsprogram som bör uteslutas ur BIBSAM-statistiken för
antal besök eller antal sidleveranser för att denna ska bli rättvisande mellan olika
bibliotek. Känner man till några egna lokala insamlingsprogram bör dessa naturligtvis
också uteslutas ur statistiken.
I följande lista finns identifierare (user agent) för 342 stycken av de vanligaste
insamlingsprogrammen (med högertrunkering för att fånga upp olika versioner och
varianter av programmen):
AbachoBOT*
Atomz*
contype*
entireweb*
abadoor.de*
AvantGo*
CoolBot*
EOE Spider*
abador.de*
AVSearch*
CoolVVeb*
EricssonR*
Active Cache Request*
BaiDuSpider*
cosmos*
EroCrawler*
ADP BOT*
beholder*
craftbot@yahoo*
e-sense*
AIRF*
bigfoot*
Crawler V*
ESISmartSpider*
Albatros Search*
Bilbo*
CrawlerBoy*
etchels*
AlkalineBOT*
bjaaland*
CyberSpyder*
Excalibur*
ALLSearch*
Blitzsuche*
DataDetective*
EZResult*
almaden*
BlogBot*
davesengine*
FastCrawler*
AltaVista*
BNet*
DaviesBot*
fastrun*
Ankiro*
bombensex*
daypopbot*
fastwebcrawler*
antibot*
boris*
DFusionBot*
FAST-WebCrawler*
A-Online Search*
Buibui*
DiaGem*
FDSE*
Aport*
bumblebee*
Digimarc WebReader*
fetch*
appie*
Bun*
DIIbot*
Findmore*
Arachne*
Cafi*
Direct Hit Grabber*
Fireball*
Arachnoidea*
Cartographer*
DoCoMo*
Firefly*
ArchitextSpider*
ChemieDE-NodeBot*
EADS*
first-search*
arianna*
chercheBot*
earthlisten*
fix-suche*
Armadillo*
Chimera*
EchO*
FlipDog*
Ask Jeeves*
CityReview*
EcommBot*
Fluffy*
AskMax*
CLIPS-index*
eidetica*
flunky*
ASPSeek*
ClueWeb*
ForschungsPortal*
asterias*
COMBINE*
empyreum-monolithiccrawler*
AtlantisSearch*
CONNINC*
enola*
FreeFind*
FragGo*
19 (19)
FREESERVE*
larbin*
ocnie*
Sidewinder*
FruitAgent*
LEIA*
OliverPerry*
Site Server*
funksuchmaschine-spider*
Libro*
onlinepilot.de*
Slarp*
fusionbot*
libwww*
Openfind*
SliderSearch*
FUX_Page_Loader*
linecker*
OpenTextSiteCrawler*
Slurp*
Gaisbot*
Link Valet Online*
openxxx*
SlySearch*
galaxy*
LinkAlarm*
ORA_checksite*
SmartSpider*
gazz*
Linkbot*
PageDown*
SnoopRob*
GemInEye*
LinkGuard*
parallelContextFocusCrawler* SoccerCrawler*
GentleSpider*
Links2Go Similarity Engine*
pavuk*
somewhere*
GHKS_WebSearch*
LinkWalker*
PCBeaconBot*
SpaceBison*
gigabaz*
LNSpiderguy*
Peggy*
Spinne*
godado*
LotusDiscovery*
PerMan Surfer*
StackRambler*
Goggle*
Lycos_Spider*
PicoSearch*
Streamguide*
GolfFindIt*
marvin*
Pioneer*
suchfuzzy*
Googlebot*
MATTER_BOT*
Pita*
suchnase*
GoSearch*
MaxBot*
PlantyNet*
SuperScout*
griffon*
m-crawler*
Plumtree*
sureseeker*
grub*
MediaCrawler-*
Poacher*
surfer.ch*
Gulliver*
MegaSheep*
polybot*
SurferX*
Gulper*
menshealth*
Pompos*
suzuran*
Harvest-NG*
Merc_resh*
porncrawler*
SyncBot*
Het Net*
Mercator*
princeton*
Szukacz*
htdig*
MetaGer-LinkChecker*
psbot*
takoy*
http client*
Microsoft URL Control*
PUA*
Tarantula*
HTTrack*
MIIxpc*
rabaz*
targetblaster*
Hubater*
MitakeWebIndexer*
Rainbot*
targetblaster*
Hubbard One*
moget*
Rainspider*
Tateji_Crawler*
ia_archiver*
MOSES Spider*
ramBot*
TECOMAC*
ImageCollector*
MS Search*
RC7.3 Release*
Teleport*
IMS Crawler*
MSIECrawler*
RealNamesBot*
teoma_agent*
Indy Library*
MSpider*
RepoMonkey Bait & Tackle*
teomaagent*
Inet library*
multimedia search*
roach*
T-H-U-N-D-E-R-S-T-O-N-E*
Infoseek*
MultiText*
[email protected]*
TITAN*
Inktomi*
mumpits*
RockBot*
tivraSpider*
InternetAmi*
MuscatFerret*
Rondello*
Tomorrow*
InternetArchive*
MyFinances*
Rotondo*
Toutatis*
internetseer*
nabot*
RRZN*
TridentSpider*
iQuest*
NationalDirectory-WebSpider* ru-robot*
Iron*
Net_Vampire*
Scooter*
TSBOT*
Jack*
NetAnts*
ScourCrawler*
UdmSearch*
Java*
NetMechanic*
ScoutAbout*
Ultraseek*
Jellyfish*
NetSprint*
scoutmaster*
UltraSpider*
JennyBot*
NetZippy_Search*
ScreenSurfer*
unlostBot*
JPSnet*
NetzwegSpider*
search.ch*
URL Spider Pro*
jScoot*
NewsBoardAgent*
SearchNZ*
user-1.ip3000.com*
JustView*
nkeeper*
SearchTone*
user-1.petersnews.com*
Katriona*
nkeeper.com*
seifertfamily*
utobia*
KIMO*
Nocilla*
Septera*
utopy*
KIT-Fireball*
Nutscrape*
SERcrawler*
Vagabondo*
Kolibri*
nutSPIDER*
SerialData*
VILL Spider*
kototoi-crawl*
o@o*
sexy-eyes*
VillSpider*
kulturarw3*
oBot*
sherlock*
ViperNET*
Trovatore*
20 (20)
Virgilio*
WebReaper*
Wget*
yellopet*
vspider*
webresult*
whatUseek*
Zeus*
walhello*
WebSauger*
WhizBang*
ZyBorg*
Wanadoo*
Website Quester*
www.eventax.de*
WDG_SiteValidator*
WebTrends*
WWWijzer*
WebCraft*
WebWalker*
xyro*
WebFountain*
webwombat*
yahoo.com*
Webinator*
WFARC*
Yandex*
Listan finns också som textfil för nedladdning på adress
http://vision.kib.ki.se/porfolio/statistics/crawlers.txt
För den som inte tycker att listan ovan räcker finns fler identifierare på adress:
http://www.jafsoft.com/searchengines/webbots.html
B. Vanliga filtyper i webbtjänster
Suffix för vanligt förekommande innehållsfiler
•
html, htm, shtml, sht – Statiska HTML-dokument
•
asp, cfm, php, jsp, pl, cgi – Dynamiska webbsidor
•
txt, rtf – text
•
pdf – Portable Document Format - Acrobat
•
ps, eps – PostScript
•
doc, dot, wiz – Microsoft Word
•
xls, xlb – Excel
•
ppt, pps, pot – PowerPoint
•
swf - Macromedia Shockwave Flash
•
mpeg, mpg, mpe, qt, mov - Video
•
zip, sit, sea, gz, tar, z, hqx, cpt – Komprimerade filarkiv
•
bin, com – Binära filer
•
exe – Windows-program
Suffix för vanligt förekommande dekorations- och navigationsfiler
•
html, htm, shtml, sht – HTML-dokument i navigationsdelar av ett ramset
•
asp, cfm, php, jsp, pl, cgi – Dynamiska webbsidor i navigationsdelar av ett ramset
•
gif, jpg, jpeg, jpe, png, tiff, tif, ico, bmp – Bilder
•
css – Stilmallar
•
js, jar, class – JavaScript och Java-program
•
mp3, au, wav, mid, snd, aif, aiff – Ljudfiler
•
ram, ra – Real Audio
•
swf - Macromedia Shockwave Flash
21 (21)