Analyse av trafikken på et nettsted kan variere fra hvor mange somhar besøkt nettstedet ditt en bestemt dag til hvilken bannerannonse som har generert mest inntekt for annonsørene forrige uke. Det er mange vstatistikkertøy på markedet, og felles for disse er at de benytter nettstedets loggfil som basis for sine analyser. Kvaliteten på disse loggfilene blir imidlertid dårligere og dårligere.
Bruk av loggfiler som basis for trafikkanalyse på nettsteder har en rekke alvorlige feilkilder som kan føre til gale konklusjoner og tap av
inntektsbringende trafikk.
Hver eneste forespørsel fra en tilfeldig surfer eller søkerobot registreres i nettstedets loggfil. Disse forespørslene kalles vanligvis hits og registreres for hvert eneste element som lastes ned fra serveren for at den besøkende skal kunne se alt innholdet på den siden de har spurt etter. Hits er altså ikke det samme som antall besøk eller unike besøkende.
Om en nettside er bygget opp med en tabell som inneholder tekst, bilder og animasjoner så er nedlasting av hver av disse komponentene en hit. Har du 10 bilder så blir bildene til 10 hits. Ti sider med ti produktbilder hver er 100 hits i tillegg til teksten og andre komponenter som kjøpeknapper etc. Så neste gang du hører om noen som har 10,000 hits så kan det hende at dette skriver seg fra færre enn 100 besøk.
Kanskje den viktigste informasjonen fra en loggfil er det vi kaller for
“Referrer log stats” . Dette er informasjon som viser hvor de besøkende kommer
fra. Om de kommer fra en søkemotor så vises også det søkeordet eller den søkefrasen de benyttet. På grunnlag av dette kan du finne ut hvor mange som benytter hvilke søkeord og hvilke fraser, i hvilken rekkefølge og fra hvilke søkemotorer. Analysen sier imidlertid ingenting om alle de som ikke fant deg og om hvilke søkeord de benytter, men som du ikke har tenkt på.
En alvorlig svakhet med loggfilen er relatert til den informasjonen den ikke inneholder.
Ett eksempel er relatert til elektronisk handel hvor loggfilen ikke lagrer informasjon om hvilke produkter som er kjøpt og i hvilke kvanta.
Et annet eksempel er at den ikke har mulighet for å fange opp trafikk som benytter data som allerede ligger i cache.
Proxyservere skaper problemer
Et tredje eksempel på feilkilde er bruken av proxy servere. En proxy server sørger normalt for dynamisk tildeling av IP-adresser til servere og PC’er i det lokale nettverket (LAN). Sett fra et nettsted ute på internett vil forespørsler fra alle PC’er i det samme lokale nettverket bli identifisert med proxy serverens IP-adresse. Loggfilen vil dermed ikke klare å skille disse brukerne fra hverandre og fem forespørsler fra fem forskjellige brukere i det lokale nettverket vil bli oppfattet som fem forespørsler fra den samme brukeren.
Cache reduserer kvaliteten på loggen
Selv om cache er viktig for internett skaper det store problemer ved
logganalyse. De fleste nettsteder har muligheten til å lagre de besøkendes
aktivitet i loggfiler. Når en nettleser retter en forespørsel til et nettsted
for å se en bestemt side med en spesifikk URL, så lages et entry i loggfilen som beskriver hvilke data det spørres etter. Loggen inneholder en kombinasjon av informasjon fra selve forespørselen og fra leveransen tilbake til nettleseren.
Hensikten med cache er å effektivisere nedlastingen for den besøkende, og for å få dette til blir mange av forespørslene fanget opp før de kommer frem til serveren.
La oss se på et eksempel:
Først må du finne ut om din egen PC bruker cache. Om du har vært på den siden denen boken er kjøpt og sjekket rundt en stund før du handlet kan det godt hende at den informasjonen du hentet frem fortsatt er tilgjengelig i maskinen din. Dette er avhengig av hvor mye plass du har satt av til cache og hvor ofte du tømmer den manuelt. Så om du bestememr deg for å besøke sidene en gang til så vil nettleseren førsat sjekke cache i maskinen din. Om alt er tilgjengelig der og ikke trenger å oppdateres så er det ingen grunn til å besøke serveren en gang til. Og dermed registreres heller ikke dette andre besøket i loggfilen.
Om informasjonen ikke er tilgjengelig i maskinen din vil nettleseren sjekke cache hos din ISP. Om noen som benytter samme ISP som deg nettopp har besøkt de samme sidene slipper nettleseren å gå videre. Så dermed får nettstedet heller ikke denne gangen oppdatert loggfilen sin med det nye besøket.
Om informasjonen ikke er tilgjengelig hos ISP’ens cache kan det tenkes at det finnes en cache på en annen server i ett av veikryssene på veien til det nettstedet du skal besøke.
Om du sjekker din egen statistikk for å finne ut hvor de besøkende kommer fra og hvor mange de er så kan altså statistikken være svært mangelfull. Har du mange internasjonale besøkende og det er mer caching fra Japan til Norge enn fra USA til Norge kan det hende du har flere japanske besøkende enn amreikanske selv om statistikken sier det motsatte.
Et annet problem oppstår om en av dine besøkende har skrudd av
cachingmuligheten på sin PC. Denne besøkende kan ha behov for å komme tilbake til deg 10-20 ganger for å hente mere informasjon. I loggen vil det registreres 10-20 forespørsler, men det har bare vært en besøkende.
Selv om loggfilanalyse kan gi svært relevant informasjon om trafikken på nettstedet ditt kan den altså ikke gi deg eksakte data. I så henseende er informasjonen mer verdifull for de som drifter nettstedet ditt siden de gir dem informasjon om belastningen på serveren.
DEFINISJONER :
Cache – En liten del av en datamaskins hukommelse som benyttes for å lagre data som nylig er aksessert. Cache er konstruert for å effektivisere etterfølgende aksesser til de samme dataene.
Når data leses fra, eller skrives til, et område på datamaskinens
lagringsområde (hard disk), blir en kopi også lagret i cache sammen med adressen til lagringsområdet. Cache overvåker deretter forespørsler mot denne adressen. Er dataene allerde i cache er det disse som sendes tilbake som svar på forespørselen. Er dataene ikke i cache vil de bli hentet og lagret i cache.
Cache er konstruert med raskere hukommelsesbrikker (memory chips) enn maskinens hovedhukommelse. Data som ligger i cache er altså raskere å behandle enn aksesser mot hovedhukommelsen. Les mer om Cache
Hits - Hver eneste forespørsel fra en tilfeldig surfer
eller søkerobot registreres i nettstedets loggfil. Disse forespørslene kalles vanligvis hits og registreres for hvert eneste element som lastes ned fra serveren for at den besøkende skal kunne se alt innholdet på den siden de har spurt etter. Hits er altså ikke det samme som antall besøk eller unike besøkende. Om en nettside er bygget opp med en tabell som inneholder tekst,
bilder og animasjoner så er nedlasting av hver av disse komponentene en “hit”.
Referrer log stats – Informasjon som viser hvor de
besøkende kommer fra. Om de kommer fra en søkemotor så vises også det søkeordet eller den søkefrasen de benyttet. På grunnlag av dette kan du finne ut hvor mange som benytter hvilke søkeord og hvilke fraser, i hvilken rekkefølge og fra hvilke søkemotorer.