Liegen met Internet statistieken

digitale-manager01.jpgZes jaar geleden publiceerde ik over mijn ervaringen bij het gebruik van internet statistieken op de website managementsite.nl. Het artikel werd een van mijn succesvolste op deze net nieuw vormgegeven site en is ook regelmatig herplaatst in andere media. Onlangs bleek maar weer eens hoe tijdloos het onderwerp is toen een Babylonische spraakverwarring tussen adverteerders, ICT-ers en webloggers ontstond over de vraag hoeveel bezoek een specifieke weblog nu genereerde. Het artikel herplaats ik nu, in een ingekorte en aan de tijd aangepaste versie. (foto: cover van mijn internetboek uit 1998, De digitale manager)

"There are lies, damn lies and statistics" (citaat door Mark Twain toegeschreven aan Benjamin Disraëli). Het is een bekende uitspraak over het gebruik en het misbruik van statistieken. In de jaren 50 verscheen hierover het aardige boekje "How to lie with statistics" van Darrell Huff. Het boek kreeg in de jaren 70 opnieuw veel aandacht en werd meerdere keren herdrukt. Waarschijnlijk werd het relatief nieuwe vakgebied statistiek in deze jaren meer en meer gebruikt om de publieke opinie te beïnvloeden. Zo deden eind jaren 60, begin jaren 70 opiniepeilingen en polls hun intrede. Het boek is daarna weer in de vergetelheid geraakt, maar nu lijkt de tijd rijp voor een opvolger. Op geen enkel gebied wordt er zo onjuist, onzinnig en onwetend over statistieken gepraat als het Internet.

Het blijft een vreemde gewaarwording: bedrijven en instellingen investeren vaak vele honderdduizenden guldens in websites en een professioneel overkomende web-presence, maar over de effectiviteit van deze investering kan niemand een zinnig woord zeggen. In gesprekken die ik met directeuren over de activiteiten van de organisaties op het Internet voer, breng ik het onderwerp statistieken altijd ter sprake. En tot mijn verbazing blijkt telkens weer dat er bijna geen enkel inzicht in deze materie bestaat. Gaat het over hits, click-throughs, page-views, unique visitors of downloads? Snel wordt dan verwezen naar de technische afdeling of bedrijfs-Nerd. En als er al enig inzicht bestaat, dan blijkt dat door sterk afwijkende definities al snel een Babylonische spraakverwarring ontstaat.

Elk cijfer dat via het Internet wordt gemeten is tot achter de komma juist. De techniek staat tenslotte voor niets. Maar wat wordt er precies gemeten? Ook in de bestaande internet management literatuur wordt nauwelijks inhoudelijk op deze toch belangrijke materie ingegaan. Liever geeft men voorspellingen, visies en strategieën ten beste. Dat spreekt veel meer tot de verbeelding dan zoiets saais als een statistisch relevant cijfer. De kennis die met een goede statistische evaluatie van een site kan worden opgedaan, kan echter goud waard zijn. Want juist op basis van statistische metingen vindt vaak de waardering van internetbedrijven plaats of worden de tarieven van adverteerders bepaald. Op basis van verwacht bezoek worden investeringsvoorstellen beoordeeld, web-advertenties geplaatst, de kosten hiervan bepaald, etc. De analyse van bezoekersgedrag biedt organisaties de mogelijkheid het aanbod aan informatie en producten continu aan te passen.

Neem eens het volgende voorbeeld. Regelmatig hoor ik mensen nog het woord 'Hits' gebruiken. Zo sprak ik onlangs een auteur die sprak over 20 miljoen hits (per dag? per maand? per jaar? Het antwoord bleef schuldig). Fantastisch, wat een succes! Complimenten. De werkelijkheid is echter een stuk weerbarstiger dan op het eerste oog lijkt. Want wat zeggen die 20 miljoen hits nu werkelijk? Niet veel. Een 'hit' is niets meer dan een aanvraag aan de server om een grafisch element op te sturen. En hoe meer plaatsjes en figuurtjes (advertenties) op de site staan, hoe meer hits geteld worden. Stel dat op de homepage 10 plaatjes staan, dan zijn dit 10 aanvragen aan de server plaatjes op te sturen en dus 10 hits. Gaat de bezoeker nog een paar pagina's verder kijken, dan kan dit cijfer oplopen tot misschien wel 50 tot 100 hits voor 1 bezoeker. Stel dat in dit geval het aantal beperkt blijft tot 40 hits per bezoeker, dan is sprake van weliswaar 20 miljoen hits, maar ook van max. 500.000 bezoekers (20 miljoen gedeld door 40). Als dit het aantal per jaar is, spreken we over nog geen 1.400 bezoekers per dag. Best veel, maar een heel ander verhaal dan 20 miljoen hits, nietwaar.

Zoeken naar de meetlat

We hebben gezien dat het beoordelen van het aantal hits niet de juiste manier is om het bezoek aan een website te beoordelen. Maar wat is dan wel een goede maatstaf? Het blijkt lastig te zijn om tot een eenduidige en goede maatstaf te komen voor het beoordelen van het succes van een site. Inmiddels zijn er naast het aantal hits dan ook een groot aantal andere variabelen ontwikkeld, waarvan de bekendste page-views en unique vistors zijn. Met het aantal page-views wordt het aantal pagina's gemeten dat de bezoeker op een website bezoekt. Dit cijfer geeft in ieder geval een indicatie van het click-gedrag van een bezoeker. Het zegt natuurlijk weer weinig over wat de bezoeker uiteindelijk echt bekijkt en het zegt ook niets over de lengte van het bezoek aan de pagina.

Eenzelfde euvel tref de maatstaf unique visitor. Deze maatstaf meet het aantal unieke bezoekers op een site. Het is natuurlijk interessant om te weten hoeveel bezoekers een site bezoeken, maar er is een groot verschil tussen een bezoeker die de site na drie seconden verlaat en een bezoeker die 10 minuten op de site blijft surfen. Welke site is nu succesvoller? Een site met 50.000 bezoekers per dag die na 10 seconden verdwenen zijn, of één met 2000 bezoekers per dag die gemiddeld 10 minuten blijven? Daarbij komt dat het aantal bezoekers, hits of clicks natuurlijk interessante informatie biedt, maar voor een software fabrikant is het aantal downloads een veel interessanter gegeven. Hierbij wordt gemeten hoeveel bezoekers een demo of volledige versie van een software pakket op de eigen computer binnenhalen.

De waarde van internetbedrijven hangt zodoende sterk af van wat bezoekers met een site kunnen. Dat moet gemeten worden en niets anders. Zo zal de waarde van de site van een softwarefabrikant dienen te worden afgemeten aan de downloads, die van een e-zine bijvoorbeeld door een combinatie te maken van het aantal opgevraagde artikelen, de lengte van het bezoek en het aantal bezoekers. Om kort te gaan, voor elke site is een specifieke set van statistieken noodzakelijk om het succes te kunnen beoordelen. Daarbij dient wel duidelijkheid tussen de partijen te bestaan over de wijze waarop gegevens zijn gedefinieerd, over welke perioden men praat, over de relaties die tussen diverse gegevens bestaan, et cetera.
Alleen afgaan op één statistisch gegeven, zoals hits of page-views, is gevaarlijk en biedt grootpraters alle kans een wervelende presentatie te maken over een in wezen matig bezochte website. Anderzijds kunnen kopers en adverteerders weer schermen met andere statistieken en andere programma's, die weer voor veel lagere inkomsten kunnen zorgdragen dan terecht zou zijn. Een mooi voorbeeld uit mijn eigen praktijk: eind maart stort het bezoek aan 1minutemanager plots in naar ongeveer een derde van de weken ervoor. Onverklaarbaar, totdat bij navraag blijkt dat het statistiek-programma alleen is aangesloten op een van de twee servers waarop de site is 'verdeeld' door de provider. Kortom, de server met het meeste bezoek werd plots niet meegenomen in de metingen. je zal maar even niet opletten!

Helaas zijn dergelijk voorbeelden nog steeds veel voorkomend in de dagelijkse praktijk. Het wordt daarom tijd serieus aandacht te besteden aan het stiefkindje van het internet: de statistieken.

Het oorspronkelijke artikel is terug te vinden op managementsite.nl, waar nog zo'n 20 wat langere artikelen van mijn hand zijn terug te vinden.

Kom met uw praktijkervaringen op het terrein van managen en organiseren

Deel uw kennis, schrijf 3 columns of artikelen en ontvang een gratis pro-abonnement (twv €200)

Word een pro!

SCHRIJF MEE >>