Beschouwt de data ongeschminkt!

By zahlenpeter

De internetdienst Alexa registrert gebruiksstatistieken van aparte websites. Door middel van de Alexa Toolbar worden webpaginaopvragen, reikwijdte en rang van de webpagina geschat. Er zijn discussies erover of de schattingen juist zijn wat niet te verwonderen zijn zou, aangezien de resultaten door de methode mede bepald worden en overeenkomstig geoptimeert worden kunnen. Maar men krijgt tenslotte iede dag nieuwe meetwaarden.

Bij Alexa bestaat voor de populaire websites de mogelijkheid het verloop van de gebruiksstatistieken in een diagram te bekijken. Op die manier kan men bijv. nakijken hoe zich het gebruik van de website van Apple over de jaren ontwikkelt heeft. Als men het diagram bekijkt, kan men rechts beneden een soort regelaar zien. Als men met met de muis over de regelaar gaat verschijnt de tooltip “Graph Smoothing”. De regelaar staat per standaard op het hoogste van vier niveaus. De lijn die men het eerst te zien krijgt is dus sterk glad gemaakt.

Als men een lijn glad maakt verwacht men trends beter herkennen te kunnen. Dit is wel een leuke ding, men zou nochtans proberen de regelaar naar links te verschuiven en de originale data te bekijken. Op die manier kan men herkennen hoe sterk de dagelijkse data varieren. Deze variaties treden ook dan op zonder dat een bijzondere gebeurtenis of een verandering in het gemiddelde opgetreden is. In de statistiek praat men over twee soorten van fouten:

  • Als men concludeert dat een bijzondere gebeurtenis opgetreden is hoewel het niet het geval is.
  • Als men concludeert dat niets bijzonders opgetreden is hoewel het wel het geval is.

Omdat men normaal niet beide fouten voorkomrn kan moet men vastleggen wanneer men van ongewone waarden spreken kan. Om zo een vastlegging uitvoeren te kunnen moet men weten hoe sterk de waarden in het normale geval varieren. Toegepast op het diagram betekent dit dat men de niet glad gemaakte lijn benodigt om te zien waar er dagen met ongewone websitegebruik zijn of de waarden zich echt veranderd hebben.

Als men statistische methodes, die voor aparte waarden in een tijdreeks bepaald zijn, op glad gemaakte waarden toepast komt men tot foute conclusies.

Categorie: , , ,

Reageer