Wanneer ik op vakantie ga naar een ander land, lees ik een boek over dat land. Ik probeer het land zo beter te leren kennen.
Zo las ik dit jaar A Short History of Ireland. Het boek gaf me meer inzicht in het land en ik leerde o.a. over de impact van de aardappelziekte en de hongersnood. Dit inzicht laat zien welke rol datavisualisatie kan spelen bij het begrijpen van data.
Immigratie in Ierland van 1801 tot 1921
De aardappelziekte en hongersnood hadden veel invloed op emigratie. Het hoofdstuk waarin dit beschreven staat, deelt eerst wat algemene migratiecijfers voor de periode waarin het plaatsvond:
Between 1801 and 1921 perhaps as many as 8 milion people emigrated from Ireland. […] between 1845 and 1852 perhaps 1.4 milion people left Ireland.
Deze data vertellen ons twee dingen:
- Tussen 1801 en 1921, een periode van 120 jaar, emigreerde ca. 8 miljoen mensen uit Ierland.
- Tussen 1845 en 1852, een periode van 7 jaar, emigreerde ca. 1.4 miljoen mensen uit Ierland.
Deze tweede periode is de periode van de aardappelziekte en hongersnood in Ierland. Je voelt misschien al aan dat de impact van de aardappelziekte groot is, maar hoe groot is moeilijk in te schatten. De getallen 8 miljoen en 1,4 miljoen zijn daarvoor te groot en de periodes zijn lang, 7 jaar en 120 jaar.
Als iets wel beschreven staat én tegelijkertijd moeilijk voor te stellen is, is de cognitieve last hoog. Cognitieve last is de term die ik gebruik voor het volgende:
Hoe makkelijk kan een lezer je boodschap begrijpen?
Het bovengenoemde voorbeeld beschrijft dus de impact van de aardappelziekte op emigratie, maar maakt het lastig voor te stellen hoe die impact eruit ziet.
Datavisualisatie verlaagt de cognitieve last
Een goede datavisualisatie maakt het makkelijker om het verhaal in de data te begrijpen.
Laten we de cijfers uit het boek eens omzetten naar beeld: op de x-as zetten we de tijd en op de y-as de emigratiecijfers. Ik ga eerst uit van de langere periode en bereken het aantal emigranten per jaar. Dat komt uit op ca. 67.000.
In een grafiek ziet dat er zo uit:

Een rechte lijn van precies evenveel emigranten per jaar. (In realiteit is dat natuurlijk niet zo stabiel, maar ik werk hier met de cijfers die ik heb.)
We weten ook iets over de periode 1945-1952: er waren zo’n 200.000 emigranten per jaar (1.4 miljoen / 7 jaar). Voor de overige jaren tussen 1801 en 1921 haal ik de 1.4 miljoen van de 8 miljoen af en deel dit door het aantal overgebleven jaren. Dit komt uit op ca. 58.000 emigranten per jaar.
Dit heeft veel invloed op de grafiek:

Dat is een flinke toename in de trend.
Maar we zijn er nog niet. De cognitieve last is nog steeds hoog omdat er wat elementen missen. Ik kan de lezer nog meer helpen:
- Een passende titel die het verhaal introduceert.
- Annotaties in de grafiek die iets over de data vertellen.
- Accenten om de aandacht op een specifieke periode te vestigen.
Deze aanpassingen maken het makkelijker om de grafiek te lezen. Ze geven de verschillende elementen enige hiërarchie en begeleiden de lezer door de grafiek:

Je ziet dat het verhaal in de data nu een stuk eenvoudiger te lezen is. Waarschijnlijk ziet de lezer eerst de titel, dan al snel de aardappelziekte, en later de annotaties. De impact was groot en deze datavisualisatie geeft je daar een intuïtief beeld bij.
Nieuwsgierig?
Het is niet zo dat datavisualisaties altijd de cognitieve last verlagen. Dit kan in meer of mindere mate zo zijn. Ik zou bijvoorbeeld een simpelere, directere vertaling van de data kunnen maken (zoals in mijn eerste grafiek) of meer verhalende elementen toevoegen (zoals in de laatste grafiek).
Om het nog iets complexer te maken: de mate waarin je dit moet doen hangt af van je lezer. Soms zijn deze bereid veel energie te investeren in je grafiek, soms niet.
De nieuwsgierige data specialist denkt na over de context van de lezer en anticipeert daarop.