WIDM 2023: op zoek naar de mol met data analyse

Het is een nieuw jaar. Bij een deel van Nederland begint het weer te kriebelen. Een nieuw seizoen van Wie is de Mol start. Wie zal het dit jaar zijn?

Op zoek naar de resultaten van seizoen 2023? Die vind je hier.

WIDM 2022 & Data analyse

Vorig jaar heb ik met behulp van data analyse geprobeerd de mol te vinden. Ik deelde mijn resultaten gedurende het seizoen met een kleine groep molloten.

Uiteindelijk bleek mijn analyse goed te werken. Everon kwam vanaf aflevering vier bovendrijven als de persoon met de grootste molkans en bleek uiteindelijk de mol te zijn! Dit jaar ga ik het model opnieuw loslaten op het seizoen.

In dit artikel lees je hoe het staat met mijn analysemodel. Ik ga in op mijn hypothese, analyse, data, visualisatie en een toets op een ouder seizoen (2021).

Hypothese: de mol weet meer dan de rest

Mijn analyse is gebaseerd op een hypothese. Deze hypothese is gebaseerd op twee terugkerende uitspraken in het programma WIDM:

Kennis is macht

Follow the money

Voordat het seizoen begint, informeren de programmamakers de mol over wat er komen gaat. De mol kent dus iedere opdracht. Iedere locatie. Ieder moment.

Mijn hypothese is dat de mol bij sommige opdrachten een voorkeur heeft voor een bepaalde groep in die opdracht.

Soms worden deelnemers verdeeld in twee groepen. Dan kan de eerste groep haar eigen kansen beïnvloeden, maar ook die van de tweede groep (bijvoorbeeld door iets te saboteren). De eerste groep heeft hier dus meer invloed op de uitkomst van het spel. Er zijn regelmatig opdrachten waar de groepsverdeling resulteert in een vorm van machtsverschil.

De mol zal niet altijd in de voorkeursgroep zitten, maar wel vaker dan een kandidaat. De mol weet immers waar die moet zijn. De mol heeft kennis. En kennis is macht.

Analyse

Ik baseer mijn analyse op de Bayesiaanse statistiek. Klinkt ingewikkeld, maar dat valt wel mee.

Molkans: het startpunt van de analyse

Bij deze vorm van statistiek ga je uit van een startpunt, een geloof dat je hebt over de uitkomst van je model.

Bij WIDM kunnen we de molkans gebruiken als dit startpunt, ons geloof. Start het seizoen, dan weet je nog niets. Bijna niets! Als er tien deelnemers zijn, is de kans 1/10 dat iemand de mol is. Je weet dus wel iets.

Opdrachten: kennis toevoegen aan de analyse

Het mooie aan de Bayesiaanse statistiek, is dat het ervan uitgaat dat je gaandeweg meer informatie krijgt over de hypothese die je onderzoekt.

In het geval van Wie is de Mol, kan ik per opdracht kennis toevoegen aan het model. Dit resulteert in een systeem dat per deelnemer per opdracht de molkans aanpast:

Zit een deelnemer in de groep waar ik de mol verwacht? Dan gaat de molkans omhoog. Hoe kleiner de deze groep is, hoe groter de toename van de molkans.
Zit de deelnemer in de andere groep? Dan ontvangt de molkans een kleine correctie omlaag. Deze correctie staat per aflevering vast en is gebaseerd op het aantal deelnemers – 1 (de mol).

Aan het begin van het seizoen werkt mijn model nog niet zo goed. Er zit dan pas weinig informatie in. Naarmate het seizoen verder gaat, zou mijn model beter en beter moeten gaan werken.

Er zal altijd een mate van onzekerheid in de uitkomsten zitten. Maar deze wordt kleiner naarmate de hoeveelheid kennis die ik in het model stop toeneemt.

De data voor mijn analyse

Waar ik in 2022 de data direct invoerde in mijn code, heb ik het me ondertussen wat makkelijker gemaakt. Ik zet de data van een seizoen in een matrix. Ik noem dit de mollenmatrix, al is het eigenlijk gewoon een Excelsheet.

Wie is de mol - data analyse - invoerdata

In deze tabel zie je verticaal de deelnemers terug. Horizontaal staan de opdrachten. Per opdracht kan ik per deelnemer kiezen uit vier waardes:

K: de deelnemer zat niet in de groep waar ik de mol verwacht.
M: de deelnemer zat wel in de groep waar ik de mol verwacht.
O: de opdracht had geen ongelijke verdeling (dit is het geval bij solo of duo opdrachten) of telt om een andere reden niet mee in mijn analyse.
X: de persoon is afgevallen en doet niet meer mee.

De visualisatie van de molkans

Ik analyseer deze data vervolgens m.b.v. zelfgeschreven (Python) code. De code leest de data in, berekent de molkans per aflevering en visualiseert de resultaten.

Wie is de mol - data analyse - resultaten 2022

Hoe groter het bolletje, hoe groter de molkans van die deelnemer. Als er voor een aflevering meerdere kandidaten de grootste molkans hebben, worden al die bolletjes groen. Je ziet zo eenvoudig terug dat Everon vanaf aflevering drie hoog scoort.

Best handig toch?

Toets op seizoen 2021

Er zit nogal wat tijd tussen twee WIDM seizoenen, dus besloot ik mijn analyse los te laten op een ouder seizoen. Seizoen 2021. Het jaar waarin Renée Fokker de mol was. Ik hoefde hiervoor alleen maar even alle opdrachten terug te kijken.

Wie is de mol - data analyse - resultaten test 2021

Ziet er mooi uit. En ik herinner me dat Joshua erg verdacht was voordat hij afviel. Maar niets is wat het lijkt. Het is namelijk erg lastig om de machtsverhouding in opdrachten objectief te beoordelen als je al weet wie de mol is.

Daarom besloot ik verder geen oude seizoenen te onderzoeken. Het is ook een stuk minder spannend. De resultaten van 2021 leerde me gelukkig wel iets.

In deze analyse komt de mol pas in aflevering zes naar boven, waar dat in 2022 al in aflevering drie het geval was. Het wegvallen van deelnemers is ook een vorm van kennis: het model zou in theorie tot de finale fout kunnen zitten, maar als de persoon met de grootste molkans op dat moment toch de mol blijkt te zijn, is het model alsnog waardevol.

Wie is de Mol-Woensdag

Hoe goed werkt mijn model? Daar ga ik de aankomende jaren achter komen. Ik zou zeggen dat de kennis die mol krijgt over de opdrachten essentieel is voor zijn rol in het programma. Daarnaast denk ik dat mijn model de persoon die deze kennis heeft zichtbaar maakt. Al zal er altijd een kans zijn dat de uitkomsten toevallig aansluiten bij de realiteit.

Ik ben van plan iedere woensdag, na elke aflevering¸ mijn resultaten bij te werken. Deze kan je hier teruglezen.

Wil je mijn liveblog van vorig jaar doorlezen? Dat kan hier.

codeerik