Business analyseProduct Analist

Hoe zou u het causaal effect van de implementatie van een gamificatiesysteem (badges voor feedback op cursussen) op de diepte van gebruikersbetrokkenheid in een edtech-app beoordelen, met gebruik van een quasi-experimentele benadering bij onmogelijkheid van een klassieke A/B-test?

Slaag voor sollicitatiegesprekken met de Hintsage AI-assistent

Antwoord op de vraag

Om het effect zonder randomisatie te meten, is het noodzakelijk om een synthetische controle te bouwen via Propensity Score Matching (PSM), en daarna de Difference-in-Differences (DiD) methode toe te passen. Eerst schatten we de kans op het verkrijgen van een badge (logistische regressie) op historische gegevens (activiteit, demografie, retentie) om "behandelde" gebruikers te matchen met vergelijkbare "controlegroepen". Vervolgens vergelijken we de dynamiek van de doelmetriek (diepte van betrokkenheid) tussen deze groepen, wat ons in staat stelt het badge-effect van algemene groeitrends te scheiden.

Het is cruciaal om de aanname van parallelle trends te verifiëren via een event-study analyse: we bouwen een regressie met vertragingen en leads van de verwerking en zorgen ervoor dat de coëfficiënten vóór de implementatie niet significant zijn. Om de gevoeligheid te verhogen, gebruiken we CUPED in Python of R, waarbij we de variantie verminderen met behulp van covariaten vóór het experiment. De uiteindelijke schatting van ATT (Average Treatment Effect on the Treated) geeft een onbevooroordeeld getal van het netto-effect van de gamificatie.

Situatie uit het leven

Het bedrijf "EduTech" heeft een motivatieprogramma gelanceerd: gebruikers ontvingen digitale badges voor het achterlaten van feedback op cursussen. Technische beperkingen van de legacy-backend maakten het onmogelijk om het publiek willekeurig te splitsen, waardoor de analist geconfronteerd werd met het meten van de invloed op de metric "diepte van betrokkenheid" (gemiddeld aantal bekeken lessen per week) bij sterke zelfselectie: de meest actieve studenten lieten feedback achter, wat een duidelijke bias creëerde.

Er werden vier benaderingen overwogen om het probleem op te lossen.

Eenvoudige gemiddelde vergelijking na implementatie tussen degenen die een badge hebben ontvangen en degenen die dat niet hebben gedaan. Het belangrijkste voordeel is de snelheid van berekening in SQL zonder complexe datavoorbereiding. Het kritieke nadeel is de volledige negering van zelfselectie: actieve gebruikers groeien al sneller (maturatie-effect), wat leidt tot een overschatting van het effect en valse conclusies over de effectiviteit.

Analyse "voor-na" uitsluitend op de groep met badges. De voordelen zijn het uitsluiten van intergroepsverschillen en het gebruik van een gepaarde t-test voor dezelfde gebruikers. Het is echter niet mogelijk om het badge-effect te scheiden van de algemene seizoensgebonden stijging van activiteit (begin van het schooljaar) of gelijktijdige veranderingen in de aanbevelingsalgoritmes, wat de conclusies onbetrouwbaar maakt.

OLS-regressie met controle van covariaten via het toevoegen van variabelen over eerdere activiteit. Dit is snel te implementeren in statsmodels en geeft duidelijke coëfficiënten. Maar de methode vereist strikte lineariteit van afhankelijkheden, is gevoelig voor uitschieters en houdt geen rekening met individuele trends in de ontwikkeling van de gebruiker in de tijd, wat de schatting kan vertekenen.

PSM + Difference-in-Differences (gekozen oplossing). We hebben Propensity Score Matching uitgevoerd in BigQuery, gebruikmakend van logistic regression op de voorspellers voorafgaand aan de lancering (frequentie van inloggen, voltooide cursussen). Vervolgens hebben we DiD toegepast met fixed effects van gebruikers en weken. Voordelen zijn de minimalisatie van selectiebias op waargenomen kenmerken en eliminatie van tijdelijke trends met behoud van paralleliteit. Nadelen zijn de hoge computationele complexiteit en de kritische aard van de aanname van parallelle trends, die verificatie vereist via event-study grafieken.

De oplossing is gekozen vanwege het vermogen om een zo onbevooroordeeld mogelijke schatting te geven met alleen waarnemingsgegevens. Uit de analyse bleek dat badges de betrokkenheid met 12% verhogen, maar alleen bij gebruikers met minder dan drie maanden ervaring. Voor "veteranen" bleek het effect statistisch niet significant te zijn, wat de productteams in staat stelde om de regels voor de toekenning te heroverwegen en zich te concentreren op onboarding.

Wat kandidaten vaak missen

Hoe te controleren of de aanname van parallelle trends in DiD niet is geschonden als we geen experiment hebben?

Kandidaten beperken zich vaak tot visuele vergelijkingen van grafieken en missen formele verificatie. Het is noodzakelijk om een event-study regressie op te bouwen, waarbij dummy-variabelen voor elke periode vóór en na behandeling zijn inbegrepen. Als de coëfficiënten voor de periodes "voor" statistisch significant zijn (p-waarde < 0,05), is de aanname geschonden. In dit geval kan CUPED worden toegepast om pre-trends aan te passen of kan de Synthetic Control Method worden gebruikt om een controlegroep te construeren met een trend die zo dicht mogelijk bij de trend van de behandelde groep ligt vóór de interventie.

Waarom lost Propensity Score Matching het probleem van endogeniteit door onzichtbare kenmerken (selection on unobservables) niet op?

PSM balanceert alleen waargenomen covariaten (leeftijd, activiteit), maar als er een verborgen motivatie bestaat (bijvoorbeeld "de liefde voor leren") die moeilijk te kwantificeren is, blijft er bias bestaan. Voor een oplossing zijn instrumentele variabelen (IV) nodig, zoals de geografische afstand tot het dichtstbijzijnde offline centrum, die correleert met de kans op het verkrijgen van een badge, maar niet rechtstreeks invloed heeft op de betrokkenheid. Een alternatief is Regression Discontinuity Design (RDD), als de drempel voor het verkrijgen van een badge strikt is (bijvoorbeeld precies 3 beoordelingen), wat exogene variatie creëert.

Hoe om te gaan met de schending van SUTVA (Stable Unit Treatment Value Assumption) in gamificatie, wanneer het effect "besmettelijk" is via sociale netwerken?

Als vrienden badges zien en ook beginnen met het schrijven van feedback, geeft de standaard DiD een vertekende schatting, waarbij directe en indirecte effecten door elkaar worden gehaald. De oplossing is het gebruik van geclustere standaardfouten per vriendengroepen of een tweestapsmonster, waarbij gebruikers uit de controlegroep worden uitgesloten die verbonden zijn met de "behandelde". Het is mogelijk om spillover-effecten expliciet te beoordelen via mediation analysis in Python (bibliotheken causalml of mediation), waarbij het totale effect wordt gesplitst in een direct effect (op de gebruiker zelf) en een indirect effect (op vrienden), om te voorkomen dat het werkelijke effect wordt onderschat.