Historische context. Traditionele edtech-platforms hebben lange tijd statische leertrajecten gebruikt met een vaste moeilijkheidsgraad van de inhoud voor alle gebruikers. Met de ontwikkeling van Machine Learning en de mogelijkheden voor real-time gegevensverwerking, zijn er adaptieve systemen ontstaan die de inhoud dynamisch aanpassen aan de individuele cognitieve capaciteiten van de leerling. Echter, het evalueren van de effectiviteit van dergelijke systemen wordt geconfronteerd met een fundamenteel methodologisch probleem: het is onmogelijk om dezelfde gebruiker tegelijkertijd zowel een adaptieve als een statische versie van de cursus te tonen voor een puur vergelijkingsdoel zonder de gebruikerservaring te verstoren.
Probleemstelling. Klassiek A/B Testing is hier niet in zijn puurste vorm toepasbaar, omdat het adaptatie-algoritme in real-time functioneert op basis van stroomgegevens over interactie, en het vastzetten van een gebruiker in een statische groep de logica van het product verstoort en ethische risico's met zich meebrengt met betrekking tot het bieden van opzettelijk suboptimale leerervaringen. Bovendien is er een sterke endogeniteit: gebruikers met verschillende begin niveaus reageren asymmetrisch op de adaptatie (sommigen hebben vereenvoudiging nodig, anderen complicatie), wat methoden voor de evaluatie van heterogene effecten van invloed vereist.
Gedetailleerde oplossing. De optimale benadering is een combinatie van Regression Discontinuity Design (RDD) op de drempel van de activatie van het algoritme en Difference-in-Differences (DiD) voor cohortgroepen van gebruikers met verschillende tijdstippen van implementatie. Ten eerste, als het algoritme wordt geactiveerd bij het bereiken van een bepaald foutenpercentage in de taakoplossing (bijvoorbeeld >30% onjuiste antwoorden achtereenvolgens), kan Sharp RDD worden gebruikt, waarbij gebruikers exact voor en na de drempel van de activatie van de adaptatie worden vergeleken. Ten tweede, voor het evalueren van het langdurige effect op het behoud wordt de Synthetic Control Method toegepast: een gewogen combinatie van gebruikers uit historische cohorten zonder toegang tot het adaptieve systeem wordt opgebouwd, die gedrag maximaliseert dat de huidige testgroep imiteert vóór de implementatie. Daarnaast wordt Causal Forest of Meta-learners gebruikt voor kwantificering van de heterogeniteit van het effect over segmenten van de startvoorbereiding. Gegevens worden verzameld via SQL met vensterfuncties voor het volgen van sessies, en de statistische analyse wordt uitgevoerd in Python met behulp van de bibliotheken causalml, pymc voor de bayesiaanse schatting van onzekerheid en sklearn voor het opstellen van proxyvariabelen.
In de online programmeerschool "CodeStart" werd een adaptief trackingalgoritme geïmplementeerd, dat automatisch de moeilijkheid van taken in Python vereenvoudigde of compliceerde, afhankelijk van de snelheid van het oplossen van eerdere opdrachten en foutpatronen. De productmanager verlangde een evaluatie of dit het cursusafsluitpercentage van de huidige 45% naar doelstellingen van 60% verhoogde, maar het analytische team stuitte op het probleem dat het uitschakelen van het algoritme voor de controlegroep leidde tot een massale uitval op de tweede dag van de training, wat de vergelijking ongeldig maakte.
Er werden drie oplossingen overwogen voor de evaluatieprobleem.
Optie 1: Klassieke A/B-test met volledige uitschakeling van het algoritme voor 50% van het verkeer. De voordelen van deze benadering zijn onder andere de eenvoud van de interpretatie van de resultaten en de directe vergelijkbaarheid van de metrics tussen de groepen. De nadelen omvatten een hoog risico op verlies van gebruikers in de controlegroep door frustratie door buitensporige moeilijkheid of, omgekeerd, verveling door te eenvoudige taken, wat overlevingsbias creëert en de ethische normen voor gelijke toegang tot kwaliteitsonderwijs ondermijnt.
Optie 2: Analyse van historische gegevens vóór de implementatie (pre-postanalyse) zonder controlegroep. Voordelen: geen noodzaak om een deel van het publiek het voordeel te ontnemen en de mogelijkheid voor snelle resultaten. Nadelen: de onmogelijkheid om het effect van het algoritme van externe factoren, zoals seizoensinvloeden (begin van het schooljaar), verandering in de kwaliteit van het verkeer via advertentiekanelen en macro-economische gebeurtenissen te scheiden, wat de evaluatie van het effect onbetrouwbaar en subjectief maakt.
Optie 3: Gebruik van Regression Discontinuity Design op de drempel van de adaptatieactivatie met instrumentvariabelen. Deze optie werd gekozen, omdat het algoritme strikt automatisch werd ingeschakeld bij het overschrijden van een foutenpercentage van 25% in de module, wat een natuurlijk experiment creëerde. We vergeleken gebruikers met 24% en 26% fouten — praktisch identieke groepen op basis van waargenomen kenmerken, maar met een verschillende status van adaptatie. Voor de langetermijnevaluatie werd een synthetische controle opgebouwd uit cohorts van vorig jaar met een vergelijkbare verdeling van startvaardigheden, met behulp van Propensity Score Matching.
Het uiteindelijke resultaat toonde aan dat het adaptieve algoritme het cursusafsluitpercentage met 18 procentpunten verhoogt (van 45% naar 53%) voor gebruikers met een gemiddeld instapniveau, maar een negatief effect (-5%) heeft voor gevorderde studenten, voor wie het systeem ten onrechte het materiaal vereenvoudigde vanwege atypische oplossingspatronen. Op basis van deze gegevens werd een corrigerende factor voor de moeilijkheidsdrempel voor ervaren gebruikers geïntroduceerd, hetgeen de totale conversie tot 58% verhoogde.
Hoe om te gaan met de situatie waarin het adaptatiealgoritme voortdurend leert (online learning) en de voorspellingen in de loop van de tijd veranderen, waardoor een statische effectevaluatie ongeldig wordt?
Antwoord. Het is noodzakelijk om thompson sampling of contextual bandits te gebruiken als onderdeel van het experimentele ontwerp al tijdens de implementatiefase. In plaats van een vaste impact wordt de verdeling van waarschijnlijkheden van het effect gemodelleerd, die bij elke nieuwe waarneming wordt bijgewerkt. Voor de evaluatie worden off-policy evaluatiemethoden toegepast, zoals inverse propensity weighting (IPW) of doubly robust estimators, die de bias corrigeren die voortvloeit uit het feit dat het beleid van het algoritme veranderde tijdens de verzameling van historische gegevens. Het is cruciaal om de modelversie en de parameters voor elke genomen beslissing in ClickHouse of een vergelijkbare opslag te loggen, zodat de analyse later kan worden gestratificeerd op basis van de versies van het algoritme en zijn evolutie in overweging kan worden genomen.
Waarom levert een standaard vergelijking van gemiddelden (t-test) tussen groepen met het algoritme ingeschakeld en uitgeschakeld een bevooroordeeld schatting op, zelfs bij randomisatie, en hoe kan dit worden opgelost?
Antwoord. Het probleem ligt in de netwerk effecten (spillover effects) en de schending van de SUTVA (Stable Unit Treatment Value Assumption). Als gebruikers met elkaar interactie hebben via forums, groepsprojecten of chats, kan de controlegroep "besmet" raken door de impact via sociaal leren en ervaringsuitwisseling. Om dit te corrigeren, wordt cluster randomisatie toegepast (randomisatie op het niveau van klassen/stromen in plaats van individuele gebruikers) of exposure mapping — modellering van de waarschijnlijkheid van contact met de adaptieve versie van de cursus. Alternatief wordt two-stage least squares (2SLS) met een instrumentvariabele (bijvoorbeeld het drempel foutenpercentage voor activatie van de adaptatie) gebruikt om het lokale gemiddelde effect van de impact (LATE) te isoleren.
Hoe het ware effect van adaptatie van het nieuwheids effect (novelty effect) te onderscheiden, wanneer gebruikers actiever interageren simpelweg omdat de interface is veranderd, en niet vanwege een verbetering van de kwaliteit van de taakselectie?
Antwoord. Het is noodzakelijk om analyse per cohorten uit te voeren met verschillende implementatiedata en de tijdelijke dynamiek van het effect in de loop van de tijd te volgen. Als de betrokkenheidsmetrics na 2-3 weken na de start van het gebruik terugkeren naar het basisniveau — is dit een klassiek nieuwheidseffect. Voor scheiding wordt gesegmentiseerde regressie met een knippunt (onderbroken tijdreeks) gebruikt of vergelijking met een holdout groep, aan wie het algoritme "doet alsof" het adaptief is, maar in werkelijkheid willekeurige of vaste inhoud toont (placebo test). Het is ook belangrijk om niet alleen proxy-metrics (tijd op het platform) te analyseren, maar ook harde metrics (resultaten van het eindexamen of praktijkproject), die minder onderhevig zijn aan kortetermijnschommelingen in motivatie en de werkelijke beheersing van de stof weerspiegelen.