Antwoord op de vraag

Historisch gezien concentreerden productteams zich uitsluitend op groeimetieken en het implementeren van nieuwe functies, maar met de verzadiging van digitale producten en de opbouw van technische schuld is het een kritieke taak geworden om de rechtvaardiging voor het verwijderen van functionaliteiten (feature deprecation) aan te pakken. Het probleem is dat gebruikers die de te verwijderen functie actief gebruikten, systematisch verschillen van de rest van het publiek qua betrokkenheid en loyaliteit, wat een zelfselectiebias (selection bias) creëert, en de geleidelijke uitschakeling per cohort verstoort de tijdreeksen door seizoensgebondenheid en natuurlijke uitstroom.

Om het ware oorzakelijke effect te isoleren, moet Difference-in-Differences (DiD) worden toegepast met cohortanalyse of CausalImpact op basis van Bayesian Structural Time Series, waarbij ongerepte cohorten worden gebruikt als synthetische controle. Een cruciale stap is het opstellen van een model voor propensity score matching (PSM) binnen elke cohort: voor gebruikers die hun functie verloren (treatment), worden paren van gebruikers geselecteerd die deze functie nooit hebben gebruikt (control), maar een gelijkaardig profiel hebben qua activiteit, tenure en conversiegeschiedenis. Bij het aanwezig zijn van een duidelijke gebruiksintensiteitsdrempel (bijvoorbeeld >5 gebruiksbeurten per maand) is Regression Discontinuity Design (RDD) effectief, waarmee gebruikers direct aan beide zijden van de uitschakelingsdrempel kunnen worden vergeleken.

Het is belangrijk om bovendien de survivorship bias te controleren: als de functie wordt verwijderd vanwege laag gebruik, moet de analyse alleen actieve gebruikers op het moment van de beslissing omvatten, waarbij degenen die al zijn uitgestroomd voor het begin van de observatie worden uitgesloten. Voor de beoordeling van het langetermijneffect wordt staggered DiD met dynamische effecten (event study) gebruikt, waarmee kan worden gevolgd hoe de derde- en zevendaagse retentie verandert in relatie tot het moment van uitschakeling, en de Parallel Trends Assumption kan worden gecontroleerd door placebo-tests op voorgaande perioden.

Situatie uit het leven

In een groot edtech-product werd besloten om de verouderde tekstchat met een mentor te verwijderen ten gunste van videogesprekken, aangezien minder dan 3% van het publiek de chat gebruikte, maar de ondersteuning ervan 20% van de teamresources kostte. De release was gepland om geleidelijk te verlopen: eerst de uitschakeling voor nieuwe gebruikers, daarna voor cohorts met lage activiteit en tenslotte voor power users. Het bedrijf was bezorgd dat de verwijdering een golf van negativiteit en uitstroom van hoogwaarde gebruikers zou veroorzaken die historisch gezien intensief de chat gebruikten voor het verduidelijken van opdrachten.

De eerste optie was een eenvoudige vergelijkende analyse van de retentie voor en na de uitschakeling voor elke cohort. Deze aanpak zou snel inzetbaar en visueel duidelijk zijn voor stakeholders, maar leed sterk onder de onmogelijkheid om het effect van verwijdering te scheiden van de natuurlijke achteruitgang van de cohort (cohort aging) en seizoensgebonden schommelingen in de activiteit van studenten in de zomermaanden, toen de laatste fase van de uitschakeling was gepland. De tweede optie was een klassieke A/B-test met een feature-flag die de chat voor 50% van de gebruikers verbergt, maar deze werd afgewezen vanwege technische complexiteit in het ondersteunen van twee versies van de UI en ethische overwegingen: het was niet mogelijk om ondersteuning voor de chat aan de ene groep gebruikers te beloven en aan de andere te weigeren bij bugs.

De derde, gekozen optie, was een analyse met de methode Difference-in-Differences met synthetische controle. Voor elke cohort die toegang tot de chat verloor, vonden analisten via Propensity Score Matching een paar van gebruikers uit de vorige cohort die de chat nooit hadden geopend, maar hetzelfde patroon in lesbezoeken, geschiedenis van het inleveren van huiswerk en geografie hadden. Dit maakte het mogelijk om de retentietrajecten van de treatment-groep (die de chat verloren) en de control-groep (die deze nooit had gebruikt) te vergelijken, waarbij het schone effect van ontzegging van de functie werd geïsoleerd van algemene trends.

Het uiteindelijke resultaat toonde aan dat voor power users (de top 10% in gebruiksfrequentie van de chat) de verwijdering daadwerkelijk de 30-daagse retentie met 8% verlaagde, maar dit werd gecompenseerd door een groei van de conversie naar videogesprekken met 15% en een verbetering van de prestatiemetieken van de applicatie (afname van de crash rate met 12% door het verwijderen van legacy-code). Voor het gemiddelde segment was het effect statistisch niet significant, wat het bedrijf in staat stelde om de volledige uitschakeling van de functie te rechtvaardigen met de focus op de migratie van power users naar het nieuwe communicatiemiddel via gepersonaliseerde aanbiedingen.

Wat kandidaten vaak over het hoofd zien

Hoe het effect van het verwijderen van een functie te onderscheiden van het effect van interface "vereenvoudiging" (simplification effect), wanneer het verminderen van de cognitieve belasting de negatieve gevolgen van de verlies van functionaliteit kan maskeren?

Het antwoord ligt in het decomposeren van de metieken: het is nodig om niet alleen de retentie, maar ook task completion time, error rate en feature discovery rate voor de overblijvende functionaliteit te volgen. Als de metriek time-to-homework-submission na het verwijderen van de chat daalt (gebruikers leveren sneller hun werk in) met stabiele retentie, getuigt dit van een positief simplification effect dat het verlies van het communicatiekanaal compenseert. Voor de kwantitatieve beoordeling wordt mediationanalyse uitgevoerd: de directe causale relatie "verwijdering → retentie" en de indirecte via "verwijdering → vereenvoudiging van UI → retentie" worden beoordeeld, wat het mogelijk maakt om het schone negatieve effect van structurele verbetering van de UX te scheiden.

Hoe de statistische kracht correct te berekenen voor de test op "non-inferioriteit" (non-inferiority testing) bij het verwijderen van een functie, wanneer het doel is te bewijzen dat de schade niet boven de toegestane drempel uitkomt?

Kandidaten passen vaak de klassieke krachtberekening voor superioriteitstests toe, wat leidt tot ongefundeerde conclusies over de "veiligheid" van verwijderingen. Bij non-inferiority testing wordt de nulhypothese geformuleerd als "effect is slechter dan de drempel" en de kracht hangt af van de Margin of Indifference (δ), die vooraf door het bedrijf moet worden vastgesteld (bijvoorbeeld, -2% voor retentie). De formule voor statistische kracht vereist het opgeven van het verwachte ware effect (meestal 0 of een kleine positieve) en de variantie, waarbij naderen tot δ exponentieel grote steekproeven vereist. Het is nodig om gespecialiseerde krachtcalculators voor paired proportions te gebruiken met correctie voor clustering per cohort, aangezien gebruikers binnen dezelfde cohort correleren op basis van de tijd van uitschakeling.

Hoe om te gaan met netwerkeffecten (spillover effects), wanneer het verwijderen van een functie voor één gebruiker het gedrag van anderen beïnvloedt door het verlies van communicatieverbindingen?

In sociale producten of B2B SaaS beïnvloedt het verwijderen van een functie bij één actor (bijvoorbeeld het uitschakelen van een oude API voor een administrator) de ervaring van eindgebruikers (werknemers), wat interferentie creëert tussen de treatment en control. Om dit effect te isoleren, wordt cluster-gebaseerde randomisatie of analyse via exposure mapping toegepast: in plaats van individuele treatmentstatus wordt het aandeel gebruikers in het sociale netwerk (team, gezin) dat de functie is kwijtgeraakt, gebruikt. Als de correlatie tussen de individuele uitschakeling en het aandeel uitschakelingen in de cluster hoog is (>0.8), geeft klassieke OLS verstoorde schattingen. Een oplossing is het gebruik van IV-regressie (instrumentele variabelen), waarbij de feitelijke verwijdering van de functie de endogene variabele is, of het toepassen van causal inference-methoden voor interferentie, zoals Fisher's randomization test met correctie voor de grootte van de cluster.