Antwoord op de vraag.

Gepersonaliseerde push-notificaties vereisen een strikte quasi-experimentele benadering vanwege zelfselectie van gebruikers op basis van actieve tijd. Mogelijke kruisbesmetting via sociale netwerken of familieaccounts maakt isolatie van het effect verder gecompliceerd.

De belangrijkste methode is de Difference-in-Differences (DiD) met synthetische controle. De controlegroep wordt gevormd op basis van propensity score matching op basis van het tijdstip van opening van de app en historische bestelpatronen.

Voor de correctie van tijdstip van de dag-effecten wordt stratificatie naar tijdzones toegepast. Cross-contaminatie wordt gedetecteerd door het analyseren van device ID en IP-adressen op gedeelde accounts.

De retentiemetriek wordt berekend als hazard ratio met gebruik van het Cox proportional hazards model. Dit maakt het mogelijk om gecensureerde data en heterogeniteit van uitstroomrisico’s in overweging te nemen.

Levenssituatie

In de app Delivery Club was gepland om een ML-model in Python in te voeren met gebruik van CatBoost voor de personalisatie van de timing van push-notificaties. Het probleem was dat actieve gebruikers de app voornamelijk tijdens de lunchuren openmaakten, wat zelfselectie-bias creëerde.

Een gedeeltelijke uitrol naar 20% van het publiek veroorzaakte een "mond-tot-mond" effect. Gebruikers uit de controlegroep hoorden van aanbiedingen van collega's, wat kruisbesmetting creëerde.

De eerste overweging was een klassieke A/B-test met geografische segmentatie. Stad A was de testgroep, stad B de controle.

Voordelen van deze aanpak omvatten schone isolatie van de groepen en eenvoud in de interpretatie van resultaten voor het bedrijfsleven. Nadelen waren de verschillen in culinaire voorkeuren en inkomens tussen de steden, wat een bias van 12-15% in de basisretentie veroorzaakte.

Een tweede optie was het analyseren van alleen gebruikers met ingeschakelde notificaties (per-protocol analyse). Dit stelde ons in staat om ons te concentreren op de doelgroepen die reageren op communicatie.

Voordelen — hoge relevantie voor het productteam. Nadelen — negeren van het effect van opt-out bias: gebruikers die notificaties hadden uitgeschakeld, hadden 3 keer hogere basisuitstroom, wat het algehele effect van de interventie vervormde.

De derde oplossing was Causal Impact van Google met de bouw van synthetische controle. Bayesian Structural Time Series werden gebruikt om de contrafactual te modelleren.

Voordelen omvatten het in aanmerking nemen van tijdstrends en seizoensgebondenheid zonder dat expliciete controle nodig was. Nadelen — hoge gevoeligheid voor de keuze van covariaten en de fragiliteit van de aanname van parallelle trends vóór de interventie.

De gekozen benadering werd een gecombineerde methode: Inverse Probability Weighting (IPW) voor het corrigeren van zelfselectie op basis van actieve tijd plus Diff-in-Diff met clustering van standaardfouten op niveau van geografische clusters.

Deze oplossing behield de individuele variabiliteit in verzendtijd, cruciaal voor personalisatie. Tegelijkertijd werd toezicht gehouden op intergroep spillovers via clusterrobustheid.

Het resultaat was de identificatie van het ware incrementele effect van +8,3% op de 7-daagse retentie. Een naïeve vergelijking toonde +15%. Het effect bleek statistisch significant alleen voor het segment "gebruikers met 3+ bestellingen in de geschiedenis".

Dit stelde ons in staat om het budget voor verzending te optimaliseren door koude gebruikers uit de doelgroepen voor gepersonaliseerde campagnes te verwijderen.

Wat kandidaten vaak over het hoofd zien

Hoe kan men seizoensgebondenheid correct in aanmerking nemen bij het berekenen van de LTV-prognose voor een abonnementsproduct met jaarlijkse en maandelijkse plannen bij het hebben van cohort heterogeniteit?

Nieuwkomers gebruiken vaak een eenvoudige gemiddelde berekening van historische retentiecurven zonder te overwegen dat gebruikers die in de periode van Black Friday komen een kwalitatief ander retentieprofiel hebben. Hun churn is 2-3 keer hoger dan die van organische gebruikers.

De correcte benadering is het bouwen van afzonderlijke BG/NBD of Gamma-Gamma modellen voor elke cohort met inachtneming van seizoensgebonden dummy-variabelen. Een alternatief is het gebruik van Cohort-Based LTV met correctie via Bayesian Hierarchical Modeling voor het lenen van kracht tussen cohorten (partial pooling).

Wat is het verschil tussen intent-to-treat (ITT) en treatment-on-the-treated (TOT) analyse bij het evalueren van het effect van een onboarding tour, en wanneer moet welke aanpak worden toegepast?

ITT analyseert het effect van het aanbod (offer) om onboarding aan alle gebruikers in de testgroep te bieden, inclusief weigeraars. TOT meet het effect van het daadwerkelijk doorlopen van de tour (complier average causal effect).

ITT is conservatief en geschikt voor zakelijke beslissingen over de opschaling van functies. Dit weerspiegelt het daadwerkelijke gedrag van het publiek met inachtneming van friction. TOT vereist instrumentele variabelen en beantwoordt de vraag over de zinvolheid van gedwongen onboarding.

Een fout bij het kiezen van de methode leidt tot overschatting van het effect met 40-60%. Voor TOT kunnen willekeurige bugs in de weergave van de tour worden gebruikt als instrument.

Hoe diagnoseer je het probleem van "peeking" bij het uitvoeren van sequentieel A/B-testen en welke statistische correcties moeten worden toegepast?

Peeking ontstaat bij voortijdige stopzetting van de test wanneer significante resultaten worden bereikt. Diagnostiek — analyse van p-waarde over de tijd: bij peeking vertoont de curve een "afgeronde zwerver" met frequente kruisingen van de drempel van 0.05.

Oplossingen omvatten Group Sequential Testing met alpha-spending functies (O'Brien-Fleming). Een alternatief is Bayesian A/B Testing met ROPE (Region of Practical Equivalence) benadering.

Het is ook effectief om de steekproefgrootte vast te leggen via Data Quality Gates in Apache Airflow. Een kritieke fout is het gebruik van naïeve betrouwbaarheidsintervallen zonder Bonferroni-correctie, wat het false positive percentage opblies tot 25-30% bij 5 tussencontroles.