Antwoord op de vraag.

Historisch gezien is e-mailmarketing ontstaan in de paradigma van het maximaliseren van touchpoints, waar de toename van de communicatiefrequentie correleerde met een stijging van de omzet tot verzadiging. Met de ontwikkeling van de theorie van engagement fatigue en de strengere spamfilters (SpamAssassin, Gmail Promotions Tab) ontstond de noodzaak voor optimalisatie van de frequentie, maar klassieke before/after vergelijkingen bleken onbetrouwbaar vanwege niet-lineaire effecten van verzadiging en externe schokken.

Het probleem van de evaluatie ligt in het onvermogen om een controlegroep te creëren bij een wereldwijde rollout, de aanwezigheid van self-selection bias (verschillende segmenten reageren anders op de vermindering van touchpoints) en confounding factors (seizoensgebondenheid, macro-economische trends, parallelle marketingactiviteiten). Standaard correlatie-analyse mengt het causale effect met algemene trends in de groei of daling van het product.

De optimale oplossing vereist een combinatie van quasi-experimentele methoden. We passen Difference-in-Differences (DiD) toe met Propensity Score Matching (PSM) op historische metrics van betrokkenheid (open rate, click rate, recency). Voor elk segment bouwen we een synthetische controle via de Synthetic Control Method, met correlatie tijdreeksen (organisch verkeer, directe toegang tot de app) als covariaten. Voor inferentie gebruiken we Causal Impact op basis van Bayesian Structural Time Series, wat ons in staat stelt om counterfactuals met betrouwbaarheidsintervallen te modelleren. Daarnaast passen we Causal Forests toe om heterogeneous treatment effects per RFM-segment te beoordelen. Validatie gebeurt via placebo tests in de pre-interventieperiode ter controle van de parallelle trends veronderstelling en sensitivity analysis voor de beoordeling van de robuustheid tegen ongeobserveerde confounding.

Levenservaring.

Een EdTech-platform met 2 miljoen gebruikers zag een stijging van het unsubscribe percentage met 40% in een kwartaal en besloot de frequentie van het educatieve digest te verminderen van dagelijks naar drie keer per week. Het probleem was dat er aangetoond moest worden aan de CEO dat de vermindering van de frequentie de omzet van power users niet zou vernietigen, terwijl de wijziging op 15 december werd doorgevoerd - een week voor de traditionele piek van de eindejaarsaankopen van cursussen, wat een sterke tijdsconfounder creëerde.

De eerste overweging was een eenvoudige vergelijking van gemiddelde bestedingen in de week voor en na via t-test. De voordelen waren de snelheid van implementatie en begrijpelijkheid voor zakelijke belanghebbenden. Nadelen waren kritiek: volledige negering van de seizoensgebonden groei van aankopen in december gaf een vals positief effect van 15% groei in LTV, terwijl er feitelijk een nul of negatief effect kon zijn van de vermindering van communicatie.

De tweede optie was een cohortanalyse met een 30-daagse vertraging, waarbij de november- en decembercohorten vergeleken werden. Voordelen omvatten het rekening houden met de gebruikerslevenscyclus en seizoensgebonden gecorrigeerde metrics. Nadelen toonden zich in het feit dat verschillende cohorten een verschillende basisconversie hadden, en de decembercohort verstoord werd door nieuwjaarspromotiecampagnes, wat een onoverkomelijke selectie-bias veroorzaakte en de isolatie van het pure effect van de frequentie van de e-mails verhinderde.

De derde optie was de constructie van Synthetic Control op basis van geografische gegevens, waarbij de regio's van de GOS met een lage penetratie van het e-mailkanaal (waar gebruikers zich richten op push en SMS) als controlegroep voor de regio's met een hoge afhankelijkheid van e-maildigests werden gebruikt. Voordelen: de mogelijkheid om de counterfactual te modelleren "wat het zou zijn geweest zonder de wijziging" op het niveau van geaggregeerde tijdreeksen. Nadelen: de aanname van parallelle trends werd geschonden door regionale verschillen in feesttradities van onderwijs, en de gegevens over steden waren sterk verstoord door de migratie van gebruikers tussen regio's tijdens de nieuwjaarsvakantie.

De vierde optie (gekozen) was Difference-in-Differences met exacte matching op basis van historische activiteit (opens, clicks, aankopen in de 90 dagen vóór de wijziging). We gebruikten power users (die meer dan 70% van de e-mails openden) als de treatment group en dormants (die minder dan 5% van de e-mails openden) als controle, aangezien de laatsten feitelijk geen verandering in frequentie ondervonden. Voordelen: strikte controle over de waargenomen kenmerken via PSM en mogelijkheid om parallelle trends te valideren op gegevens van voorgaande kwartalen. Nadelen: de aanname van afwezigheid van differential trends tussen actieve en niet-actieve gebruikers vereiste aanvullende controle. Voor robuustheid pasten we Causal Impact toe, waarbij we metrics van de mobiele toepassing (sessies, in-app aankopen) gebruikten als controle tijdreeksen, die niet direct correleerden met de e-mailfrequentie, maar de algemene producttrend weerspiegelden.

Het uiteindelijke resultaat toonde aan dat voor power users de vermindering van de frequentie leidde tot een statistisch significante daling van de 30-daagse retentie met 8% (p-waarde < 0.05, 95% CI [5%, 11%]), maar de levenslange waarde met 3% verhoogde door de vermindering van churn naar spam-lijsten. Voor gemiddeld actieve gebruikers was het effect statistisch neutraal. Aanbeveling aan het bedrijf: herstel de dagelijkse frequentie alleen voor de top 10% van gebruikers met de hoogste engagement score via segmentatie, terwijl voor de rest van de database drie e-mails per week behouden blijven.

Wat kandidaten vaak vergeten.

Hoe het effect van de frequentie van e-mails te onderscheiden van het effect van de kwaliteit van de inhoud, als het team tegelijkertijd met de vermindering van de frequentie ook copywriting en ontwerp van de e-mails heeft verbeterd?

Het antwoord vereist het toepassen van mediation analysis en instrumental variables (IV). Het is nodig om een tweeledige model te bouwen: eerst het effect van de wijziging van de frequentie op de kans op het openen van een e-mail beoordelen (ter controle van de kwaliteit van de inhoud via metrics zoals readability score of engagement rate in de controleperiode), en vervolgens het effect van het openen op de conversie beoordelen. Pakketten zoals mediation in R of Python (de bibliotheek mediation) worden gebruikt om het totale effect op te splitsen in direct effect (frequentie) en indirect effect (kwaliteit). Een kritiek punt voor een beginnende specialist is dat als de kwaliteit van de inhoud een collider is (afhankelijk van de frequentie door vrijgekomen middelen van het copywritingteam), een front-door adjustment van Pearl vereist is, of het gebruik van lagged quality metrics (kwaliteit met lag=1) als een instrument voor het isoleren van het pure effect van de frequentie.

Hoe de resultaten correct te interpreteren bij schending van SUTVA (Stable Unit Treatment Value Assumption), wanneer gebruikers promotiecodes uit e-mails delen op sociale netwerken, waardoor spillover-effecten tussen treatment- en controlgroepen ontstaan?

Kandidaten negeren vaak netwerkinterferentie, uitgaande van de onafhankelijkheid van de waarnemingen. De oplossing is om over te stappen van individuele niveau-analyse naar clusteranalyse (cluster robust standard errors) of het gebruik van methoden voor causal inference under interference. Het is nodig om clusters te definiëren via sociale netwerken (als de gegevens over verbindingen beschikbaar zijn) of geografische nabijheid, en vervolgens exposure mapping toe te passen voor observational data. Voor het beoordelen van spillover worden neighborhood-based treatment definitions of sinusoidal exposure models gebruikt. Het is belangrijk te begrijpen dat bij positieve spillovers (viraliteit van promotiecodes) standaard beoordelingen een verlaagd effect geven (onderwaardering), omdat de controle groep gedeeltelijk "behandeling" ontvangt via het net. Het is nodig om beoordelingen aan te passen via inverse probability weighting rekening houdend met de mate van blootstelling van buren.

Hoe een sensitivity analysis uit te voeren om de robuustheid van de resultaten tegen onopgemerkte confounders (unobserved confounding) te beoordelen, zoals gelijktijdige advertentiecampagnes op Facebook, gericht op hetzelfde publiek?

De standaardaanpak in productanalyse is om E-value (VanderWeele & Ding) te gebruiken voor het beoordelen van de minimale kracht van de associatie die een onopgemerkte confounder moet hebben om de geobserveerde associatie uit te leggen. Ook wordt bounding analysis (Rosenbaum bounds) gebruikt voor rank-gebaseerde tests. Voor een beginnende specialist is het cruciaal om de techniek negative controls te begrijpen - het gebruik van outcomes die niet door de treatment zouden moeten worden beïnvloed (bijvoorbeeld het aantal sessies in de mobiele app, als we alleen het e-mailkanaal veranderen), maar die wel correleren met de veronderstelde confounder. Als "de vermindering van de e-mailcampagnes" invloed heeft op de tijd in de app (wat niet zou moeten), is dat een signaal van de aanwezigheid van een algemene confounder (bijvoorbeeld een gezamenlijk marketingbudget of seizoensgebondenheid).