Antwoord op de vraag

Traditionele prijsmodellen in e-commerce vertrouwden lange tijd op eenvoudige correlatieanalyses of korte A/B-testen om de wijziging van bezorgdrempels te beoordelen. Echter, met de ontwikkeling van de theorie van oorzakelijke afleidingen (Causal Inference) werd duidelijk dat scherpe veranderingen in het leveringsbeleid voor de hele basis een probleem van endogeniteit van zelfselectie en tijdelijke dynamiek creëren. Moderne productanalyse vereist de toepassing van quasi-experimentele methoden, zoals Synthetic Control Method (SCM) en Bayesian Structural Time Series (BSTS), die zijn ontwikkeld voor de evaluatie van macro-economische beleid, maar met succes zijn aangepast voor digitale producten met een hoge volatiliteit van metrics.

Bij het verhogen van de drempel voor gratis levering ontstaat een complex identificatieprobleem van het lokale gemiddelde effect van de impact (LATE). Gebruikers met een hoge koopbereidheid passen hun gedrag aan (doen aankopen tot de drempel), terwijl marginale gebruikers hun aankoop uitstellen of naar concurrenten overstappen. De klassieke voor-ná analyse geeft een vertekend beeld vanwege seizoensgebondenheid, inflatie-effecten en concurrentiecampagnes. Daarnaast is er een effect van intertemporele vervanging (intertemporal substitution), waarbij gebruikers aankopen in de tijd combineren, wat een kunstmatige piek in de gemiddelde besteding creëert die niet verband houdt met een werkelijke stijging van de vraag, wat modellering van de tijdsstructuur van de respons vereist.

De optimale aanpak is een combinatie van Synthetic Control Method op het niveau van geaggregeerde cohortgegevens van gebruikers en Regression Discontinuity Design (RDD) voor de lokale evaluatie van het effect op marginale consumenten. Voor SCM wordt een gewogen combinatie van geografische regio's of segmenten met een vergelijkbare historische dynamiek opgebouwd, die de trend van de doelgroep vóór de interventie nabootst, met gebruik van de gewichtsoptimalisatie-algoritme Abadie-Diamond-Hainmueller. Voor RDD worden transacties in een nauwe strook rond de drempel geanalyseerd (optimale bandbreedte via het Imbens-Kalyanaraman algoritme), waarmee het zuivere effect van de stimulans kan worden geïsoleerd. Daarnaast wordt CausalImpact op basis van BSTS toegepast voor een dynamische beoordeling van de afwijking van de synthetische trend, terwijl de statistische significantie wordt berekend via permutation test (placebo tests) op historische gegevens.

Situatie uit het leven

Een grote mode-marktplaats besloot de drempel voor gratis levering van 1500₽ naar 2500₽ voor het hele publiek in Rusland gelijktijdig te verhogen. Het productteam registreerde een stijging van de gemiddelde besteding met 22% in de eerste twee weken, maar de CFO twijfelde aan de duurzaamheid van dit effect, uit vrees voor het verlies van waardevolle gebruikers en kannibalisatie van toekomstige verkopen door het mechanisme van uitgestelde aankopen. De analist stond voor de taak om het werkelijke causale effect van de ruis van seizoensverkopen en de veranderde gedragingen van concurrenten, die gelijktijdig acties voor levering hadden opgestart, te scheiden.

De eerste overweging — een eenvoudige vergelijking van metrics voor 30 dagen vóór en 30 dagen na de wijziging met gebruik van een t-test en berekening van uplift in percentages. Voordelen: maximale snelheid van uitvoering op één dag en hoge begrijpelijkheid voor het topmanagement zonder in de statistiek te duiken. Nadelen: volledige negeren van de opwaartse seizoensgebonden trend (begin van de lentecollectie), geen controle over externe schokken (advertentiecampagne van concurrenten) en onvermogen om het dynamische effect van het accumuleren van winkelwagentjes te beoordelen, wat leidt tot een overschatting van het effect met 40-60%.

De tweede optie — Geographic Difference-in-Differences, waarbij regio's zonder wijziging van de drempel (bijvoorbeeld afgelegen gebieden met logistieke beperkingen) als controlegroep worden gebruikt. Voordelen: natuurlijke variatie en het vermogen om regionale verschillen in prijsgevoeligheid te vangen via fixed effects. Nadelen: kritische schending van de veronderstelling van parallelle trends (parallel trends) door de migratie van gebruikers tussen steden (schending van SUTVA) en aanzienlijke verschillen in de concurrentiële omgeving tussen hoofdsteden en regio's, wat de controlegroep systematisch niet vergelijkbaar maakt.

De derde optie — Synthetic Control Method op het niveau van gebruikerscohorten, gevormd op basis van historische aankoopfrequentie en gemiddelde besteding, gebouwd op gegevens van 12 maanden vóór de wijziging. Voordelen: creëren van een optimale gewichten combinatie van "donoren" segmenten, rekening houdend met seizoensgebondenheid, dag van de week en trends via convex combination; mogelijkheid voor visuele validatie van fit quality in de pre-treatment periode. Nadelen: vereiste van een lange gegevensgeschiedenis (minimaal 10-15 periodes), gevoeligheid voor structurele breuken (regime switch) zoals pandemische veranderingen in gedrag, en complexiteit in de interpretatie van gewichten voor de business.

Een gecombineerde oplossing werd gekozen: SCM voor de beoordeling van het totale effect op de omzet en RDD met een lokale polynoom van tweede graad voor de beoordeling van het effect op marginale gebruikers in het bereik van 2300-2700₽. Dit stelde in staat om het effect van "aankoopvergroting" (basket augmentation) van het effect van "verlies" (churn) te scheiden en seizoensgebondenheid correct te verdisconteren via een bayesiaanse structurele tijdreeksmodel (BSTS), geïntegreerd in CausalImpact.

Het uiteindelijke resultaat toonde aan dat de waargenomen stijging van de besteding met 22% ongeveer dubbel werd overschat: het werkelijke incrementele effect was 11%, waarbij 6% te wijten was aan tijdelijke verschuiving van de vraag (intertemporal substitution) en 5% aan de werkelijke verhoging van de winkelwagentjes. De analyse onthulde een segment van "prijsgevoelige" gebruikers (15% van de basis) die een verhoogd verlies van 8% vertoonden en een afname van de bestelfrequentie van 12%, wat de mogelijkheid bood om het beleid aan te passen: het invoeren van een hybride drempel van 1990₽ voor het segment van lage besteding met een hoge historische frequentie van retourzendingen, ter compensatie van het negatieve effect op het behoud.

Wat kandidaten vaak vergeten

Hoe de effect van het accumuleren van winkelwagentjes (cart pooling) en intertemporele vervanging van aankopen correct in rekening te brengen bij het beoordelen van de dynamische bezorgdrempel, als gebruikers strategisch de conversie uitstellen?

Antwoord: Het is noodzakelijk om de tijdsstructuur van besluitvorming te modelleren via survival analysis (Cox-model met proportionele risico's) of analyse van de intervallen tussen sessies (inter-purchase time). De sleutelmetric wordt geen puntconversie, maar de verandering van de hazard rate van aankopen afhankelijk van de huidige som van de winkelwagentjes en de afstand tot de drempel. Daarnaast moeten de cohorten van gebruikers die de drempel hebben bereikt via aankopen worden geanalyseerd op een verhoogd percentage van retouren binnen 14 dagen (retour-kannibalisatie), wat de GMV-metric vervormt en correctie op de return rate in het model vereist.

Waarom zijn standaard betrouwbaarheidsintervallen (confidence intervals) onjuist voor de Synthetic Control Method en hoe moet de statistische significantie van het causale effect in deze methodologie worden beoordeeld?

Antwoord: In SCM zijn de schattingen onderhevig aan inferential uncertainty, gerelateerd aan het proces van het samenstellen van gewichten voor donoreenheden en de eindigheid van de steekproef, wat de aannames van klassieke frequentie-statistieken over de onafhankelijkheid van observaties schendt. De correcte benadering is permutation test (placebo test), waarbij dezelfde SCM-algoritme wordt toegepast op elke donoreenheid uit de pool (doen alsof ze de behandeling hebben ontvangen), wat een empirische distributie van placebo-effecten creëert. Het effect wordt statistisch significant beschouwd op een niveau van 5%, als de post/pre-RMSPE-ratio voor de behandelde eenheid de 95e percentiel van de placebo-distributie overschrijdt, zoals formeel geformuleerd in het werk van Abadie, Diamond en Hainmueller (2010, 2015).

Hoe het effect van de wijziging van de bezorgdrempel te onderscheiden van gelijktijdige wijziging van de kwaliteit van het verkeer of de concurrentiële activiteit bij gebruik van Causal Impact of Synthetic Control?

Antwoord: Het is cruciaal om covariates (voorspellende factoren) in het model op te nemen die niet onderhevig zijn aan de invloed van de interventie (untreated confounders) maar correleren met de doelmetric — bijvoorbeeld het verkeer op de websites van concurrenten (via SimilarWeb of panelgegevens), het totale volume van e-commerce in de regio, of de CTR van organisch verkeer. In de bayesiaanse structuur BSTS, die ten grondslag ligt aan CausalImpact, worden deze variabelen als regressoren in het state-space model opgenomen, wat algemene schokken isoleert. Het is ook noodzakelijk om Granger causality te testen tussen de voorspellers en de uitkomst vóór de interventie en placebo-in-time tests te gebruiken door de datum van "impact" naar historische periodes te verschuiven om de afwezigheid van valse triggerings te controleren.