Antwoord op de vraag

Historische context: De functie voor het splitsen van betalingen (split payment) heeft traditioneel gedomineerd in de reissector en B2B-diensten, maar de massale invoering in de klassieke e-commerce (elektronica, mode) is relatief recent begonnen met de groei van mobiele betalingen. De belangrijkste analytische uitdaging is dat gebruikers zich zelfselecteren in sociale clusters (jeugdgroepen, gezinnen) waar de beslissing over aankopen collectief wordt genomen, wat interference tussen de test- en controlegroepen creëert en standaard A/B-testen ongeldig maakt.

Probleemstelling: Het is nodig om het zuivere causale effect van splitsing van betalingen op de metrics van de eenheids-economie te isoleren, dit gescheiden van (1) seizoensgebonden schommelingen in de vraag naar dure goederen, (2) de natuurlijke neiging tot stijging van de gemiddelde besteding in jonge cohorten, (3) endogeniteit van sociale banden (rijke vrienden nodigen rijkere vrienden uit), en (4) geleidelijke rollout per categorie, die de tijdselementen vervormt.

Gedetailleerde oplossing: De optimale benadering is een combinatie van Difference-in-Differences (DiD) met clusterrandomisatie op het niveau van het "sociale netwerk" (niet de gebruiker), aangevuld met Fuzzy Regression Discontinuity Design (RDD) op de drempelprijs voor de activering van de functie (bijv. 30.000 ₽). Voor correctie van endogeniteit van sociale banden wordt de IV (Instrumental Variables) benadering gebruikt, waarbij de instrumentvariabele de sequentiële nummering van de categorie in het rollout-plan is (exogene variatie), voorafgaand aan het daadwerkelijke gebruik van de functie. Voor het beoordelen van de heterogeniteit van het effect per segment wordt Causal Forest gebruikt, waarmee voorzichtige gemiddelde effecten (CATE) voor verschillende gebruikersclusters kunnen worden onderscheiden. Metrics worden in twee modi beoordeeld: Intent-to-Treat (ITT) — effect van de aanwezigheid van de knop, en Treatment-on-the-Treated (TOT) — effect van daadwerkelijk gebruik, wat een correcte behandeling van non-compliance vereist via Two-Stage Least Squares (2SLS).

Situatie uit het leven

Context: Een grote elektronica-marktplaats lanceert de functie "Deel winkelwagentje" voor aankopen boven 50.000 ₽, waarmee twee gebruikers hun betaling gelijk kunnen splitsen. De pilot wordt gelanceerd in de categorie "Smartphones", met een geplande uitbreiding naar "Laptops". Na de eerste maand registreert de commerciële afdeling een stijging van de gemiddelde besteding met 25% in de testcategorie, maar een analist vermoedt dat 70% van de gebruikers van de functie studenten van 18-22 jaar zijn, die historisch gezien een lage ARPU hadden, maar in de pilot samen iPhones zijn gaan kopen, wat het effect van "samen sparen" creëert.

Oplossing 1: Eenvoudige vergelijking Voor/Na (t-test op gemiddelden). Voordelen: Onmiddellijke implementatie, vereist geen complexe infrastructuur. Nadelen: Negeert volledig seizoensgebondenheid (de start van het schooljaar verhoogt de vraag naar gadgets), algemene stijgingstrends in mobiele commerce en zelfselectie van hoge bestellingen boven de drempel van 50.000 ₽. Het resultaat is 15-18 procentpunten naar boven verschoven.

Oplossing 2: Difference-in-Differences met de categorie "Accessoires" als controle. Voordelen: Verwijdert algemene temporele trends, eenvoudige interpretatie. Nadelen: Schending van de aanname van parallelle trends — de smartphonecategorie heeft een andere vraagelasticiteit en prijsdynamiek dan accessoires. Bovendien is er een spillover effect: gebruikers kunnen een smartphone gezamenlijk kopen, maar een hoesje — al zonder split payment in de controlegroep, wat de controlegroep vervuilt.

Oplossing 3: Regression Discontinuity Design (RDD) strikt op de drempel van 50.000 ₽. Voordelen: Gebruikt een exogene drempel voor quasi-experiment, evalueert het lokale effect (LATE) voor bestellingen bij de drempel. Nadelen: Schaal niet naar het hele prijsbereik, negeert bestellingen van 80.000 ₽ (daar kan het effect anders zijn). Bovendien, fuzzy karakteristiek — gebruikers kunnen de prijs manipuleren (een accessoire toevoegen) om aan de voorwaarde te voldoen.

Gekozen oplossing en onderbouwing: Een hybride aanpak is geïmplementeerd: Fuzzy RDD voor bestellingen in het bereik van 45.000-55.000 ₽ (zuivere identificatie bij de drempel) + DiD voor de algemene trend met behulp van de Synthetic Control Method (SCM) — het creëren van een gewogen kunstmatige controle uit andere categorieën, die de dynamiek van smartphones herhaalt vóór de invoering. Voor sociale effecten is clustering op device ID (identificatie van apparaten die door groepen mensen worden gebruikt) als proxy voor sociale banden toegepast.

Eindresultaat: Het ware incrementele effect was +8,4% op de gemiddelde besteding (in plaats van de waargenomen +25%), terwijl de conversie in de leeftijdsgroep van 18-25 jaar met 12% steeg, maar de aankoopfrequentie in het volgende kwartaal met 5% daalde (het effect van het "uitstellen" van aankopen tot het moment van groepssameling). De functie is alleen uitgerold in categorieën met een besteding van 40.000-70.000 ₽, waar het effect statistisch significant is.

Wat kandidaten vaak over het hoofd zien

1. Probleem van interference (vervuiling) door sociale netwerken: een gebruiker uit de controlegroep kan door een vriend uit de testgroep worden uitgenodigd voor een gezamenlijke aankoop.

Antwoord: In de klassieke A/B-test wordt de Stable Unit Treatment Value Assumption (SUTVA) verondersteld — onafhankelijkheid van units. In het geval van split payment wordt dit geschonden, omdat de behandeling (aanwezigheid van de knop) van een gebruiker het gedrag van een andere beïnvloedt (uitnodiging). Een correcte oplossing is clusterrandomisatie op het niveau van sociale componenten (vriendschapsnetwerken), of analyse van netwerkeffecten via exposure mapping, waarbij exposure wordt gedefinieerd als het aandeel vrienden met toegang tot de functie. Alternatief — gebruik van bipartite graph clustering om het netwerk in geïsoleerde clusters te splitsen vóór het experiment.

2. Verschil tussen ITT (Intent-to-Treat) en TOT (Treatment-on-the-Treated) effecten bij lage penetratie van de functie.

Antwoord: Veel analisten beoordelen ten onrechte het effect voor iedereen die de knop heeft gezien (ITT), als het effect voor degenen die deze hebben gebruikt (TOT). Als slechts 10% van degenen die de knop zien op "Splitsen" klikken, dan onderschat ITT het werkelijke effect met 10 keer. Voor de beoordeling van TOT is een IV-benadering nodig, waarbij de instrumentvariabele $Z$ — het feit dat de knop wordt weergegeven (randomized), en de endogene variabele $D$ — het feit van gebruik, is. De beoordeling van 2SLS geeft Local Average Treatment Effect (LATE) voor compliers — degenen die de functie alleen zouden gebruiken als deze beschikbaar is. Dit is cruciaal voor de business case: het effect voor "geneigd tot samenvoegen" is 3-4 keer hoger dan het gemiddelde effect.

3. Lange termijn kannibalisatie en forward-looking bias: split payment creëert mogelijk geen nieuwe vraag, maar herverdeelt alleen toekomstige individuele aankopen naar huidige gezamenlijke aankopen.

Antwoord: Kandidaten kijken vaak alleen naar directe transactie-metrics. Een cohortanalyse met een horizon van 90+ dagen is nodig, waarbij de aankoopfrequentie van gebruikers die split payment hebben gebruikt, wordt vergeleken met een matched-controle. Dit vereist het opzetten van propensity score matching (PSM) op basis van pre-treatment kenmerken (aankoopgeschiedenis, seizoensgebondenheid). Het is bovendien belangrijk om de compositional shift te controleren — is het assortiment niet verschoven naar producten met hoge marge, maar met een lage herhalingsfrequentie (bijv. consoles in plaats van spellen), waardoor de illusie van toegenomen bestedingen ontstaat bij een daling van de LTV.