Antwoord op de vraag

Historische context. Het concept van co-browsing is afkomstig uit de B2B-sector (klantenondersteuning) en heeft zijn weg gevonden naar sociale e-commerce (bijvoorbeeld functies zoals 'Shop Together' in mobiele applicaties). Traditionele analytics baseerde zich lange tijd op de veronderstelling van SUTVA (Stable Unit Treatment Value Assumption), die de onafhankelijkheid van gebruikers veronderstelt. Echter, sociale functies schenden deze veronderstelling, omdat de interactie van één gebruiker het gedrag van zijn connecties beïnvloedt, wat traditionele A/B-tests methodologisch onjuist maakt.

Probleemstelling. Standaard gemiddelde vergelijkingen (difference-in-means) geven een vertekend beeld door interference (onderlinge besmetting): gebruikers in de controlegroep, uitgenodigd door vrienden in de testgroep, veranderen hun gedrag, wat een spillover-effect creëert. Zelfselectie door sociale activiteit vervormt de verdeling van covariaten, terwijl een gefaseerde implementatie (staggered rollout) tijdsconfounders introduceert, zoals seizoensgebondenheid en het nieuwigheidseffect, die correleren met het tijdstip van aansluiting van de cohorten.

Gedetailleerde oplossing. Er moet een clusterrandomisatie (cluster randomized trial) op het niveau van het sociale netwerk worden toegepast, waarbij algoritmes voor gemeenschapsdetectie (Louvain of Leiden) worden gebruikt om clusters met minimale onderlinge samenhang te creëren. Als volledige randomisatie niet mogelijk is, gebruik dan difference-in-difference met tegenovergestelde implementatie (staggered DiD), corrigeer voor heterogene effecten met behulp van Callaway-Sant’Anna of Sun-Abraham methoden, die correct omgaan met negatieve gewichten van vroegere cohorten. Om het directe effect van netwerkeffecten te isoleren, pas exposure mapping toe: bepaal de mate van 'besmetting' van de controlegroep als het aandeel vrienden in de test en voer dit in als covariaat in de regressie, of gebruik 2SLS (tweestaps OLS) met een instrumentele variabele (toegang tot de functie per geografisch cluster als IV voor daadwerkelijk gebruik). Voor het analyseren van de tijd tot conversie is een Cox-regressiemodel met frailty-effecten (shared frailty model) geschikt, waarbij de clustering van risico's binnen sociale groepen wordt meegenomen.

Levenssituatie

Probleembeschrijving. De marktplaats heeft de functie 'Koop samen' gelanceerd, waarmee twee gebruikers tegelijkertijd de catalogus kunnen bekijken en gezamenlijk hun winkelwagentje in real-time kunnen bewerken. De pilot op 10% van de gebruikersgroep toonde een stijging van de conversie met 8%, maar het team vermoedde dat deze schatting te hoog was: gebruikers uit de controlegroep ontvingen uitnodigingen van vrienden uit de testgroep, wat intergroepcontaminatie creëerde. Bovendien maakten vooral de gebruikers die al sociale verbindingen hadden gebruik van de functie (zelfselectie op betrokkenheid).

Optie 1: Eenvoudige vergelijking van 'voor/na' bij de groep van gebruikers. Deze aanpak houdt in dat de metrieken van gebruikers die zijn begonnen met co-browsing worden vergeleken met hun eerdere gegevens of met vergelijkbare gebruikers zonder de functie. De voordelen zijn duidelijk: de berekening duurt minuten, is gemakkelijk te interpreteren voor het bedrijfsleven en vereist geen complexe experimentele infrastructuur. De nadelen zijn echter kritiek: de methode negeert volledig seizoensgebondenheid en het rijpingseffect, en lijdt ook aan zelfselectie bias, aangezien sociaal actieve gebruikers van nature een hogere baseline-conversie hebben.

Optie 2: Intent-to-Treat (ITT) analyse met randomisatie van de beschikbaarheid van de knop. Hier geven we willekeurig de mogelijkheid om vrienden uit te nodigen aan verschillende cohorten, ongeacht of zij deze zullen gebruiken, en vergelijken we de uiteindelijke metriek. Voordelen omvatten het behoud van statistische willekeurigheid in de toewijzing en de mogelijkheid om het totale effect van het lanceringbeleid te evalueren, inclusief netwerkeffecten. Nadelen zijn de vervaging van het effect door discrepantie: velen krijgen toegang maar zullen de functie niet gebruiken, wat vereist dat de steekproef 3-4 keer moet worden vergroot; bovendien beantwoordt ITT niet de vraag naar effectiviteit voor echte gebruikers (TOT).

Optie 3: Regression Discontinuity Design (RDD) op basis van het aantal vrienden. Deze methode gebruikt een scherpe drempel (bijvoorbeeld 5 vrienden) voor het activeren van de functie en creëert een quasi-experiment rondom het snijpunt. De voordelen bestaan uit lokale willekeurigheid van toewijzing nabij de drempel en de noodzaak van volledige randomisatie van het publiek. Er zijn echter aanzienlijke nadelen: het effect is alleen lokaal voor 'grens' gebruikers, manipulatie (nep vrienden toevoegen) is mogelijk en de methode lost het probleem van contaminatie tussen gebruikers van verschillende kanten van de drempel niet op, als ze met elkaar verbonden zijn.

Gekozen oplossing en rechtvaardiging. Er is gekozen voor optie 2 met clusterrandomisatie: analisten bouwden een grafiek van sociale verbindingen, pasten het Louvain-algoritme toe voor het identificeren van dichte gemeenschappen en randomiseerden de toegang op niveau van de gemeenschap, niet de gebruiker. Dit minimaliseerde de contaminatie tussen test en controle. Voor de evaluatie werd een model met variabelen van blootstelling gebruikt: voor elke gebruiker werd het aandeel vrienden in de testclusters (de intensiteit van de spillover) berekend en als regressorfactor ingevoerd. Dit stelde ons in staat om het directe effect van de functie en de indirecte invloed via sociaal bewijs te scheiden.

Eindresultaat. Het werkelijke directe effect (TOT) bedroeg +3,2% op de conversie (in plaats van 8% in de ruwe schatting). Er werd echter een significante positieve spillover op de controlegroep (+1,8%) vastgesteld, veroorzaakt door de sociale invloed van uitnodigingen. Het totale effect van het beleid (ITT) bleek +2,1% te zijn. Zonder rekening te houden met netwerkeffecten zou het team de waarde van de functie hebben onderschat en het project als 'niet effectief genoeg' hebben afgewezen, terwijl de functie met de spillover in 4 maanden was terugverdiend.

Wat kandidaten vaak vergeten

1. Waarom geeft een standaard A/B-test een vertekende schatting bij sociale functies? Een standaard test veronderstelt SUTVA: de impact op één gebruiker heeft geen invloed op anderen. Bij co-browsing wordt dit geschonden: een controle gebruiker die een uitnodiging ontvangt van een test gebruiker verandert zijn gedrag (spillover), wat leidt tot interference bias. De schatting van ATE (Average Treatment Effect) wordt een gewogen mix van het directe en indirecte effect, dat vaak naar nul neigt. Oplossing: gebruik clusterrandomisatie (randomization at network-cluster level) of inverse probability weighting methoden om te corrigeren voor netwerkinvloed.

2. Hoe statistisch direct effect, spillover effect en totaal effect te scheiden? Kandidaten verwarren ITT (Intent-to-Treat) en TOT (Treatment-on-Treated): ITT evalueert het effect van het aanbod van de functie aan de hele cohort, inclusief degenen die het niet hebben gebruikt, terwijl TOT het effect isoleert voor echte gebruikers. Voor het scheiden van effecten worden Principal Stratification (principiële stratificatie) gebruikt: classificeren van gebruikers op basis van compliant types (compliers, always-takers) en evalueren van CACE (Complier Average Causal Effect). Spillover wordt geschat via exposure mapping, waarbij de intensiteit van de indirecte impact wordt geïnterpoleerd door het aandeel verbindingen in de test. Het totale effect is een gewogen som van directe en indirecte effecten op basis van de blootstellingsverdeling.

3. Waarom is standaard DiD (Difference-in-Differences) onjuist voor staggered rollout? Bij gefaseerde implementatie dienen vroege cohorten als controle voor latere, maar latere dienen nooit als controle voor vroege, wat leidt tot het probleem van negatieve gewichten (negative weighting) bij heterogene effecten. Een klassieke tweeperiode DiD in een dergelijk ontwerp geeft vertekende schattingen, omdat het de effecten van verschillende perioden met onjuiste gewichten mengt. In plaats daarvan moeten Callaway-Sant’Anna of Sun-Abraham schatters worden gebruikt, die alleen nooit-behandelde of nog niet-behandelde waarnemingen als controle gebruiken. Een alternatief is de Synthetic Control Method voor elke cohort afzonderlijk, gebaseerd op een donorpool van nooit-behandelde groepen.