De evolutie van e-commerce in het afgelopen decennium is verschoven van statische catalogi naar interactieve formaten, geleend van sociale netwerken. Het formaat Stories, aanvankelijk gepopulariseerd door Snapchat en Instagram, werd door marktplaatsen aangepast als een hulpmiddel om de cognitieve belasting bij de keuze van producten te verminderen via een kort visueel verhaal. Echter, in tegenstelling tot klassieke A/B-tests van UI-elementen, wordt de evaluatie van het effect van ephemer content geconfronteerd met het probleem van kruislings vervuiling (contamination), waarbij een gebruiker Stories van een vriend uit de testgroep ziet, terwijl hij zelf in de controlegroep zit.
De isolatie van het pure effect wordt bemoeilijkt door drie factoren van endogeniteit. Ten eerste kiezen merken zichzelf op basis van hun vermogen om kwalitatief hoogwaardige videoinhoud te produceren (grote spelers lanceren eerst), wat leidt tot een survivor bias. Ten tweede zorgen netwerkeffecten binnen de abonnementsnetwerken voor een spillover-effect, waarbij de impact 'lekt' van de test naar de controle via sociale verbindingen. Ten derde tonen Gen Z-gebruikers een 3-4 keer hogere betrokkenheid bij Stories in vergelijking met de doelgroep van 45+, wat stratificatie van de analyse vereist.
De optimale methodologie is staggered Difference-in-Differences (DiD) met ruimte-tijdvariatie, waarbij productcategorieën dienen als clusters van impact die op verschillende tijdstippen worden geïmplementeerd. Voor de controle van netwerkvuil wordt een leave-out strategy toegepast: gebruikers met overlappende abonnementen op merken uit verschillende categorieën (treatment en control) worden uitgesloten. Voor de correctie van de selectie-bias van merken wordt Propensity Score Matching (PSM) toegepast op historische metrics van engagement en audience size vóór de implementatie. De variantie wordt verlaagd door CUPED (Controlled-experiment Using Pre-Experiment Data), en de heterogeniteit van het effect wordt beoordeeld via Causal Forest, waarmee voor verschillende leeftijdssegmenten kan worden vastgesteld welke conditionele gemiddelde effecten van invloed zijn (CATE).
Bij een grote fashion-marktplaats werd de implementatie van Stories voor merken in de categorie "Sportkleding" (testgroep) gepland, met behoud van het klassieke productkaartje in de categorie "Zakelijke Kleding" (controle). Het probleem was dat Nike en Adidas (test) veel meer volgers hadden dan de klassieke merken (controle), en 40% van de gebruikers was gelijktijdig geabonneerd op merken uit beide categorieën, wat een sterke contaminatie creëerde. Er moest een effect op de 7-daagse retentie (D7 retention) en conversie naar aankoop binnen 48 uur na het bekijken van Stories worden geëvalueerd.
Optie 1: Eenvoudige before-after vergelijking voor de testcategorie
Analisten stelden voor om de metrics van de sportcategorie te vergelijken voor een maand vóór en na de lancering van Stories. De voordelen van deze aanpak omvatten de onmiddellijke beschikbaarheid van resultaten en de afwezigheid van noodzaak voor een complexe infrastructuur. De nadelen waren echter kritiek: het was niet mogelijk om het effect van het formaat van seizoensgebonden vraag naar sportkleding in januari (New Year Resolution effect) en van de marketingcampagnes van merken, die gelijktijdig met de nieuwe functionaliteit waren gestart, te scheiden.
Optie 2: Klassieke A/B-test op gebruikersniveau met een 50/50 split
Deze optie hield in dat gebruikers willekeurig zouden worden verdeeld om zichtbaarheid van Stories te krijgen, ongeacht de categorie. De voordelen bestonden uit de zuiverheid van het experimentele ontwerp en de eenvoud van interpretatie. De nadelen omvatten technische onmogelijkheid (inhoud werd gemaakt door merken, niet door het platform) en ethische beperkingen: het verbergen van inhoud van een deel van de volgers van een merk zou het monetarisatiemodel verstoren en leiden tot klachten van adverteerders.
Optie 3: Staggered DiD met synthetische controle en filtering van netwerksverbanden
Er werd besloten om gebruik te maken van temporele variatie in de implementatie (sportcategorie - week 1, straatkleding - week 3, klassieke - week 6) en een Synthetic Control op te bouwen op basis van de gewogen combinatie van categorieën die de functie nog niet hadden gekregen. Om contaminatie te elimineren werden gebruikers met een overlappend abonnement van >15% van het totale aantal uitgesloten (drempel vastgesteld via sociale netwerk analyse). CUPED werd toegepast voor correctie op historische D7 retention.
Gekozen oplossing:
Het team koos voor Optie 3, aangevuld met Causal Forest voor leeftijdsegmentatie. Dit stelde hen in staat om niet alleen het pure effect te isoleren, maar ook te begrijpen voor wie Stories het beste werken. De belangrijkste factor in de keuze was de mogelijkheid om bedrijfsprocessen te behouden (alle volgers zien de inhoud), terwijl tegelijkertijd een valide causale evaluatie werd verkregen.
Eindresultaat:
De analyse onthulde een statistisch significante incrementele toename van D7-retentie met 8,4% (p < 0,01) voor het segment van 18-25 jaar bij afwezigheid van effect voor 45+. Er werd echter een negatieve spillover ontdekt: gebruikers die meer dan 5 Stories in één sessie zagen, toonden een afname van de conversie naar aankoop met 3% (verzadigingseffect). Op basis van deze gegevens implementeerde het productteam een adaptief algoritme voor het reguleren van de frequentie van het tonen van Stories op basis van leeftijd, wat leidde tot een groei van GMV met 4,2% in de testcategorie zonder afbreuk te doen aan de gebruikerservaring van oudere cohorts.
Hoe moet de negatieve spillover-effect correct worden meegenomen, wanneer een overschot aan Stories van één merk de ontvankelijkheid voor de content van andere merken in dezelfde sessie vermindert?
Kandidaten concentreren zich vaak alleen op positieve netwerkeffecten, en negeren verzadiging. De juiste aanpak vereist analyse op het niveau van de sessie (session-level), in plaats van gebruiker: de sessies opdelen in "high Stories density" (>3 unieke merken) en "low density", en vervolgens het effect van de interactie (interaction term) tussen treatment en inhouds dichtheid evalueren. Als de coefficient negatief en significant is, duidt dit op cannibalisatie van aandacht binnen het formaat. Het is ook noodzakelijk om de temporele dynamiek te controleren: ontwikkelen gebruikers 'bestendigheid' (ad stock) ten opzichte van het formaat in de loop van de tijd door het effect te decomponeren over de weken van implementatie.
Hoe het effect van het Stories-formaat te scheiden van het effect van de kwaliteit van de inhoud, als merken met een hoge productie waarde zichzelf selecteren in de eerste golven van implementatie?
Standaard DiD zal het probleem niet oplossen, omdat de karakteristieken van de merken correleren met het oorspronkelijke niveau van metrics. Het toepassen van Instrumental Variables (IV) is nodig: het drempelwaarde van het aantal volgers van het merk wordt als instrument gebruikt, waarbij de functie Stories beschikbaar wordt (bijvoorbeeld >100k volgers). Dit creëert willekeurige variatie rond de drempel (regression discontinuity design, RDD), wat het mogelijk maakt om merken met 99k en 101k volgers te vergelijken die statistisch identiek zijn qua inhoudskwaliteit, maar verschillen in toegang tot het instrument. Op deze manier wordt het pure effect van het formaat geïsoleerd, niet van de kwaliteit van de creatieven.
Waarom zijn standaardmetrics zoals click-through rate (CTR) en view-through rate (VTR) onvoldoende voor het beoordelen van het langetermijneffect van ephemerale content, en welke metrics moeten worden gebruikt?
Kandidaten richten zich op onmiddellijke engagement, waarbij ze de toerekening van uitgestelde aankopen negeren. Stories verdwijnen na 24 uur, maar creëren een "merk" in het geheugen van de gebruiker (mental availability). Een correcte beoordeling vereist de opbouw van een Surrogate Index: het gebruik van tussentijdse metrics (frequentie van het openen van de app binnen 7 dagen, toevoeging aan de Wishlist zonder aankoop) als proxy voor de langetermijn LTV. De methode Long-term Causal Effects wordt toegepast via een twee-staps beoordeling: eerst wordt de relatie tussen surrogate en uiteindelijke LTV gemodelleerd op historische data, vervolgens wordt deze relatie toegepast op experimentele gegevens. Dit maakt het mogelijk om het effect van "delayed conversion" te vangen, wanneer een gebruiker Stories ziet, maar een week na het verdwijnen van de inhoud koopt.