Antwoord op de vraag

Historische context: het concept van sociaal bewijs (social proof) is afkomstig uit het werk van Robert Cialdini in de jaren '80, maar in digitale producten begon de massale invoering van real-time meldingen in 2015 met de ontwikkeling van WebSocket-verbindingen en Kafka-achtige streamingplatforms. Klassieke A/B-testmethoden geven hier vaak vertekende schattingen door netwerkeffecten (SUTVA-schending), waarbij het resultaat van één gebruiker afhankelijk is van de aanwezigheid van andere online gebruikers. Vroege pogingen tot evaluatie bestonden uit een eenvoudige vergelijking van sessies met een zichtbare widget en zonder, wat leidde tot ernstige endogeniteit van de steekproef.

Probleem: bij het beoordelen van het effect is het noodzakelijk om de werkelijke invloed van de interventie te scheiden van de endogene variabele van de publieksdichtheid. Als we sessies met meldingen en zonder gewoon vergelijken, krijgen we een selectie-bias: in piekuren is de conversie al hoger, en op dat moment genereert het systeem meer meldingen. Bovendien creëert de migratie van gebruikers tussen de mobiele applicatie en de desktop contaminatie, wat de grens tussen treatment en control vervaagt.

Oplossing: de optimale aanpak is een verschil-in-v verschilt (Difference-in-Differences, DiD) met bidirectionele vaste effecten (two-way fixed effects) naar tijdzones en productcategorieën, aangevuld met een instrumentele variabele (IV-approach) voor de publieksdichtheid. Het instrument is een exogene schok van de weersomstandigheden of regionale internetonderbrekingen die de online activiteit beïnvloeden, maar niet rechtstreeks verband houden met conversie. Alternatief kan de Synthetic Control Method worden toegepast, waarbij de controlegroep wordt geconstrueerd uit vergelijkbare producten/regio's zonder de functie-invoering, gewogen naar de conversiegeschiedenis en seizoensgebondenheid.

Voorbeeld uit het leven

In een elektronica-marktplaats was de invoering van de widget "Momenteel bekijken 15 mensen dit product" met realtime gegevens uit ClickHouse-streaming gepland. Het probleem was dat het productteam een conversiegroei van 18% in piekuren vastlegde, maar niet kon scheiden van het effect van meldingen van de natuurlijk hoge vraag in de avond. Bovendien was er het effect van de "lege kamer": in de nachtelijke uren toonde de widget nullen of verouderde gegevens, wat het vertrouwen mogelijk kon verlagen.

De eerste overwogen optie was een klassieke A/B-test met geografische segmentatie. Voordelen: eenvoud in uitvoering en duidelijke interpretatie. Nadelen: netwerkeffecten vervagen, omdat gebruikers uit verschillende steden verschillende assortimenten en basisconversie zien; bovendien, bij een lage publieksdichtheid in kleine steden, toonde de widget "Momenteel kijken 0 mensen", wat een negatieve sociale bewijsvoering creëerde en het vertrouwen verminderde.

De tweede optie was een onderbrekingseffect (Regression Discontinuity Design, RDD) op basis van de tijd van functie-invoering in een specifieke regio. Voordelen: duidelijke causale identificatie op het moment van cutoff en de mogelijkheid tot visuele controle op de grafiek. Nadelen: het is onmogelijk om het effect van nieuwheid (novelty effect) van het permanente effect te scheiden; daarnaast creëerde de geleidelijke uitrol over tijdzones een vervaagde grens voor treatment, wat de belangrijkste aanname van RDD over een scherpe verandering in de waarschijnlijkheid van treatment schond.

De derde optie was een quasi-experiment met het gebruik van producten zonder real-time gegevens als controlegroep (DiD). Voordelen: rekening houden met seizoensgebonden trends via vaste effecten; mogelijkheid om de heterogeniteit van het effect te beoordelen op basis van het niveau van basistrafiek. Nadelen: er is een aanname nodig van parallelle trends (parallel trends assumption), die werden gecontroleerd via een Event Study-specificatie met leads en lags.

De oplossing met DiD en de instrumentele variabele op basis van weerdata werd gekozen: regenachtige dagen in regio's verhoogden plotseling de online activiteit (voldoet aan de relevantie van het instrument), maar beïnvloedden niet rechtstreeks de bereidheid om een telefoon te kopen (exclusion restriction). Analyse toonde aan dat het werkelijke effect van de widget +9% conversie bedraagt alleen bij een dichtheid >30 online gebruikers per SKU; bij lagere dichtheid is het effect negatief (-4%) door het tonen van "lege" of verouderde gegevens.

Op basis van deze resultaten werd een adaptief algoritme geïmplementeerd dat social proof uitschakelde bij een laag verkeer. Het resultaat was een optimalisatie van de weergaveregels: het systeem ging van constante weergave naar conditionele weergave, wat de gemiddelde conversie met 7% op het platform verhoogde en het vertrek uit de "nacht" gebruikerssegment met 12% verminderde. De besparing op infrastructuurcapaciteit bedroeg 15% door het uitschakelen van de verwerking van streams voor inactieve producten.

Wat kandidaten vaak over het hoofd zien

Hoe het effect van het mechanisme (intensive margin) te scheiden van het totale effect van de functie (extensive margin)?

Kandidaten verwarren vaak de reduced form beoordeling (gewoon de aanwezigheid van het systeem) met de beoordeling van het mechanisme (hoe de verandering in dichtheid binnen treatment het resultaat beïnvloedt). De juiste benadering is een tweestapsbeoordeling (Two-Stage Least Squares, 2SLS), waarbij in de eerste stap de werkelijke frequentie van meldingsweergave met een instrument (het weer) wordt voorspeld, en in de tweede stap de conversie van de voorspelde frequentie. Dit maakt het mogelijk om het pure effect van de melding te scheiden van het effect van de "menigte" (herding behavior), dat omgekeerde causaliteit heeft: een hoge conversie trekt meer weergaven aan, wat meer meldingen genereert.

Waarom is het belangrijk om te corrigeren voor meerdere tests bij het analyseren van heterogeniteit naar segmenten van dichtheid en tijd van de dag?

Analisten zoeken vaak naar de optimale drempel voor de invoering van de functie, door het effect op 10, 20, 50 gebruikers te testen en kiezen de drempel met de maximale uplift. Dit leidt tot een probleem van data mining en inflated Type I error. Correctie zoals Bonferroni of Benjamini-Hochberg procedure voor family-wise error rate moet worden toegepast, of er moet gebruik worden gemaakt van een pre-analysis plan met het vaststellen van hypothesen vóór de analyse. Anders blijkt de "optimale" drempel gewoon een toevallige uitbijter in de gegevens te zijn.

Hoe negatieve spillover naar de controlegroep in aanmerking te nemen via een gemeenschappelijke inventaris en de beperkte budgetten van de gebruiker?

Bij sociaal bewijs in een marktplaats bestaat er een effect van vraagverplaatsing: als de widget de aankoop in de treatment-groep van producten versnelt, kan dit de conversie in de controlegroep verlagen door uitputting van het budget of afleiding. Kandidaten negeren General Equilibrium Effects. Voor correctie is een beoordeling met geaggregeerde gegevens op het niveau van de gebruikerssessie (aggregate treatment effects) of het gebruik van markt-evenwichtsmodellen (market equilibrium models) nodig die rekening houden met de beperkte aandacht van de gebruiker.