Antwoord op de vraag

De evolutie van pagination naar infinite scroll in de jaren 2010, gepopulariseerd door Facebook en Twitter, heeft de consumptiepatronen van content drastisch veranderd. Vroege productanalisten vertrouwden op naïeve vergelijkingen van "voor en na", zonder rekening te houden met seizoentrends en zelfselectie van gebruikers. Het probleem werd complexer met de ontwikkeling van een cross-platform ecosysteem, waar gebruikers naadloos migreren tussen apparaten met verschillende interfaces.

Het is noodzakelijk om het oorzakelijk effect van de implementatie van infinite scroll op de metrics van scrolldiepte en advertentiemonetisatie te isoleren. Kritieke confounders omvatten de geleidelijke geografische rollout, die een staggered timing treatment creëert, en de migratie tussen apparaten, wat leidt tot contaminatie van de groepen. Eenvoudige vergelijkingen tussen regio's zijn ongeldig vanwege structurele verschillen in het gedrag van de doelgroep. Analyse op sessie-niveau negeert carryover-effecten tussen apparaten en verstoort de schatting van retentie.

We passen staggered difference-in-differences toe met correctie voor heterogene effecten via de Callaway-Sant'Anna of Sun-Abraham schatters, die correct omgaan met gefaseerde implementatie. Om te vechten tegen cross-device contaminatie, clusteren we de standaardfouten op gebruikersniveau en voegen we user fixed effects toe, en beschouwen we het feitelijke gebruik van de functie als treatment, terwijl de regionale rollout-schedule als instrumentvariabele (IV) fungeert. Bij de analyse van de omzet voeren we een mediation analysis uit om het directe effect van de lay-outwijziging op de zichtbaarheid van advertenties en het indirecte effect via verhoogde betrokkenheid te scheiden. De validatie van parallel trends gebeurt op pre-rollout data met behulp van CausalImpact om een synthetische controle op te bouwen.

Levenssituatie

In een media-applicatie met 5 miljoen MAU was een vervanging van de klassieke pagination door infinite scroll gepland om de tijd in de applicatie te verhogen. Het probleem van meten was de geleidelijke rollout: eerst Moskou en Sint-Petersburg, daarna de regio's een maand later. Bovendien schakelden gebruikers actief tussen de mobiele applicatie (waar de nieuwe functie was) en de tablet (oude versie), wat krachtige contaminatie tussen groepen creëerde.

De eerste optie was een eenvoudige vergelijking van de metrics vóór en na de release in één regio. Voordelen: hoge rekeningssnelheid en minimale gegevensvereisten. Nadelen: het was onmogelijk om het effect van de functie van seizoensgebondenheid en natuurlijke groei van de basis te scheiden; de verkregen cijfers waren met +40% verschoven door de nieuwjaarsverkeer.

De tweede optie was pure geografische A/B-testen van Moskou tegen de overige regio's. Voordelen: duidelijke scheiding van groepen op het moment van de steekproef. Nadelen: structurele verschillen in gedrag (Muscovieten lezen meer zakelijke nieuws), bovendien veroorzaakte de migratie van gebruikers tussen regio's en apparaten tot 15% leakage in de controlegroep, waardoor de schattingen ongeldig werden.

De gekozen oplossing was staggered DiD met gebruikersfixed effects en clustering van fouten op regionaal niveau. We gebruikten het moment van de eerste toegang van een gebruiker tot de applicatie met de nieuwe versie als treatment start, en de regionale rollout-schedule als instrument voor IV-schattingsmethoden. Dit stelde ons in staat om kruiscontaminatie via apparaten als gedeeltelijke overeenkomst tussen treatment en controle in overweging te nemen, wat leidde tot een onpartijdige schatting.

Het uiteindelijke resultaat: de netto-toename van de scrolldiepte bedroeg +22% (in plaats van +35% in de naïeve schatting), maar RPM daalde met 8% door verminderde zichtbaarheid van advertentieruimtes. Er werd besloten om een hybride modus "meer laden" in te voeren met een verplichte advertentieblok om de 10 kaarten. Dit gaf +18% aan de diepte van het bekijken met behoud van monetisatie op het nivo van baseline.

Wat kandidaten vaak vergeten

Hoe verfijnt men de ruimtelijke correlatie van fouten bij een geografische rollout?

Kandidaten clusteren vaak de standaardfouten alleen op gebruikersniveau, negerend dat regionale schokken (weersomstandigheden, lokale nieuws) fouten binnen de geografie correlateren. Het is noodzakelijk om dubbele clustering (gebruiker + regio) of Conley spatial standard errors te gebruiken, als er nauwkeurige coördinaten beschikbaar zijn. Zonder dit zullen de betrouwbaarheidsintervallen te smal zijn, wat zal leiden tot vals-positieve uitkomsten bij het testen van de significantie van het effect.

Hoe om te gaan met endogeniteit van de snelheid van de app-update, als actieve gebruikers infinite scroll eerder ontvangen dan passieve?

Dit is een probleem van self-selection in staggered adoption. De gebruikelijke intent-to-treat (ITT) per regio geeft een conservatieve schatting, maar Treatment-on-the-Treated (TOT) vereist een instrument. Gebruik de toewijzing van regio/tijd als IV (instrumentvariabele) voor het feitelijke gebruik van de functie, of pas inverse probability weighting (IPW) toe met een propensity score op basis van historische activiteit. Anders zal de schatting verschuiven naar power users met hoge basisbetrokkenheid.

Hoe het effect van UX-verbetering te scheiden van de technische wijziging van de zichtbaarheid van advertentieblokken bij het analyseren van de omzet?

Er is een mediation analysis of two-stage least squares (2SLS) vereist. In de eerste fase schatten we het effect van infinite scroll op de scrolldiepte (pure UX), in de tweede fase het effect van de diepte op advertentie-impressies. Het directe effect van de lay-out (minder advertenties op het scherm) wordt apart geschat via do-calculus of kunstmatige controle met fictieve ad slots. Zonder deze scheiding kan men ten onrechte een succesvolle functie afwijzen vanwege een schijnbare daling in monetisatie, die in feite werd veroorzaakt door de lay-outwijziging.