Antwort auf die Frage

Die Evolution von der Paginierung zu Infinite Scroll in den 2010er Jahren, popularisiert von Facebook und Twitter, hat die Konsummuster von Inhalten grundlegend verändert. Frühe Produktanalysten verließen sich auf naive "Vorher-Nachher"-Vergleiche, ohne saisonale Trends und Selbstselektion von Benutzern zu berücksichtigen. Das Problem wurde mit der Entwicklung eines plattformübergreifenden Ökosystems komplizierter, in dem der Benutzer nahtlos zwischen Geräten mit unterschiedlichen Schnittstellenversionen wechselt.

Es ist erforderlich, den kausalen Effekt der Einführung von Infinite Scroll auf die Metriken der Scrolltiefe und der Werbemonetarisierung zu isolieren. Kritische Störfaktoren umfassen den schrittweisen geografischen Rollout, der ein gestaffeltes Timing des Treatments erzeugt, und die zwischen-Geräte-Migration der Benutzer, die zu einer Kontamination der Gruppen führt. Ein einfacher Vergleich von Regionen ist ungültig aufgrund struktureller Unterschiede im Verhalten des Publikums. Die Analyse auf der Ebene einzelner Sitzungen ignoriert Carryover-Effekte zwischen Geräten und verzerrt die Schätzung der Bindung.

Wir wenden staggered difference-in-differences mit Korrekturen für heterogene Effekte durch die Schätzer Callaway-Sant'Anna oder Sun-Abraham an, die die schrittweise Implementierung korrekt behandeln. Um der Kontaminierung zwischen Geräten entgegenzuwirken, klastern wir die Standardfehler auf Benutzerebene und schließen Benutzer-fixed Effekte ein, wobei wir die tatsächliche Nutzung der Funktion als Treatment und den regionalen Rollout-Zeitplan als instrumentelle Variable (IV) betrachten. Bei der Analyse der Einnahmen führen wir eine Mediationsanalyse durch, um den direkten Effekt der Layoutänderung auf die Sichtbarkeit von Werbung und den indirekten Effekt durch eine Erhöhung des Engagements zu trennen. Die Validierung der parallelen Trends wird anhand von Pre-Rollout-Daten unter Verwendung von CausalImpact zum Aufbau einer synthetischen Kontrolle durchgeführt.

Lebenssituation

In einer Medienanwendung mit 5 Millionen MAU war der Ersatz der klassischen Paginierung durch Infinite Scroll geplant, um die Zeit im Programm zu erhöhen. Das Messproblem bestand in der schrittweisen Einführung: Zuerst Moskau und St. Petersburg, dann die Regionen einen Monat später. Darüber hinaus wechselten Benutzer aktiv zwischen der mobilen Anwendung (wo das neue Feature war) und dem Tablet (alte Version), was zu einer starken Kontamination zwischen den Gruppen führte.

Die erste Option ist ein einfacher Vergleich der Metriken vor und nach dem Release in einer Region. Vorteile: hohe Berechnungsgeschwindigkeit und minimale Datenanforderungen. Nachteile: Es ist unmöglich, den Effekt der Funktion von der Saisonalität des Nachrichtenzyklus und dem natürlichen Wachstum der Basis zu trennen; die erhaltenen Zahlen waren aufgrund des Neujahrstraffiks um +40% verzerrt.

Die zweite Option ist ein reines geografisches A/B-Testing von Moskau gegen die anderen Regionen. Vorteile: klare Trennung der Gruppen zum Zeitpunkt des Schnitts. Nachteile: strukturelle Unterschiede im Verhalten (Moskauer lesen mehr Wirtschaftsnachrichten), und außerdem führte die Migration der Benutzer zwischen Regionen und Geräten zu einem Leakage von bis zu 15% in der Kontrollgruppe, was die Schätzungen ungültig machte.

Die gewählte Lösung war staggered DiD mit festen Effekten des Benutzers und der Clusterung der Fehler auf regionaler Ebene. Wir verwendeten den Moment des ersten Zugriffs des Benutzers in die Anwendung mit der neuen Version als Treatment-Beginn, und den regionalen Rollout-Zeitplan als Instrument für die IV-Schätzung. Dies ermöglichte es, die Kreuzkontamination durch Geräte als partielle Übereinstimmung zwischen Treatment und Kontrolle zu berücksichtigen und eine unverzerrte Schätzung zu gewährleisten.

Das Endergebnis: Der Nettozuwachs der Scrolltiefe betrug +22% (anstatt +35% in der naiven Schätzung), aber RPM fiel um 8% aufgrund der verringerten Sichtbarkeit der Werbeplätze. Es wurde beschlossen, einen hybriden Modus "Mehr laden" mit einem erzwungenen Werbeblock alle 10 Karten einzuführen. Dies führte zu einem Zuwachs von +18% bei der Sichttiefe unter Beibehaltung der Monetarisierung auf dem Niveau der Basislinie.

Was Kandidaten oft übersehen

Wie behandelt man richtig räumliche Fehlerkorrelationen bei geografischen Rollouts?

Kandidaten klastern oft die Standardfehler nur auf der Benutzer Ebene und ignorieren, dass regionale Schocks (Wetter, lokale Nachrichten) die Fehler innerhalb der Geografie korrelieren. Es ist notwendig, doppelte Clusterung (Benutzer + Region) oder Conley räumliche Standardfehler zu verwenden, wenn genaue Koordinaten vorliegen. Andernfalls werden die Vertrauensintervalle zu eng sein, was zu falsch positiven Ergebnissen bei der Überprüfung der Signifikanz des Effekts führt.

Wie kämpft man gegen die Endogenität der Aktualisierungsrate der Anwendung, wenn aktive Benutzer Infinite Scroll früher als passive erhalten?

Dies ist ein Problem der Selbstselektion bei der gestaffelten Annahme. Die normale Intent-to-Treat (ITT) nach Region liefert eine konservative Schätzung, aber Treatment-on-the-Treated (TOT) erfordert ein Instrument. Verwenden Sie die Zuweisung von Region/Zeit als IV (instrumentelle Variable) für die tatsächliche Nutzung der Funktion oder wenden Sie inverse probability weighting (IPW) mit einem Propensity-Score basierend auf historischer Aktivität an. Andernfalls wird die Schätzung zugunsten aktiver Benutzer mit hoher Grundbindung verzerrt.

Wie trennt man den Effekt der UX-Verbesserung von der technischen Änderung der Sichtbarkeit der Werbeblöcke bei der Analyse der Einnahmen?

Es ist erforderlich, eine Mediationsanalyse oder Zwei-Phasen-Kleinste-Quadrate (2SLS) durchzuführen. In der ersten Phase bewerten wir den Effekt von Infinite Scroll auf die Scrolltiefe (reines UX), in der zweiten den Effekt der Tiefe auf die Anzeigenimpressionen. Der direkte Effekt des Layouts (weniger Werbung auf dem Bildschirm) wird separat durch do-calculus oder künstliche Kontrolle mit fiktiven Ad-Slots bewertet. Ohne diese Trennung kann eine erfolgreiche Funktion fälschlicherweise aufgrund eines scheinbaren Rückgangs der Monetarisierung abgelehnt werden, die tatsächlich durch eine Layoutänderung verursacht wurde.