Hintergrund der Frage
Große Produkte implementieren ständig neue Einstiegspunkte für Inhalte – personalisierte Blöcke, KI-Empfehlungen oder alternative Navigationstrukturen. Ohne die Analyse der Kanibalisation könnte das Team fälschlicherweise den Erfolg der neuen Funktion zuschreiben, während tatsächlich nur ein Nutzertransfer zwischen den Bildschirmen ohne ein Wachstum des Gesamtumsatzes stattgefunden hat.
Problem
Es ist notwendig, den inkrementellen Effekt (neue Transaktionen, die ohne den neuen Block nicht zustande gekommen wären) von der Kanibalisation (Transaktionen, die sich aus den alten Kategorien in den neuen Block verschoben haben) zu trennen. Ein standardmäßiger A/B-Test auf Benutzer-Ebene löst dieses Problem nicht, da der Benutzer beide Kanäle gleichzeitig sieht und die Wahl zwischen ihnen Endogenität erzeugt.
Lösung
Wir verwenden ein Geo-Experiment mit synthetischer Kontrolle oder eine clusterbasierte Randomisierung auf Sitzungsebene. Wir weisen geografische Regionen zufällig dem Test- und Kontrollgruppe zu und messen die Veränderung des GMV, nicht nur auf der Plattform insgesamt, sondern auch disaggregiert nach Navigationskategorien. Wir wenden die Methode Difference-in-Differences an, wobei die Kategorien als Paneldaten verwendet werden, um den kanibalisierten Umsatz von dem Gesamtanstieg abzuziehen.
Problembeschreibung
In der E-Commerce-Mobile-App wurde ein neuer Block „Für Sie ausgewählt“ auf Basis von TensorFlow-Ranking-Modellen eingeführt. Nach einem Monat sank die Klickrate in der Kategorie um 25%, während der Gesamt-GMV nur um 5% anstieg. Das Produktteam stritt darüber: Ist das Kanibalisation oder echte Optimierung des Nutzerpfades? Es war notwendig zu bestimmen, wie viel von den 5% ein echter Anstieg und wie viel ein Transfer bestehender Nachfrage war.
Betrachtete Lösungen
Erste Lösung: Einfache „Vor/Nach“-Vergleich des Gesamt-GMV. Dieser Ansatz geht davon aus, dass ohne den neuen Block die Kennzahlen unverändert geblieben wären. Vorteile: maximale Geschwindigkeit, benötigt keine Experimentier-Infrastruktur. Nachteile: ignoriert Saisonalität, Marketingkampagnen und organischen Wachstums-Trend, was zu einer verzerrten Schätzung von 15-20% führt.
Zweite Lösung: Klassischer A/B-Test auf Benutzer-ID-Ebene mit 50/50 Split über Splitting-Service. Hier wird angenommen, dass, wenn der Block für die Kontrollgruppe ausgeblendet wird, der Unterschied im GMV den tatsächlichen Effekt zeigt. Vorteile: einfache Implementierung, vertraute Statistik. Nachteile: Nutzer in der Testgruppe können dennoch Produkte über die Suche oder Kategorien finden, was eine direkte Kanibalisation innerhalb der Testgruppe erzeugt, während die Kontrollgruppe ohne Block weniger Daten für den Vergleich der Kategorien erzeugt.
Dritte Lösung: Geo-Experiment mit synthetischer Kontrolle (SCM). Wir wählten 20 Städte mit ähnlicher GMV-Dynamik aus, randomisierten 10 in den Test (Block aktiviert), 10 in die Kontrolle (Block nicht sichtbar). Für die Kontrolle erstellten wir eine gewogene Summe von Städten, die möglichst nahe an den Teststädten im „Vor“-Zeitraum lagen. Vorteile: ermöglicht es, den Effekt auf aggregierter Marktebene zu messen und berücksichtigt natürlich die Kanibalisation zwischen Kategorien innerhalb der Stadt. Nachteile: erfordert eine große Stichprobengröße (Städte), ist empfindlich gegenüber regionalen Aktionen und kompliziert in der Berechnung des Fehlers zweiter Ordnung.
Gewählte Lösung und Begründung
Wir entschieden uns für die dritte Option – das Geo-Experiment mit Synthetic Control Method. Der entscheidende Faktor war die Unmöglichkeit, die Kanibalisation innerhalb eines einzelnen Nutzers durch einen normalen A/B-Test zu messen, da wir selbst in der Kontrollgruppe ohne Block nicht das „kontrafaktische“ Schicksal der Transaktionen sehen, die in der Testgruppe in den Block geflossen wären. Die Geo-Ebene ermöglichte es zu sehen, wie sich die Einkaufsstruktur nach Kategorien insgesamt verändert.
Ergebnis
Es stellte sich heraus, dass von den 5% des Gesamtanstiegs des GMV 3,2% Kanibalisation (Transfer aus dem langen Schwanz der Kategorien in die Top-3 Produkte des Blocks) und nur 1,8% einen wahrhaft inkrementellen Effekt darstellten. Basierend auf diesen Daten korrigierten wir den Ranking-Algorithmus, indem wir eine Bestrafung für beliebte Produkte hinzufügten, was den reinen Anstieg auf 4,1% erhöhte.
Frage 1: Warum kann man nicht einfach die Korrelation zwischen Klicks im neuen Block und dem Rückgang der Klicks in der Kategorie auf der Ebene der Benutzersitzung betrachten?
Die Antwort liegt in der Endogenität der Selbstselektion. Benutzer, die auf den neuen Block klicken, haben eine andere Struktur von Absichten (hohe Kaufabsicht vs. Browsing) als die, die zu den Kategorien gehen. Eine direkte Korrelation wird zum Simpson-Effekt führen: In aggregierten Daten könnte es scheinen, dass der Block den Traffic „gestohlen“ hat, aber auf der Ebene von Kohorten mit hoher Absicht werden wir sehen, dass sie trotzdem gekauft hätten, nur schneller. Es ist notwendig, Causal Forest oder Propensity Score Matching zu verwenden, um Benutzer mit ähnlicher Verhaltenshistorie „vor“ der Exposition gegenüber dem Block zu vergleichen.
Frage 2: Wie berechnet man den minimal signifikanten Effekt (MDE) für ein Experiment zur Kanibalisation, wenn der Effekt für einige Kategorien negativ und für andere positiv sein kann?
Hier machen die Kandidaten den Fehler, die Standardformel für den mittleren Effekt anzuwenden. Im Falle von Kanibalisation erhöht sich die Varianz zwischen den Kategorien, da wir es mit einem Ungleichgewicht zu tun haben: einige Kategorien verlieren, andere gewinnen. Es ist notwendig, Linear Mixed Models mit zufälligen Effekten der Kategorie zu verwenden und die Power für eine kombinierte Kennzahl zu berechnen: Gesamt-GMV minus den gewogenen Rückgang des GMV in den kanibalisierten Kategorien mit einem Risikoausgleichsfaktor.
Frage 3: Was ist der grundlegende Unterschied zwischen der experimentellen Messung der Kanibalisation in einem Produkt und der Lösung des Problems der Interferenz in sozialen Netzwerken?
In der Produktanalytik ist Kanibalisation eine Form des „Nachfrageflusses“ innerhalb eines Subjekts (Nutzers), der selten als Interferenz zwischen Einheiten modelliert wird. In sozialen Netzwerken (z. B. Facebook) ist Interferenz ein Spillover zwischen Benutzern durch das soziale Graph. Um die Kanibalisation zu bekämpfen, verwenden wir Clusterung nach Zeit oder Verhaltensart, nicht Graph-Randomisierung. Es ist wichtig zu verstehen, dass hier die Treatment-Zuweisung die Exposition gegenüber dem neuen UI ist, nicht die Kommunikation zwischen Benutzern, daher sind Methoden wie Ego-Cluster-Randomisierung nicht anwendbar; stattdessen verwenden wir Switchback-Experimente auf der Ebene der Nutzersegmente.