Historischer Kontext. Das Konzept des Co-Browsing hat den Weg aus dem B2B-Sektor (Kundenunterstützung) in den sozialen Handel (z.B. die „Gemeinsam Einkaufen“-Funktionen in mobilen Anwendungen) gefunden. Traditionelle Analytik basierte lange Zeit auf der Annahme SUTVA (Stable Unit Treatment Value Assumption), die die Unabhängigkeit der Nutzer voraussetzt. Soziale Funktionen verletzen jedoch diese Annahme, da das Verhalten eines Nutzers das Verhalten seiner Verbindungen beeinflusst, was klassische A/B-Tests methodologisch inkorrekt macht.
Problemstellung. Der Standardvergleich der Mittelwerte (difference-in-means) führt aufgrund von Interferenz (gegenseitige Kontamination) zu einer verzerrten Schätzung: Nutzer aus der Kontrollgruppe, die von Freunden aus der Testgruppe eingeladen werden, ändern ihr Verhalten und erzeugen den Spillover-Effekt. Die Selbstselektion nach sozialer Aktivität verzerrt das Verteilungsmuster der Kovariaten, und der schrittweise Rollout (staggered adoption) bringt zeitliche Verwirrungstaschen mit sich, wie Saisonalität und den Neuheitseffekt, die mit dem Zeitpunkt der Anbindung der Kohorten korrelieren.
Detaillierte Lösung. Es sollte cluster-randomization (cluster randomisierte Studie) auf der Ebene des sozialen Netzwerks angewendet werden, wobei Algorithmen zur Identifizierung von Gemeinschaften (Louvain oder Leiden) verwendet werden, um Cluster mit minimaler Verknüpfung zwischen ihnen zu erstellen. Falls eine vollständige Randomisierung nicht möglich ist, verwenden Sie difference-in-difference (DiD) mit gestaffelter Implementierung, wobei heterogene Effekte durch die Methoden Callaway-Sant’Anna oder Sun-Abraham korrekt bereinigt werden, die gleichzeitig negative Gewichte früherer Kohorten korrekt behandeln. Um den direkten Effekt von der Netzwerkstruktur zu isolieren, wenden Sie Expositionsmodellierung (exposure mapping) an: Bestimmen Sie den Grad der „Infektion“ in der Kontrollgruppe als Anteil der Freunde in der Testgruppe und integrieren Sie dies als Kovariate in die Regression, oder nutzen Sie 2SLS (zwei-Stufige kleinste Quadrate) mit einer Instrumentvariablen (Verfügbarkeit der Funktion nach geographischem Cluster als IV für die tatsächliche Nutzung). Für die Analyse der Zeit bis zur Conversion eignet sich das Cox-Modell mit Frailty-Effekten (shared frailty model), das die Clusterbildung von Risiken innerhalb sozialer Gruppen berücksichtigt.
Beschreibung des Problems. Der Marktplatz hat die Funktion „Gemeinsam Einkaufen“ eingeführt, die es zwei Nutzern ermöglicht, gleichzeitig den Katalog zu durchsuchen und ihren gemeinsamen Warenkorb in Echtzeit zu bearbeiten. Ein Pilotversuch mit 10% der Benutzerbasis zeigte einen Anstieg der Conversion um 8%, jedoch vermutete das Team eine Überbewertung: Nutzer der Kontrollgruppe erhielten Einladungen von Freunden aus der Testgruppe, was eine intergruppale Kontamination erzeugte. Außerdem wurde die Funktion hauptsächlich von jenen genutzt, die bereits soziale Verbindungen hatten (Selbstselektion nach Engagement).
Option 1: Einfacher Vorher/Nachher-Vergleich bei der Gruppe der Adapter. Dieser Ansatz sieht einen Vergleich der Metriken der Nutzer, die mit dem Co-Browsing begonnen haben, mit deren historischen Daten oder mit ähnlichen Nutzern ohne die Funktion vor. Die Vorteile sind offensichtlich: Die Berechnung nimmt Minuten in Anspruch, ist für das Geschäft leicht interpretierbar und erfordert keine komplexe Experiment-Infrastruktur. Die Nachteile sind jedoch schwerwiegend: Die Methode ignoriert vollständig die Saisonalität und den Reifungseffekt und leidet unter der Verzerrung der Selbstselektion, da sozial aktive Nutzer von vornherein eine höhere Basis-Conversion aufweisen.
Option 2: Intent-to-Treat (ITT) Analyse mit Randomisierung der Verfügbarkeit der Schaltfläche. Hier bieten wir verschiedenen Kohorten zufällig die Möglichkeit, Freunde einzuladen, unabhängig davon, ob sie diese nutzen oder nicht, und vergleichen die endgültigen Metriken. Zu den Vorteilen gehört die Beibehaltung der statistischen Zufälligkeit der Zuweisung und die Möglichkeit, den Gesamteffekt der Strategie der Einführung zu bewerten, einschließlich der Netzwerkeffekte. Die Nachteile bestehen in der Verwässerung des Effekts aufgrund der Inkonsistenz: Viele erhalten Zugang, nutzen die Funktion aber nicht, was eine Vergrößerung der Stichprobe um das 3- bis 4-Fache erfordert; zudem beantwortet ITT nicht die Frage nach der Effektivität für echte Nutzer (TOT).
Option 3: Regression Discontinuity Design (RDD) basierend auf der Schwelle der Anzahl der Freunde. Die Methode verwendet einen scharfen Schwellenwert (z. B. 5 Freunde) zur Aktivierung der Funktion, wodurch ein quasi-experimentelles Setup um den Cut-off-Punkt entsteht. Die Vorteile bestehen in der lokalen Zufälligkeit der Zuweisung in der Nähe des Schwellenwerts und der Notwendigkeit, die gesamte Zielgruppe nicht vollständig zu randomisieren. Es gibt jedoch erhebliche Nachteile: Der Effekt ist nur lokal für „Grenznutzer“, Manipulationen (Hinzugabe falscher Freunde) sind möglich, und die Methode löst nicht das Kontaminationsproblem zwischen Nutzern auf unterschiedlichen Seiten des Schwellenwerts, wenn diese miteinander verbunden sind.
Ausgewählte Lösung und Begründung. Geprägt wurde Option 2 mit cluster-randomization: Die Analysten erstellten ein Netzwerk grafischer sozialer Beziehungen, verwendeten den Louvain-Algorithmus zur Identifizierung dichter Gemeinschaften und randomisierten den Zugriff auf der Ebene der Gemeinschaft, nicht des Nutzers. Dies minimierte die Kontamination zwischen Test- und Kontrollgruppe. Zur Bewertung wurde ein Modell mit Expositionsvariablen verwendet: Für jeden Nutzer wurde der Anteil der Freunde in Test-Clustern (Intensität des Spillovers) berechnet und in die Regression aufgenommen. Dies ermöglichte die Trennung des direkten Effekts der Funktion sowie des indirekten Einflusses durch sozialen Beweis.
Endergebnis. Der wahre direkte Effekt (TOT) betrug +3,2% zur Konversion (anstatt 8% in der Rohschätzung). Allerdings wurde ein signifikanter positiver Spillover-Effekt auf die Kontrollgruppe (+1,8%) festgestellt, der durch den sozialen Einfluss der Einladungen verursacht wurde. Der Gesamteffekt der Politik (ITT) betrug +2,1%. Ohne Berücksichtigung der Netzwerkeffekte hätte das Team den Wert der Funktion unterschätzt und das Projekt als „nicht effizient genug“ abgelehnt, während die Funktion mit Berücksichtigung des Spillovers sich binnen 4 Monaten rentierte.
1. Warum gibt eine Standard-A/B-Test eine verzerrte Schätzung bei sozialen Funktionen? Der Standardtest geht von SUTVA aus: Der Einfluss auf einen Nutzer beeinflusst andere nicht. Bei Co-Browsing wird dies verletzt: Ein Kontrollnutzer, der von einem Testnutzer eingeladen wird, ändert sein Verhalten (spillover), was Interferenzverzerrungen erzeugt. Die Schätzung des ATE (Durchschnittlicher Behandlungseffekt) wird zu einer gewichteten Mischung aus direktem und indirektem Effekt, die oft gegen null tendiert. Lösung: Verwenden Sie cluster-randomization (Randomisierung auf Netzwerk-Cluster-Ebene) oder Methoden zur inverse probability weighting, um auf die Netzwerkstruktur zu kalibrieren.
2. Wie lässt sich statistisch der direkte Effekt, der Spillover-Effekt und der Gesamteffekt trennen? Kandidaten verwechseln ITT (Intent-to-Treat) und TOT (Treatment-on-Treated): ITT schätzt den Effekt des Angebots der Funktion an die gesamte Kohorte, einschließlich derjenigen, die sie nicht in Anspruch genommen haben, während TOT den Effekt für echte Nutzer isoliert. Zur Trennung der Effekte verwendet man Principal Stratification (prinzipielle Stratifikation): Es werden Nutzer je nach Kompatibilität (compliers, always-takers) klassifiziert und CACE (Complier Average Causal Effect) geschätzt. Der Spillover wird über exposure mapping geschätzt, wobei die Intensität der indirekten Auswirkung durch den Anteil der Verbindungen in der Testgruppe proxifiziert wird. Der Gesamteffekt ist die gewichtete Summe der direkten und indirekten Effekte basierend auf der Expositionsverteilung.
3. Warum ist der Standard-DiD (Difference-in-Differences) bei staggered rollout inkorrekt? Bei gestaffeltem Rollout dienen frühere Kohorten als Kontrolle für spätere, jedoch niemals können spätere Kohorten als Kontrolle für frühere fungieren, was negative Gewichtungsprobleme (negative weighting) bei heterogenen Effekten erzeugt. Der klassische zweiphasige DiD in einem solchen Design führt zu verzerrten Schätzungen, da er die Effekte verschiedener Zeiträume mit falschen Gewichten vermischt. Stattdessen sollten Callaway-Sant’Anna oder Sun-Abraham Schätzer verwendet werden, die nur nie-behandelten oder noch-nicht-behandelten Beobachtungen als Kontrolle nutzen. Eine Alternative ist die Synthetic Control Method für jede Kohorte einzeln, die auf einem Spenderpool nie-behandelter Gruppen basiert.