Antwort auf die Frage

Die Evolution des E-Commerce von der Textsuche zu multimodalen Interfaces begann mit dem Aufkommen von Convolutional Neural Networks (CNN) in mobilen Anwendungen in den mittleren 2010er Jahren. Klassische Ansätze für A/B-Tests stehen hier vor der Herausforderung der Hardwarefragmentierung: Der gleiche Algorithmus zur Bildsuche zeigt auf Premium-Geräten und Budget-Smartphones unterschiedliche Genauigkeiten.

Frühe Studien zeigten, dass Nutzer mit Low-End-Geräten systematisch unterschiedliche Betrachtungsmuster aufweisen, was eine Bedrohung für die Annahme der Unabhängigkeit des Fehlers von den Kovariaten in standardmäßigen ökonometrischen Modellen darstellt. Dies macht einfache Gruppenvergleiche durch t-Tests oder grundlegende Regressionen methodologisch ungültig.

Fundamentale Endogenität entsteht aufgrund der Selbstselektion auf der Ebene der Adoption: Technisch versierte Nutzer (Early Adopters) neigen gleichzeitig dazu, eine neue Funktion auszuprobieren und weisen eine hohe Basis-Konversion auf. Darüber hinaus zeigt sich eine strukturelle Kannibalisierung: Die Bildsuche "nimmt" Anfragen von der Textsuche weg, verwandelt jedoch gleichzeitig wenig informative Textanfragen in hoch informative visuelle Embeddings.

Die technische Heterogenität der Kameragüte führt zu einer zusätzlichen Schicht von Messfehlern, die mit dem SES-Profil des Nutzers korreliert. Standardmethoden zur Kontrolle des Selektionsbias, wie Propensity Score Matching, sind hier aufgrund der unbeobachteten Heterogenität in der visuellen Literacy der Nutzer unzureichend.

Die optimale Strategie besteht in Two-Stage Least Squares (2SLS), wobei die Hardwarefähigkeiten der Kamera (Vorhandensein von Telephoto Lens, Unterstützung des Night Mode) als instrumentelle Variable (IV) verwendet werden. Die Ausschlussbeschränkung wird erfüllt, sofern die Spezifikationen der Kamera die Konversion nur über die Möglichkeit der Nutzung der Bildsuche beeinflussen, nicht jedoch über mit Einkommen korrelierte Eigenschaften.

Die Validität des Instruments wird durch den Overidentification Test mithilfe exogener Variationen in Kamerapartien überprüft. Für die Kannibalisierung wird Principal Stratification angewendet: Aufteilung der Nutzer in Schichten aufgrund des Modells der latenten Klassen, wobei die Klassen durch die Wahrscheinlichkeit des Wechsels von der Textsuche definiert werden.

Heterogene Behandlungseffekte werden durch Causal Forests unter Clusterung auf der Ebene des Gerätetyps geschätzt, um die Fehlerkorrelation innerhalb der Hardware-Klassen zu berücksichtigen. Darüber hinaus werden Metadaten der Aufnahme (EXIF-Daten über Belichtung) kontrolliert, um den Effekt von der Erkennung und nicht von externen Bedingungen zu isolieren.

Lebenssituation

Das Team des Marktplatzes „FashionHub“ startete die Bildsuche für 20% des Traffics und beobachtete einen Anstieg der Konversion um 18% unter den Adoptern. Eine Überprüfung ergab jedoch, dass 70% der Nutzer mit iPhone 12+ (hochwertige Kamera) in die Testgruppe gelangten, während das Budget-Segment für Android in der Kontrollgruppe blieb, was eine hardwarebasierte Verwirrung erzeugte. Die Schlüsselmetrik — die durchschnittliche Anzahl der angesehenen Produktkarten vor dem Kauf — stieg im Premium-Segment unverhältnismäßig an.

Ein grober Vergleich von Adoptern vs. Nicht-Adoptern würde eine Schätzung von +18% zur Konversion ergeben, würde jedoch eine Überlebensverzerrung mit sich bringen. Nutzer, die ein Foto des Produkts gemacht haben, zeigten bereits eine hohe Kaufabsicht und eine hohe Toleranz gegenüber Friction im UX. Der Vorteil dieses Ansatzes ist die einfache Interpretation und die Geschwindigkeit der Ergebnisermittlung. Der Nachteil ist die Unmöglichkeit, den kausalen Effekt der Funktion von der Selbstselektion technikversierter Zielgruppen mit hoher Basis-Konversion zu trennen.

Der geografische Rollout mit Difference-in-Differences sah vor, zunächst in Moskau (hohe Durchdringung von Premium-Smartphones) zu starten, gefolgt von Regionen in einem Monat. Der Vorteil besteht darin, dass saisonale Trends und Modeabhängigkeiten berücksichtigt werden können. Der Nachteil ist, dass die Regionen sich hinsichtlich des verfügbaren Einkommens und der Modewerte unterschieden, was die Annahme paralleler Trends verletzte; die Moskauer Zielgruppe hatte eine systematisch unterschiedliche Elastizität gegenüber Neuheiten in digitalen Funktionen.

Instrumentalvariablen mit Propensity Score Matching nutzten die technische Unmöglichkeit, die Bildsuche auf Geräten ohne Auto-Focus und OIS (Optische Bildstabilisierung) zu starten, als natürliches Experiment. Nutzer mit kompatiblen Geräten wurden mit ähnlichen Demografien und der Geschichte der Textsuche, jedoch mit inkompatiblen Geräten, verglichen. Der Vorteil liegt in der Exogenität des Instruments (Hardware geht der Kaufentscheidung voraus). Der Nachteil besteht darin, dass die Relevanz über das first-stage F-statistic (45, >10 Schwelle) überprüft werden musste und die Ausschlussbeschränkung eine Überzeugung erfordert, dass die Kamera nur über die Bildsuche auf den Kauf einwirkt.

Es wurde eine IV-Lösung mit zusätzlicher Kontrolle der Lichtverhältnisse durch eine API zur Bestimmung der Tageszeit und die Analyse von EXIF-Metadaten der Fotos (ISO, Belichtungszeit) gewählt. Das endgültige Ergebnis: der wahre Local Average Treatment Effect (LATE) betrug +4,2% zur Konversion (alles andere ist Selektionsbias), wobei der Effekt in der Kategorie „Schuhe“ (wo die Farbübereinstimmung entscheidend ist) konzentriert war und in der Kategorie „Accessoires“ fehlte (wo die Marke dominiert, im Vergleich zu visuellen Eigenschaften).

Was Kandidaten oft übersehen

Warum kann man nicht einfach einen A/B-Test auf Nutzer-Ebene durchführen, wenn die Infrastruktur es erlaubt?

Kandidaten ignorieren die Netzwerk-Effekte beim Training des Visual Embeddings Model: Wenn Nutzer Fotos machen, gelangen diese Daten in die Trainingsstichprobe des Siamese Network, was die Qualität der Suche für alle Nutzer, einschließlich der Kontrollgruppe, verbessert (spillover effects). Darüber hinaus wird die SUTVA (Stable Unit Treatment Value Assumption) durch Ranking-Kontamination verletzt: Wenn die Bildsuche relevante Produkte in der allgemeinen Empfehlungsliste anhebt, beeinflusst dies das Verhalten der Kontrollgruppe.

Die Lösung besteht in Cluster-Randomization auf der Ebene des Gerätetyps oder der Nutzung von Exposure Mapping mit Anpassungen an der Intensität der Nutzung der Funktion im Cluster durch Inverse Probability Weighting.

Wie kann man die Kannibalisierung der Textsuche von der Schaffung neuer Nachfrage trennen, wenn die Absicht nicht latent ist?

Der Standardansatz, das gesamte Anfragevolumen zu vergleichen, ignoriert die qualitativ bereinigten Volumina. Es muss das Principal Stratification Framework angewendet werden: Vier Schichten (Compliers, Never-takers, Always-takers, Defiers) basierend auf den potenziellen Ergebnissen der Nutzung der Textsuche bei Vorhandensein/Ausbleiben der Bildsuche bestimmen.

Anschließend muss der Complier Average Causal Effect (CACE) für diejenigen geschätzt werden, die nur dann von der Textsuche zur Bildsuche wechseln würden, wenn diese verfügbar wäre. Zusätzlich sollte der Embedding Space Distance zwischen den Textanfragen des Nutzers und den Produktkategorien verwendet werden: Wenn die Bildsuche die semantische Distanz zwischen der Anfrage und dem Kauf verkürzt, handelt es sich um einen inkrementellen Effekt und nicht um eine Substitution.

Was ist die Gefahr, bei der Analyse der Retention auf die Anzahl erfolgreicher Erkennungen zu konditionieren?

Dies ist eine klassische Collider Bias (M-Struktur): Die Bedingung für die „Erfolgreichheit der Erkennung“ (die sowohl von der Qualität der Kamera als auch von der Komplexität der Anfrage abhängt) eröffnet spurious paths zwischen Hardware und Retention. Kandidaten filtern oft „fehlgeschlagene Uploads“ und schaffen dadurch eine Selektion auf der abhängigen Variablen.

Der richtige Ansatz ist eine Heckman Two-Step Correction oder Tobit Model für zero-inflated outcomes, wo die Entscheidung zur Nutzung der Funktion und das Ergebnis bedingt durch die Nutzung gemeinsam modelliert werden, wobei das Inverse Mills Ratio aus der ersten Gleichung des probit-Modells mit Prädiktoren (Lichtverhältnisse, Tageszeit, Produktkategorie) berücksichtigt wird.