Antwort auf die Frage

Historisch basierten Ansätze zur Bewertung von AR-Funktionen in der Produktanalyse auf einer korrelativen Analyse oder einem einfachen Vergleich der Mittelwerte zwischen Nutzern mit und ohne Technologieunterstützung. Dieser methodologische Rahmen dominierte bis 2018, als Einzelhändler systematische Unterschiede in der Publikumssegmentierung nach Gerätepreiskategorien nicht berücksichtigten. Besitzer von Flaggschiff-Smartphones mit ARKit oder ARCore unterscheiden sich statistisch signifikant in Bezug auf Einkommen, technologische Anpassungsfähigkeit und die Neigung zu Impulskäufen hochmarginaler Produkte.

Somit führt ein direkter Vergleich zu einer Selbstselektionsverzerrung von bis zu 40 %, was es unmöglich macht, den Effekt der Funktion von den bestehenden Unterschieden zwischen den Gruppen zu trennen. Klassisches A/B-Testing ist ebenfalls unmöglich, da das erzwungene Aktivieren von AR auf inkompatiblen Geräten zu technischen Störungen, App-Abstürzen und einer verzerrten Benutzererfahrung führt, was den grundlegenden Grundsatz SUTVA (Stable Unit Treatment Value Assumption) verletzt und einen negativen Reaktionen auf Anfragen erzeugt.

Die optimale Lösung erfordert die Anwendung des Regression Discontinuity Design (RDD) um die Schwelle der technischen Merkmale des Geräts, zum Beispiel den Vergleich von Nutzern des iPhone X und des iPhone 8+, die sich in der Preistauglichkeit auf dem Sekundärmarkt und in den demografischen Merkmalen ähneln, sich jedoch entscheidend in der Verfügbarkeit der TrueDepth-Kamera unterscheiden, die für AR benötigt wird. Um die schrittweise Einführung nach Produktkategorien zu berücksichtigen, ergänzen wir Difference-in-Differences (DiD) mit festen Effekten für Kategorie-Zeit (Two-Way Fixed Effects), wobei wir Saisonalität und sortimentsbedingte Unterschiede kontrollieren. Schließlich wenden wir Propensity Score Matching (PSM) nach Preissegment des Geräts und Kaufhistorie an, um die verbleibende Heterogenität innerhalb der lokalen Zone des RDD anzupassen, was es ermöglicht, den lokalen durchschnittlichen Effekt (LATE) mit Hilfe von Inverse Probability Weighting auf die Gesamtbevölkerung zu extrapolieren.

Lebenssituation

In einem großen Fashion-Marktplatz wurde im Herbst 2023 die AR-Anprobe von Sonnenbrillen unter Verwendung der Gesichtserkennungstechnologie eingeführt. Die Funktion funktionierte ausschließlich auf dem iPhone X+ und Flaggschiff-Android-Geräten mit Google ARCore, wobei automatisch 60 % der Nutzerbasis mit Budgetgeräten ausgeschlossen wurden. Ein vorläufiger analytischer Bericht zeigte, dass Nutzer mit Zugang zu AR 3,5-mal häufiger einen Kauf tätigten und die Ware 30 % seltener zurückgaben, jedoch das Team eine starke Überlebensverzerrung vermutete: Besitzer teurer Telefone zeigen historisch einen höheren durchschnittlichen Warenkorb und Loyalität, unabhängig von neuen Funktionen.

Die erste betrachtete Option war der direkte Vergleich der Mittelwerte mittels t-Test oder Mann-Whitney U-Test zwischen den Gruppen mit AR-Zugang ohne Anpassungen. Die Vorteile dieses Ansatzes umfassten sofortige Berechnung, minimale Datenanforderungen und intuitive Ergebnisse für Geschäftsinteressengruppen. Die Nachteile waren jedoch kritisch: katastrophale Endogenität bezüglich Einkommen und technologischem Wissen machte es unmöglich, den Effekt der Funktion von den bestehenden Unterschieden zwischen den Nutzersegmenten zu trennen.

Die zweite Option war eine Kohortenanalyse before-after für Nutzer, die ihre Geräte während des Beobachtungszeitraums von inkompatiblen auf kompatible mit AR aktualisiert haben. Die Vorteile lagen in der Kontrolle der individuellen Heterogenität durch Intra-Subjekt-Vergleiche, wodurch Verzerrungen durch nicht messbare Eigenschaften des Nutzers eliminiert wurden. Die Nachteile umfassten einen starken Einfluss des Neuheitseffekts (novelty effect), Saisonalität (Telefonaktualisierungen treten in den Spitzenmonaten Dezember und September auf und korrelieren mit unterschiedlichen Kaufmustern) und auch eine Selbstselektion in Bezug auf den Zeitpunkt der Aktualisierung (motivierte Nutzer wechseln ihre Telefone häufiger).

Die dritte Option war die Anwendung des Regression Discontinuity Design um die Schwelle des iPhone X-Modells (Chip A11 Bionic), indem wir Nutzer des iPhone 8+ und des iPhone X verglichen, die statistisch nicht in Bezug auf sozial-demografische Merkmale und Preiskategorie auf dem Sekundärmarkt unterscheidbar sind, sich jedoch nur durch die Verfügbarkeit der TrueDepth-Kamera unterscheiden. Die Vorteile dieser Methode umfassten die Schaffung einer quasi-zufälligen Verteilung in der lokalen Zone um die Schwelle, was eine gültige kausale Schätzung (LATE) ohne Randomisierung ermöglichte. Die Nachteile lagen in der eingeschränkten externen Validität — die Ergebnisse sind nur auf „marginale“ Nutzer anwendbar, die zwischen dem Kauf eines alten und eines neuen Flaggschiffs schwanken, und in der Notwendigkeit, die Annahme der Kontinuität der Kovariaten (continuity assumption) und das Fehlen von Punktmanipulationen (heap) zu überprüfen.

Eine kombinierte Lösung wurde gewählt: RDD zur Bewertung des reinen Effekts der Funktion bei marginalen Nutzern an der Geräteschwelle, integriert mit Difference-in-Differences mit staggered adoption zur Berücksichtigung der schrittweisen Verbreitung nach Produktkategorien (zuerst Premium-Marken, dann Massenmarkt). Zur Extrapolation der Ergebnisse von der Schwelle auf die gesamte Population wurde Inverse Probability Weighting (IPW) auf der Grundlage der Verteilung der Gerätekosten und demografischen Merkmale angewendet. Das endgültige Ergebnis zeigte, dass der wahre Effekt eine Steigerung der Conversion-Rate um +8 % und eine Reduzierung der Rückläufe um -12 % betrug, während eine naive Analyse ohne Anpassungen verzerrte Werte von +35 % und -28 % zeigte, was kritische Auswirkungen auf die Geschäftsentscheidung über die Skalierung der Funktion hatte und überzogene Investitionserwartungen vermeidbar machte.

Was Kandidaten oft übersehen

Wie sollten Netzwerkeffekte (spillover effects) korrekt behandelt werden, wenn Nutzer mit AR Fotos von der virtuellen Anprobe in sozialen Netzwerken oder Messaging-Diensten teilen und damit die Kaufentscheidungen ihrer Kontakte beeinflussen, die keine kompatiblen Geräte besitzen und formell zur Kontrollgruppe gehören?

Kandidaten ignorieren oft die Verletzung von SUTVA durch das soziale Netzwerk und nehmen die Isolierung der Gruppen an. In der Praxis, wenn ein Freund die Anprobe von Brillen über Instagram Stories sieht und einen Kauf tätigt, verschmutzt dies die Kontrollgruppe. Der korrekte Ansatz wäre die Anwendung von Two-Stage Least Squares (2SLS) mit einer Instrumentvariablen (Das Veröffentlichungsdatum eines bestimmten Telefonmodells in einer bestimmten Region), die nur das Vorhandensein von AR beim „Absender“ beeinflusst, aber nicht direkt beim „Empfänger“. Alternativ kann exposure mapping verwendet werden, bei dem wir die Intensität der sozialen Verbindungen zwischen Nutzern modellieren und die Interaktion treatment × exposure in das Modell einfügen, was es ermöglicht, den direkten Effekt von AR gegen den indirekten Effekt der Viralisierung quantitativ zu bewerten.

Warum ist die Methode der Absichtserklärung (Intent-to-Treat, ITT) mit anschließender Berechnung des Local Average Treatment Effect (LATE) vorzuziehen gegenüber dem Versuch, einen „erzwungenen“ A/B-Test durchzuführen, indem die AR-Funktion für die zufällige Hälfte der Nutzerzwangseingeschaltet wird, selbst wenn dies technisch durch Cloud-Rendering möglich ist?

Diese Frage prüft das Verständnis experimenteller Ethik und Compliance-Beschränkungen. Das erzwungene Aktivieren von AR durch Cloud-Rendering auf inkompatiblen Geräten führt zu einer künstlichen Benutzererfahrung mit hoher Latenz (latency) und niedriger Auflösung, was zu einem katastrophalen Erlebnis und einem massiven Nutzerverlust (churn) führt und den Grundsatz „no harm“ verletzt. Dies führt zu einer selection into non-compliance: Nutzer werden die Funktion schnell deaktivieren oder die App deinstallieren, was die Bewertung des Effekts unmöglich macht und Verzerrungen in der Compliance schafft. Der richtige Ansatz ist encouragement design: Anstatt die Funktion zwangsweise zu aktivieren, zeigen wir zufällig ein Banner mit dem Angebot, AR auszuprobieren (nur für Besitzer kompatibler Geräte), wodurch eine ITT-Analyse entsteht, bei der das Treatment das Angebot und nicht die tatsächliche Nutzung ist. Anschließend erhalten wir durch eine IV-Regression (Instrumentvariable — Randomisierung des Angebots) LATE — den Effekt nur für diejenigen, die die Funktion tatsächlich genutzt haben (compliers), was eine konservative, aber kausal saubere Bewertung ohne das Risiko technischer Sabotage des Produkts ergibt.

Wie sollte das Katalogabdeckungsverzerrung (catalog coverage bias) berücksichtigt werden, wenn AR-Modelle nur für 30 % der Produkte, hauptsächlich aus dem Premiumsegment, erstellt wurden und dies zu einer Verzerrung in der Bewertung des durchschnittlichen Warenkorbs und LTV führt, wenn nur verfügbare SKUs analysiert werden?

Kandidaten vergessen oft das Problem der Generalizierbarkeit und Truncation Bias, wenn sie das Premiumsegment (in dem AR verfügbar ist) mit dem Massenmarkt (in dem es nicht vorhanden ist) vergleichen. Wenn die Stichprobe nicht angepasst wird, schreiben wir fälschlicherweise den hohen Warenkorb dem Effekt von AR zu, während wir in Wirklichkeit den Unterschied zwischen Preissegmenten messen. Die Lösung erfordert die Anwendung von Inverse Probability Weighting (IPW) oder Doubly Robust Estimation: Zuerst modellieren wir die Propensity Score — die Wahrscheinlichkeit des Vorhandenseins eines AR-Modells für ein Produkt basierend auf seinen beobachtbaren Merkmalen (Preis, Marke, Kategorie, Saisonalität). Dann gewichten wir die Beobachtungen umgekehrt proportional zu dieser Wahrscheinlichkeit, um die Stichprobe mit AR repräsentativ für den gesamten Katalog zu machen. Zusätzlich verwenden wir synthetic control methods für Kategorien ohne AR, indem wir eine gewichtete lineare Kombination von Kategorien mit AR erstellen, die das kontrafaktische Verhalten der fehlenden Kategorien imitiert, und so die Effektivität auf Geschäftsebene, und nicht nur auf der Untergruppe der Premiumprodukte, bewerten.