Antwort auf die Frage

Der historische Kontext zeigt, dass Sprachschnittstellen von einfachen Befehlssystemen zu vollwertigen NLP-Lösungen auf Basis von Transformern gewachsen sind, jedoch bleibt die Methodik ihrer Bewertung aufgrund der Heterogenität der Technologiedurchdringung nicht trivial. Das Problem besteht darin, dass die Funktion nur auf Geräten mit bestimmten technischen Eigenschaften verfügbar ist, was eine systematische Selektionsverzerrung schafft, und der geografische Rollout den Zufallsverteilungsgrundsatz verletzt. Um den wahren Effekt zu isolieren, sollte eine Kombination von Difference-in-Differences mit festen Effekten nach Regionen und Zeit ergänzt um Synthetic Control Method für Regionen mit einzigartigen linguistischen Mustern sowie Instrumental Variables zur Korrektur der Endogenität der Nutzung der Funktion verwendet werden.

Lebenssituation

Auf einem Elektronik-Marktplatz wurde die Sprachsuche zunächst in Moskau und Sankt Petersburg gestartet, mit dem Ziel, schrittweise auf die Regionen auszudehnen. Das Problem war, dass die Funktion nur auf iPhone XS und neuer mit iOS 15+ sowie auf Android-Flagships mit Unterstützung für on-device ML funktionierte, was zu einer Verzerrung hinsichtlich Einkommen und technologischer Awareness der Nutzer führte. Zudem gab es eine ausgeprägte Saisonalität – die Einführung fiel mit dem Anstieg der Nachfrage vor den Feiertagen zusammen, was den direkten Vergleich "vor-nach" verzerrte. Das Team betrachtete drei Ansätze zur Bewertung.

Die erste Variante sah einen einfachen Vergleich der Durchschnittswerte in Regionen mit und ohne Funktion über denselben Zeitraum vor. Vorteile des Ansatzes – einfache Implementierung und schnelle Ergebnisverfügbarkeit. Nachteile – kritische Nichtberücksichtigung systematischer Unterschiede zwischen den Regionen (Moskau zeigt historisch eine höhere Konversion) und Unfähigkeit, den Effekt der Funktion vom saisonalen Trend zu trennen. Diese Variante wurde aufgrund des hohen Risikos für falsch-positive Schlussfolgerungen abgelehnt.

Die zweite Variante verwendete Propensity Score Matching, um eine Kontrollgruppe aus Nutzern ohne Sprachsuche, aber mit ähnlichen Geräte- und Verhaltensmerkmalen zu erstellen. Vorteile – Versuch, Verzerrungen aufgrund beobachtbarer Merkmale zu beseitigen. Nachteile – Unfähigkeit, unbeobachtete Faktoren (z. B. Neigung zur frühen Technologeinführung) zu berücksichtigen, die sowohl die Besitzverhältnisse moderner Geräte als auch die Kaufbereitschaft beeinflussen. Darüber hinaus verliert Matching an Effizienz bei festen Effekten der Regionen.

Die dritte Variante kombinierte Difference-in-Differences auf Regionsebene mit Instrumental Variables auf Nutzerebene. Als Instrument wurde das Vorhandensein der technischen Verfügbarkeit der Funktion auf dem Gerät verwendet (abhängig vom Modell des Smartphones und der OS-Version, jedoch nicht direkt von den Vorlieben des Nutzers), um die tatsächliche Nutzung über Two-Stage Least Squares vorherzusagen. Für Regionen mit einzigartigen Dialekten (Kasan, Nowosibirsk) wurde Synthetic Control angewendet, wobei die Kontrollregionen nach vorherigen Konversionstrends gewichtet wurden. Vorteile – Trennung des Zugänglichkeits- von dem Selbstselektionseffekt der Nutzer und Kontrolle regionaler Trends. Nachteile – Schwierigkeit der Interpretation des Local Average Treatment Effect (LATE) und hohe Anforderungen an die Annahme parallel verlaufender Trends. Diese Variante wurde als die robusteste gewählt.

Im Ergebnis der Analyse stellte sich heraus, dass die Sprachsuche einen inkrementellen Anstieg der Katalogtiefe um 18 % unter Nutzern mit kompatiblen Geräten bewirkt, jedoch kein statistisch signifikanter Effekt auf die Kaufkonversion festgestellt wurde. Darüber hinaus wurde in Kategorien mit technischen Begriffen (Computerkomponenten) ein Rückgang der Konversion aufgrund von Erkennungsfehlern spezifischer Fachsprache beobachtet. Dies ermöglichte dem Team, den Fahrplan anzupassen: die Erkennung technischer Begriffe vor der Skalierung zu verbessern und das Marketing auf Kategorien von "einfachen" Produkten (Haushaltsgeräte) zu konzentrieren, in denen die Sprachsuche die besten Ergebnisse erzielte.

Was Kandidaten oft übersehen

Wie trennt man den kurzfristigen Neuheitseffekt (novelty effect) von der nachhaltigen Verhaltensänderung bei der Bewertung von Sprachschnittstellen?

Kandidaten ignorieren häufig die zeitliche Dynamik der Anpassung. Es ist notwendig, eine Kohortenanalyse ab dem Tag der ersten Nutzung der Funktion zu erstellen und die Retention Usage über einen Zeitraum von 3-4 Wochen zu verfolgen. Wenn die Nutzung mit einer exponentiellen Abfallkurve auf das Basisniveau sinkt, handelt es sich um einen Neuheitseffekt. Für eine korrekte Bewertung sollten nur stabile Perioden (steady state) verwendet oder die Beobachtungen nach der Lebensdauer der Kohorte gewichtet werden. Es ist auch wichtig, die Heterogenität des Effekts je nach Nutzungshäufigkeit zu überprüfen – Power User können ein nachhaltiges Verhalten zeigen, während Gelegenheitsnutzer dem Neuheitseffekt unterliegen.

Wie behandelt man korrekterweise Nullen (zeroes) in den Daten, wenn ein Nutzer die Sprachsuche aktiviert hat, aber aufgrund eines Erkennungsfehlers keine Ergebnisse erhalten hat?

Standardlineare Regression oder logistische Modelle sind hier aufgrund der gemischten Verteilung nicht korrekt: eine große Anzahl von Nullen (fehlgeschlagene Versuche) und eine kontinuierliche Verteilung positiver Ergebnisse. Es sollten Two-part models (hurdle model) oder Zero-Inflated Negative Binomial für zählbare Metriken (Anzahl der Aufrufe) angewendet werden. Der erste Teil des Modells bewertet die Wahrscheinlichkeit einer erfolgreichen Suche (selection equation), der zweite die Nutzungshäufigkeit im Erfolgsfall (outcome equation). Das Ignorieren dieser Struktur führt zu einer Unterschätzung des Effekts, da fehlgeschlagene Versuche fälschlicherweise als fehlendes Interesse und nicht als technisches Hindernis klassifiziert werden.

Warum kann in diesem Fall kein einfaches Intent-to-Treat (ITT) Vergleich aller Nutzer in der Region der Einführung gegen die Kontrollregion verwendet werden?

Die ITT-Analyse mischt den Effekt der Verfügbarkeit der Funktion mit dem Effekt ihrer tatsächlichen Nutzung, was die Bewertung verwischt. Wenn nur 10 % der Zielgruppe über kompatible Geräte verfügen und nur 20 % davon die Funktion ausprobieren, zeigt ITT einen Effekt von 2 %, selbst bei 100 % Effektivität für die tatsächlichen Nutzer. Für Geschäftsentscheidungen ist genau der Treatment-on-Treated (TOT) Effekt oder Local Average Treatment Effect (LATE) von Bedeutung, der über instrumentale Variablen gewonnen wird. Kandidaten übersehen, dass Compliance hier nicht 100 % beträgt, und es notwendig ist, die ITT-Bewertung umgekehrt proportional zum Anteil der Komplianz-Nutzer zu skalieren, um den wahren Effekt für diejenigen zu erhalten, die die Funktion tatsächlich nutzen.