Antwort auf die Frage

Zur Messung der Inkrementalität von Offline-Kanälen wird die Methodologie Geo-Lift Testing unter Verwendung von synthetischer Kontrolle (Synthetic Control Method) angewendet. Die zentrale Idee besteht darin, geografische Regionen in Testregionen (wo die Werbung ausgestrahlt wird) und Kontrollregionen (wo die Kampagne nicht gestartet wird) zu unterteilen, gefolgt von der Erstellung einer gewichteten Kombination aus Kontrollregionen, die das Verhalten der Testregionen vor Kampagnenbeginn mit einer Genauigkeit von 95 % Korrelation simuliert.

Zur Analyse von Zeitreihen wird die Bibliothek Google CausalImpact verwendet, die den kausalen Effekt unter Berücksichtigung der Kovariaten (Wetterdaten, wirtschaftliche Indikatoren, Aktivität von Konkurrenten) bewertet. Die Daten werden in BigQuery aggregiert, und die Vorverarbeitung erfolgt in Python unter Verwendung von pandas und scikit-learn, um die optimalen Gewichte für die synthetische Kontrolle über die Support-Vektor-Methode (SVM) oder Lasso-Regression zu ermitteln.

Lebenssituation

Das Unternehmen plant eine umfangreiche Fernsehkampagne mit einem Budget von 50 Millionen Rubel in zehn großen Städten, sieht sich jedoch mit einem kritischen Problem bei der Messung der Effizienz konfrontiert: Standard-Tracker wie AppsFlyer oder Adjust erfassen nur digitale Berührungen und ermöglichen es nicht, den Übergang vom Fernseher zur Installation der Anwendung nachzuvollziehen. Eine zusätzliche Komplexität ergibt sich aufgrund der gleichzeitigen aggressiven Promotion-Aktivitäten eines Konkurrenten und anomalen Wetterbedingungen in den Zielregionen, die einen direkten Vergleich mit früheren Zeiträumen verzerren können.

Die erste betrachtete Lösung war eine korrelative Analyse von Zeitreihen mit einem ARIMA-Modell, bei der die Prognose auf der Grundlage historischer Daten mit den tatsächlichen Installationszahlen verglichen wird. Vorteile dieses Ansatzes umfassen die geringen Implementierungskosten in Python mit der Bibliothek statsmodels und die Notwendigkeit, das Werbebudget nicht zwischen den Regionen aufzuteilen. Nachteile liegen in der Unmöglichkeit, den Effekt des Fernsehens von externen Schocks (Handlungen der Konkurrenz, Wetter) zu trennen, was zu einem Risiko der falschen Attribution des Wachstums nur auf die Fernsehwerbung führen kann, trotz des Fehlens eines kausalen Zusammenhangs.

Die zweite Option war addressable TV mit einem klassischen A/B-Test auf der Ebene der Haushalte, wo die Werbung nur einem Teil des Publikums gezeigt würde, mit der Möglichkeit der direkten Attribution über Paneldaten. Vorteile bestehen in der strengen Kausalität und der Möglichkeit, den langfristigen LTV von Kohorten zu messen. Nachteile umfassen die technische Komplexität der Integration mit Datenanbietern (GfK, TNS), die hohen Kosten und langen Vorbereitungszeiten (3-4 Monate) sowie die Unanwendbarkeit für traditionelles Broadcast-TV, das die gesamte Bevölkerung der Region ohne Möglichkeit zur gezielten Ansprache auf individueller Ebene abdeckt.

Der dritte Ansatz war Geo-Lift Testing mit synthetischer Kontrolle, bei dem die Kampagne in Testregionen gestartet wird und für die Kontrollregionen eine gewichtete Kombination ähnlicher Regionen erstellt wird, die deren Verhalten simuliert. Vorteile der Methode sind die Fähigkeit, Kausalität durch ein natürliches Experiment festzustellen und die Robustheit gegenüber allgemeinen externen Schocks, wenn diese beide Gruppen betreffen. Nachteile sind die Notwendigkeit einer sorgfältigen Auswahl von Kontrollregionen mit ähnlicher Saisonalität, Sensitivität gegenüber der Mobilität von Nutzern zwischen Städten und die Anforderung einer Datenhistorie von mindestens 12 Monaten für die Erstellung einer qualitativen synthetischen Kontrolle.

Es wurde die dritte Lösung ausgewählt, da das Unternehmen über detaillierte Daten aus 40 Regionen über 18 Monate im BigQuery-Speicher verfügte, was die Erstellung einer synthetischen Kontrolle mit einer Korrelation über 0,95 für den Vor-Kampagnen-Zeitraum ermöglichte. Die Analyse wurde in der Jupyter-Umgebung unter Verwendung der Bibliothek pycausalimpact durchgeführt, während die Datenvorverarbeitung in SQL und pandas mit Normalisierung nach der Publikumsgröße erfolgte.

Infolgedessen wurde ein statistisch signifikanter inkrementeller Anstieg der organischen Installationen um 23 % innerhalb von 14 Tagen nach Kampagnenstart mit einem Vertrauensintervall von 95 % [15 %; 31 %] entdeckt, was in einen ROI von 145 % mündete und dem Marketingteam ermöglichte, die Erhöhung des Budgets für den TV-Kanal im nächsten Quartal zu rechtfertigen.

Was Kandidaten oft übersehen

Wie sollte man Adstock-Effekte (Verzögerungs- und kumulative Effekte) bei der Analyse von Offline-Kampagnen behandeln, wenn der Einfluss von Werbung nicht sofort sichtbar wird, sondern sich über die Zeit verteilt?

Kandidaten verwenden häufig den einfachen Vergleich „Tag der Ausstrahlung — Tag der Installation“ und ignorieren, dass TV-Werbung einen Halbwertszeit-Effekt hat. Es ist erforderlich, die Adstock-Transformation anzuwenden: $A_t = X_t + \lambda \cdot A_{t-1}$, wobei $\lambda$ der Dämpfungsfaktor ist (gewöhnlich 0.3-0.8 für TV), der durch Maximierung der Likelihood oder Grid Search in scikit-learn bestimmt wird. Es ist auch wichtig, den Carryover-Effekt vorheriger Kampagnen zu berücksichtigen, da sonst der aktuelle Lift überschätzt wird. Zur Validierung von $\lambda$ wird eine Kreuzvalidierung in früheren Kampagnen mit verschiedenen Lags verwendet.

Warum kann man in Geo-Lift-Tests keinen einfachen Vergleich der Mittelwerte (t-Test) zwischen Test- und Kontrollregionen verwenden, selbst wenn die Regionen zufällig ausgewählt sind?

Das Problem liegt in der Heterogenität der Varianzen zwischen Regionen (unterschiedliche Basis-Konversion, unterschiedliche Bevölkerungsgröße) und der Vorhandensein von Clustering-Korrelation (regionale Abhängigkeiten der Beobachtungen). Der Standard-t-Test geht von der Unabhängigkeit der Beobachtungen und der Gleichheit der Varianzen aus, was zu einer Überschätzung der statistischen Signifikanz (false positives) führt. Der korrekte Ansatz ist die Verwendung von Clustered Standard Errors auf der Ebene der Region oder hierarchischen bayesianischen Modellen in PyMC3 / Stan, die die Datenstruktur berücksichtigen. Außerdem ist es notwendig, das Gleichgewicht der Kovariaten (Propensity Score Matching) vor dem Test zu überprüfen, um sicherzustellen, dass die synthetische Kontrolle angemessen ist.

Was ist der grundlegende Unterschied zwischen Marketing Mix Modeling (MMM) und Geo-Lift Testing, und wann ist welche Methode bevorzugt?

MMM (zum Beispiel über die Bibliothek Robyn von Meta oder LightweightMMM von Google) ist ein korrelatives Modell, das den Beitrag aller Kanäle gleichzeitig über Regression mit Regularisierung bewertet, aber es ist empfindlich gegenüber Endogenität und kann keine strenge Kausalität ohne instrumentale Variablen feststellen. Geo-Lift ist ein quasi-experimenteller Ansatz, der Kausalität durch exogene Variation (Vorhandensein/Nichtvorhandensein von Werbung in der Region) feststellt. MMM ist vorzuziehen für die Budgetoptimierung zwischen vielen Kanälen und Planung, während Geo-Lift erforderlich ist zur Validierung spezifischer Hypothesen und Kalibrierung von MMM. Die optimale Praxis ist die Verwendung von Geo-Lift zur Kalibrierung von Priors in bayesianischen MMM, was durch pymc-marketing realisiert wird.

Wie würden Sie den Effekt einer Fernsehwerbungskampagne auf organische Installationen einer mobilen Anwendung isolieren, wenn keine direkte Attribution vorliegt und regionale Unterschiede im Nutzerverhalten bestehen?

Antwort auf die Frage

Lebenssituation

Was Kandidaten oft übersehen