Voor het meten van de incrementele effectiviteit van offline kanalen wordt de Geo-Lift Testing methodologie toegepast met behulp van Synthetic Control Method. Het belangrijkste idee is om geografische regio's op te splitsen in testgebieden (waar de reclame wordt uitgezonden) en controlegroepen (waar de campagne niet wordt uitgevoerd), en vervolgens een gewogen combinatie van controlegebieden op te bouwen die het gedrag van de testgebieden imiteert, tot 95% correlatie nauwkeurig.
Voor tijdreeksanalyse wordt de Google CausalImpact bibliotheek gebruikt, die het causale effect evalueert rekening houdend met covariaten (weersgegevens, economische indicatoren, concurrentieactiviteit). Gegevens worden samengebracht in BigQuery, en preprocessing wordt uitgevoerd in Python met gebruik van pandas en scikit-learn voor het vinden van optimale gewichten voor de synthetische controle via support vector machines (SVM) of Lasso-regressie.
Het bedrijf plant een grootschalige tv-campagne met een budget van 50 miljoen roebel in tien grote steden, maar stuit op een kritisch probleem bij het meten van effectiviteit: standaard trackers zoals AppsFlyer of Adjust registreren alleen digitale aanrakingen, waardoor de overgang van het tv-scherm naar de installatie van de applicatie niet kan worden gevolgd. Een extra complicatie ontstaat door de gelijktijdige agressieve promotionele activiteiten van concurrenten en abnormale weersomstandigheden in de doelgebieden, wat een directe vergelijking met eerdere periodes kan vervormen.
De eerste overweging was een correlatieanalyse van tijdreeksen met behulp van het ARIMA-model, waarbij de prognose op basis van historische gegevens wordt vergeleken met de werkelijke installatiewaarden. Voordelen van deze benadering omvatten de lage implementatiekosten in Python met de statsmodels bibliotheek en de afwezigheid van de noodzaak om het reclamebudget tussen regio's te splitsen. Nadelen zijn de onmogelijkheid om het tv-effect van externe schokken (acties van concurrenten, weer) te scheiden, wat leidt tot het risico van valse toeschrijving van groei aan de tv-reclame, ondanks het ontbreken van causale verbanden.
Een tweede optie was adresserbare tv met een klassieke A/B-test op huishoudniveau, waarbij reclame alleen aan een deel van het publiek zou worden getoond met de mogelijkheid van directe attributie via panelgegevens. Voordelen zijn de strikte causaliteit en de mogelijkheid om de langetermijn-LTV van cohorts te meten. Nadelen omvatten de technische complexiteit van integratie met databronnen (GfK, TNS), hoge kosten en lange voorbereidingskosten (3-4 maanden), evenals ongeschiktheid voor traditionele broadcast tv, die de hele populatie van de regio dekt zonder targetting op individueel niveau.
De derde aanpak was Geo-Lift Testing met synthetische controle, waarbij de campagne in testgebieden wordt uitgevoerd en voor controlegebieden een gewogen combinatie van vergelijkbare gebieden wordt opgebouwd die hun gedrag imiteert. Voordelen van deze methode zijn de mogelijkheid om causaliteit vast te stellen via een natuurlijk experiment en de weerstand tegen algemene externe schokken, als deze beide groepen raken. Nadelen zijn de noodzaak van zorgvuldige selectie van controlegebieden met vergelijkbare seizoensgebondenheid, gevoeligheid voor migratie van gebruikers tussen steden en de vereiste dat historische gegevens minimaal 12 maanden beslaan voor de opbouw van kwalitatieve synthetische controle.
De derde oplossing werd gekozen, omdat het bedrijf gedetailleerde gegevens over 40 regio's voor 18 maanden in de BigQuery opslag had, wat het mogelijk maakte om een synthetische controle op te bouwen met een correlatiefactor van meer dan 0.95 voor de pre-campagneperiode. De analyse werd uitgevoerd in een Jupyter omgeving met gebruik van de pycausalimpact bibliotheek, en de preprocessing van gegevens werd uitgevoerd in SQL en pandas met normalisatie op basis van de grootte van het publiek.
Uiteindelijk werd een statistisch significante incrementele toename van organische installaties van 23% ontdekt binnen 14 dagen na de start van de campagne met een betrouwbaarheidsinterval van 95% [15%; 31%], wat resulteerde in een ROI van 145% en de marketingteam in staat stelde de verhoging van het budget voor het tv-kanaal voor het volgende kwartaal te rechtvaardigen.
Hoe adstock-effecten (vertraging en cumulatief effect) te verwerken bij de analyse van offline campagnes, wanneer de invloed van reclame niet onmiddellijk zichtbaar is, maar in de tijd wordt verspreid?
Kandidaten gebruiken vaak een eenvoudige vergelijking "dag van uitzending - dag van installatie", negerend dat tv-reclame een halveringseffect (half-life) heeft. Adstock-transformatie moet worden toegepast: $A_t = X_t + \lambda \cdot A_{t-1}$, waar $\lambda$ de afnamecoëfficiënt is (meestal 0.3-0.8 voor tv), bepaald door maximum likelihood of Grid Search in scikit-learn. Het is ook belangrijk om de carryover-effecten van eerdere campagnes te overwegen, anders zal de huidige lift worden overschat. Voor het valideren van $\lambda$ wordt cross-validatie gebruikt op basis van eerdere campagnes met verschillende vertragingen.
Waarom kan je geen eenvoudige vergelijking van gemiddelden (t-test) gebruiken tussen test- en controlegebieden in Geo-Lift testing, zelfs als de gebieden willekeurig zijn gekozen?
Het probleem is de heterogeniteit van de varianties tussen gebieden (verschillende basisconversie, verschillende populatiegroottes) en de aanwezigheid van cluster correlatie (interne regionale afhankelijkheid van observaties). De standaard t-test veronderstelt onafhankelijkheid van observaties en gelijkheid van varianties, wat leidt tot overwaardering van statistische significantie (false positives). De correcte aanpak is het gebruik van Clustered Standard Errors op regionaal niveau of hiërarchische Bayesian modellen in PyMC3 / Stan, die rekening houden met de datastructuur. Het is ook noodzakelijk om het evenwicht van covariaten (propensity score matching) vóór de test te controleren om ervoor te zorgen dat de synthetische controle adequaat is.
Wat is het fundamentele verschil tussen Marketing Mix Modeling (MMM) en Geo-Lift Testing, en wanneer is welke methode de voorkeur?
MMM (bijvoorbeeld via de Robyn bibliotheek van Meta of LightweightMMM van Google) is een correlatiemodel dat de bijdrage van alle kanalen tegelijkertijd beoordeelt via regressie met regularisatie, maar het is gevoelig voor endogeniteit en kan geen strikte causaliteit vaststellen zonder instrumentele variabelen. Geo-Lift is een quasi-experiment dat causaliteit vaststelt via exogene variatie (aanwezigheid/afwezigheid van reclame in een regio). MMM is bij voorkeur voor budgetoptimalisatie tussen meerdere kanalen en planning, terwijl Geo-Lift nodig is voor validatie van specifieke hypothesen en kalibratie van MMM. De optimale praktijk is het gebruik van Geo-Lift voor kalibratie van die prioren in Bayesian MMM, wat wordt gerealiseerd via pymc-marketing.