Aby zmierzyć inkrementalność kanałów offline, stosuje się metodologię Geo-Lift Testing z użyciem kontrola syntetycznego (Synthetic Control Method). Kluczowa idea polega na podziale regionów geograficznych na testowe (gdzie emitowana jest reklama) i kontrolne (gdzie kampania nie jest uruchamiana), a następnie budowie ważącej kombinacji regionów kontrolnych, która imituje zachowanie testowych przed rozpoczęciem kampanii z dokładnością do 95% współczynnika korelacji.
Do analizy szeregów czasowych wykorzystuje się bibliotekę Google CausalImpact, która ocenia efekt kauzalny, uwzględniając kowariaty (dane pogodowe, wskaźniki ekonomiczne, aktywność konkurencji). Dane agreguje się w BigQuery, a wstępne przetwarzanie przeprowadza się w Pythonie z użyciem pandas i scikit-learn do optymalizacji wag kontrola syntetycznego poprzez metodę wsparcia wektorów (SVM) lub regresję Lasso.
Firma planuje rozległą kampanię telewizyjną z budżetem 50 milionów rubli w dziesięciu dużych miastach, ale napotyka krytyczny problem w pomiarze efektywności: standardowe narzędzia śledzące, takie jak AppsFlyer czy Adjust, rejestrują jedynie cyfrowe interakcje, uniemożliwiając śledzenie przejścia z ekranu telewizyjnego do instalacji aplikacji. Dodatkowa trudność wynika z jednoczesnej agresywnej promocji ze strony konkurencji oraz anormalnych warunków pogodowych w docelowych regionach, które mogą zniekształcać bezpośrednie porównania z wcześniejszymi okresami.
Pierwszym rozważanym rozwiązaniem była analiza korelacyjna szeregów czasowych z wykorzystaniem modelu ARIMA, gdzie prognoza na podstawie danych historycznych jest porównywana z rzeczywistymi wskaźnikami instalacji. Zalety tego podejścia obejmują niskie koszty realizacji w Pythonie z wykorzystaniem biblioteki statsmodels oraz brak konieczności dzielenia budżetu reklamowego między regiony. Wady polegają na niemożności oddzielenia efektu telewizji od zewnętrznych szoków (działania konkurentów, pogoda), co prowadzi do ryzyka fałszywej atrybucji wzrostu do telewizyjnej reklamy, mimo braku powiązań kauzalnych.
Drugą opcją była telewizja adresowalna z klasycznym testem A/B na poziomie gospodarstw domowych, gdzie reklama byłaby wyświetlana tylko części widowni z możliwością bezpośredniej atrybucji przez dane panelowe. Zalety czerpią się z rygorystycznej kauzalności oraz możliwości zmierzenia długoterminowego LTV kohort. Wady obejmują techniczne trudności integracji z dostawcami danych (GfK, TNS), wysokie koszty oraz długie czasy przygotowania (3-4 miesiące), a także brak zastosowania do tradycyjnej telewizji broadcast, która obejmuje całą populację regionu bez możliwości targetowania na poziomie pojedynczych użytkowników.
Trzecim podejściem zostało Geo-Lift Testing z kontrolą syntetyczną, gdzie kampania jest uruchamiana w testowych regionach, a dla kontrolnych budowana jest ważąca kombinacja podobnych regionów, imitująca ich zachowanie. Zalety metody to możliwość ustalenia przyczynowości poprzez naturalny eksperyment oraz odporność na ogólne zewnętrzne szoki, jeśli dotyczą obu grup. Wady to konieczność starannego doboru regionów kontrolnych o podobnej sezonowości, wrażliwość na migrację użytkowników między miastami oraz wymóg posiadania danych historycznych z co najmniej 12 miesięcy w celu stworzenia jakościowej kontroli syntetycznej.
Wybrano trzecie rozwiązanie, ponieważ firma miała szczegółowe dane z 40 regionów za 18 miesięcy w magazynie BigQuery, co pozwoliło na zbudowanie kontroli syntetycznej z współczynnikiem korelacji powyżej 0,95 dla okresu przedkampanijnego. Analiza była przeprowadzana w środowisku Jupyter z użyciem biblioteki pycausalimpact, a wstępne przetwarzanie danych wykonywano w SQL i pandas z normalizacją według wielkości audytorium.
W rezultacie wykryto statystycznie istotny inkrementalny przyrost organicznych instalacji o 23% w ciągu 14 dni po rozpoczęciu kampanii z przedziałem ufności 95% [15%; 31%], co przełożyło się na ROI wynoszący 145% i pozwoliło zespołowi marketingowemu uzasadnić zwiększenie budżetu na kanał telewizyjny na następny kwartał.
Jak przetwarzać efekty adstock (opóźnienia i efekty akumulacyjne) podczas analizy kampanii offline, gdy wpływ reklamy nie jest natychmiastowy, a rozkłada się w czasie?
Kandydaci często stosują proste porównanie „dzień emisji — dzień instalacji”, ignorując, że reklama telewizyjna ma efekt półokresu (half-life). Należy zastosować transformację adstock: $A_t = X_t + \lambda \cdot A_{t-1}$, gdzie $\lambda$ to współczynnik wygaszenia (zwykle 0.3-0.8 dla TV), określany przez maksymalizację prawdopodobieństwa lub Grid Search w scikit-learn. Ważne jest również uwzględnienie efektu carryover z poprzednich kampanii, w przeciwnym razie gwałtowny wzrost będzie przeszacowany. Do walidacji $\lambda$ stosuje się krzyżową walidację na wcześniejszych kampaniach z różnym opóźnieniem.
Dlaczego nie można użyć prostego porównania średnich (t-test) między regionami testowymi a kontrolnymi w Geo-Lift testowaniu, nawet jeśli regiony są losowo wybierane?
Problem polega na heterogeniczności wariancji między regionami (różna podstawowa konwersja, różna wielkość populacji) oraz istnieniu korelacji klastrowej (wewnątrzregionowa zależność obserwacji). Standardowy test t zakłada niezależność obserwacji i równość wariancji, co prowadzi do zawyżonej istotności statystycznej (fałszywe pozytywy). Poprawne podejście to użycie Clustered Standard Errors na poziomie regionu lub hierarchicznych modeli bayesowskich w PyMC3 / Stan, które uwzględniają strukturę danych. Należy również sprawdzić równowagę kowariaty (dopasowanie propensity score) przed testem, aby upewnić się, że syntetyczna kontrola jest adekwatna.
Jaka jest zasadnicza różnica między Marketing Mix Modeling (MMM) a Geo-Lift Testing i kiedy która metoda jest preferowana?
MMM (na przykład przez bibliotekę Robyn od Meta lub LightweightMMM od Google) to model korelacyjny oceniajacy wkład wszystkich kanałów jednocześnie przez regresję z regularizacją, ale jest wrażliwy na endogeniczność i nie potrafi ustalić ścisłej przyczynowości bez zmiennych instrumentalnych. Geo-Lift to quasi-eksperyment, który ustala przyczynowość poprzez egzogenną wariację (obecność/brak reklamy w regionie). MMM jest preferowane do optymalizacji budżetu między wieloma kanałami i planowaniem, podczas gdy Geo-Lift jest niezbędny do walidacji konkretnych hipotez i kalibracji MMM. Optymalna praktyka to wykorzystanie Geo-Lift do kalibracji priors w bayesowskim MMM, co jest realizowane poprzez pymc-marketing.