Historycznie kampanie marketingowe były oceniane pod kątem średniego efektu działania (ATE), ale rozwój Causal ML doprowadził do modeli uplift, które przewidują indywidualny efekt terapeutyczny (ITE). Klasyczny test A/B jest tutaj paradoksalny: aby nauczyć modelu potrzebne są dane o treated i control dla wszystkich segmentów, ale aby ocenić model, muszą być użyte, co niszczy grupę kontrolną. Tworzy to dylemat badania i eksploatacji (exploration-exploitation).
Problem komplikuje zanieczyszczenie krzyżowe (contamination), gdy zachowanie użytkowników z grupy testowej wpływa na kontrolę przez efekty sieciowe lub wspólne zasoby (np. wyczerpanie limitu kodów promocyjnych). Potrzebna jest metoda, która pozwala jednocześnie uczyć model i izolować jego inkrementalny efekt w porównaniu do równomiernego rozkładu lub braku kampanii.
Rozwiązanie opiera się na Two-Stage Approach. Pierwszy etap — exploration z randomizacją (20-30% ruchu) w celu zebrania danych bezstronnych, szkolenie modelu (X-learner lub R-learner) do oceny CATE (Conditional Average Treatment Effect). Drugi etap — exploitation z stopniowym przekierowaniem ruchu na model za pomocą Thompson Sampling lub Contextual Bandits, co minimalizuje regret. Do izolacji efektu używana jest Cluster-based Randomization (randomizacja według klastrów geograficznych) lub Switchback Testing (czasowa randomizacja) z późniejszą oceną poprzez Synthetic Control Method (SCM). Metryka jakości — Qini-coefficient lub Area Under the Uplift Curve (AUUC), korygowana przez Inverse Propensity Weighting (IPW) w celu usunięcia błędów wyboru.
Problem pojawił się na rynku przy uruchomieniu kampanii z spersonalizowanymi kodami promocyjnymi. Menedżer produktu chciał użyć modelu uplift, aby wysyłać zniżki tylko dla „persuadables” (tych, którzy kupią tylko z kodem promocyjnym), unikając „sure things” i „lost causes”. Standardowy test A/B był niemożliwy, ponieważ dane o osobach, które nie otrzymały kodu w wszystkich segmentach, były wymagane do szkolenia, ale utrzymanie 50% publiczności bez kodów promocyjnych krytycznie obniżało przychody.
Pierwsza opcja — Hold-out Randomization z zachowaniem 10% użytkowników w pełnej kontroli przez cały okres. Plusy podejścia: czysta ocena ATE i możliwość poprawnego uczenia modelu na kontraście. Minusy: znaczne utracone przychody (opportunity cost), konflikty etyczne (dyskryminacja cenowa bez przejrzystych kryteriów) oraz wolna konwergencja modelu z powodu małych rozmiarów grupy kontrolnej.
Druga opcja — Thompson Sampling z stopniowym zwiększaniem udziału ruchu. Tutaj „rękami” bandyty są strategie targetowania (model uplift przeciwko randomizacji). Plusy: optymalne proporcje exploration/exploitation, adaptacja do sezonowości i minimalizacja strat ekonomicznych. Minusy: trudności w interpretacji na wczesnych etapach, ryzyko utknięcia w lokalnym optimum przy nieudanych wyborach kontekstów oraz konieczność dużych wolumenów ruchu dla statystycznej istotności.
Trzecia opcja — Geo-based Synthetic Control. Randomizacja odbyła się według regionów: w testowych zastosowano model uplift, w kontrolnych — stary system. DO oceny użyto SCM, tworzącego ważoną kombinację regionów kontrolnych, imitującą testowe przed wprowadzeniem. Plusy: izolacja efektu od indywidualnej randomizacji, praca z danymi zgrupowanymi i brak zanieczyszczenia krzyżowego między miastami. Minusy: wymóg stabilności regionów w czasie, wrażliwość na odchylenia w małych jednostkach geograficznych oraz założenie o równoległych trendach, które często jest naruszane w okresach wysokiej sezonowości.
Zostało wybrane kombinowane rozwiązanie: Geo-cluster Randomization z Synthetic Control dla offline walidacji oraz Thompson Sampling dla online optymalizacji wewnątrz testowych klastrów. Uzasadnienie: randomizacja geograficzna wykluczyła zanieczyszczenie krzyżowe (użytkownicy z różnych miast rzadko wchodzą w interakcje), a Synthetic Control pozwolił uniknąć podziału 50/50. Thompson Sampling wewnątrz testowych regionów zapewniłby szybką adaptację modelu do lokalnych preferencji.
Rezultat: udało się wyizolować prawdziwy inkrementalny efekt modelu uplift na poziomie +12% konwersji w porównaniu do masowej wysyłki przy redukcji wydatków na kody promocyjne o 35%. Synthetic Control wykazał, że bez modelu trend w testowych regionach powtarzałby dynamikę syntetycznej kontroli z dokładnością 94% (RMSPE), co potwierdziło wiarygodność oceny.
Dlaczego nie można po prostu porównać konwersji tych, którzy otrzymali kod promocyjny według modelu, z tymi, którzy go nie otrzymali (observational data), nawet jeśli używać Propensity Score Matching?
Odpowiedź: Self-selection bias oraz unobserved confounders. Użytkownicy z wysokim wynikiem uplift mogą systematycznie różnić się od cech nieobserwowalnych (np. niedawne otrzymanie wynagrodzenia lub poszukiwanie konkretnego produktu). Propensity Score Matching (PSM) koryguje tylko według obserwowalnych kowariancji, ale jeśli istnieje ukryta zmienna wpływająca i na prawdopodobieństwo otrzymania kodu, i na konwersję, ocena będzie zniekształcona. Na przykład, aktywni użytkownicy z wieloma sesjami mogą być błędnie klasyfikowani jako „persuadables”, ale kupią i bez zniżki. Dla początkującego specjalisty krytyczne jest zrozumienie, że korelacja między przewidywanym uplift a rzeczywistą konwersją nie jest równa efektowi przyczynowo-skutkowemu — potrzebna jest randomizacja lub instrumenty zmienne (IV), aby izolować.
Jak zależność czasowa (time-varying confounders) wpływa na ocenę modelu uplift w długim okresie nauki i jak z tym walczyć?
Odpowiedź: Przy długoterminowym uczeniu występuje temporal confounding: zachowanie użytkowników się zmienia (sezonowość, aktualizacje produktu), a dane fazy eksploracyjnej starzeją się do momentu eksploatacji. Klasyczny model uplift zakłada stacjonarność (stationarity), co rzadko jest prawdziwe. Rozwiązaniem jest stosowanie adaptive experimentation z decaying weights dla starych danych lub algorytmy online learning (np. Bayesian Updating). Również konieczny jest monitoring concept drift za pomocą Population Stability Index (PSI) dla cech i wydajności modelu. Początkowi analitycy często uczą model na danych kwartalnych, a stosują go po sześciu miesiącach, nie sprawdzając zniekształcenia zachowania publiczności (np. z powodu wyjścia konkurenta), co prowadzi do negative uplift w produkcie.
Dlaczego metryka AUUC (Area Under Uplift Curve) może wprowadzać w błąd przy porównywaniu dwóch różnych modeli uplift i jakie alternatywy stosować?
Odpowiedź: AUUC zależy od rozkładu prognozowanego uplift w populacji i nie jest skalowalnie invariantna. Jeśli jeden model konserwatywnie przewiduje mały uplift dla wszystkich, a drugi — agresywnie z wysoką zmiennością, ich krzywe się skrzyżują, a AUUC da niejednoznaczny wynik. Co więcej, AUUC ignoruje ograniczenia biznesowe (budżet na kody promocyjne). Alternatywą jest cost-sensitive Qini coefficient lub Expected Response przy stałym budżecie. Dla początkującego specjalisty ważne jest zrozumienie, że dobry model według AUUC ≠ dobra metryka biznesowa. Należy stosować Policy Evaluation z symulacją strategii: uszeregować użytkowników według przewidywanego uplift, wziąć top-K% (zgodnie z budżetem) i porównać rzeczywisty przyrost ze scenariuszem kontrfaktycznym poprzez Doubly Robust Estimation lub Inverse Probability Weighting (IPW).