Odpowiedź na pytanie

Tradycyjne metody ustalania cen w e-commerce przez długi czas opierały się na prostych analizach korelacyjnych lub krótkich A/B-testach w celu oceny zmian progów dostawy. Jednak wraz z rozwojem teorii wnioskowania przyczynowo-skutkowego (Causal Inference) stało się jasne, że nagłe zmiany polityki dostawy dla całej bazy stwarzają problem endogenicznego samowyboru i dynamiki czasowej. Nowoczesna analiza produktu wymaga zastosowania metod quasieksperymentalnych, takich jak Synthetic Control Method (SCM) i Bayesian Structural Time Series (BSTS), które zostały opracowane do oceny polityki makroekonomicznej, ale zostały z powodzeniem dostosowane do cyfrowych produktów o wysokiej zmienności metryk.

Podczas podwyższenia progu darmowej dostawy powstaje złożony problem identyfikacji lokalnego średniego efektu oddziaływania (LATE). Użytkownicy z wysoką gotowością do zakupu zmieniają zachowanie (dokupują do progu), podczas gdy marginalni użytkownicy odkładają zakup lub przechodzą do konkurencji. Klasyczna analiza przed i po daje zafałszowaną ocenę z powodu sezonowości, efektów inflacyjnych i konkurencyjnych kampanii. Dodatkowo obserwuje się efekt międzyokresowej substytucji (intertemporal substitution), gdy użytkownicy łączą zakupy w czasie, tworząc sztuczny wzrost średniej wartości zamówienia, niezwiązany z rzeczywistym wzrostem popytu, co wymaga modelowania struktury czasowej reakcji.

Optymalnym podejściem jest połączenie Synthetic Control Method na poziomie agregowanych kohort użytkowników oraz Regression Discontinuity Design (RDD) do lokalnej oceny efektu dla marginalnych konsumentów. W SCM buduje się ważoną kombinację geograficznych regionów lub segmentów o podobnej historycznej dynamice, która mimikuje trend grupy docelowej przed interwencją, wykorzystując algorytm optymalizacji wag Abadie-Diamond-Hainmueller. W RDD analizowane są transakcje w wąskim pasie wokół progu (optymalna szerokość przez algorytm Imbens-Kalyanaraman), co pozwala na izolację czystego efektu bodźca. Dodatkowo stosuje się CausalImpact oparty na BSTS do dynamicznej oceny odchyleń od syntetycznego trendu, a znaczenie statystyczne oblicza się za pomocą permutation test (placebo tests) na danych historycznych.

Przykład z życia

Duży rynek mody podjął decyzję o podwyższeniu progu darmowej dostawy z 1500₽ do 2500₽ dla całej audytorium w Rosji jednocześnie. Zespół produktowy odnotował wzrost średniej wartości zamówienia o 22% w ciągu pierwszych dwóch tygodni, ale CFO wątpił w stabilność tego efektu, obawiając się odpływu wartościowych użytkowników i kanibalizacji przyszłych sprzedaży poprzez mechanizm odłożonych zakupów. Przed analitykiem stało zadanie oddzielenia prawdziwego efektu przyczynowego od szumu sezonowych wyprzedaży i zmiany w zachowaniu konkurentów, którzy równolegle wprowadzili akcje promocyjne na dostawę.

Pierwsza rozważona opcja to proste porównanie metryk za 30 dni przed i 30 dni po zmianie z użyciem testu t oraz obliczania uplifts w procentach. Zalety: maksymalna prędkość realizacji w ciągu jednego dnia i wysoka przejrzystość dla wyższej kadry zarządzającej bez zagłębiania się w statystyki. Wady: całkowite zignorowanie wzrastającego sezonowego trendu (początek wiosennej kolekcji), brak kontroli nad zewnętrznymi wstrząsami (kampania reklamowa konkurenta) i niemożność oceny dynamicznego efektu akumulacji koszyków, co prowadzi do przeszacowania efektu o 40-60%.

Druga opcja to Geographic Difference-in-Differences, używając regionów bez zmiany progu (np. odległe obszary z ograniczeniami logistycznymi) jako grupy kontrolnej. Zalety: naturalna wariacja i zdolność uchwycenia regionalnych różnic w wrażliwości cenowej przez fixed effects. Wady: krytyczne naruszenie założenia o równoległych trendach (parallel trends) z powodu migracji użytkowników między miastami (naruszenie SUTVA) oraz znacząca różnica w środowisku konkurencji między stolicami a regionami, co sprawia, że grupa kontrolna jest systematycznie niedopasowana.

Trzecia opcja to Synthetic Control Method na poziomie kohort użytkowników, utworzonych na podstawie historycznej częstotliwości zakupów i średniej wartości zamówienia, zbudowana na danych z 12 miesięcy przed zmianą. Zalety: tworzenie optymalnego zestawu wag "donorowych" segmentów, które uwzględniają sezonowość, dzień tygodnia i trendy poprzez convex combination; możliwość wizualnej walidacji jakości dopasowania w okresie przed interwencją. Wady: wymaganie długiej historii danych (minimum 10-15 okresów), wrażliwość na strukturalne przeskoki (regime switch), takie jak pandemiczne zmiany w zachowaniu, oraz trudność w interpretacji wag dla biznesu.

Wybrano rozwiązanie mieszane: SCM do oceny ogólnego efektu na przychody oraz RDD z lokalnym wielomianem drugiego stopnia w celu oceny efektu na marginalnych użytkownikach w pasie 2300-2700₽. To pozwoliło na rozdzielenie efektu "dokupu" (basket augmentation) od efektu "odpływu" (churn) i poprawne uwzględnienie sezonowości poprzez bayesowską strukturalną model czasowych (BSTS), zintegrowaną w CausalImpact.

Ostateczny wynik pokazał, że obserwowany wzrost wartości zamówienia o 22% był zawyżony w przybliżeniu o połowę: prawdziwy efekt inkrementalny wyniósł 11%, z czego 6% odpowiadało za tymczasowe przesunięcie popytu (intertemporal substitution), a 5% — za prawdziwy wzrost wielkości koszyka. Analiza ujawniła segment "wrażliwych na dostawę" użytkowników (15% bazy), którzy wykazali zwiększony odpływ o 8% i spadek częstotliwości zamówień o 12%, co pozwoliło dostosować politykę: wprowadzić hybrydowy próg 1990₽ dla segmentu niskiej wartości zamówienia z wysoką historyczną częstotliwością zwrotów, niwelując negatywny efekt na utrzymanie.

Co kandydaci często pomijają

Jak poprawnie uwzględnić efekt akumulacji koszyków (cart pooling) i międzyokresową substytucję zakupów przy ocenie dynamicznego progu dostawy, jeśli użytkownicy strategicznie odkładają konwersję?

Odpowiedź: Należy modelować czasową strukturę podejmowania decyzji przez survival analysis (model Coxa z proporcjonalnymi ryzykami) lub analizę interwałów między sesjami (inter-purchase time). Kluczową metryką staje się nie punktowa konwersja, a zmiana hazard rate zakupu w zależności od bieżącej kwoty koszyka i odległości do progu. Dodatkowo należy analizować kohorty użytkowników, którzy osiągnęli próg dzięki dokupieniu, w kontekście zwiększonej liczby zwrotów towarów w ciągu 14 dni (kanibalizacja zwrotów), co zniekształca metrykę GMV i wymaga dostosowania na return rate w modelu.

Dlaczego standardowe przedziały ufności (confidence intervals) są niepoprawne dla Synthetic Control Method i jak należy oceniać istotność statystyczną efektu kausalnego w tej metodologii?

Odpowiedź: W SCM oceny są podatne na inferential uncertainty, związane z procesem doboru wag jednostek donorowych i ograniczoną próbą, co narusza założenia klasycznej statystyki frekwencyjnej o niezależności obserwacji. Poprawnym podejściem jest permutation test (placebo test), gdzie ten sam algorytm SCM jest stosowany do każdej jednostki donorowej z puli (udając, że otrzymały one interwencję), tworząc empiryczne rozkłady efektów placebo. Efekt uznaje się za statystycznie istotny na poziomie 5%, jeśli post/pre-RMSPE ratio dla traktowanej jednostki przekracza 95. percentyl rozkładu placebo, jak sformalizowano w pracy Abadie, Diamond i Hainmueller (2010, 2015).

Jak rozróżnić efekt zmiany progu dostawy od jednoczesnej zmiany jakości ruchu lub aktywności konkurencyjnej przy użyciu Causal Impact lub Synthetic Control?

Odpowiedź: Krytycznie ważne jest, aby w modelu uwzględnić covariates (predyktory), które nie są narażone na wpływ interwencji (untreated confounders), ale są skorelowane z celem metrycznym — na przykład, odwiedzalność strony konkurentów (poprzez SimilarWeb lub dane panelowe), ogólny wolumen rynku e-commerce w regionie, lub współczynnik CTR organicznego ruchu. W bayesowskiej strukturze BSTS, stanowiącej podstawę CausalImpact, te zmienne wchodzą jako regresory do modelu state-space, izolując ogólne wstrząsy. Należy również sprawdzać Granger causality między predyktorami a wynikiem przed interwencją i korzystać z testów placebo-in-time, przesuwając datę "interwencji" na historyczne okresy, aby sprawdzić brak fałszywych sygnałów.