Odpowiedź na pytanie

Kontekst historyczny

Ewolucja handlu elektronicznego doprowadziła do rozwoju logistyki wielokanałowej, w której Click&Collect i punkty odbioru (Pickup Points, P.O.) stały się narzędziem zmniejszającym koszty ostatniej mili dostawy. Jednak w przeciwieństwie do fitów cyfrowych, te zmiany mają charakter geograficznie dyskretny i są podatne na efekt self-selection — klienci ceniący czas ignorują P.O., podczas gdy oszczędni użytkownicy migrują z dostaw kurierskich. Klasyczne testy A/B na poziomie użytkowników są tutaj niemożliwe z powodu braku randomizacji na poziomie lokalizacji i obecności efektów sieciowych w obrębie dzielnic.

Postawienie problemu

Analiza staje przed trzema kluczowymi wyzwaniami. Po pierwsze, endogeniczność lokalizacji: punkty otwierane są w obszarach o wysokiej gęstości zamówień, co tworzy odwrotną przyczynowość (wysoki popyt → otwarcie P.O.). Po drugie, kanibalizacja: część użytkowników po prostu zmienia sposób odbioru z dostawy na odbiór osobisty bez zwiększenia ogólnych wydatków. Po trzecie, naruszenie SUTVA (Stable Unit Treatment Value Assumption): jeden użytkownik widzi otwarcie punktu blisko swojego domu i agituję sąsiadów przez media społecznościowe, co prowadzi do niepożądanego skojarzenia między obszarami „traktowanymi” a „kontrolnymi”.

Szczegółowe rozwiązanie

Zaleca się wielopoziomową strategię quasi-experimental evaluation. Na poziomie makro (miasta) stosuje się metodę Synthetic Control Method — tworzymy ważoną kombinację miast „dawców” bez P.O., maksymalnie imitującą dynamikę metryk testowego miasta przed interwencją. Wagi są dobierane poprzez optymalizację wypukłą na danych przedinterwencyjnych (12-18 miesięcy), z uwzględnieniem sezonowości, wskaźników makroekonomicznych i struktury kategorii.

Na poziomie mikro (użytkownicy) stosujemy Difference-in-Differences z dopasowaniem propensity score (Propensity Score Matching) w celu kontrolowania obserwowalnych cech, ale kluczowe jest wdrożenie Instrumental Variables (IV). Jako narzędzie występuje najkrótsza odległość od domu użytkownika do najbliższego P.O., obliczona na podstawie sieci drogowej. Ta zmienna koreluje z wyborem odbioru osobistego (pierwszy etap dwustopniowego OLS), ale nie koreluje z ukrytą skłonnością do zakupów, co izoluje czysty Local Average Treatment Effect (LATE).

Aby uwzględnić zamówienia hybrydowe (magazyn pośredni), budujemy modele CausalForest, które dzielą efekt na subpopulacje: natychmiastowi przyjmujący, opóźnieni użytkownicy i nigdy nieстыруjący. Na koniec korygujemy standardowe błędy na klasteryzację na poziomie dzielnicy (clustered standard errors) i sprawdzamy wrażliwość na efekty spillover poprzez analizę koncentracji w promieniu 500 metrów.

Sytuacja z życia

Kontekst: Duży fashion marketplace planował uruchomić sieć 120 Pickup Points w 15 testowych miastach średniej wielkości (500-800 tys. mieszkańców) w celu zmniejszenia kosztów logistyki o 25%. Zarząd wymagał oceny, czy obecność P.O. zwiększa częstotliwość zakupów (purchase frequency) wśród istniejących klientów, czy tylko przemieszcza ruch z dostaw kurierskich.

Opcja 1: Proste porównanie „miasto z P.O. vs miasto bez P.O.” Zalety: Maksymalnie prostą realizację, nie wymaga danych historycznych, szybka odpowiedź dla biznesu. Wady: Miasta z P.O. są z początku bogatsze i bardziej aktywne (selection bias), różnice w sezonowości i konkurencyjnej przestrzeni mogą dać przesunięcie do 40% w ocenie efektu. Wynik staje się niepewny dla skalowalności.

Opcja 2: Analiza Before-After tylko w miastach testowych Zalety: Kontroluje między miejskie różnice, koncentruje się na zmianie trendu. Wady: Nie uwzględnia ogólnych trendów rynkowych wzrostu e-commerce (w roku pandemii podstawowy trend mógł wynosić +30% rok do roku), punkt końcowy może zbiegąć się z lokalnymi świętami promocyjnymi, zniekształcając obraz.

Opcja 3: Synthetic Control na poziomie miast + IV na poziomie użytkowników Zalety: Synthetic Control tworzy kontrfaktyczny scenariusz „co by było bez P.O.”, korygując za makro-trendy, a Instrumental Variables (odległość do punktu jako losowy szok dla „leniwych” użytkowników) izoluje efekt przyczynowy od prostej korelacji. Wady: Wymaga minimum 12 miesięcy danych przedinterwencyjnych dla każdego miasta, trudność w interpretacji LATE dla nietechnicznych interesariuszy, koszt obliczeniowy.

Wybrane rozwiązanie i uzasadnienie Wybraliśmy kombinację Synthetic Control do między-miejskiej walidacji oraz Two-Stage Least Squares (2SLS) z geograficznym narzędziem do miary użytkownika. Pozwoliło to rozdzielić efekt obecności infrastruktury (efekt strukturalny) od efektu świadomego wyboru (behavioral self-selection). Kritycznie ważne było udowodnienie, że nawet „leniwi” użytkownicy, żyjący w odległości 200 metrów od nowego punktu, zaczynają częściej kupować, nie zmieniając swoich cech ekonomicznych.

Ostateczny wynik Ocena wykazała rzeczywisty inkrementalny przyrost częstotliwości zakupów o 12% wśród użytkowników żyjących w strefie dostępności P.O. (ITT), przy czym kanibalizacja dostaw kurierskich wyniosła 18%, co zostało zrekompensowane wzrostem średniej wartości koszyka o 8% dzięki braku opłat za dostawę. Jednak efekt był heterogeniczny: tylko dla kategorii „obuwie” i „akcesoria”, podczas gdy dla „AGD” nie wykazano istotnego efektu. Umożliwiło to dostosowanie strategii otwierania punktów, koncentrując się na centrach mody i rezygnując z punktów w dzielnicach mieszkalnych z przewagą sprzętu.

Co kandydaci często pomijają

Jak rozróżnić efekt otwarcia P.O. od efektu kampanii marketingowej, ogłaszającej te punkty, jeśli kampania jest uruchamiana jednocześnie z otwarciem?

Odpowiedź: Standardowy błąd — ignorowanie treatment contamination przez kanał marketingowy. Należy zastosować metodę Difference-in-Difference-in-Differences (DDD) lub podzielić próbkę na dwie grupy kontrolne: miasta z kampanią (wsparcie medialne) ale bez fizycznych P.O. (tylko zapowiedź „coming soon”) oraz miasta z pełnym wdrożeniem. Jeśli efekt występuje tylko w drugiej grupie, to dowodzi to przyczynowej roli logistyki, a nie komunikacji. Ważne jest także śledzenie brand search jako zmiennej kontrolnej — jeśli rośnie w równym stopniu w obu grupach, wzrost przychodów w grupie testowej jest spowodowany wygodą usługi, a nie świadomością.

Dlaczego nie można stosować prostego powiązania użytkowników według odległości do P.O. (bliżej 500m vs dalej 2km) jako proxy dla testu i kontroli, nawet jeśli kontrolować za demografią?

Odpowiedź: To naruszenie positivity assumption i selection on unobservables. Użytkownicy, wybierający mieszkanie blisko centrów handlowych (gdzie zwykle znajdują się P.O.), systematycznie różnią się pod względem dochodu, zatrudnienia i stylu życia od mieszkańców obrzeży. Nawet z Propensity Score Matching pozostaje hidden bias od unobserved confounders (np. planowanie budżetu domowego). Prawidłowe podejście to użycie Regression Discontinuity Design (RDD), traktując granice stref dostawnych lub administracyjnych granic dzielnic jako losowy próg, gdzie z jednej strony ulicy domy znajdują się w odległości 300 metrów (treatment), a z drugiej - w 900 metrach (kontrol), ale cechy społeczno-ekonomiczne są identyczne.

Jak poprawnie uwzględnić opóźnienie czasowe między otwarciem P.O. a formowaniem nawyków (habit formation), jeśli standardowe okna atrybucji (7-30 dni) niedoszacowują długoterminowych efektów?

Odpowiedź: Klasyczny błąd - użycie stałego okresu po. Należy zastosować Event Study Design z dynamicznymi opóźnieniami, modelując efekt oddzielnie dla miesiąca 1, 3, 6 po otwarciu. To pozwala na uchwycenie treatment effect heterogeneity over time — często efekt narasta w miarę formowania nawyku (learning curve), a następnie stabilizuje się. Ważne jest zastosowanie modeli Cox Proportional Hazards dla czasu do pierwszego użycia P.O., uwzględniając konkurencyjne ryzyka (użytkownik może churn'ować przed adaptacją). Należy również korygować survivorship bias — użytkownicy, którzy zaczęli korzystać z P.O., mogą mieć niski współczynnik churn na mocy definicji, a ich należy porównywać z grupą kontrolną z similar survival patterns, a nie z całą bazą.