Odpowiedź na pytanie

Kontekst historyczny. Od lat 2020. ewolucja e-commerce przesunęła fokus z dostaw tego samego dnia (same-day) na zrównoważoną logistykę, gdzie konsolidacja zamówień zmniejsza ślad węglowy i koszty ostatniej mili. Wczesne eksperymenty Amazon Day i podobnych usług pokazały, że dobrowolne łączenie dostaw prowadzi do samo-selekcji użytkowników o niskiej pilności, co wprowadza endogeniczność w ocenę efektów na metryki produktu. Tradycyjne metody testów A/B okazują się nieodpowiednie przy przymusowej konsolidacji, ponieważ infrastruktura logistyczna wymaga masowej optymalizacji tras na poziomie całego obszaru, a nie indywidualnego użytkownika.

Ustalenie problemu. Przy wprowadzeniu systemu konsolidacji (np. dostawa tylko we wtorki i piątki) pojawia się problem braku losowego rozkładu: użytkownicy w obszarach wdrożenia systematycznie różnią się pod względem geograficznego oddalenia od magazynów i tolerancji na oczekiwanie. Ponadto istnieje ryzyko zanieczyszczenia przestrzennego (spillover), gdy użytkownicy zmieniają adres dostawy na pracę lub do krewnych w sąsiednich regionach bez konsolidacji, naruszając założenie SUTVA (Stable Unit Treatment Value Assumption). Sezonowość popytu i korelacja uruchomienia z optymalizacją logistyczną w regionach o wysokich dochodach dodatkowo zniekształcają ocenę prawdziwego efektu przyczynowego.

Szczegółowe rozwiązanie. Aby wyizolować efekt, stosuje się Staggered Difference-in-Differences (DiD) z stopniowym wdrażaniem (rollout) w obszarach logistycznych, gdzie okresy przed wdrożeniem służą jako kontrola dla okresów po. Ważne jest sprawdzenie założenia o równoległych trendach za pomocą analizy event study dynamiki metryk przed wdrożeniem, aby upewnić się, że nie ma różnic w trendach między przyszłymi grupami interwencyjnymi a kontrolnymi. Dla każdego obszaru buduje się Synthetic Control z regionów-donorów o podobnej historycznej dynamice zamówień, ale bez planowanego wdrożenia, co pozwala na modelowanie kontrofaktów i zwiększa odporność ocen.

Aby skorygować dla częściowego przyjęcia (partial compliance), stosuje się IV-regresję (Instrumental Variables), gdzie instrument (Z) to fakt przynależności użytkownika do obszaru wdrożenia (assignment), przewidujący faktyczne wykorzystanie konsolidacji (D), podczas gdy rezultat (Y) to retention lub częstotliwość zakupów. To pozwala ocenić LATE (Local Average Treatment Effect) — efekt dla tych, którzy zmienili zachowanie w wyniku wdrożenia (compliers), w przeciwieństwie do ITT (Intent-to-Treat), który pokazuje efekt oferty usługi. Analiza heterogeniczności według kategorii towarów (impulse vs stock-up goods) pomaga oddzielić rzeczywiste zmniejszenie popytu od międzyczasowej substytucji (intertemporal substitution).

Sytuacja z życia

Marketplace sprzętu gospodarstwa domowego uruchomił pilotaż konsolidacji dostaw w trzech dużych miastach w celu zmniejszenia kosztów logistycznych o 30%. Analityka napotkała zniekształcenia podczas porównywania użytkowników, którzy zgodzili się na konsolidację (treatment), z tymi, którzy odmówili (control): adoptorzy mieli historycznie mniejszą częstotliwość zakupów i większy średni koszyk, co wskazywało na samo-selekcję planujących zakup. Proste porównanie pokazałoby fałszywe zmniejszenie retention, podczas gdy w rzeczywistości zachowanie mogło być stabilne, ale zniekształcone przez wybór.

Pierwsza opcja — bezpośrednie porównanie metryk przed i po wdrożeniu (pre-post analysis) w obrębie obszaru. Plusy w tym przypadku obejmują prostotę realizacji i szybkość uzyskiwania wyników bez potrzeby zbierania danych z innych regionów. Minusy są oczywiste: niemożność oddzielenia efektu konsolidacji od sezonowych wahań popytu i ogólnych trendów wzrostu bazy użytkowników, co prowadzi do systematycznego zniekształcenia ocen, gdy uruchomienie pokrywa się z okresem świątecznym lub kampaniami reklamowymi.

Druga opcja polega na porównaniu przekrojowym obszarów z wdrożeniem i bez na stałą datę. Korzyści obejmują możliwość kontrolowania za trendami czasowymi poprzez jednoczesny wycinek danych oraz brak konieczności długiej historii w regionach kontrolnych. Wady związane są z tym, że obszary wdrożenia wybierano na podstawie kryterium wysokiej gęstości zamówień i lojalności odbiorców, co tworzy silną selekcję (selection bias) i czyni grupy nieporównywalnymi pod względem początkowych charakterystyk.

Trzecia opcja wykorzystuje Staggered DiD z dopasowaniem propensity score i Synthetic Control. Plusy polegają na wykorzystaniu regionów bez wdrożenia jako grupy kontrolnej, co pozwala na uwzględnienie regionalnych i czasowych efektów fikcyjnych, a dopasowanie poprawia porównywalność pod względem cech pre-trend. Minusy obejmują trudności w walidacji założenia o równoległych trendach przy heterogenicznych efektach w czasie i ryzyko zanieczyszczenia przestrzennego (spatial spillover) między sąsiednimi obszarami, gdzie użytkownicy mogą zmieniać adresy dostawy.

Wybrane rozwiązanie i wynik: Wybrano trzecie podejście z dodatkowym wykorzystaniem IV-regresji na granicach obszarów logistycznych (RDD-style boundary analysis) dla lokalnej ważności. Pozwoliło to na wyizolowanie efektu od regionalnych różnic w zachowaniu zakupowym i poziomie usług. Analiza wykazała, że prawdziwy efekt konsolidacji — zmniejszenie częstotliwości transakcji o 8% (a nie 15% jak w naive analizie), ale wzrost średniego koszyka o 22% dzięki połączeniu małych zamówień. Retention pozostał na poziomie grupy kontrolnej, co uzasadniło skalowanie funkcji w inne regiony z prognozowanym efektem ekonomicznym.

W wyniku wdrożenia firma zmniejszyła koszty logistyczne o 35% dzięki optymalizacji tras, rekompensując spadek częstotliwości zamówień wzrostem średniego koszyka. Model prognostyczny oparty na uzyskanych współczynnikach pozwolił na obliczenie punktu rentowności dla uruchomienia w nowych regionach o różnej gęstości populacji. Metodologia została przyjęta jako standard oceny innowacji logistycznych przy niemożności klasycznego testowania A/B.

Co kandydaci często pomijają

Jak odróżnić prawdziwe zmniejszenie częstotliwości zakupów od międzyczasowej substytucji (intertemporal substitution), kiedy użytkownicy po prostu odkładają zakupy do następnego okna dostawy?

Odpowiedzi kandydatów często ignorują dynamiczny charakter popytu i zakładają, że spadek częstotliwości w miesiącu jest równoważny utracie klienta. Należy analizować kohorty użytkowników z długim opóźnieniem (180+ dni) i różnicować kategorie towarów: dla towarów łatwo psujących się lub impulsowych (snacks, accessories) opóźnienie jest równoważne utracie, podczas gdy dla zakupów planowych (sprzęt gospodarstwa domowego) jest to po prostu przesunięcie w czasie. Metodologicznie warto zastosować modele rozkładu opóźnionego lub analizować zachowanie związane z "gromadzeniem zapasów" poprzez metrykę dni inwentarza w domu, obliczoną na podstawie historii zakupów kategorii o regularnym zużyciu. Jeśli całkowita liczba towarów w ciągu 90 dni zmniejszyła się — to utrata popytu, jeśli pozostała taka sama, ale interwał między zamówieniami wzrósł — to substytucja.

Jak uwzględnić zanieczyszczenie przestrzenne (spillover effects), gdy użytkownicy zmieniają adres dostawy na pracę lub do przyjaciół w sąsiednim obszarze bez konsolidacji, aby otrzymać towar szybciej?

Standardowy DiD zakłada brak wpływu treatment na grupę kontrolną, ale w praktyce użytkownicy z "treatment" mogą korzystać z adresów w "control" dla pilnych zamówień, zniekształcając metryki kontroli w górę. Rozwiązaniem jest geograficzny filtr: analizować tylko użytkowników z "stabilnym" adresem domowym (historia >6 miesięcy bez zmian) i wykluczać zamówienia hybrydowe (dostawa do innego obszaru). Alternatywnie, używać spatial DiD z wagami odwrotnie proporcjonalnymi do odległości do granicy obszaru, lub analizować tylko regiony oddalone od granic o >50 km (donut RDD), gdzie spillover jest minimalny.

Jak poprawnie interpretować różnicę między ITT (Intent-to-Treat) a LATE (Local Average Treatment Effect) w kontekście częściowego przyjęcia (partial compliance), kiedy nie wszyscy użytkownicy w obszarze wdrożenia korzystają z konsolidacji?

Kandydaci często mieszają efekt "oferty usługi" i "faktycznego wykorzystywania". ITT ocenia efekt na wszystkich użytkownikach w obszarze wdrożenia, w tym tych, którzy zignorowali funkcję, i jest przydatny dla biznesowego uzasadnienia rozszerzenia. LATE (przez IV-regresję z instrumentem "obecność usługi w obszarze") ocenia efekt tylko dla compliantów — tych, którzy zmienili zachowanie w wyniku wdrożenia. Jeśli compliance jest niskie (np. 30% korzysta z konsolidacji), ITT będzie zaniżony w 3 razy w porównaniu do rzeczywistego efektu dla użytkowników usługi. Ważne jest raportowanie obu wskaźników: ITT dla prognozy ogólnego efektu biznesowego przy rozszerzeniu, LATE dla zrozumienia wartości dla konkretnego segmentu podejmującego decyzję o korzystaniu.