Odpowiedź na pytanie

Historycznie usługi dostawy jedzenia ewoluowały od modelu „dostawa w ciągu 60 minut” do hiperlokalnej logistyki z dokładnymi godzinami dostaw. Ten przejście tworzy problem metodologiczny: restauracje z pierwotnie wysoką efektywnością operacyjną (krótki czas przygotowania, bliskość do obszarów o dużej gęstości zamówień) samo-selekcjonują się w pierwszych falach wdrożenia, podczas gdy problematyczne punkty łączą się później lub wcale. Bezpośrednie porównanie konwersji przed i po wdrożeniu prowadzi do zawyżonej oceny efektu, ponieważ ignoruje systematyczne różnice między wczesnymi adoptersami a spóźnionymi uczestnikami.

Problem się zaostrza przez geograficzną klasteryzację: restauracje w centrum miasta, gdzie popyt jest wysoki i stabilny, często uzyskują dostęp do funkcji wcześniej niż peryferyjne punkty z niestabilnym popytem. Sezonowe wahania (np. święta noworoczne lub letni spadek) dodatkowo zniekształcają obserwowane trendy, czyniąc niemożliwym wykorzystanie prostych różnic średnich między grupami.

Aby wyizolować prawdziwy efekt, należy zastosować kombinację Difference-in-Differences (DiD) z efektami stałymi restauracji i czasu, uzupełnioną Propensity Score Matching (PSM) w celu wyeliminowania błędów samo-selekcji. Na pierwszym etapie buduje się model prawdopodobieństwa połączenia z systemem dokładnych slotów na podstawie kowariantów (historyczny czas dostawy, ocena, gęstość kurierów w promieniu), a następnie każdej przetworzonej restauracji przyporządkowuje się kontrolnego „bliźniaka” z grona jeszcze niepołączonych. Następnie ocenia się podwójną różnicę w dynamice konwersji między tymi parami, co pozwala kontrolować nieobserwowane stałe cechy (np. jakość kuchni). Aby uwzględnić korelację przestrzenną, stosuje się klasteryzację błędów standardowych na poziomie jednostek geograficznych lub wykorzystuje się Synthetic Control Method, która tworzy ważoną kombinację niepołączonych restauracji, imituającą kontrfaktyczny scenariusz dla jednostek leczonych.

Sytuacja z życia

W największym krajowym aggregatorze dostaw planowano wdrożenie funkcji „Dostawa w wybranym 15-minutowym interwale” dla premialnych restauracji. Pilotaż rozpoczął się w trzech miastach, gdzie jako pierwsze połączyły się 15% partnerów z historycznie niskim czasem gotowania i wysokimi ocenami. Po miesiącu analitycy odnotowali wzrost konwersji o 22% w połączonych restauracjach, ale biznes wątpił, czy jest to efekt funkcji, czy po prostu odzwierciedlenie pierwotnie wysokiej jakości tych punktów.

Rozważano trzy podejścia do oceny. Pierwsza opcja — proste porównanie średnich wartości zamówień i konwersji przed i po połączeniu — natychmiast odrzucono: ignorowała ona trendowy wzrost rynku i sezonowe ożywienie popytu w okresach świątecznych, co dało zawyżoną ocenę o +22%, ale nie uwzględniało, że te restauracje rosły szybciej niż rynek o 8-10% nawet bez nowej funkcji.

Druga opcja — analiza kohortowa porównująca użytkowników, którzy widzieli dokładny czas dostawy, z tymi, którzy widzieli standardowe „40-50 minut” — również okazała się problematyczna: użytkownicy w obszarach z premiowymi restauracjami mieli pierwotnie wyższe średnie wartości zamówień i lojalność, co wprowadzało błąd selekcji (selection bias). Próba przycięcia próby według geografi doprowadziłaby do utraty 40% danych i obniżenia mocy testu.

Trzecia opcja, która została wybrana, obejmowała budowę Synthetic Control dla każdej połączonej restauracji na podstawie 50 niepołączonych „darczyńców” z podobną historią sprzedaży, geografią i sezonowością. Metodologia DiD była stosowana do tych ważonych syntetycznych grup z dodatkową kontrolą za warunki pogodowe (które wpływały na popyt na dostawę) i dni tygodnia. To pozwoliło wyizolować czysty efekt o +9.3% w konwersji i +14% w częstotliwości powtarzających się zamówień, przy czym ujawniono heterogeniczność: efekt był istotny tylko dla restauracji z czasem gotowania poniżej 12 minut, podczas gdy dla wolno działających kuchni dokładne okno dostawy nie dawało statystycznie istotnego wzrostu, ponieważ wąskim gardłem pozostawała nie logistyka, a produkcja.

Co kandydaci często pomijają

Jak zweryfikować spełnienie założenia równoległych trendów (parallel trends) w DiD, gdy wczesni adopcje systematycznie różnią się od grupy kontrolnej?

Kandydaci często twierdzą, że stosują DiD bez weryfikacji kluczowego założenia: przed wdrożeniem trendy metryk w grupach treatment i control powinny być równoległe. W warunkach samo-selekcji to założenie jest zazwyczaj naruszane. Należy przeprowadzać event study (dynamiczny DiD) z wskaźnikami prowadzącymi (lead indicators) przez kilka tygodni przed wdrożeniem. Jeśli współczynniki przy tych wskaźnikach są statystycznie istotne i różne od zera, trendy nie są równoległe i potrzeba zastosowania Augmented DiD lub dodania interakcji trendowych (interactions with time trends), aby kontrolować dla różnicujących trendów. Można również zastosować model Change-in-Changes, który jest mniej wrażliwy na naruszenia równoległości, ale wymaga monotoniczności rozkładu wyników.

Jak uwzględnić efekty spillover (spillover effects) przestrzenne, gdy wprowadzenie dokładnej dostawy w jednym rejonie wpływa na zachowanie użytkowników w sąsiednich rejonach bez funkcji?

Analizy często ignorują, że użytkownicy mogą migrować między obszarami lub zmieniać swoje preferencje, dowiadując się o istnieniu funkcji od znajomych. To tworzy pozytywny błąd w grupie kontrolnej (SUTVA violation). W celu diagnostyki należy zbudować Spatial DiD, uwzględniając w modelu opóźnienia przestrzenne (spatial lags) koncentracji połączonych restauracji w promieniu 1-2 km od każdego punktu. Jeśli współczynnik przy przestrzennym opóźnieniu jest istotny, istnieją efekty sieciowe. W takim przypadku klasyczna ocena DiD daje zaniżoną ocenę efektu (attenuation bias) i należy zastosować Two-Stage Least Squares (2SLS) z instrumentami na poziomie administracyjnych ograniczeń (np. gotowość techniczna konkretnej hurtowni do sortowania według slotów czasowych), które wpływają na połączenie restauracji, ale nie korespondują bezpośrednio z popytem w sąsiednich rejonach.

Dlaczego nie można stosować prostego Propensity Score Matching bez dalszego DiD, i jakie błędy występują przy ocenie długoterminowego efektu (dynamic treatment effects)?

Początkujący specjaliści często stosują PSM jako samodzielną metodę, uzyskując porównywalne grupy w momencie t0, ale następnie porównują je prostymi średnimi w t1. To ignoruje czasową strukturę danych i możliwe wstrząsy czasowe. Prawidłowe podejście to PSM-DiD, gdzie dopasowanie jest stosowane tylko do wyboru grupy kontrolnej, a sama ocena efektu odbywa się przez różnicę różnic. Ponadto, kandydaci pomijają problem efektów dynamicznych: efekt dokładnej dostawy może wzrastać z czasem (użytkownicy przyzwyczajają się do funkcji) lub odwrotnie, znikać (efekt nowości). W tym celu należy zbudować staggered DiD z wieloma okresami wdrożenia i stosować nowoczesne korekty w celu wyeliminowania błędów powstających przy heterogenicznych efektach w czasie (np. metoda Callaway & Sant'Anna lub Sun & Abraham do prawidłowej agregacji efektów kohort), ponieważ standardowy dwuperyodowy DiD w takim przypadku daje zniekształconą ocenę średniego efektu dla przetworzonych (ATT).