Odpowiedź na pytanie

Kontekst historyczny: Funkcja podziału płatności (split payment) tradycyjnie dominowała w branżach podróżniczych i usługach B2B, ale jej masowe wprowadzenie w klasycznym e-commerce (elektronika, moda) rozpoczęło się stosunkowo niedawno w związku z wzrostem płatności mobilnych. Kluczowa złożoność analityczna polega na tym, że użytkownicy samodzielnie wybierają się do klastrów społecznych (grupy młodzieżowe, rodziny), gdzie decyzja o zakupie podejmowana jest wspólnie, co powoduje interferencję między grupą testową a kontrolną i sprawia, że standardowe testy A/B są nieważne.

Określenie problemu: Konieczne jest odizolowanie czystego efektu przyczynowego od split payment na metryki ekonomiki jednostkowej, oddzielając go od (1) sezonowych wahań popytu na drogie produkty, (2) naturalnej tendencji do wzrostu średniego rachunku w młodych kohortach, (3) endogenezy więzi społecznych (bogaci przyjaciele zapraszają bogatych przyjaciół) oraz (4) stopniowego wprowadzania w kategoriach, co zniekształca przekroje czasowe.

Szczegółowe rozwiązanie: Optymalne podejście — kombinacja Difference-in-Differences (DiD) z losowaniem klastrowym na poziomie „grafu społecznego” (a nie użytkownika), uzupełniona o Fuzzy Regression Discontinuity Design (RDD) według progu aktywacji funkcji (np. 30 000 ₽). Aby skorygować endogenezę więzi społecznych, stosuje się podejście IV (Instrumental Variables), gdzie instrumentem jest numer porządkowy kategorii w planie wprowadzania (exogenous variation), poprzedzający rzeczywiste użycie funkcji. Do oceny heterogeniczności efektu w segmentach stosuje się Causal Forest, który pozwala na wyodrębnienie warunkowych średnich efektów (CATE) dla różnych klastrów użytkowników. Metryki są oceniane w dwóch trybach: Intent-to-Treat (ITT) — efekt posiadania przycisku oraz Treatment-on-the-Treated (TOT) — efekt rzeczywistego użycia, co wymaga prawidłowego przetwarzania non-compliance poprzez Two-Stage Least Squares (2SLS).

Przykład z życia

Kontekst: Duża platforma e-commerce uruchamia funkcję „Podziel się koszykiem” dla zakupów powyżej 50 000 ₽, pozwalając dwóm użytkownikom podzielić płatność po równo. Pilot uruchomiony w kategorii „Smartfony”, planowane rozszerzenie na „Laptopy”. Po pierwszym miesiącu handlowym obserwowany jest wzrost średniego rachunku o 25% w kategorii testowej, ale analityk podejrzewa, że 70% użytkowników funkcji to studenci w wieku 18-22 lat, którzy historycznie mieli niski ARPU, ale w pilocie zaczęli kupować iPhone'a wspólnie, tworząc efekt „złożonego zakupu”.

Opcja rozwiązania 1: Proste porównanie Before/After (test t na średnich). Zalety: Natychmiastowa realizacja, nie wymaga skomplikowanej infrastruktury. Wady: Całkowicie ignoruje sezonowość (początek roku szkolnego zwiększa popyt na gadżety), ogólne trendy wzrostu handlu mobilnego i samowybór wysokich zamówień do progu 50 000 ₽. Wynik jest zawyżony o 15-18 punktów procentowych.

Opcja rozwiązania 2: Difference-in-Differences z kategorią „Akcesoria” jako kontrolą. Zalety: Eliminacja ogólnych trendów czasowych, prosta interpretacja. Wady: Naruszenie założenia o równoległych trendach — kategoria smartfonów ma inną elastyczność popytu i inną dynamikę cen niż akcesoria. Ponadto istnieje spillover effect: użytkownicy mogą kupić smartfona wspólnie, ale etui — już bez podziału płatności w kategorii kontrolnej, co zanieczyszcza grupę kontrolną.

Opcja rozwiązania 3: Regression Discontinuity Design (RDD) dostosowane do progu 50 000 ₽. Zalety: Wykorzystuje exogenous threshold dla quasi-eksperymentu, ocenia lokalny efekt (LATE) dla zamówień przy progu. Wady: Nie można jej stosować na całym zakresie cen, ignoruje zamówienia na 80 000 ₽ (tam efekt może być inny). Ponadto, charakterystyka fuzzy — użytkownicy mogą manipulować ceną (dodając akcesorium), aby spełnić warunki.

Wybrane rozwiązanie i uzasadnienie: Zrealizowano hybrydowe podejście: Fuzzy RDD dla zamówień w zakresie 45 000–55 000 ₽ (czysta identyfikacja przy progu) + DiD dla ogólnego trendu z zastosowaniem Synthetic Control Method (SCM) — tworzenie ważonej sztucznej kontroli z innych kategorii, odwzorowującej dynamikę smartfonów przed wdrożeniem. Dla efektów społecznych zastosowano klasteryzację na poziomie device ID (identyfikacja urządzeń używanych przez grupę ludzi) jako proxy dla więzi społecznych.

Końcowy wynik: Rzeczywisty inkrementalny efekt wyniósł +8,4% do średniego rachunku (zamiast obserwowanych +25%), przy czym konwersja w segmencie 18-25 lat wzrosła o 12%, ale częstotliwość zakupów zmniejszyła się o 5% w następnym kwartale (efekt „odkładania” zakupów do momentu zebrania grupy). Funkcja została wprowadzona tylko w kategoriach z rachunkiem 40 000–70 000 ₽, gdzie efekt jest statystycznie istotny.

Co często pomijają kandydaci

1. Problem interferencji (zanieczyszczenia) przez grafy społeczne: użytkownik z grupy kontrolnej może być zaproszony przez przyjaciela z grupy testowej do wspólnego zakupu.

Odpowiedź: W klasycznym teście A/B zakłada się Stable Unit Treatment Value Assumption (SUTVA) — niezależność jednostek. W przypadku split payment jest ona naruszona, ponieważ treatment (obecność przycisku) jednego użytkownika wpływa na zachowanie innego (zaproszenie). Prawidłowe rozwiązanie — losowanie klastrowe (cluster randomization) na poziomie komponentów społecznych (grafy przyjaźni), lub analiza efektów sieciowych za pomocą exposure mapping, gdzie exposure definiowane jest jako odsetek przyjaciół z dostępem do funkcji. Alternatywnie — zastosowanie bipartite graph clustering do podziału grafu na izolowane klastry przed eksperymentem.

2. Różnica między efektami ITT (Intent-to-Treat) a TOT (Treatment-on-the-Treated) w warunkach niskiego wskaźnika penetracji funkcji.

Odpowiedź: Wiele osób analitycznych błędnie ocenia efekt dla wszystkich, którzy widzieli przycisk (ITT), jako efekt dla tych, którzy z niego skorzystali (TOT). Jeśli tylko 10% osób widzących przycisk klika „Podziel się”, to ITT zaniża prawdziwy efekt dziesięciokrotnie. Aby ocenić TOT, konieczne jest podejście IV, gdzie instrument $Z$ — fakt wyświetlenia przycisku (randomized), a endogenna zmienna $D$ — fakt użycia. Ocena 2SLS daje Local Average Treatment Effect (LATE) dla kompliantów — tych, którzy skorzystaliby z funkcji, tylko jeśli jest ona dostępna. Jest to krytyczne dla przypadku biznesowego: efekt dla „skłonnych do wspólnego zakupu” jest 3-4 razy wyższy niż średni efekt.

3. Długoterminowa kanibalizacja i forward-looking bias: split payment może nie tworzyć nowego popytu, a jedynie redystrybucję przyszłych indywidualnych zakupów na zbiorowy obecny.

Odpowiedź: Kandydaci często patrzą tylko na natychmiastowe metryki transakcji. Niezbędna jest analiza kohortowa z horyzontem 90+ dni, porównująca częstotliwość zakupów (purchase frequency) użytkowników, którzy skorzystali z split payment, przeciwko matched-kontrolowi. Wymaga to zbudowania propensity score matching (PSM) na podstawie charakterystyk przed-treatment (historia rachunków, sezonowość). Dodatkowo ważne jest sprawdzenie compositional shift — czy asortyment nie przesunął się w stronę produktów o wysokiej marży, ale niskiej powtarzalności zakupów (np. konsole zamiast gier), co tworzy iluzję wzrostu rachunku przy spadku LTV.