질문에 대한 답변

역사적 맥락

전자 상거래의 진화는 Click&Collect와 픽업 포인트(Pickup Points, ПВЗ)가 최후의 배송 비용을 줄이는 도구로 발전할 수 있는 옴니채널 물류의 발전으로 이어졌습니다. 그러나 디지털 기능과는 달리, 이러한 변화는 지리적으로 불연속적이며 self-selection 효과의 영향을 받습니다 — 시간 가치를 중시하는 고객은 ПВЗ를 무시하는 반면, 경제적인 사용자들은 택배 배송에서 픽업으로 이동합니다. 전통적인 사용자 수준 A/B 테스트는 위치 수준에서의 무작위화가 없고 마이크로 지역 내 네트워크 효과가 존재하기 때문에 불가능합니다.

문제 제기

분석은 세 가지 주요 도전에 직면합니다. 첫째, 위치의 내생성: 포인트는 주문 밀도가 높은 지역에서 열리므로 역 인과 관계(높은 수요 → ПВЗ 개설)가 발생합니다. 둘째, 카니발리제이션: 일부 사용자는 총 지출 증가 없이 배송에서 픽업으로Receiving 방법을 변경합니다. 셋째, SUTVA 위반(Stable Unit Treatment Value Assumption): 한 사용자가 집 근처에 포인트가 열리는 것을 보고 소셜 미디어를 통해 이웃을 유도하여 “처리된” 마이크로 지역과 “통제된” 마이크로 지역 간의 교차 오염을 초래합니다.

상세한 해결책

추천하는 접근 방법은 다단계 준실험적 평가 전략입니다. 매크로 수준(도시)에서 Synthetic Control Method를 적용하여 ПВЗ가 없는 “기부 도시들의” 가중 조합을 만들어 실험 도시의 개입 전 메트릭 동향을 최대한 모방합니다. 가중치는 계절성, 거시 경제 지표 및 카테고리 구조를 포함하여 개입 전 데이터(12-18개월)를 기반으로 볼록 최적화를 통해 조정됩니다.

마이크로 수준(사용자)에서는 관찰된 특성을 통제하기 위해 Differences-in-Differences와 연결 점수 매칭(Propensity Score Matching)을 사용하지만, Instrumental Variables (IV) 도입이 핵심입니다. 도구로는 사용자 집에서 가장 가까운 ПВЗ까지의 최단 거리(도로 네트워크를 기준으로)를 사용합니다. 이 변수는 픽업 선택과 상관관계가 있지만 잠재적인 구매 성향과는 상관관계가 없어 순수한 **Local Average Treatment Effect (LATE)**을 고립합니다.

하이브리드 주문(중간 창고)을 고려하기 위해 CausalForest 모델을 구축하여 효과를 서브 집단으로 나누어 immediate adopters, delayed users, never-takers로 나뉩니다. 마지막으로, 클러스터화된 표준 오류(clustered standard errors)를 통해 지역 수준에서의 클러스터링을 보정하고 500미터 반경 내에서의 spillover 효과에 대한 민감도를 분석합니다.

실제 상황

맥락: 대규모 패션 마켓플레이스는 물류 비용을 25% 절감하기 위해 중간 크기의 15개 테스트 도시에서 120개의 Pickup Points 네트워크를 시작할 계획을 세웠습니다. 경영진은 ПВЗ가 기존 고객의 구매 빈도를 증가시키는지 아니면 단순히 택배에서 트래픽을 전환하는지 평가할 것을 요구했습니다.

옵션 1: “ПВЗ가 있는 도시 대 ПВЗ가 없는 도시” 간의 단순 비교 장점: 최대한 간단한 구현, 역사 데이터가 필요 없음, 비즈니스에 대한 신속한 응답. 단점: ПВЗ가 있는 도시는 본질적으로 더 부유하고 활동적입니다(선택 편향), 시즌성과 경쟁 환경의 차이가 효과 평가를 최대 40% 왜곡할 수 있습니다. 결과적으로 결과는 확장성에 대해 신뢰할 수 없습니다.

옵션 2: 테스트 도시에서의 Before-After 분석 장점: 도시 간 차이를 통제하고 트렌드의 변화를 중심으로 합니다. 단점: 전자 상거래의 성장 일반 트렌드를 고려하지 않음(팬데믹 해에 기본 트렌드는 연평균 +30%가 될 수 있으며, 최종 지점은 판촉 행사와 일치할 수 있어 그림을 왜곡할 수 있습니다).

옵션 3: 도시 수준의 Synthetic Control + 사용자 수준의 IV 장점: Synthetic Control은 ПВЗ가 없었다면 “무엇이 있었을까”라는 반사실적 시나리오를 제공하며, 거시적인 트렌드에 대한 교정을 하며, Instrumental Variables(포인트까지의 거리와 “게으른” 사용자를 위한 임의 충격)는 단순한 상관관계와 인과 효과를 고립합니다. 단점: 각 도시마다 최소 12개월의 개입 전 데이터가 필요하고, 비기술 스테이크홀더들에게 LATE 해석의 복잡함, 계산적으로 비용이 많이 듭니다.

선택된 솔루션 및 이유 우리는 도시 간 검증을 위해 Synthetic Control과 사용자 지표를 위한 지리적 도구로 Two-Stage Least Squares (2SLS) 조합을 선택했습니다. 이는 인프라 존재 효과(structural effect)를 자발적 선택 효과(behavioral self-selection)와 구분할 수 있게 해주었습니다. 특히, 새로운 포인트에서 200미터 이내에 거주하는 “게으른” 사용자도 경제적 특성을 변경하지 않고 더 자주 구매하기 시작함을 입증하는 것이 중요했습니다.

최종 결과 평가는 ПВЗ 접근 가능 지역에서 사용자 간의 구매 빈도가 12% 증가한다는 실제 증가를 나타냈습니다(ITT), 이 때 배송 카니발리제이션은 18%에 달했지만, 배송 비용을 없앰으로써 평균 장바구니 금액은 8% 증가하여 보완되었습니다. 그러나 효과는 이질적이었으며, “신발” 및 “액세서리” 카테고리에서만 발현되었고, “가전제품”에는 유의미한 효과가 나타나지 않았습니다. 이는 포인트 개설 전략을 패션 몰에 중점을 두고 조정하고 가전제품이 우세한 주택 밀집 지역에서 포인트를 제안하는 것을 포기할 수 있게 해주었습니다.

후보자들이 자주 놓치는 것들

마케팅 캠페인과 동시에 포인트를 오픈하는 경우, ПВЗ 오픈의 효과와 마케팅 캠페인의 효과를 어떻게 구별할 수 있나요?

답변: 표준 오류는 마케팅 채널을 통한 treatment contamination를 무시하는 것입니다. Difference-in-Difference-in-Differences (DDD) 방법을 사용하거나 두 개의 통제 그룹으로 샘플을 나누어야 합니다: 캠페인이 있는 도시(미디어 지원)지만 실제 ПВЗ가 없는 도시(단순한 “coming soon” 공지)와 전체 도입이 있는 도시입니다. 효과가 두 번째 그룹에서만 관찰된다면, 이는 물류의 인과적 역할을 입증하며, 커뮤니케이션이 아닌 서비스를 통한 편의성에서 비롯된 것임을 보여줍니다. 또한 brand search를 통제 변수로 모니터링하는 것이 중요합니다 — 두 그룹 모두에서 동일하게 증가하면, 테스트 그룹의 수익 증가가 사용자 편의성 때문임을 나타냅니다.

왜 단순히 ПВЗ에 대한 거리(500m 이내 vs 2km 거리)로 사용자들을 대조할 수 없는지, 인구 통계를 통제하더라도?

답변: 이것은 positivity assumption 및 selection on unobservables의 위반입니다. 쇼핑 센터 근처에 거주지를 선택하는 사용자들은(대부분 ПВЗ가 위치한 곳), 외부 지역의 주민들과 소득, 고용 및 생활 방식에서 체계적으로 다릅니다. Propensity Score Matching을 통해도 hidden bias가 남아 있습니다(unobserved confounders, 예: 가족 예산 계획). 올바른 접근은 배송 구역 경계 또는 행정 구역 경계를 임의 기준점으로 사용할 **Regression Discontinuity Design (RDD)**를 사용하는 것입니다, 한쪽 면의 거주지가 300미터(처리)이고 다른 쪽 면의 거주지가 900미터(통제)에 위치해 있지만, 사회경제적 특성은 동일합니다.

ПВЗ 개점과 습관 형성(behavior habit formation) 사이의 시간 지연을 어떻게 정확히 고려할 것인가? 일반적인 Attribution Window(7-30일)가 장기 효과를 과소 평가하는 경우는?

답변: 고전적인 오류는 고정된 post-period를 사용하는 것입니다. Event Study Design을 적용하여 개점 후 1, 3, 6개월 간의 효과를 별도로 모델링하는 것이 필요합니다. 이를 통해 treatment effect heterogeneity over time을 포착할 수 있으며, 종종 효과는 습관 형성이 진행됨에 따라 증가하며(learning curve) 이후 평평해집니다. 처음 ПВЗ를 사용할 때까지의 시간을 고려하기 위해 Cox Proportional Hazards 모델을 사용하고, competing risks(사용자가 적응 전에 churn할 수 있음)를 고려해야 합니다. 또한 survivorship bias를 보정하는 것도 필요합니다 — ПВЗ를 사용하기 시작한 사용자들은 본질적으로 낮은 churn rate를 가질 수 있으며, 이들을 유사한 생존 패턴을 가진 통제 그룹과 비교해야 합니다.