질문에 대한 답변

이커머스에서 전통적인 가격 책정 방법은 무료 배송 기준 변경을 평가하기 위해 간단한 상관 분석이나 짧은 A/B 테스트에 의존해 왔습니다. 그러나 인과 추론 이론(Causal Inference)의 발전으로 인해, 전체 고객 기반에 대한 배송 정책의 급격한 변경이 자기 선택의 내생성과 시간적 동적 문제를 야기한다는 것이 명백해졌습니다. 현대의 제품 분석은 Synthetic Control Method (SCM) 및 **Bayesian Structural Time Series (BSTS)**와 같은 준실험적 방법을 적용할 것을 요구하는데, 이는 경제 정책을 평가하기 위해 개발되었지만 높은 변동성을 가진 디지털 제품에도 성공적으로 적용되었습니다.

무료 배송 기준을 높이면 국소적 평균 효과 영향(LATE)의 식별에 복합적인 문제가 발생합니다. 구매 의지가 높은 사용자는 행동을 변경(기준까지 추가 구매)하는 반면, 한계 사용자는 구매를 미루거나 경쟁자로 이동합니다. 전통적인 사전-사후 분석은 계절성, 인플레이션 효과 및 경쟁 캠페인으로 인해 왜곡된 평가를 제공합니다. 추가로, 사용자가 시간에 따라 구매를 통합하여 실제 수요 증가와 무관하게 평균 장바구니 수치의 인위적인 급증을 초래하는 межвременная замена (intertemporal substitution) 효과가 나타나기 때문에, 반응의 시간적 구조를 모델링해야 합니다.

최적의 접근법은 사용자 집단의 집계 수준에서 Synthetic Control Method와 한계 소비자에 대한 국소 효과 평가를 위한 **Regression Discontinuity Design (RDD)**의 조합입니다. SCM은 비슷한 역사적 동적을 가진 지리적 지역 또는 세그먼트의 가중 조합을 구축하여 개입 전 목표 그룹의 추세를 모방하며, 최적화 가중치 알고리즘 Abadie-Diamond-Hainmueller를 사용합니다. RDD는 기준 근처 좁은 범위의 거래를 분석하여 순수한 자극 효과를 분리할 수 있습니다(최적 대역폭은 Imbens-Kalyanaraman 알고리즘을 통해 결정). 추가적으로, CausalImpact를 BSTS 기반으로 적용하여 합성 추세에서의 편차를 동적으로 평가하고, 통계적 유의성은 역사적 데이터에 대한 **permutation test (placebo tests)**를 통해 계산됩니다.

실제 상황

대형 패션 마켓플레이스는 러시아 전체 청중을 대상으로 무료 배송 기준을 1500₽에서 2500₽로 인상하기로 결정했습니다. 제품 팀은 첫 두 주 동안 평균 장바구니가 22% 증가한 것을 기록했지만, CFO는 고객 이탈과 향후 판매의 잠재적 카니발리제이션을 걱정하며 이 효과의 지속 가능성을 의심했습니다. 분석가는 시즌 간 세일 및 동시에 시작된 다른 업체의 배송 광고 캠페인과 같은 외부 충격의 영향을 분리하여 진짜 인과 효과를 파악해야 했습니다.

첫 번째 고려된 방법은 변경 전후 30일 동안의 메트릭을 t-테스트를 사용하여 비교하고 백분율로 uplift를 계산하는 것입니다. 장점: 하루 만에 최대 실행 속도 및 통계에 대한 깊은 이해 없이 고위 경영진에게 높은 인지도. 단점: 상승 시즌 추세(봄 컬렉션 시작)의 완전한 무시, 외부 충격(경쟁자의 광고 캠페인)에 대한 통제 부족 및 인트라바스킥 효과를 평가할 수 없어 효과가 40-60% 과대 평가될 수 있습니다.

두 번째 방법은 기준이 변하지 않는 지역(예: 물류 제한이 있는 외곽 지역)을 통제 그룹으로 사용하여 Geographic Difference-in-Differences를 적용하는 것입니다. 장점: 자연스러운 변동성과 고정 효과를 통해 지역 가격 민감도의 차이를 포착할 수 있는 능력. 단점: 도시 간 사용자 이주로 인해 평행 추세(parallel trends) 가정이 심각하게 위반될 수 있으며, 수도와 지역 간 경쟁 환경의 상당한 차이로 인해 통제 그룹이 체계적으로 비교할 수 없게 됩니다.

세 번째 방법은 역사적 구매 빈도와 평균 장바구니를 기준으로 한 사용자 집단을 수준에서 형성하여 Synthetic Control Method를 사용하는 것입니다. 장점: 시즌성, 요일 및 추세를 고려한 최적의 가중치 세트를 생성하며, 전처리 기간의 적합도 품질을 시각적으로 유효성 검증할 수 있습니다. 단점: 데이터의 길고(최소 10-15 기간 필요) 구조적 분열(regime switch)에 민감하며, 비즈니스를 위한 가중치 해석의 복잡함이 있습니다.

결국, SCM을 사용하여 수익에 대한 전체 영향을 평가하고, 2300-2700₽ 범위에서 한계 사용자의 영향을 평가하기 위해 국소 2차 다항식의 RDD를 선택했습니다. 이를 통해 "추가 구매"(basket augmentation) 효과와 "이탈"(churn) 효과를 분리하고, CausalImpact에 통합된 베이esian 구조적 시계열 모델(BSTS)을 통해 시즌성을 정확히 반영했습니다.

최종 결과는 관찰된 장바구니의 22% 증가가 약 두 배 과장된 것으로 나타났습니다: 진짜 인크리멘탈 효과는 11%였으며, 이 중 6%는 수요의 시간적 이동(intertemporal substitution)에 해당하고, 5%는 실제 장바구니 크기의 증가에 해당했습니다. 분석 결과, 배송에 민감한 사용자 세그먼트(전체 15%)가 8%의 높은 이탈률과 12%의 주문 빈도 감소를 나타내는 것으로 나타나, 정책을 수정하여 높은 환불 이력을 가진 낮은 장바구니 세그먼트에 대한 1990₽의 하이브리드 기준을 도입하여 제한 효과를 줄였습니다.

후보자들이 자주 간과하는 점

사용자가 전략적으로 전환을 미루는 경우 장바구니 축적 효과(cart pooling) 및 구매의 межвременная замена를 평가할 때 어떻게 고려할 수 있습니까?

답변: 의사 결정의 시간 구조를 survival analysis(비례 위험의 콕스 모델) 또는 세션 간 시간 분석(inter-purchase time)으로 모델링해야 합니다. 핵심 메트릭은 점 증대가 아니라 장바구니의 현재 금액과 임계값까지의 거리에 따라 구매의 hazard rate 변화를 추적하는 것입니다. 추가로 기준에 도달하기 위해 추가 구매를 한 사용자의 집단을 분석하여 14일 이내에 반환 비율이 증가하는지를 확인해야 하며(반환 카니발리제이션), 이는 GMV 메트릭을 왜곡하고 모델에서 return rate를 조정할 필요가 있습니다.

표준 신뢰 구간(confidence intervals)이 Synthetic Control Method에 부적절한 이유와 이 방법론에서 인과 효과의 통계적 유의성을 어떻게 평가해야 하는가?

답변: SCM에서의 평가는 기증 단위의 가중치 적합 프로세스와 샘플의 유한성으로 인해 inferential uncertainty에 영향을 받으며, 이는 관찰 간 독립성에 대한 고전적인 빈도 통계의 가정을 위반합니다. 올바른 접근법은 **permutation test (placebo test)**로, 동일한 SCM 알고리즘을 적용하여 각 기증 단위에 더미 처리를 하여(pretending they received the treatment) 경험적 placebo 효과의 분포를 생성하는 것입니다. 효과는 처리 단위의 post/pre-RMSPE 비율이 placebo 분포의 95번째 백분위수를 초과하는 경우, 5% 수준에서 통계적으로 유의하다고 간주됩니다. 이는 Abadie, Diamond 및 Hainmueller(2010, 2015)의 작업에서 공식화되었습니다.

Causal Impact 또는 Synthetic Control을 사용할 때 배송 기준 변경의 효과를 동일한 시점의 트래픽 품질 변화 또는 경쟁 활동으로부터 어떻게 분리할 수 있습니까?

답변: 모델에 개입 영향을 받지 않는 covariates(처리가 되지 않은 교란 변수)가 포함되고, 그러나 목표 메트릭과 상관관계가 있는 것이 매우 중요합니다 — 예를 들어, 경쟁 사이트 방문(예: SimilarWeb 또는 패널 데이터), 지역의 전체 전자상거래 시장 규모 또는 유기적 트래픽의 CTR 등입니다. CausalImpact의 토대가 되는 베이esian 구조 BSTS 내에서 이러한 변수는 상태 공간 모델에서 회귀 변수로 입력되어 일반적인 충격을 고립시킵니다. 또한 개입 전 예측 변수와 결과 간에 Granger causality를 확인하고, "처리" 날짜를 역사적 기간으로 이동하여 placebo-in-time 테스트를 수행하여 잘못된 경고가 없음을 확인해야 합니다.