질문에 대한 답변

역사적으로 로열티 프로그램의 평가는 참가자와 비참가자의 평균 장바구니 금액을 단순 비교하는 데 기초했으며, 이는 selection bias로 인해 효과를 과대 평가하게 됩니다. 현대의 제품 분석은 사용자가 관찰 가능한 특성(예: planned purchase volume)을 기반으로 프로그램에 스스로 선택적으로 참여하는 상황에서 진정한 인과적 효과를 분리해야 합니다. 주요 문제는 프로그램의 효과를 집단 간의 기존 차이와 분리하고 보너스의 적립과 사용 사이의 시간 지연을 올바르게 처리하는 것입니다.

해결책으로는 **Propensity Score Matching (PSM)**과 **Difference-in-Differences (DiD)**의 조합을 사용할 필요가 있습니다. 첫 번째 단계에서는 출시 전의 공변량(구매 이력, 인구 통계, 참여도)을 기반으로 프로그램 참여 확률 모델을 구축합니다. 사용자는 가장 가까운 이웃이나 가중치(IPW)에 따라 매칭되어 관찰 가능한 특성의 분포를 균형있게 맞춥니다. 두 번째 단계에서는 사용자를 기준으로 고정 효과와 시간의 DiD를 적용하며, 기간은 캐시백 활성화 순간을 기준으로 분리된 버킷으로 나뉩니다(이벤트 연구 설계). 이는 일부 사용자가 일주일 후 보너스를 활성화하고, 일부는 한 달 후 활성화하는 것을 고려하여 효과의 동태를 추적할 수 있게 해줍니다. 캔니발리제이션(구매의 시간적 전이)을 통제하기 위해 의존 변수의 지연을 포함하고, Survival Analysis를 통해 반복 관찰을 다르게 한 코호트를 분석합니다.

실제 사례

우리는 사용자가 프로필에서 옵션을 활성화해야 하는 전자상거래 마켓플레이스에 5% 누적 캐시백을 출시했습니다. 한 달 후 지표는 참가자들 사이의 구매빈도가 40% 증가했다고 보여주었지만, 비즈니스는 프로그램 참여자가 본래 충성도 높은 사용자일 것이라 가정하여 인과관계에 의문을 제기했습니다. 문제는 보너스를 적립한 후 14일이 지나야만 사용할 수 있었기 때문에 세 번째 주에 활동이 인위적으로 폭증하는 현상이 발생했습니다.

첫 번째 고려안은 캐시백 접근을 위한 강제 랜덤화가 포함된 전통적인 A/B 테스트였습니다. 장점: 인과적 효과의 청정한 평가. 단점: 법적 제한(동의 없이 재정 프로그램을 강요할 수 없음)과 행동 왜곡(캐시백 이용 불가에 대해 알게 된 사용자들이 경쟁업체로 떠나게 됨) 등으로 인해 이 옵션은 윤리적 및 비즈니스 위험 때문에 기각되었습니다.

두 번째 옵션은 t-test에 따른 간단한 '참가자 vs 비참가자' 비교로, 표본 크기에 따른 수정이 포함되었습니다. 장점: 구현 속도와 보고의 단순성. 단점: 생존 편향(survivorship bias)과 내생성 무시; 분석 결과, 참가자는 활성화 이전에 구매 빈도가 2.3배 더 높아 비교가 부정확했습니다.

세 번째 옵션은 캐시백 활성화 자격을 자동으로 주는 첫 구매 금액의 **Regression Discontinuity Design (RDD)**이었습니다. 장점: 데이터 포인트 주위의 로컬 랜덤성이 경계에서의 경계 사용자에 대한 비편향된 추정을 보장합니다. 단점: 평가는 협소한 그룹에 대해서만 유효하며(local average treatment effect), 우리 경우에는 경계가 없었습니다—프로그램은 모두에게 즉시 빈번히 제공되었습니다.

선택된 해결책은 합성 통제를 위한 Propensity Score Matching과 시간 지연을 고려한 Cohort-based Difference-in-Differences의 조합이었습니다. 우리는 15개의 변수를 기준으로 참여자와 비참여자를 매칭한 다음, 주 및 사용자에 대한 고정 효과를 가진 DiD를 적용했습니다. 14일의 지연을 고려하기 위해 우리는 활성화 시점을 기준으로 이진화한 Event Study를 구성하여 진정한 증가와 구매 이동을 분리할 수 있었습니다. 결과: 순증가 효과는 구매 빈도에서 +12%, 평균 장바구니 금액에서 +8%로 나타났으며, 캔니발리제를 차감한 수치였고, 원 데이터에서는 +40%로 나타났습니다. 프로그램은 성공적으로 인정되었지만, ROI에 대한 기대는 훨씬 더 겸손했습니다.

후보자들이 자주 간과하는 점

보너스 적립과 사용 사이의 지연이 있는 경우, 프로그램 효과를 시간적 구매 전이(intertemporal substitution)와 올바르게 구별하려면 어떻게 해야 할까요?

답변은 Dynamic Treatment Effects에 대한 이해를 요구합니다. 평균 효과뿐만 아니라 이벤트 연구 사양을 통해 그 동태를 모델링할 필요가 있습니다: Y_it = α_i + γ_t + Σ_k β_k · D_i,t-k + ε_it, 여기서 D_i,t-k는 활성화 시점에 대한 더미 변수입니다. 활성화 이전의 β_k 계수가 유의미하게 0과 다르지 않을 경우(parallel trends test)와 활성화 이후에 기본 수준 이하로 감소하는 폭발적 상승을 보인다면 이는 캔니발리제이션의 징후입니다(borrowed demand). 순 LTV 효과를 평가하기 위해서는 시간을 기준으로 효과를 통합하고, 유사한 사전 궤적을 가진 기부 유닛을 통해 구축된 Synthetic Control Method와 대조하여 비교해야 합니다.

개별 랜덤화와 함께 하는 전통적인 A/B 테스트가 캐시백 시스템에서 SUTVA 가정을 위반할 수 있는 이유는 무엇인가요?

**SUTVA (Stable Unit Treatment Value Assumption)**는 하나의 사용자가 다른 사용자의 행동에 영향을 미치는 경우에 위반됩니다. (예: 가족 계정이나 기업 구매). 남편이 캐시백을 활성화하고 가족을 위해 구매를 할 경우, 아내는 개인 구매를 중단할 수 있으며, 개별 랜덤화는 왜곡된 평가를 대하게 됩니다. 가정 내에서 Cluster Randomization을 적용하거나 Spillover Effects 분석 방법을 사용해야 하며, 예를 들어 도네이션 값을 활성화하는 도구 변수(클러스터간 변이가 있는 기준값)를 사용하는 **Two-Stage Least Squares (2SLS)**가 있습니다.

시즌성이 있는 고객 생애 단계(user lifetime stage)별로 효과 이질성을 어떻게 고려해야 할까요?

후보자들은 종종 캐시백 효과가 신규 사용자(초기 동기 효과)와 성숙기 사용자(유지 효과)에서 다르다는 것을 간과합니다. **Triple Difference (DDD)**를 적용할 필요가 있습니다: 프로그램 효과 = (Y_post - Y_pre) for treatment - (Y_post - Y_pre) for control, tenure (신규/성숙) 세그먼트별로 차별화됩니다. 이때 시즌성은 세그먼트와의 상호작용을 통해 월 고정 효과를 통해 통제됩니다. 대안으로는 Heterogeneous Treatment Effects를 통해 Causal Forests 또는 Meta-learners(S-learner, T-learner)를 사용하여 긍정적인 CATE (Conditional Average Treatment Effect)가 있는 세그먼트를 발견하고, 프로그램 타겟팅 최적화하여 제로 또는 부정적 효과를 가진 사용자에 대한 비용을 피할 수 있게 합니다.