질문에 대한 답변

역사적으로 마케팅 캠페인은 평균 처리 효과(ATE)를 통해 평가되었으나, Causal ML의 발전은 개별 치료 효과(ITE)를 예측하는 uplift 모델로 이어졌습니다. 이곳에서의 전통적인 A/B 테스트는 역설적입니다: 모델 학습을 위해서는 모든 세그먼트에서 treated 및 control 데이터가 필요하지만, 모델을 평가하기 위해서는 적용이 필요하고, 이는 통제 그룹을 파괴합니다. 이것은 탐색과 착취(exploration-exploitation)의 딜레마를 만듭니다.

문제는 교차 오염(contamination)으로 복잡해집니다. 이 경우 테스트 그룹의 사용자 행동이 네트워크 효과나 공유 자원(예: 프로모션 코드 한도 초과)에 의해 통제를 미치는 경우가 발생합니다. 모델을 동시에 학습하고 균등 분포 또는 캠페인 없음과 비교하여 그 인크리멘털 효과를 고립할 수 있는 방법이 필요합니다.

해결책은 Two-Stage Approach에 기반합니다. 첫 번째 단계는 exploration으로 랜덤화(트래픽의 20-30%)를 통해 편향 없는 데이터를 수집하고, 모델을 학습(도구: X-learner 또는 R-learner)하여 CATE(Conditional Average Treatment Effect)를 평가합니다. 두 번째 단계는 exploitation으로, Thompson Sampling 또는 Contextual Bandits를 통해 모델로 트래픽을 점진적으로 전환시켜서 regret를 최소화합니다. 효과를 고립하기 위해 Cluster-based Randomization(지리적 클러스터에 따른 랜덤화) 또는 Switchback Testing(시간적 랜덤화)을 사용하고, 이후 **Synthetic Control Method (SCM)**를 통해 평가합니다. 품질 메트릭은 Qini-coefficient 또는 **Area Under the Uplift Curve (AUUC)**이며, 이들은 선택 편향을 제거하기 위해 **Inverse Propensity Weighting (IPW)**로 조정됩니다.

실제 상황

문제는 마켓플레이스에서 개인화된 프로모션 코드를 사용하는 캠페인을 시작할 때 발생했습니다. 제품 관리자들은 uplift 모델을 사용하여 "persuadables"(프로모션 코드가 있어야만 구매할 고객)에게만 할인 혜택을 제공하고, "sure things"와 "lost causes"를 피하려고 했습니다. 표준 A/B 테스트는 필요 데이터가 모든 세그먼트에서 프로모션 코드를 받지 못한 이들에 대해 필요했기 때문에 불가능했습니다. 그러나 프로모션 코드가 없는 50%의 사용자 유지가 수익을 심각하게 감소시켰습니다.

첫 번째 옵션은 전체 기간 동안 10%의 사용자를 완전히 통제하는 Hold-out Randomization입니다. 이 접근의 장점: ATE의 순수한 평가 및 대조를 통한 모델 학습의 가능성. 단점: 상당한 기회비용, 윤리적 갈등(투명한 기준 없이 가격 차별) 및 소규모 통제 그룹으로 인한 모델의 느린 수렴입니다.

두 번째 옵션은 트래픽 비율을 점진적으로 증가시키는 Thompson Sampling입니다. 여기에서 '바이킹'의 손은 타겟팅 전략(uplift 모델 대 랜덤)을 의미합니다. 장점: 최적의 탐색/착취 비율, 계절성에 대한 적응 및 경제적 손실 최소화입니다. 단점: 초기 단계에서 해석의 복잡성, 불행한 맥락 선택 시 지역 최적점에 빠질 위험 및 통계적 유의성을 위한 대량 트래픽 필요입니다.

세 번째 옵션은 Geo-based Synthetic Control입니다. 랜덤화가 지역별로 이루어졌습니다: 테스트 지역에서는 uplift 모델이 적용되고, 통제 지역에서는 이전 시스템이 적용됩니다. 평가는 테스트 전의 테스트 지역을 모방하는 통제 지역의 가중합을 생성하는 SCM을 통해 이루어졌습니다. 장점: 개별 랜덤화에 따른 효과 고립, 집계된 데이터 사용 및 도시 간 교차 오염의 부재입니다. 단점: 시간에 따라 지역의 안정성 요구, 소규모 지리 단위에서의 이상치에 대한 민감도 및 자주 파라렐 트렌드 가정이 높은 계절성 기간 동안 위반되는 경우가 발생합니다.

결과는: 모델로 인한 실제 인크리멘털 효과를 +12% 증가시킨 것으로 확인되었고, 프로모션 코드 비용은 35% 감소했습니다. Synthetic Control은 모델이 없었다면 테스트 지역의 트렌드가 94% 정확도로 모방된 통제의 동태를 따를 것이라고 보여주어 평가의 유효성을 확인했습니다.

후보자들이 자주 간과하는 것들

왜 단순히 프로모션 코드를 받은 사람과 받지 않은 사람(conversational data)의 전환율을 비교할 수 없고, Propensity Score Matching을 사용해도 안 되는가?

답변: Self-selection bias 및 unobserved confounders입니다. 높은 uplift-score를 가진 사용자는 관찰되지 않는 특성(예: 최근 급여 수령 또는 특정 제품 검색)에서 체계적으로 다를 수 있습니다. **Propensity Score Matching (PSM)**은 관찰된 공변량에 대해서만 보정하므로, 프로모션 코드 수령 확률과 전환율에 영향을 미치는 숨은 변수가 있을 경우 평가는 왜곡됩니다. 예를 들어, 많은 세션이 있는 적극적인 사용자가 "persuadables"로 잘못 분류될 수 있지만, 그들은 할인 없이도 구매할 수 있습니다. 초보 분석가는 예측된 uplift와 실제 전환 사이의 상관 관계는 인과 효과와 같지 않다는 것을 이해하는 것이 중요합니다 — 고립을 위해서는 랜덤화나 도구 변수(IV)가 필요합니다.

어떻게 시간 가변 공변수가 장기 학습 기간 동안 uplift 모델 평가에 영향을 미치고, 이를 어떻게 극복할 수 있는가?

답변: 장기적 학습에서는 temporal confounding이 발생합니다: 사용자 행동이 변경되며(계절성, 제품 업데이트) exploration 단계 데이터가 exploitation 시점에 오래된 데이터가 됩니다. 고전적 uplift 모델은 스테이셔너리(stationarity)를 가정하지만, 이는 드물게 사실입니다. 해결책은 adaptive experimentation을 사용하여 decaying weights를 구식 데이터에 적용하거나 online learning 알고리즘(예: Bayesian Updating)을 사용하는 것입니다. 또한, 피처 및 모델 성능에 대한 concept drift를 모니터링하기 위해 **Population Stability Index (PSI)**가 필요합니다. 초보 분석가는 종종 분기 데이터를 기반으로 모델을 학습하지만, 여섯 달 후에 적용할 때 관객의 행동 변화를 확인하지 않아 negative uplift를 초래하게 됩니다.

AUUC(Area Under Uplift Curve) 메트릭이 서로 다른 두 uplift 모델을 비교할 때 어떻게 혼란을 일으킬 수 있으며, 대안으로 무엇을 사용해야 하는가?

답변: AUUC는 인구에서 예측된 uplift의 분포에 의존하며 스케일 불변적이지 않습니다. 하나의 모델이 모든 사람에게 적은 uplift를 보수적으로 예측하고, 다른 모델이 높은 분산을 가진 공격적인 예측을 할 경우, 그들의 곡선은 교차하고 AUUC가 애매한 결과를 제시합니다. 더구나, AUUC는 비즈니스의 제약 사항(프로모션 코드 예산)을 무시합니다. 대안은 고정 예산에서 비용 민감 Qini 계수 또는 Expected Response를 사용하는 것입니다. 초보 분석가는 AUUC가 좋은 모델은 비즈니스 메트릭도 좋다는 것을 의미하지 않는다는 점을 이해하는 것이 중요합니다. Doubly Robust Estimation 또는 **Inverse Probability Weighting (IPW)**를 통해 실제 증대를 반대 사실 시나리오와 비교하기 위해 예측된 uplift에 따라 사용자를 정렬하고 상위 K%를 선택하며 정책 평가를 수행해야 합니다.