역사적 맥락
초기 유지 전략은 낮은 활동성을 보이는 모든 사용자에게 대규모 할인 메일을 발송했습니다. 이는 마케팅 예산의 비효율적인 지출과 "할인 기대"라는 행동 패턴을 초래했습니다. 2010년대에 Uplift Modeling과 Propensity Score 기법이 등장하면서 기업들은 이탈 가능성이 높은 사용자만을 타겟팅하기 시작했습니다. 그러나 이는 치료 그룹이 모델에 의해 자기 선택되므로 인과 관계 추론을 위해 필요한 무작위화의 가정을 위반하여 평가에 근본적인 문제를 야기했습니다.
문제 제기
핵심적인 난제는 이탈 예측 모델에 의해 높은 위험으로 표시된 사용자에 대한 유효한 반사실적 시나리오를 수립하는 것입니다. 이 사용자들은 전반적인 인구 집단과 시스템적으로 차별화되며, 참여도가 낮고 최근의 부정적인 경험이 있거나 특수한 행동 패턴을 보입니다. 이들의 유지율을 낮은 위험 사용자나 개입 전 자신의 역사와 단순 비교하는 것은 치료 효과와 기존의 차이를 혼합하게 됩니다. 또한, 최대 이탈 위험이 있는 사용자에 대한 유지 제안을 포기하는 것은 수용할 수 없는 비즈니스 위험과 수익 손실을 초래하여 전통적인 A/B 테스트를 정치적으로 불가능하게 만듭니다.
상세한 해결 방법
위험 점수의 임계값(예: 0.7) 주변에서 **회귀 단절 설계(Regression Discontinuity Design, RDD)**를 적용합니다. 임계값 위와 아래의 사용자들은 치료 배정만 제외하면 통계적으로 유사합니다. 이는 한계 사용자를 위한 지역 평균 치료 효과(LATE)를 제공합니다. 전체 고위험 인구에 대한 일반화를 위해 RDD를 **역확률 가중치(Inverse Probability Weighting, IPW)**와 결합하여 개입 전 데이터에서 평가된 성향 점수를 사용합니다. 임계값을 넘어서는 사용자에 대해서는 이중 강건 추정(Doubly Robust Estimation) 또는 **인과적 숲(Causal Forests)**을 사용하여 이질적 효과를 모델링합니다. 교육 시 이전 캠페인으로 인한 데이터 오염 문제를 처리하기 위해 "섀도우 모드"를 도입하여 모델이 작은 홀드아웃 (5-10%)에 대해 트리IGGER 없이 예측을 생성하게 하여 2단계 최소 제곱(2SLS) 분석 도구를 생성합니다. 마지막으로, 통신 채널의 포화 상태를 고려하여 **차이의 차이(Difference-in-Differences, DiD)**를 사용하여 위험 세그먼트 간의 시간적 추세를 비교합니다.
모바일 구독 서비스(명상 앱)는 ChurnGuard를 도입하여 이탈 가능성이 7일 > 0.75로 예측되는 사용자에게 30%의 할인으로 개인화된 푸시 알림을 발송합니다.
옵션 1: 할인받은 사용자(높은 위험)와 할인받지 않은 사용자(낮은 위험) 간의 유지율 간단 비교
장점: 기존 BI 도구를 이용한 즉각적인 계산; 실험 인프라 불필요. 단점: 자기 선택의 강한 편향 — 높은 위험 사용자는 자연스럽게 더 자주 이탈; 비교가 효과를 과소평가하거나 심지어 부정적인 상관관계를 보여줌(처리된 사용자가 여전히 처리되지 않은 낮은 위험 사용자보다 더 자주 이탈함).
옵션 2: 50%의 높은 위험 사용자가 임의로 유지 제안에서 제외되는 무작위 대조 실험
장점: 편향 없는 인과 평가; 평균 치료 효과(ATE)의 명확한 해석. 단점: 비즈니스 이해관계자들이 소중한 사용자 잃는 것에 대한 두려움으로 거부; 개입이 존재하는데도 의도적으로 이탈을 초래하는 윤리적 문제; 높은 위험 세그먼트를 위한 샘플 크기 문제.
옵션 3: 임계값 0.75 모델을 사용한 회귀 단절 설계 및 시간 행렬의 검증을 위한 합성 통제 방법 사용
장점: 윤리적으로 수용 가능 — 임계값 아래의 사용자는 표준 경험을 받음; 기존 알고리즘 임계값을 자연 실험으로 활용; 역사적 데이터에 대해 소급적으로 실행 가능. 단점: (임계값 근처 사용자에 대해) 지역 효과만 평가; 연속성에 대한 가정 검증 요구(점수 조작 없음); 패스밴드에서의 유효 샘플 크기 감소로 인해 RCT에 비해 정확도가 낮음.
선택한 해결책 및 그 정당성
패스밴드 0.05를 사용한 옵션 3을 선택하며, 모델 배포 전후 1주일 간 사용자 비교를 위한 **코호트 분석(Cohort Analysis)**와 행동 기능에 대한 **성향 점수 매칭(Propensity Score Matching)**으로 계절성을 조정하였습니다. 선택 이유: 통계적 엄격성과 비즈니스 제약을 균형 있게 조화시켰으며, 명백한 높은 위험 사용자에 대한 치료 거부 없이 효과를 측정할 수 있게 되었습니다.
최종 결과
위험 점수 0.75-0.80의 경계에 있는 사용자에 대해 7일간 이탈률이 18% 상대적으로 감소했음을 발견했습니다. 그러나 위험 >0.90의 사용자에 대해서는 다수의 유지 푸시로 인해 "불안 피로"로 인해 수익이 감소하는 것으로 나타났습니다. 주당 2회의 푸시로 빈도 한계를 최적화했습니다. LTV에 대한 순효과는 3개월 동안 +$1.2M, 할인 비용에 대한 ROI는 340%를 기록했습니다.
유지 캠페인을 받은 사용자와 받지 않은 사용자(심지어 높은 위험 세그먼트 내에서)의 유지율을 비교하는 것은 왜 실제 개입 효과를 과대 또는 과소 평가할 수 있습니까?
높은 위험 세그먼트 내에서도 사용자가 이 세그먼트에 도달하는 시점이 중요합니다. 생애 주기 초기에 위험 점수에 도달하는 사용자들은 후에 도달하는 사용자들과 본질적으로 다릅니다. 시간 변동 혼란 변수(Time-Varying Confounders)(예: 최근의 앱 실패 또는 계절적 이벤트가 위험을 증가시키고 할인 효과를 더욱 증가/감소시키는 경우)를 고려하지 않으면 단순 비교는 **생존자 편향(Survivorship Bias)**과 **심슨 패러독스(Simpson's Paradox)**의 영향을 받습니다. 올바른 접근은 치료의 역확률 가중치를 통해 시간에 따라 의존하는 공변량을 처리하기 위해 **한계 구조 모델(Marginal Structural Models, MSM)**을 사용하는 것입니다.
이탈 모델의 교육 선택 샘플에서의 "데이터 누수(data leakage)" 문제는 이탈 방지 시스템의 효과 평가에 어떻게 영향을 미칩니까?
이탈 모델이 이미 유지 캠페인을 받은 일부 사용자를 포함한 역사적 데이터에 대해 학습되었다면, 목표 변수의 레이블이 오염됩니다. 모델은 "이전 캠페인에 의해 구출된 사용자"를 식별하는 대신 "자연스럽게 이탈했을 사용자"를 학습하게 됩니다. 이는 모델이 처리된 사용자에 대해 낮은 이탈률을 예측하며 검증에서 인위적으로 잘 작동하나, 실제 운영에서는 진정한 위험 사용자를 식별하지 못하는 **피드백 루프(Feedback Loop)**를 생성합니다. 이를 수정하기 위해서는 개입 전의 데이터만을 사용하여 학습하거나, 과거 치료의 역확률을 통해 학습 데이터를 다시 가중치를 부여하기 위해 **중요도 샘플링(Importance Sampling)**을 사용해야 하며, 이는 과거 캠페인이 없는 상태를 효과적으로 시뮬레이션합니다.
왜 사용자 수준의 무작위화가 포함된 전통적인 A/B 테스트가 이탈 방지 시스템 평가에 적합하지 않을 수 있으며, 대신 어떤 대체 실험 설계를 사용해야 합니까?
전통적인 A/B 테스트는 대조군에서의 치료 거부가 **개별 평형(Individual Equipoise)**의 원칙(개입이 있을 경우 의도적으로 손해를 초래하는 것)을 위반하기 때문에 종종 적용되지 않습니다. 대신 클러스터 무작위화(Cluster Randomization)(지리적 지역 또는 시간 기간에 따라 무작위화) 또는 Encouragement Designs(모델 참여 권리의 도구로 사용하는)를 사용하십시오. 다른 접근법은 **부분 모집단 실험(Partial Population Experiments)**으로, 여기서 모델은 대조군에 대해 "섀도우 모드"에서 작동하여 예측이 이루어지지만 조치는 취해지지 않아 진정한 lift 측정을 위한 **보정 분석(Calibration Analysis)**을 통해 예측된 이탈율과 실제 이탈율을 비교할 수 있습니다.