질문에 대한 답변

역사적 맥락

전통적으로 제품 팀은 온보딩의 효과를 배우는 것을 완료한 사용자와 생략한 사용자의 유지율을 비교하여 평가했습니다. 이러한 접근 방식은 해석상의 대규모 오류를 초래했습니다. 튜토리얼을 완료한 것과 유지율 간의 관찰된 상관관계는 교육의 인과 효과가 아닌 높은 동기를 가진 사용자의 선택을 반영했습니다. Causal Inference의 발전과 함께, 업계에서는 **intention-to-treat (ITT)**와 **treatment-on-the-treated (TOT)**를 구별하고 고전적인 무작위 배정이 불가능할 때 자연 실험을 사용하는 것이 표준이 되었습니다.

문제 제기

주요한 어려움은 자기 선택의 endogeneity에 있습니다. 온보딩을 진행하겠다는 결정은 유저의 관찰되지 않는 특성(동기, 인내)과 상관관계가 있으며, 이러한 특성은 미래의 유지율에 동시에 영향을 미칩니다. 간단한 그룹 비교는 survivorship bias와 과도한 효과 추정을 초래합니다. 추가적으로, 지역별 단계적 롤아웃은 준실험의 기회를 제공하지만, 지역 간의 문화적 요인과 기본 지표가 다르므로 confounding variables에 대한 통제가 필요합니다.

자세한 해결책

**Two-Stage Least Squares (2SLS)**를 적용하여 지역적 도입 플래그를 **Instrumental Variable (IV)**로 사용해야 합니다. 첫 번째 단계에서는 온보딩을 완료할 확률(compliance)을 해당 지역의 기능이 도입된 여부에 따라 모델링합니다. 두 번째 단계에서는 예측된 값을 사용하여 유지율에 대한 효과를 평가합니다. 지역의 이질성을 고려하기 위해서는 **Difference-in-Differences (DiD)**와 함께 지역 및 시간에 따른 고정 효과를 사용합니다. 추가적으로 Causal Forest를 구축하여 **Conditional Average Treatment Effect (CATE)**를 평가하고 온보딩이 최대 이익을 주는 세그먼트를 파악합니다. 도입 전의 pre-trend 평행성을 통제하고 도구의 exclusion restriction을 검증하는 것이 중요합니다.

실제 사례

언어 학습을 위한 모바일 애플리케이션 팀은 무료 콘텐츠에 접근하기 전에 의무적인 3분짜리 인터랙티브 튜토리얼을 도입했습니다. 파일럿 런칭 결과 온보딩을 완료한 사용자가 튜토리얼 단계에서 앱을 종료한 사용자보다 7일 유지율이 35% 더 높다는 것이 나타났습니다. 비즈니스 측에서는 기능을 모든 사용자에게 확장하고자 했지만, 분석가는 생존 편향이 의심된다고 경고했습니다.

옵션 1: 간단한 비교 (naive approach). 온보딩을 완료한 사용자와 생략한 사용자 간의 유지율 비교. 장점: 즉각적인 계산, 직관적인 메트릭 업리프트. 단점: 선택 편향(critical selection bias); 3분 동안 시간을 내는 사용자들은 자연스럽게 더 많은 참여를 보이며, 추정이 3-4배 부풀려져 있다; 지역적인 마찰에 대한 차이를 고려하지 않음.

옵션 2: 강제 온보딩을 통한 A/B 테스트. 사용자 수준에서 무작위화를 실시: 그룹 A는 필수 튜토리얼을 보고, 그룹 B는 즉시 콘텐츠에 접근합니다. 장점: 순수한 무작위 배정으로 선택을 차단합니다. 단점: A 그룹에서의 Non-compliance(일부 사용자가 앱을 종료하고 다시 돌아오지 않음)는 비대칭적인 소멸을 초래합니다; ITT 분석은 보수적인 평가를 제공하지만 실제로 교육을 이수한 사람의 효과 문제에 대해 답할 수 없습니다; 소셜 미디어에서 negative spillover가 발생할 수 있습니다.

옵션 3: 시간에 따른 회귀 불연속 디자인(Regression Discontinuity Design, RDD). 해당 지역에서 기능 론칭의 정확한 시점을 컷오프(cutoff)로 사용합니다. 장점: "경계에 있는" 사용자에 대한 높은 내부 타당성; 해당 지역 내의 대조군이 필요하지 않습니다. 단점: 국소적 효과(LATE)는 모든 사용자에게 일반화할 수 없고; 컷오프 근처의 데이터 밀도가 높아야 합니다; 시즌성과 론칭 요일이 결과에 왜곡을 줄 수 있습니다.

선택된 해결책: 지역 롤아웃과 Doubly Robust Estimation이 결합된 IV-approach.

온보딩이 가동된 지역은 튜토리얼을 실제로 완료한 사용자에 대한 도구로 사용되었습니다(상관관계 0.82를 통해 관련성 조건이 검증됨). 2SLS를 사용하여 compliers(온보딩이 필수가 아닌 경우에만 온보딩을 했을 사용자)에 대한 효과를 평가했습니다. 추가적으로 유사한 pre-trend를 가진 지역 대조군의 가중치 조합을 사용하여 각 처리 지역에 대한 Synthetic Control을 구축했습니다.

최종 결과: 진정한 인과 효과는 7일 유지율에 +8%를 추가하였고, 원시 데이터의 +35%보다 작았습니다. 온보딩은 저조한 초기 참여를 가진 사용자에게만 효과적(CATE = +15%)이며, 파워 사용자에게는 마찰을 유발(CATE = -3%)했습니다. 적응형 시스템이 구현되어, 온보딩은 첫 10초 세션에서 예측된 참여 점수가 낮은 사용자에게만 표시되었습니다. 이는 파워 사용자를 잃지 않고도 전 세계적으로 +12%의 유지율 증가를 달성했습니다.

후보자들이 놓치는 점

왜 강제 온보딩과 함께 A/B 테스트가 무작위화에도 불구하고 편향된 추정치를 제공하며, 결과를 올바르게 해석하려면 어떻게 해야 하는가?

답변: non-compliance와 differential attrition 문제입니다. 강제 온보딩이 포함된 테스트 그룹에 무작위로 배정되더라도 일부 사용자는 영원히 떠나(never-takers)며, 대조군에서는 이런 "처벌"이 없습니다. 이는 비대칭적인 생존 편향을 발생시킵니다. 올바른 평가를 위해서는 назначенная 그룹 간의 차이인 Intent-to-Treat (ITT) 효과를 계산하고, 그 후 Wald estimator를 사용하여 **Complier Average Causal Effect (CACE)**를 도출해야 합니다: CACE = ITT / (share of compliers). 컴플라이어의 비율이 충분히 높은지(>20%) 확인하는 것이 중요합니다. 그렇지 않으면 추정치가 불안정해질 수 있습니다(weak instrument problem).

사용자들이 대조군 지역에서 새로운 온보딩에 대해 알게 되고 실제 론칭 전에 행동을 바꿀 때 음성 외부 효과(negative spillover effects)를 진단하고 수정하는 방법은?

답변: 이는 **SUTVA (Stable Unit Treatment Value Assumption)**의 위반입니다. 진단을 위해 대조군 지역에서의 설치 수의 비정상적인 감소(chilling effect)를 확인하기 위한 event study 그래프를 분석합니다. Spillover가 확인되면, 사회적 연관성이 없는 원거리 지역만을 대조군으로 사용하여 spatial Difference-in-Differences를 적용하거나, 해당 지역 내에서 사용자 무작위 하위 샘플을 처리하는 partial population experiment를 사용합니다. 대안으로는 거리와 가장 가까운 처리 지역 사이의 상호 작용을 통제 변수로 사용하는 two-way fixed effects를 적용합니다.

짧은 기간의 마찰(short-term friction)과 긴 기간의 가치 축적(long-term value accumulation)을 관찰 기간 선택 시 구분하는 것이 왜 중요한가, 그리고 제한된 데이터로 장기 효과를 평가하는 방법은 무엇인가?

답변: 온보딩은 짧은 기간의 마찰을 발생시켜 day-0 유치율을 기계적으로 낮추지만, 제품 이해의 향상을 통해 긴 기간의 가치를 축적합니다. 짧은 윈도우(1-3일)에서의 평가는 낮은 LTV를 가진 낮은 동기 부여 사용자에서의 이탈 때문에 부정적인 효과를 보여줄 수 있습니다. 제한된 데이터로 장기적인 효과를 평가하기 위해서는 Surrogate Index를 사용합니다: 짧은 기간 메트릭(첫 세션의 깊이, 조회된 기능 수)과 긴 기간 결과(30일 유지율) 간의 관계를 정립하는 모델을 구축합니다. 그런 후, 서그레이트에 대한 효과를 평가하여 장기 효과를 대리합니다. unconfoundedness 서그레이트를 확인하는 것이 중요합니다.