질문에 대한 답변.

푸시 알림의 개인화는 사용자 활동 시간에 따른 자기 선택으로 인해 엄격한 준실험적 접근이 필요합니다. 소셜 네트워크나 가족 계정을 통한 교차 오염은 효과의 분리를 더욱 어렵게 만듭니다.

주요 방법은 **차별적 차이(Difference-in-Differences, DiD)**와 합성 대조군입니다. 대조군은 앱 열림 시간과 과거 주문 패턴을 기반으로 하는 성향 점수 매칭을 통해 형성됩니다.

시간에 따른 행동 효과(time-of-day effects)를 조정하기 위해 시간대별로 층화합니다. 교차 오염은 디바이스 ID와 IP 주소를 통해 공유 계정을 분석하여 감지됩니다.

유지 지표는 Cox 비례 위험 모델을 사용하여 위험 비율로 계산됩니다. 이는 검열된 데이터와 이탈 위험의 이질성을 고려할 수 있게 해줍니다.

실생활의 사례

Delivery Club 앱에서는 푸시 알림 전송 시간을 개인화하기 위해 Python에서 CatBoost를 사용하는 ML 모델을 도입할 계획이었습니다. 문제는 활성 사용자들이 주로 점심 시간에 앱을 열어 자기 선택 편향(self-selection bias)을 발생시킨다는 것이었습니다.

20% 청중에 대한 부분 롤아웃은 "입소문 효과"를 불러일으켰습니다. 대조군의 사용자들은 동료로부터 프로모션에 대한 정보를 얻어 교차 오염을 초래했습니다.

첫 번째 고려된 해결책은 지리적 세분화를 통한 전통적인 A/B 테스트였습니다. 도시 A가 실험 그룹이 되었고 도시 B는 대조군이었습니다.

이 접근 방식의 장점은 그룹의 깨끗한 분리와 비즈니스 결과 해석의 용이함이었습니다. 단점은 도시 간의 요리 선호도와 소득의 차이가 기본 유지율에 12-15%의 편향을 초래한다는 것이었습니다.

두 번째 옵션은 알림이 켜져 있는 사용자만 분석하는 (per-protocol analysis) 것이었습니다. 이는 커뮤니케이션에 반응하는 타겟 오디언스에 집중할 수 있었습니다.

장점은 제품 팀에 대한 높은 적합성이었습니다. 단점은 알림을 끈 사용자들이 기본 이탈률이 3배 더 높아졌다는 opt-out bias 효과를 무시할 수 있다는 것이었습니다.

세 번째 해결책은 **구글의 인과 효과(Causal Impact)**로 합성 대조군을 구축하는 것이었습니다. Bayesian 구조적 시계열 모델이 반사실을 모델링하는 데 사용되었습니다.

장점은 명시적 통제가 필요 없고 시간적 추세와 계절성을 감안할 수 있다는 점입니다. 단점은 공변량 선택에 대한 높은 민감성과介입 전 평행 추세 가정의 취약성이었습니다.

선택된 접근은 활동 시간에 따른 자기 선택 조정을 위한 **역확률 가중치(Inverse Probability Weighting, IPW)**와 Diff-in-Diff로 지리적 클러스터 수준의 표준 오차 클러스터링을 결합한 방법이었습니다.

이 솔루션은 개인화에 중요한 푸시 전송 시간의 개별 변동성을 유지하면서, 클러스터 견고성을 통한 그룹 간 스필로버를 통제할 수 있었습니다.

결과적으로 7일 유지율에 대한 진정한 점진적 효과를 +8.3% 발견했습니다. 단순 비교는 +15%를 나타냈습니다. 효과는 "주문 이력이 3회 이상인 사용자" 세그먼트에서만 통계적으로 유의미했습니다.

이는 개인화 캠페인의 타겟 오디언스에서 차가운 사용자를 제외하여 발송 예산을 최적화하는 데 도움이 되었습니다.

후보자들이 자주 간과하는 점

연간 및 월간 플랜을 가진 구독 제품에 대해 LTV 예측을 계산할 때 계절성을 어떻게 올바르게 반영할 수 있습니까?

초보자는 블랙 프라이데이 기간에 오는 사용자들이 유지 프로필이 질적으로 다르다는 점을 고려하지 않고 역사적 유지 곡선을 단순 평균내는 경향이 있습니다. 이들의 이탈률은 유기적 사용자의 2-3배 더 높습니다.

올바른 접근법은 계절적 더미 변수를 고려하여 각각의 코호트에 대해 별도의 BG/NBD 또는 Gamma-Gamma 모델을 구축하는 것입니다. 대안으로는 코호트 간의 힘을 빌리기 위해 Bayesian 계층 모델링을 사용하는 코호트 기반 LTV를 사용할 수 있습니다 (부분 풀링).

온보딩 투어의 효과를 평가할 때 intent-to-treat(ITT)와 treatment-on-the-treated(TOT) 분석의 차이점은 무엇이며, 어떤 접근 방식을 언제 적용해야 합니까?

ITT는 대조군의 모든 사용자에게 온보딩을 수행할 것을 제안하는 효과를 분석하며, 거부자는 포함됩니다. TOT는 투어를 실제로 수행한 경우의 효과(승인자 평균 인과 효과)를 측정합니다.

ITT는 보수적이며 기능 확장에 대한 비즈니스 결정에 적합합니다. 이는 마찰을 고려한 청중의 실제 행동을 반영합니다. TOT는 **도구 변량(instrumental variables)**을 요구하며, 강제 온보딩의 필요성에 대한 질문에 답합니다.

방법 선택 실수는 효과를 40-60% 과대 추정하게 만듭니다. TOT를 위해서는 투어 보여주기에 대한 우연한 오류를 도구로 사용할 수 있습니다.

순차적인 A/B 테스트 중 "peek" 문제를 진단하고 어떤 통계적 수정 사항을 적용할까요?

Peek은 유의미성을 달성한 후 테스트를 조기에 중단하면서 발생합니다. 진단은 p-value over time 분석입니다: peek의 경우 곡선은 0.05 임계치를 자주 교차하는 "부드러운 맴돌기"를 나타냅니다.

해결책에는 **그룹 순차 테스트(Group Sequential Testing)**와 알파 사용 함수(O'Brien-Fleming)가 포함됩니다. 대안은 Bayesian A/B 테스트와 ROPE (실용적 동등의 영역) 접근법입니다.

또한 Apache Airflow에서 **데이터 품질 게이트(Data Quality Gates)**를 통해 샘플 크기를 고정하는 것이 효과적입니다. 중요한 오류는 Bonferroni 수정 없이 순진한 신뢰 구간을 사용하는 것이며, 이는 5개 중간 검사가 있을 때 거짓 긍정 비율을 25-30%로 부풀립니다.

7일 동안의 사용자 유지에 대한 개인화된 푸시 알림의 점진적 효과를 평가하기 위해 어떤 접근 방식을 선택하시겠습니까? 여기서는 시간에 따른 행동의 의존성과 부분 롤아웃 중 세그먼트 간의 교차 오염을 고려합니다.