질문에 대한 답변.

역사적으로 이메일 마케팅은 터치포인트 최대화를 목표로 발전해왔으며, 커뮤니케이션 빈도가 증가함에 따라 수익도 증가하는 상관관계가 있었습니다. 그러나 참여 피로 이론(engagement fatigue)의 발전과 스팸 필터의 강화(SpamAssassin, Gmail Promotions Tab)로 인해 빈도 최적화의 필요성이 대두되었습니다. 그러나 전통적인 before/after 비교는 포화 효과 및 외부 충격으로 인해 신뢰할 수 없었습니다.

평가의 문제는 글로벌 롤아웃에서 대조군을 설정할 수 없고 self-selection bias(다양한 세그먼트가 서로 다른 방식으로 터치 감소에 반응) 및 confounding factors(시즌성, 거시 경제적 추세, 병행 마케팅 활동)가 존재하기 때문입니다. 표준 상관 분석은 causal effect와 제품 상승 또는 하락을 위한 일반 추세를 혼합합니다.

최적의 솔루션은 준실험적 방법의 조합이 필요합니다. **Difference-in-Differences (DiD)**와 **Propensity Score Matching (PSM)**을 관측된 참여 메트릭(open rate, click rate, recency)에 따라 적용합니다. 각 세그먼트에 대해 Synthetic Control Method를 통해 합성 대조군을 구축합니다. 상관관계가 있는 시계열(organic traffic, direct app access)을 공변량(covariates)으로 사용합니다. 추론을 위해 Causal Impact를 활용하여 Bayesian Structural Time Series에 기반한 counterfactual 모델링을 하고, 신뢰구간을 제공합니다. 추가로 Causal Forests를 적용하여 RFM 세그먼트에 따라 heterogeneous treatment effects를 평가합니다. 검증은 pre-intervention 기간에 placebo tests를 통해 parallel trends assumption을 검토하고, sensitivity analysis를 통해 unobserved confounding에 대한 강건성을 평가합니다.

실제 사례.

EdTech 플랫폼에서 200만 사용자 중 unsubscribe rate가 분기마다 40% 증가하여 교육용 다이제스트의 빈도를 매일에서 주 3회로 줄이기로 결정했습니다. 문제는 CEO에게 power users의 수익을 해치지 않도록 빈도 축소의 정당성을 입증해야 했던 점이었습니다. 이를 위해 12월 15일 변경을 시작했는데, 이는 전통적인 연말 세일 주간 일주일 전이어서 강력한 시간적 혼란 변수가 있었습니다.

첫 번째 접근 방식으로 사전과 사후의 평균 티켓 가격을 t-검정을 통해 간단히 비교했습니다. 장점은 구현 속도가 빨랐고 비즈니스 이해관계자에게 이해하기 쉽다는 점이었습니다. 단점은 크리티컬했으며, 12월에 구매가 증가하는 계절적 요인을 완전히 무시했기 때문에 LTV 증가를 15%로 잘못 나타나는 결과를 가져왔습니다. 실제로는 커뮤니케이션 축소로 인한 0 또는 부정적인 효과가 관찰될 수 있었습니다.

두 번째 옵션은 30일 지연을 두고 코호트 분석을 수행하여 11월과 12월 코호트를 비교하는 것이었습니다. 장점에는 사용자 생애 주기를 반영하고 계절 조정된 메트릭을 고려했다는 점이 있습니다. 단점으로는 다른 코호트마다 기본 전환이 다르고, 12월 코호트는 연말 프로모션 캠페인에 왜곡되어 순수한 발송 빈도 효과를 분리하기 어려운 선택 편향이 생겼습니다.

세 번째 옵션은 이메일 채널 침투율이 낮은 CIS 지역 데이터를 기반으로 Synthetic Control을 구축하는 것이었습니다. 여기서 이메일 다이제스트에 높은 의존성을 가지는 지역을 대조군으로 사용했습니다. 장점은 집계된 시계열 수준에서 counterfactual을 모델링할 수 있다는 점입니다. 단점은 고유의 학습 축제 전통의 지역적 차이로 인해 parallel trends 가정이 위반되었고, 도시 데이터는 연말 연휴 동안의 사용자 이동으로 인해 심각하게 왜곡되었습니다.

네 번째 옵션(선택된)은 Difference-in-Differences를 기반으로, 과거 90일 간의 활동(오픈, 클릭, 구매)에 대해 정확한 매칭을 적용한 것입니다. 우리는 power users(70% 이상의 이메일을 열어본 사용자)를 treatment group으로, dormants(5% 이하를 열어본 사용자)를 대조군으로 설정했습니다. 후자는 빈도 변화의 영향을 사실상 경험하지 않았기 때문입니다. 장점은 PSM을 통한 관찰된 특성의 엄격한 통제가 가능하고, 이전 분기 데이터에서 parallel trends 검증이 가능하다는 점입니다. 단점으로는 활성 사용자와 비활성 사용자 간의 차별적인 경향이 없다는 가정이 추가 검증을 요구했습니다. 강건성 확보를 위해 우리는 Causal Impact를 적용하여 모바일 앱 메트릭(세션, 인앱 구매)을 이메일 빈도와 직접적으로 상관관계가 없지만 전반적인 제품 추세를 반영할 수 있는 대조 시계열로 사용했습니다.

최종 결과는 power users의 경우 빈도를 줄이는 것이 30일 유지율을 8% 통계적으로 유의미하게 감소시켰지만(p-value < 0.05, 95% CI [5%, 11%]), 스팸 리스트에서의 이탈 감소로 인해 생애 가치를 3% 증가시켰다는 점을 보여줍니다. 중간 활성 사용자에게는 효과가 통계적으로 중립적이었습니다. 비즈니스에 대한 권장 사항은 engagement score가 가장 높은 상위 10% 사용자에게만 매일 빈도로 복귀하고, 나머지 사용자에게는 주 3회로 유지하는 것입니다.

후보자들이 자주 놓치는 점.

빈도 효과와 콘텐츠 품질 효과를 어떻게 구분할 수 있을까요? 빈도 축소와 동시에 팀이 카피라이팅과 이메일 디자인을 개선했을 경우입니다.

답변은 mediation analysis와 **instrumental variables (IV)**를 적용해야 합니다. 두 단계 모델을 구축할 필요가 있습니다: 첫 번째로 빈도 변화가 이메일 오픈 확률에 미치는 영향을 평가하고(콘텐츠 품질은 읽기 점수 또는 engagement rate 메트릭을 통해 통제), 두 번째로 오픈이 전환에 미치는 영향을 평가합니다. R 또는 Python의 mediation 패키지를 사용하여 총 효과를 직접 효과(빈도)와 간접 효과(품질)로 분해합니다. 초기 전문가에게 중요한 점은 콘텐츠 품질이 collider(빈도에 따라 카피라이터 팀의 자원 해방에 의존한다면)일 경우, Pearls의 front-door adjustment를 필요로 하며, lagged quality metrics(지연된 품질 값)로 순수한 빈도 효과를 분리하는 도구로 사용해야 한다는 점입니다.

SUTVA(Stable Unit Treatment Value Assumption)를 위반할 때 결과를 올바르게 해석하는 방법은 무엇인가요? 사용자가 사회적 네트워크에서 이메일의 프로모션 코드를 교환하여 treatment과 control 그룹 간에 spillover 효과를 생성하는 경우입니다.

후보자들은 종종 네트워크 간섭을 무시하고 독립성을 가정합니다. 해결책은 분석 수준을 개인 차원에서 클러스터 차원으로 전환(cluster robust standard errors)하거나 causal inference under interference 방법을 사용하는 것입니다. 사회적 그래프(연결 데이터가 있는 경우) 또는 지리적 근접성을 통해 클러스터를 정의한 후, 관측 데이터에 대한 exposure mapping을 적용합니다. spillover를 평가하기 위해 neighborhood-based treatment definitions 또는 sinusoidal exposure models를 사용합니다. 긍정적인 spillovers(프로모션 코드의 바이럴 효과)가 있을 경우, 대조군이 네트워크를 통해 부분적으로 "치료"를 받기 때문에 표준 추정치는 효과를 과소평가합니다. 노출 정도를 고려하여 inverse probability weighting을 통해 추정치를 수정해야 합니다.

관찰되지 않은 confounding에 대한 결과의 강건성을 평가하기 위해 sensitivity analysis를 수행하는 방법은 무엇인가요? 예를 들어, 타겟팅된 Facebook 광고 캠페인이 동시에 진행되고 있는 경우입니다.

제품 분석에서 표준 접근 방식은 E-value(VanderWeele & Ding)를 사용하여 관찰된 연관성을 설명하기 위해 관찰되지 않은 혼란 요인이 가져야 하는 최소한의 연관성 강도를 평가하는 것입니다. 또한, rank-based tests를 위한 bounding analysis(Rosenbaum bounds)를 적용합니다. 초보 전문가에게는 treatment와 영향을 받아서는 안 되는 결과(예: 이메일 채널만 변경하는 경우 모바일 애플리케이션에서 세션 수)를 사용하는 negative controls 기술을 이해하는 것이 중요합니다. "이메일 발송 개수 줄이기"가 애플리케이션 내 시간을 변화시키는 경우(그럴 필요는 없음), 이는 공통 confounder의 신호입니다(예: 공동 마케팅 예산 또는 계절적 요인).