질문에 대한 답변

오프라인 채널의 인크리멘탈리티를 측정하기 위해 Geo-Lift Testing 방법론이 사용되며, 이는 Synthetic Control Method를 포함합니다. 핵심 아이디어는 지리적 지역을 테스트 지역(광고가 송출되는 곳)과 통제 지역(캠페인이 실행되지 않는 곳)으로 나누고, 캠페인 시작 전 95%의 상관관계를 유지하며 테스트 지역의 행동을 모사하는 통제 지역의 가중 조합을 만드는 것입니다.

시계열 분석을 위해 Google CausalImpact 라이브러리를 사용하여 날씨 데이터, 경제 지표, 경쟁자의 활동을 고려한 인과 효과를 평가합니다. 데이터는 BigQuery에 집계되며, 데이터 전처리는 Python의 pandas 및 scikit-learn을 사용하여 지원 벡터 회귀(SVR) 또는 Lasso 회귀 방법을 통해 합성 제어의 최적 가중치를 추정합니다.

실제 사례

회사는 50억 루블의 예산으로 10개 대도시에서 대규모 텔레비전 캠페인을 계획하고 있지만, 효율성 측정에 있어 심각한 문제에 직면하고 있습니다. AppsFlyer 또는 Adjust와 같은 표준 트래커는 디지털 접점을 기록할 뿐, TV 화면에서 애플리케이션 설치로의 전환을 추적할 수 없습니다. 또한, 동시에 경쟁사의 공격적인 프로모션 활동 및 목표 지역의 비정상적인 날씨 조건이 발생하여 과거 기간과의 직접 비교를 왜곡할 수 있습니다.

첫 번째 고려된 솔루션은 역사적 데이터를 기반으로 예측을 비교하는 ARIMA 모델을 사용하는 시계열의 상관 관계 분석이었습니다. 이 접근 방식의 장점은 Python의 statsmodels를 사용하여 구현 비용이 낮고 지역 간 광고 예산을 나눌 필요가 없다는 점입니다. 단점은 TV의 효과를 외부 충격(경쟁자의 행동, 날씨)에서 분리할 수 없다는 점으로, 이는 TV 광고에 의한 성장의 잘못된 귀속 위험을 초래합니다.

두 번째 옵션은 특정 가정에 대해서만 광고가 표시되는 addressable TV와 기존의 A/B 테스트로, 패널 데이터를 통해 직접 귀속이 가능하게 됩니다. 장점은 엄격한 인과성과 장기적인 사용자 생애 가치(LTV) 측정을 가능하게 한다는 점입니다. 단점은 데이터 제공자(GfK, TNS)와의 통합 및 높은 비용과 긴 준비 시간이 필요하며(3-4개월), 개별 사용자 수준에서 타겟팅이 불가능한 전통 방송 TV에는 적용할 수 없다는 점입니다.

세 번째 접근법은 합성 제어를 사용한 Geo-Lift Testing으로, 캠페인이 테스트 지역에서 실행되고, 통제 지역은 유사 지역의 가 weighted 조합을 생성하여 그 행동을 모사합니다. 이 방법의 장점은 자연 실험을 통해 인과 관계를 설정할 수 있으며, 두 그룹 모두에 영향을 미치는 외부 충격에 강하다는 점입니다. 단점은 유사한 계절성을 가진 통제 지역을 신중히 선택해야 하며, 도시 간 사용자 이동에 민감하고, 질 좋은 합성 제어를 구축하기 위해 최소 12개월의 과거 데이터가 필요하다는 점입니다.

세 번째 솔루션이 선택되었는데, 이는 회사가 BigQuery에 18개월 동안 40개 지역에 대한 세부 데이터를 보유하고 있어, 캠페인 전 기간 동안 0.95 이상의 상관 계수를 가진 합성 제어를 구축할 수 있었기 때문입니다. 분석은 Jupyter 환경에서 pycausalimpact 라이브러리를 사용하여 수행되었으며, 데이터 전처리는 SQL 및 pandas를 사용하여 청중 규모에 따라 정규화되었습니다.

결과적으로 캠페인 시작 14일 후, 통계적으로 유의미한 유기적 설치의 인크리멘탈 증가가 23% 발견되었으며, 신뢰 구간은 95% [15%; 31%]로, 이는 145%의 ROI로 이어져 마케팅 팀이 다음 분기에 TV 채널 예산 증가를 정당화할 수 있도록 했습니다.

후보자들이 자주 놓치는 점

오프라인 캠페인을 분석할 때 광고의 영향이 즉각적으로 나타나지 않고 시간에 분산되는 경우 adstock 효과(지연 효과 및 누적 효과)를 어떻게 처리해야 합니까?

후보자들은 종종 "방송일 - 설치일"의 간단한 비교를 사용하지만, TV 광고는 반감기 효과(half-life)가 있음을 무시합니다. adstock 변환을 적용해야 합니다: $A_t = X_t + \lambda \cdot A_{t-1}$, 여기서 $\lambda$는 감소 계수(일반적으로 TV의 경우 0.3-0.8)로, 최대 우도 추정 또는 Grid Search를 통해 결정됩니다. 이전 캠페인의 carryover 효과도 고려해야 하며, 그렇지 않으면 현재의 lift가 과대 평가될 수 있습니다. $\lambda$의 유효성을 검증하기 위해 이전 캠페인에서 다양한 지연을 가지고 교차 검증을 사용합니다.

Geo-Lift 테스트에서 테스트 지역과 통제 지역 간의 단순 평균 비교(t-test)를 사용할 수 없는 이유는 무엇입니까?

문제는 지역 간 분산의 이질성(기본 전환율이 다름)과 클러스터 상관관계(지역 내 관측값 의존)의 존재입니다. 표준 t-test는 관측값의 독립성 및 분산의 동등성을 가정하므로 통계적 유의성을 부풀리는(거짓 긍정) 결과를 초래합니다. 올바른 접근 방식은 지역 수준의 Clustered Standard Errors 또는 PyMC3 / Stan의 계층적 베이지안 모델을 사용하는 것으로, 데이터 구조를 고려합니다. 테스트 이전에 균형 covariate 확인(경향 점수 매칭)이 필요하여 합성 제어가 적절한지 확인해야 합니다.

Marketing Mix Modeling (MMM)과 Geo-Lift Testing의 본질적인 차이점은 무엇이며, 각각의 방법이 선호되는 경우는 언제입니까?

MMM(예: Meta의 Robyn 라이브러리 또는 Google의 LightweightMMM)은 모든 채널의 기여를 동시에 회귀 분석을 통해 계산하는 상관 관계 모델입니다. 하지만 이는 내생성에 민감하고 도구 변수 없이는 엄격한 인과 관계를 설정할 수 없습니다. Geo-Lift는 지역의 광고 존재/부재에 따른 외생적 변화를 통해 인과 관계를 설정하는 준 실험입니다. MMM은 여러 채널 간 예산 최적화와 계획에 적합하고, Geo-Lift는 특정 가설 검증 및 MMM 조정에 필요합니다. 최적의 관행은 Geo-Lift를 사용하여 베이지안 MMM의 priors를 조정하는 것입니다.

텔레비전 광고 캠페인이 사용자 행동의 지역적 차이가 있고 직접적인 귀속이 없는 경우 모바일 애플리케이션의 유기적 설치에 미치는 영향을 어떻게 격리하시겠습니까?

질문에 대한 답변

실제 사례

후보자들이 자주 놓치는 점