질문에 대한 답변

2010년대에 페이스북과 트위터에 의해 대중화된 페이지 나누기에서 무한 스크롤로의 진화는 콘텐츠 소비 패턴을 근본적으로 변화시켰습니다. 초기 제품 분석가는 계절적 추세와 사용자 자기 선택을 고려하지 않고 "이전과 이후"의 단순 비교에 의존했습니다. 교차 플랫폼 생태계가 발전함에 따라 사용자가 다양한 인터페이스 버전 간에 원활하게 이동함에 따라 문제가 복잡해졌습니다.

무한 스크롤 도입이 스크롤 깊이와 광고 수익화 메트릭에 미치는 인과 효과를 분리해야 합니다. 주요 혼란 요소에는 점진적인 지리적 롤아웃이 포함되며, 이는 staggered timing treatment를 생성하고 사용자 간 장치 이동으로 인해 그룹 간의 오염을 초래합니다. 지역 간의 간단한 비교는 청중 행동의 구조적 차이로 인해 유효하지 않습니다. 개별 세션 수준의 분석은 장치 간의 carryover 효과를 무시하고 유지 관리 평가를 왜곡합니다.

staggered difference-in-differences를 적용하여 Callaway-Sant'Anna 또는 Sun-Abraham 추정량을 통해 이질적 효과에 대해 보정하여 단계적 도입을 올바르게 처리합니다. 교차 장치 오염과 싸우기 위해 사용자 수준에서 표준 오류를 클러스터링하고 사용자 고정 효과를 포함하여 해당 기능의 실제 사용을 treatment로 간주하고 지역 롤아웃 일정을 **도구 변수(IV)**로 해석합니다. 수익 분석 시 mediation analysis를 수행하여 레이아웃 변경의 직접 효과와 참여도 증가를 통한 간접 효과를 분리합니다. 병행 추세 검증은 CausalImpact를 사용하여 사전 롤아웃 데이터로부터 합성 통제를 구성하여 수행합니다.

실제 사례

5백만 MAU를 보유한 미디어 애플리케이션에서 고전적인 페이지 나누기를 무한 스크롤로 대체하여 애플리케이션에서의 시간을 늘리는 계획이 있었습니다. 측정 문제는 점진적인 롤아웃에 있었습니다: 처음에는 모스크바와 상트페테르부르크에서 시작하여 한 달 후에 지역으로 확대되었습니다. 추가로, 사용자는 모바일 애플리케이션(새로운 기능)과 태블릿(오래된 버전) 간에 적극적으로 전환하여 그룹 간의 강한 오염을 만들었습니다.

첫 번째 옵션은 한 지역 내에서 출시 전후의 메트릭을 단순 비교하는 것이었습니다. 장점: 높은 계산 속도 및 데이터 요구 최소화. 단점: 기능 효과와 뉴스 사이클의 계절성, 자연스럽게 증가하는 사용자 기반 효과를 분리할 수 없었습니다; 결과적으로 수치는 새해 트래픽으로 인해 +40% 왜곡되었습니다.

두 번째 옵션은 모스크바와 다른 지역 간의 깨끗한 지리적 A/B 테스트였습니다. 장점: 컷 지점에서 그룹을 명확하게 나눈 것입니다. 단점: 행동의 구조적 차이(모스크바 주민이 비즈니스 뉴스를 더 많이 읽음) plus 지역 및 장치 간 사용자 이동으로 인해 대조군에 15%까지 오염이 발생하였으며, 이는 평가를 무효로 만들었습니다.

선택된 해결책은 사용자 고정 효과와 지역 수준의 오류 클러스터링이 포함된 staggered DiD입니다. 우리는 사용자가 새로운 버전의 애플리케이션에 처음 들어간 순간을 treatment 시작으로 사용하고, 지역 롤아웃 일정을 IV 평가를 위한 도구로 사용했습니다. 이는 장치를 통한 교차 오염을 treatment와 control 간의 부분적인 일치로 고려하여 무편향 평가를 보장했습니다.

최종 결과: 순 스크롤 깊이가 +22% 증가(naive 평가에서 +35% 대신)했지만 RPM은 광고 슬롯 가시성 감소로 인해 8% 감소했습니다. 매 10개의 카드마다 필수 광고 블록이 있는 하이브리드 "더 불러오기" 모드를 도입하기로 결정했습니다. 이것은 수익 수준을 baseline에서 유지하면서 조회 깊이를 +18% 증가시켰습니다.

후보자들이 자주 간과하는 것들

지리적 롤아웃 시 공간적 오류 상관관계를 올바르게 처리하려면 어떻게 해야 하는가?

후보자들은 종종 사용자 수준에서만 표준 오류를 클러스터링하는데, 지역적 충격(날씨, 지역 뉴스)이 지리 내에서 오류를 상관시킨다는 점을 간과합니다. 이중 클러스터링(사용자 + 지역) 또는 Conley 공간 표준 오류를 사용해야 하며, 정확한 좌표가 있는 경우에 한합니다. 그렇지 않으면 신뢰 구간이 너무 좁아져 효과의 중요성을 테스트할 때 위양성이 발생할 수 있습니다.

능동 사용자보다 수동 사용자가 훨씬 늦게 무한 스크롤을 받는 경우 애플리케이션 업데이트 속도의 내인성을 어떻게 해결할 것인가?

이는 staggered adoption에서의 self-selection 문제입니다. 일반적인 의도-치료(ITT) 지역별 분석은 보수적인 평가를 제공하지만, 치료-치료된(TOT)은 도구를 요구합니다. 사용된 기능에 대한 실제 사용에 대한 **IV(도구 변수)**로 지역/시간 배정을 사용하거나, 과거 활동 기반의 propensity score와 함께 **inverse probability weighting (IPW)**를 적용합니다. 그렇지 않으면 평가는 높은 기본 참여도를 가진 power 사용자 쪽으로 편향될 것입니다.

수익 분석 시 UX 개선 효과를 광고 블록 가시성의 기술적 변화로부터 어떻게 분리할 것인가?

mediation analysis 또는 **two-stage least squares (2SLS)**가 필요합니다. 첫 번째 단계에서는 무한 스크롤이 스크롤 깊이에 미치는 효과(순수 UX)를 평가하고, 두 번째 단계에서는 깊이가 광고 노출에 미치는 효과를 평가합니다. 레이아웃의 직접 효과(화면에 광고가 덜 보임)는 do-calculus 또는 가상 광고 슬롯을 사용한 인공 통제를 통해 별도로 평가됩니다. 이 분리가 없으면 레이아웃 변경으로 인해 수익 감소로 보여지는 성공적인 기능이 잘못 제외될 수 있습니다.