질문에 대한 답변

콘텐츠 개인화는 2010년대 중반부터 현대 e-commerce 플랫폼의 필수 요소가 되었으며, Amazon과 Netflix가 추천 시스템에 대한 경제적 투자의 타당성을 입증했습니다. 전통적인 효과 평가 접근법은 통제된 실험을 수행할 것을 요구하지만, 실제 인프라에서는 성능 저하 없이 일반적인 A/B 테스트를 수행할 수 없는 기술적 제약이 자주 발생합니다.

분석가의 과제는 통제 그룹이 없는 상황에서 ML 추천 시스템을 도입했을 때 주요 제품 메트릭에 미치는 실제 효과를 분리하는 것입니다. 이 경우, 세 가지 왜곡 요인을 고려해야 합니다: 차가운 사용자에 대한 모델 학습의 시간 지연 (cold start problem), 인터페이스 변경으로 인한 일시적인 활동 증가 (novelty effect), 그리고 새로운 사용자와 재방문 사용자 간의 체계적인 차이가 selection bias를 생성합니다.

최적의 접근법은 **차이의 차이(method of differences-in-differences, DiD)**와 **합성 통제 분석(Synthetic Control Method)**의 조합입니다. 통제 그룹은 변경 후 등록된 새로운 사용자 집단이 사용되며, 기본 특성의 차이를 통해 propensity scoring을 조정합니다. cold start를 고려하기 위해, 사용자의 근속 기간에 따라 분석이 층화되고 학습 곡선 알고리즘의 개별 모델링이 진행됩니다. 새로움의 효과는 출시 후 처음 14일 동안의 메트릭 변동성을 분석하여 정적 기간과 비교함으로써 분리됩니다. 추가로, 서로 다른 도입 속도를 가진 지리적 지역을 자연 실험으로 사용하는 삼중 차이 접근법이 적용됩니다.

실제 사례

대형 패션 마켓플레이스에서는 수동 트렌드 선별로 구성된 정적 메인 페이지를 협업 필터링 기반의 ML 모델이 생성한 동적 피드로 변경할 계획이 있었습니다. 기술 팀은 Cloudflare의 Edge Cache 설정으로 인해 시스템 성능의 중대한 저하 및 응답 시간에 대한 SLA를 위반하지 않고는 사용자 수준에서 트래픽을 분리할 수 없다고 보고했습니다. 릴리즈는 모든 사용자에게 피크 시즌(11월) 중 동시에 진행되어야 했으며, 이는 블랙 프라이데이와 연말 기념일의 혼잡함으로 인해 평가를 더욱 복잡하게 만들었습니다.

첫 번째 접근법은 지난 몇 년간의 계절성을 지수로 보정하여 간단한 before-after 분석을 사용하는 것이었습니다. 이 방법은 높은 운영적 단순성이 있으며 복잡한 데이터 인프라가 필요하지 않았지만, 기간 간의 기본 추세가 변하지 않는다는 가정으로 심각한 약점을 가지고 있었습니다. 성장하는 e-commerce 시장에서는 이것이 매크로 경제적 요인과 수요 인플레이션으로 인해 효과를 40-60% 과대 평가하는 결과를 초래했습니다.

두 번째 옵션은 개인화가 먼저 도입되어 안정적으로 작동하는 모바일 애플리케이션의 사용자 행동을 기반으로 합성 통제를 구축하는 것이었습니다. 이 방법은 제품 메트릭의 특성과 계절적 변동성을 역사적 데이터의 가중치가 조합된 형태로 감안할 수 있었습니다. 그러나 웹과 모바일 간의 병렬 추세에 대한 강한 가정을 필요로 했으며, 이는 서로 다른 관객의 인구 통계 및 사용자 시나리오의 차이로 인해 충족되지 않았습니다(웹은 깊은 검색을 위해 사용되고 애플리케이션은 빠른 구매를 위해 사용됨).

세 번째 접근법은 **준실험적 차이 모델(DiD)**를 사용하여 풍부한 역사적 데이터를 가진 사용자와 cold start를 경험하는 신규 사용자 간의 메트릭 변동을 비교하는 것이었습니다. 이 방법은 사용자 유형과 시간 간의 상호 작용을 사용하여 추천 시스템의 효과를 모델 학습 효과로부터 분리할 수 있었습니다. 주요 제한 사항은 두 그룹에 동시에 영향을 미치는 체계적인 충격이 없다는 가정이 필요하며, 이는 사전 개입 기간 동안 parallel trends를 신중하게 확인해야 함을 요구했습니다.

하이브리드 접근 방식이 선택되었으며, DiD와 코호트에 대한 사후 층화 및 알고리즘 학습 곡선을 조정한 것입니다. 이 해결책은 사용자 세그먼트 간의 개별 불균일성과 시장 수준의 시간적 추세를 모두 감안할 수 있도록 했습니다. 주요 요소는 적응 속도의 자연적 변화를 활용할 수 있는 가능성이었습니다: 경험이 많은 사용자는 즉시 관련 추천을 보았고, 새로운 사용자는 신호 축적을 위해 5-7회의 세션이 필요했으며, 이는 novelty effect로 인한 왜곡 없이 시스템의 순수 효과 평가를 위한 "자연적 통제"를 생성했습니다.

분석에 따르면, 개인화의 실제 효과는 구매 전환율에 +8.3% 증가하고 평균 장부에는 +12% 증가하는 것으로 나타났지만, 이는 사용자 첫 방문 후 21일이 지나야만 발생했습니다. 처음 2주 동안에는 새로운 사용자에게서 cold start 모델로 인해 3%의 역설적인 전환율 하락이 관찰되었으며, 이는 정기 고객(+15%)의 활동 증가로 보상되었습니다. 데이터 시간 구조를 고려하지 않으면 비즈니스는 메트릭 안정화를 기다리지 않고 변경을 잘못 되돌릴 수 있으며, 이는 2억 4천만 루블의 예상 연간 수익 손실로 이어질 수 있습니다.

후보들이 자주 놓치는 점

프로덕션에서 학습 데이터와 테스트 데이터를 명확히 분리할 수 없는 상황에서 모델 학습 기간을 어떻게 올바르게 고려해야 할까요?

후보자들은 종종 ML 모델이 프로덕션에서 지속적인 온라인 학습 상태에 있다는 것을 무시합니다. 여기서 하이퍼파라미터는 실시간 스트리밍 데이터에 맞게 조정됩니다. 올바른 접근법은 추천 품질(NDCG, MAP)을 매개 변수로 사용하는 학습 곡선을 모델링하는 것입니다. 처음에 추천 품질에 대한 시간이 미치는 영향을 평가한 후, 비즈니스 메트릭에 대한 품질의 효과를 평가하는 두 단계 모델을 세워야 합니다. 관여 변수로서 사용자 데이터의 축적 효과와 알고리즘 개선 효과를 혼동해서는 안 됩니다. 데이터 축적 효과에 대한 정확한 결론을 이끌어 낼 수 없습니다.

개인화가 있는 준실험에서 평행 추세 가정을 확인하는 것이 사전 및 사후 개입 사이에서 왜 중요한가요?

DiD에서 parallel trends assumption 검증의 표준 관행은 사전 개입 기간으로 제한되지만, 개인화 시스템에서는 도입 후 추세의 발산 위험이 존재합니다. 예를 들어, 고급 가치를 가진 사용자는 개인화의 영향을 받아 구매 성장이 가속화될 수 있지만, 이탈한 사용자는 활동의 선형 하락을 계속할 수 있습니다. 후보들은 event study 방법과 동적 효과(dynamic DiD)를 사용하여 사후 기간의 추세 차이를 시각화하고 사용자와 시간의 고정 효과 모델을 통한 이질적 치료 효과 조정을 적용해야합니다.

기본 전환율이 다르고 개인화에 대한 반응성이 다른 세그먼트별 결과를 집계할 때 심슨 역설(Simpson's paradox)을 피하는 방법은 무엇인가요?

전형적인 실수는 구조적 트래픽 변화를 고려하지 않고 전체 관객에 대한 가중 평균 효과를 계산하는 것입니다. 개인화가 신규 사용자의 비율이 증가하는 시기에 도입되면(기본 전환율이 낮고 추천에서 상대적으로 높은 증가율을 가지는 경우) 집계 효과는 각 세그먼트에서 긍정적인 효과가 있을지라도 부정적일 수 있습니다. stratification을 적용하고 이를 표준화된 평균 치료 효과(standardized mean treatment effect)로 이어가거나, 결과 모델과 프로펜시티 스코어링 모델을 조합하여 명세 에러에 저항력을 제공하는 doubly robust estimation을 사용할 필요가 있습니다.