질문에 대한 답변

이러한 변경의 역사적 맥락은 2017년으로 거슬러 올라갑니다. 그때 Netflix는 5성 평점 시스템을 이진 '좋아요/싫어요'로 변경했으며, YouTube도 비슷한 선례를 따르며 싫어요 수치를 숨겼습니다. 이러한 변화는 5성 평점이 "아시아적" 인플레이션(4-5성 주위의 집중)이라는 문제와 실제 콘텐츠 소비와 잘 연관되지 않는 문제 때문이었습니다. 문제는 피드백 수집 메커니즘의 변경에 따른 순수한 효과를 계절성 카테고리, 적극적인 사용자 선정, 새로운 신호의 희소성으로 인해 협업 필터링 모델의 시간적 품질 저하와 구분하는 것입니다.

해결을 위해 콘텐츠 카테고리와 관련된 Staggered Difference-in-Differences (DiD)를 사용하여 처리된 카테고리(treatment)를 아직 전환되지 않은 카테고리(control)와 비교하고 실행 시점을 고려합니다. 직접적인 유사점이 없는 카테고리에 대해서는 Synthetic Control Method를 사용하여 통제 카테고리의 가중 조합을 생성하여 반사실을 모방합니다. 평가하는 사용자의 자기 선택의 내재성을 Heckman Correction 또는 Propensity Score Matching을 통해 시청 기록과 재직 기간을 기반으로 조정합니다. 추천 품질을 평가하기 위해 Counterfactual Evaluation을 사용하여 NDCG 및 MAP 메트릭을 홀드아웃 샘플에서 사용하고, 2-4주 동안의 소진 기간(burn-in)을 제외하여 요인 행렬의 안정성을 확보합니다.

실제 사례

스트리밍 서비스인 'CinemaFlow'는 구식의 5성 시스템을 이진 시스템으로 교체하여 사용자 참여를 증대시키려 했습니다. 핵심 문제는 팀이 세분화된 신호의 감소로 인해 추천의 예측력이 감소할 것이라는 우려와 세부적인 평점 체계에 익숙해진 사용자 활동의 급격한 감소를 두려워했기 때문입니다. 장르별 점진적 롤아웃(먼저 다큐멘터리, 그 다음 코미디)을 고려하고, 기존 평가의 가시성이 새로운 사용자의 투표 의사에 영향을 미치는 네트워크 효과를 고려하는 평가 방법을 찾아야 했습니다.

사용자 ID 수준에서 사용자를 나누는 고전적인 A/B 테스트 방안을 고려했습니다. 이 접근 방식의 장점은 실험의 순수성과 인과 효과의 해석이 단순하다는 것이었습니다. 단점은 심각했습니다: Collaborative Filtering 알고리즘이 두 가지 타입의 신호가 혼합된 하나의 행렬로 인해 무결성을 잃어버려 두 그룹 모두에 대한 추천에서 인공물이 발생하는 것으로 이어졌습니다. 또, 사회적 기능을 통해 교차 오염의 위험이 존재했고(사용자들이 다른 그룹의 친구 평가를 보았기에), 비즈니스는 하나의 제품 내에서의 분할된 UX에 대한 부정적인 반응을 우려했습니다.

대안으로는 사전/사후 분석을 사용하여 각 카테고리별로 메트릭을 비교하는 방법이 있었습니다. 장점은 기술적인 단순성과 일부 사용자에 대한 기존 시스템 유지의 필요성이 없다는 것이었습니다. 단점은 개입 효과를 시청 패턴의 계절적 변동(예: 크리스마스 영화는 12월에 다르게 평가됨)과 분리할 수 없으며, 군중 행동 효과와 새로운 시스템의 초기 추종자들의 자기 선택 효과를 무시하게 되어 편향된 평가를 초래했습니다.

Staggered DiD와 Synthetic Controls 및 Instrumental Variables의 혼합 접근 방식을 선택했습니다. 이 방법은 이진 시스템으로 아직 전환되지 않은 카테고리를 이미 전환된 카테고리의 대조군으로 사용함으로써 시간적 추세를 보정할 수 있게 해주었습니다. Synthetic Control은 장르 간 이질성을 보완했고, IV 접근 방식은 콘텐츠 배포 시간(온라인 사용자 수가 적고 군중이 약할 때)을 도구로 사용하여 평점 인터페이스의 순수한 영향을 격리하는 데 도움을 주었습니다. 이 방법은 전환 기간 동안 추천 시스템의 기능을 유지하고 데이터 접근성이 부분적으로 있을 때 편향 없는 평가를 얻기 위한 필요성에 기반하여 선택되었습니다.

결과적으로 평점 수가 220% 증가하여 인지적 부담이 감소했지만, 추천 정확도(NDCG@10)는 초기 3주 동안 12% 감소했습니다. 이 기간은 Matrix Factorization 모델의 재학습 과정과 일치하며, 그 이후 메트릭은 밀도 행렬의 증가로 인해 베이스라인까지 회복되었습니다. 이 데이터에 기반하여 제품 팀은 더 많은 새로운 사용자에 대한 차가운 시작을 위한 추가 예산과 함께 전체 롤아웃을 결정했습니다.

후보자들이 자주 놓치는 것

모델 재학습 기간 동안 추천 품질 저하 기간을 어떻게 올바르게 고려하고, 이를 새로운 시스템의 진정한 효과와 구분할 수 있을까요?

답변: 일반적으로 2-4주 상당의 '소진 기간'을 정의하여 이 시기에 추천 품질 메트릭을 주요 인과 분석에서 제외해야 합니다. Counterfactual Evaluation을 사용하여 역사적 홀드아웃 세트에서 NDCG, MAP, Precision@K와 같은 오프라인 메트릭을 전환 전과 후로 비교하되, 사용자 활동 수준에 따라 계층화해야 합니다. 메트릭 coverage와 diversity를 정확도와 분리하여 추적하는 것이 중요합니다. 이진 신호가 조정이 부족할 경우 인기 편향(popularity bias)을 증가시킬 수 있습니다.

새로운 시스템 아래에서 평가를 남길 준비가 된 사용자들의 자기 선택의 내재성을 어떻게 처리하고, 그들의 행동을 인터페이스의 효과와 구분할 수 있을까요?

답변: 이진 시스템 아래에서 콘텐츠를 평가하는 사용자는 체계적으로 '별점' 평가자와 다릅니다(극단적인 선호 경향). Heckman Correction(선택 방정식이 포함된 이 단계 모델)이나 Inverse Probability Weighting을 통해 관찰된 특성(시청 기록, 재직 기간, 세션 시간)을 기반으로 한 propensities 점수를 사용하여 조정하십시오. Instrumental Variable로는 인터페이스의 무작위 변화를 사용하거나(좋아요/싫어요 버튼의 주위 배치 순서) 집계된 평점의 가시성에 대한 A/B 테스트를 통해 데이터 수집 메커니즘의 순수한 효과를 격리합니다.

군중 행동 효과(hereing)의 양적 평가를 어떻게 하고, 이 결과를 사용자의 진정한 선호와 구별할 수 있을까요?

답변: 사용자를 '선구자'(first-movers), 즉 평점 수가 비어 있는 것을 보는 사람들과 '추종자'(followers), 즉 비어 있지 않은 평점을 보는 사람으로 나누어야 합니다. 평점의 가시성 임계값 주변에서 Regression Discontinuity Design(RDD)을 사용하십시오(예: 콘텐츠가 카테고리의 상위 10에 들어갈 때). 집계된 결과를 보는 사용자들과 '당신이 첫 번째가 되십시오'를 보는 사용자 간의 평가 확률을 비교하십시오. 동적 조정을 위해 Thompson Sampling이나 베이지안 방법을 사용하여 콘텐츠의 진정한 품질을 평가하고, 게시와 평가 사이의 시간 지연을 통해 네트워크 효과를 필터링합니다.