질문에 대한 답변

역사적 맥락

검색 결과의 품질 평가 문제는 관찰의 기본 패러독스와 관련이 있습니다: 우리는 사용자가 본 위치에서만 클릭을 볼 수 있으며, 클릭의 확률은 순위와 함께 기하급수적으로 감소합니다. **Joachims et al.**의 고전적인 연구는 position bias에 대한 이해의 기초를 마련했으며, Richardson의 examination hypothesis는 클릭이 관련성과 같지 않음을 보여줍니다. 제품 분석의 맥락에서 이는 사용자 기본 설정을 인터페이스의 아티팩트와 분리해야 함을 의미하며, 특히 전체 사용자 기반에 대해 알고리즘 순위 변경이 한 번에 영향을 미칠 때 더욱 그렇습니다.

문제 제기

검색 엔진의 글로벌 업데이트가 있을 때 관찰된 메트릭(CTR, 탐색 깊이, 전환율)은 두 가지 혼란 요소의 영향을 받습니다: 문서 순서 자체의 변화와 이들의 시청 확률 변화. 사용자를 대조군과 테스트 그룹으로 나누는 것이 불가능하므로 고전적인 A/B 테스트는 수행할 수 없으며, 계절적 변동이 릴리스 시점에 상관된 시간적 경향을 생성합니다. 분석가의 과제는 제한된 데이터에서 이러한 잡음으로부터 순수한 순위 효과를 격리하는 것입니다.

세부적인 해결책

최적의 접근 방식은 준실험 방법과 편향 수정 방법을 결합합니다. 첫 번째 단계로는 Difference-in-Differences를 사용하여 합성 대조군을 적용합니다: 메트릭 예측의 사전 처리 오류를 최소화하는 역사적 기간이나 상품 세그먼트의 가중 조합을 구축합니다. position bias 수정을 위해 **역 확률 가중치 (IPW)**를 사용하며, 여기서 propensity scores는 과거 랜덤화된 로그를 기반으로 위치 시청 확률을 통해 평가하거나 Expectation-Maximization 알고리즘을 통해 Examination-Cascade Model의 가정을 둡니다. 추가로 비선형 효과에 대해서는 상품 범주와 사용자 세그먼트에 따라 효과의 이질성을 모델링하는 Causal Forests를 적용합니다.

실제 상황

전자 상거래 마켓플레이스에서 검색 팀은 BM25를 마진 최적화에 맞춘 신경망 BERT 기반 랭커로 교체했습니다. 출시 2주 후, 검색 세션 당 GMV 메트릭이 18% 증가했지만, 탐색 깊이는 25% 감소했습니다. 비즈니스는 증가가 알고리즘 때문인지 아니면 출시 시점과 일치한 세일 시작 때문인지 불확실해하며, 요청의 긴 꼬리에서 사용자 경험의 저하에 대해 우려했습니다.

첫 번째 옵션은 출시 전후 메트릭을 단순 비교하는 것이었습니다. 이점은 신속하고 복잡한 인프라가 필요 없다는 것이었습니다. 그러나 단점은 명백합니다: 세일의 계절 효과와 알고리즘 효과를 분리할 수 없고, position bias를 무시하게 됩니다(새 알고리즘이 비싼 상품을 더 높이 보여줄 수 있으며, 이는 더 많은 수익을 가져오기 때문이지 반드시 더 관련성이 있기 때문이 아닙니다)와 전반적인 수요 인플레이션을 고려하지 못합니다.

두 번째 옵션은 Interrupted Time Series (ITS) 분석으로, Prophet 또는 SARIMA를 통한 계절 분해가 포함되었습니다. 이는 출시 없이 메트릭의 반사이성 예측 가치를 구축하면서 경향성과 계절성을 고려할 수 있게 해주었습니다. 장점으로는 통계적 엄밀성과 자기 상관성을 모델링할 수 있는 가능성이 포함되지만, 단점으로는 기점의 민감성과 비즈니스의 계수 해석 복잡성, 대규모 프로모션 캠페인 중에 선형 경향을 가정하는 것이 항상 위반될 수 있다는 점이 있습니다.

세 번째 옵션은 상품 범주 수준에서 Synthetic Control Method의 개발이었습니다: 변경되지 않은 요청이나 범주의 가중된 바구니를 만들어 비교 대조군으로 설정하는 것입니다(예: 특정 지역에서의 기술적 제한으로 인해 알고리즘이 변경되지 않았다는 이유로). 장점으로는 이해 관계자들에게 시각적으로 명확하고 직관적이며, 오류 분포 형태에 대한 가정에 대한 민감도가 낮아집니다. 단점으로는 비슷한 동적을 가진 적절한 대조군을 식별해야 하는 필요성과 가중치 선택 시 과적합(overfitting)의 위험이 있다는 점입니다.

결국 선택된 하이브리드 방법론은 Diff-in-Diff와 합성 대조군을 결합하고, 표출된 위치에 대해 IPW 수정을 적용했습니다. 이를 통해 순위 변경 효과를 계절적 급증으로부터 격리하며 비싼 상품이 이제 더 자주 상위 위치에 노출되는 왜곡을 수정할 수 있었습니다. 이는 데이터의 시간 구조와 노출에서의 구조적 편향을 동시에 고려할 필요성에 의해 결정되었습니다.

결과적으로 18% 증가한 GMV 중 14%가 알고리즘에 의해 설명되며 나머지 4%는 계절성으로 나타났습니다. 또한 head-요청(빈도 기준 상위 20%)에서 전환율이 22% 증가한 반면, tail-요청에서는 15% 감소했으며, 평균 주문 금액의 증가로 상쇄되었습니다. 이는 인기 있는 요청에는 신경망 랭커를 사용하고 덜 일반적인 요청에는 고전 알고리즘을 사용하는 하이브리드 모델을 구현하게 만들었습니다. 이를 통해 메트릭이 균형을 이루게 되었습니다.

후보자들이 자주 간과하는 점

무작위 실험이 없는 경우 position bias를 어떻게 정확하게 고려하나요?

특별한 무작위 노출 없이 propensity를 평가할 수 있는 방법은 Expectation-Maximization 알고리즘을 사용하는 것입니다. 이는 클릭 = examination × relevance라고 가정합니다. 후보자들은 종종 단순히 위치를 회귀 분석의 특성으로 추가하라고 제안하지만, 이는 위치와 관련성 간의 비선형 상호작용을 무시합니다. 올바른 접근 방식은 Click Models(Cascade Model 또는 DBN - Dependent Click Model)을 사용하여 examination probability를 평가한 후, 이 확률에 반비례하여 관측치를 가중하는 것입니다(IPW). 그렇지 않으면 순위 효과에 대한 평가가 상위 결과로 편향될 것입니다.

알고리즘 변경 전후 클릭을 단순 비교할 경우, 계절성을 고려하더라도 편향된 평가를 왜 주는가?

position bias 외에도 exploration vs exploitation 및 user learning 효과가 있습니다. 새로운 알고리즘이 더 예측 가능한 결과를 제공하여 탐색(explore)을 줄일 수 있으며, 이는 단기적으로 engagement를 감소시킵니다. 또는 사용자가 새로운 결과 구조에 적응함에 따라 스크롤 패턴이 바뀌게 되어 (scrolling behavior), 이는 시계열 분석의 고정성 가정을 무너뜨릴 수 있습니다. 후보자들은 비회귀(pre-period) 데이터에서 Diff-in-Diff의 parallel trends assumption을 검증하는 필요성과 집계의 지연(lag)의 중요성을 간과합니다 (요일 효과로 인해 매일 비교할 수 없고, 최소한 주 단위의 집계가 필요합니다).

요청-상품의 매칭 개선 효과와 상위 결과의 상품 구성이 변화하는 효과를 어떻게 구별할 수 있는가?

이 차이는 LTV에 대한 장기적인 영향을 이해하는 데 중요합니다. 새로운 알고리즘이 결과를 비싼 상품으로 편향시키고 (assortment shift), 사용자의 의도를 더 잘 이해하지 못하는 경우 (relevance improvement), 전환율의 증가는 단기적으로 신선한 효과에 의해 촉발될 수 있습니다. 구분을 위해서는 Causal Forests 또는 Meta-learners(S-Learner, T-Learner)를 고정된 상품 효과(product fixed effects)와 함께 사용하여 변경 전후의 동일한 상품을 다른 위치에서 비교해야합니다. 만약 이 효과가 상위 상품의 조성 변경으로만 나타나면(예: 예산 옵션의 사라짐) 이는 다른 제품 반응을 필요로 하며, 특정 상품의 고정된 위치에서 CTR이 개선된 경우와는 다릅니다.