질문에 대한 답변

역사적 맥락은 음성 인터페이스가 단순한 명령 체계에서 변환기 기반의 완전한 NLP 솔루션으로 발전해왔음을 시사합니다. 하지만 이들 평가의 방법론은 기술 채택의 이질성으로 인해 여전히 복잡합니다. 문제는 기능이 특정 기술적 사양을 가진 장치에서만 사용 가능하여 시스템적 선택 편향을 초래하며, 지리적 롤아웃이 무작위 분포 원칙을 위배한다는 것입니다. 진정한 효과를 격리하기 위해서는 지역 및 시간에 대한 고정 효과를 포함한 Difference-in-Differences 조합과 독특한 언어 패턴을 가진 지역에 대한 Synthetic Control Method, 그리고 기능 사용의 내생성을 수정하기 위한 Instrumental Variables를 사용해야 합니다.

실제 상황

전자 상거래 마켓플레이스에서 음성 검색 기능이 먼저 모스크바와 상트페테르부르크에서 시작되어 점진적으로 지역으로 확산될 계획이 있었습니다. 문제는 기능이 iPhone XS 이상과 iOS 15+에서만 작동하며, on-device ML을 지원하는 최신 Android 플래그십 모델에서도 작동한다는 것이었습니다. 이는 소득 및 기술적 인지에 대한 편향을 초래했습니다. 게다가 도입 시기가 연말 수요 증가와 겹치면서 "이전-이후"의 직접 비교를 왜곡했습니다. 팀은 평가 방법 세 가지를 고려했습니다.

첫 번째 옵션은 기능이 있는 지역과 없는 지역의 평균 메트릭을 동일한 시간 동안 단순 비교하는 것이었습니다. 이 접근의 장점은 구현이 간단하고 결과를 신속하게 얻을 수 있다는 점입니다. 단점은 지역 간 시스템적 차이를 고려하지 못하는데(모스크바는 역사적으로 더 높은 전환율을 보여줍니다), 기능의 효과와 계절적 트렌드를 분리할 수 없다는 점입니다. 이 옵션은 높은 거짓 긍정 가능성으로 인해 기각되었습니다.

두 번째 옵션은 Propensity Score Matching을 사용하여 음성 검색이 없는 사용자로 구성된 통제 그룹을 만들었습니다. 장점은 관찰된 특성에 대한 편향을 없애려는 시도입니다. 단점은 장치 소유 및 구매 의지에 동시에 영향을 미치는 관찰되지 않는 요인(예: 기술 조기 수용 성향)을 고려할 수 없다는 것입니다. 또한, matching은 지역 고정 효과가 있을 때 비효율적입니다.

세 번째 옵션은 지역 수준의 Difference-in-Differences와 사용자 수준의 Instrumental Variables를 결합했습니다. 도구로는 장치에서 기능의 기술적 접근 가능성을 신호로 사용하여(스마트폰 모델과 OS 버전에서 의존하지만, 사용자의 직접적인 선호와는 무관합니다) Two-Stage Least Squares를 통해 실제 사용을 예측했습니다. 특이한 방언이 있는 지역(카잔, 노보시비르스크)에서는 Synthetic Control을 적용하여 이전 전환 트렌드에 따라 통제 지역을 가중 적용했습니다. 장점은 접근 가능성 효과와 사용자 자기 선택 효과를 분리하고 지역 트렌드를 통제할 수 있다는 것입니다. 단점은 Local Average Treatment Effect (LATE)의 해석이 복잡하고, 평행 트렌드에 대한 가정이 요구된다는 것입니다. 이 옵션은 가장 견고한 방법으로 선택되었습니다.

분석 결과, 음성 검색 기능은 호환 가능한 장치 사용자들 사이에서 조회 깊이를 18% 증가시키는 인크리멘탈 증가를 가져오지만, 구매 전환에는 통계적으로 유의미한 효과가 발견되지 않았습니다. 더구나 기술 용어가 포함된 카테고리(컴퓨터 부품)에서는 특정 용어 인식 오류로 인해 전환율이 감소하는 것을 관찰했습니다. 이는 팀이 로드맵을 수정하게 했습니다: 기술 용어 인식을 개선한 후 확대하고, 음성 검색이 가장 좋은 결과를 나타낸 "단순한" 제품 카테고리(가전제품)에 마케팅을 집중하도록 했습니다.

후보자들이 자주 놓치는 점

음성 인터페이스 평가 시 단기적인 새로움 효과(novelty effect)를 어떻게 지속적인 행동 변화와 분리할 수 있을까요?

후보자들은 종종 적응의 시간 동역학을 무시합니다. 기능 처음 사용일 기준으로 코호트 분석을 구축하고 3-4주 기간 동안 유지 사용량을 추적해야 합니다. 사용 빈도가 기저 수준으로 감소하는 경우, 그것은 새로움 효과입니다. 정확한 평가를 위해서는 정착된 기간(steady state)만 사용하거나 코호트 생애 시간에 따라 관찰을 가중해야 합니다. 또한 사용 빈도에 따른 효과의 이질성을 검토하는 것이 중요합니다. 파워 사용자들은 지속적인 행동을 보일 수 있지만, 우연한 사용자는 새로움 효과의 영향을 받을 수 있습니다.

사용자가 음성 검색을 활성화했지만 인식 오류로 인해 결과를 얻지 못한 경우 데이터에서 제로값(zeroes)을 어떻게 정확하게 처리해야 할까요?

표준 선형 회귀 또는 로지스틱 모델은 혼합 분포로 인해 여기서 적절하지 않습니다: 많은 제로(실패 시도)와 긍정적 결과의 연속 분포가 있습니다. Two-part model (장애물 모델) 또는 Zero-Inflated Negative Binomial을 적용해야 합니다. 모델의 첫 번째 부분은 성공적인 검색 가능성을 평가하고(선택 방정식), 두 번째 부분은 성공 시 사용 강도를 평가합니다(결과 방정식). 이러한 구조를 무시하면 효과 평가가 과소평가되며, 실패한 시도가 흥미 부족으로 잘못 분류되기 때문입니다.

왜 이 경우 모든 사용자를 지역 도입군과 통제 지역에서 단순 Intent-to-Treat(ITT) 비교를 사용하는 것이 적절하지 않은가요?

ITT 분석은 기능 접근 가능성 효과와 실제 사용 효과를 혼합하여 평가를 왜곡합니다. 만약 오직 10%의 청중만이 호환 장치를 가지고 있고 이 중 20%만이 기능을 시도한다면, ITT는 실제 사용자에게 100%의 효과를 보더라도 2%의 효과를 보여줄 수 있습니다. 비즈니스 결정에서 중요하게 고려되어야 하는 것은 Treatment-on-Treated (TOT) 효과 또는 도구 변수를 통해 얻어진 **Local Average Treatment Effect (LATE)**입니다. 후보자들은 여기서 compliance(준수)가 100%가 아님을 간과하고, 실제로 기능을 사용하는 사람들에게 진정한 효과를 얻기 위해 ITT 평가를 준수 비율에 반비례하여 조정해야 한다는 것을 알아야 합니다.