検索結果の品質評価の問題は、観測の根本的なパラドックスに関連しています:ユーザーが見た位置のみでクリックが発生しますが、ビューの確率はランクとともに指数関数的に減少します。Joachims et al.によるposition biasや、Richardsonによるexamination hypothesisに関する古典的な研究は、クリックが関連性と等しくないことを理解するための基礎を築きました。製品分析の文脈では、ランキングアルゴリズムの変更がユーザー基盤全体に同時に影響を及ぼす際に、ユーザーの真の好みをインターフェースのアーティファクトから分離する必要が生じます。
検索エンジンのグローバルアップデートの際に観測されるメトリック(CTR、ビュー深度、コンバージョン)は、文書の順序の変更とそれらの閲覧確率の変更という二つの混乱因子の影響を受けます。ユーザーをコントロール群とテスト群に分けることができないため、従来のA/Bテストは不可能であり、季節的変動がリリースのタイミングに相関する時間的トレンドを生み出します。アナリストの課題は、データが限られている中で、ランク付けの純粋な効果をこれらのノイズから分離することです。
最適なアプローチは、準実験手法とバイアス補正手法を組み合わせています。最初のステップでは、Difference-in-Differencesを使用し、合成コントロールによって、メトリックの事前処理予測誤差を最小化するための歴史的期間または商品のセグメントの加重組み合わせが構築されます。position biasの補正にはInverse Propensity Weighting (IPW)を使用し、propensity scoresは過去のランダム化ログに基づく位置の視聴確率またはExpectation-Maximizationアルゴリズムを通じて評価されます。さらに、非線形効果に対しては、製品カテゴリーやユーザーセグメントごとの効果の異質性をモデリングするCausal Forestsが適用されます。
エレクトロニクスマーケットプレイスでは、検索チームがBM25を利益最適化された神経ネットワークベースのBERTランカーに置き換えました。リリースから2週間後、GMVのメトリックが検索セッションあたり18%増加しましたが、ビュー深度が25%減少しました。ビジネス側は、成長がアルゴリズムに起因するのか、リリースと同時に始まったセールに起因するのか、またリクエストのロングテールにおけるユーザー体験の劣化を懸念しました。
最初の選択肢は、リリース前後のメトリックの単純な比較をt-testで行うことでした。利点は迅速で、複雑なインフラを必要としないことです。しかし、欠点は明らかで、セールの季節効果をアルゴリズムの効果から分離できず、position biasを無視してしまうこと(新しいアルゴリズムは、高利益の製品を前に表示する可能性があるため、必ずしも関連性が高いとは限らない)、およびプロモーション中の需要のインフレを考慮しないことです。
二番目の選択肢は、Interrupted Time Series (ITS)分析で、ProphetまたはSARIMAを介した季節的分解を行うことでした。これにより、トレンドと季節性を考慮し、リリースなしのメトリックの反実仮想的な予測値を構築できるようになります。利点には統計的厳密さと自己相関のモデリングが含まれ、欠点には、もしリリースが段階的であった場合の分岐点への感受性、ビジネス向けの係数の解釈の複雑さ、そしてトレンドの直線性に関する仮定が含まれ、これはeコマースの大規模プロモーション中によく破られます。
三番目の選択肢は、商品のカテゴリーレベルでのSynthetic Control Methodの開発でした。これは、アルゴリズムが変更されなかった検索クエリまたはカテゴリの未使用データからなる加重バスケットを作成し、比較のためのコントロールグループとしました。利点は視覚的な明快さとステークホルダーにとっての直感性、そして誤差分布の形状に関する仮定への感受性が低いことです。欠点には、リリース全体での似た動態を持つ適切なコントロールユニットの特定が必要であること(これはグローバルなリリースでは難しい)や、重みの選定において過学習のリスクが含まれます。
最終的に、商品カテゴリーのレベルでのDiff-in-Diffに合成コントロールを組み込んだハイブリッド手法が選ばれ、閲覧位置のIPW補正が組み合わせられました。これにより、ランキング変更の効果を季節的なピークから分離し、高価格商品が上位に表示されることによる歪みを修正できました。この選択は、データの時間構造と露出に関する構造的バイアスの両方を考慮する必要があったためです。
結果として、GMVの18%の増加のうち14%がアルゴリズムによるもので、残りの4%が季節性によるものであることが明らかになりました。また、head-クエリ(頻度が上位20%)ではコンバージョンが22%増加し、tail-クエリでは15%減少しましたが、平均取引額の増加により相殺されました。これにより、人気のあるクエリには神経ネットワークランカーを、稀なクエリには従来型のランカーを使用するハイブリッドスキームを導入することが決定され、指標がバランスを取りました。
ランダム化された実験がない場合は、どのようにしてposition biasを適切に考慮しますか?
特別なランダム化された表示がない場合、propensityはExpectation-Maximizationアルゴリズムを使用して評価でき、クリック=examination×relevanceという仮定に基づきます。候補者はしばしば単に回帰に位置を特徴として追加することを提案しますが、これは位置と関連性間の非線形相互作用を無視します。正しいアプローチは、Click Models(Cascade ModelまたはDBN - Dependent Click Model)を使用してexamination probabilityを評価し、その後、観測値をこの確率に反比例して重み付けすることです(IPW)。これがないと、ランキング効果の評価はtop-heavyな結果に偏ります。
アルゴリズム変更前後のクリックを単純に比較することが、なぜ季節性を考慮しても偏った評価を生むのか?
position biasの他に、exploration vs exploitationおよびuser learningの効果があります。新しいアルゴリズムは、より予測可能な結果を提供するために探索する量を減らし、短期的にengagementを低下させる可能性があります。逆に、ユーザーは新しい出力構造に適応し、スクロールパターンを変えることができ、これが時系列分析のstationarity仮定を破ります。候補者は、Diff-in-Diffにおけるpre-periodデータでのparallel trends assumptionの検証の重要性と、集計におけるラグの重要性(曜日効果があるため、日ごとに比較するわけにはいかず、少なくとも週単位の集計が必要)を見落としています。
クエリと商品のマッチング効果とトップ出力の品揃えの変化の効果をどのように区別しますか?
この違いは、LTVへの長期的な影響を理解するために重要です。新しいアルゴリズムが高価格の商品に出力を偏らせる(assortment shift)だけで更新によってユーザーの意図をよりよく理解する(relevance improvement)のでなく、コンバージョンの増加が新しい効果によって短期的に発生する可能性があります。これを区別するためには、Causal ForestsまたはMeta-learners(S-Learner、T-Learner)を使用して商品の固定効果(product fixed effects)を考慮し、変更前後の異なる位置で同じ商品の比較を行います。効果がトップの品揃えの入れ替えによってのみ観察される(例:予算オプションの消失)場合、それは異なる製品反応を要求しますが、特定の商品の固定された位置でCTRが改善された場合はそうではありません。