質問への回答

このような変更の歴史的背景は2017年に遡ります。その年、Netflixが5つ星のスケールを廃止し、二項の「いいね/よくないね」に切り替え、YouTubeがそれに続いて「嫌い」の表示を非公開にしました。これらの変更は、5つ星の評価が「アジア的」なインフレ（4〜5つ星周辺の密度）を示し、実際のコンテンツの消費と相関が悪かったため、導入されました。問題は、フィードバック収集メカニズムの変更による純粋な効果を、季節的変動、アクティブユーザーの自己選択、そして新しい信号のまばらさによる協調フィルタリングモデルの一時的な劣化による混乱因子から隔離することです。

解決策として、段階的差分法（DiD）を用いて、処理カテゴリー（treatment）をまだ移行していないカテゴリー（control）と比較し、導入の時期の違いを考慮します。直接的な類似がないカテゴリーには合成コントロール法を用い、コントロールカテゴリーの加重組み合わせを作成して反事実を模倣します。評価ユーザーの自己選択の内生性は、視聴履歴や在籍期間に基づくヘックマン補正またはプロペンシティスコアマッチングで調整されます。推薦の質の評価には、反実評価を用い、保持サンプルでNDCGやMAPメトリクスを持ち込み、質が安定するために約2〜4週間の焼き付き（burn-in）期間を除外します。

実生活の状況

ストリーミングサービス「CinemaFlow」は、古い5つ星のシステムをバイナリに置き換えることを計画しており、エンゲージメントを高めることを狙っています。主要な問題は、チームがシグナルの粒度の低下による予測力の喪失を懸念しており、また詳細なスケールに慣れたユーザーの活動の急激な減少を心配していたことです。ジャンルごとの段階的な展開（最初はドキュメンタリー、その後はコメディなど）や、既存の評価が新規ユーザーの評価意欲に影響を与えるネットワーク効果を考慮する方法を見つける必要がありました。

ユーザーIDのレベルでユーザーを分けたクラシックなA/Bテストの選択肢が検討されました。このアプローチの利点は、実験の純度と因果効果の解釈の簡便さです。しかし、欠点は重大です：協調フィルタリングアルゴリズムは、1つの行列の中で2つのタイプのシグナルが混在することにより全体性を失い、両方のグループに対する推薦にアーティファクトを生み出しました。さらに、社会的機能を通じてのクロスコンタミネーションのリスク（ユーザーが他のグループの友人の評価を見てしまう）が存在し、ビジネスは1つの製品内での断片化されたUXに対するネガティブな反応を恐れていました。

代替案として、各カテゴリーの移行前後のメトリクスを比較する前後分析が選ばれました。利点は、技術的に単純であり、ユーザーの一部に旧システムを保持する必要がないことでした。しかし、欠点には介入の効果を視聴の季節的変動（例えば、クリスマス映画は12月に異なる評価を受ける）から分離できないこと、群衆行動の効果や新しいシステムの初期の支持者の自己選択の影響を無視することが含まれ、偏った評価を引き起こしました。

合成コントロールと計器変数を用いた段階的DiDのハイブリッドアプローチが選ばれました。この方法により、二項システムにまだ移行していないカテゴリーを制御として使用し、時間的トレンドを調整できました。合成コントロールはジャンル間の異質性を補償し、コンテンツの配置時間（オンラインユーザーが少なく、群衆効果が弱まる時間帯）を工具として使用するIVアプローチが評価システムの純粋な影響を隔離するのに役立ちました。これは、移行中に推薦システムの機能を維持し、部分的に利用可能なデータに対して偏りのない評価を得る必要から生じた選択です。

最終的な結果は、評価の量が220%増加したことを示しました。これは、認知負荷の軽減によるものですが、推薦の精度（NDCG@10で測定）は最初の3週間で12%低下しました。この期間は、モデルの行列分解が再学習されるものであり、その後、メトリクスは行列の密度の増加によってベースラインに回復しました。これらのデータに基づき、製品チームは新規ユーザーのための冷起動予算を追加して完全なロールアウトを決定しました。

候補者が見落とすことが多い点

モデル再学習中に推薦の質が劣化する期間を適切に考慮し、それを新システムの真の効果から分離するにはどうすればよいでしょうか？

回答：通常2-4週間の「焼き付き期間」（burn-in period）を定義し、その間の推薦の質を測るメトリクスは主要な因果分析から除外する必要があります。反実評価を使用して、歴史的保持サンプルを用いて、移行前後のオフラインメトリクス（NDCG, MAP, Precision@K）を比較しますが、ユーザーの活動レベルに基づいて層別化します。重要なのは、カバレッジや多様性のメトリクスを精度とは別に追跡することであり、バイナリシグナルが不十分な正則化で人気の偏り（popularity bias）を増加させる可能性があるからです。

新しいシステムの下で評価を残そうとするユーザーの自己選択の内生性をどのように処理し、それをインターフェースそのものの効果から区別するべきですか？

回答：バイナリシステムでコンテンツを評価するユーザーは、システムが切り替わる前の「星評価」を行うユーザーとは体系的に異なります（極端な好みに偏る傾向があります）。ヘックマン補正（選択方程式を伴う二段階モデル）や、観察された特性（視聴履歴、在籍期間、セッション時間）に基づいて計算されたプロペンシティスコアに対する逆確率重み付けを使用します。計器変数には、インターフェースのランダムな変動（いいね/よくないねボタンの配置順）や、データ収集メカニズムの純粋な効果を隔離するための集計評価の可視性に関するA/Bテストを使用します。

評価の量を分析する際に、群衆行動の効果を定量的に評価し、ユーザーの真の好みから区別するにはどうすればよいでしょうか？

回答：ユーザーを「先駆者」（first-movers）と「追従者」に分け、評価カウンターが空の状態を見ているユーザーと、ゼロ以外の評価数を見ているユーザー間の差を利用します。評価のしきい値（例えば、コンテンツがカテゴリーのトップ10に入るとき）のまわりで回帰不連続デザイン（RDD）を適用します。集計結果を見ているユーザーと、「最初に評価してください」と見ているユーザーの評価の確率を比較します。動的な調整には、トンプソンサンプリングやベイズ法を使用して、公開後の評価間の時間的ラグをフィルターとしてコンテンツの真の質を評価します。