質問への回答

歴史的背景。 コ共同ブラウジングの概念は、B2B分野（顧客サポート）からソーシャルコマース（例えば、モバイルアプリの「一緒に買い物」機能）へと移行しました。従来の分析は、ユーザーの独立性を前提としたSUTVA（Stable Unit Treatment Value Assumption）に依存していました。しかし、社会的な機能はこの前提を破壊し、1人のユーザーの行動がその関係者の行動に影響を及ぼすため、従来のA/Bテストは方法論的に不正確になります。

問題の設定。 標準的な平均比較（difference-in-means）は、interference（相互汚染）により偏った評価を提供します。テストグループから友人に招待されたコントロールグループのユーザーは、行動が変わり、スピルオーバー効果が生じます。社会的活動による自己選択が共変量の分布を歪め、段階的なロールアウトは季節性や新奇性の影響などの時間的交絡因子を持ち込みます。

詳細な解決策。 社会的関係のグラフレベルでクラスタランダム化（cluster randomized trial）を適用し、コミュニティ検出アルゴリズム（LouvainやLeiden）を使用して、最小の結合性を持つクラスタを作成することが必要です。完全なランダム化が不可能な場合は、異方向に導入された差分の差分（staggered DiD）を使用し、Callaway-Sant’AnnaやSun-Abrahamの方法を通じてヘテロジニアスな影響を補正します。ネットワークからの直接的な効果を分離するために、エクスポージャーマッピング（exposure mapping）を適用します：コントロールグループの「感染」度をテスト内の友人の割合として定義し、これを回帰の共変量として組み込みます。または、2SLS（二段階最小二乗法）を用い、地理的クラスタによる機能の可用性をIV（操作変数）として実際の使用を分析します。コンバージョンまでの時間分析には、リスクの集約を考慮した共有フレイルモデル（shared frailty model）が適しています。

実生活の状況

問題の説明。 マーケットプレイスは「一緒に買う」機能を導入し、2人のユーザーが同時にカタログを閲覧し、リアルタイムで共有カートを編集できるようにしました。10%のオーディエンスでのパイロットは8%のコンバージョンの増加を示しましたが、チームは評価の過大評価を疑っていました：コントロールグループのユーザーはテストグループの友人から招待を受け取っており、グループ間で汚染が生じていました。また、この機能は既存の社会的関係を持つユーザーによって主に利用されていました（エンゲージメントによる自己選択）。

オプション1：アダプターグループの「前後」単純比較。 このアプローチでは、co-browsingを利用し始めたユーザーの指標を、彼らの過去のデータまたは機能のない類似のユーザーと比較します。利点は明らかです：計算は数分で終了し、ビジネスでも簡単に解釈され、実験の複雑なインフラは不要です。しかし、欠点は重大です：この方法は季節性や成熟効果を完全に無視し、また、社会的に活発なユーザーはもともと高い基本コンバージョンを持つため、自己選択の偏りに悩まされます。

オプション2：ボタンの可用性のランダム化を伴うIntent-to-Treat（ITT）分析。 ここでは、友人を招待する機能を異なるコホートにランダムに提供し、使用したかどうかに関係なく、最終的な指標を比較します。利点には、割り当ての統計的なランダム性を保持することや、ネットワーク外部性を含む導入政策の全体的な効果を評価できることが含まれます。欠点は、効果が薄まることです：多くの人がアクセスしますが、機能を使用しないため、サンプルサイズを3〜4倍に増やす必要があることです。ITTは、実際のユーザー（TOT）にとっての効果に関する質問には答えられません。

オプション3：友人の数のしきい値に基づく回帰不連続デザイン（RDD）。 この方法は、機能をアクティブ化するための厳格なしきい値（たとえば、5人の友人）を使用し、カットオフポイントの周りで準実験を作成します。利点には、しきい値の周りでの割り当ての局所的なランダム性があり、全体のオーディエンスの完全なランダム化が不要です。しかし、重要な欠点があります：効果は「境界」ユーザーにのみ局所的であり、操作される可能性（偽の友人の追加）があり、しきい値を越えたユーザー間での汚染の問題を解決できません。

選択された解決策とその根拠。 クラスターランダム化のオプション2が選ばれました：アナリストは社会的関係のグラフを構築し、Louvainアルゴリズムを使用して密なコミュニティを特定し、ユーザーではなくコミュニティレベルでのアクセスをランダム化しました。これにより、テストとコントロール間の汚染が最小限になります。評価にはエクスポージャー変数モデルを使用しました：各ユーザーがテストクラスタ内の友人の割合（スピルオーバーの強度）を計算し、回帰因子として組み込みました。これにより、機能の直接効果と社会的証明を通じた間接的影響を分離できました。

最終結果。 真の直接効果（TOT）は、コンバージョンに対して+3.2%（生の評価では8%）でした。しかし、招待の社会的影響によって、コントロールグループに対して有意なプラスのスピルオーバー（+1.8%）が確認されました。政策の総効果（ITT）は+2.1%でした。ネットワーク効果を考慮しなければ、チームはこの機能の価値を過小評価し、「十分に効果的ではない」としてプロジェクトを却下していたでしょう。一方、スピルオーバーを考慮すると、機能は4ヶ月で回収されるものでした。

候補者が見落としがちな点

1. なぜ標準的なA/Bテストが社会的機能で偏った評価をもたらすのか？ 標準テストはSUTVAを前提としており：1人のユーザーへの影響は他のユーザーに影響を与えないことを前提としています。共同ブラウジングでは、コントロールユーザーがテストグループからの招待を受けると行動が変わり（スピルオーバー）、interference biasを生じます。ATE（Average Treatment Effect）の評価は、直接的および間接的な効果の加重混合となり、しばしばゼロに接近します。解決策：クラスタランダム化（ネットワーククラスタレベルでのランダム化）またはinverse probability weighting手法を用いてネットワーク構造に対する補正を行います。

2. どのようにして統計的に直接効果、スピルオーバー効果、および総効果を分離するか？ 候補者はITT（Intent-to-Treat）とTOT（Treatment-on-Treated）を混同します：ITTは機能のオファーの効果を全てのコホートに評価し、利用したかどうかに関係なく、TOTは実際のユーザーの効果を分離します。効果を分離するためにPrincipal Stratification（原則的層化）を適用し、ユーザーをコンプライアンスのタイプ（compliers、always-takers）で分類し、CACE（Complier Average Causal Effect）を評価します。スピルオーバーはエクスポージャーマッピングを通じて評価され、間接的な影響の強度はテスト内の関係の割合で近似されます。総効果は、エクスポージャーの分布に基づいて直接的および間接的な効果の加重和となります。

3. なぜ標準的なDiD（Difference-in-Differences）が段階的ロールアウトで不正確なのか？ 段階的導入では、初期のコホートが後のコホートに対してコントロールを提供しますが、後のコホートが初期のコホートに対してコントロールを提供することはありません。これにより、ヘテロジニアスな効果に対して負の重みの問題（negative weighting）が発生します。そのため、このデザインのクラシックな2期間DiDは、異なる期間の効果を間違った重みで混合し、偏った評価をもたらします。その代わりに、Callaway-Sant’AnnaやSun-Abraham推定量を使用し、never-treatedまたはnot-yet-treatedの観察値のみをコントロールとして使用します。別の選択肢として、never-treatedのグループのドナープールに基づいた各コホートのための合成コントロール法があります。