質問への回答

eコマースのテキスト検索からマルチモーダルインターフェースへの進化は、2010年代中頃にモバイルアプリで**畳み込みニューラルネットワーク（CNN）**が登場して始まりました。ここでのA/Bテストの古典的アプローチは、ハードウェアの断片化に直面します。同じビジュアル検索アルゴリズムが、フラッグシップデバイスと低価格スマートフォンで異なる精度を示します。

初期の研究では、低価格デバイスを使用しているユーザーは体系的に異なる閲覧パターンを持っており、これが標準的な計量経済モデルにおける共変量に対する誤差の独立性に関する仮定の違反を引き起こすリスクを生じます。そのため、t検定や基本的回帰による単純なグループ比較は、方法論的に無効とされます。

根本的な内生性は、採用レベルでの自己選択から生じる: 技術に精通したユーザー（アーリーアダプター）は、新機能を試す傾向があり、同時に高いベースラインコンバージョンを持っています。さらに、構造的なカニバリゼーションが観察されます: ビジュアル検索はテキスト検索からクエリを「奪う」一方で、低情報のテキストクエリを高情報のビジュアル埋め込みに変換します。

カメラの品質の技術的な不均一性は、SESプロファイルに相関する追加の測定エラーを導入します。選択バイアスを制御する標準的な方法、例えば傾向スコアマッチングは、ユーザーの視覚リテラシーにおける観察されない不均一性のために不十分です。

最適な戦略は、カメラのハードウェア能力（望遠レンズの有無、ナイトモードのサポート）を道具変数（IV）として使用した**二段階最小二乗法（2SLS）**です。除外制約は、カメラの仕様が視覚検索の利用可能性を通じてのみコンバージョンに影響を与え、収入に相関する特性を通じて影響を与えないことが条件となります。

道具の妥当性は、カメラのロットにおける外生的変動を用いた過剰同定テストによって検証されます。カニバリゼーションには主要層化を適用し、テキスト検索からの切り替えの確率に基づいてユーザーを層に分けます。

異質な処置効果は、因果フォレストを通じてデバイスタイプレベルでクラスタリングすることで評価され、ハードウェアクラス内の誤差の相関を考慮します。加えて、外部条件ではなく認識からの効果を孤立させるために、撮影メタデータ（露出に関するEXIFデータ）が制御されます。

実際の状況

ファッションマーケットプレイス「FashionHub」のチームは、トラフィックの20％でビジュアル検索を開始し、アダプターのコンバージョンが18％増加したことを観察しました。しかし、監査により、70％のiPhone 12+ユーザー（高品質カメラ）がテストグループに含まれ、Androidの低価格セグメントがコントロールに残され、ハードウェアベースの混乱を生じました。重要な指標は、購入前に表示された商品カードの平均数がプレミアムデバイスセグメントで不均一に増加したことです。

アダプターvs非アダプターの粗い比較は、コンバージョンに+18％の評価を与えることになりますが、生存バイアスを伴います。商品画像を撮影したユーザーは、すでに高い購入意図を示し、UXにおける摩擦に対する耐性を持っていました。このアプローチの利点は、解釈のシンプルさと結果を得る速さです。欠点は、技術的に優れた聴衆の高いベースラインコンバージョンから機能の因果効果を分離できないことです。

**地理的なロールアウトでは、Difference-in-Differencesを使って、まずモスクワ（プレミアムスマートフォンの高い浸透率）で開始し、1ヶ月後に地域で展開することを計画しました。**利点は、時間的トレンドやファッションの季節性を考慮できることです。欠点は、地域ごとに可処分所得やファッション価値が異なり、平行トレンドの仮定を破ることです; モスクワの聴衆はデジタル機能の新奇性への弾力性が体系的に異なりました。

道具変数と傾向スコアマッチングを用いて、視覚検索をオートフォーカスや**光学式手ブレ補正（OIS）**がないデバイスで実行する技術的な不可能性を自然実験として利用しました。互換性のあるデバイスを持つユーザーは、同様のデモグラフィーとテキスト検索の履歴を持つが、非互換デバイスを持つユーザーと比べられました。利点は、道具の外生性（ハードウェアが購入決定の前にある）です。欠点は、関連性の要件がファーストステージF統計を通じて確認され（45を構成し、閾値は10以上）、除外制約がカメラが検索を通じてのみ購入に影響を与えるとの確信を求められました。

照明条件をAPIで制御し、写真のEXIFメタデータ（ISO、露出時間）を分析することによりIV解決策が選ばれました。最終的な結果は、真の**局所平均処置効果（LATE）**がコンバージョンに+4.2％（残りは選択バイアス）であり、その効果は「靴」カテゴリーに集中し（色の一致が重要）、「アクセサリー」カテゴリーには現れませんでした（ブランドが視覚的特性を優先する）。

候補者が見落としがちなこと

なぜインフラが許容される場合、人レベルでのA/Bテストを実施することができないのか？

候補者は、視覚埋め込みモデルのトレーニングにおけるネットワーク効果を無視しています。ユーザーが写真を撮ると、これらのデータはシアミーズネットワークのトレーニングサンプルに入ります。そのため、コントロールグループを含め、すべてのユーザーに対して探索の質が向上します（スピルオーバー効果）。また、SUTVA（安定した単位処置価値の仮定）は、ランキングの汚染によって破られます。ビジュアル検索が関連商品を全体的な推奨リストに引き上げる場合、これはコントロールグループの行動に影響を及ぼします。

解決策は、デバイスタイプレベルでのクラスタ無作為化または、クラスター内での機能の使用強度を調整するエクスポージャーマッピングを使用することです。

マーケット収束の創造新たな需要からテキスト検索を区別することができるのはなぜか？

標準的なアプローチではトータルクエリの比較は、質に基づいたボリュームを無視します。主要層化フレームワークを適用する必要があります。つまり、視覚検索があるときのテキスト検索の使用の潜在的なアウトカムに基づいて、4つのストラタ（コンプライヤー、ネバー・テイカー、オールウェイズ・テイカー、デファイアー）を特定します。

次に、テキスト検索から視覚検索に切り替える可能性のあるユーザーのコンプライヤー平均因果効果（CACE）を評価します。さらに、ユーザーのテキストクエリと商品カテゴリー間の埋め込み空間距離を使用します。ビジュアル検索がクエリと購入のセマンティック距離を短縮する場合、これは代替ではなく、増分効果です。

リテンション分析で成功した認識数に条件付けることの危険性は何か？

これは古典的なコライダーバイアス（M構造）です。「認識の成功」という条件（これはカメラの質とクエリの難易度の両方に依存します）は、ハードウェアとリテンション間の虚偽のパスを開きます。候補者はしばしば「失敗したアップロード」をフィルタリングし、変数に依存する選択を作ります。

適切なアプローチは、ヘックマン二段階修正またはゼロインフレートな結果に対するトビットモデルです。機能を使用する決定と使用条件付けアウトカムを共同でモデル化し、逆ミルズ比率を使用することが含まれます。