質問への回答

歴史的背景は、音声インターフェースが単純なコマンドシステムからトランスフォーマーに基づく完全なNLPソリューションへと進化したことを示唆していますが、その評価手法は技術の受容の不均一性のために簡単ではありません。問題は、機能が特定の技術仕様を持つデバイスにのみ利用可能であるため、体系的な選択バイアスが生じ、地理的なローリングアウトがランダム化の原則を破ることです。真の効果を分離するためには、地域と時間に関する固定効果を伴うDifference-in-Differencesの組み合わせを使用し、ユニークな言語パターンを持つ地域にはSynthetic Control Methodを補完し、機能の使用に対する内生性を修正するためにInstrumental Variablesを含める必要があります。

実生活の状況

電子機器のマーケットプレイスでは、最初にモスクワとサンクトペテルブルクで音声検索機能を開始し、地域への段階的な展開を計画していました。問題は、この機能がiPhone XS以降のiOS 15以上のデバイスと、オンデバイスMLをサポートするAndroidのフラッグシップデバイスでのみ動作したため、収入や技術に関する知識にバイアスが生じたことです。さらに、導入は年末の需要の急増と重なり、単純な「前後」の比較を歪めました。チームは評価のための3つのアプローチを検討しました。

最初の案は、機能のある地域とない地域で同じ期間の平均メトリクスを単純に比較することでした。このアプローチの利点は、実装が簡単で結果が迅速に得られることです。欠点は、地域間の体系的な違い（モスクワは歴史的にコンバージョンが高い）を考慮できず、機能の効果を季節トレンドから切り離せないことです。この案は偽陽性のリスクが高いため却下されました。

2番目の案では、音声検索を持たないが似た特性のデバイスと行動を持つユーザーからの対照群を作成するためにPropensity Score Matchingを使用しました。利点は、観察された特徴によるバイアスを排除しようとする試みです。欠点は、技術の早期受容に対する傾向などの観察されない因子を考慮できないことで、これは現代のデバイスを所有することと購入意欲の両方に影響を与える可能性があります。さらに、マッチングは地域の固定効果がある場合に効果を失います。

3番目の案は、地域レベルのDifference-in-DifferencesとユーザーレベルのInstrumental Variablesを組み合わせたものでした。技術的なアクセス性のフラグ（デバイスのモデルとOSのバージョンに依存し、ユーザーの好みに直接は依存しない）を使用して、実際の使用を予測するためにTwo-Stage Least Squaresを適用しました。ユニークな方言を持つ地域（カザン、ノボシビルスク）には、コンバージョンの以前のトレンドに基づいて対照地域を重み付けするSynthetic Controlを使用しました。利点は、利用可能性の効果をユーザーの自己選別の効果から分離し、地域のトレンドを制御できることです。欠点は、Local Average Treatment Effect（LATE）の解釈が難しく、平行トレンドの仮定に対する要求が高いことです。この案が最もロバストなものとして選ばれました。

分析の結果、音声検索が互換性のあるデバイスを持つユーザーの間で18%のインクリメンタルな閲覧深度の増加をもたらすことが確認されましたが、購入コンバージョンには統計的に有意な効果は見つかりませんでした。さらに、技術的な用語が含まれるカテゴリー（コンピュータ関連商品）では、特定の語彙の認識エラーによりコンバージョンが減少することが観察されました。これにより、チームはロードマップを修正し、拡大前に技術用語の認識を改善し、「簡単な」商品のカテゴリー（家庭電化製品）にマーケティングを集中させることが最良の結果を示したということです。

候補者が見落としがちな点

音声インターフェースを評価する際に、短期的な新規性効果を持続的な行動変化からどのように分離するか？

候補者は、適応の時間的動態をしばしば無視します。機能の初回使用日ごとにコホート分析を構築し、3〜4週間の期間にわたってリテンション使用率を追跡する必要があります。使用の強度が基準レベルにまで指数関数的減衰の曲線を描く場合、効果は新規性によるものです。正確な評価を行うためには、確立された期間（steady state）のみを使用するか、コホートのライフタイムに従って観察結果を重み付けする必要があります。また、使用頻度に基づく効果の異質性をチェックすることも重要です。パワーユーザーは持続的な行動を示す一方、ライトユーザーは新規性効果にさらされる可能性があります。

ユーザーが音声検索を有効にしたが、認識エラーのために結果を得られなかった場合、データのゼロ値をどのように適切に処理するか？

標準的な線形回帰やロジスティックモデルは混合分布のためにここでは不適切です。多くのゼロ（失敗した試み）と連続的な正の結果の分布があります。カウントメトリクス（ビュー数）のためにTwo-part model（ハードルモデル）やZero-Inflated Negative Binomialを適用する必要があります。モデルの第一部分は成功した検索の確率を評価し（選択方程式）、第二部分は成功のもとでの使用強度を評価します（成果方程式）。この構造を無視すると、効果の評価が過小評価されることにつながり、不成功の試みが興味の欠如として誤って分類されてしまいます。

なぜこの場合、導入地域のすべてのユーザーと対照地域の比較で単純なIntent-to-Treat（ITT）を使用することができないのか？

ITT分析は、機能の利用可能性の効果をその実際の使用の効果と混合し、評価を曖昧にします。もし、10%のオーディエンスしか互換性のあるデバイスを持たず、そのうちの20%しか機能を試みなかった場合、ITTは100%の実際のユーザーに対して効果があったとしても2%の効果を示します。ビジネスの意思決定においては、まさに**Treatment-on-Treated（TOT）効果またはLocal Average Treatment Effect（LATE）**が重要であり、これはinstrumental variablesを通じて得られます。候補者は、ここでのコンプライアンス（遵守）が100%ではないことに留意し、ITT評価を遵守者の割合に反比例してスケールダウンする必要があることを見逃しがちです。