質問への回答

歴史的に、プロダクトチームは成長メトリクスと新機能の導入にのみ焦点を当ててきましたが、デジタルプロダクトの飽和と技術的負債の蓄積に伴い、機能の正当な削除（フィーチャーディプレケーション）が重要な課題となりました。問題は、削除される機能を積極的に使用していたユーザーが、エンゲージメントやロイヤルティの点で残りのオーディエンスとは体系的に異なるため、選択バイアス（selection bias）が発生し、コホートによる段階的な無効化が季節性や自然な流出によって時系列を歪めることです。

真の因果効果を孤立させるためには、Difference-in-Differences（DiD）をコホート分析またはCausalImpactに基づいたBayesian Structural Time Seriesを使用し、影響を受けていないコホートを合成コントロールとして利用する必要があります。重要なステップは、各コホートの中でプロペンシティスコアマッチング（PSM）モデルを構築することです：機能を失ったユーザー（treatment）のために、全くその機能を使用したことのないユーザー（control）から活動プロファイル、テニュア、コンバージョン履歴が類似したペアを選びます。機能の使用強度の明確な境界がある場合（例えば、月に5回以上の使用）、**Regression Discontinuity Design（RDD）**が効果的で、無効化の閾値の両側でユーザーを比較することができます。

まず、サバイバーシップバイアスを追加でコントロールすることが重要です：機能が低い使用率のために削除される場合、分析は決定時にアクティブなユーザーのみを含める必要があり、観察の開始前にすでに脱落したユーザーを除外します。長期的な効果の評価には、ダイナミックエフェクトを持つ段階的DiDが使用され、無効化の瞬間に対する第三者および第七日目の保持がどのように変化するかを追跡し、プラセボテストを通じてParallel Trends Assumptionを確認します。

実生活の状況

大手EdTechプロダクトでは、3％未満のオーディエンスしか使用していない古いテキストチャットを廃止することを決定し、ビデオコンサルテーションに移行することにしましたが、そのサポートにはチームの20％のリソースがかかっていました。リリースは段階的に計画されており、最初に新しいユーザーのために無効化し、次に低アクティビティのコホート、最後にパワーユーザー向けとなる予定でした。ビジネスは、削除がネガティブな波を引き起こし、ヒストリカルにチャットを頻繁に使用していた高価値のユーザーの流出を引き起こすことを懸念していました。

最初の選択肢は、各コホートの削除前後の保持を比較するシンプルな分析でした。このアプローチは迅速に実施可能で、ステークホルダーにとって分かりやすいものでしたが、削除の影響をコホートの自然な劣化（cohort aging）や学生の活動の季節的変動から分離できないため、致命的に問題がありました。第二の選択肢は、チャットを50％のユーザーに隠すフィーチャーフラグを用いたA/Bテストの古典的アプローチでしたが、二つのUIバージョンのサポートの技術的な複雑さと、バグの発生時に一部のユーザーにチャットのサポートを約束し、他のユーザーに拒否するという倫理的な考慮から却下されました。

選ばれた第三の選択肢は、合成コントロールを用いたDifference-in-Differencesメソッドでの分析でした。チャットへのアクセスを失う各コホートについて、アナリストはPropensity Score Matchingを用いて、以前のコホートからチャットを一度も開いたことのないユーザーのペアを見つけましたが、彼らはレッスンの視聴パターン、宿題の提出履歴、地理的条件が一致していました。これにより、機能を失ったグループ（treatment）と決して使用したことのないグループ（control）の保持の軌道を比較し、機能喪失の純粋な効果を一般的なトレンドから分離することができました。

最終的な結果は、パワーユーザー（チャットの使用頻度でトップ10％）において、削除が確かに30日間の保持を8％減少させたが、ビデオコンサルテーションへのコンバージョンが15％増加し、アプリケーションのパフォーマンスメトリクスが改善され（レガシーコードの削除によるクラッシュ率が12％低下した）ることが見られました。中程度のセグメントでは、効果は統計的に有意ではなく、ビジネスはパワーユーザーを新しいコミュニケーションチャネルに移行することを重視して、機能全体の無効化を正当化することができました。

候補者が見落としがちな点

機能の削除の影響をユーザーインターフェースの"簡素化効果"（simplification effect）からどう分けるか？認知的負荷の軽減が機能喪失によるネガティブを隠す可能性がある場合。

答えはメトリクスの分解にあります：保持だけでなく、残る機能のタスク完了時間、エラーレート、および機能発見率を追跡する必要があります。チャットを削除した後、time-to-homework-submissionメトリクスが減少し（ユーザーがより早く課題を提出する）保持が安定している場合、これは機能喪失を補償するポジティブな簡素化効果を示しています。定量的評価を行うために、メディエーション分析を構築します："削除 → 保持"および"削除 → UIの簡素化 → 保持"を通じての間接的な因果関係を評価し、純粋なネガティブから構造的なUX改善を分離することが可能となります。

機能を削除する際の"非劣性"テストのための統計的パワーをどのように正確に計算するか？目標は損害が許容されるしきい値を超えないことを証明することです。

候補者はしばしば、優位性テストのための古典的なパワー計算を適用し、その結果として削除の"安全性"について不当な結論に至ることがあります。非劣性テストでは、帰納的仮説は"効果がしきい値よりも低い"として定義され、パワーはMargin of Indifference (δ) に依存します。これは事前にビジネスによって決定されなければなりません（例：保持に対する-2％）。パワーの公式は、期待される真の効果（通常は0またはわずかに正の数）と分散を指定する必要があり、δへの近似は指数関数的に大きなサンプルを必要とします。ペアプロポーションのための特殊なパワーカルキュレーターを使用することが必要であり、コホートによるクラスタリングの補正も適用する必要があります。なぜなら、同じコホート内のユーザーは無効化のタイミングで相関しているからです。

機能の削除が他のユーザーの行動に通信の断絶を通じて影響を与えるネットワーク効果（spillover effects）をどのように考慮するか？

ソーシャルプロダクトやB2B SaaSの場合、あるアクター（例えば、管理者による古いAPIの無効化）の機能の削除は、エンドユーザー（従業員）の体験に影響を与え、トリートメントとコントロールの間に干渉を生じさせます。この効果を分離するためには、クラスターに基づくランダム化またはエクスポージャーマッピング分析が利用されます。個々のトリートメントステータスの代わりに、機能を失ったソーシャルグラフ（チーム、家族）のユーザーの割合を使用します。個別の削除の事実とクラスター内での削除率の相関が高い（>0.8）場合、古典的OLSはバイアスのかかった推定をもたらします。解決策はIV回帰（instrumental variables）を使用することで、トリートメントを受けたコホートへの帰属が道具となり、実際の機能喪失は内生的変数となります。また、干渉に対する因果推論の手法（例えば、クラスタサイズの補正を施したFisherのランダム化テスト）を適用することでも解決できます。