質問への回答。
プッシュ通知のパーソナライズは、ユーザーの活動時間による自己選択のため、厳密な準実験的アプローチを必要とします。ソーシャルネットワークやファミリーアカウントを介したクロスコンタミネーションの可能性は、効果の孤立をさらに複雑にします。
主要な手法は、差分の差分(DiD)と合成コントロールです。コントロールグループは、アプリの開放時間と過去の注文パターンに基づいてプロペンシティスコアマッチングから形成されます。
時間帯効果を補正するために、タイムゾーンごとの層別化が適用されます。クロスコンタミネーションは、デバイスIDとIPアドレスの分析を通じて、共有アカウントについて検出されます。
定着率メトリクスは、コックス比例ハザードモデルを使用してハザード比として計算されます。これにより、打ち切りデータと流出リスクの不均一性を考慮することができます。
実生活の状況
アプリDelivery Clubでは、プッシュ通知の送信時間のパーソナライズのためにPythonを使用したMLモデルの導入が計画されていました。問題は、アクティブユーザーが主にランチタイムにアプリを開くため、自己選択バイアスが生じていたことです。
20%のオーディエンスに対する部分的なロールアウトは「口コミ」の効果を引き起こしました。コントロールグループのユーザーは同僚からキャンペーンを知り、クロスコンタミネーションを引き起こしました。
最初に検討された解決策は、地理的セグメンテーションによる従来のA/Bテストでした。都市Aがテストグループで、都市Bがコントロールでした。
このアプローチのメリットは、グループの純粋な孤立とビジネス結果の解釈の容易さが含まれていました。デメリットは、都市間の料理の好みや所得の違いによって、基本的な定着率に12-15%の偏りを生じさせたことです。
次の選択肢は、通知がオンのユーザーのみを分析する(プロトコル分析)ことでした。これにより、コミュニケーションに反応するターゲットオーディエンスに焦点を当てることができました。
メリットは、製品チームにとっての高い関連性です。デメリットは、ユーザーが通知をオフにした場合のバイアス効果を無視することです:通知をオフにしたユーザーは、基本的な離脱率が3倍高く、介入の全体的な効果を歪めました。
3つ目の解決策は、GoogleのCausal Impactを使用し、合成コントロールを構築することでした。ベイジアン構造時系列を使用して反実証をモデリングしました。
メリットは、明示的なコントロールなしで時間的トレンドや季節性を考慮できることでした。デメリットは、共変量の選択に対する高い感度と、介入前の平行トレンドに関する仮定の脆弱性でした。
選ばれたアプローチは、活動時間による自己選択を補正するための逆確率重み付け(IPW)と地理的クラスター単位の標準誤差のクラスタリングを伴うDiff-in-Diffの組み合わせメソッドになりました。
この解決策は、パーソナライズにとって重要なプッシュ通知の送信時間の個別の変動性を保持しました。間接間のスピルオーバーをクラスターのロバスト性を介して制御することもできました。
結果として、7日間の定着率に+8.3%の真のインクリメンタル効果が特定されました。単純な比較では+15%を示しました。この効果は、「3回以上の注文履歴」のセグメントに対してのみ統計的に有意でした。
これにより、冷たいユーザーをパーソナライズされたキャンペーンのターゲットオーディエンスから除外して、送信予算を最適化することができました。
候補者が見落としがちな点
サブスクリプション製品のLTV予測を計算する際、季節性をどのように考慮するか?年間および月間プランの存在に伴うコホートの不均一性があります。
初心者は、Black Fridayの期間中に来るユーザーが異なる保持プロファイルを持つことを考慮せず、単純に歴史的な保持曲線を平均化することがよくあります。彼らの離脱率は、オーガニックユーザーの2-3倍高いです。
正しいアプローチは、各コホートに対して季節的なダミー変数を考慮し、個別のBG/NBDまたはGamma-Gammaモデルを構築することです。代替案は、コホート間での力の借用(部分プーリング)のためにベイジアン階層モデリングを使用するコホートベースのLTVを使用することです。
オンボーディングツアーの効果を評価する際のintent-to-treat (ITT) とtreatment-on-the-treated (TOT) 分析の違いと、それぞれの適用タイミングは?
ITTは、拒否者を含むテストグループのすべてのユーザーへのオンボーディングオファーの効果を分析します。TOTは、ツアーを実際に通過した場合の効果を測定します(遵守者の平均因果効果)。
ITTは保守的で、機能のスケーリングに関するビジネス決定に適しています。すべての摩擦を考慮したオーディエンスの実際の行動を反映します。TOTはインスツルメンタル変数を必要とし、強制的なオンボーディングの妥当性についての質問に答えます。
方法の選択ミスは効果を40-60%過大評価する原因となります。TOTには、ツアーの表示におけるランダムなバグをインスツルメントとして使用することができます。
逐次的A/Bテストの実施時に"peeking"の問題を診断する方法と適用すべき統計的補正は?
Peekingは、有意性を達成した際のテストの早期停止によって発生します。診断は、時間とともにp値を分析することです:peekingの場合、曲線は「スムースウォーク」を示し、0.05の閾値との頻繁な交差が見られます。
解決策には、アルファスパニング関数(O'Brien-Fleming)を使用したグループ逐次テストが含まれます。代替案は、ROPE(実用的同等性の領域)アプローチを使用したベイジアンA/Bテストです。
また、Apache Airflowにおけるデータ品質ゲートを通じてサンプルサイズを固定することも効果的です。重大なエラーは、ボンフェローニ補正なしでナイーブな信頼区間を使用することで、5回の中間チェックで偽陽性率を25-30%にまで押し上げることです。