質問への回答

オフラインチャネルのインクリメンタリティを測定するために、Geo-Lift Testingの方法論を使用し、合成コントロール（Synthetic Control Method）を適用します。主要なアイデアは、地理的地域をテスト地域（広告が放送される地域）とコントロール地域（キャンペーンが展開されない地域）に分け、キャンペーン開始前までのテスト地域の行動を95%の相関精度で模倣するようにコントロール地域の重み付き組み合わせを構築することです。

時系列分析には、Google CausalImpactライブラリを使用し、気象データ、経済指標、競合の活動を考慮した因果効果を評価します。データはBigQueryに集約され、前処理はPythonを使用し、pandasおよびscikit-learnでサポートベクトルマシン（SVM）やLasso回帰を通じて合成コントロールの最適な重みを調整します。

実生活の状況

企業は、10の主要都市で予算5,000万ルーブルの大規模なテレビキャンペーンを計画していますが、効果測定という重大な問題に直面しています。AppsFlyerやAdjustのような標準トラッカーはデジタルタッチを記録するだけで、テレビ画面からアプリインストールへの遷移を追跡できません。競争相手の同時に進行する積極的なプロモーション活動や、対象地域における異常気象も、過去の期間との直接比較を歪める要因となります。

最初に検討された解決策は、ARIMAモデルを使用した時系列の相関分析であり、歴史データに基づく予測が実際のインストールデータと比較されます。このアプローチの利点は、Pythonのstatsmodelsライブラリを用いた低コストの実装と、地域間で広告予算を分割する必要がないことです。一方、欠点は、テレビの効果を外部ショック（競合の行動、気象）から分離できないため、因果関係のばらつきにより、テレビ広告による成長効果が虚偽のアトリビューションに結びつくリスクがあることです。

二つ目の選択肢は、世帯レベルの従来型A/BテストによるアドレッサブルTVであり、一部のオーディエンスにのみ広告が表示され、パネルデータを通じて直接のアトリビューションが可能です。利点は、厳格な因果関係を確立し、コホートの長期的なLTVを測定できることです。しかし、欠点は、データプロバイダー（GfK、TNS）との統合の技術的な複雑さがあり、高コストで、準備に3〜4ヶ月かかること、さらにターゲティングせずに全地域の人口をカバーする従来の放送テレビには適用できないことです。

三つ目のアプローチは、合成コントロールを用いたGeo-Lift Testingであり、テスト地域でキャンペーンを実施し、コントロール地域には類似地域の重み付き組み合わせを構築し、その行動を模倣します。この手法の利点は、自然実験を通じて因果関係を確立し、両グループに影響を与える一般的な外部ショックに対して頑健であることです。欠点は、シーズンの類似性を持つコントロール地域の選定に細心の注意が必要で、都市間のユーザー移動に敏感であり、質の高い合成コントロールを構築するためには過去12ヶ月以上の歴史データが必要なことです。

第三の解決策が選ばれたのは、企業がBigQueryに40の地域での18ヶ月の詳細なデータを持ち、キャンペーン前の期間に0.95を超える相関係数で合成コントロールを構築できたためです。分析はJupyterの環境内で行われ、pycausalimpactライブラリを使用し、データの前処理はSQLとpandasを用いてオーディエンスサイズに基づいてノーマライズが実施されました。

その結果、キャンペーン開始後14日間で23%のオーガニックインストールの統計的に有意なインクリメンタル増加が確認され、信頼区間は95%で[15%; 31%]となり、ROI145%を反映し、マーケティングチームは次の四半期にテレビチャネルの予算を増加させる根拠を提供しました。

候補者がしばしば見落とす点

オフラインキャンペーンの分析において、広告の影響がすぐには現れず、時間をかけて分散される場合、adstock効果（遅延および累積効果）をどのように処理するか？

候補者は、「放送日-インストール日」の単純な比較をよく使用しますが、テレビ広告には半減期（half-life）効果があることを無視しています。adstock変換を用いる必要があります：$A_t = X_t + \lambda \cdot A_{t-1}$、ここで$\lambda$は減衰係数（通常はテレビで0.3〜0.8）で、最大尤度法またはGrid Searchをscikit-learnで用いて決定します。また、前のキャンペーンからのcarryover効果を考慮することも重要で、そうしないと現在のliftが過大評価されます。$\lambda$の検証には、異なる遅延を伴った過去のキャンペーンでのクロスバリデーションが必要です。

Geo-Liftテストにおいて、テスト地域とコントロール地域間の単純な平均比較（t検定）を使用してはいけない理由は何ですか？たとえ地域がランダムに選ばれても。

問題は、地域間の分散の異質性（異なる基礎コンバージョン、異なる人口規模）とクラスター相関（地域内の観察の依存性）に存在します。標準的なt検定は観察の独立性と分散の同等性を前提としているため、統計的有意性が過大評価される（false positives）結果になります。正しいアプローチは、地域レベルでのClustered Standard ErrorsやPyMC3 / Stanでの階層的ベイズモデルの使用であり、データの構造を考慮します。また、適切な合成コントロールが得られているか確認するために、テスト前に共変量のバランスを検査すること（傾向スコアマッチング）が必要です。

マーケティングミックスモデリング（MMM）とGeo-Liftテストの根本的な違いは何ですか？また、どのような場合にどちらの方法が好ましいのでしょうか？

MMM（たとえば、MetaのRobynライブラリやGoogleのLightweightMMMを介して）は、すべてのチャネルの寄与を同時に推定する回帰モデルであり、内生性に敏感ですが、道具的変数なしに厳密な因果関係を確立することはできません。Geo-Liftは因果関係を外生的変動（地域での広告の有無）を通じて確立する準実験です。MMMは多くのチャネル間での予算最適化や計画に適している一方、Geo-Liftは特定の仮説の検証やMMMのキャリブレーションに必要です。最適な実践は、Geo-Liftを使用してベイズ的MMMのプライオリを調整することであり、これはpymc-marketingを通じて実現されます。

テレビCMの効果を直接のアトリビューションがない場合に、地域ごとのユーザー行動の違いを考慮しながら、モバイルアプリのオーガニックインストールに対してどのように分離しますか？

質問への回答

実生活の状況

候補者がしばしば見落とす点