AB テストの設計 — 有意差と落とし穴 — インフルエンスバイブル

コース最終レッスンでは、改善施策が本当に効いたのかを確かめる「AB テスト」の設計を学びます。仮説の立て方、必要なサンプルサイズ、有意差の読み方、そして現場で最も多い落とし穴 — 途中で結果を覗いて早期終了する誤り — を扱います。

AB テストとは何か

AB テストは、現状(A)と変更案(B)を同じ期間に、ランダムに振り分けた相手へ並行して見せ、成果の差を比べる方法です。「先月は旧 LP、今月は新 LP」という前後比較は、季節やニュースなど環境の変化が混ざるため AB テストではありません。

発信者なら、LP の見出し、メルマガの件名、登録フォームの項目数、CTA ボタンの文言などが定番の題材です。レッスン 6-3 で特定したボトルネックに対する改善案を、思い込みでなく数字で検証するのが AB テストの役割です。

良いテストは仮説から始まる

「なんとなく2案作って試す」のは AB テストではなく、くじ引きです。私は必ずこの形式で仮説を書いてから始めます。

【根拠】ファネル分析でフォーム到達者の80%が離脱している。項目が9個あり、スマホでは2画面分。 【変更】入力項目を9個→3個に減らす。 【予測】登録完了率が15%→20%以上に上がる。

この形式の利点は、テストが終わった後に「勝った/負けた」だけでなく「なぜそうなったか」という学びが残ることです。学びが残れば、負けたテストにも価値があります。また、1回のテストで変えるのは原則1要素。見出しと画像を同時に変えて勝っても、どちらが効いたのか分かりません。

サンプルサイズ — 何人集めれば足りるか

差が「偶然」か「実力」かを区別するには、十分な数のデータが要ります。必要数は次の3つを決めると計算できます。

決めるもの	一般的な値	意味
有意水準	5%	「本当は差がないのに差があると誤判定する」許容確率
検出力	80%	「本当に差があるとき、それを見つけられる」確率
検出したい差	例: 15%→18%	小さい差ほど大量のサンプルが必要

正確な必要数は無料のサンプルサイズ計算ツール(Evan Miller の Sample Size Calculator など)で出せます。直感を1つ持ってほしいのですが、改善幅が小さいほど必要数は急増します。コンバージョン率15%を18%に上げた差を検出するには各群およそ1,800人、15.5%との差なら各群4万人以上が必要です。月間訪問が数千の段階では、ボタン色のような微差のテストは成立しません。小規模サイトは「大きく変える」テストだけをやる — これが私の実務上の結論です。

有意差の読み方

テスト結果は p 値(偶然これ以上の差が出る確率)で判定し、慣例として p < 0.05 なら「統計的に有意」とします。ツールが「有意差あり/なし」を表示してくれるので計算自体は不要ですが、解釈で2点だけ。

有意差なし=「差がない」ではなく「差があるとは言えなかった」。サンプル不足の可能性が残る
統計的有意≠ビジネス的に意味がある。0.1%の改善が有意でも、実装コストに見合わなければ採用しない

最大の落とし穴 — 途中で覗いて早期終了(ピーキング)

現場で最も多い誤りがこれです。テスト期間中に毎日結果を眺め、「お、p < 0.05 になった!」と見えた瞬間に勝利宣言して終了する。

サンプルが少ない序盤の p 値は大きく揺れ動きます。毎日チェックして「0.05 を切った時点で終了」という運用をすると、偽陽性(本当は差がないのに勝ちと誤判定)の確率は最大26%程度まで跳ね上がるという指摘があります。5日目に p=0.04 で終了した差が、2週間後には消えていた — という事例は珍しくありません。

対策はシンプルです。

事前にサンプルサイズと期間を決め、達するまで判定しない
期間は曜日の偏りを避けるため最低でも1〜2週間、週の倍数で設定する
途中経過は「障害がないかの監視」だけに使い、勝敗判定には使わない

その他のよくある誤り

同時に何本もテストを走らせて干渉させる — 同じページ・同じ導線では1度に1テスト
テスト対象外の変更を期間中に加える — 期間中はそのページを凍結する
負けたテストを記録しない — 学びの蓄積こそ資産。私は仮説・期間・結果を1行ずつ台帳にしています

まとめ — コース6の締めくくり

AB テストは「根拠→変更→予測」の仮説文から始め、1回1要素で検証する
有意水準5%・検出力80%で必要サンプルを事前計算。小規模サイトは大胆な変更だけをテストする
途中で覗いて早期終了しない。期間とサンプル数に達してから判定する

KGI/KPI で目標を数字にし(6-1)、GA4 で計測し(6-2)、ファネルで穴を見つけ(6-3)、LTV で採算を判断し(6-4)、AB テストで施策を検証する(6-5)。この5つが回れば、あなたの発信は「勘の運用」から「データの運用」に変わります。

AB テストの設計 — 有意差と落とし穴