はじめに
本ページでは、DLPOで行っている統計的な有意差の判断ロジックを解説します。
具体的には、まず「CVRの統計学的な信憑性(CVRに生じる誤差、CVRの真値の推定)」について理解いただき、その上で「各パターンの有意差判断の仕方(各パターンのCVRの比較、DLPO上での定義)」について、統計学的な理論を解説しています。
なお、本ページでは、概念的に理解しやすいよう統計学的な解説は部分的に省略しておりますので、予めご留意ください。
CVRの誤差とは?
CVRには誤差が生じます。ABテストに用いるUU数、CV数のサンプル数によってCVRの誤差が変動します。
例えばCVRが10%で、その誤差が±2%だった場合、CVRは10%だと思われるが±2%位前後する可能性があるといえます。
また、この誤差範囲は、区間推定(**%~*%の間に収まる確率)によって変動します。区間推定は標準偏差(統計学的に標準的な中心からのズレを表す数値)の数によって、区間推定68%(標準偏差1つ)、区間推定95%(標準偏差2つ)、区間推定99%(標準偏差3つ)という形で表されます。
例えば、CVRが10%で標準偏差が2%の場合、CVRが±2%、つまり8%~12%に収まる可能性は68%あります。さらに、10%で標準偏差が2×2%に収まる可能性、つまり6%~14%に収まる可能性は95%となります。
図1:誤差範囲のイメージ
CVRの真値の推定
CVR10±2%だった場合、10%が本当のCVRである度合いを統計用語で確率密度と言いますが、この確率密度を求めることで、CVR±1%に収まる確率がわかり、CVRの真値(UU数を無限に増やした場合のCVR)を推定することができます。
DLPOでは、下記のような釣鐘型の分布「正規分布」(平均値の付近に集積するようなデータの分布を表した、連続的な変数に関する確率分布)を用いて、確率密度を仮定しています。
参考までに統計学的な詳細を記載致します。
CVしたUU数をs, CVしなかったUU数をfとし、全UU:n=s+f、CVR:p=s/nと表記します。DLPOのCVRの真値の確率分布(CVRの信頼区間)は、平均p,分散p(1-p)/nの正規分布N(p, p(1-p)/n)に従うと仮定しています。
これは、成功確率p,試行数nのベルヌーイ試行(1回の試行に対して2通りの回答が有りそれを反復することを統計用語でベルヌーイ試行と言います)は厳密に二項分布が、s>5かつf>5を満たす場合は中心極限定理により同様の母数を持つ正規分布で実用上問題なく近似できることによります。
ABテストの現場では、統計学的な確からしさと併せて早期の意思決定が求められますので、DLPOでは、CVRの信頼区間は、標準偏差1つ分(区間推定68%)となっております。
図2:確率密度の仮定
各パターンのCVR比較
AパターンとBパターンのCVRを比較する際に、「不確かな情報同士を比較すると、さらに不確かな情報になる」という概念を踏まえて、AパターンとBパターンのCVRの差に対する確率密度を求めます。これも、各パターンのCVRと同様に正規分布を用いて仮定することができます。
ABテストの現場においては、「よりCVRが高いパターン(例えばBパターン)が、本当にAパターンに勝っているか」を判断することになりますが、それを確かめる場合、パターンBのCVRからパターンAのCVRを引いた値(CVRの差)が0よりも大きい確率を求めることで、統計的に有意に勝っているかの判断を行うことができます。
※CVR_B-CVR_Aの分散は分散_A+分散_Bとなります。ですので、CVR_B-CVR_Aも中心極限定理で正規分布となり、平均がCVR_B-CVR_A、分散が分散A+分散Bとなります。
図3:CVR比較
有意差判断の仕方(改善信頼度及び非チャンプ率について)
図4:有意差判断の仕方
DLPOでは、各パターンのCVRを比較する際に、改善信頼度と非チャンプ率という指標を用います。
改善信頼度の定義は、デフォルトパターンのCVRに対して各テストパターンのCVRが有意に優劣があると判断する為の指標となります。検定方法は、CVRの差の確率分布もCVRと同様に正規分布に従うと仮定して、デフォルトパターンのCVR(CVRa)とテストパターンのCVR(CVRb)のCVRの差(CVRb-CVRa)の値が0より大きい確率を求める上側検定をしております。
続いて、非チャンプ率の定義は、チャンピオンパターンのCVRに対してテストパターン(デフォルトパターンを含む)のCVRが有意に劣っていると判断する為の指標となります。検定方法は、CVRの差の確率分布もCVRと同様に正規分布に従うと仮定して、チャンピオンパターンのCVR(CVRa)とテストパターンのCVR(CVRb)のCVRの差(CVRb-CVRa)の値が0より大きい確率を求める上側検定をしております。
なお、改善信頼度(または非チャンプ率)は、あくまでもチャンピオンパターンがデフォルトパターンに対して、僅かでも上回る確率(非チャンプ率ではデフォルトパターンがチャンピオンパターンを下回る確率)を示した数値であり、CVR差の数値の通り上回る(または下回る)確率を示した数値ではありません。