Alpha, Beta, and Power: The Fundamental Probabilities Behind Sample Size

統計学では、p値とサンプルサイズ設計が対になってエラーをコントロールします。サンプルサイズ設計に関するcoffee-chat guide。

Frequentist Experiments II − Alpha, Beta, and Power: The Fundamental Probabilities Behind Sample Size

Keywords: probability model, p-value, R simulation, study design

あれ？何人に調査すればいいんだろう

お父さん「ちょっといいかな」

私「なに？お父さん、たばこくわえながら真面目な顔して」

お父さん「サンプルサイズって計算した？」

私「サンプルサイズってなんのこと？」

お父さん「ほら、がんサバイバーの調査するんでしょ。その人数のこと」

私「ああ、あれね。100人に調査するつもりだよ」

お父さん「この前は話が中途半端だったでしょ。続きを説明したくて。前回は“精度”の話。今日は“差を見つけたいとき”の話」

私「ん、わかった。サンプルサイズの話の続きね。なになに」

お父さん「前回は信頼区間とサンプルサイズだったよね。でも、もしストーマ造設ありとなしの復職率を比べるような仮説検証を目指した研究をしたいなら、仮説検定の考え方にそってサンプルサイズを計算しないといけない」

私「仮説検定ってp値のこと？」

お父さん「そうそう。そっちの話をするなら、p値とαエラー・βエラーの関係を説明しないとだな。この前、JCOG9502の論文もってきたとき、どこまで話したっけ？」

私「p値とかASA声明については聞いたよね。でも、エラーって言葉はでてこなかったな」

お父さん「じゃあ、話はそこからだね。ちょっとそこのナプキンとペンをとって」

私「ん？これのこと？」

お父さん「ありがとう。αエラー・βエラーは、表にしないと説明できないからね」

臨床試験の結果から判断を誤ってしまうふたつのケース

研究結果	真に効果がない（帰無仮説）	真に効果がある（対立仮説）
有意差なし（p値≥有意水準）		βエラー
有意差あり（p値<有意水準）	αエラー	検出力=1-β

αエラーとβエラーの解説

これまで、臨床試験JCOG9502（Sasako, et al. 2006）の文脈に沿って、片側p値と両側p値の違いも交えながら、p値について解説してきました。しかし本質的に重要なのは、p値を用いた判断に、どのような合理性があるのか、ということです。

JCOG9502を題材に考えてみましょう。この場合の真実は「LTA群はTH群に比べ全生存期間を延長する効果がある」と「効果がない」の2通りがあるといいました。一方で、試験の結果もp<0.05とp≥0.05の2通りです。これらを組み合わせは2×2の4通りがあります。

このうち、臨床試験の結果から判断を誤ってしまうケースは2つです。つまり、効果があるのにp≥0.05になってしまうケースと、効果がないのに（帰無仮説が正しいのに）p<0.05になってしまうケースです。仮説検定では、前者をαエラー（alpha error）、後者をβエラー（beta error）と呼んでいます。また、βエラーを1から引いたものを検出力（power）と呼んでいます。

私「まあ、このふたつのエラーがあるのは当たり前だよね。左開胸開腹連続切開をしたLTA群で予後がよくならないのに、有意に効いたって判断したら間違いだし、逆にいい術式なのに、結果的に有意にならなかったらそれも研究失敗だし」

お父さん「そうだね。でも、正確にいうと、αエラー・βエラーは”統計学的に有意”とかp値とかとは、直接関係する概念じゃない。別に、効果があるかどうか判定する基準は、p値じゃなくてもいいわけだからね。ポイントはね、

p<0.05は、αエラーだけを制御する基準

だってこと」

αエラー、βエラー、p値

αエラーとβエラーが生じる確率を考えてみましょう。理論的に考えると、サンプルサイズが大きくなるほど、ランダム誤差は小さくなります。αエラーとβエラーも同じで、サンプルサイズが大きいほど小さくなる（判断を誤りにくくなる）性質があります。しかし、2つのエラーはトレードオフの関係にあります。サンプルサイズが一定だと、両方同時に小さくすることはできません。そこで通常は、αエラーを優先して、事前に決めた水準よりも小さく保たれるような判定方式を用います。これが仮説検定であり、事前に決めた水準のことを有意水準と呼びます。実は、p<0.05で判定することと有意水準を5%と設定することは、同じ意味です。

ややこしいのですが、JCOG9502では症例登録に予定より時間がかかったため、有意水準10%、つまり全生存期間の片側p値を0.1と比べる方式が採用されました。この方式では、LTAに延命効果がなくても、100回に10回はαエラーが生じてしまい、LTAが有効と判定してしまうことになります。つまり、有意水準が5%から10%に高くなると、判断を誤る確率が増える代わりに、サンプルサイズが小さくて済むわけです。

サンプルサイズ設計によるβエラーの制御

私「紙ナプキンに描いてくれた表自体はわかるんだけどね。そこからαとかβとか確率とかいわれてもなあ。ついていけないな」

お父さん「まずはαエラーとβエラーが臨床試験のどんな結果を表しているか考えると、イメージしやすいかもね。まず、αエラーとβエラーの意味から確認させて」

αエラー: 「効果がない」という確率モデル上で計算されたエラーの確率
βエラー: 「効果がある」という確率モデル上で計算されたエラーの確率

お父さん「JCOG9502のように試験治療の有効性を検証する試験では、αエラーは標準治療と差がないかそれより劣る治療方法が普及してしまうことにつながる。いわば、”αエラー=消費者リスク”といえる。一方で、βエラーは試験治療が本当は有効なのに、開発中止してしまうことを意味する。だから”βエラー=生産者リスク”といわれる。医師の視点で気になるのは、やっぱりαエラーの方だよね」

私「理屈じゃなくて、数字の実感がないのよ。判断ミスをする確率なんて低い方がいいに決まってるよね。でもどのくらいの確率にするものなの？」

お父さん「JCOG9502の論文読んだんでしょ。どう書いてあった？」

私「はいはいみますみます。”The amended sample size was 250, with one-sided alpha error of 0.1 and beta error of 0.2”って書いてある。片側検定で、αエラー0.1、βエラー0.2ってことね。そうすると、予定変更後のサンプルサイズは250人になったんだ」

お父さん「そういうこと。βエラーは0.1か0.2が一般的かな。米国臨床試験グループSWOGの統計家たちは、教科書で以下のように述べている（Green, et al. 2013）。

新しい治療法が見つかることはさほど多くないため、我々は原則として90%の検出力を推奨している

検出力90%はβエラー0.1のことね」

私「私の研究でもサンプルサイズは250人でよくない？」

お父さん「雑だけどいい線いってる。大体それくらいになりそうだけど、サンプルサイズの計算結果を表にしてあげるから、ちゃんとそれをみて決めよう。いろんな状況があり得るけど、両側αエラー0.05で、βエラーは0.2（検出力0.8）と0.1（検出力0.9）という設定がもっともよく用いられるから、そのときのサンプルサイズを紹介するね。同じ人数の2つの群を比較することを想定しているから、群ごとの人数はサンプルサイズの半分になる」

表1. 2群の生存曲線を比較するためのサンプルサイズ
両側 α=0.05, 1−β=0.8
※ 数値は「2群合計のサンプルサイズ」（割付け比1:1）

\(\pi_2\)	\(\pi_1=0.1\)	0.2	0.3	0.4	0.5	0.6	0.7	0.8
0.15	964	—	—	—	—	—	—	—
0.20	296	—	—	—	—	—	—	—
0.25	156	1826	—	—	—	—	—	—
0.30	102	506	—	—	—	—	—	—
0.35	74	246	2486	—	—	—	—	—
0.40	58	152	658	—	—	—	—	—
0.45	48	104	308	2894	—	—	—	—
0.50	42	78	182	744	—	—	—	—
0.55	36	62	122	340	3034	—	—	—
0.60	32	52	90	198	764	—	—	—
0.65	28	42	70	130	342	2900	—	—
0.70	26	38	54	92	194	712	—	—
0.75	24	34	38	70	124	312	2492	—
0.80	22	30	38	56	86	174	592	—
0.85	22	26	34	46	66	110	254	1818
0.90	20	26	30	38	50	136	136	414

表1. 2群の生存曲線を比較するためのサンプルサイズ
両側 α=0.05, 1−β=0.9
※ 数値は「2群合計のサンプルサイズ」（割付け比1:1）

\(\pi_2\)	\(\pi_1=0.1\)	0.2	0.3	0.4	0.5	0.6	0.7	0.8
0.15	1290	—	—	—	—	—	—	—
0.20	396	—	—	—	—	—	—	—
0.25	208	2444	—	—	—	—	—	—
0.30	136	676	—	—	—	—	—	—
0.35	100	330	3330	—	—	—	—	—
0.40	78	202	880	—	—	—	—	—
0.45	64	138	412	3876	—	—	—	—
0.50	54	104	242	996	—	—	—	—
0.55	46	82	162	454	4060	—	—	—
0.60	42	68	120	264	1022	—	—	—
0.65	38	56	90	172	456	3880	—	—
0.70	34	48	72	124	258	952	—	—
0.75	32	42	60	92	166	416	3336	—
0.80	30	40	52	74	116	232	796	—
0.85	28	34	46	60	88	146	338	2436
0.90	26	32	38	50	68	100	180	548

お父さん「ストーマ造設あり・なしの2群があるとして、復職率はそれぞれどれくらいになりそうなの？仮の値でいいよ」

私「むずいな。どのくらいなんだろう。なにも不利なことがないなら、手術した後、1年以内に80%は復職してほしいかな。ストーマがあると20%から30%くらいは復職率が下がるんじゃない？調査してみないとわかんないけどね」

お父さん「なるほど。もし復職状況を生存時間データとして解析するとしたらね。復職できた時点でイベントが発生し、それ以外の患者は打ち切りになる。表1と2は、2群の生存確率を比較するためのもので、生存確率を\(\pi_1\)と\(\pi_2\)と表記している。\(\pi_1\)と\(\pi_2\)は、がんサバイバー研究でいうとグループごとの”非復職確率”に対応する。つまり復職率が80%と60%だったら、\(\pi_1=0.2\)と\(\pi_2=0.4\)になる。この数字を使うってことは、暗黙の裡に、1年間追跡することを想定してるんだけどね。表2の対応箇所をみてみてよ」

私「202人って書いてある。これが調査しないといけない人数ってこと？」

お父さん「そういうこと」

私「もし、202人の全員が1年間で追跡できなかったらどうするの？半年までしか調査できなかったとか」

お父さん「この表のサンプルサイズは、術後1年間100%追跡できるという前提で計算している。サンプルサイズの計算では、本来、それぞれの群のハザード比や生存期間中央値から必要なイベント数を求め、それを観察するために必要な期間を考慮したうえで人数を決める。結構ややこしいでしょ。今回は、2パターンの検出力だけみればいいように状況を単純化している。さっき検出力について説明したじゃない、対立仮説の下で有意になる確率ね。表2は、検出力90%の検定を行うために必要なサンプルサイズで、表1はそれを検出力80%に緩めたときのもの。表1をみると、検出力80%でよければ、152人に調査すればいいみたいだね」

私「ふむ。この人数も、確率モデルで計算したの？」

お父さん「もちろん、この書籍の著者が、別世界の誰かに手紙を出してね」

私「ふむふむ。まだよくわかんないな。JCOG9502では、2本の生存曲線を比べてたでしょ」

お父さん「うん」

私「いま考えてる統計解析って、ストーマ造設あり・なしと復職状況の関係を調べてたんだよね。以前に聞いた話だと、2値データだとロジスティック回帰、生存時間データだとCox回帰を使うんじゃなかったっけ。生存曲線とCox回帰は別の統計手法じゃない？」

お父さん「正確にいうとね、生存曲線を比較するためのp値はいくつかの統計手法で計算できる。よく使うのはログランク検定とCox回帰のふたつで、表1と2は、ほんとはログランク検定用なんだけど。Cox回帰を使ったとしても、ストーマ造設あり・なし以外の因子がなければ、ログランク検定とほとんど同じ結果になる。特にサンプルサイズが大きければね」

私「お父さん、あとね。表1と2に割付け比1:1って書いてあるでしょ。これって2群の人数が同じってことだよね」

お父さん「そうだよ、たいていの臨床試験の割付け比は1:1だからね」

私「でもストーマ保有者って、非保有者より少ないと思うんだけど。半数くらいかな」

お父さん「調査や観察研究だと、群ごとの人数は同じにならないよね。さっきは、書籍（Machin, et al. 2022）の表を利用させてもらったんだけど、設定が複雑になると、付録のソフトウェアやRを利用することになる。 powerSurvEpiパッケージで、あの表とほぼ同じ計算ができるはず。割付け比を、1:1から2:1、4:1に変えて、ストーマ保有者が33%、20%のときの計算をしてみよう」

Rパッケージを用いたサンプルサイズ設計のコードはこちら

# install.packages("powerSurvEpi") #インストールが必要なら実行
library(powerSurvEpi)

ssizeCT.default(
  power = 0.9,
  k     = 1,
  pE    = 0.6,                     # ストーマあり群の復職率
  pC    = 0.8,                     # ストーマなし群の復職率
  RR    = log(1-0.8)/log(1-0.6),   # 復職率からハザード比を計算
  alpha = 0.05
)

 nE  nC 
100 100

ssizeCT.default(
  power = 0.9,
  k     = 0.5,
  pE    = 0.6,                     # ストーマあり群の復職率
  pC    = 0.8,                     # ストーマなし群の復職率
  RR    = log(1-0.8)/log(1-0.6),   # 復職率からハザード比を計算
  alpha = 0.05
)

 nE  nC 
 59 118

ssizeCT.default(
  power = 0.9,
  k     = 0.25,
  pE    = 0.6,                     # ストーマあり群の復職率
  pC    = 0.8,                     # ストーマなし群の復職率
  RR    = log(1-0.8)/log(1-0.6),   # 復職率からハザード比を計算
  alpha = 0.05
)

 nE  nC 
 41 161

お父さん「割付け比\(K\)は\(K:1\)を意味している。\(K=1\)（1:1）、\(K=0.5\)（2:1）、\(K=0.25\)（4:1）だと、必要サンプルサイズ（\(nE+nC\)）は100+100人から19+118人、41+161人に変化するみたいだね」

私「えー、\(K\)ってストーマありの割合だよね、そんなのまだわからないもの。思ったより人数が必要かもってことだよね。調査する施設を増やすかどうか考えないと」

お父さん「気持ちはわかるよ。頻度論の立場で厳密に研究をデザインすると、だいたい最初は”そんなに集められないよ”って顔になるからね」

私「でも、サンプルサイズの意味がわかったから、しょうがないやるかって思ったよ。シミュレーション1000回のうち失敗しちゃった1回が、私の調査だったらきついもん」

お父さん「自分で計算するとリアルでしょ」

私「うん、かるく背筋が凍った」

文献

Machin D, Campbell MJ, Tan SB, Tan SH. 医学のためのサンプルサイズ設計（原著第4版）. 京都: 京都大学学術出版会; 2022
Sasako M, Sano T, Yamamoto S, Sairenji M, Arai K, Kinoshita T, Nashimoto A, Hiratsuka M, Japan Clinical Oncology Group (JCOG9502). Left thoracoabdominal approach versus abdominal-transhiatal approach for gastric cancer of the cardia or subcardia: a randomised controlled trial. Lancet Oncol 2006;7(8):644-51

This concludes the Frequentist Experiments series. If you’d like to keep reading over your next cup of coffee, the following episodes are waiting:

これで頻度論シリーズは終わりです。次のエピソードはこちら。

Silent Confusions Hidden in Percentages

他のエピソードはこちら

このシリーズのエピソード

過去のシリーズ

用語集

Statistical Terms in Plain Language