私「紙ナプキンに描いてくれた表自体はわかるんだけどね。そこからαとかβとか確率とかいわれてもなあ。ついていけないな」
お父さん「まずはαエラーとβエラーが臨床試験のどんな結果を表しているか考えると、イメージしやすいかもね。まず、αエラーとβエラーの意味から確認させて」
- αエラー: 「効果がない」という確率モデル上で計算されたエラーの確率
- βエラー: 「効果がある」という確率モデル上で計算されたエラーの確率
お父さん「JCOG9502のように試験治療の有効性を検証する試験では、αエラーは標準治療と差がないかそれより劣る治療方法が普及してしまうことにつながる。いわば、”αエラー=消費者リスク”といえる。一方で、βエラーは試験治療が本当は有効なのに、開発中止してしまうことを意味する。だから”βエラー=生産者リスク”といわれる。医師の視点で気になるのは、やっぱりαエラーの方だよね」
私「理屈じゃなくて、数字の実感がないのよ。判断ミスをする確率なんて低い方がいいに決まってるよね。でもどのくらいの確率にするものなの?」
お父さん「JCOG9502の論文読んだんでしょ。どう書いてあった?」
私「はいはいみますみます。”The amended sample size was 250, with one-sided alpha error of 0.1 and beta error of 0.2”って書いてある。片側検定で、αエラー0.1、βエラー0.2ってことね。そうすると、予定変更後のサンプルサイズは250人になったんだ」
お父さん「そういうこと。βエラーは0.1か0.2が一般的かな。米国臨床試験グループSWOGの統計家たちは、教科書で以下のように述べている(Green, et al. 2013)。
新しい治療法が見つかることはさほど多くないため、我々は原則として90%の検出力を推奨している
検出力90%はβエラー0.1のことね」
私「私の研究でもサンプルサイズは250人でよくない?」
お父さん「雑だけどいい線いってる。大体それくらいになりそうだけど、サンプルサイズの計算結果を表にしてあげるから、ちゃんとそれをみて決めよう。いろんな状況があり得るけど、両側αエラー0.05で、βエラーは0.2(検出力0.8)と0.1(検出力0.9)という設定がもっともよく用いられるから、そのときのサンプルサイズを紹介するね。同じ人数の2つの群を比較することを想定しているから、群ごとの人数はサンプルサイズの半分になる」
表1. 2群の生存曲線を比較するためのサンプルサイズ
両側 α=0.05, 1−β=0.8
※ 数値は「2群合計のサンプルサイズ」(割付け比1:1)
| 0.15 |
964 |
— |
— |
— |
— |
— |
— |
— |
| 0.20 |
296 |
— |
— |
— |
— |
— |
— |
— |
| 0.25 |
156 |
1826 |
— |
— |
— |
— |
— |
— |
| 0.30 |
102 |
506 |
— |
— |
— |
— |
— |
— |
| 0.35 |
74 |
246 |
2486 |
— |
— |
— |
— |
— |
| 0.40 |
58 |
152 |
658 |
— |
— |
— |
— |
— |
| 0.45 |
48 |
104 |
308 |
2894 |
— |
— |
— |
— |
| 0.50 |
42 |
78 |
182 |
744 |
— |
— |
— |
— |
| 0.55 |
36 |
62 |
122 |
340 |
3034 |
— |
— |
— |
| 0.60 |
32 |
52 |
90 |
198 |
764 |
— |
— |
— |
| 0.65 |
28 |
42 |
70 |
130 |
342 |
2900 |
— |
— |
| 0.70 |
26 |
38 |
54 |
92 |
194 |
712 |
— |
— |
| 0.75 |
24 |
34 |
38 |
70 |
124 |
312 |
2492 |
— |
| 0.80 |
22 |
30 |
38 |
56 |
86 |
174 |
592 |
— |
| 0.85 |
22 |
26 |
34 |
46 |
66 |
110 |
254 |
1818 |
| 0.90 |
20 |
26 |
30 |
38 |
50 |
136 |
136 |
414 |
表1. 2群の生存曲線を比較するためのサンプルサイズ
両側 α=0.05, 1−β=0.9
※ 数値は「2群合計のサンプルサイズ」(割付け比1:1)
| 0.15 |
1290 |
— |
— |
— |
— |
— |
— |
— |
| 0.20 |
396 |
— |
— |
— |
— |
— |
— |
— |
| 0.25 |
208 |
2444 |
— |
— |
— |
— |
— |
— |
| 0.30 |
136 |
676 |
— |
— |
— |
— |
— |
— |
| 0.35 |
100 |
330 |
3330 |
— |
— |
— |
— |
— |
| 0.40 |
78 |
202 |
880 |
— |
— |
— |
— |
— |
| 0.45 |
64 |
138 |
412 |
3876 |
— |
— |
— |
— |
| 0.50 |
54 |
104 |
242 |
996 |
— |
— |
— |
— |
| 0.55 |
46 |
82 |
162 |
454 |
4060 |
— |
— |
— |
| 0.60 |
42 |
68 |
120 |
264 |
1022 |
— |
— |
— |
| 0.65 |
38 |
56 |
90 |
172 |
456 |
3880 |
— |
— |
| 0.70 |
34 |
48 |
72 |
124 |
258 |
952 |
— |
— |
| 0.75 |
32 |
42 |
60 |
92 |
166 |
416 |
3336 |
— |
| 0.80 |
30 |
40 |
52 |
74 |
116 |
232 |
796 |
— |
| 0.85 |
28 |
34 |
46 |
60 |
88 |
146 |
338 |
2436 |
| 0.90 |
26 |
32 |
38 |
50 |
68 |
100 |
180 |
548 |
お父さん「ストーマ造設あり・なしの2群があるとして、復職率はそれぞれどれくらいになりそうなの?仮の値でいいよ」
私「むずいな。どのくらいなんだろう。なにも不利なことがないなら、手術した後、1年以内に80%は復職してほしいかな。ストーマがあると20%から30%くらいは復職率が下がるんじゃない?調査してみないとわかんないけどね」
お父さん「なるほど。もし復職状況を生存時間データとして解析するとしたらね。復職できた時点でイベントが発生し、それ以外の患者は打ち切りになる。表1と2は、2群の生存確率を比較するためのもので、生存確率を\(\pi_1\)と\(\pi_2\)と表記している。\(\pi_1\)と\(\pi_2\)は、がんサバイバー研究でいうとグループごとの”非復職確率”に対応する。つまり復職率が80%と60%だったら、\(\pi_1=0.2\)と\(\pi_2=0.4\)になる。この数字を使うってことは、暗黙の裡に、1年間追跡することを想定してるんだけどね。表2の対応箇所をみてみてよ」
私「202人って書いてある。これが調査しないといけない人数ってこと?」
私「もし、202人の全員が1年間で追跡できなかったらどうするの?半年までしか調査できなかったとか」
お父さん「この表のサンプルサイズは、術後1年間100%追跡できるという前提で計算している。サンプルサイズの計算では、本来、それぞれの群のハザード比や生存期間中央値から必要なイベント数を求め、それを観察するために必要な期間を考慮したうえで人数を決める。結構ややこしいでしょ。今回は、2パターンの検出力だけみればいいように状況を単純化している。さっき検出力について説明したじゃない、対立仮説の下で有意になる確率ね。表2は、検出力90%の検定を行うために必要なサンプルサイズで、表1はそれを検出力80%に緩めたときのもの。表1をみると、検出力80%でよければ、152人に調査すればいいみたいだね」
お父さん「もちろん、この書籍の著者が、別世界の誰かに手紙を出してね」
私「ふむふむ。まだよくわかんないな。JCOG9502では、2本の生存曲線を比べてたでしょ」
私「いま考えてる統計解析って、ストーマ造設あり・なしと復職状況の関係を調べてたんだよね。以前に聞いた話だと、2値データだとロジスティック回帰、生存時間データだとCox回帰を使うんじゃなかったっけ。生存曲線とCox回帰は別の統計手法じゃない?」
お父さん「正確にいうとね、生存曲線を比較するためのp値はいくつかの統計手法で計算できる。よく使うのはログランク検定とCox回帰のふたつで、表1と2は、ほんとはログランク検定用なんだけど。Cox回帰を使ったとしても、ストーマ造設あり・なし以外の因子がなければ、ログランク検定とほとんど同じ結果になる。特にサンプルサイズが大きければね」
私「お父さん、あとね。表1と2に割付け比1:1って書いてあるでしょ。これって2群の人数が同じってことだよね」
お父さん「そうだよ、たいていの臨床試験の割付け比は1:1だからね」
私「でもストーマ保有者って、非保有者より少ないと思うんだけど。半数くらいかな」
お父さん「調査や観察研究だと、群ごとの人数は同じにならないよね。さっきは、書籍(Machin, et al. 2022)の表を利用させてもらったんだけど、設定が複雑になると、付録のソフトウェアやRを利用することになる。 powerSurvEpiパッケージで、あの表とほぼ同じ計算ができるはず。割付け比を、1:1から2:1、4:1に変えて、ストーマ保有者が33%、20%のときの計算をしてみよう」
お父さん「割付け比\(K\)は\(K:1\)を意味している。\(K=1\)(1:1)、\(K=0.5\)(2:1)、\(K=0.25\)(4:1)だと、必要サンプルサイズ(\(nE+nC\))は100+100人から19+118人、41+161人に変化するみたいだね」
私「えー、\(K\)ってストーマありの割合だよね、そんなのまだわからないもの。思ったより人数が必要かもってことだよね。調査する施設を増やすかどうか考えないと」
お父さん「気持ちはわかるよ。頻度論の立場で厳密に研究をデザインすると、だいたい最初は”そんなに集められないよ”って顔になるからね」
私「でも、サンプルサイズの意味がわかったから、しょうがないやるかって思ったよ。シミュレーション1000回のうち失敗しちゃった1回が、私の調査だったらきついもん」