What Data Cannot Tell Us

Truth I − What Data Cannot Tell Us
Keywords: causal model, language & writing, probability model, research hypothesis
前回のテーマであるSimpsonのパラドックスは、調整前後で関連の程度が変わる現象のことです。詳しい中身は覚えていなくてもかまいません。ここでは「調整前と調整後で話が変わりうる」という点だけ思い出してください。
表1は、コーヒーと膵がんを想定した仮想データです。コーヒー摂取群とコーヒー非摂取群で、それぞれ膵がん発生ありとなしが調べられています。膵がんを発生したのはそれぞれの群で15人と12人、膵がんがなかったのは365人と868人です。オッズ比を計算してみましょう。コーヒー摂取群では膵がんリスクは3.9%で、コーヒーを摂取しない群の1.4%に比べて、オッズ比は3倍です。これは、コーヒーを摂取すると、膵がんリスクが高くなることを意味しています。
表2には、交絡因子(喫煙)によって対象者を層別した結果が示されています。ここから膵がんのオッズ比を求めるとどうなるでしょうか。コーヒー摂取でも非摂取でもリスクは同じですよね。つまりオッズ比は1倍です。
表1. 層別前の膵がんリスクとオッズ比
| コーヒー摂取 | コーヒー非摂取 | オッズ比 | |
|---|---|---|---|
| 合計 | |||
| 膵がんあり | 15 | 12 | |
| 膵がんなし | 365 | 868 | |
| リスク | 3.9% | 1.4% | 3倍 |
表2. 層別後の膵がんリスクとオッズ比
| コーヒー摂取 | コーヒー非摂取 | オッズ比 | |
|---|---|---|---|
| 喫煙 | |||
| 膵がんあり | 14 | 4 | |
| 膵がんなし | 266 | 76 | |
| リスク | 5.0% | 5.0% | 1倍 |
| 非喫煙 | |||
| 膵がんあり | 1 | 8 | |
| 膵がんなし | 99 | 792 | |
| リスク | 1.0% | 1.0% | 1倍 |
ロジスティック回帰の限界
お父さん「熱いコーヒー淹れてくれる?」
私「いいよ。いっしょに大福もどうぞ」
お父さん「ありがとう。この前の”コーヒーと膵がん”の話、覚えてる?層別解析やロジスティック回帰で交絡を調整したときのこと」
私「その節はどうも」
お父さん「じゃあ、振り返って考えてみようか。喫煙が交絡因子だったよね。喫煙を調整した結果と調整しない結果がある。どっちを報告する?」
私「ん?そりゃ調整した方でしょ」
お父さん「だよね。でも交絡因子がAとBの2つあって、ともに曝露とアウトカムの関係をゆがめているとする。AとBの両方を調整したときのオッズ比を、仮に3だとしよう。Aだけ調整したらオッズ比は2、どちらも調整しなかったらオッズ比は3。さあ、Aだけ調整した結果とどちらも調整しない結果、どちらが正しいと思う?」
私「えーっと、真値が3なんだから調整しない方かな」
お父さん「ところがね、Bのデータはそもそも集めていなかったら?“AとBを調整したときオッズ比は3”なんてわからないよね。これでも”調整しない方が正しい”?」
私「なにがいいたいの?私、ロジスティック回帰は苦手なんだよ」
お父さん「真値が見えない状況では、ただのオッズ比と調整したオッズ比のどちらが真実に近いかなんていえないってことだよ。データとは別に、手がかりになるような知識や概念が必要だって思わない?」
私「そんなこといわれてもね。知識を得るために調査してるわけだし。Rに四苦八苦している私にとっては、がんばって調整した結果が正しいって信じるしかないよね」
お父さん「気持ちはわかるけど、もうちょっとつきあって。このSimpsonのパラドックスは、交絡という現象そのものだと思ってない?」
私「え?調整したらバイアスが消えるんだよね。そうじゃないの?」
お父さん「いや、そこは別物なんだ。交絡はそんなに単純な問題じゃない。直感的な説明をするとね。層別前の解析は集団全体のオッズ比でしょ」
私「そうだね」
お父さん「当たり前だけど、層別後のオッズ比は、喫煙集団のオッズ比と非喫煙集団のオッズ比だよね。どっちが真値なんだろう?ターゲット集団によって真値が変わっていいの?」
私「ん?えっと、そうだね、コーヒーが健康に悪いかどうかは個人差ないと思う」
お父さん「うん。この事例でいえば喫煙が交絡因子なのは間違いないんだよ。でも一般には、層別前と層別後のどっちのオッズ比が真値なのか、統計学の枠組みで決めるロジックはないんだ。もちろん、Simpsonのパラドックスは数字のパズルではないし、どっちの解析が正しいかという命題も言葉遊びじゃない。データと真値の関係をどう認識するかに関わる問題なんだ。専門家以外のほとんどが、ここを逆にとらえてしまう。そろそろ本当のことを話そう」