Coffee and Research
  • Home
  • cifmodeling
  • A Conversation (EN)
    • Index
    • Study design
    • Frequentist Thinking
  • A Conversation (JP)
    • Index
    • Study Design
    • Frequentist Thinking
    • Frequentist Experiments
    • Effects and Time
  • 8 Elements (EN)
  • 8 Elements (JP)

On this page

  • Frequentist Thinking I − Reading a Paper over a Cup of Coffee
    • 生存曲線まわりの数値を読み解く
    • 文献
    • 次のエピソードとRスクリプト

Reading a Paper over a Cup of Coffee

はじめて論文を読んだとき、統計用語に戸惑った経験はありませんか。論文を前にした娘の疑問から始まる父の入門講義。論文の正しい読み方を静かにほどいていきます。

Frequentist Thinking I − Reading a Paper over a Cup of Coffee

Keywords: clinical trial, language & writing, p-value, survival & competing risks


前回までのあらすじ

はじめて研究に取り組む娘と統計家の父。父に研究仮説は”PICO”を”PECO”で整理するといいとアドバイスされ、医師である娘は、がんサバイバーにおけるストーマ造設と復職状況の関係を調査することに決める。おなじ復職状況でも、2値データと生存時間データの2通り解析の仕方があると教えられた娘。上司に読むことを勧められた論文で、OS・DFSという用語が出てきたことを思い出すのだった。

生存曲線まわりの数値を読み解く

父「ん?寒くなってきたのに、遅くまでなに読んでるの?コーヒーでも淹れようか」

私「あ、お父さん、ありがと。ミルクもお願い。いまね、胃がん手術の論文読んでるんだ。そうだ、前に全生存期間(OS)と無病生存期間(DFS)の違いについて教えてくれたでしょ」

お父さん「そんなこともあったね」

私「お父さんも臨床論文読んだりする?仕事で」

お父さん「臨床試験の統計家やってるから、たまにね。どっちかっていうと、論文を書くことの方が多いけど。臨床の最新知識はそこまで仕事でいらないし」

私「よかった。この論文、細かいところがよくわかんないんだ。特に統計っぽい言葉の意味がね。ちょっとこの図を見てよ。JCOG9502っていう胃がん手術の術式を比べた臨床試験の論文なの(Sasako, et al. 2006)。TH群は開腹創から下縦隔へアプローチする標準的な手術を受けた患者、LTA群は左開胸開腹連続切開によって下縦隔郭清も行った患者のことね」

お父さん「この図は、いわゆるKaplan-Meier曲線だよ。図AがOS、図BがDFSだね。どちらの図でも、TH群(青の曲線)よりLTA群(赤の曲線)の方が下にある。つまりTH群の方が、治療成績がいい」

私「そこまではわかるの。知りたいのは細かいところなんだってば。最初につまずいたのが、生存曲線の下に書いてあるアットリスク数 (number at risk)でね。これって時点ごとの人数のことでしょ。図Aと図Bの手術時点の人数を見てよ。図Aは82人と85人、図Bは76人と75人で、左右で解析された人数が違うの。理由はわかる?」

お父さん「これは結構難しいな。臨床試験で解析対象から除外されるって、プロトコール逸脱とかよっぽどのことだと思うけど。コーヒーおかわりくれる?ふむ。DFSの解析を行うには再発したかどうかを評価しないといけないよね。そのあたり、なにか理由はありそう?」

私「そっか、腫瘍組織が完全に切除できなかったら、再発とみなしていないのかもしれない。えーっと、論文を読むと、確かにR0切除ができたのは151人って書いてある。そのせいだな多分。それとね、7年目あたりから人数が数人しかいなくなってるの。これってどう思う?」

お父さん「この試験って登録何年で、追跡何年なの?それによるでしょ」

私「登録期間は1995年から2003年だから、8年。生存時間データは2006年までのものを解析したって書いてあるな。そうすると追跡期間は最短で3年かな」

お父さん「そうすると、必ずしも術後3年以上追跡されるわけじゃないよね。以前、打ち切りについて話したことがあったよね。生存時間データは、イベントと打ち切りから構成される。3年以内に打ち切りが多いのは不自然だけど、3年以降に追跡が打ち切られるのは計画通りのことだよ」

私「打ち切りがいつ起きたかなんて、論文を読んでも書いてないよね?」

お父さん「そんなことはない。生存曲線にひげが立ってるでしょ」

私「このぴょこぴょこしたやつ?」

お父さん「そうそう。それが打ち切りのシンボル。時間原点の直後にひげがたくさん立ってたら、なにが起きてると思う?研究を始めたらすぐ、患者さんが追跡できなくなって、打ち切りになったってこと。そんな変な研究にはバイアスがあるかもしれないよね」

私「図では、3年以内のひげは数えるほどしかない。じゃあほとんどの患者は3年以上追跡できたんだ。いい研究なんだね。今までの話をまとめると、こういうことか」

  • アットリスク数は時点ごとの人数を表す
  • ひげは打ち切りを表す
  • 図に示されない情報だが登録期間・追跡期間も要確認

私「でもそういうのって統計の教科書に書いてないよね。平均とか回帰係数ばっかり」

お父さん「生存時間解析は教科書では後回しになりがちだからね。がんの臨床試験データの解析を勉強するなら、統計学一般の教科書より、米国の臨床試験グループ(SWOG)の統計家が書いた臨床試験の教科書がいいよ(Green, et al. 2013)」

私「よく考えたら10年以上かかったんだ、この図を描くのに。スタッフは大変だっただろうな。そういえばさ、臨床試験の研究計画書の話がでたでしょ、この前。計画書って参加施設の倫理委員会に出すじゃない。そうしたら基本的に変更しないよね、手続きもいるし」

お父さん「そうだね」

私「10年後の先を見越して、しかも誰が読むかもわからないのに、計画を文章にするって怖いよね。100人以上の患者さんも関わってくるし。そりゃあ、アウトカムひとつとっても言葉の意味を固めときたくもなるわ。あ、あとさ、生存曲線まわりの英語についてなんだけど、”hazard ratio”、”95% CI”、”one-sided p”、”two-sided p”は日本語でなんていうか教えてよ」

お父さん「ハザード比、95%信頼区間、片側p値、両側p値かな。このあたりの指標は、生存時間解析の定番だよ。ハザード比とかp値は、Cox回帰で計算するんだけど、本格的な話は、また今度ゆっくりやろうか」

このエピソードに関係するクイズです

予後がどのくらいかを説明するために、がん患者の余命を用いることがあります。胃がん手術後の余命をJCOG9502の図から読み取ることができるでしょうか。

  1. 図A(OSのKaplan-Meier曲線)から読み取ることができる
  2. 図B(DFSのKaplan-Meier曲線)から読み取ることができる
  3. 図AとBどちらからも読み取ることができない
答えはこちら
  • 正解は1です

胃がん手術後の余命を表す指標として、生存期間の平均値または中央値がありますが、図から読み取りやすいのは生存期間中央値です。

生存期間は、日数や年数のような数値データですから、連続データに近い特徴を持っています。連続データでは、中央値(median)は上位50%に相当する値のことですよね。半数以上の対象者がイベントを起こして、生存期間が確定すれば、たとえ打ち切りがあっても、生存期間中央値を求めることができます。

具体的には、生存期間中央値は、50%が生存している時点、すなわち図AのSurvivalが50%になる時点に対応しています。つまりKaplan-Meier曲線が50%まで下がった時点を読み取ればよいのです。

文献

  • Green J, Benedetti J, Smith A, Crowley J. 米国SWOGに学ぶがん臨床試験の実践 第2版(原書第3版). 東京: 医学書院; 2013

  • Sasako M, Sano T, Yamamoto S, Sairenji M, Arai K, Kinoshita T, Nashimoto A, Hiratsuka M, Japan Clinical Oncology Group (JCOG9502). Left thoracoabdominal approach versus abdominal-transhiatal approach for gastric cancer of the cardia or subcardia: a randomised controlled trial. Lancet Oncol 2006;7(8):644-51

次のエピソードとRスクリプト

  • P-Value Explanations That Seem Plausible at First Glance
  • frequentist.R
他のエピソードはこちら

このシリーズのエピソード

  • Reading a Paper over a Cup of Coffee
  • P-Value Explanations That Seem Plausible at First Glance
  • Beyond 0.05: Interpreting P-Values in a Clinical Trial

過去のシリーズ

  • Study Design I

用語集

  • Statistical Terms in Plain Language