お父さん「思い出した?じゃあDAGと確率変数の関係について説明しよう」
お父さん「Aの確率分布がBに依存することを、矢印で表すことにする。つまり、Bで条件付けたAの確率は、B→Aで表される。逆に、AとBが独立なら、矢印はない。このルールを使えば、DAGを条件付確率と対応付けることができそうでしょ。そうすると独立性や相関性について考えることができる」
お父さん「そうきたか。えっとね、正規分布は条件付確率じゃない。でも、たとえばロジスティック回帰だったら、条件付確率を表すから、それをイメージしてもいい。ここでは具体的な確率分布を意図しているわけじゃなくて、一般的な話をしてるんだけどね」
お父さん「確率変数によって別の確率変数が影響を受けるためには、なんらかの関連が必要だよね」
お父さん「統計学では、一般に、それは条件付確率だったり、相関だったりする。一方で、DAGではそれをグラフ上の有向パスで表している。胃がんの例で用いたDAGに、このルールを適用してみてよ。たとえばAからDに入る矢印はないでしょ。このことは、A以外の変数であるB、C、Eで条件付けると、DはAと独立という意味になる」
私「えーっと、Aは性格、Dは胃がん発生だっけ。年齢も、体質も、ピロリ菌除菌の有無も同じだったら、性格に関係なく、胃がんリスクは等しいと仮定しているって意味なのかな?」
お父さん「そういうこと。次に、DAG全体について考えてみてよ。さっきのグラフでは、AからB、BからA、AからD、BからEへの矢印はないよね。このことは、AはBに直接影響せず、BはAに直接影響せず、AはDに直接影響せず、BはEに直接影響しないという仮定を表している。もっといえば、これは、さらに、AがBを介して伝わるDへの効果はない、という意味にもなる。このような依存関係を条件付分布で表すと、以下の5つの式のようになる。これがさっきのDAGに対応する確率分布だよ」
\(\mathrm{Pr}(A|B,C,D,E)=\mathrm{Pr}(A)\)
\(\mathrm{Pr}(B|A,C,D,E)=\mathrm{Pr}(B)\)
\(\mathrm{Pr}(C|A,B,D,E)=\mathrm{Pr}(C|A,B)\)
\(\mathrm{Pr}(D|A,B,C,E)=\mathrm{Pr}(D|B,C,E)\)
\(\mathrm{Pr}(E|A,B,C,D)=\mathrm{Pr}(E|A,C)\)
私「…。すまん、気を失ってた。なんだか具体性がなくて、それでって思っちゃうよ。話の終着点がみえない」
お父さん「そっか。ここまでの話ではね、DAGと条件付確率を対応付けるルールを説明したかったんだ。簡単にいうと、条件付けの方の変数から、条件を付けられる変数の方に、矢印が入るようなルールで、DAGと条件付確率を結びつけることができる。このルールを踏まえて、合流点の意味を考えてみてよ。この図でEとDに相関はある?相関はない?」

私「じゃあもうちょっとだけ話に付き合ってあげる。うーんと。この図にはE→CとD→Cがある。これって、\(\mathrm{Pr}(C|D,E)\)って意味だっけ?」
私「さらに、EとDに入る矢印はない。つまり、CとDとEの確率分布は、それぞれ\(\mathrm{Pr}(C|D,E)\)と\(\mathrm{Pr}(D)\)と\(\mathrm{Pr}(E)\)ってことになる。でもここからがわかんないな」
お父さん「確率の復習で述べた同時分布と条件付確率の関係を思い出してみて。同時確率は、\(\mathrm{Pr}(C,E,D)=\mathrm{Pr}(C|D,E)\mathrm{Pr}(D)\mathrm{Pr}(E)\)と表されるでしょ。この式がポイントなんだ。これって、EとDは独立という意味でしょ」
お父さん「さらに、この図は、最初に示した合流点の図とは違って、E→Dはない。つまり、曝露変数とアウトカムに因果関係はない状況を想定したものといえる。っていうことはさ。Cについてなにも操作しなくても、EとDに相関があれば因果関係があるし、相関がなければ因果関係はないってことになるでしょ。相関があるかどうかは、曝露変数EとアウトカムDのデータを集めれば、確認できるよね」
私「なんとなくゴールが見えてきた。この図みたいにCが合流点だったら、調整なんかせずにEとDの相関を調べればいいってことね」
お父さん「簡単にいうとそういうこと。合流点があると、変数間の相関関係がトリッキーになるんだ。簡単にいうと、dagittyパッケージは合流点に気をつけながら、バックドアパスをブロックする変数を見つけてくれるんだ」
合流点を含むパスは相関を生じさせない
合流点という名前は、有向パスが合流するノードという意味に由来します。パスの上に合流点が1つ以上あるとき、合流点からの影響は別のノードへ伝わりません。このことを、合流点があるとそのパスはブロックされる、という言い方をします。逆に合流点が含まれないとパスはブロックされません。実際、合流点を含むパスが確率変数同士を結びつけても、それだけでは相関は生じません。
合流点は調整すべきではない
上で述べた性質を踏まえて、下に示すDAGについて考えてみてください。結論から先に言うと、この場合もEとDは独立ですが、条件付けによって相関が生じます。
Cで条件付けたとき、つまりCを特定の値に固定すると、なにが起きるでしょうか。Cの値が固定されると、A→Cのパスがあるため、Cの影響でAの分布が変化します。さらに、B→Cのパスがあるため、Bの分布も変化します。
次に問題になるのは、このDAGにA→CとB→Dというパスがあることです。AとBの確率分布が変化すると、A→CとB→Dのパスによって、EとDに同時に影響します。そうすると、Cを固定することによって、E-A-C-B-Dというパスを通じて、EとDに相関が生じることになります。
まとめると、以下のように、合流点を含むパスは、共通原因・中間媒介因子しか含まないパスとは逆の性質を持っています。
