及川直彦のテキストのアーカイブ

及川直彦が書いたテキストと興味を持ったテキストのアーカイブ

ランダム化比較試験はなぜ因果関係を証明できるのか

ランダム化比較試験はなぜ因果関係を証明できるのかについて、ジューディア・パール&ダナ・マッケンジー(2022)『因果推論の科学』文藝春秋にあった因果ダイアグラムを使った説明が面白かったのでメモ。

 

例えば、「畑全体に肥料1を一様に与えた場合、肥料2を一様に与えた場合に比べて、収穫量がどのように変わるか」〔P(yield|do(fertilizer=1))〕を予測したい場合に、以下の3つのモデルを使うと、ランダム化比較試験において何が起こっているかが理解できる。

 

  1. 調整が不適切な実験
    あまり深く考えることなく実験をすると、たとえば肥料1をやや標高の高い区画に与え、肥料2をやや標高の低い区画に与える→「水はけ」が交絡因子になる可能性や、ある年にある区画に肥料1を与え、次の年、同じ区画に肥料2を与える→「天候」が交絡因子になる可能性がある。同様に、土壌肥沃度、地質、微生物の数も交絡因子となる可能性がある。
    この世界は因果ダイアグラムを使うとモデル1のように表現される。
    例えば「水はけ」はどの肥料を与えるかと、どれくらいの収穫量になるかの両者に影響する。

    【モデル1】

  2. 本当に知りたい世界
    予測したいのは、全ての区画に肥料1を与えた世界=「肥料」に向かう矢印が消去され、「肥料」の変数を強制的に特定の値(ここでは「1」)に固定されている世界における収穫量である。
    この世界は因果ダイアグラムを使うとモデル2のように表現される。

    【モデル2】

  3. ランダム化比較試験によってシミュレートされる世界
    「肥料」の変数の値を、ランダムな選択をする道具(フィッシャーの場合はトランプのカードを使用)によって決める場合、do(fertilizer=1)になる区画もあれば、do(fertilizer=2)になる区画もあるが、どちらになるかの選択はランダムになり、このような世界は因果ダイアグラムを使うとモデル3のように表現される。
    引いたカードのみに基づいて肥料を選択するため、変数「肥料」に向かう矢印がすべて消えており、また、収穫される植物はカードを認識できないので、「カード」から「収穫量」に向かう矢印がない。すなわち、モデル3においては、「肥料」と「収穫量」の間の関係には交絡因子がない。

    【モデル3】

     

ランダム化されていない実験はモデル1のように交絡因子があり、私たちが予測したいのがモデル2だとすると、肥料1をどの区画に与えるかをランダムに決めるモデル3は、モデル2をシミュレートしているというわけである。