大塚淳の『統計学を哲学する』が、統計学の代表的なアプローチである記述統計、推測統計、統計的因果推論について、科学哲学の文脈でわかりやすく整理していたので、以下要約しました。
観察されたデータを要約する記述統計
- 記述統計は、標本平均や標本分散、標準偏差を比較したり、ヒストグラムやプロットによって視覚化したりすることにより、データを我々が理解できるような形で記述し、要約するための技術である
- 科学的な言明は現実の経験や観測に基づかなければならないという実証主義(positivism)において、記述統計が活用される
- 実証主義は、「神」とか「霊魂」とかいった非経験的な原理を科学から排除しただけでなく、科学自体の内部にあって一見科学的な装いをしているものの、それ自体は観測されないような概念を排除した
- エルンスト・マッハのルートヴィッヒ・ボルツマン批判は後者の例の一つである。ボルツマンは「原子」や「力」といった(当時の科学技術では)観察不可能で、説明のために仮定されたものを使って現実を理解しようとしたが、マッハは、直接観察されないようなものを仮定することなく、観察されたデータのみに基づき、それを我々の理解できるような法則としてまとめること(「思考の経済」)が科学の唯一の目的であると考えた
- エルンスト・マッハのこの考え方を引き継いだのが、カール・ピアソンである。なので、ピアソンの考え方は、よく言われているような「相関から因果は結論できない」ではなく、そもそも因果は直接観察されないものなので、そのようなものを考えるべきではないとする立場である
- マッハやピアソンは、科学において「ある」と認められるのは客観的な仕方で観測されたデータとそこから導かれる概念だけであり、それ以外のものは人間の作り出した人工物に過ぎないとして排除する立場である
- 実証主義の背景には、知識は確実な土台の上に築かれなければならないという認識論がある。マッハやピアソンの考え方は、デイヴィッド・ヒュームの「恒常的な連接」の考え方(例えばビリヤードでボールAがボールBに当たってボールBが動いたといった事象を、Aの後にBが続いて起こったことのみを記述し、AがBが動くことを引き起こしたといった直接観察できない「力」のようなものを想定しないという考え方)に通じるものである
- 科学の土台を直接観察されたもののみに切り詰め、経験に還元されない概念を非科学的・形而上学的なものとして排除する「禁欲さ」によって確実性は得られたが、その代償として、帰納推論が不可能になってしまった
- 例えば、「学期中の学食は混むから今日の昼も席が取れないだろう」といった日常的な予想や、「ある治験結果から薬の効能を判定する」といった科学的な推論のような、私たちが行う推論のほとんどが、未観測の事象はこれまで観測された事象と同じだろうという前提、すなわち、過去から未来を通じて自然は同じように動くという仮定(「自然の斉一性」)に基づいているが、この仮定は、実証主義に基づくと、過去のデータ=これまで得られた経験だけでなく、未観測の未来の経験がないと導くことができなくなる。そのような仮定は、ヒュームによると我々の「心の癖」であるとされる
- この立場に基づくと、観察されたデータから現象をまとめて整理することはできるが、まだ観察されていない事象や観察できない事象を予測したり説明したりすることができなくなる
未来のデータを予測する推測統計
- 推測統計は、データをその背後にある確率モデルから抽出されたサンプル(標本)として捉え直し、サンプル自体は毎回異なるものではあるが、そのもととなる確率モデル自体は同一性にとどまる(斉一的)と推定し、その推定された確率モデルを媒介して未来のデータを予測するものである
- 我々が日常でよく使う確率という概念は、データ自体ではなく、その背後にあって、我々がそこからデータを取ってくる源として想定されるような世界に属する概念である。この「源としての世界」のことを「母集団」と呼ぶ
- この標本空間において、そこで取りうる値に対して、それぞれの値であることの確率が存在し、その分布=確率分布が存在する。それぞれの値であることの確率が存在する変数を「確率変数」と呼ぶ
- 確率分布を特徴づける値=確率モデルの例として、その「重心」を示す母平均(population mean)とバラツキを示す母分散(population variance)がある。これらは、データにおいて見られる平均や分散を、標本空間全体に広げて母平均や母分散で表現したものである
- 観測されるデータは、確率モデルからの部分的な抽出(サンプリング)であるが、もしサンプリングが同じ「母集団」から行われ、かつ、ランダムに行われている(=同種の確率変数の中で、例えばある値と近いものが選ばれるといったことがなく、それぞれのデータが互いに独立に分布している)ならば、確率変数は独立同一分布(independent and identically distributed, 以後「IID」)である
- ヒュームの「斉一性」と呼んだ、未観測な状況においても現在と同様な状況が成立することについて、推測統計は、その具体的な内実をIID条件として定式化している。すなわち、斉一性とは確率モデルがデータの観測過程を通して同一に留まり、データの観測が互いに影響を及ぼすことなくランダムになされるということである
- IID条件という斉一性の条件を想定することにより、我々は、データの背後にある確率モデルについて帰納的推論を行うことができる。そのような推論の例が、大数の法則や中心極限定理などにより構成される大標本理論(large sample theory)である
- 大数の法則は、データ数が増えれば増えるだけ観察された標本平均は母集団の新なる平均である母平均に近づくことを確率収束(convergence in probability)として証明したものである
- 斉一性がIID条件によって担保されているときに、大数の法則によって、数をこなせば、平均の確率分布が母平均の周辺に収まることを保証するが、それに加え、この平均の分布は、「釣り鐘形」の正規分布に近づいていく。これを示すのが中心極限定理(central limit theorem)である
- 大標本理論が示すのはあくまで、無限にデータを取り続ければ最終的には間違いなく分布の真なる姿に到達する、という終局的な保証であるが、我々はそのような無限回の試行をすることが決してできない。しかも多くのケースでは、「大標本」というには遠く及ばないような限られた数のデータに基づいて行わなければならない
- そうした制約の中にあっても帰納推論をできるだけ正確に行い、確らしさや信頼性を評価するために、推論統計は、IID条件によって担保された斉一性に加え、分布の形や種類について仮説を加える。例えばパラメトリック統計では、対象となる確率分布は特定の関数によって明示的に書き下すことができ、その形は有限個のパラメータによって決定されると想定する。このように候補として絞り込まれた分布の集合を統計モデル(statistical model)と呼ぶ
- 確率モデルの斉一性は「真なるもの」として仮定されているが、統計モデルは実在の真なる在り方を近似する一種の道具として想定されている。統計学者ジョージ・ボックスの「すべてのモデルは偽であるが、そのうちいくつかは役に立つ(all models are wrong, but some are useful)」という箴言は統計モデルの道具的なあり方を的確に表している
- 統計モデルの立て方には、ノンパラメトリック統計とパラメトリック統計の二種類がある
- ノンパラメトリック統計は、対象となる分布の在り方について、その具体的な関数型を定めることなく、連続性や微分可能性など一般的で緩い仮定だけを立てる
- パラメトリック統計は、ノンパラメトリック統計からさらに踏み込んで、分布が大まかにどのような形をしているかを特定する。例えばサイコロの目のようにある確率変数が取りうる値に全て同じ確率を割り当てる一様分布(uniform distribution)、例えばコインを投げたときに確率変数(表、裏)のうち表の確率が決まると、それによって裏の確率も決まるベルヌーイ分布、例えばコインをn回連続して投げたときに、表がx回数である確率のように、個々の試行の確率と試行の回数の二つによって決まる二項分布(binominal distribution)、二項分布の試行の回数を大きくしたときに見られる左右対称の釣り鐘型のカーブである正規分布(normal distribution)、複数の確率変数が正規分布に従う多変量正規分布(multivariate nominal distribution)といったものがある。こういった分類の種類を分類族(family of distributions)と呼ぶ
- 未来のデータを予測する推測統計は、まだ観察されていない事象や観察できない事象を予測したり説明したりすることを可能にした。そして予測は、原因が結果を引き起こすという因果関係は、20世紀の中頃までは、予測と因果的説明は本質的に異なるところはないと考えられてきた
- しかしながら、予測が必ずしも因果関係を説明しないこと(例: 交絡因子による偽相関)が明らかになってきた
- さらに、予測の際に用いられる斉一性を推定した確率モデルでは因果関係を捉えきれないことも明らかになってきた。予測は観察されたデータに基づく推論であるが、因果推論は何らかの介入をおこなった結果を推論するものである。介入とは、対象である世界に対して変更を加え、それを新しい状態に変えてしまうことである。とするならば、その世界についてそれまで成立していた斉一性が破られ、確率分布が変えられ、確率モデルが変えられることとなる。とすると、介入によって変えられた後の確率分布を推論する際に、その変化の法則を、変化を被る対象の内のみに求めることはできず、そうした個々の確率分布を持つ世界の間を結びつけるような間世界的な法則が求められることとなる
- 何らかの介入(例: 問題を解決することを狙って立案された施策)を行った結果を予測するためには、推測統計以外のアプローチが求められる
介入を行った結果を予測する統計的因果推論
- 因果推論は何らかの介入を行った結果を予測するものである
- デヴィッド・ルイスによると、EがCに因果的に依存する(causally depends)とは、
(L1)もしCであったとしたらEであっただろう
(L2)もしCでなかったとしたらEでなかっただろう
という二つの反事実条件が共に成立することである - 「もしCであったとしたらEであっただろう」が現実世界において真になるのは、
(i) どの可能世界でもCではない あるいは
(ii)CとEがともに成立している可能世界があり、それはCであるがEでないような可能世界のどれよりも現実世界に近い
ときである。
(ii)によれば、Cが成立し、なおかつEも成立するような可能世界がどこかにあることになる(適例世界)が、すべての可能世界がそうなのではなく、CであってもEでない可能世界(反適例世界)もありうる。
適例世界があらゆる反適例世界よりも現実世界に似ているのであれば、反事実条件(L1)は真となる。また、これを逆にする(上記の議論のC、Eをそれぞれ-C、-Eに置き換える)ことで、(L2)の真偽条件を定めることができる
- 例えば、「甘いものは虫歯の原因である」という因果命題においては、(L1)はその人が甘いものを食べかつ虫歯である適例世界が存在していれば成立し、(L2)はその人が甘いものを食べていないにもかかわらず虫歯になった反例世界が、その人が全く歯を磨いていなかったり、虫歯菌が凶暴化していたりといった現実世界とは大きく異なるものであるのに対して、虫歯にならなかった適例世界は単にその人が甘いものを食べなかったということ以外はみな現実と同様だったとしたら成立する
- しかし、現実世界でその人が甘党だったとするならば、その人が甘党でなかった世界を観測することはできない。これは因果推論の根本問題(the fundamental problem of causal inference)と呼ばれている
- X、Yをそれぞれ確率変数として、値1で肯定、値0で否定とし、Y0を「仮にX=0だったときにYが取るであろう値(甘党でなかったときの虫歯の有無)」、Y1を「仮にX=1だったときにYが取るであろう値(甘党であったときの虫歯の有無)」とすると、ルイスの二条件が満たされるとは、Y1=1かつY0=0であることとなる
- Y1 - Y0 = 1となることである。したがってある集団においてどれくらい因果効果が認められたかは、この期待値をとった平均処置効果(average treatment effect)である
E(Y1-Y0) = E(Y1) – E(Y0) (1)
で表され、これが1に近いほど因果的な効果があったと考えることができる - Y0の値は X=0の人については実際に観察できるがX=1の人については潜在的に定義されるだけで観察はできず欠損値となる。同様に、Y1の値は、X=0の人については実際に観察できるが、X=1の人については潜在的に定義されるだけで観察はできずデータは欠損値となる。しかしながら、X=1のもとでのY1の期待値と、X=0のもとでのY0の期待値はデータがあるので、前者はX=1である人のYの値の平均、後者はX=0で観測されたYの値の平均で求めることができる。このようにして得られた条件付期待値の差である
E(Y1|X=1) – E(Y0|X=0) (2)
は推定でき、 もし式(2)と式(1)が一致するならば、因果の根本問題を回避し、得られたデータから因果効果を推定できる - 式(2)と式(1)は、E(Y0) = E(Y0|X=0) かつ E(Y1) = E(Y1|X=1)のときに一致する。これは、XとYi(ただし i= 0,1)が独立であるということである
- しかし、一般にそれらが独立であると期待できる理由はない。例えば後者の独立性 P(Y1) = P (Y1|X=1)は、実際に甘党だと確認された人が虫歯になる確率と、人々が仮に甘党だったとしたら場合に虫歯になる確率が等しいということを述べている。しかし現実世界では実際に甘党な人は、単に甘いものを食べるだけでなく、一緒によくコーヒーを飲んだり、あるいは頻繁に間食する習慣があったりと、他にも歯に悪影響を及ぼすような食生活をおくっているかもしれない。こうした交絡要因がある場合、実際に甘党だと確認された人の虫歯の確率 P (Y1|X=1)は、単にランダムに選ばれた人が甘党に「させられた」世界での虫歯の確率 P(Y1)よりも高くなるだろう。つまり両者は独立にならない。こうした交絡要因は多数考えられるので、式(2)と式(1)が無条件に一致すると期待することはできない
- ではどうすると良いか。一つの方法は、実験によって両者を無理やり独立にしてしまうことである。例えばそれぞれの被験者についてコインを投げ、表が出た被験者には毎日甘いものを食べてもらい、裏なら食べることを控えてもらう、というような実験を考える。コイン投げはランダムなので、この場合XはY0, Y1を含めた他のいかなる変数からも独立になる。これがフィッシャーの無作為化比較試験(Randomized Control Trial: RCT)である
- この実験では、被験者のそれぞれに対し、目下関心のある処置(この場合「甘いものを食べる」)を施すか否かをランダムに決める。そうして得られた処置群/非処置群の平均(この場合「虫歯の発生確率」)を比較して、その差が有意に大きければ、処置には因果的な効果があったと結論される。そしてその根拠は、無作為化によって処置Xが潜在結果Y0, Y1と独立になり、実際の観察から推定可能な二群の差である式(2)が、本来可能世界で定義される平均処置効果である式(1)に一致すると考えることができるからなのである
- RCTは因果推論の王道であり、因果関係についての科学的知見の多くはRCTに頼っている。しかしながら、RCTの実施には様々な現実的な困難(例: 実験するための人的、時間的、経済的なリソース)ないし倫理的な困難(例: 喫煙のリスクを知りたいからといって、無作為に集めた人々に対して喫煙を強要することが倫理的に許容されない)がつきまとう。また、そもそも実験を行うことができないような場面(例: 人間活動による環境への影響、ある政策が経済に与えるインパクト)もある。このような場合にどうすれば良いのか
- 仮に甘いものが好きな被験者Aとそうでない被験者Bが、甘いものが好きかどうかという点以外はすべての点において共通すると想定できるならば、我々は被験者Bの結果を「被験者Aが仮に甘党でなかったときの結果」、被験者Aを「被験者Bが仮に甘党でなかった時の結果」として扱うことができるだろう。しかしながら、被験者Aと被験者Bが似ているかどうかは、その基準となる変数を無限に考えることができるので判断が難しい
- ただし、そもそも我々の目的は、式(2)においてXとYiを独立にすることであり、被験者同士があらゆる面でそっくりである必要はない。そこで、何らかの変数Zを探してきて、そのもとで条件付独立性が成り立つようにしてやれば十分である。この条件は、強く無視できる割り当て(strongly treatment assignment)条件と呼ばれる。確率式で書き下すと、
P(x|y0, y1, z) = P(x|z) (3)
となり、要はこれを満たすような属性のリスト(ベクトル)Zを求めれば良い。同じZの値を持つ被験者であれば、XとYの間の因果関係の推論という目的にとっては「そっくり」とみなしてよろしい、ということである
- Zに具体的に含まれるのは、XとYの間の交絡要因である。もしZが交絡要因のすべてを含んでいれば、独立条件である式(3)は成立し、観察データから平均処置効果である式(1)を推定できる。多数考えられる交絡要因を共変量として回帰モデルに組み込むと分析の精度が落ちてしまうが、それらの交絡要因を「要約」するような一つの変数があると、分析の精度が落ちるのを回避できる。そうした変数として用いられるのが、共変量zが与えられたときに処置を受ける確率P(X=1|z))である傾向スコア(propensity score)である。傾向スコアは、二人の被験者が「甘党である確率」である、この確率が共通していることによって、両者を「そっくり」とみなすものである