及川直彦のテキストのアーカイブ

及川直彦が書いたテキストと興味を持ったテキストのアーカイブ

内部妥当性と外部妥当性

学術研究やビジネスにおいて、ある要因(統計学では「独立変数」と呼ぶ)とそれがもたらす結果(統計学では「従属変数」と呼ぶ)の間に因果関係があるかどうかを、実験(例: ランダム化比較試験、非ランダム化比較試験、自然実験)に基づいて分析することがある。このような分析においては、無作為抽出と無作為配分が鍵となる。 統計学の概論を解説した教科書ならば、そのどこかには、おそらく、「無作為抽出」について書いてあるだろう。たとえば次のような記述だ。
「統計的検定を行うためには、サンプルは母集団から無作為に抽出しなければならない」
その一方で、統計の教科書にはなぜかたまに載っていなかったりするのだが「ある意味では、無作為抽出よりも、はるかに重要な手続き」とも言われている(1)「無作為配分」という概念がある。
「個々の科学的探究で使われる無作為配分は、ある意味では、無作為抽出よりも、はるかに重要な手続きだといってもよいのかもしれない。にもかかわわらず、統計学の教科書では、ふつう『全有権者』のような具体的な母集団からの無作為抽出だけが解説してあって、そのあとすぐに、統計的検定の話になってしまう。無作為配分の解説がのっている例は、ほとんどないのではないだろうか。そのため、『無作為抽出を行わない実験では、無作為配分が、統計的検定を正しく行うための必須の前提となる』という重要な事実がよく理解されずに終わってしまい、無作為配分なしの誤った統計的検定が横行する結果になっているのである」 (佐伯胖・松原望編「実践としての統計学」東京大学出版会 140p.)
一見似ているので混同されやすい「無作為抽出」と「無作為配分」は、それぞれいったい何の話をしているのだろうか。この話を整理するには、まず、「内部妥当性」と「外部妥当性」の話から始めるとよさそうだ。
たとえば全部で10,000の店舗を持つコンビニエンスストアが、一部の店舗で「ワインコーナー」を拡充する実験を30店舗で行い。それに基づいて全国展開をするかどうかを判断しようとしたとしよう。「ワインコーナー」設置の初期コストを6ヶ月で回収できる+1.0%以上の粗利益の向上を目標として実験を行い、実験の結果、粗利益が平均+5.0%向上したならば、「ワインコーナー」を残りの全店舗に展開すると判断してもよいのだろうか。
この問いに対して、統計学の観点からは二つの論点がある。一つ目は「その30店舗で確認された5.0%の粗利益の向上は本当なのか」という点、二つ目は「その30店舗で確認された5.0%の粗利益の向上は、他の店舗においても同様の効果がありそうか」という点である。
前者は、実験の結果が現実を正しく反映しているか(これが「内部妥当性」)に関する議論であり、後者は、実験の結果を一般化できるか(これが「外部妥当性」)に関する議論である。

まず、内的妥当性=実験の結果が現実を正しく反映しているかについてもう少し見てみよう。

先ほどのコンビニエンスストアの「ワインコーナー」を拡充する実験を例に使うならば、「ワインコーナー」の拡充といった要因(独立変数)と粗利益の変化のような結果(従属変数)の間に因果関係があれば、内部妥当性があるということになる。
しかしながら、実験においては、独立変数と従属変数の間の因果関係が本当はないのにあるように見誤らせる、あるいは、本当はあるのにないように見誤らせる、独立変数以外の変数(統計学では「ノイズ」あるいは「干渉変数」と呼ぶ)が存在する。

ノイズがあると、実験をした30店舗(統計学においては「テスト・グループ」あるいは「実験群」という)の個々の店舗において、観測される従属変数の値が、真の値(独立変数が従属変数にもたらす真の影響の値)よりも、プラスの方向もしくはマイナスの方向にずれてしまう。 たとえば、テスト・グループにはたまたま東京都港区に立地している店舗が多く含まれていたが、その30店舗と比較する基準となる店舗(統計学においては「コントロール・グループ」あるいは「対照群」という)が全国から平均的に選ばれていたならば、「ワインコーナー」の拡充の効果だと思ったものが、実はテスト・グループとコントロール・グループの間の人口動態の違いというノイズによってもたらされていたのかもしれない。

この問題を解決するためのアプローチのひとつが無作為配分である。サンプルをテスト・グループとコントロール・グループの間に配分する、あるいは、複数のテスト・グループ間に配分する際に、無作為に配分すれば、個々のグループの間でサンプルを等質にすることができ、それによって、グループの間でノイズがもたらす影響を乖離の幅を小さくすることができる。

ただし、テスト・グループのサンプルサイズが制約される実務における実験においては、無作為配分によっても、ノイズがもたらす影響の乖離の幅を、意思決定に求められる精度のレベルまで抑えることができないことがしばしばある。サンプルのサイズが少ないと、プラスの方向へのずれとマイナスの方向へのずれが、同じように現れて相殺する効果(統計学において「平均への回帰」という)が十分に期待できないからだ。 この問題を解決するアプローチのひとつが、たとえば、私が今携わっているAPT (Applied Predictive Technologies)が採っているような、テスト・グループとコントロール・グループの間のマッチングにアルゴリズムを活用するものである。

次に、外部妥当性=実験の結果を一般化できるかについてもう少し見てみよう。

先ほどのコンビニエンスストアの「ワインコーナー」を拡充する実験を例に使うならば、実験をした30店舗(統計学においては「テスト・グループ」あるいは「実験群」という)が、全店舗の特徴をどれくらい代表しているものなのかが鍵となる。

たとえば、実験をした30店舗のうち28店舗が、たまたま東京都港区に立地している店舗だったとするならばどうだろうか。仮に粗利益が平均+5.0%向上したという結果が、ノイズがもたらす影響を抑えることによって得られた真の値だったとしても、他の地域で同じように粗利益が向上するかどうかに疑問の余地が残る。

この場合、外部妥当性に問題があることになる。 外部妥当性の問題を解決するためのアプローチのひとつが無作為抽出である。

母集団からサンプルを選ぶ際に、無作為に抽出すれば、サンプルでわかったことが、どの程度母集団にあてはまるかを、推計学的手法を用いて、確率的に推定することができる。

ちなみに、10,000の店舗を持つコンビニエンスストアが、30店舗の実験において、実験した店鋪の80%にあたる24店舗において+1.0%以上の粗利益の向上の目標をクリアしていることが観測され、観測された値が仮に真の値だとするならば、全店舗で展開した場合、+1.0%以上の粗利益の向上の目標をクリアする店鋪の割合は、95%の確率で全店舗の65.4%〜94.9%に収まることとなる(2)。


「外部妥当性があるか」に関する問い、たとえば「無作為抽出によって、サンプルが母集団の特徴を偏りなく正確に反映している(統計学ではこの状態を「代表性がある」という)実験ができているか」という問いについては、直感的にわかりやすい概念のためか、ビジネスの現場で分析に慣れている人々にとっても比較的関心が高い。

その一方で、「内部妥当性があるか」に関する問い、たとえば「無作為配分などによって、ノイズの影響が十分に抑えられているか」については、直感的に少々わかりにくい概念のためか、ビジネスの現場で分析に慣れている人々においても、意外と重視されていない場面をしばしば拝見する。

科学においては、内部妥当性と外部妥当性の優先順位は逆のようだ。

実験に制約がある中で、実践的に問題を解決しようとするならば、まず内部妥当性を無作為配分などによって担保し、統計的検定によって確認した上で、次に外部妥当性について、実験を積み重ねながら、段階的に精緻化していくというアプローチの方が一般的である。

テスト・グループを選ぶときに、できるだけサンプルに偏りが入らず、代表性を担保するよう努力を続けることはもちろん必要なのだが、ならば無作為抽出のサンプル以外は全く意思決定に使えないかというと、それは極論であろう。

たとえば疫学や心理学の実験のように、サンプルのサイズや倫理的な制約から無作為抽出が難しく、外部妥当性の担保が難しい領域においては、まずは偏ったサンプルの中からでも内部妥当性によって独立変数と従属変数の間の法則を発見し、発見した法則の中で重要なものについて、よりサンプルの偏りを抑えた実験を徐々に追加しながら外部妥当性を確認していくといったアプローチが採られており、それによって数多くの課題が実際に解決されている。
「...統計的検定の前提は無作為抽出だけではないのである。無作為抽出を行っていなくても、無作為配分を行っていれば、検定は十分に意味のあるものになる。検定の結果にもとづいた結論も、やはり意味のあるものになる」 (佐伯胖・松原望編「実践としての統計学」東京大学出版会 140p.) 無作為抽出ばかり強調する前に、限られたサンプルの中からでも、まずは内部妥当性を担保しながら法則(例:効果が高そうな施策は何か、それはどのようなメカニズムで効果につながっていそうか)をまずきちんと学び、そのような学びをもとに、徐々に実験と分析を重ね、外部妥当性を確認していくアプローチが、科学においてばかりでなく、ビジネスにおいても、実践的なアプローチではないだろうか。

(2016年3月13日にFacebookに投稿したテキストを再掲)
  1. 佐伯胖・松原望編「実践としての統計学」(東京大学出版会)140p.
  2. 標準誤差の公式によると、母集団が10,000件、サンプル数が30件、真の値が含まれている割合が80%の場合、標準誤差は7.3%となり、 80%-(標準誤差×2)~80%+(標準誤差×2)に真の値が含まれている確率が95%となる。ちなみに、サンプル数を2倍(60件)にした場合は標準誤差が4.9%となり、70.2%~89.8%に真の値が含まれている確率が95%となる