2022-09-29

なぜ有意水準は5%なのか

なぜ有意水準で5%が使われるかについて、今日的な統計学を確立したFisherが1929年に書いている文章があります。
以下引用し翻訳をしておきます。

”In the investigation of living beings by biological methods, statistical tests of significance are essential. Their function is to prevent us being deceived by accidental occurrences due not to the causes we wish to study or are trying to detect but to a combination of the many other circumstances which we cannot control. As observation is judged significant if it would rarely have been produced in the absence of a real cause of the kind we are seeking. It is a common practice to judge a result significant if it is of such a magnitude that it would have been produced by chance not more frequently than once in twenty trials. This is an arbitrary but convenient level of significance for the practical investigator, but it does not mean that he allows himself to be deceived once in every twenty experiments. The test of significance only tells him what to ignore, namely all experiments in which significant results are not obtained."

（生物学的な方法によって生き物を研究する際に、有意性検定は不可欠である。有意性検定は、我々が研究したり検出したりしたい原因からもたらされたものではなく、コントロールできない多くのその他の状況の組み合わせによってもたらされた偶然的な出来事に騙されないようにするために役立つ。もし私たちが観察しているものが、我々が求めている真の原因が存在しないとしたら、めったに発生しなかったであろうものならば、それは有意であると判断される。もしその結果が発生することが偶然によっては20回に1回よりも多く発生しなかったであろうというほどのものならば、その結果を有意と判断するのは一般的な方法である。これは実践的な研究者にとって恣意的だが便利な水準である。とはいえこれは、研究者が20回の実験ごとに1回ずつ騙されるということを意味するわけではない。有意性の検定は何を無視すれば良いかを教えてくれる。すなわち、有意な結果が得られなかった実験を無視すれば良いのである。）

「恣意的だが便利な水準」として言及しています。有意水準5%というのは、絶対的な水準というよりは、当時の「実践的な研究者」のコミュニティのなかで経験的に妥当な水準として認識され、その認識がそのコミュニティの中で「一般的な方法」として社会的に形成されたものとして理解するとよさそうですね。

Source: Fisher, Ronald A.(1929), "The Statistical Methods in Psychical Research," Proceedings of the Society for Psychical Research, 39, 189-192.

Link: https://digital.library.adelaide.edu.au/dspace/bitstream/2440/15204/1/79.pdf

2022-06-07

楽しいことを考えている方が良いアイデアが出る

Waseda Business Schoolの修了生と輪読している、ダニエル・カーネマンの「ファスト＆スロー」の中で、ともすれば私たちの合理的な判断を阻んでいる”悪役”として描かれていた「システム1」が脚光を浴びる部分がある。

この話は、心理学者のサルノフ・メドニックが1960年頃に「遠隔性連想検査（RAT）」を考案したところから始まる。RATの代表的な例は、三つの単語すべてから連想される単語があるかどうかを測定する方法である。たとえば、以下の二つの組み合わせを見てみよう。

「ダイビング」「青」「ロケット」
「夢」「ボール」「本」

1)については、英語を母語とする人ならば誰でも認める正解がある。「ダイビング」から「スカイダイビング」を、「青」から「青空」を、「ロケット」から「スカイロケット」を連想するので、「空」である。ただし、15秒以内に「空」と答えた被験者は20%以下であった。

その一方で、2)については、誰もが納得する一つの答えは出ていない。すなわち、正解がない。

最近ドイツで複数の心理学者チームがRATに基づいて行った研究によると、人間には、三つの単語を見て正解を思いつく前に、その問題に正解があるかどうかを「感じる」能力があるらしい。

三つの単語に関連性がある（＝正解がある）問題と、関連性がない（＝正解がない）問題を、それぞれの問題ごとに2秒という、正解を思いつくには短すぎる時間で、正解が「ある」か「ない」かのボタンを押す実験において、偶然にしては出来すぎるほど正確な結果が出た。

人間の中にある「連想記憶マシン」（＝システム1）は、どうやら、三つの単語の中に関連性があり、一つの連想を共有していることを、当の連想が呼び出される（＝システム2）よりも前から「知っている」らしいのである。

ちなみに、三つの単語の組み合わせがずらりと並んだリストを上から読み、一行読み終わるごとにスペースバーを押すという別の実験では、被験者が正解の「ある」問題を見たときに、顔の筋肉の電気的刺激を測定すると、少し笑顔になっていたそうである。人間の中にある「連想記憶マシン」から送られるかすかなシグナルが、「認知しやすい」という感覚（認知容易性）を生み出し、そこから「心地よさ」を感じているらしい。

ところで、この「連想記憶マシン」は、そのときの「気分」によって性能の発揮のされ方が違うらしい。

最初の2秒でボタンを押す実験に話を戻すと、検査前に楽しいことを考えてもらった被験者は、解答の正確さが二倍に向上したが、検査前に悲しいことを考えてもらった被験者は、でたらめとほとんど変わらない結果となったのである。「システム1」のパフォーマンスは、私たちが楽しいことを考えて上機嫌であるときほど発揮され、悲しいことを考えて不機嫌だったり失望を感じていたりするときほど発揮されなくなるのである。

この関係の整理は、今回の勉強会で発表してくださった吉田公亮さんが整理したチャートがわかりやすかったので引用する。

「上機嫌」「直感」「創造性」あるいは「騙されやすさ」といった観測変数に共通する潜在変数と、「不機嫌」「失望感」「不眠」「猜疑心」「分析的アプローチ」あるいは「努力の投入」といった観測変数に共通する潜在変数があり、前者は「システム1」を促進するが「システム2」を阻害し、後者は「システム2」を促進するが「システム1」を阻害するという関係である。

RATが測定している、三つの単語に関連性があるかどうかを「システム1」が瞬時に見極める能力は、これまで「システム2」が気づいていなかった、あるものとあるものの間の意外な関連性を見つけること（例: シュンペーターの「非連続的に現れる新結合」や、ノーウッド・ラッセル・ハンソンが定式化した「アブダクション(abduction)」）に通じるものがありそうだ。

とするならば、私たちが革新的なアイデアを出そうとするならば、MBAで教えられているようなモデルやフレームワークを駆使した分析的なアプローチで頭を動かすのではなく、むしろ、そんなモデルやフレームワークを忘れて、楽しいことを考えて上機嫌な状態にしながら自らの「システム1」を開放した方が良さそうだ。

あるいは、モデルやフレームワークが、「努力の投入」がなくても上機嫌な状態で自然に運用できるようになっていて、目の前に見えている事象との関連性が「システム2」が登場しなくても見出せるようになっているならば、MBAで学んだことが、アイデアの深化（戦略シナリオの構築、事業計画の立案）だけではなく、アイデアの探索にも使えるようになるのかもしれない。

資料: Daniel Kahneman (2011), Thinking, Fast and Slow (村井章子訳「ファスト&スロー」早川書房、2012年)

2022-06-05

飽和と忘却が形づくる「記憶曲線」

Waseda Business Schoolの修了生との勉強会で、ここのところダニエル・カーネマンの「ファスト＆スロー」を輪読しているのだが、その中で、「繰り返された経験」が「認知容易性」を高めるという話について議論している中で、広告における「フリークエンシー」がその例であるが、その一方で、あまり繰り返しが多い広告って飽きるよね、という話を聞き、嶋村和恵先生の「新しい広告」に紹介されている、Heflin & Haygood (1985)の”Theoretical model of processes affecting memory for advertisement”を思い出したので、オリジナルの論文を読んでみた。以下はその要約である。

調査の概要

対　　象: Arizona State Universityの心理学の授業履修者139人
素　　材: 自動車アクセサリー、百貨店、レストランのテレビ広告（他の地域で事業展開・放映されていて地元にないブランドのもの）
方　　法: 対象にシリーズもののメロドラマ番組（総放映時間2時間半）を評価するタスクをアサイン。その番組の中に、全国展開されているテレビ広告と組み合わせて、素材となるテレビ広告を挿入、以下の4つの説明変数で視聴するグループに分ける。
説明変数: (a)1日に全て放映　(b)1週間で3日間に分けで1時間、1時間、30分で視聴　（c）3週間で毎週1日ずつに分けて1時間、1時間、30分で視聴　(d)5週間で毎週1日ずつに分けて30分ずつ視聴
目的変数: 素材のブランドの再認(recognition)率と再生(recall)率

調査の結果

1日という短い期間に集中してテレビ広告に接触した場合と、5週間という長い期間に分けてテレビ広告に接触した場合は、再認率及び再生率が悪かった

調査の結果から推定されるモデル（”Theoretical model of processes affecting memory for advertisement”）

短期に集中させるほど素材に対して飽和・飽き・回避（Satiation/Boredom/Avoidance）するようになる
長期に分かれるほど素材を前に見たことを忘却・記憶抑制（Forgetting/Interference）するようになる
両者の効果が組み合わさることで、記憶曲線（memory curve）となる

テレビ広告だけでなく、今日的なデジタル広告においても、飽和と忘却が形成する逆U字型の記憶曲線は当てはまりますね。

資料: Heflin, Debbora TA, and Robert C. Haygood. "Effects of scheduling on retention of advertising messages." Journal of Advertising 14.2 (1985): 41-64.

2022-06-05

「底が漏れるバケツ」がもたらしたアイデア

　レスター・ワンダーマンの「売る広告」の中で、世界最大のばら栽培業者Jackson & Perkins（以後「J&P」）の通信販売のマーケティングにおいて、1950年にこのアイデアに出会ったこの場面も、マーケティングの歴史の中に刻むべきものであろう。

“ 一年がつつがなく終了すると、パーキンスは感謝のしるしとしてオンタリオ湖のヘンダーソン・ハーバーでのバス釣りに連れていってくれた。私は初めて参加した釣り旅行の第一日目、パーキンス、ジーン・ボーナー、ケン・タック、それにガイドと同船した。ガイドは絶えず大きなカップで湖から水を汲み、それを生きているエサが入ったバケツに注いでいる。何をしているのか尋ねると、バケツの底が漏れるので水を足しているのだという。

　突然、私はひらめいた。これこそJ&Pのビジネスについて探し求めていたイメージだ。一日中アイデアに取り組み、夕食の席でパーキンスに話した。「あなたのビジネスをもっとうまくやる方法を発見しました。あなたは底が漏れるバケツをいつも水でいっぱいにしようとしているんです」。続けて、昼食前にスケッチしていたバケツの絵を見せた。スケッチで底から漏れているのは、買うのをやめた顧客や結局は買わなかった問い合わせ客である。バケツ本体は顧客や新しい見込客であふれている。

　パーキンスに説明した。各シーズン、会社の広告によって13万5千人の見込客が新たに生まれた。そのうちの約10パーセントが顧客になる。これは、新しくバケツに入ってくる大切な要素だ。このバケツには、定期的に購入する顧客と、もう買わなくなった顧客がすでに入っている。この三つをマーケティング変数として考える。バケツに見込客をもっと注ぎ込めば、売上げを増やすことができる。バケツの中にいる人には、ばら以外にもいろいろな植物を売らなければいけない。顧客にならない見込客や買わなくなった顧客は諸経費を吊り上げるだけだ。買わせることができないなら、バケツの底からできるだけ早く流してしまうべきだ。

　その晩のうちに、基本的なマーケティングを修正してビジネスの成長と利益を高めるための作業に取りかかった。私たちが創造したシステムは、今では優れたダイレクトマーケターならみんな利用している。今日これは「データベースマーケティング」とか「リレーションシップマーケティング」と呼ばれている。しかしそもそもはJ&Pの「水漏れするバケツ」を満たすために発明されたのである。一番大事な問題はJ&Pの情報不足だった。顧客に不適切なメールを送っている場合が多かった。何をすでに買っており、今度は何を買いたいと思っているかがわからなかったからだ。それに、顧客の庭の大きさも、そこにすでに何が植えられているかも知らなかった。暗闇でマーケティングをしているような状態だった。

　J&Pは、ばらの苗や他の植物の様々な新種の大量販売マーケターである。顧客と個人的に正しく付き合うには、彼らのニーズをもっと知らなければならない。まず最初のステップとして、リストで「顧客」「見込客」という漠然とした区別の仕方をやめる。購入のタイプや規模や頻度に基づいて分類しなければならない。

　そこで、顧客を最終購入日やそのときの買い物の規模によって区別した。その結果、何も買わないシーズンが4回（2年間）続いたときにはメールの発送リストから外すほうが利益が大きいことを発見した。また、購入するものがばら、多年生植物、果樹などのどれかもわかるようになったので、各グループ別専用の新しいオファーを考案した。ギフトとして購入する人と園芸愛好家、シーズンや注文の規模別に問い合わせ客と実際に注文した客を区別した。このように、顧客を細かく分類し、各顧客について知れば知るほどメールは利益を生むことをJ&Pに説明した。こうして、双方向コミュニケーションが流行するずっと以前に、J&Pは見込客や顧客との対話を創造した。” 　(「ワンダーマンの『売る広告』顧客の心をつかむマーケティング」106p-108p)

　自社がフォーカスすべき顧客の見極め、見極めた顧客に対するデータからのニーズの学習に基づく提案、その結果実現するチャーン・レートの抑制とLTVの向上...今日のCRM（Customer Relationship Management）の原型ですね。

資料: Lester Wunderman (2004), Being Direct, 2nd edition. (藤田浩二監訳「ワンダーマンの『売る広告』顧客の心をつかむマーケティング」翔泳社、2006年)

2022-05-31

ダイレクト・マーケティングの「スプリットラン」

　先日のゼミで今日のデジタル広告の世界で「ブランディング広告」と対比して使われる「パフォーマンス広告」のルーツが、「ダイレクト・マーケティング」であることを紹介したのだが、それをきっかけに、レスター・ワンダーマンの「売る広告」の2nd editionの翻訳を読み直していた。
　ワンダーマンが1940年に「スプリットラン」に出会ったこの場面は、マーケティングの歴史の名場面のひとつと言っても過言ではないだろう。

“ 私たちの会社は小さく、二人ともまだ若く、このビジネスでは新参者だった。自分たちの制作した広告が効果的であると証明するだけではなく、競争相手のものより効き目があることを示さなければならなかった。広告や手紙をテストすることを学び、広告から得られる結果をクライアンに記録してもらった。私たちはレスポンス広告について驚くべき事実を発見しつつあった。たとえば、大きな広告は金がかかるが、小さな広告よりも費用に対する効果が高く、利益も大きかった。広告で一番効き目のある言葉は「無料」、二番目は「新しい」であることも知った。しかし何よりも大切なのは、私たちの制作した広告に利益を生むものがあると証明できた点だ。利益を出せなかった広告については、悪かったところがわかるようになった。

　広告のテストをする良い方法として「スプリットラン」というやり方を考案した。ある製品に対して二種類の広告を制作し、それを雑誌や新聞の総発行部数の半分ずつに掲載して効果を比較するやり方だ。私たちは必ず成功すると思われる出来の良い広告や手紙もこの方法でテストし、どの広告がより良い結果を得られるか調べた。クライアントも見込客も、私たちが売るのは意見ではなく結果であること、主観的な判断ではなく客観的な証拠であるという事実を尊重してくれるようになった。”　(「ワンダーマンの『売る広告』顧客の心をつかむマーケティング」 31p-32p)

資料: Lester Wunderman (2004), Being Direct, 2^nd edition. (藤田浩二監訳「ワンダーマンの『売る広告』顧客の心をつかむマーケティング」翔泳社、2006年)

2022-05-02

論理実証主義と反証主義

少し前にカール・ポパーの『科学的発見の論理』を読んでいて、その中で、ポパーが確率論に基づく帰納法について長々と批判をしている部分など、いまいち文脈が理解できていない部分があったのですが、野家啓一の『科学哲学への招待』の第9章「論理実証主義と統一科学」、第10章「批判的合理主義と反証可能性」のあたりを読んだおかげで、ポパーは、論理実証主義の完成形である「仮説演繹法」の中の帰納法の部分に対して

仮説を発見・提起する部分では、観察から帰納法的な手順を踏んで導かれる仮説って小粒なものばかりにならない?むしろ自在にジャンプした発想に基づく仮説の方が面白いのでは?
仮説を正当化・立証する部分では、「検証可能性」にこだわって「有限個で証明された法則が過去・現在・未来のすべてで再現することが証明できない問題」という帰納法の矛盾を回避するために確率論を持ち込まないでも、「反証可能性」によって演繹法の論理学で問題が解けるのでは?

と主張していたことが理解できました。

以下、第9章「論理実証主義と統一科学」、第10章「批判的合理主義と反証可能性」の関連する部分についての備忘メモです。

論理実証主義

ウィーン大学の哲学教授M・シュリックを中心に、O・ノイラート、H・ライヘンバッハ、R・カルナップら哲学の革新を唱える自然科学者や哲学者たちが、「ウィーン学団」を立ち上げた
ノイラートとカルナップが中心となって起草した「科学的世界把握」と題された宣言文の中で、「科学の中にはいかなる深さも存在しない。いたるところが表面である。人間にとってはすべてが到達可能であり、人間こそが万物の尺度である。科学的世界把握はいかなる解決不可能な謎も知らない」と書かれているように、深遠さを説く従来の科学哲学に対して真正面から反旗を翻し、「論理実証主義 (logical positivism)」を提唱した
論理実証主義の「実証」の側面は、あらゆる知識は感覚的経験によって確かめられなくてはならないというE・マッハの思想と、B・ラッセルやL・ヴィトゲンシュタインによって提起された論理分析の方法とを結びつけ、それを基に科学知識のあり方を解明しようと試みた。これが今日の科学哲学・科学基礎論の出発点である
ウィーン学団はまず、これまでの哲学が心理学と論理学とを明確に区別してこなかったことを批判した。例えばライヘンバッハは、科学研究における「発見 (discovery) の文脈」と「正当化 (justification) の文脈の明確に区別することを求めた
仮説の発見は論理的なアルゴリズムに従ってなされるものではなく、むしろ研究者の心理状態や置かれている社会状況などに大きな影響を受けるものであるという考え方に基づき、ライヘンバッハは、「発見の文脈」は心理学や社会学に関する問題であり、論理学的・哲学的な問題には属さないとした。そして、科学哲学が関わる場面を「正当化の文脈」、つまり提起された仮説の正しさを論証する場面のみに限定されるべきであると主張した
さらに、心理学と論理学の混同の背景には、経験的根拠を欠く形而上学が控えていると主張し、「形而上学の除去 (elimination of metaphysics) 」というスローガンを掲げた
論理実証主義は、一方では「科学認識論的基盤の確立」という科学の側からの要求に応えようとするもの (科学についての哲学 [philosophy of science])であったと同時に、科学の成果を無視した古色蒼然たる伝統的形而上学を否定しようという哲学内部の革新運動 (科学的哲学 [scientific philosophy])でもあった
論理実証主義は、E・カントの「ア・プリオリな総合命題」は形而上学的な命題であり、われわれの認識から排除されねばならないと考え、有意味な命題は経験的手続きによって検証可能でなければならないというテーゼを提唱した。例えば「神は完全である」や「魂は不死である」といった形而上学の命題は、経験的な検証方法が不明であるため、無意味な命題として科学からは追放されることになる。つまり、有意味な科学的命題と無意味な形而上学的命題とを区別する基準を「検証可能性」の概念に求めた。これは「意味の検証可能性 (verifiability) テーゼ」と呼ばれる
しかしながら、この「検証可能性」という基準は、われわれが実験的に検証できるのは有限個の事例であるため、「すべてのSはPである」という無限個の事例を含む全称命題の形をした科学的法則を完全に検証することはできず、よって科学法則すら無意味な命題とされてしまうという困難があった
この困難を回避するために、ウィーン学団のリーダーであったカルナップは、検証という強すぎる概念を「確証 (confirmation)」という確率に言及する概念で置き換えることを試みた
ウィーン学団の論理実証主義において「意味の検証可能性テーゼ」と並んでもう一つ柱となるのは、すべての科学を一つの方法によって統一しようという「統一科学 (Einheitswissenschaft)」の考え方である
自然科学と社会科学、さらには人文科学までをも一つの方法によって統一しようという統一科学理論の背後にあるのは、物理学の方法を基礎とした還元主義 (reductionism) の思想である。例えば、人間の集団である社会は個人間の関係の総和でしかないと考える(方法論的個人主義)ならば、人間の集団を扱う社会学の法則は個人の心理を扱う心理学の法則によって説明可能であることになる。こうして社会学はより基礎的な分野である心理学に還元され、さらに人間の心理状態が生理的状態によって規定されているとすれば、心理学の法則はより基礎的な生理学の法則に還元されることになる。このように遡っていけば、生理学は生物学へ、生物学は化学へ、化学は物理学へ、という形でその説明レベルをより基礎的な分野へと還元できるように思われる
ウィーン学団の中心メンバーであったC・G・ヘンペルは、一般法則と初期条件を「説明項」、個別的出来事を「非説明項」とし、初期条件Cを「原因」、個別的出来事を「結果」とし、それらの間を一般法則が媒介している科学的説明 (「被覆法則モデル [covering law model]」あるいは「演繹的-法則的説明 [deductive-nomological explanation]」) を定式化し、説明において、一般法則が果たす役割は、人文・社会学を問わず構造的に同じであり、およそ説明が「科学的」なものである限り、このモデルを満足させなければならないと主張した
「統一科学」を普及させるために、ウィーン学団のメンバーたちは『統一科学百科全書』と言うタイトルの一連の著作シリーズの刊行を企画したが、自由主義者やユダヤ人の多かったウィーン学派は、1933年にヒットラーが政権を握るや、ナチスの弾圧によって活動の中断を余儀なくされ、主要なメンバーはアメリカに亡命せざるを得なかった。その後、シカゴ大学に職を得たカルナップらを中心として、「ウィーン＝シカゴ学派」が再結成され、統一科学運動はアメリカにおいて再開された

反証主義

「形而上学の除去」をスローガンにした論理実証主義者たちは、「検証可能性」という概念を旗印に伝統的な哲学の改革を大胆に押し進めようとした。すなわち、有意味な命題は経験的に検証可能でなければならないとして、検証可能性の有無を基準に、有意味な科学的命題と無意味な形而上学的命題を峻別しようとしたのである。K・ポパーは、このような論理実証主義の考え方を内在的に批判し、克服しようとした
1934年にドイツ語で執筆した『探求の論理』を英訳し1959年に出版した『科学的発見の論理』において、ポパーは帰納法を否定し、検証に代わる反証 (falsification) という概念を提示した
経験的データを収集すれば、そこから帰納法を通じて科学的法則が見出せるというF・ベーコン的な考え方をベースとして成立した仮説演繹法 (帰納法と演繹法の長所を取って組み立てられた方法論) の中の、観察によって収集されたデータから帰納法によって仮説を提起する部分に対して、そもそも何をどのように観察するかという一定の論理的な前提がない限り観察という行為は成立しないということから批判した。そして、科学は観察から始まるのではなく、むしろ探究されるべき問題や疑問から出発するものであるとし、純粋に演繹的な方法だけで科学的な探究のプロセスを捉えた。例えば、問題として未知の自然現象の説明を求められたとすると、われわれはその問題を解決するために暫定的な仮説を提起する。この仮説の提起が推測の段階であり、推測の段階では帰納法を必要としないばかりか、科学的な手続きである必要もない。神からの啓示であれ夢のお告げであれ、ともかく問題解決のための仮説が発想されることが重要である
ある仮説から導かれるテスト命題の正しさを実験的証拠に基づいて示すことにより、もとの仮説の正しさを証明する手続きである検証の論理構造は、
(1a) 仮説Hが真であるならば、テスト命題Tは真である
(2a) テスト命題Tは真である
(3a) ゆえに、仮説Hは真である
という推論である。この推論は、「H→T」と「T」という二つの前提から「Hという結論を導き出す「後件肯定の誤謬」の推論となっている(例:「ある図形が正三角形ならばそれは二等辺三角形である」「その図形は二等辺三角形である」故に「それは正三角形である」という推論)。よって、テスト命題の正しさを実験的証拠に基づいて立証しても、もとの仮説の正しさを立証されない。
これに対し、「反証」とは、ある仮説から導かれたテスト命題が偽であることを実験的証拠を通じて示すことにより、もとの仮説の正しさを否定する、という手続きである。その論理構造は、
(1b) 仮説Hが真であるならば、テスト命題Tは真である
(2b) テスト命題Tは偽である
(3b) ゆえに、仮説Hは偽である
という推論である。この推論は、「H→T」と「-T」という二つの前提から「-H」という結論を引き出す「否定式 (modus tollens)」であり、これは健全な論証である。
つまり、たった一つでも反例 (counter example) が見つかれば、もとの仮説の誤りを立証できる。これは「検証と反証の非対称性」と呼ばれている
科学の本質は、推測によって大胆な仮説を提起し、その仮説をあらゆる科学的手段に訴えて反駁しようとする、この推測と反駁の繰り返しにある、というのがポパーの科学観であり、このような試行と誤謬排除 (trial and error elimination) のプロセスの中にこそ科学的方法の特徴がある、とポパーは考えた
さらにポパーは、科学と非科学との境界設定 (demarcation) を「反証可能性 (falsifiability)」によって試みる。反証可能性とは「当の仮説と矛盾する観察命題が論理的に可能であること」を意味するが、この度合いが高ければ高いほど、その仮説は「科学的」であり、逆に低ければ低いほど、その仮説は「非科学的」であると考えた。例えば、「明日は雨が降るか降らないかのいずれかである」という天気予報は誤りようのない予報であり、この予報と矛盾するような状況を考えにくい、すなわち反証可能性が低いが、これに対して、「明日の午前中は晴れるが、昼から雨になり、夕方には雪が降る」という天気予報は、例えば明日の午前中に雨が降ったり、夕方になっていても晴れていれば、明白に反証される、すなわち反証可能性が高い
ポパーの「反証可能性」による科学と非科学の境界設定の基準によれば、例えば、マルクスの経済理論やフロイトの精神分析理論のように、反例が示されても理論の誤りを認めず、反証を回避する戦略を採るような理論は、非科学的なものとみなされることとなり、アインシュタインの一般相対性理論のように、大胆な仮説を反証可能な仕方で提示する理論は高度に科学的なものと見なされる
科学を科学たらしめているのは、反証可能性とそれを支える「批判的方法」であり、「批判的方法」が十分に機能するためには。その前提としてわれわれが「批判的理性」を持たなければならず、「批判的理性」が十分に機能するためには、自由に意見を戦わすことができる「開かれた社会」が存在しなければならない。ポパーは、この科学哲学と社会哲学を融合させた立場を、「批判的合理主義」と名づけている

資料: 野家啓一(2015)『科学哲学への招待』筑摩書房

2022-04-27

統計学の科学哲学的な整理

大塚淳の『統計学を哲学する』が、統計学の代表的なアプローチである記述統計、推測統計、統計的因果推論について、科学哲学の文脈でわかりやすく整理していたので、以下要約しました。

観察されたデータを要約する記述統計

記述統計は、標本平均や標本分散、標準偏差を比較したり、ヒストグラムやプロットによって視覚化したりすることにより、データを我々が理解できるような形で記述し、要約するための技術である
科学的な言明は現実の経験や観測に基づかなければならないという実証主義（positivism）において、記述統計が活用される
実証主義は、「神」とか「霊魂」とかいった非経験的な原理を科学から排除しただけでなく、科学自体の内部にあって一見科学的な装いをしているものの、それ自体は観測されないような概念を排除した
エルンスト・マッハのルートヴィッヒ・ボルツマン批判は後者の例の一つである。ボルツマンは「原子」や「力」といった（当時の科学技術では）観察不可能で、説明のために仮定されたものを使って現実を理解しようとしたが、マッハは、直接観察されないようなものを仮定することなく、観察されたデータのみに基づき、それを我々の理解できるような法則としてまとめること（「思考の経済」）が科学の唯一の目的であると考えた
エルンスト・マッハのこの考え方を引き継いだのが、カール・ピアソンである。なので、ピアソンの考え方は、よく言われているような「相関から因果は結論できない」ではなく、そもそも因果は直接観察されないものなので、そのようなものを考えるべきではないとする立場である
マッハやピアソンは、科学において「ある」と認められるのは客観的な仕方で観測されたデータとそこから導かれる概念だけであり、それ以外のものは人間の作り出した人工物に過ぎないとして排除する立場である
実証主義の背景には、知識は確実な土台の上に築かれなければならないという認識論がある。マッハやピアソンの考え方は、デイヴィッド・ヒュームの「恒常的な連接」の考え方（例えばビリヤードでボールAがボールBに当たってボールBが動いたといった事象を、Aの後にBが続いて起こったことのみを記述し、AがBが動くことを引き起こしたといった直接観察できない「力」のようなものを想定しないという考え方）に通じるものである
科学の土台を直接観察されたもののみに切り詰め、経験に還元されない概念を非科学的・形而上学的なものとして排除する「禁欲さ」によって確実性は得られたが、その代償として、帰納推論が不可能になってしまった
例えば、「学期中の学食は混むから今日の昼も席が取れないだろう」といった日常的な予想や、「ある治験結果から薬の効能を判定する」といった科学的な推論のような、私たちが行う推論のほとんどが、未観測の事象はこれまで観測された事象と同じだろうという前提、すなわち、過去から未来を通じて自然は同じように動くという仮定（「自然の斉一性」）に基づいているが、この仮定は、実証主義に基づくと、過去のデータ＝これまで得られた経験だけでなく、未観測の未来の経験がないと導くことができなくなる。そのような仮定は、ヒュームによると我々の「心の癖」であるとされる
この立場に基づくと、観察されたデータから現象をまとめて整理することはできるが、まだ観察されていない事象や観察できない事象を予測したり説明したりすることができなくなる

未来のデータを予測する推測統計

推測統計は、データをその背後にある確率モデルから抽出されたサンプル（標本）として捉え直し、サンプル自体は毎回異なるものではあるが、そのもととなる確率モデル自体は同一性にとどまる（斉一的）と推定し、その推定された確率モデルを媒介して未来のデータを予測するものである
我々が日常でよく使う確率という概念は、データ自体ではなく、その背後にあって、我々がそこからデータを取ってくる源として想定されるような世界に属する概念である。この「源としての世界」のことを「母集団」と呼ぶ
この標本空間において、そこで取りうる値に対して、それぞれの値であることの確率が存在し、その分布＝確率分布が存在する。それぞれの値であることの確率が存在する変数を「確率変数」と呼ぶ
確率分布を特徴づける値＝確率モデルの例として、その「重心」を示す母平均（population mean）とバラツキを示す母分散（population variance）がある。これらは、データにおいて見られる平均や分散を、標本空間全体に広げて母平均や母分散で表現したものである
観測されるデータは、確率モデルからの部分的な抽出（サンプリング）であるが、もしサンプリングが同じ「母集団」から行われ、かつ、ランダムに行われている（＝同種の確率変数の中で、例えばある値と近いものが選ばれるといったことがなく、それぞれのデータが互いに独立に分布している）ならば、確率変数は独立同一分布（independent and identically distributed, 以後「IID」）である
ヒュームの「斉一性」と呼んだ、未観測な状況においても現在と同様な状況が成立することについて、推測統計は、その具体的な内実をIID条件として定式化している。すなわち、斉一性とは確率モデルがデータの観測過程を通して同一に留まり、データの観測が互いに影響を及ぼすことなくランダムになされるということである
IID条件という斉一性の条件を想定することにより、我々は、データの背後にある確率モデルについて帰納的推論を行うことができる。そのような推論の例が、大数の法則や中心極限定理などにより構成される大標本理論（large sample theory）である
大数の法則は、データ数が増えれば増えるだけ観察された標本平均は母集団の新なる平均である母平均に近づくことを確率収束（convergence in probability）として証明したものである
斉一性がIID条件によって担保されているときに、大数の法則によって、数をこなせば、平均の確率分布が母平均の周辺に収まることを保証するが、それに加え、この平均の分布は、「釣り鐘形」の正規分布に近づいていく。これを示すのが中心極限定理（central limit theorem）である
大標本理論が示すのはあくまで、無限にデータを取り続ければ最終的には間違いなく分布の真なる姿に到達する、という終局的な保証であるが、我々はそのような無限回の試行をすることが決してできない。しかも多くのケースでは、「大標本」というには遠く及ばないような限られた数のデータに基づいて行わなければならない
そうした制約の中にあっても帰納推論をできるだけ正確に行い、確らしさや信頼性を評価するために、推論統計は、IID条件によって担保された斉一性に加え、分布の形や種類について仮説を加える。例えばパラメトリック統計では、対象となる確率分布は特定の関数によって明示的に書き下すことができ、その形は有限個のパラメータによって決定されると想定する。このように候補として絞り込まれた分布の集合を統計モデル（statistical model）と呼ぶ
確率モデルの斉一性は「真なるもの」として仮定されているが、統計モデルは実在の真なる在り方を近似する一種の道具として想定されている。統計学者ジョージ・ボックスの「すべてのモデルは偽であるが、そのうちいくつかは役に立つ（all models are wrong, but some are useful）」という箴言は統計モデルの道具的なあり方を的確に表している
統計モデルの立て方には、ノンパラメトリック統計とパラメトリック統計の二種類がある
ノンパラメトリック統計は、対象となる分布の在り方について、その具体的な関数型を定めることなく、連続性や微分可能性など一般的で緩い仮定だけを立てる
パラメトリック統計は、ノンパラメトリック統計からさらに踏み込んで、分布が大まかにどのような形をしているかを特定する。例えばサイコロの目のようにある確率変数が取りうる値に全て同じ確率を割り当てる一様分布（uniform distribution）、例えばコインを投げたときに確率変数（表、裏）のうち表の確率が決まると、それによって裏の確率も決まるベルヌーイ分布、例えばコインをn回連続して投げたときに、表がx回数である確率のように、個々の試行の確率と試行の回数の二つによって決まる二項分布（binominal distribution）、二項分布の試行の回数を大きくしたときに見られる左右対称の釣り鐘型のカーブである正規分布（normal distribution）、複数の確率変数が正規分布に従う多変量正規分布（multivariate nominal distribution）といったものがある。こういった分類の種類を分類族（family of distributions）と呼ぶ
未来のデータを予測する推測統計は、まだ観察されていない事象や観察できない事象を予測したり説明したりすることを可能にした。そして予測は、原因が結果を引き起こすという因果関係は、20世紀の中頃までは、予測と因果的説明は本質的に異なるところはないと考えられてきた
しかしながら、予測が必ずしも因果関係を説明しないこと（例: 交絡因子による偽相関）が明らかになってきた
さらに、予測の際に用いられる斉一性を推定した確率モデルでは因果関係を捉えきれないことも明らかになってきた。予測は観察されたデータに基づく推論であるが、因果推論は何らかの介入をおこなった結果を推論するものである。介入とは、対象である世界に対して変更を加え、それを新しい状態に変えてしまうことである。とするならば、その世界についてそれまで成立していた斉一性が破られ、確率分布が変えられ、確率モデルが変えられることとなる。とすると、介入によって変えられた後の確率分布を推論する際に、その変化の法則を、変化を被る対象の内のみに求めることはできず、そうした個々の確率分布を持つ世界の間を結びつけるような間世界的な法則が求められることとなる
何らかの介入（例: 問題を解決することを狙って立案された施策）を行った結果を予測するためには、推測統計以外のアプローチが求められる

介入を行った結果を予測する統計的因果推論

因果推論は何らかの介入を行った結果を予測するものである
デヴィッド・ルイスによると、EがCに因果的に依存する（causally depends）とは、
（L1）もしCであったとしたらEであっただろう
（L2）もしCでなかったとしたらEでなかっただろう
という二つの反事実条件が共に成立することである
「もしCであったとしたらEであっただろう」が現実世界において真になるのは、
（i）どの可能世界でもCではない　あるいは
（ii）CとEがともに成立している可能世界があり、それはCであるがEでないような可能世界のどれよりも現実世界に近い
ときである。
（ii）によれば、Cが成立し、なおかつEも成立するような可能世界がどこかにあることになる（適例世界）が、すべての可能世界がそうなのではなく、CであってもEでない可能世界（反適例世界）もありうる。
適例世界があらゆる反適例世界よりも現実世界に似ているのであれば、反事実条件（L1）は真となる。また、これを逆にする（上記の議論のC、Eをそれぞれ-C、-Eに置き換える）ことで、（L2）の真偽条件を定めることができる

例えば、「甘いものは虫歯の原因である」という因果命題においては、（L1）はその人が甘いものを食べかつ虫歯である適例世界が存在していれば成立し、（L2）はその人が甘いものを食べていないにもかかわらず虫歯になった反例世界が、その人が全く歯を磨いていなかったり、虫歯菌が凶暴化していたりといった現実世界とは大きく異なるものであるのに対して、虫歯にならなかった適例世界は単にその人が甘いものを食べなかったということ以外はみな現実と同様だったとしたら成立する
しかし、現実世界でその人が甘党だったとするならば、その人が甘党でなかった世界を観測することはできない。これは因果推論の根本問題（the fundamental problem of causal inference）と呼ばれている
X、Yをそれぞれ確率変数として、値1で肯定、値0で否定とし、Y₀を「仮にX=0だったときにYが取るであろう値（甘党でなかったときの虫歯の有無）」、Y₁を「仮にX=1だったときにYが取るであろう値（甘党であったときの虫歯の有無）」とすると、ルイスの二条件が満たされるとは、Y₁=1かつY₀=0であることとなる
Y₁ - Y₀ = 1となることである。したがってある集団においてどれくらい因果効果が認められたかは、この期待値をとった平均処置効果（average treatment effect）である

E(Y₁-Y₀) = E(Y₁) – E(Y₀)　（1）

で表され、これが1に近いほど因果的な効果があったと考えることができる
Y₀の値は　X=0の人については実際に観察できるがX=1の人については潜在的に定義されるだけで観察はできず欠損値となる。同様に、Y₁の値は、X=0の人については実際に観察できるが、X=1の人については潜在的に定義されるだけで観察はできずデータは欠損値となる。しかしながら、X=1のもとでのY₁の期待値と、X=0のもとでのY₀の期待値はデータがあるので、前者はX=1である人のYの値の平均、後者はX=0で観測されたYの値の平均で求めることができる。このようにして得られた条件付期待値の差である　　

E(Y₁|X=1) – E(Y₀|X=0)　　（2）

は推定でき、もし式（2）と式（1）が一致するならば、因果の根本問題を回避し、得られたデータから因果効果を推定できる
式（2）と式（1）は、E(Y₀) = E(Y₀|X=0) かつ E(Y₁) = E(Y₁|X=1)のときに一致する。これは、XとY_i（ただし i= 0,1）が独立であるということである
しかし、一般にそれらが独立であると期待できる理由はない。例えば後者の独立性 P(Y₁) = P (Y₁|X=1)は、実際に甘党だと確認された人が虫歯になる確率と、人々が仮に甘党だったとしたら場合に虫歯になる確率が等しいということを述べている。しかし現実世界では実際に甘党な人は、単に甘いものを食べるだけでなく、一緒によくコーヒーを飲んだり、あるいは頻繁に間食する習慣があったりと、他にも歯に悪影響を及ぼすような食生活をおくっているかもしれない。こうした交絡要因がある場合、実際に甘党だと確認された人の虫歯の確率 P (Y₁|X=1)は、単にランダムに選ばれた人が甘党に「させられた」世界での虫歯の確率 P(Y₁)よりも高くなるだろう。つまり両者は独立にならない。こうした交絡要因は多数考えられるので、式(2)と式(1)が無条件に一致すると期待することはできない
ではどうすると良いか。一つの方法は、実験によって両者を無理やり独立にしてしまうことである。例えばそれぞれの被験者についてコインを投げ、表が出た被験者には毎日甘いものを食べてもらい、裏なら食べることを控えてもらう、というような実験を考える。コイン投げはランダムなので、この場合XはY₀, Y₁を含めた他のいかなる変数からも独立になる。これがフィッシャーの無作為化比較試験（Randomized Control Trial: RCT）である
この実験では、被験者のそれぞれに対し、目下関心のある処置（この場合「甘いものを食べる」）を施すか否かをランダムに決める。そうして得られた処置群／非処置群の平均（この場合「虫歯の発生確率」）を比較して、その差が有意に大きければ、処置には因果的な効果があったと結論される。そしてその根拠は、無作為化によって処置Xが潜在結果Y_０, Y₁と独立になり、実際の観察から推定可能な二群の差である式（2）が、本来可能世界で定義される平均処置効果である式（1）に一致すると考えることができるからなのである
RCTは因果推論の王道であり、因果関係についての科学的知見の多くはRCTに頼っている。しかしながら、RCTの実施には様々な現実的な困難（例: 実験するための人的、時間的、経済的なリソース）ないし倫理的な困難（例: 喫煙のリスクを知りたいからといって、無作為に集めた人々に対して喫煙を強要することが倫理的に許容されない）がつきまとう。また、そもそも実験を行うことができないような場面（例: 人間活動による環境への影響、ある政策が経済に与えるインパクト）もある。このような場合にどうすれば良いのか
仮に甘いものが好きな被験者Aとそうでない被験者Bが、甘いものが好きかどうかという点以外はすべての点において共通すると想定できるならば、我々は被験者Bの結果を「被験者Aが仮に甘党でなかったときの結果」、被験者Aを「被験者Bが仮に甘党でなかった時の結果」として扱うことができるだろう。しかしながら、被験者Aと被験者Bが似ているかどうかは、その基準となる変数を無限に考えることができるので判断が難しい
ただし、そもそも我々の目的は、式（2）においてXとY_iを独立にすることであり、被験者同士があらゆる面でそっくりである必要はない。そこで、何らかの変数Zを探してきて、そのもとで条件付独立性が成り立つようにしてやれば十分である。この条件は、強く無視できる割り当て（strongly treatment assignment）条件と呼ばれる。確率式で書き下すと、

P(x|y0, y1, z) = P(x|z) 　　（3）

となり、要はこれを満たすような属性のリスト（ベクトル）Zを求めれば良い。同じZの値を持つ被験者であれば、XとYの間の因果関係の推論という目的にとっては「そっくり」とみなしてよろしい、ということである

Zに具体的に含まれるのは、XとYの間の交絡要因である。もしZが交絡要因のすべてを含んでいれば、独立条件である式（3）は成立し、観察データから平均処置効果である式（1）を推定できる。多数考えられる交絡要因を共変量として回帰モデルに組み込むと分析の精度が落ちてしまうが、それらの交絡要因を「要約」するような一つの変数があると、分析の精度が落ちるのを回避できる。そうした変数として用いられるのが、共変量zが与えられたときに処置を受ける確率P(X=1|z))である傾向スコア（propensity score）である。傾向スコアは、二人の被験者が「甘党である確率」である、この確率が共通していることによって、両者を「そっくり」とみなすものである

資料: 大塚淳 (2020)『統計学を哲学する』名古屋大学出版

及川直彦のテキストのアーカイブ

及川直彦が書いたテキストと興味を持ったテキストのアーカイブ