「誤差」に関する誤解 - 及川直彦のテキストのアーカイブ

　私が大学院で数多くの学術論文を読むようになったばかりの頃、どの論文も分析の結果ごとに、しつこく「統計的有意」について言及していたことに、少々驚いたことを覚えている。

　それまで広告会社やコンサルティング会社で、統計的に意味のある数字となる目安となるサンプルサイズについては教えられており、そのサンプルサイズをある程度意識をして調査を設計してはいたのだが、正直に告白すると、「サンプルサイズをクリアしていれば、『その調査結果は信頼できないのでは』という、議論の本質とは異なるところで突っ込むことが好きな人にその他の参加者の方々が付き合わされる時間を排除できる」くらいの感覚で仕事をしていたような気がする。

　そして、学術論文を読み始めた頃は、まだ統計学について断片的な知識しかなったので、すべての分析の結果について、ひとつずつp値が記載されている論文を読みながら、これも正直に告白すると、「科学的な厳密性を問われる学者の世界は大変だなぁ、実務だと、そこまで厳密でなくても、意味合いが出ていればいいんだけどなぁ」と思っていたような気もする。

　統計についての体系的な話を、恩蔵直人先生の授業で学ぶまでは…。

　そんな過去を持つ私なので、実務で分析の結果に触れる方々の多くが、「誤差」についての議論が、どこか衒学的で、揚げ足とりな感じで、議論の本質とは関係がないもののように思っていらっしゃるんだろうなぁ、ということは理解している。

　しかしながら、「誤差」の話は、分析を実務の意思決定に使う際には、甘く見てはいけない。幸い、今の仕事の関係で、日本の一流企業の方々が行っていらっしゃる分析を拝見する機会に恵まれているのだが、拝見した分析の多くは、誤差によるノイズが大きすぎてそのままでは意思決定に使えないものだった。そのような分析において、誤差の問題を理解していないで意思決定に活用すると、効果がないものが効果があるように見誤ったり、ノイズを除去したら効果がマイナスだとわかるものをプラスに見誤ったり、ということがしばしば起こってしまう。

　この誤解をどう説明したら解消できるかなぁ、と思いながら、昔読んだ本のKindleのデータを旅行中にめくりなおしていたら…やはりこの本の説明がわかりやすい。

“　…単純なクロス集計から売上を増加させる可能性のある要因を明らかにし、またいくら売上が増加するのかといった額の試算も行ったが、これはあくまで皮算用だ。なぜなら、この計算が「誤差」というものをまったく考慮していないからである”

〔西内啓（2013）「統計学が最強の学問である」3章11節「p値5%以下を目指せ！」〕

　マーケティングや経営の分析に携わる方々の多くは、おそらく自らの仮説をクロス集計でざっくり検証し、その中で明確な傾向が見える結果をチャートにし、クライアントとの討議用資料に仕上げていらっしゃるだろう。そのクロス集計が、「あくまで皮算用」とは、穏やかな話ではない。どういうことなのだろうか。

　著者の西内氏は、自身が研修の講師をしたあるEC企業の事例を紹介している。

“　…こうした誤差を考えないクロス集計による皮算用、というのもビジネスの現場ではしばしば行われている。

　たとえば私が以前統計学の講師として招かれたEC企業では、積極的に「A/Bテスト」を行っている。クリックするバナーのサイズを変えたり、ページ間の画面遷移を変えたり、ページの文面やフォントを変えたり、といった細かいデザイン面や機能面の変更を行ううえで、「実際、どちらのデザインがよいのか」といった評価を検証しようというのだ（中略）

　多くの場合はユーザーのアクセスに対してランダムにAパターンとBパターンのサイトを開き、一定期間収集されたアクセスログをもとにAパターンとBパターンの比較を行うことになる（ランダムに表示を分けることがむずかしい場合、1週間など決まった期間ごとに表示を変えるという場合もある。）

　比較されるのはたいていバナークリック率や商品の売上、有料会員への入会率といった利益に直結する数字についてであり、AパターンとBパターンのどちらが優れていたかという判断のもと、その後優れていたパターンがサイトに正式に採用されるのだ（中略）　…そのEC企業は力を入れて毎月のように細かいA/Bテストを行っていた。コンマ数%のコンバージョン（購買率）の違いは年間にして億単位の売上に繋がると考えられたのだから、専任のチームを編成し、これまでの傾向から新たな改善パターンを考え続ける、というのは素晴らしい戦略である。

　コンバージョンの上がる改善案を出したスタッフは定例のミーティングの中で賞賛され、実際に部署全体が祝福ムードに包まれていたそうである。データを経営に活かす姿勢として彼らの取り組みは素晴らしいものだ。

　しかしながら、ここで落とし穴となるのが、彼らが誤差のことを考えていなかったという点である（中略）

　…サイト訪問者に対して、ランダムに既存のAパターンと改善したBパターンをそれぞれ10万人ずつに対して見せたログを分析した結果、既存パターンでは購買率が9.5%であったのに対し、デザインを改善した結果9.6%に伸びたというのである。

　前節の考え方に則れば、こうした新しいデザインを採用するだけで売上は約1.01倍（=9.6%÷9.5%）に伸びるという可能性が示されたということである。つまりもし彼らに現在10億円の売上があったとすれば約1,000万円、もし100億円の売上があったとすれば約1億円分の売上増加が見込まれるということだ。しかも何か特別の投資を行うわけではなく、単にページの細かいデザインを変更しただけで、である。これなら確かに祝福ムードに包まれるのも不思議ではない。

　だが残念なことに、この差が意味のある差なのか、それとも誤差なのかはよくわからないのだ（中略）

　…A/Bテストの結果に対してその場でカイ二乗検定を行ってみると、「実際には何の差もない状況でもデータの誤差によってこの程度（10万人中100人またはそれ以上）の差が生じる確率は44.7%である」という結果が示された。

　この「実際には何の差もないのに誤差や偶然によってたまたまデータのような差（正確にはそれ以上に極端な差を含む）が生じる確率」のことを統計学の専門用語でp値という。　このp値が小さければ（慣例的には5%以下）、それに基づいて科学者たちは「この結果は偶然得られたとは考えにくい」と判断するというわけである。

　5%以下であるべきp値が44.7%であるとは、つまり、彼女たちがデザインを褒めたり、チームで祝福していたりした結果が、真に今後何億円もの売上を約束するかどうかはまったくわからない、ということだ。

　彼女たちが行っていたことは、いわば、誰かがコインを1回投げて表が出たというだけで「すごい！表が出続ける魔法のコインが見つかった！」とか、「すごい！この人はコインで表を出し続ける必勝法を身につけた！」と喜んでいる状態とまったく変わらないのだ。

　本当に意味があったのかなかったのか、よくわからないまま定期的な改善を重ねて一喜一憂していても、彼女たちの仕事が利益に繋がっているのかはやはりよくわからない”

〔西内啓（2013）「統計学が最強の学問である」3章11節「p値5%以下を目指せ！」〕

　西内氏が挙げているこの事例は、この分析の結果を「何か特別の投資を行うわけではなく、単にページの細かいデザインを変更しただけ」の意思決定に活用しているだけなので、まだ被害は、もし気づいていないマイナスの効果がなかったならば大きな問題にはならないだろう

　しかしながら、これが、数十億円の金額の投資を伴ったり、大がかりな組織的な調整が求められる施策の意思決定だったらどうだろうか？

　前者ならば、効果がないものや、逆効果を生み出しているものに数十億円の金額を注ぎ込んでいることとなり、後者ならば、仮にしばらく経ってどうやら意思決定が間違っていたらしいことに気がついても、そこから軌道修正をするのに再び大がかりな組織的な調整が求められ、そのプロセスの中で、社内には経営の意思決定に対する不信感が刻まれることになるだろう。

　分析の結果を、新たな解決のアプローチを探索するのに使うときには、「筋のよい仮説」とクロス集計が有益だが、仮にその分析の結果を意思決定に使うとするならば、ぜひ「誤差」について理解をされてから活用することをお勧めします。

（2015年12月19日にFacebookに投稿したテキストを再掲）