統計の手法は帰納法です。仮説法・演繹法・帰納法をくみあわせて問題を解決します。
『Newton』増刊 No.2 が、「60分でわかる統計」と題して統計の基本(初歩)を特集・解説しています。




あるコンビニのレシートを整理した例です。もっとも一緒に買われる回数が多かったのは、からあげとビールの組み合わせ。計算してみると、80パーセントの確率で一緒に買われることがわかりました。 

統計の基本は、データをまずあつめることにあります。データは、普段はみすごしてしまうようなところにころがっています。レシートはその例です。

レシートをみなおして、どんな商品がどのようにかわれているかを集計すると、一緒にかわれやすい商品のくみあわせがみえてきます。これが統計の手法です。あなたがもし店主だったら統計の結果を活用しない手はありません。たとえばからあげとビールの配置をちかづけたり、一緒にかうと値引きするキャンペーンをしたりして、からあげとビールがさらにうれる工夫をします。

このように、たくさんのデータから意味のある情報をみつけ、経営などにいかすワザを「データマイニング」といいます。





アメリカのイエローストーン湖で、外来種のレイク・トラウトという魚がたくさん増えてしまいました。(中略)

対策チームはまず、レイク・トラウトが湖全体で何匹いるかを把握することにしました。(中略)

まず、何匹かのレイク・トラウトを生け捕りにして、背びれを少し切るなどの印をつけ、湖に戻します。

しばらくして、印をつけたレイク・トラウトが散らばったら、再び何匹か捕まえます。(中略)

たとえば、10匹のレイク・トラウトに印をつけて放し、次に10匹捕まえたうちの1匹に印がついていたとします。それは、湖全体のレイク・トラウトの1割が「印つき」であることを意味します。つまり、湖全体のレイク・トラウトは、10匹の10倍なので、100匹いることになるのです。

これは「捕獲再捕獲法」とよばれる統計学的手法です。湖にいる魚を全部つかまえてそれらの数をかぞえることは不可能なので、このワザをつかって、すくない労力で必要な情報を効率的にえることができます。





「さまざまな世代の人がなくなる社会」から、「多くの人が長生きする社会」に変わったことがわかります。

厚生労働省「生命表(完全生命表)の概況」(第21回、第22回)より作成した、日本人男性の各年齢の死亡数をあらわしたグラフからわかることです。グラフにすることで情報の意味がわかりやすくなります。データを、グラフや表にして整理することが統計の基本の「キ」です。





たとえば世論調査。国民一人一人の意見を聞くと言っても、1億人以上を対象にアンケート調査を行うのはあまりにも手間です。

でも、1000人くらいだったら、なんとかなるかもしれません。全国民のうちの10万分の1。たったこれだけの人数で、全体の意見を聞いたことにするのは、ちょっとずるいでしょうか?

これは「標本調査」といい、れっきとした統計のワザです。スープの味見にたとえられ、よくまざったスープなら、スプーン1杯を味見すれば鍋全体の味がわかります。「よくまざった」というところがポイントです。標本調査もおなじです。性別や年齢の比率など、あらゆる要素の割合が全国民とおなじになる集団をえらびだせたなら、その集団の意見から全国民の意見を推測できます。





 あなたが集めているデータが、「だいたい正規分布のグラフになるだろう」と推測できるなら、そこから大きく外れたデータには何らかの問題やまちがいがあるかもしれません。

データをグラフにして左右対称の山型があらわれたとき、「正規分布」といいます。たとえばある学校の男子生徒の身長を2センチメートルごとにわけてならべると正規分布になります。ほかにも学校のテストの点数など、さまざまな現象が正規分布になることがわかっています。

たとえば男子生徒の正規分布のグラフからはずれる、背のひくい人のデータがあったとしたら、もしかすると計測ミスがあったか、まちがって女子生徒がまぎれこんだのかもしれません。





「平均値の周辺にどれくらい多くの数値が集まっているか」をあらわした数を「標準偏差」といいます。標準偏差が小さいほど山は鋭くなり、大きいほどなだらかになります。

正規分布のグラフでは、グラフのまんなかに平均値がきて、平均値のまわりにおおくの数値があつまります。だからグラフが山型になります。あるデータが正規分布になることがわかっているとき、平均値と標準偏差をだすことでグラフにしたときの全体像が推測できます。





偏差値とは、自分のテストの成績が、受験者全体の成績の中で、どの位置にいるかを示す数値です。

標準偏差は、テストの成績が正規分布になるという前提のものとになりたちます。ものすごくむずかしいテストや、ものすごく簡単なテストだとなりたちません。





契約期間内に亡くなると1000万円が支払われる生命保険に、20代の男性が10万人加入するとします。

20歳の日本人男性の死亡率は0.059%なので、10万人のうち59人が1年以内に亡くなる計算です。そうなると、1年以内に保険会社が支払わなくてはならないお金は5億9000万円。この金額を、保険会社の経費などを考えずに加入者が負担すると考えると、1人あたり5900円の保険料となります。

生命保険の保険料は、年齢ごとの死亡率をもとにきめられます。死亡率とは、ある年齢の集団のうち、特定の年になくなった人の割合です。





ビッグデータとは、「さまざまな企業が、日々の活動で記録している膨大なデータ」のこと。一般に、次にあげる「三つのV」のどれかが優れているという特徴があります。
    • データの多様性(variety)
    • データの量(volume)
    • データが作られる速度・頻度(velocity)

近年、スマートフォンやタブレットなど、インターネットにつながる機器がふえたことや、SNS が普及したことを背景に、わたしたちの日々の活動がデータとしてつかわれるようになりました。

個々のデータは、それだけでは意味をなさないちいさなものであっても、非常に多数のデータを集積・記録できたら重大なデータになります。コンピューターをつかって統計の手法でそれらを処理すれば、役にたつ情報がえられます。

いまや統計は、世の中をしり、世の中をかえる「最強の武器」です。





エピソード「あのパン屋のウソを見抜け!」

エピソード(1)
パン屋「焼きたての1kg のパンはいかが」
ポアンカレ「1kg のパンを1つ」
パン屋「毎度あり!」

ポアンカレがパンをもってみたら、昨日の1kg パンよりも軽い! 自宅にもどって重さをはかってみると 900g にみたない! あのパン屋、ごまかしているのではないか?

ポアンカレは、それから1年間パンの重さをはかりつづけました。

その結果、重さの平均は 950g でした。

ポアンカレ「君のパンは1kg ではないだろう。インチキはいかん」
パン屋「ヒッ」


エピソード(2)
つぎの日。

ポアンカレ「おはよう」
パン屋「いらっしゃい。はい、いつもの」
ポアンカレ「ありがとう」

ポアンカレがパンをもってみたら、いつものよりも重い。パン屋は反省したのかな? ポアンカレはその後もパンをかいつづけて計量をつづけました。その結果、平均値は 950g をこえたが、一番おおいのは 950g 前後のものでした。

ポアンカレは、エピソード(1)と(2)のデータを集計して、それぞれについてグラフをつくり、一般的な傾向をあきらかにしました。するとエピソード(1)のグラフはきれいな正規分布(釣り鐘型)になりましたが、エピソード(2)のグラフは釣り鐘型からずれていることもわかりました。グラフがずれているということは、エピソード(1)からエピソード(2)に移行したときに、何らかの操作がおこなわれたことをしめします。

このように、グラフがずれているということは、何らかの問題や異常が発生したことを示唆します。そこでただちに確認しなければなりません。これは統計の手法であり、製造業など、さまざまな現場でよくつかわれています。










上記のエピソードを整理します。

  • ポアンカレがパンをもってみたら昨日よりもかるい。重さをはかってみると 900g にみたない。あのパン屋の男はごまかしているのではないか?
  • パンの重さを計量し、データをたくさんあつめる。
  • 統計の手法によりデータを処理し、一般的傾向をあきらかにする。グラフのずれもわかる。

ポアンカレはまず、「パンが軽い」という感覚(事実)をえました。そしてあのパン屋のあの男は悪人であるとか、お金にこまっているとか、材料費が高騰しているとかいう前提のもとで、「あのパン屋、ごまかしているのではないか?」という仮説をたてました(おもいつきました)。これは「事実→前提→仮説」とすすむ論理であり、仮説法あるいは仮説発想法あるいは発想法ということができます。

仮説法:事実→前提→仮説

仮説法において前提が重要です。たとえばこのエピソードとはちがい、あのパン屋の男は善人であるという前提にたつと、あのパン屋の計りはこわれているのではないか、メモリがずれているのではないかという仮説がたち、「ごまかしているのではないか」という仮説はたちません。あの男は悪人であるという前提のもとでは、「ごまかしているのではないか」という仮説になります。前提がことなれば事実がおなじでも ちがう仮説がたちますので十分に注意してください。

そして仮説がたてられると、つぎに検証作業にうつります。

たとえば「あのパン屋は悪人である」という前提、「ごまかしているのではないか」という仮説をかんがえると、ふたたびパンをかって計量したらまた1kg 未満であるにちがいないという予見(事実の予見)ができます。これは「前提→仮説→事実予見」とすすむ論理(推論)であり、演繹法ということができます。

演繹法:前提→仮説→事実予見

あとは、あのパン屋にまたいって、パンをかって、重さをはかればよいわけです。1kg 未満になれば「やっぱりそうか」ということになります。計量を何回くりかえしてもそうなれば仮説の確度がたかまります。このような仮説の検証作業を科学者は実験といいます。

そしてデータがたくさん集積してくると統計の出番です。「あのパン屋、ごまかしているのではないか」という仮説にもとづいて、データをたくさんあつめ、そしてグラフをつくります。データは現場の事実をあらわすものであり、グラフは一般的傾向をあらわします。したがってこの過程は、ある仮説(モデル)のもので、個々の事実から一般へすすむ、「仮説→事実→一般」という論理であり、帰納法といってもよいです。帰納法によってえられた「一般」は、この問題にとりくむときの前提になるので「前提」とよびかえてもよいでしょう。

帰納法:仮説→事実→前提

こうして、仮説法、演繹法、帰納法をくみあわせることによってインチキがあばけたわけです。

今回のエピソードは、ポアンカレが、パンがかるいと感じ、あのパン屋、ごまかしているのではないかとおもったことからはじまりました。これがもし、パンを手にもった感覚だけにたよって、検証作業をおこたったならば、判断をあやまったかもしれません。パン屋の男を傷つけることになったかもしれません。仮説法・演繹法・帰納法をくみあわせることが大事です。


191209 論理


今回のエピソードからよみとれる仮説法・演繹法・帰納法は人間の基本的論理であり(けっきょく3つしかありません)、これら3つの論理を理解しておけばあらゆる問題に対応できます。

仮説法・演繹法・帰納法は、古代ギリシャの哲学者・アリストテレスがあきらかにし、 現代においては、哲学者・チャールズ=S=パース、哲学者・上山春平、民族地理学者・川喜田二郎らがとらえなおしをおこないました。また演繹法と帰納法については数学においていちじるしく発達しました。




▼ 関連記事
類似性をつかって理解し記憶し発想する - 特別展「古代ギリシャ - 時空を越えた旅 -」(5)-
論理をすすめる -「統計と確率」(Newton 2019.4号)-
事実と仮説と法則を知る - 科学のよみ方 -
仮説をたて検証する - 仮説法(発想法)と演繹法の活用 -
真実への推理 - 名探偵コナン 科学捜査展(日本科学未来館)-
仮説をたてるためにあらためて前提を確認する
事実から想像する - 国立科学博物館「恐竜博 2016」(5)-
仮説→検証→予測 -「なるほど!! 物理入門」(Newton 2019.3 号)-
複雑な現象を単純化して本質にせまる - 国立科学博物館(3)「法則を探る」-
統計の基本をしる -「統計と確率」(Newton 2019.4号)-


▼ 参考文献
『Newton』(増刊 No.2)ニュートンプレス、2019年
上山春平著『哲学の方法』(上山春平著作集 1)法蔵館、1996年
川喜田二郎『発想法の科学』(川喜田二郎著作集 4)中央公論社、1995年
川喜田二郎著『KJ法 -渾沌をして語らしめる-』(川喜田二郎著作集 5)中央公論社、1996年