平均値、分散と標準偏差、正規分布、標本検査と推定、検定、相関など、統計学の基本を理解しておきます。統計のからくりや嘘にだまされてはなりません。
グラフィックサイエンスマガジン『Newton』2019年4月号では「統計と確率」を特集しています。その PART 2 は「統計」です。
データの「平均値」を調べることは、統計学の第一歩です。平均値とは、「すべての値の合計値を、データの個数で割ったもの」のことをいいます。これを統計学では「相加平均」または「算術平均」といいます。
平均値は、「中くらいの値」というイメージをもつかもしれませんが、実際には、中くらいの値にならないこともよくあり、平均値をみただけではデータの特徴を十分につかめたとはいえません。そこでデータの「ばらつき」がつぎに注目されます。
たとえばドーナツショップのチェーン店、A店とB店で、ドーナツの重さのばらつきぐあいをしらべるために、それぞれのドーナツの「偏差」(平均値との差)に注目します。それぞれの偏差を2乗してしてから平均をとればばらすきの大小をあらわす指標がえられ、これは「分散」とよばれます。
ばらつきをあらわす指標には、分散のほかに「標準偏差」もあります。標準偏差は分散の平方根です(電卓のルートキーをつかって求めます)。
分散よりも標準偏差のほうがばらつきの指標としてつかい勝手がよいです。
受験につきものである「偏差値」は標準偏差をつかって計算されます。
標準偏差は、データ全体(たとえば大勢の受験生の点数)のばらつきを示す指標でした。そして偏差値とは、ばらつきの中で、ある人の点数がどれくらい、どちらの方向に平均からはなれているかを示しています。
通常のテストの点数は「正規分布」にしたがって分布することがわかっており、現実的には偏差値は、20から80程度の範囲にはいることがほとんどです。
正規分布は、統計においてきわめて重要なものです。
たとえば上から玉をおとす装置において、玉は、ピンにぶつかるたびに、ピンの右か左へおちていきます。右におちる確率は50%、左におちる確率も50%であり、玉は、ピンにぶつかるたびに右か左かの二者択一をおこないながらおちていくことになり、下に玉がたまります。
ピント玉の数をどんどんふやしたときに行きつくのが、なめらかな山型(釣鐘の形)の曲線をえがく「正規分布」です。
自然界や社会でみられるデータの分布のおおくが正規分布になっており、正規分布は、統計学のもっとも基礎的な概念のひとつになっています。
さて、統計学の実用例のひとつに検査があります。たとえば缶詰工場で、大量に生産されたすべての缶詰を検査する「全数調査」は不可能です。そこで「標本調査」がおこなわれます。
一部のデータをランダムに抜き出して全体(母集団)の特徴を調べることを「標本調査」といいます。抜き出すデータを「標本(サンプル)」といい、ランダムに標本を抜き出すことを「無作為抽出(ランダム・サンプリング)」といいます。標本の個数のことを「サンプル・サイズ」といいます。
このような標本の分析から母集団の特徴をいいあてることを「推定」といいます。
現代社会には、「健康によい」とうたう食品やサプリメントがあふれていますが、それらは、ほんとうに健康によい食品でしょうか? たとえばその食品を毎日たべた人の集団とまったくたべなかった人の集団とを調査したところ、ある数値の平均値にあきらかな差があらわれました。しかし平均値に差があるからといって、それが、統計的に意味のある差であるとはかぎりません。そこでそれを判定するのが「検定」です。
二つ集団のデータに差があるとき、その差に統計的な意味があるかどうかを調べることを「検定」といいます。検定では、まず「二つの集団に差はない」という仮説(帰無仮説)をたて、この仮説のもとで結果の確率的なばらつき(分布)をかんがえます。その分布において、データの差が ある範囲におさまっているならば「二つの集団に差はない」と結論します。データの差がある範囲をはずれていれば仮説を捨て「二つの集団には差がある」と結論します。
また2つの量の間に「相関」(相関関係)があるかどうかをみることも大事です。たとえばある学校のある学年の生徒には、身長がたかいほど体重がおもくなるという傾向がみられ、このようなときに、2つの量のあいだに「正の相関がある」といいます。
x がふえると y もふえる、あるいは x がふえると y はへるという関係がみられることを「相関」といいます。前者を「正の相関」、後者を「負の相関」といいます。
相関をしることは重要ですが、相関があるからといってそれらのあいだに因果関係があるとはかぎりません。たとえばある友人が風邪をひいて1週間もねこんでいたので、お見舞いにいき、宮沢賢治の本をそのときにもっていってあげました。するとその本をよんでいるうちにみるみる風邪は快復し、その友人は、「宮沢賢治にはすごい力がある」といって感心していました。しかし科学的にみるならば、風邪をひいてから1週間がたち、ちょうど快復期にさしかかっていたのであり、たまたまそのときに宮沢賢治をよんだにすぎません。風邪は、一定期間をすぎると自然になおります。
あるいは春先のある日にある雪国で、水道水に異臭が発生するという現象がおこりました。その日は、その年で最初に気温が急上昇して雪解けが一気にすすんだ日でしたので、雪解けの影響があらわれたと説明され、納得した市民がいました。しかし本当に因果関係はあったのでしょうか。化学的調査や統計学的調査はおこなわれたのでしょうか。だまされてはいけません。
これらはわらい話のようですが、実際には、この手の誤解が、おもしろいように世の中にはたくさんあります。十分に注意してください。
あるいは統計には、「シンプソンのパラドックス」とよばれる現象があります。これは、全体に注目するか、部分に注目するかによって、結論がことなる場合があるということであり、このパラドックスを悪用すれば、全体か、部分か、どちらかのデータだけを強調して、都合のよい主張をすることができます。
たとえば高所得者層も低所得者層もともに平均年収が増加しているというデータから景気は上向きであると主張できたとしても、実際には、国民全体では平均年収は減少しており、景気は下向きであるともいえます。どちらのデータをだしてくるか? 統計のからくりにだまされてはなりません。
不正をみやぶる方法のひとつとして「ベンフォードの法則」というものがあります。身のまわりにあるさまざまな数値の「最上位の桁」にある数字(1〜9)の出現頻度は、1がもっともおおく、2、3・・・と数字がおおきくなにしたがってすくなくなる傾向にあるという法則です。統計データの値がこの法則にあっているかどうかをしらべて不正の存在を推測することができます。
*
役所が発表する統計、マスコミの世論調査、研究や実験の成果、現代社会には統計の結果があふれかえっています。しかしそれらの結果は信用できるのかどうか? うたがってかからなければならないケースがおおいです。他者がだしてきた結果だけをみて、うのみにしてはなりません。統計の嘘にだまさないために統計学の基本的なポイントはしっておくべきです。
確率をこえられるか -「統計と確率」(Newton 2019.4号)-
統計の基本をしる -「統計と確率」(Newton 2019.4号)-
論理をすすめる -「統計と確率」(Newton 2019.4号)-
▼ 参考文献
『Newton』(2019年4月号)ニュートンプレス、2019年