「記述統計」について

まず統計学は、「記述統計」と「推測統計」の2つの考え方から成り立っているでゴンス!
(最近語尾に「ゴンス」をつけるのがマイブーム!)

「記述統計」とは、得られたデータから、そのデータの特徴を知るための方法で、例えば「度数分布表」や「ヒストグラム」などグラフ的な方法と平均値や標準偏差などの統計量による方法からなります。

「推測統計」とは、ある一部のデータ量(サンプル)から全体(母数)を推計する方法のことです。身近な例でいうと選挙の速報なんかが典型的な推計統計の結果といえます。
他にも総務省の国勢調査やビデオリサーチ社のテレビ視聴率なんかにも使用されています。

まぁ皆さんもこの辺のことは統計学を良くわからなくても、そういったモノが統計だ!ということはお分かりだと思います。
取り合えず今回は、統計学はデータの特徴を知るところから始まりますので、「記述統計」の度数分布表やヒストグラムといったグラフの説明をしたいと思います。

まず下の表を見てください。この表は、とあるクラスの数学のテスト結果です。皆さんは、この表を見ただけで何か分かるでしょうか?

78569046686272685646
78348658485264827638
62547458668492623872
64726254486684787668
52646056487062765286

おそらくこの表だけを見ただけでは、イマイチ「ピン」と来ないと思います。
なので分かり易くするために統計学では、このような生データ(何も加工されていないデータ)を「度数分布表」という表に移し変える作業をします。
その表が、下記の表です。

度数分布

度数分布表に「階級」「度数」「相対度数」という言葉がありますが、これらは

「階級」…「21-30」「31-40」「41-50」といった区切りのこと
「度数」…階級の中のデータの数のこと
「相対度数」…「度数」をパーセント表示したもの。要するに割合のこと。
※相対度数の合計は「1」になります。(割合なので当たり前ですね)

はじめの表よりも分かりやすくなっていると思います。例えば、「61-70」点の間の人達が最も多いとか、最高点を取った人は「91-100」点のあいだにいるとかが分かると思います。

次にこの度数分布表をグラフにしたものが下の図です。

ヒストグラム1

この図を「ヒストグラム」と言います。「61-70」点の間を中心にヤマナリの形をしていますね。
ちなみにこのテストの平均点数は64点です。
なので「61-70」点の間に平均点が入っていることになります。
これは偶然ではなく、ちゃんと統計の調査が実施されれば、このようになります。
またこのような一つ山のヒストグラムを「一峰性」と言います。

nihousei

一方で、この図のように山が2つ出来るようなグラフを「二峰性」のグラフと言います。
上記でも書きましたが、ちゃんと調査が出来ていれば「一峰性」のグラフに成るはずが、このように「二峰性」のグラフになってしまうと言うことは、ちゃんと調査が出来ていないと言うことです。
つまり山が2つ出来ると言うことは、ひとつの調査で2つの調査を混ぜて行ってしまったと言うことです。
混ざってしまったデータは、塩と砂糖を混ぜてしまったことと同じぐらい分けるのが困難なため、このような結果になった場合は、調査をやり直さなければなりません。
したがって調査を設計することは統計学において重要事項の1つとなっています。
たかがアンケートとかではないのです!

ヒストグラム2

また上記の図のように、「一峰性」のグラフと言い切れないグラフもあると思います。
その場合は、「適合度検定」、具体的にはカイ2乗検定という計算を行うことで説明することが出来ますが、カイ2乗検定は初回でやるには重過ぎるので、今後紹介していきます。

今回のまとめとしまして、「度数分布表」や「ヒストグラム」を用いることで生データだと何を言っているのか分からなかったものが、そのデータ特性が分かるようになると言うことでゴンス!

コメント

タイトルとURLをコピーしました