前回は、生データの特性を知るための方法である「記述統計」の「度数分布表」や「ヒストグラム」といったグラフ的な方法のお話をしました。
今回は、もうひとつの統計量による方法について書きたいと思います。

「記述統計」の統計量には「平均」、「分散」、「標準偏差」があります。
「平均」は、皆さんもご存知の通り、複数の数の真ん中あたりに来る数値のことです。
※「あたり」と付けたのは、常に真ん中に来るとは限らないからです。

また平均には、平均値(算術平均)、中央値、最頻値と三種類あります。

① 平均値(算術平均)…これは一般的に平均と言われているもので、全ての標本の合計値を、標本数で割った値です。

② 中央値…全標本のうち、ちょうど真ん中の順番に来る標本の値です。真ん中に来る標本の数が偶数の場合は、真ん中に最も近い二つの標本の数値を足して、二で割った数値が中央値になります。
例 1,2,5,8,12,17,21,24,28,31、37
この標本の場合は、「17」が中央値(真ん中の数)になります。

③ 最頻値…全標本を見たときに、最も多くの標本が最頻値となります。したがって数値の真ん中に来るとは限りません。
例 1、3、3、8、9、15、15、17、20、22、22、22、25、27、36
この標本の場合は、「22」が最頻値(よく出てくる数)になります。

まぁこのように平均と言っても複数の考えた方があり、どの平均を使ってもOKと言うことです。
今回の日記では、分散と標準偏差を説明する際に「平均」を使うのですが、その「平均」は一般的な平均である算術平均を平均として書いていきます。

分散や標準偏差と言う言葉は、統計学をやってこられていない方には、聞きなれない言葉ですが、一言で言うと「データがどれくらい散らばっているか」を見るもので、要するに標本全体が、平均値からどれくらい離れているかを数値化したものです。

それでは具体例を出しますので見てみましょう。

3クラス平均

 

3クラスヒストグラム

上記の表と図は、3クラスの数学のテスト結果で、平均点は、3クラスとも「60点」です。
同じ平気点でも三者三様です。1組は各生徒間のバラツキが目立ちます。2組の生徒は、みな同じ学力と言えます。3組は、出来る子とそうでない子が2極化しています。

この3クラスの中で、一クラスだけ統計データとして使い物にならないクラスがあります。
それは、どのクラスだか皆さんは分かりますか?「答えはウェブで!」

「つーかこれウェブだし!」、「……。」と自己突っ込みをしつつ、正解を言いますと答えは3組のデータが、統計データとして使い物になりません。

なぜなら前回の日記にもチラっと書きましたが、3組のヒストグラムは、「二峰性」のグラフになっています。
つまり3組は、出来る子とそうでない子の2つの対象が存在し、それを今回のグラフのようにひとつの対象として考えた場合、そのデータから導出した統計分析は、ほとんど当てにならない分析結果だからです。
例えば私が、とある参考書を出版しているメーカーの営業マンだとして、3組の平均点のデータを元に
3組の平均点を上げるために3組の先生に「中級からやや上級クラス」のテキストを営業しに行ったとします。
果たしてこの営業で買って貰えるでしょうか?おそらく難しいでしょう。
なぜなら、出来る子達にはこのテキストは簡単すぎて、そうでない子達では、難しすぎるからです。
というように「二峰性」のグラフから求められる分析結果(3組の平均点のデータを元に「中級からやや上級クラス」のテキストを営業)はほとんど当てにならないと言うことです。
したがって統計量の方法を使用する場合は、ヒストグラムが「一峰性」が前提条件となります。
なので、グラフ化をしてから統計量を算出すると言う流れになります。

また1組と2組のヒストグラムのバラツキの大きさは、どちらが大きいと思いますか?
正解は1組ですが、2組と思われた方もいると思います。
何となく高いとバラツキが大きいと思われたからではないでしょうか?
ヒストグラムは、縦軸は度数で、横軸は階級ですので、度数が集中している方がバラツキがない(2組)と言うことになります。
※度数、階級を忘れてしまった方は前回の日記を参照してください。

ここからようやく、分散の話になるのですが、そもそもなぜ分散や標準偏差を求めなければならないのでしょうか?
別にヒストグラムで、データの特徴が分かるんだから、何もわざわざ計算をしなくてもいいじゃんか!と思われるかもしれませんが、わざわざ計算をするだけの価値はちゃんとあるのです!(キリッ)

なぜなら、今回の図のように3つのグラフの結果が三者三様の場合は、計算をしなくても各データの特徴が分かり比較できますが、実際のデータは、今回ほど極端にならず、もっと似通ったグラフになる場合がほとんどです。
なので、その似通ったデータを見て分析をしてしまいますと、かなりの確立で主観が入り、誤った分析結果を導出してしまう可能性が高いです。
したがって面倒でも、わざわざ計算をすることで、結果が数値化され客観的に判断できるので、聞いている側の納得感も得られ易くなると言うわけです。

と言うことで分散と標準偏差の式を発表します!

分散標準偏差式

算出式の出典:人事のための課題解決サイトjin-jour(ジンジュール) http://www.rosei.jp/jinjour/article.php?entry_no=50139

 

「うえーシグマが入ってる…これならわざわざ計算せずに主観でも…」とか思わないでください!(自分に負けないで!)大丈夫です。
分かりやすく説明をしますので、
しかーし本日の日記が若干長くなってしまったので、分散、標準偏差の公式の説明は次回に持ち越します!

 

本日のまとめ、「二峰性」のグラフから求められる分析結果はほとんど当てにならないので、標本が「一峰性」になっているか計算をする前に確認をする。逆に言うと統計分析は、「一峰性」であることが前提になっている!