前回の内容で、統計分析は「一峰性」であることが前提で、分散や標準偏差を算出する理由は、細かなデータ分析や複数のデータを比較する際に客観的に判断できるので、聞いている側の納得感も得られ易くなるということを説明しました。

そして前回の内容で最後に出しました分散と標準偏差の式を今回、初っ端から出しますとまた「うえー」と思われるかもしれないと考えまして、前回の数式ではなく、日本語を用いた式に変換しました。

分散標準偏差手書き式

これならば、前回の式よりも抵抗が少なくなっているでしょ!(つーか手書き…)

ではまず分散の式から説明します。
分散や標準偏差は、一言で言うと「標本がどれくらい散らばっているか」を見るもので、標本全体が、平均値からどれくらい離れているかを数値化したものです。
また分散と標準偏差を説明する前に「偏差」と言う言葉の説明をしておきます。

偏差…平均値からどれくらい離れているかを数値化したもの。各標本から平均を差し引いたもの。

それではひとつ具体的な例で説明します。

標本と偏差

上記の表は、あるクラスの数学のテスト結果で、平均点は「73点」です。
そしてご覧の通り、偏差の平均は「0」になっています。
それは偏差の合計が「0」になってしまうからです。
これは今回のケースに限ったことではなく全てのケースで当てはまる事象です。

なぜなら算術平均での平均値は、全標本の中心に来るため、平均値より大きい標本の偏差の合計と平均値より小さい標本の偏差の絶対値の合計は一緒になるからです。
まぁ要するに「平均値より大きい標本の偏差の合計」と「平均値より小さい標本の偏差の合計」が打ち消しあってしまうからです。
※この文章で分からない場合は、1から5のケースで考えてみて下さーい。「1,2,3,4,5」「平均3」

話を戻しますと、分散は、標本全体が平均値からどれくらい離れているかを数値化したもの(偏差の合計÷標本数)ですが、偏差の合計は「0」になってしまうので、求められないじゃーん!となってしまいます。
そこで偏差の合計の「0」の原因は、「平均値より大きい標本の偏差の合計」と「平均値より小さい標本の偏差の合計」が打ち消しあってしまうからなので、全ての偏差を2乗してしまえば打ち消しあうことがなくなるので問題解決と言うことになります!
したがってこの文章を式にしたものが上記の分散の式になります。

しかーし!分散は、偏差を2乗してしまったことで「単位」がなくなってしまいました。
※今回で言うと「点」です。
そこで2乗したんだから、分散の値にルートを掛ければ、「単位」復活じゃん!と言うことで、それが標準偏差となります。

本日のまとめ
・分散や標準偏差は、標本全体が平均値からどれくらい離れているかを数値化したもの(偏差の合計÷標本数)
・分散には「単位がない」ので、「単位復活」のための標準偏差