これまでにヒストグラムのお話をしましたが、ヒストグラムは各標本の集合によって様々な形をとります。
(当たり前ですが…)

そのヒストグラムの中で、最も重要なグラフが「正規分布」です。
したがって今回は、正規分布とその利用法について書いていきたいと思います。

まず正規分布は、下図のように中心線(点m上の線)を中心とした、完全左右対称の釣鐘(つりがね)型の形状をしています。
また平均、中央値、最頻値は全て一致すると言った特徴があります。

正規分布
画像の出典;MBA用語 Weblio辞書
http://www.weblio.jp/content/%E6%AD%A3%E8%A6%8F%E5%88%86%E5%B8%83

ヒストグラムと正規分布の関係ですが、下図のようなゴツゴツとしたヒストグラムですが、

正規ヒスト
画像の出典;統計の基礎
https://oku.edu.mie-u.ac.jp/~okumura/stat/basics.php

 次の標本数の多い図では、何となく一番はじめの「正規分布」に近づいて来ているように見えませんか?
つまり上図のようなヒストグラムの標本数を下図のように増やしていけばやがて正規分布に近づくということです。

正規ヒスト2
画像の出典;検証メモ
http://fortran90.blogspot.jp/2010/10/sm00-0.html

 

次に正規分布の特徴から「平均」と「標準偏差」との間に次のような関係が成り立ちます。
(取り合えずそう言うもんなんだ!と言う感じで見るだけで結構です。)

平均を挟んで±1.96×標準偏差の間に、全標本の95%が含まれる。
平均を挟んで±2.58×標準偏差の間に、全標本の99%が含まれる。

①は、上記の一番初めの図で言うと平均(点m)からm±σとm±2σの区間の「%」を全て足すと95.44%になり、このことを言っています。 (34.13×2)+(13,59×2)=95.44%

②は、図の平均(点m)からm±σとm±2σとm±3σの区間の「%」を全て足すと99.72%になり、このことを言っています。(34.13×2)+(13,59×2)+(2.14×2)=99.72%

つまり正規分布の山みたいな曲線の内側の面積を全部足すと100%なので、点m~m±3σの範囲でほぼ全て(99.72%)を網羅してしまうのです。
この考え方をもとに統計学では「区間推定」と言う手法が生まれました。

区間推計とは、標本から「全体を推計する」際に、例えば「これらの標本から全体は100である可能性がある。」
と言うよりも「90から110の間に99%の可能性がある。」と言われた方が納得感があるように思わないですか?
このようにある一点を推計するのではなく、区間から推計をするので、区間推計と言います。

上記の①の推計を「95%信頼区間」、②の推計を「99%信頼区間」と言います。

文章だけだといまいちピンと来ないと思いますので、区間推定の問題を一問やりたいと思います。

あるアイスクリーム屋に新人のかわいい子が働き始めました。
その子を目当てにアイスクリームを毎日買いに行くと、新人と言うこともあってかアイスクリームの量がいつもばらついています。
それでは実際にどれくらいのバラツキがあるのでしょうか?
この問題では、そのバラツキの範囲を正規分布の特性から求めてみたいと思います。
ちなみにアイスクリームの価格は、100グラムで200円です。
それを20日調べたものが下記の表です。
※平均「97」と標準偏差「4.5」はエクセルで求めております

アイスクリーム正規問題

好意を持って貰っている場合、常連さんと言うことで後半は量が多めになる筈ですが、逆に減っています…
これはどう言うことなのでしょうか…
私を見て上がっちゃたのかな(*゚ー゚)>
まぁこれは統計学の問題ですので、余計な類推は止めて起きましょう…
「嫌がられているんでしょうね!(*^-^)」
「やかましいわ!ヾ(。`Д´。)ノ」「……。」

話が少し脱線してしまったので、話を戻しますと、平均と標準偏差は分かっているので、
下記の公式に数値を代入してみましょう!

①平均を挟んで±1.96×標準偏差の間に、全標本の95%が含まれる。
②平均を挟んで±2.58×標準偏差の間に、全標本の99%が含まれる。

①97-1.96×4.5~97+1.96×4.5 なので アイスクリームの量は88.18グラム~105.82グラムの間で販売されていることが分かります。
確かに20日間の量でこの範囲から漏れているのは「108グラム」の1回だけなので5%(1/20)の漏れです。
したがって88.18グラム~105.82グラムの区間に標本数の95%はちゃんと入っていますね。

②97-2.56×4.5~97+2.56×4.5 なので アイスクリームの量は85.48グラム~108.52グラムの間で販売されていることが分かります。
今回の標本は20しかないので、99%と言う割合は出ないので全部(100%)範囲に入ちゃっています。

以上から
販売されるアイスクリームの95%は、本来100グラムのところ88.18グラム~105.82グラムの量で販売されている。
もしくは
販売されるアイスクリームの99%は、本来100グラムのところ85.48グラム~108.52グラムの量で販売されている。
と言うことが分かりました。

このように「平均」と「標準偏差」から今回のような販売されるアイスクリーム量のバラツキをみたり、顧客の平均単価を類推したり、試験の上位5%に入るためにはどれくらいの点数を取ればいいかなど、様々な類推が出来るようになります。

しかし「1.96」や「2.58」はどこから出てきた数字なのでしょうか?これについては次回の標準正規分布で説明します。

本日のまとめ
正規分布は中心線を中心とした、完全左右対称の釣鐘型の形状をしており、平均、中央値、最頻値は全て一致すると言った特徴がある。
その特徴から「平均」と「標準偏差」との間に次のような関係が成り立つ。
①平均を挟んで±1.96×標準偏差の間に、全標本の95%が含まれる。
②平均を挟んで±2.58×標準偏差の間に、全標本の99%が含まれる。