前々回の日記にヒストグラムの標本が、めちゃくちゃ細かくなって来ると正規分布になると書きましたが、その正規分布の中でも最も有名な正規分布は、「標準正規分布」です。

標準正規分布とは、「平均が0」で「標準偏差が1」の正規分布です。

平均がゼロ?と現実的にはありえないだろうと思われる方もいるとは思いますが、これは統計学における、いわゆる概念的なものなので、あまり深く考えずにそう言うもんなんだ!と言う程度でお考え下さい。

この標準正規分布の重要な部分は、徹底的に調べつくされていると言う点です。

例えば、標準正規分布上で、ある値からある値までの範囲に何%の標本(データ)が含まれている。とかある値以上、もしくはある値以下に何%の標本が含まれている。と言ったことが「標準正規分布表」と言う表を見ることで分かってしまうのです。

標準正規分布表は、下記のサイトから見ることができます。
標準正規分布表(http://www.koka.ac.jp/morigiwa/sjs/standard_normal_distribution.htm

この表の見方は、縦軸で、0,1の位までみて、横軸で0.01の位を見ます
んーこの説明ではイマイチよく分からないと思いますので、実際にやってみます。

例えば、前々回の日記で

①平均を挟んで±1.96×標準偏差の間に、全標本の95%が含まれる。
②平均を挟んで±2.58×標準偏差の間に、全標本の99%が含まれる。

と言ったことを書きました。

これを標準正規分布で考えますと、↓このようになります。

①平均(「0」)を挟んで±1.96×「1」の間に、全標本の95%が含まれる。
②平均(「0」)を挟んで±2.58×「1」の間に、全標本の99%が含まれる。

つまり

①平均を挟んで±1.96の間に、全標本の95%が含まれる。
②平均を挟んで±2.58の間に、全標本の99%が含まれる。
となります。

したがって

①ならば、標準正規分布表の縦軸の「1.9」、横軸の「0.06」の交わった数字をみると「0.4750」と言う値になり、「平均を挟んでプラスマイナスの間に」なので「0.4750」に2を掛けると「0.95」になります。
よって「平均を挟んで±1.96の間に、全標本の95%が含まれる」となるのです。

196正規

画像の出典:高校数学の基本問題
http://www.geisya.or.jp/~mwm48961/linear_algebra/conf1.htm

 

②の2.58は、皆さんも標準正規分布表を確認してみて下さい。「0.4951」と言う数字になると思います。

このように標準正規分布は、徹底的に調べつくされているので、標準正規分布表を見ることでいかなる値が何%なのかが分かってしまうのです。

ここまでの内容で取りあえず、標準正規分布と言うものは大体分かった!けど自分たちが作ったヒストグラムと、標準正規分布をどう対応させるのか?と言う部分ですが、
これは標準化の式を使うことで、対応付けが出来るようになります。
標準化とは、読んで字のごとく、標準じゃないものを標準にさせちゃうと言うことです。

標準化の式
標準化=(各標本の値-平均)/標準偏差

それでは、実際に問題をやってみましょう。
あるクラスの男子の平均身長は「170cm」で、標準偏差が「15cm」だとします。このとき175cmの人は、上位何%でしょうか?

まず175cmを標準化してみます。
(175cm-170cm)/15cm=0.33

「0.33」と言う値を、標準正規分布表で見てみると「0.1293」となります。
したがって175cmの人は、上位13%と言うことが分かりました。

175-13

まぁこんな感じで、標準正規分布は利用されます。

 

本日のまとめ
・標準正規分布表を見ることでいかなる値が何%なのかが分かる。
・標準化の式を使うことで、自分たちが作ったヒストグラムと対応付けが出来る
・標準化=(各標本の値-平均)/標準偏差