これまでこの日記で書いてきたことは、「記述統計」と言って分析するデータが全て揃っているものをどう分析すると言う手法の話でした。
今日からは「推測統計」と言って、一部のデータから全体を予想する手法の話になります。
おそらく皆さんが統計をイメージしている話になると思います。

「推測統計」には、2つの大きな用語あります。
・母集団
・標本

「母集団」とは、いわゆる全データのことで、「標本」は、母集団の一部のことです。
また標本から母集団を予想した「標本をもとに予想した母集団」というものもあります。
ちなみに「母集団=標本をもとに予想した母集団」とはほぼなりません。
それはお分かりの通り、あくまでも標本からの予想だからです。

次に「平均」と言う言葉がありますが、これも「母平均」、「標本平均」「標本平均から推定した母平均(ここはいろいろな言い方があります)」とあります。
と言うことは、「分散」も「標準偏差」も3パターンあると言うことです。

また各用語の総称として
母数…「母平均」「母分散」「母標準偏差」
標本統計量…「標本平均」「標本分散」「標本標準偏差」
統計的推測(ここはいろいろな言い方があります)…「標本平均から推定した母平均」「標本分散から推定した母分散」「標本標準偏差から推定した母標準偏差」
とあります。

「推測統計」は、はじめにも書いた通り、皆さんが統計をイメージしている話で、まさに統計学の中核の話ともいえます。

それではなぜ、「推測統計」と言うものが出来たかと言いますと、これも当たり前の話になってしまいますが、例えば、ある商品の賞味期限を決める際に、「推測統計」でなく「記述統計」で行った場合、全商品を開けてチェックをしないといけないので、「売る商品がなくなっちゃうじゃーん」と言うことになってしまいます。
また全数調査(検査)は、確実性はありますが、それを調べるためにコストと時間が凄く掛かってしまいます。
そこである程度精度は落ちるが、コストと時間が大幅にカットできるならサンプル調査(検査)で補ってしまおうと言う訳です。
ちなみにサンプル調査(検査)の部分で、「ある程度精度は落ちるが」と書きましたが、これはその統計を分析する人の力量に掛かって来る部分です。
その話は、次回の「無作為抽出」のところでも出てきます。

取りあえず今回は、「推測統計」の用語の部分までにして置きます。

本日のまとめ
・「母集団」とは、いわゆる全データのことで、「標本」は、母集団の一部のこと。
・各用語の総称として
母数…「母平均」「母分散」「母標準偏差」
標本統計量…「標本平均」「標本分散」「標本標準偏差」
統計的推測(ここはいろいろな言い方があります)…「標本平均から推定した母平均」「標本分散から推定した母分散」「標本標準偏差から推定した母標準偏差」