無作為とは、「でたらめ」とか「ランダム」と言う意味なので、
無作為抽出とは、母集団から標本をテキトーに抜き取ることを言います。

文章では簡単に書けますが、実際の現象の無作為抽出はかなり難しいです。

例えば、映画製作のために新宿駅前で「あなたは今後どのような映画を見たいですか?」といった主旨のアンケート調査を実施していたとします。
新宿駅は、映画館も多く、また世界一乗降客数が多い駅としてギネス世界記録に認定されているぐらいですから、
多種多様なあらゆる人達が行き来している場所であるため、このアンケート調査の実施場所としてはかなり適していると言えます。

しかし無作為抽出と言う観点でこのアンケート調査を評価した場合、実はほとんど無作為になっていないと言えるのです。

なぜなら、新宿に行く人達の「傾向」と東京駅や渋谷、秋葉原に行く人達の「傾向」に違いはありますし、
私の地元である栃木の人達と比較した場合その「傾向」はもっと大きくなることでしょう。
なので一箇所でアンケート調査をしている時点で、「新宿駅前」と言う場所の偏りが出てきてしまっているからです。

またアンケート調査と言うことなので、アンケートを頼んだ際に断られてしまった人達の情報も漏れてしまいます。
本当に無作為抽出を実施するならば、断られても、すがり、ズザザザーッと引きずられながらもアンケート調査に協力して貰う必要があります。
そんなことをしたら警察沙汰ですね(゚ー゚;A
その他にも調査をする時間や天候なども偏りに影響を及ぼす要因になってしまいます。
それに調査員のアンケート対象者選びにも偏りが生じているはずです。

まぁこのように実際の現象の情報を無作為に抽出すると言うのは、大変困難だと言うことなんです。

無作為抽出が難しいと言うことは分かったけど、それが何?( ゚Д゚)だから?と思われている方もいると思いますが、
無作為抽出と言う工程は、大変重要な工程なんです。
なぜなら「推測統計」は、母集団の母数を推計するために無作為抽出によって標本を採取し、その標本から標本統計量を算出し、
その標本統計量から統計的推測によって母数を推測するので、そのスタートとなる「無作為抽出」の工程がいいかげんな方法で採取した標本だといいかげんな母数が推測されてしまう訳なんです。
したがって何度も言うようですが、無作為抽出と言う工程は、大変重要な工程なんです。(大切なことなので2回言いました)

無作為抽出図1

無作為は「でたらめ」と言う意味ですが、いいかげんなでたらめでは駄目なんです。ちゃんとしたでたらめでないと…

では実際に無作為抽出なんて出来るのか?と言う話になると思うのですが、
それは、エクセルを使えば間単に出来ちゃいます。
「データ」タブの一番右の「データ分析」をクリック  ※データ分析が無い場合はコチラ
データ分析のダイアログが出るので、そこから「サンプリング」を選んで
無作為抽出をしたい「入力範囲」を選択し、標本数を決めればOKです。

無作為抽出図2

 

無作為抽出図3

エクセルで無作為抽出が出来る場合は、例えばお店の全販売記録からある時間帯の顧客の客単価を予想したり、併売分析をしたい場合など、全データが揃っているから出来るわけで、そうでない場合は、上記のようにアンケート調査などをするしかないのですが、そのアンケート調査をする際には、

・アンケートの調査項目
・アンケートの実施条件(場所、時間など)
・アンケートのデータ数
といったことをちゃんと設計しないと統計学をちゃんと理解していても、その材料(インプット)がいいかげんなものですと分析結果(アウトプット)が使い物にならないことになってしまいます。

はっきり言ってテレビで出ている(特にバラエティ)統計の分析結果は、でたらめな結果ばかりですので、ソースとしてほとんど使い物にならないものばかりと思って貰って結構です!(ちょっと言い過ぎかも…(;´▽`A“)
ここでのメッセージは、統計の分析結果なんて言うものは、母数から採取した標本によっていかようにもコントロール出来るということです。
ですので、分析結果を見ることも重要ですが、その分析結果の前提になっている無作為抽出がちゃんと行われているかを見ることも同じように重要と言うことです!

 

本日のまとめ
・無作為とは、「でたらめ」とか「ランダム」と言う意味で、無作為抽出とは、母集団から標本をテキトーに抜き取ること。
・分析結果を見ることも重要だが、その分析結果の前提になっている無作為抽出が「ちゃんとしたでたらめ」になっているかを見ることも同じように重要。