統計学 その7

こんにちは！

本日はいよいよ「推定統計」について解説等を行います。

「その１〜その６」までで、記述統計の基本的な「要約統計量」と言われる、「代表値」「散布度」「順序統計量」は理解できているかと思います。(まだ覚えていないところがあれば、復習することをお勧めします。)

まず初めに「推定統計」とはどのようなものなのかを理解するにあたり、母集団と標本集団の違いを理解する必要があります。

1.母集団と標本集団
2. ヒストグラムの面積と確率
まとめ

1.母集団と標本集団

母集団とは、「情報を得ようと思ったり、測定値を測ろうと思う集団すべて」を指します。わかりにくいので例として、「日本における30歳から39歳までの男性の平均身長を測定した結果」をアンケート形式で取りたいとすると、今回の母集団は30歳から39歳までの日本人男性すべてということになります。しかし、全国に点在している日本人男性にアンケートしにいくのも、全員を東京に集めて身長を測るのも非常に困難ですし、お金の面や時間の都合を考えると事実上不可能です。ちなみに私はそのような調査を受けていませんが、e-Statという日本政府が公式に出している統計データがあります。私も31歳ですので、そのデータを母集団と言うことはできません。しかし、３０〜３９歳の男性の平均身長は171.5cmと記載されており、それをその年代・性別の日本人の平均というには少し無理がある気がします。

そこで登場するのが標本集団というもので「情報を得ようと思ったり、測定値を測ろうと思う集団から無作為に抽出した集団」になります。なぜそのデータに価値があるかというと、その標本集団の平均値や標準偏差を利用すると、元の集団がどのぐらいの測定値を持つ可能性があるかを推定することができます。母集団の数にもよりますので、一概には言えないのですが、母集団数を10,000程度とすると、サンプル数が400程度あればいい感じの精度で測定できると思ってください。

つまり推定統計学とは、「限られた情報から、全体や未来を予測する」学問なのです。

2. ヒストグラムの面積と確率

度数分布表を書いて、ヒストグラムを図で示すと、ある階級値の面積が全体の面積に占める割合というものを「その事象が起きる確率」として解釈することができます。なぜそのように言えるのかを、今から解説していきます。例えば、ある地域で100点満点のテストを実施し、その中の200人の結果をもらい、それをヒストグラムにしたとしましょう。具体的な値は載せませんが、下の図を見ると

上記の図となっております。

面積の割合という言葉を使いましたが、実際には「相対度数」と呼ばれ、式は

(相対度数)=\frac{(ある階級での度数)}{(全体の度数)}

このようになるので、上の図を見ると50~60ぐらいの測定値を取る人の確率が一番高そうかな?と解釈できます。つまり、ヒストグラム上における、面積はその値をとる確率と一致すると言えます。

仮に調査した200人のうち、50点から60点を取った人を60名程度とすると、ある地域ではその割合ずつ点数が分布しておきそうだな(1000人いたら大体300人程度かな?)という感覚を身につけておくと、確率で集団を評価するという理解がしやすいと思います。

まとめ

本日は母集団と標本集団の違い、集団の値が現れる割合を確率として解釈するという2点を学習しました。正規分布と標準化についても書きたかったのですが、これ以上は長くなってしまうので、次回以降に解説しようと思います。

統計学その7

1.母集団と標本集団

2. ヒストグラムの面積と確率

まとめ

コメント