統計学 その5

数学

こんにちは!今回も前回に引き続き「散布度」に関する学習をしていこうと思います。

今回は「分散」と「標準偏差」の2つの解説と演習をしていきましょう。

この二つは記述統計でも推測統計でも利用する大切な指標なので、必ずできるようにしましょう。

1. 分散

分散とは「平均からの差(偏差)の2乗平均」を計算すると求められる値です。公式は以下の通りになります。

σ2=(x1x)2+(x2x)2+(x3x)2++(xnx)2n\sigma^2 = \frac{(x_{1} – \bar{x})^2 + (x_{2} – \bar{x})^2 + (x_{3} – \bar{x})^2 + \cdots + (x_{n} – \bar{x})^2}{n}

ここではσ2\sigma^2を分散とします。またxixx_{i} – \bar{x}を一般的に「偏差」と言い、平均からのズレのことを言います。高校2年生以降では下記の表記がより一般的になります。

σ2=1ni=1n(xix)2\sigma^2 =\frac{1}{n} \sum_{i = 1}^n{(x_{i} – \bar{x})^2}

上の二つの式は全く同じでn個のデータ点の偏差の2乗和の平均という意味になっています。

分散の意味とは、公式からもわかるように「データの点が平均よりどの程度ばらついているのか」を表している数値になります。分散が大きいほど、平均から遠いデータが多いという意味を示します。

しかし、2乗してしまっているためデータの単位(例えばcmなどの長さの単位)を2乗してしまっているため、分散の単位は元の単位の2乗になっている事には注意が必要です。(元のデータがcmであれば、分散の単位はcm2cm^2となってしまう)

2. 標準偏差

標準偏差とは「分散の平方根」となります。標準偏差をσ\sigmaとおくと公式は以下の通りになります。

σ2=(x1x)2+(x2x)2+(x3x)2++(xnx)2n\sigma^2 = \frac{(x_{1} – \bar{x})^2 + (x_{2} – \bar{x})^2 + (x_{3} – \bar{x})^2 + \cdots + (x_{n} – \bar{x})^2}{n}

一見すると、分散の平方根を取っただけに見えますが、これは「2乗してしまった単位を元の単位に戻す」意味があります。つまり、平均からデータがどの程度ずれているのかを度数分布表に書き込んで直感的に理解することができる形にしているということです。

ここで正規分布について、グラフを見てみようと思います。正規分布とは「平均値の付近にデータが多く集まっている」ような図形を指します。

これが正規分布と呼ばれる形になります。一番度数が多いところに平均値がくるような形になっています。(今回のグラフは平均値を0、標準偏差を1として取っています。)

標準偏差σ\sigmaは元のデータと単位を揃えているため、ヒストグラムに直接記述して平均値からのズレx±σ\bar{x}\pm\sigmaの幅を確認することができます。この幅によってどの程度データが散布されているのかを確認することができます。

3. 演習問題

100点満点の数学のテストを40人の人が受けました。

62, 84, 77, 72, 70, 68, 78, 38, 76, 37, 80, 55, 70, 44, 92, 99, 100, 86, 97, 49, 86, 90, 86, 88, 72, 83, 100, 51, 12, 33, 70, 21, 58, 88, 7, 94, 74, 100, 72, 81

これの平均点と分散、標準偏差を求めましょう。

4. 解答

平均 x=70\bar{x} = 70

分散 σ2=576\sigma^2 = 576

標準偏差 σ=24\sigma = 24

コメント

タイトルとURLをコピーしました