こんにちは!
本日は統計学その4ということで、「散布度」に関連する統計指標を解説していきます。
散布度は全て説明すると1つの記事ではとても長くなってしまうので、何回かに分けて説明していきます。
1. 範囲(range)
範囲とは、データの中の「最大値から最小値を引いた数」になります。
範囲とは「データの広がりがどれだけあるのか」を確認する指標となります。
ですが、弱点として「外れ値の影響を受けやすい」という特徴もあります。
2. 第一四分位数、第三四分位数
第一四分位数と第三四分位数とは、中央値と似たような指標として使われます。
中央値は「データを上位50%と下位50%に分ける」値でした。これら2つも同様の意味で使用され、第一四分位数は「下位50%をさらに半分に分ける」値であり、第三四分位数は「上位50%をさらに半分に分ける」数値になります。
例えば10、11、11、12、13、13、17、18、18、19、19という昇順に整理した11個のデータがあったとしましょう。
そのとき、中央値はちょうど真ん中の6番目の数値である「13」となります。
そうすると下位50%のデータをまとめて
10、11、11、12、13
この5つになります。
このとき第一四分位数は下位50%の真ん中の3番目の数値である「11」という事になります。
ということは上位50%のデータをまとめて
17、18、18、19、19
同様に第三四分位数は上位50%の9番目の数値である「18」という事になります。
次に紹介する「四分位範囲」と「四分位偏差」を求める際に利用するので、これらの値の求め方を理解しておきましょう。
また第一四分位数は「」、第三四分位数は「」と記述されます(Qはquarterの頭文字をとっております)
※余談
英語の統計の教科書には第一四分位数は「25th percentile」第三四分位数は「75th percentile」と記載されており、データを25%区切りのタイルという解釈をして言葉を定義しております。
3. 四分位範囲(Interquartile Range)
四分位範囲とは第三四分位数から第一四分位数を引いた数であり、これも範囲と同様「データの散らばり具合」をみる指標となります。
四分位範囲(IQR)を求める方法とは以下のようになります。
先ほどの例と同じく10、11、11、12、13、13、17、18、18、19、19を用いて四分位範囲を求めると
「7」と求めることができます。
範囲と同様にデータ全体のばらつきを確認することができますが、範囲と違い「外れ値の影響を受けにくい指標である」という利点があります。
4. 四分位偏差(Quartile Deviation)
四分位偏差(QD)とは第三四分位数から第一四分位数を引いた値を2で割った数であり、四分位範囲と一見何が違うかを理解しにくい指標だと思います。ですがこの指標は面白く、中学1年生で初めて学習する際に、統計に対する造形が深い先生にきちんと教わることが、統計を理解する第一歩であると思います。まずは定義を見ていきましょう。
式自体は先ほど求めた四分位範囲を2で割るだけですので、非常に簡単です。そして重要な解釈なのですが、「中央値から左右にどれぐらいずれているのかの平均」を見る

イメージとしては上の図のような中央値からの平均のズレがあると理解していただければ良いかと思います。
まとめ
本日は基本的な散布度を表す指標やそれに関する値の定義と解釈を説明していきました。
統計とは「そのデータで一番多く出されたり平均化された点数や値に対する傾向」を確認する学問であり、平均や中央値からのズレがどの程度でどのぐらいの人数いるのかという指標を解釈付きで算出しなければ、実世界に応用はできません。学校の勉強だけできれば問題なく、このような統計を社会に出てから利用しないと割り切れる方であれば、テストのためだけに演習だけを行えば良いです。しかし、私が担当した生徒には茨城県の中でテストの点数を取るだけでなく、より深い算数や数学の知識を身につけて「自分のために数学をする」という体験をして欲しいと思い日々ブログを書いております。

コメント