はじめに
コジマです。
この記事では四分位数を扱っていきます。
読み方は「しぶんいすう」です。
基本統計量の一つです。基本統計量についてはこちらの記事を参照してください。
【Python】読み込んだCSVの基本統計量を観察する【体重晒し】
四分位数で起こりうる勘違い
後述しますが、第二四分位数(中央値)に関して名前だけを見た時
以下に示す意味ではないことを予め記しておきます。
- 中央値=平均値ではない!
- 中央値=(最小値+最大値)/2ではない!
私が実際に起こした誤認識です。
実際四分位数が示すものを見ていきます。
四分位数って何??
四分位数を見る上で大事なことは2点。
- データの個数に着目する
- データは数値で、昇順にソートされている
第二四分位数(中央値)
データが奇数の場合
数値の間を「幅」という言い方をします。
もちろん幅の数は「値の数-1」で表せます。
幅を2つ等間隔に取り、そこで示される値を第二四分位数(中央値)と言います。
データが偶数の場合
今度は幅を整数値で取らなくなってしまいました。
この場合は境界付近の2数の平均を取ります。
第一四分位数、第三四分位数
第一四分位数、第三四分位数の基本的な考え方は変わりません。
先ほど、2等分しましたが、今度は4等分です。
4等分した境界の1つ目を第一四分位数
4等分した境界の2つ目を第二四分位数(中央値)
4等分した境界の3つ目を第三四分位数
といいます。
4等分すると境界がきれいに中間にない場合がでてきます。
この時、「重み付き平均」と取ります。
この場合は
境界に近い方に0.75,境界に遠い方に0.25を掛けることになります。
※2019/5/22追記
第三四分位数の計算結果が誤っています。
正しくは「150.75+200.25=16.25」となります。
境目が0.5地点の場合は互いに0.5ずつ重みを取れば良いですし(普通の平均に等しい)、
境目が整数値だったらそこに合致する数を見れば良いですね。
さいごに
以上の手法により四分位数を求めることができます。
語感で勘違いしやすい用語ではありますが、
データの個数に着目した値だということが分かれば特に難しいものではないと思います。
本記事執筆にあたり、参考サイトを以下に紹介します。
四分位数の求め方といろいろな例題
この記事を面白いまたは役に立ったと思ってくれた方は是非私のTwitter(@kojimanotech)を
フォローしてくれたらうれしいです!
以上、コジマでした。