データ分析をするときは平均値だけなく中央値もみよう
データを分析するときの最もポピュラーな値は『平均値』でしょう。
ですが、平均値だけでなく、『中央値』なるものも見るようにしましょう。
まず、それらの意味の違いを簡単に説明すると次のとおりです。
平均値とは・・・データをすべて足して、そのデータの個数で割った値。
中央値とは・・・データをすべて昇順/降順で並べて、その真ん中の順番にくる値。
簡単な例で示すとこんな感じです。
7個のデータが1から20の値に分散されています。これらの平均値は、『6.4』で、順番的に真ん中にくる中央値は『4』です。
6.4と4では、全然違いますよね。
これを見ての通り、平均値は異常値に引きづられてしまいます。逆に中央値だけでは、異常値の存在が分かりません。
では、どうすればよいでしょうか?いつ、どちらを使えばいいのでしょうか?
私のおすすめは、
- 最大値
- 平均値
- 中央値
- 最小値
をすべて並べる、です。
その結果がこんな感じです。
こうすると、なんとなくデータのバラツキも雰囲気を捉えられます。
標準偏差や最頻値という分析もありますが、まずはこの4つを並べるだけでも捉えようとしているデータの実態の雰囲気をつかむことができます。
私のブログの更新頻度を例にやってみましょう。
前回記事で、ちょうど200個目の記事でした。その200個の記事と記事の更新間隔日数を分析対象とします。
1日に2個更新すると更新間隔日数は『0』で、次の日に更新すると『1』とカウントします。
その結果がこちらです。
この結果によると、平均1.8日に1回ブログを更新していることになります。ただし、最大で9日の間隔が空いていることがわかります。
中央値としては1日です、半分以上のブログは1日おき以下で更新していることが読み取れます。
どちらにもそれぞれの意味がある数字です。どっちを使うべきかを考えるよりは、4つの値を並べて全体感を押さえるのが良いと思います。