データ分析をするときは平均値だけなく中央値もみよう

データを分析するときの最もポピュラーな値は『平均値』でしょう。
ですが、平均値だけでなく、『中央値』なるものも見るようにしましょう。

まず、それらの意味の違いを簡単に説明すると次のとおりです。

平均値とは・・・データをすべて足して、そのデータの個数で割った値。

中央値とは・・・データをすべて昇順/降順で並べて、その真ん中の順番にくる値。

簡単な例で示すとこんな感じです。

f:id:vekitomo-0:20160815230329j:plain:w150

7個のデータが1から20の値に分散されています。これらの平均値は、『6.4』で、順番的に真ん中にくる中央値は『4』です。
6.4と4では、全然違いますよね。

これを見ての通り、平均値は異常値に引きづられてしまいます。逆に中央値だけでは、異常値の存在が分かりません。

では、どうすればよいでしょうか?いつ、どちらを使えばいいのでしょうか?

私のおすすめは、

  • 最大値
  • 平均値
  • 中央値
  • 最小値

をすべて並べる、です。

その結果がこんな感じです。

f:id:vekitomo-0:20160816124345j:plain:w150

こうすると、なんとなくデータのバラツキも雰囲気を捉えられます。

標準偏差や最頻値という分析もありますが、まずはこの4つを並べるだけでも捉えようとしているデータの実態の雰囲気をつかむことができます。

私のブログの更新頻度を例にやってみましょう。
前回記事で、ちょうど200個目の記事でした。その200個の記事と記事の更新間隔日数を分析対象とします。
1日に2個更新すると更新間隔日数は『0』で、次の日に更新すると『1』とカウントします。

その結果がこちらです。

f:id:vekitomo-0:20160815231547j:plain:w150

この結果によると、平均1.8日に1回ブログを更新していることになります。ただし、最大で9日の間隔が空いていることがわかります。
中央値としては1日です、半分以上のブログは1日おき以下で更新していることが読み取れます。

どちらにもそれぞれの意味がある数字です。どっちを使うべきかを考えるよりは、4つの値を並べて全体感を押さえるのが良いと思います。

f:id:vekitomo-0:20160815232044j:plain:w250