その平均値、ホントに「平均っぽい」ですか?
- 2018/1/1
- 診断士の視点
中小企業診断士 金澤 良晃
はじめに
新年あけましておめでとうございます。本年も皆さまにとって実り多き年になりますことを心よりお祈り申し上げます。
さて今年初めての診断士の視点ですが、「平均」について考えてみたいと思います。といっても高度な数式は使わず、極力平易な言葉とグラフで説明してみたいと思います。数学嫌いの方でも最後までお読みいただけることを目標に、分かりやすく書いてみたいと思います。
平均自体は簡単に計算できる
平均という言葉は、小学5年生から習い始めるようです。「全ての数値データを合計した後に、データの個数で割る」だけですので、計算自体は難しくありません。
例えば、3、5、10の平均値は、(3+5+10)÷3 = 6 といった具合です。データが沢山ある場合は、ExcelのAVERAGE関数を使えば、簡単かつ短時間で平均値を求められます。
このように平均の計算はとても楽に行えるため、様々なシーンで使われています。例えばビジネスシーンでは、「①先月の平均客単価は、5477円だった。」、「②X社の社員の平均年齢は43.2歳だそうだ」などです。
「平均っぽくない平均値」もある
気軽に使える平均ですが、実は気をつけなければならないことがあるのはご存知でしょうか。それを知らないと、平均値を出したのに「あれ?なんだか平均っぽくないぞ・・」といった現象を生み出すことになります。
たとえば「①平均客単価が5477円と出てるのに、個別データを見たら2000円台~4000円台の顧客ばかりだ・・なぜ?」とか、「②X社社員の平均年齢が43.2歳と聞いたのに、実際に訪問してみたら40歳代の人が見当たらない・・どうして?」といったことが起こりえるのです。
そのカラクリを説明します。
①のケースは、ほとんどの顧客が2000円台~4000円台の買い物をし、一部の超優良顧客が何万円も高額な買い物した場合に起こります。このように他のデータよりも大きく外れている値を「外れ値」といいます。グラフにすると分かりやすくなります。横軸を客単価、縦軸を顧客の人数とするグラフを描くと、図 1のようになります。ちなみにこのようなグラフを「ヒストグラム」といいます。ヒストグラムを見ると、平均単価5320円の所に殆ど顧客がいないことが分かります。つまりこうした極端な外れ値がある場合、平均値を算出してもいわゆる「平均っぽさ」を感じることはできないのです。
図 1:顧客単価のヒストグラム(全データ)
ではこのような外れ値があるデータを扱う場合は、どうしたら良いでしょうか。幾つか方法があるのですが、一つの方法として外れ値を除外して平均を求めることがあります。ここでは10000円以上のデータは除外して図 2のようにヒストグラムを作り直し、平均値を求めてみます。平均単価は3042円となり、ヒストグラムと照らし合わせて「平均っぽさ」を感じられるものになりました。
あるいは平均値ではなく、中央値という指標を使うことも有効です。中央値とは、データを小さい順に並べた時に中央に位置する値のことです。例えば1、2、3、4、100の平均値は22ですが、中央値であれば3になります。顧客単価の例では、3148円となり1万円未満だけで計算した平均値と近い値になりました。なおExcelで中央値を求める場合は、MEDIAN関数を使います。
図 2:顧客単価のヒストグラム(1万円未満のみ)
②のケースは、X社社員の約半数が10~20歳代、そして残りの半数が50~60歳代といった二極化構成の場合に起こります。こちらも同様にヒストグラムにするとよく分かります(図 3)。これを見れば、ひと目で40歳代の社員が見当たらない理由がわかります。
なお、図 3のように2つの山がある場合、「双峰性がある」といいます。3つ以上は「多峰性」といったりします。こうした双峰性・多峰性のあるデータの場合、平均値を求めても、いわゆる「平均っぽさ」はなかなか感じ取ることはできません。
図 3:X社社員の年齢のヒストグラム
そもそも「平均」とは何か?
先ほどから何度か「平均っぽさ」という言葉を使いましたが、そもそも「平均」や「平均っぽさ」とは何でしょうか?人によっては「一般的な」「普通の」「標準的な」などのイメージを持たれる方も少なくないでしょう。しかし、実は平均にはそのような意味はありません。単に「全ての値を足して、個数で割る」という計算方法を表す言葉であり、それ以上の意味はないのです。
そうはいっても、時には「一般的な」「普通の」「標準的な」といった意味を感じるケースがあるのも事実です。実は、それには3つの前提条件が必要となります。その条件とは、(1)極度な外れ値がなく、(2)多峰性ではなく、(3)山の形が概ね左右対称であることです。
例えば図 4のような場合です。この例は、あるパン工場が食パン(1斤)を300個作り、それらの重量を計ってヒストグラムにしたものです。山のてっぺん付近に平均値があるため、これなら平均を「一般的な」「普通の」「標準的な」などのイメージで捉えても問題なさそうです。
図 4:食パン(1斤)の重量のヒストグラム
バラツキの違いにも注意する
平均を使う時、3つの前提条件があることはご理解いただけたと思います。この条件をクリアできたら、次に平均値を求めるわけですが、ここでもう一つ大事なことがあります。それは、データのバラツキ度合いを考えることです。ヒストグラムを使ってもっと平易な言葉に言い換えれば、「なだらかな山か、それとも急な山か(勾配)」を考えましょうということです。
例を示します。図 5は、A工場とB工場で同じ食パンを作り、各工場で重量を計ってヒストグラムにしたものです。どちらのヒストグラムも外れ値がなく、左右対称的な山が1つあります。平均値はA工場が399.7g、B工場が400.3gであり、どちらもほぼ400gと言って良さそうです。しかし、山の勾配は大きく異なります。A工場は山の勾配が緩やかであるのに対し、B工場は勾配は急です。勾配が緩やかであれば裾野が広がるため、バラツキが大きいともいえます。よってB工場の方がバラツキが小さい生産ができており、逆にA工場は、バラツキが大きい問題を抱えていることが分かります。
図 5:工場別の食パン重量のヒストグラム
まとめ
今回は「平均とは何か?」「どう使えば良いのか?」について考えてみました。以下にポイントをまとめておきます。
平均値を使う前提条件 | ヒストグラムを作り、以下を確認すること
|
---|---|
平均値と一緒に確認すること | データのバラツキ度合い(山の勾配)の比較 |
日ごろ何気なく使っている「平均」を、より多くの方が効果的に使えるようになって頂けることを望みます。
末筆ですが、来る1月25日(木)18:30~20:30、川崎市産業振興会館において「顧客アンケートはこう使う 自社の強み・重点課題の発見!」というテーマでセミナーを行います。アンケート分析においても平均計算はよく使います。ご興味をお持ちの方は、こちらのセミナー案内もご覧いただければ幸いです。