「基本統計量」機能でデータの特徴を把握する
今回は、前回の分析コラムにもちらっと紹介したデータ分析ツールを使った
「基本統計量」の機能を紹介したいと思います。
この機能を使うことで、データの特徴をおおまかに把握することが可能です。
また、前回のコラムはこちらです。(平均)
基本統計量の結果を出力
- EXCELを開き、「データ」タブを選択、データ分析ツールをクリック
- 「基本統計量」を選択して「OK」をクリック
- 入力範囲でデータを選択し、「統計情報」にチェックを入れ「OK」ボタンをクリック
- 下記のように集計結果が表示されます。
平均、中央値、最頻値
この3つの値は代表値と呼ばれ、データの特徴や傾向を表す値になります。
データのことを大まかに把握したい場合によく見られます。
・平均値
データを平らに均した値のことです。
すべてのデータの合計をデータの個数で割ることで求めることができます。
・中央値(メジアン)
データを小さい順に並べたときに真ん中にくる値のことです。
データの数が偶数個の場合は、真ん中に来る2つの値の平均を取ります。
・最頻値(モード)
最も多く出現する値のことです。
標準偏差と分散
この2つの値はどちらも、データの散らばりを表す値です。
標準偏差を2乗すると分散になります。
専門書などでは分散の方がよく使われていますが、データの散らばりを把握する場合は標準偏差を見るのがわかりやすいと思われます。
尖度と歪度
この2つの値はデータを分布で表したときの状況を表す数値です。
・尖度(せんど)
データを分布にしたときに、平均付近の尖り具合を表す値です。
基準(※)よりも平均付近が尖っていれば正の値をとり、尖っていなければ負の値を取ります
・歪度(歪度)
データを分布にしたときに、平均値を中心として、左右対称かどうかを表す値です。
平均値が基準(※)よりも左側にあれば正の値をとり、右側にあれば負の値を取ります。
※基準:正規分布のこと
まとめ
今回は、データの大まかな特徴を掴むことができる「基本統計量」の機能について紹介しました。
代表値やグラフにしたときどのような形になるのかをイメージしながらデータを見ると把握しやすくなります。
次回は、歪度と尖度についてもう少し詳しく紹介したいと思います。