データ分析をする前には数値の欠損や異常がないか確認する

データ分析

品質管理の仕事をしていて、製品の重量やサイズの計測、また不具合品数の集計などを行い、データを分析することがあるだろう。データ分析の流れは、計測やデータ集め→集めたデータの入力→データの整理、分析、データの可視化、のようになる。

データをエクセルなどに入力する前に、データに関して確認すべきことがある。それは、

  • 欠損がないか
  • 異常値が含まれていないか

といった点だ。データにおかしな点や間違った点が含まれている状態で出した分析結果は、正しいものとはいえなくなってしまう。

データに欠損がないか

たとえば、製品をカットするなどで10個で1セットのものを計測をしてデータをまとめたとき、データ数が9個しかないセットがあったとする。この欠損の理由は、そのセットだけはもともと9個しかなかったか、データを取りそこなったことなどが考えられる。

対応としては、全データの平均値を入れる、または、そのセットのデータをまるまる削除する方法がある。

異常な値がないか

異常値が紛れこんでしまう大きな理由は、入力間違いだ。

たとえば、食品の重量データをエクセルに入力したあとの話で、実際は1個「100g」程度なのに、エクセルの表に「1000g」の値が含まれていたとする。

これは、100と入力するつもりが、0をもう一つ足してしまったわけであるが、「普通ではありえない値」や「想定していない値」がないか確認しよう。こういった数値が紛れていて、気が付かないまま平均値を算出したら、実際よりもかなり大きな値になってしまう。

異常値の確認方法は、データ一覧の最小値、最大値を調べるとよい。エクセルであれ、統計ソフトであれ、最少値・最大値は簡単に算出できる。その値が計測をした製品としてはあり得ないような小さな数値、逆に大きな数値であったら、入力間違いをした可能性がある。

損や異常の確認とその処理をし、データをクリーニングしてから、分析を開始しよう。

コメント

タイトルとURLをコピーしました