ヒストグラムの作り方(QC7つ道具)

  • このエントリーをはてなブックマークに追加
  • Pocket

データの値の範囲をいくつかに区切り、その区切った中に含まれるデータの数をまとめた表が度数分布表で、その度数分布表を柱状図として表わしたものが、ヒストグラムだ。

ヒストグラムの作り方

食品の製品重量を計測し、120個の重量データが得られたとしよう。

109、109、111、105、102、 107、107、110、114、112、109、105、118、108、109、110、 105、115、113、113、111、122、111、116、109、110、111、107、 97、104、110、111、110、118、116、104、116、107、118、112、 112、112、112、117、111、114、112、108、 102、112、116、113、108、115、118、116、114、116、104、119、117、105、112、107、109、118、119、112、107、109、115、111、111、121、114、・・・・・・・・・・

※単位: g

・・・集まったデータは単なる数字の羅列である。これだけデータの数が多くなってくると、そのまま見ているだけでは、なにがどうなっているのか、さっぱりわからない。

これらのデータがどのような分布をしているのか確認するために、ヒストグラムを作成してみることにしよう。

まずデータを度数分布表にまとめる。食品の重量などであれば、ヒストグラムの区間の(柱)は10個前後がよい。データを分類するための区画をそれぞれ「階級」といい、~102の階級、~105の階級それぞれのデータがあてはまる階級にカウントしていく。

☆ヒストグラムの用語の説明

ヒストグラムは、横軸に測定値、縦軸に区間の度数の柱を立てた柱状図だ。

histogram-43-1

区間の数を10にしたいのであれば、

データの範囲 ÷ 区間の数 10 = 区間の幅

で、区間の幅を何gにしたらよいか計算できる。上記のデータは、最大値が124、最小値が96で、その範囲は28だ。区間の数を10にするには、

データの範囲 28 ÷ 区間の数 10 = 2.8

となるので、四捨五入して区画の幅を3として、度数分布表を作成した。「99~102」とは「99以上~102未満」のことだ。

区間の境界値 度数
~99 3
99~102 5
102~105 13
105~108 31
108~111 46
111~114 54
114~117 47
117~120 29
120~123 7
123~ 5

単位:g

この度数分布表をそのままグラフにすればよい。

histogram-43-2

ヒストグラムの区間(柱)の数

ヒストグラム区間(柱)の数、つまり階級は10前後がいいと書いた。その理由は、階級の数が少なくすればするほど、 ヒストグラム自体はすっきりするのだが、ヒストグラムから読み取れる情報が減ってしまうからだ。

逆に、階級の数を多すればするほど、並んだ柱が歯抜け状態になってしまい、ヒストグラム全体の形がわかりづらくなってしまうのだ。

☆階級の数を5つにしてみる

図太い形のヒストグラムになってしまい、データの詳細がまったくわからない。

histogram-43-3

☆区画の幅を1gにして階級数を28にしてみる

歯抜け型になってしまい、分布の形が読み取りづらくなってしまいました。

histogram-43-4

ただし、階級が多くあっても、データ数をもっと増やしていくと、歯抜けもなくなり、しっかりとした山型の分布が得られるようになる。240個の製品を計測すると、下図のようになる。多少ガタガタはしていますが、歯抜けが減少して山の形が見えてきました。

☆240個計測してみた

histogram-43-5

480個の製品を計測してヒストグラムにまとめると、無事に歯抜けの無いきれいな山型になった。区画の幅を小さくしすぎると、こうなる。

※480個計測してみた

histogram-43-6

  • このエントリーをはてなブックマークに追加
  • Pocket

SNSでもご購読できます。



コメントを残す

*