製造した食品の品質を調べるために、つくった製品全体からいくつかの製品を抜き取り、データをとることがある。この方法は様々にある。
サンプリングとは
駄菓子の製造会社だ。この会社の開発担当者はいま、新しい商品を開発中だ。製造現場の製造ラインをつかって新商品で1000個の製品をつくった。
製品の品質をチェックしたいのだか、1000個もの製品をすべて見るには途方もない時間がかかってしまう。1000個の中から50個を選んで、チェックしてみることにした。
このとき、1000個の製品は調査対象全体だ。これを母集団という。実際に調査をする50個のデータをサンプル(標本)といい、サンプルを選ぶことがサンプリング(標本抽出)である。
実際には50個のデータのみの結果から、1000個全体の情報を推定することになる。
サンプリングの方法
1000個の完全に正しい情報を得たいのであれば、1000個をすべてのデータをとってみるしかない。これが、まったくもって正しい値だ。しかし、1000個すべてを見なくても、
適切なサンプル数で
適切なサンプリング方法
をすれば、高い精度で正しい値を推定することができる。この記事では、サンプリング方法について取り上げたい。
適切なサンプリング方法ではなく、間違った方法でサンプリングした場合は、どうなるか?
誤差が大きくなる可能性がある。
たとえば、1000個から50個をサンプリングするときに、最初に製造した50個を選ぶと、製造の開始直後は工程が安定しないことが多いので、偏ったサンプリングになってしまうかもしれない。
1000個のなかから、製造順で見て偏りなく選んだほうがよいだろう。
サンプリングをする際は、調査対象や目的にもっとも適したサンプリング方法を用いる。また、サンプルの量を減らして作業の軽減し、かつ誤差を小さくし精度を高めるようにしたいものだ。
そのために、どのようなサンプリング方法があるのか見ていきたい。
まず、数学的にもっとも精度が高いと言われている無作為抽出法から紹介する。
単純ランダムサンプリング(無作為サンプリング)
まず、数学的にもっとも精度が高いと言われている無作為抽出法から紹介する。
サンプリングをする人の意思に影響されず、無作為に標本を選ぶ方法が、単純ランダムサンプリングだ。
1000個の製品からランダムサンプリングで50個を選び出す
1000個の製品の調査するときに、1000個すべてを調査をするのは、大変骨が折れる作業だ。もちろん1000個すべてを調査をすれば、完全に正確な結果を得ることができるが、そんなに時間や労力をかけたくないので、50個だけを調査をすることを決めた。
ひとの作為が入り込まないようにして選ぶためには、人が操作することができない偶然によって選び出さないといけない。何が選ばれるのかは天に任せるのだ。
例えばこんなようにする。
製造をした順に1から1000の番号を振る。あるいは振らなくても、順番がわかればよい。1から1000番までの番号を書いたクジを作りよく混ぜ合わせた後に、クジを50個引く。クジに書かれた番号の製品を、選び出して調査対象とする。
あるいは、クジではなく、乱数表を使ってもよい。10の目があるサイコロを振って、1回目に出た目の数を1~2桁目、2回目に出たものを3~4桁目の数字として、その番号の製品を調査する。
ひとの意思が入り込まず、1から1000の数字は何が出てくるかはわからず、かつ1から1000の数字が出る確率が等しいようにする。
※乱数表の手に入れ方
乱数表は、統計学の本には付録として記載があるし、インターネットで見つけることもできる。
また、エクセルの関数、「RAND()」で乱数を作り出すことができる。エクセルなどのコンピューターで作り出した乱数は、完全なる乱数とは言えないため、疑似乱数と呼ばれる。使用にあたってはとくに問題ない。
通常、サンプリングで選び出そうというときには、ここまで厳密なランダムサンプリングは行わなくても、でたらめに選んでいけば、ほぼランダムサンプリングに近くはなるだろう。
多段サンプリング
段階を踏んで複数回ランダムサンプリングを行う方法が、多段サンプリングだ。まず、母集団をいくつかの部分に分け、その部分をランダムに選び出し、その部分からさらにランダムサンプリングを行う方法だ。
ここに、ミカンが好きで、毎年冬前になると、ミカン何箱も買いだめするミカン好き家族がいる。
今年、買い入れたミカンは10箱。1箱には100個のミカンが入っていて、100×10で、1000個のミカンを買い入れたことになる。 品質にこだわるこの家族は、ミカンの品質チェックをして、品質の悪いミカンがあったら、ちゃんとしたミカンに交換をしてもらおうと考えました。
最初のステップとして、ランダムにミカン箱を5つ選ぶ。
次のステップとして、選び出されたミカン箱の中から、ランダムに10個ずづ選び出してチェックする。
こうすることで、第一ステップで選んだ5つのミカン箱だけ調べればよいことになり、選ばれなかった残りの5つのミカン箱はチェックする必要がなくなる。ランダムサンプリングと比較して、労力が軽減される。
ただ、この方法は、厳密なランダムサンプリングとは言えない。選んだ5つのミカン箱にたまたま新鮮なミカンばかりが入っていたり、逆に腐りかけたミカンばかりが多く入っている可能性がある場合には、多段サンプリングは使えない。
二段ステップでサンプルを選び出す方法を二段サンプリング、三段ステップであれば、三段サンプリングということになる。
層別サンプリング
母集団をいくつかの層に分けて、その中からランダムサンプリングする方法だ。
母集団の中に構成の違いがある場合には、抜き取ったサンプルが、母集団全体の構成を必ずしも上手く表せられない場合がある。
無作為に選んだとすると、どのサンプルも選び出される確率は同じだが、結果として偶然偏ったサンプルになってしまうこともありえるためだ。サンプルの数が少なければ少ないほど、それは起こりやすくなる。
このような偏りがでないようにするために、母集団の構成を見て、いくつかの属性によってグループ分けし、その中からランダムにサンプリングを方法がある。この属性のことを層といい、各層ごとにランダムサンプリングするこの方法を層別サンプリングというのだ。
1000個の製品を、順番に5人が200個ずつ製造した。5人の能力には差があり、製品の品質にも差が出てくる。
このときに、ランダムサンプリングをすると、能力の高い作業者の製品を多く選び、能力の低い作業者の製品を少なく選んでしまうこともあるだろう(適切な数のサンプルをとればその確率は小さいのだが、ゼロではない)。
集落サンプリング
第一段階として母集団をいくつかの部分に分け、その部分をランダムに選ぶ。その後、選んだ部分を全て調査対象とする方法だ。段階を分けるところは、多段サンプリングと似ている。
上記したミカン好きな家族が買い入れたミカン10箱の話だ。1箱には100個のミカンが入っている。
10箱分のすべてをチェックするのは大変だから、多段サンプリングとは違う方法でミカンをチェックすることにした。 10箱のうち3箱を選び、その中のみかんをひとつずつすべてチェックを行い、品質には問題はないこと確認をした。
これが集団サンプリング方法だ。 全数が1000個あるうち、箱でみると10のグループに分かれています。そこから3グループを選んで、そのすべてをチェックしたわけだ。
系統サンプリング
一定の間隔でサンプルをとることで、生産順で並んでいる製品のサンプリングなどに使われる。
食品の製造会社で、コンベア上を製品が流れているとする。順次流れているところで、製品100個ごとに1個を抜き取って検査をする。
生徒数1000人の学校での調査があるとする。学生番号は、1から1000だ。
学生1000人から100人を選んでアンケート調査をするときに、最初は1桁の数字をランダムに選ぶ。5を選んだとしたら、 次は15番の人、その次は25番の人、と10番ごとにずらした番号の人をサンプリングしていき、合計100人を選び出す。
といったように、一定の間隔で選び出すのが、系統サンプリングだ。
系統サンプリングのメリットは、発生させる乱数が最初のひとつだけでよい点だ。母集団において、 隣り合わせなど近い順番のサンプルが選ばれることがなくなる。
注意すべき点は、母集団が生み出すデータに周期性があるときには、その周期性とサンプルを抜き取る周期が一緒になると、サンプルに偏りが生まれてしまう点だ。そのときには、データが持っている周期性と一致しないように、サンプリングの周期を変更していくのが望ましい。
コメント
[…] サンプリング方法の種類を参考にしていただきたい。 […]
[…] サンプリング方法の種類 […]