母集団と標本、誤差を少なくするサンプリングについて

データ分析

食品会社で、製品の規格値を調べたり、開発品の出来栄えを確認したりするときには、データをとる。つくった製品すべてのデータをとることができればよいが、その数量が多いと、途方もない時間と労力がかかってしまい、実行することが現実的に難しい。そのようなときには、標本抽出、また別名でサンプリングと呼ばれるものが活用される。

サンプリングとは母集団から一部分を抜き取ること

たとえば、製品を10,000個製造したとしよう。この製品の平均重量について完全な答えを知りたいときには、10,000個すべてを計測して平均重量を計算するしかない。しかし、10,000個を計測するには、相当な時間と労力がかかるので現実的ではない。

そのため、10,000個すべてを計測するのではなく、計測作業の労力を受け入れられるレベル、たとえば数百程度だけを計測する。全体の中から一部を取り出して重さをはかることになる。

では、500個の製品の重量をはかったとしよう。その結果わかることは、500個分の重量データである。500個の平均重量を計算することができる。しかし厳密にいえば、私たちが知りたいのは500個の平均重量ではなく、10,000個の平均重量だ。そのため、一部分である500個から、調査対象全体である10,000個の平均値を推定することになる。500個の平均値と10,000個の平均値には誤差があっても、かなり近い数値にはなるはずだ、考えて。

この調査対象全体のことを母集団といい、そこから選びだした一部分を標本あるいはサンプルといい、母集団から標本を取りだすことを標本抽出、サンプリングという。

アンケート調査、テレビの視聴率や世論調査などの社会調査においても、サンプリングが活用されている。調査対象全体を調べることが不可能であるか、可能であったとしても莫大な費用、時間がかかってしまう場合は、一部分だけを調べて、その一部分の特性値(平均値や割合%など)を計算する。

その一部分の特性値は、全体の母集団の特性値に同じではなくても、非常に近い数値であるはずだと考えられる。

ただ、実際にはサンプルの特性値と母集団の特性値がまったく同じになることはまず無い。あくまでも推定なので、必ず誤差がつきまとう。さらに、サンプルの数が少なかったり、サンプルの取り方に問題があると誤差が大きくなってしまう。

サンプルデータの偏りと誤差

サンプルデータには誤差が出ると書いた。10,000個の製品の平均重量を出すときのことをさらに考えてみよう。

手元にある製品10個だけ重さをはかることにしたらどうだろう。サンプル数が10個と少ないので、 たまたま重量の大きな製品ばかりを選んでしまう、逆に小さな製品ばかりを選んでしまう可能性が大きくなる。仮に、重量の大きい製品を10個選んでしまったとしよう。すると計算した平均重量は、調査対象全体である10,000個の平均重量よりも大きな数値になってしまう。10個ていどのサンプル数だときっと誤差が大きいだろうと推測される。

完全な平均重量の数値を得るには、10,000個の製品を計測するしかない。しかし、それはとても大変だからしたくないし、計測する時間が無い。とはいえ、少なくとも、もっと重量を計測する製品の数を増やしたり、大きい製品も小さな製品も選ぶようにしないといけない。

できれば計測する製品数を少なくして、かつ誤差も小さくしたいのだが、そのためにはどうしたらいいだろうか。

誤差を小さくするために

サンプルと母集団の特性値の誤差を小さくするためには、

  • 適切なサンプリングをしたうえで、
  • サンプル数を増加させる

必要がある。

適切なサンプリング方法を選ばないと誤差が拡大しやすくなるし、誤差はどのていどになるか確率論で計算ができるのだが、これができなくなる。一番わかりやすいのはランダムサンプリングと呼ばれる方法だ。これは、文字通りランダムに調査対象を選びだすサンプリングで、意図を持たずに無作為にサンプルを取るものである。

そして、サンプル数を増やせば増やすほど誤差は減っていく。

これらは、そのやり方を知らないひとでも自然と行っていることではあると思う。10,000個の製品の中からサンプルを選ぶときには、製造順でみて一番最初につくられたの50個だけを選んだりせず、最初、途中部分、最後の部分から製品をバラバラに選んで合計50個とするだろう。また、10個だと少ないけど、50個くらい計測すれば大丈夫かな、などと考えて実践しているはずだ。

しかし、これだと適切なサンプリングかわからないし、なんとなく50個くらい計測すればいいかなとは思うもののその根拠は無い。なんとなくの感覚で決めることになってしまうし、50個で計測した平均重量が、10,000個の平均重量とどれだけの誤差が発生しそうかもわからない。

どうすればいいだろうか。

統計学を活用する

じつは、このような問題を解決できる方法がある。統計学を活用するのだ。そもそもサンプリングというのは、統計学の中で学ぶひとつの項目ではある。

サンプリング方法については、ランダムサンプリングを選ぶのがもっともよい選択であることが多いが、かなりの手間がかかる。サンプルの偏りが同等に少ないが手間はかからなくなる多段サンプリングとよばれる方法を選ぶのがよいだろう。

サンプリング方法の種類を参考にしていただきたい。

サンプル数をどれだけ増やせばいいのかという問題も統計学が解決してくれる。事前に許容できる誤差を決め、必要なサンプル数を計算することができるのだ。(ただし、その製品を過去にサンプルでも計測していて標準偏差がわかっていること、あるいは予測ができてあるていどの標準偏差がわかっていなくてはならないが。)

それはこういうことだ。10,000個の製品の平均重量がある(実際この数値は10,000個をはからないとわからない数値、神のみぞしる数値である)。サンプルで計算する平均重量がその本当の平均重量の±0.5gで収まっていれば、まあいいかなと考えたとき、「サンプルの平均値が、10,000個の平均重量の±0.5gに収まるようにするには、○○個のサンプルを計測すべし」という必要サンプル数を計算することができる。

統計学を活用すると、必要最小限の労力で必要なデータが得られるようになる。これがサンプリングの肝である。その計算方法についてはまたの機会に別の記事で紹介したい。

コメント

  1. […] 母集団と標本の誤差を少なくするサンプリング方法 […]

タイトルとURLをコピーしました