標本数より代表性が重要だ

ある所で雑談をしていた時に、標本抽出に関して基本を誤解している人がいたので少し解説した。その時のことを少しエピソードを交えてblogに書いてみよう。

フジテレビの「トリビアの泉」という番組の中に「トリビアの種」というコーナーがある。そこではたとえば「日本の理髪店に置かれている漫画で一番多いのは○○である」というようなことを調べて「トリビア(面白いけど無駄な知識)」として紹介する。その場合には実際に全国の理髪店に行ってどんな漫画があるのかを調べてランキングを作ってトリビアを決定するのだが、全国のすべての理髪店を調べるわけには行かないので一部を取り上げて全体を推定することになる(統計学の出番だ!)。

そのため、いつもそのコーナーでは「何々大学の統計学の先生」というのが登場して「全国の理髪店からおよそ2000店を調べれば信頼性がおけます」などと解説するのだ。僕はそういった場面を見るたびに心の中で叫びたくなる。「先生、おっしゃるとおりで正しいです。でも、フジテレビの人たちは先生の言葉を正しくは理解していませんよ!」

少し統計学の用語を解説しよう。「日本全国のすべて理髪店に置かれた漫画の全部」を考えよう。この「漫画の全部」のことを統計学では「母集団」という。もちろん、この漫画の全部を調べることは不可能ではない。ただし、とても大変だ。お金もかかるに違いない。そのため、一部の理髪店を調べるだけで、全体がどうなっているかを知ることができれば、手間が省けてよい。その一部の理髪店を選び出す作業を「標本抽出」という。選ばれた理髪店の数を「標本数」という。

統計学では十分な標本数を調べれば(たとえば全国の理髪店で2000店を調べれば)、全体の様子を知ることができると考える。それは2000店の理髪店が全体のミニチュアのようになっていて、それを調べれば全体が推測できるということで、これは何となくそうかなという感じがする人も多いだろう。

しかし、ちょっと待って欲しい。実は標本数の前に落とし穴があるのだ。それは「一部の理髪店を選び出す作業」にある。たとえば極端な場合を考えよう。「2000店を調べればよい」というアドバイスにしたがって調べるとして、調査人たちが間違って「東京にある理髪店の2000店の漫画」を調べてしまったとしよう。

この調査結果は、「全国の理髪店にある漫画の全部」のよいミニチュアになっているだろうか?いや、そんなはずはない。「東京にある理髪店の2000店の漫画」はあくまでも東京に限った話に過ぎないのだ。たとえば、大阪の理髪店は東京の理髪店と全然違うかもしれない。

トリビアの泉」ではどうしていただろうか?番組では調査人を全国に派遣して調査していた。すばらしい!これですべて問題は解決だろうか?

いやいや、まだまだ問題は残っている。理髪店は大きな都会にも小さな町にもある。もしかしたら都会の理髪店と小さな町の理髪店は違うかもしれない。調査人はちゃんと小さな町の理髪店も調べたのだろうか?それについては番組では何も述べていなかった。それどころか大きな町でも大通りにある理髪店とちょっと裏通りにある理髪店では違うかもしれない。疑惑を述べ始めるときりがない。

では、正しくはどうするのだろうか?

統計学的に正しい方法は「無作為抽出をする」である。たとえば、全国の理髪店すべてに番号を振って、その中から無規則に店を取り出してその店を調べるのである。そして、その作業を十分な回数だけ繰り返す。無規則というのは正しくは「乱数を発生させて選択する」というのだが、重要なのは人間の都合に左右されないということである。無規則に理髪店を選択すれば、その中に大都会の理髪店も小さな町の理髪店も、大通りの店もちょっと裏通りの店も標本の中に自然に入ってくるに違いない(何々大学の統計学の先生が「2000店を調べればOKです」というとき、先生が言っているのは「無作為抽出でやれば」という暗黙の仮定があるのだ。先生にとってはあまりにも当たり前すぎて言わないだけで)。

さて、この方法はなぜ良いのだろうか?実は大きな全体を小さな一部から推測する場合、「小さな一部が妙な偏りを持たない」ことが非常に大切なのである。無規則に選び出すという作業は「偏り」を発生させないための必要なのである。偏りを持たないから小さな一部であっても大きな全体を「代表」できるというわけだ。このように小さな一部が大きな全体を代表できるという性質を「代表性」という

実は調査においては多くの場合、標本数よりも代表性の方が重要である。代表性が十分にあれば、標本数が少なくても正しい結果が出る可能性は高い。逆に標本数が多くても代表性が悪ければ、正しい結果にはならない。それにも関わらず多くの場合に見逃されている。もちろん、「トリビアの泉」はそれ自体がおふざけのようなものなので、あまり真剣に悩む必要はないのだが。