標本とは？

標本抽出（Sampling）とは、母集団と標本のあいだにある関係を説明するためのものです。例えばアメリカ国民全体を対象に、何か調査をするのは難しいですが、その中から、1000人だけを選んでアンケートを実施することは可能です。これが、母集団と標本の関係です。

標本抽出については、いろいろと興味深いことが沢山あります。たとえば、2つの標本の平均が違うとき、それが偶然なのか、統計的に有意な差なのか、こういった疑問に統計学は一定の答えを与えてくれますが、それはまた、別のレクチャーに回すとしましょう。

無作為抽出と乱数¶

標本は、母集団の性質を引き継いでいる必要があります。これを実現する最も基本的な方法に、無作為抽出（random sampling）という方法があります。これは、母集団から等確率にサンプルを抽出する方法です。箱に入ったいくつかのボールなど、実体があれば良いですが、コンピュータを使って仮想的に行う場合は、乱数が必要になります。コンピュータは、本当にランダムな数字を生成することは出来ませんので、ランダムに見える数字を作る必要があります。これは疑似乱数と呼ばれ、様々な方法論がありますが、Pythonをはじめ多くの現代的なライブラリでは、メルセンヌ・ツイスタ法（Mersenne Twister）が使われています。

復元抽出と非復元抽出¶

非復元抽出（sampling without replacement）は、抽出したらそれを母集団にもどしません。これはつまり、有限な標本を意味します。一方、復元抽出（sampling with replacement）は、抽出したものを母集団に戻すイメージなので、無限です。たとえば、コイントスを考えます。裏か表がでますが、やり続ける限り、それに応じて大きな標本を得ることができます。

標本分布の平均¶

Np個の母集団から、N個のサンプルを抽出したとします。ここで、Np>N です。このとき、N個の値の平均値という新しい確率変数xを考えます。このxの平均と、標準偏差は、母集団の平均と標準偏差を使って、次のように書くことができます。

平均: $$\mu_x=\mu$$

標準偏差: $$\sigma_x= \frac{\sigma}{\sqrt{N}}$$

これは、標本の統計量から、母集団の統計量を推し量ることができることを意味します。Nを大きくすればするほど、xの分散は小さくなるので、正確な平均値を知ることが出来るわけです。

比率の標本分布¶

成功確率p（失敗はq=1-p）で表現される母集団からの標本を考えます。確率pで1が、確率qで0が返ってくると考えると分かり易いかも知れません。N個のサンプルの平均という新しい確率変数を考えると、この平均と標準偏差は、次のように書くことができます。

平均: $$\mu_p=p$$

標準偏差: $$\sigma_p=\sqrt{\frac{pq}{N}}=\sqrt{\frac{p(1-p)}{N}}$$

標本の差と和¶

正規分布に従う2つの母集団 N1とN2があるとします。これらの母集団からの標本について、その差と和を考えて見ます。 S1をN1の統計量、S2をN2の統計量とすると、次の関係が成り立ちます。

差の統計量については、

平均: $$\mu_{S1-S2}=\mu_{S1}-\mu_{S2}$$

標準偏差: $$ \sigma_{S1-S2}=\sqrt{{\sigma^2}_{S1}+{\sigma^2}_{S2}}$$

和の統計量については、

平均: $$\mu_{S1+S2}=\mu_{S1}+\mu_{S2}$$

標準偏差: $$ \sigma_{S1+S2}=\sqrt{{\sigma^2}_{S1}+{\sigma^2}_{S2}}$$

平均は分かり易いですが、標準偏差はどちらもおなじく、増大していることに注意してください。