不偏分散を図でわかりやすく解説【(n-1)で割る理由】

不偏分散を図でわかりやすく解説【(n-1)で割る理由】

今日は、不偏分散について、解説をします。分散を求める際に、偏差の二乗の平均値を、『n-1』で割って求めることが多いと思います。何気なく『n-1』で割っていますが、その理由は何なのかについて、知っていますか?今日は、その謎に迫っていきたいと思います。

 

目次

1.不偏分散とは

2.標本数と不偏分散の関係性

 

気づき村

不偏分散を図でわかりやすく解説【(n-1)で割る理由】

1.不偏分散とは

一般的に分散は以下の式で求めます。

 

$$分散=\frac{各データの『平均からの偏差^2』の合計}{データ数}$$

 

しかし、不偏分散というものは、以下の式で算出します。

 

$$不偏分散=\frac{各データの『平均からの偏差^2』の合計}{データ数-1}$$

 

2つの式の違いは、分母が『データ数』なのか『データ数-1』なのかです。

※一般的には、このデータ数を『n』と表記します。

 

上記の2つの式の違いを説明するために、具体例を挙げます。

まず、何かの分散を求める際、全てのデータを集めることはなかなかできません。

例えば、全国に住む人々全員(母集団という)の身長のばらつき度合い(分散)を調べたいとします。

しかし、全員の身長を計測するのは、多大な労力がかかってしまうため、例えば『何百人』や『何千人』か(標本という)に協力を仰いで、それらの人々の身長と、その分散を測定することで、代替します。

 

さて、分散を求める際には、まず平均身長を求めなければいけませんが、当然『母集団平均』と『標本平均』は異なります。

なぜなら『母集団』と『標本』は一緒じゃないからです。

『母集団平均』が本来の正しい数値で、それがわからないから、代替的に『標本平均』を使うことになります。

ここで、表①の母集団と標本を想定します。

表①

不偏分散とは

 

これらのデータの分散を求める時の偏差は図①のように、表すことができます。

まず、記号の意味ですが『μ(ミュー)』は母集団、『X』は標本、記号の上の『バー』は平均を示しています。

そして、図形の意味ですが、緑の横線は『母集団平均』、オレンジの横線は『標本平均』、黒の矢印は『母集団平均からの偏差』、赤の矢印は『標本平均からの偏差』を示しています。

又、図の一番右側のあたりに、『標本平均と母集団平均の差』を図示しています。

図①

 

この例では、『標本平均からの偏差』の絶対値が『母集団平均からの偏差』の絶対値に対して、X=3やX=4の時は『1.43』だけ、大きく算出されています。

反対に、赤の四角形で囲っている部分、具体的には、X=7の時は『0.57』だけ、X=8~11の時は『1.43』だけ、小さく算出されています。

 

ちなみに、『標本平均からの偏差』の方が小さく算出されるのは、Xの値が『標本平均』(オレンジの横線)と『母集団平均』(緑の横線)の丁度真ん中より『上』にある場合です。

そして、この例では『標本平均』が『母集団平均』より高いため、標本が基本的に上方へ偏っており、Xの値が『標本平均』(オレンジの横線)と『母集団平均』(緑の横線)の丁度真ん中より『』になる場合が多発します。

その結果、小さく算出される偏差の方が、大きく算出される偏差より、多くなります。

※反対に『標本平均』が『母集団平均』より低い場合、『標本平均からの偏差』が小さく算出されるのは、Xの値が『標本平均』(オレンジの横線)と『母集団平均』(緑の横線)の丁度真ん中より『』にある場合です。

 

ここまでをまとめると、「『標本平均からの偏差』は『標本平均』と『母集団平均』の差である『1.43』より小さい値分、低く算出される」ということです。

この問題を解決するために、分散を求める際に、『n』ではなく『n-1』で割ることで、小さく算出される分散を上方修正しているのです。

そして、その上方修正された分散のことを『不偏分散』というわけです。

 

尚、母集団全てのデータを使って、分散を算出する場合は、母集団平均と標本平均が等しいため、『n-1』ではなく『n』で割らなければならないことに、注意しなければいけません。

 

2.標本数と不偏分散の関係性

さて、ここで問題なのは、「標本数が増えれば増えるほど、『標本平均』と『母集団平均』の差は縮まっていく確率が高いです。

そのため『n-1』で割ることは、この問題を解決できるのかを確認しておきます。

 

ここでは、具体例として、表②と、それをグラフ化した図②をもとに考察します。

まず、ある分数を想定します。

この分数の分子を100と仮定します。

以下の表では、100という数値を、①『標本数』を増やしながら、割っていっており、その答えを②『100÷①』の列に示しています。

次に、100という数値を、③『標本数-1』を増やしながら、割っていっており、その答えを④『100÷③』の列に示しています。

⑤は『④-②』をした結果です。

 

そして、①と⑤をグラフ化したものが、図②です。

図②からわかる通り、標本数を増やせば、『n-1』で割ることによる、分散の上方修正の度合いは逓減していきます。

 

このことから、「標本数が増えれば増えるほど『標本平均』と『母集団平均』の差は縮まっていく」という問題に対して、『n-1』で割ることで、その上方修正の度合いを減らしていきながら、対処できることがわかります。

表②

標本数と不偏分散の関係性

図②

標本数と不偏分散の関係性

 

いかがでしたでしょうか。

普段、何気なく使っている分散には、2種類あり、その時々の状況によって、正しく使い分けなければいけないということです。

是非、適切に使い分けて、各種分析に役立てていきましょう。

 

尚、本記事では、(n-1)で割ることで、本当に母集団の分散に近い値へ修正できるのかについての証明は、考察しません。

日常的な分析において、その大まかな概念を抑えておくことだけで、十分だからです。

基本的な考え方や概念をマスターしておきましょう。

 

本ブログでは、統計学についての解説を以下のリンクにて、行っております。

是非、ご確認下さい。

『統計学:https://kidukimura.com/category/statistics/

 

『本日の気づき』

・母集団の分散より、標本の分散の方が小さな値になる傾向があるため、上方修正した分散のことを『不偏分散』という

・上方修正する方法として、『n』ではなく『n-1』で割ることで、標本数に合わせて、適切に上方修正することができる

 

気づき村


コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です