共分散を図でわかりやすく解説【視覚で学ぶ統計学】

共分散を図でわかりやすく解説【視覚で学ぶ統計学】

こんばんは。今日は、前回に引き続き統計学の指標である共分散について、図を用いながら、なるべくわかりやすく解説します。皆さん、共分散って聞いたことあるけど、それが何なのか具体的に説明することはできますか?ただ計算式を知っていても、その背後にある概念を理解しないと、間違った使い方をしてしまいます。

 

目次

1.共分散の概要

2.共分散の意味することを図でわかりやすく解説

3.共分散の欠点を補う指標に少し触れてみる

 

共分散を図でわかりやすく解説【視覚で学ぶ統計学】

1.共分散の概要

まずは概要の説明なので、さらっと読んでください。

この概要の後、図を使って、わかりやすく解説していきます。

早速ですが、言葉で説明すると、共分散は「2つのデータがある時、2つの各データの偏差を掛け合わせたものを平均した値」です。

共分散を求めることで、「ある一方のデータが上昇した時に、もう一方のデータが上昇するか下落するかどうか」を判別することができます。

 

なんのこっちゃ分からないので、具体例を挙げて説明していきます。

例えば、以下のように、5人の身長のデータと体重のデータがあり、身長の平均からの偏差を計算し、それを体重の平均からの偏差と掛け合わせるわけです。

そして、その掛け合わせたものを平均したものが共分散となります。

共分散の概要

共分散の概要

 

ここでは共分散は正の値ですが、片方のデータが平均より高く(偏差が正の値)、もう片方のデータが平均より低い(偏差が負の値)場合は、その2つを掛け合わせた共分散は負の値になり、2つのデータが反対方向に動く特徴があることが分かるということです。

まだまだ意味が分かりませんね…

 

2.共分散の意味することを図でわかりやすく解説

まだイメージが沸かないので、前回、分散や標準偏差を図で表したように、今回も図で表してみます。

以下の図の青の線は5人の体重の平均値で、緑の線は5人の身長の平均値です。

5人の身長と体重のデータは黒の点でプロットしています。

そして、各人の身長と体重それぞれについて、平均からの偏差を赤の線で示しています。

2つの偏差を掛け合わせるということは、赤の線と平均線で囲われた面積を求めることを意味します。

図は、例として、B氏の40、D氏の35を図示しています。

共分散の意味することを図でわかりやすく解説

さて、もうお分かりの通り、共分散はこの面積を5人分求め、その四角形の面積を平均したものです。

ここではその平均面積は『65』となります。

これで何が分かるのかというと、ある一方のデータが上昇した時に、もう一方のデータが上昇するか下落するかを判別することができます。

何故なら、図をみればわかる通り、面積とはいいつつもオレンジやグレーの点線で表しているように、線分の『傾きとしての見方ができるからです。

具体的には、共分散が正の値の場合は、一方が上昇すると、他方も上昇します。

共分散の値が負の場合は、一方が上昇すると、他方が下落します。

今回は共分散が正の値であるため、右肩上がりの線分となります。

 

さて、ここから重要なことに触れます。

共分散の値が、正か負のどちらかを見ることで、データが同じ方向に動く特徴があるのかどうかを判別することができるのはいいとして、「共分散の絶対値そのものの大きさは何を意味するのかということです。

実は、何も意味しません

先ほどの図でいうと、四角形の平均面積が大きかろうと小さかろうと何も意味がありません。

よく勘違いしがちなのは、共分散の値が大きければ、2つのデータの相関度合いが強いと思ってしまうことです。

しかし、相関度合いは共分散の絶対値の大きさとはなにも関係がありません。

 

次の例を考えてみれば一目瞭然です。

例えば、先ほどの身長と体重のデータをすべて10倍にするとします。

すると、計算すると分かるのですが、共分散は6,500になります。

先ほどの共分散65とこの共分散6,500は数字の大きさが全然違いますが、相関度合いは後者の方が大きいといえるでしょうか。

そうとは言えないのは、考えるまでもありません。

すべてのデータを単に10倍しているだけで、本質は何も変わっておらず、相関度合いは両者とも同じです。

このように、共分散が何を示しているのかを勘違いしないようにしなければ、誤った分析をしてしまうリスクがあるので注意しましょう。

 

3.共分散の欠点を補う指標について少し触れてみる

やっかいなことに、分散について説明した時と同じように、共分散は単位が無茶苦茶なのです。

この例では、cmの偏差とkgの偏差を掛け合わせているため、共分散は65(cm×kg)ということになります。

そのため、一般的にはこれを相関係数というものに変換します。

本日はここまでにして、次回、この相関係数についてご説明します。

相関係数を図でわかりやすく解説【統計学を目で学習する】

 

『本日の気づき』

「2つの各データの偏差を掛け合わせたものを平均した値」であり、「ある一方のデータが上昇した時に、もう一方のデータが上昇するか下落するかどうか」を判別することができる

・共分散からは、相関度合いは読み取れないし、単位も無茶苦茶なので、使い勝手が悪い

・共分散の欠点を補うため、相関係数というものに変換する必要がある

 


コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です