商品のリコメンド(この商品を買った人は、こんな商品を買っています)の相関係数って、どうやって計算するんだ?と思って調べてみたら、数学的知識が必須だったので用語を調べてみた!
参考URL
https://atarimae.biz/archives/7966#i-5
///// 平均値と個々の値のばらつきについて //////
1, 偏差(deviation) = (個別の値-平均)^2
個々の値が平均からどれくらい離れているか?を表す。二乗する事によりマイナスは存在しない
平均50点で100点と0点の二人の場合、どちらも偏差は2500となる
(100-50)^2 = 2500
(0-50)^2 = 2500
個々の値に対して偏差は存在する。
2, 分散(Variance) = 全て偏差の合計/個数
その平均値を構成する個々の値が、どれくらいバラツキがあるか?すべて平均と同じ値なら0となる。
平均50点で100点と0点が同数の場合
(100-50)^2+(0-50)^2 = 5000
平均値に対して、分散の値は1つだけ
3, 標準偏差(Standard Deviation) 分散を平方根した値
身長の分散同士は比較できるが、平均値(cm)と分散(cm^2)は単位が違うので比較できない。
そのため、平均値と比較するために平方根をとれば、cm^2 -> cmと単位が同じになり計算が出来る。
身長が160cm,170cm,180cmの3人の平均身長は170cm
偏差
(160-170)^2 = 100
(170-170)^2 = 0
(180-170)^2 = 100
分散は200
標準偏差は√200=14.14
体重が50kg,70kg,90kg の3人の平均体重は70kg
偏差
(50-70)^2 = 400
(70-70)^2 = 0
(90-70)^2 = 400
分散は800
標準偏差は√800=28.28
Q, 体重よりも身長の方がばらつきが多いのは分かるけど、分散でも標準偏差でも、どっちでも良くない?
A, 標準偏差には、正規分布なら68%95%ルールが適用できる。
平均の±標準偏差に含まれるデータが68%
平均の±標準偏差×2に含まれるデータが95%
平均身長170cmで標準偏差が14なら、68%の人は156cm~184cmの範囲にいる。
平均体重 70kgで標準偏差が28なら、68%の人は42kg~98kgの範囲にいる。
これが、標準偏差の凄さ!
///// 項目Xと項目Yの関連性について //////
4, 共分散(Co-Variance) = (個々のXの偏差×個々のYの偏差)の合計/個数
XとYの項目が、どれくらい関連性があるかを表す。国語と数学の点数など。
0(付近)なら関連性なし。プラスなら正の相関性(Xが高ければYも高い)
マイナスなら負の相関(Xが高いとYが低くなる。逆もしかり)
欠点として、元の値が高いと共分散の値も高くなるので、比較がしづらい。
5, 相関係数(Correlation coefficient) = 個々xと個々yの共分散/(個々のXの標準偏差×個々のYの標準偏差)の合計
共分散と同じく「XとYの項目は、どれくらい関連性があるか」を表す。
共分散の欠点である元の値に依存せずに、相関度合いを比較できるようにした値。
手で計算するには、多すぎるのでエクセルとかで計算する。必ず+1から-1の範囲になる。
相関係数が0.7から1 → 非常に強い正の相関関係(Xが大きければYも大きい)
相関係数が0.4から0.7 → そこそこな正の相関関係
相関係数が0.2から0.4 → 弱い正の相関関係
相関係数が0に近い(-0.2から+0.2)→ X と Y にあまり関係はない
相関係数が-0.2から-0.4 → 弱い負の相関関係
相関係数が-0.4から-0.7 → そこそこな負の相関関係
相関係数が-0.7から-1 → 非常に強い負の相関関係(Xが大きければYは小さい。Yが大きければXが小さい)
結論としては、個々の数値と手計算で相関係数をイメージするのは難しい。コンピュータに計算してもらおう!