読者です 読者をやめる 読者になる 読者になる

草薙の研究ログ

英語教育関係。でも最近は統計(特にR)ネタが中心。

多変量上の群間の中心差に関する効果量としてのマハラノビス距離と情報量?

ある指導法Aの効果をみたいとする。
NEGD(群間計画)を組めたとする。
処遇後における処置群と統制群の中心傾向の差をもって効果と考えたい。
このとき,結果変数として2変数もっているとする。
文法テストと語彙テスト。
このとき,効果量としてもちいるべきもののひとつにマハラノビス距離がある。

マハラノビス・タグチ法風にいうならば,統制群のデータを単位空間(unit space)として,処置群における個々人の成績を距離をもとめたい。その期待値は,多変量に対応したGlassのΔのようなもんだ。

あれ,と思った。これは統制群のデータの多変量正規分布を最初に仮定して,処置群のデータが発生する確率をもとめ,それぞれを自己情報量に換算することと原理的に同じじゃないか?

やってみたらいい。

#データを作る
#group1が処置群,group2が統制群
#変数は文法と語彙のテストの成績だとしよう
group1<-mvrnorm(100,mu=c(100,100),Sigma=matrix(c(100,50,50,100),2,2))
group2<-mvrnorm(100,mu=c(90,30),Sigma=matrix(c(100,30,30,100),2,2))

#プロットする
plot(group1,xlim=c(0,150),ylim=c(0,150),pch=20,col=4,xlab="Grammar",ylab="Vocabulary")
points(group2,pch=20,col=2)

#統制群を基準として処置群の成績のマハラノビス距離をもとめる
maha1<-mahalanobis(group1,colMeans(group2),cov=var(group2))

#多変量正規分布から確率をもとめ,自己情報量に換算する
i1<--log(dmvnorm(group1,colMeans(group2),sigma=var(group2)))

#マハラノビス距離の平均値も多変量の効果量といえる
mean(maha1)

#情報量の平均も多変量の効果量といえなくもない(これはよくないけど)
mean(i1)

#このふたつは同じ
cor(maha1,i1)

#あたりまえだけどgroup2からの距離の平均とgroup1とgroup2の中心間の距離は一致しない
mahalanobis(colMeans(group1),colMeans(group2),cov=var(group2))
-log(dmvnorm(colMeas(group1),colMeans(group2),sigma=var(group2)))

同じだ。
そっかそっか。効果量って,考え方によっては,情報量でもあるんだよな。
カルバック・ライブラー情報量にも換算できるとおもうんだよな。なるほど。