対数変換したあとの値の記述統計を報告?vs.対数変換する前の値の記述統計を報告?
外国語教育研究では強く歪んだ分布をもつ連続型確率変数を扱うときがある。
学習時間,ある変数上でのテスト成績,心理学的な実験における反応時間,読解時間などがそう。
場合によっては,これを正規分布にしたがう確率変数にすることを目的に対数変換するときがある。反応時間などでは底を10としたり,2としたりするときがあるけど,まあよほど値が大きくならないスケールなら自然対数の底(ネイピア数)でいいんじゃないかな。
で,このとき,論文で平均を報告したいとする。そこで,対数変換をしたあとの値の平均値で報告するべきか,対数変換をする前の値で報告するべきか?という疑問が湧く。
…一般に,両方を報告するべきとされている。これはなんでだろう?
というのも,対数変換は戻せる。
たとえば,ガンマ分布からこんな変数が得られたとして,
mae<-rgamma(500,3,1/1000) hist(mae)
これをこんな感じで対数変換するんじゃ。
ato<-log(mae) hist(ato)
これはこうやったら元の変数に完璧に戻せる。
modoshi<-exp(1)^ato hist(modoshi)
なら,別にどっちで報告しても同じじゃないか?って思っちゃう。
しかし,当たり前だけど平均値を対数変換した値と対数変換した後の平均値は同じ値じゃない。
log(mean(mae)) mean(log(mae))
さらに当たり前だけど,ネイピア数^対数変換した後の平均値は,対数変換する前の平均値と同じ値じゃない。
mean(mae) exp(1)^(mean(ato))
当たり前だけど。
だから,報告された片方の平均値から,もう片方の平均値を計算することはこの情報だけでは不可能。やっぱ両方報告した方がいい。
ただし,中央値などの分位点は一致する(丸め誤差などを除けば)。
quantile(mae) quantile(ato) log(quantile(mae))
なので,分位点で報告する場合,別に変換前,変換後の両方の値を報告しなくてもいい。読み手が得られる情報だといえる。