効果量では見えない指導の効果(5):繰り返しのデータ
1. 事前と事後の間の比較
これまでは統制群と実験群の比較についてみたけど,これからは事前と事後の間。
もちろん,繰り返しのデータのときも基本はこれまでの一緒の考えかた。効果量で十分,意思決定ができる場合もあるだろうけど,ちょっともっと他の情報がほしいときも実務的な観点では十分にありそうっていう態度。
そもそも効果量といっても,繰り返しのあるときの効果量(標準化平均差)は,いくつか種類がある。
基本的には(a)相関を考慮するものと,(b)しないものということ。
詳しくは,ウェブで見れる水本・竹内(2011)など。
http://www.mizumot.com/method/mizumoto-takeuchi.pdf
(すぐ換算できるRのスクリプトあるよ!)
どっちがいいかとかでなくて,どっちも場合によって有益。どちらを使ったかはちゃんと明示的にするべきだけど。特に相関などを考慮しなくていいのなら,これまで述べてきたような考えかたで悪くないとおもう。
そうだそうだ,繰り返しのデータは散布図でみてみるとわかりやすい。
こんな感じ。
preの成績を横軸,postの成績を縦軸に置こうかね。
このとき,y = xの線より上にいるひとは,(テストのスケールが同等のとき)成績が伸びたひと。下にいるひとは残念ながら下がっちゃったひととみてもいい。回帰式をあてはめてもいい(詳しくは次回以上)。回帰式の切片は全体的に伸びた具合,傾きがもし1なら全体的に差が同程度ということ。傾きが1を下回るなら,どちらかというとpreで成績が悪いひとたちの伸びのほうが大きいかも。逆なら逆。
ただ,平均への回帰ってのもあって,傾きをあんまり頑張って固定的にみないほうがいいかも。
縦軸と横軸の交点はそれぞれの平均値を結んだもの。
この交点がy = xより離れていればいるほど効果量は大きい。
もちろん,差の分布をヒストグラムなどで見ることも有用だし,そこから差の予測区間の下限を求めてもいい。実質的なスケールが大事な場合,差の予測区間の下限は,最低限処遇を施したら確保できる伸び。これだと下がっちゃっているひといるけど,もちろん,興味のある点のところの分位点を求めてもいい。たとえば,0以上とか。つまり伸びた人は何%だったか,とか。
もちろん,スケールフリーにするために,標準化してもいい。差得点の標準偏差でそれぞれを割る。
この標準化したときの差得点の平均値は効果量と見てもいい(一般に「繰り返しのとき」に使うdの一種)。
2. 相関係数(r)や分散比(F)もすごく大事!
前には効果量でも,相関係数を考慮するときとしないときというものがあると書いたけど,もし仮に2群の平均値と標準偏差が一緒だったとしても,全然振る舞いが違う場合がある。下の図だとわかりやすい(ちょっと頑張って描いた)。
上のデータはシミュレーションのもの。分散共分散行列と2つの平均値を指定して乱数を作った。
上の5つはそれぞれ,pre-postで分散が同じ,平均差も同じ。相関をみないとどれも標準化平均差が1くらいのもの。平均差と標準偏差は同じなのに,明らかに処遇の振る舞いが違う。こういう傾向は,相関係数を見なければわからない。効果量をどっちで議論してもかまわないけど,いずれにせよ,相関係数は報告すべきだとおもう。ちなみに相関係数を考慮した効果量というのは,まさにこういう振る舞いの違いを反映させている。
もちろん,分散比も大事。対応のときの相関係数と分散比には複雑な関係があるんだけど(まあ基本的に分散比が大きく/小さくなると相関係数が強くなる),まあ,それはおいておいて,分散比が低ければ,処遇によってばらつきが広がっちゃったってこと。すごく出来る人もできないひともいる。分散比が高ければ,ばらつきが狭まったということなので,処遇後は同質になると見込める。
また,分散比が小さければ,出来る人がさらにできるようになり,大きければ,できない人のほうが伸びが大きいというような傾向になっていくかも。これも目的次第だけど,意思決定のときの材料にならないということはないと思うんだ。
なので,差の分布,相関関係,分散比も効果量と同じくらい重要だとかんがえられそう。もちろん散布図は,こういう分析の手がかりとして素晴らしいので使っていきたい。
(続く,次こそメインの分位点回帰!)
*3/18 一部誤りを修正しました。