草薙の研究ログ

英語の先生をやってます。

効果量では見えない指導の効果(2):解釈のための工夫

背景

自分のメモのためにも続き。

前回は:


効果量では見えない指導の効果(1) - 草薙の研究ログ

 

さて,前回では,

(1)外国語教育の実務的観点では,学習・指導の効果を効果量のみで議論することはそこまで親和性の強いものではないかもしれないこと

(2)それは標準化平均差などの効果量の値自体を実質科学的および実務的な観点で解釈することは容易でないことに由来し,

(3)50を中心とする偏差値で理解するほうがより簡便なこと,そして

(4)実験群のばらつき(分散比)や推定の精度も加味する必要があること

といったことについて浅学な駄弁を弄した。

 

ここでは,前回少し触れた新しい見方のひとつを述べる。うぃうぃ。

 

Glass' ⊿と分散比

標準化効果量,標準化平均差ともよばれるGlassの⊿は,おもにNEGD(nonequivalent group design,典型的にはpostテストにおける統制群と実験群の対比較など)でもちいるとわかりやすい。数式は,

 

⊿ = (実験群の平均値 - 統制群の平均値)÷ 統制群の標準偏差

 

ここで ⊿ × 10 + 50

 

というようにすると,「統制群を基準とした場合における実験群の偏差値の平均」と同じとかんがえられる。⊿ = 1.00 だったら60。実験群の真ん中のひとの点は,大体統制群からみたら偏差値60くらいだということ。また,実験群の半分以上のひとは,それ以上の点数を取るだろうということ。解釈しやすい。うぃうぃ。

ここでこの分布について考えると,統制群を標準正規分布 N(0, 1)としたら,実験群はN(⊿,F)になる。Fは分散比(実験群の分散 ÷ 統制群の分散)。もちろん自由度に応じたF分布に従うし,等分散性のためのF検定をしてもよい。

分散比が1を下回ると,実験群のひとの成績のほうがばらついていないとうこと。実験群のほうがばらつきが少ないというのは,効果量が大きいということと同様に,教育実践上,そして実務上,大きな意味がある場合も多い。カリキュラム開発,指導の手立ての選択といった文脈で。

 

実験群の標準化得点における予測

統制群の値で標準化した実験群の分布は,N(⊿, F)。ここで,このスケールにおける実験群の得点の95%予測区間をもとめたい。

 

95%予測区間 = ⊿ ± t(df = n -1)の95%点×F×√1 +(1÷n)

 

ここでは下限値に注目する。下限値(l)を50を中心とした偏差値に換算すると,

 l × 10 + 50

 

この値は,統制群を基準としたときに,実験群のケースが取りうる偏差値の予測の下限なのであるから,この値が高けれな高いほど,指導の効果に失敗がないというか,個々人を見ても,最低限の効果を保証できる。たとえば値が60であれば,少なくとも統制群を基準に見て,実験群における個々人の成績は偏差値60以上になるとある程度見込める。

この値は,2組のn, M, SDのみから計算できる。正規性を大きく逸脱するデータにはあまり適さないけど。予測区間の確率(p)を,文脈に沿っていじってもよいかもしれない。場合によっては上限の予測値が意思決定上,意味を持つ場合があってもおかしくないとおもってる(ドラゴン桜?)。うぃうぃ。

この下限の信頼区間をもとめるには…ブートストラップ?

おおざっぱに図でイメージにするとこんな感じ。

 

f:id:kusanagik:20150309191932p:plain

統制群における分位点で解釈してみる

偏差値はいいけど,場合によっては,過剰に受験とかそういう文脈の経験的スケールに重ね合わせてしまうのだとしたら,統制群の分位点に変換してはどうだろう。この値に対応する累積標準正規分布の分位点をもとめて,1から引いてやると,統制群の上位何%以上を見込めるか,とかんがえられる。仮に,0.22だったら実験群の人は統制群から見て,上位22%以上の成績を取るだろうと予測しているってこと。また統制群のN+1をかけてやると,1ケース入れるとしたら何位以上だろう,というように,解釈が簡単になる。

あくまでも教育実践上,実務上の観点として。

 

まとめ

効果量もちょっといじるとグッと解釈しやすくなる。

教育実践的,実務的な計量データの吟味や解釈の仕方を工夫してみるとよいかも。

 

(続く,ツールは近々,変なところ,間違っているところはどなたかコミッと教えてください)

 

*間違っているところ一部直しました