効果量では見えない指導の効果(4):データの歪みと分布の情報
1. 歪んだデータで効果の検証?
わたしが申しあげるまでもなく,外国語教育のデータはきたない。もちろんテーマなどによるけど。
たとえば,もし仮にこんなデータがあったとしよう(よくありそう)。
黒が統制群,赤が実験群で,postテストの成績だとしてみてみる。
まあ,直感的には赤の処置のほうがいい感じに見える。
黒より平均値が高そうだ。効果がありそう。
あれ,でも分布がゆがんでいるから,黒の方の平均値は一番高いところより右寄りだな…
あれ,平均値はどっちが高いんだ?
なんと実はいっしょくらい。え?
まあそうなんだしかたない。
ううん,そうだったら,ばらつきが小さいほうがいいってときもあるよな。
たとえば↓
ばらつきはどうなんだ?
実は,これ,計算上は標準偏差もそんなに変わらない。
じゃあ,おおざっぱにいって,効果量(⊿)は0,分散比も同じくらい(1)ってこと。
じゃあ,どっちの処置(統制・実験)でもどっちでもいいの?
どっちも同じ「効果 」?
もちろん,効果量の効果ということばとtreatment outcome(処遇の成果)を一緒にとらえるべきではない。効果量の効果は純粋に数字的な意味での研究者がみる任意のばらつきを示すし,処遇の成果は最初からある程度の価値観も含む。
それに,正規性を前提とした分析の結果を,前提を満たさないままでおこない,無理やり解釈したうえで,それでうまくいかないというのは,難癖に近い。データの正規性が満たされなかったため,効果量は算出しない,標本値の五数要約などで考察する,というのはまっとうな話。もちろん,ノンパラメトリックで代用できるところはしてもいいだろうし,方策はいっぱいある。データが歪んでいるときは,効果量(少なくとも標準化平均差系)は単純に方策として不適。そういう理解でもいい。
でも,この分布の歪みのはなしは,それ以上の意味がある。
2. いつも平均値ばかりに興味があるわけではない
集団の性質を数値的に代表させるための方法は,もちろんだけど平均のみでない。平均値は,個々の偏差自乗を最小化する推定値でもあるのだから,全体として個々のケースの値とのズレが一番小さくなる数という意味で素晴らしい。これが意思決定上,非常に重要な意味を持つことは疑わなくてもよい。そういう意味で効果量(標準化平均差)は非常に優れている。
しかし,さんざん書いていているように,平均値は,仮に最も重要であっても,ひとつの観点にすぎない。ときに個々のケースにおける予測値の下限が重要になるだろうし,上限が重要になるときもあってしかるべき。
私はことばに難ありのにんげんなので,もっと端的に書いてくださっている優れたことばをここに紹介する。
分布の中心とその変動について理解を深めることは、 もちろん重要である。しかし、研究者の関心が、分布の中心に、特に平均値に極端に集中することは、理論の構築と検証に制約をもたらしている。言うなれば、そうした分析は、分布の中心のことだけを考え、分布のそれ以外の部分になにが起きているのかを無視しているのだ。 分布の中心への関心の集中が、理論的な根拠に基づいているのであれば、分布の中心(とその変動)以外の情報は捨象されてよい。しかし、それが単に分析技法上の制限によるのであれば、改善されるべき問題だといわねばならない。分布の中心だけを見ることで、見落とされていた情報が存在する可能性があるからである。(石黒, 2013, p. 11)
これに尽きる。(この論文は今日知ったのだけど,ちょうど同じようなことをお書きだった)
人間の意思決定はもっともっと複雑だし,それに自由であるべきなので,ちょっとした工夫で意思決定をサポートするもの(計量的手法など)のバリエーションが増えることはうれしいことだと思う。
このあたりのことは分位点回帰(quantile regression)の利用をすすめる論文で非常に多く論じられている。上記の石黒先生もそうだし,言語教育関係ならChen and Chalhoub-Deville(2013)。
CiNii 論文 - 社会心理学データに対する分位点回帰分析の適用 : ネットワーク・サイズを例として
Principles of quantile regression and an application
分位点回帰についてはいずれ(次の次)にまとめるのでおいておいて。その前の話。
3. 意思決定のうえで重要なポイントは左右どちらにも動き得る
教室の中で教師にとって大事な層と大事でない層がいるとか,平均に意味がないとか,そういう問題ではない(そういう問題ももちろん全くなくはないかもだけど)。単純に,平均に加えて,分布の周辺の情報があったほうがいい。純粋に見れないものが見える。見ようともしない態度よりそれだけで優れている。
これまでばらつきが小さければ,効果量がなくてもまだましかも,という話をし,それを評価する方法とかを述べたけど,もちろん逆もありえる。ばらつきが多いほうが良い場合もある(最大値だけ,ドラゴン桜みたいなドラマチックな受験戦略とか)。
そもそも平均値,ばらつきが同じだってちょっとそういうことが起こりうる。
たとえば,上の図は,実はある資格取得(秋田弁1級)のための授業だった,ということにしよう。postテストに使ったのは,秋田弁検定の予想問題で,ある程度本試験と相関が高く,合格判定ラインに関する証拠も持っているとしよう。うむうむ。そこで,このテストにおける15点が,まあ回帰式的には本試験の「合格判定ライン」に相当するだろうと。
私は赤の指導法を選ぶべきだとはいわないけど,これだったら,赤の指導法の方が合格者全然多いだろうね。。。こういうのは,実際すごく身近な問題でありえる。平均値一緒,標準偏差一緒なのに,赤の方が合格者が多い(実績あり!)。面白い。効果量に差がないのに。ばらつきもほぼ一緒なのに。
逆に,一部状況における意思決定では,合格者数,またはその比率自体を手応えというか,実績として考えることも多いと思う。しかしそのとき,平均値や標準偏差が一緒だとはなかなか思うまい。だから,情報は多いほうがいい。情報が多いほうが,意思決定がより豊かになる。
(続く)