効果量では見えない指導の効果

実務上，効果量がさっぱりわからない件

効果量は集団に対してあるものなので，効果量でもって個々のケースの振る舞いについて議論するときには無理があるときがある。「ある現象の効果が（ある程度の精度や確証をもって）観測できるか」どうかという理論実証型の考えかた（私がニガテな）とは違い，外国語教育などといった実務的な側面では，理論家やアカデミアの人とは違って，得てして（いつも幽霊みたいな）母数といったよくわからないものよりも，個々のケース（子ども，生徒，学生，顧客）の振る舞いについて知りたい場合が多い。

だから記述統計に努めましょう，可視化に努めましょう，推測統計はしなくてよい，そういう考えかたも立派でいいのだけど。ねえ。ツールとかいろいろ大事という話。

効果量は，はっきりいって外国語教育の実務的な観点では，さっぱりわかりにくい（少なくとも私のような浅学のものには）。そもそも測定のスケールに依存しない（見えない物差し）というのは人間はニガテだし，効果量が取る数値自体に何か揺るがない実質科学的な意味があるわけではない（特にd族では）。そもそも日常のなかで，ばらつきというものを直感的に感じられるわけではない。平均を理解するのは得意だけど，ばらつきって。それにばらつきで割るって。

たとえば，成人した男女の身長は多分，標準化平均差で1よりは確実に大きいくらいのもの（2くらい）だけど，論文読んでて効果量 = 2とかでてきて，オーイエーなるほど～なるほど～男女の身長の差くらいかぁあーってなるかいな。

ちなみに，Cohenの「固定的に捉えるべきでない」基準にだいたい対応する，日常的なことがらのいくつかをまとめる。（これなんか大喜利したら楽しそうだな，統計の授業で，効果量0.20探して，面白そうなの発表してみたいな）

d = 0.20→秋田県在住と愛知県在住の男子高校生の身長差（？）

d = 0.50→中2と中3男子の握力（？？）

d = 0.80→中1の男女間におけるジャンプ力（？？？）

参考http://www.daiichi-g.co.jp/stest/feature/heikin/http://d.hatena.ne.jp/konisimple/20110307/1299504113など

例だしてもさっぱりだ。。。

でも，なんかあれだよね，これで論文で効果量のとこ書くときに「効果量を算出したところ，d = 0.21であった。この効果量の値は，固定的に捉えるべきではないといいつつもやはり通例で何故かいきなりそもそもカテゴリカルなものであったかのように平然と扱われるところの小程度であるものの，これは秋田県在住と愛知県在住の高校生の身長差とほぼ同程度であると解釈できる。このことから…」って立派に書けるね。

偏差値のスケールで考えるとまだマシな件：⊿を対象として

さてさて，わりと，「偏差値」で考えるってのはやっぱり鉄板でわかりやすいのね。たとえば，標準化平均差のひとつである⊿（ﾃﾞﾙﾀ）は片方の標準偏差（準実験計画のうち，異なるグループの計画（NEGD）だと，実験群と統制群ね，これの統制群）で平均差（実験群の平均-統制群の平均 = これを単純効果量とか非標準化効果量ともよぶ）を割る。

あたりまえだけど，これは，たとえばこんな操作をして得られる数字と全く同じ。

①統制群（c）のM_cとSD_cをもとめる。

②実験群（e）の各々のケースからM_cを引いてSD_cで割る。そうそう，標準化。統制群の平均値と標準偏差をつかって実験群のケースを標準化する。

③その値に10をかけて，50足す。

④このとき，実験群のそれぞれのケースの値は，統制群を基準とした場合の位置を偏差値で示している。つまり，極端にいえば，指導を受けてない人たち（この分布は M =50，SD = 10）にとって，その人の偏差値がいくらか，ということ。たとえば，あるケースの値が50だったら，その人の成績は，指導を受けていない人たちの平均と同じくらい，ということ。

⑤この実験群のそれぞれのケースの値における平均値は⊿*10+50といっしょ。⊿といっしょ。大事なことなので二回いいました。大事なことなので二回いいましたも二回いいます。

つまり⊿は，指導を受けていない人たちから見て，指導を受けた人たちの平均的な偏差値（正しくは，それ/10-50 = ⊿）と見たら，厳密ではないけど悪くない。

等分散性があるんだったら，dとか，およそgもいっしょの解釈。

つまり，⊿が1なら，指導を受けていない人にとって，指導を受けた人の偏差値は平均で60くらいということ。2だったら70。3だったら80って感じ。ちなみに，学習効果で⊿ = 0.2だったら，52ということ。ふつう，2～3の偏差値なんてハイハイ誤差誤差みたいな実務的な観点のひとが効果量 = 0.20でて，「効果量ありまあすっ」ってのは面白いはなしだ（標本効果量をありがたがることに親を殺されたシリーズ）。効果量小でも，「ある」というのだものね。でも普通，国内の外国語教育研究で効果量0.20を望ましい検定力で検定できる標本サイズってのはそんな普通ではないのだけど（e.g., Mizumoto, Urano & Maeda, 2014; 草薙・水本・竹内, 2014）。おいこら，効果量の信頼区間をだしてみんさいってまあいいや。

効果量がないのがそんなに悪いか

さて，例えば，メタ分析の論文を読んでるときとか，または指導法の効果の論文を読んでいて，d = 0とか，まあ効果量がでません，もちろん，統計的に差が有意ではありません，ってなるのは多くある。

理論実証型の場合は，効果量に対して適切な標本サイズ（推定精度）でもってそれを観測するのが目標だから，効果量ありません，有意じゃありません，ってなったら，まあそれでもその現象を対象とするなら，明日への分析やって標本サイズ増やしてやりなおすか，みたいになるだけ。効果量が小さいと，大きな標本サイズが要るのだけど，これを対象としたいんだ，仕方ない，増やすか，みたいな世界。

でも，実務的な観点では，観測された効果の大きさ（とその推定精度自体）が，そのまま意思決定に役立ってもいいので，効果量がねえのか，んじゃ，しかたねえな。この指導法(ﾟ⊿ﾟ)ｲﾗﾈ。みたいになりかねない。

でも果たしてそれでいいのだろうか。

えと，簡略化して，下の図では，黒い線が統制群だとしよう。まず統制群を標準化して，統制群のMとSDで，実験群を偏差値であらわした，みたいな（上参照）。⊿ = 1.0で，実験群と統制群が同じ散布度をもってたら，赤い線，みたいな。おお，赤は成績が高い，効果ありそうだ。みたいな。 f:id:kusanagik:20150306220110p:plain

一方，青は効果量 = 0っていうか平均差が0。効果ねえから(ﾟ⊿ﾟ)ｲﾗﾈってなるのか。青は平均差が0だけど，散布度が統制群よりはかなり少ない。なので，効果量はないのだけど，統制群（黒）とくらべて，ひどい成績を取る人はあまりいないけど，すごくいい成績も取る人もあまりいない。

これって，でも教育実践，実務上では，大きな意味がある。たとえば，それぞれ仮に赤だった場合（⊿ = 1.0）と青（⊿ = 0）のケースの95%予測区間の下限は一緒くらいになる（黒，縦線）。おそらく，教育実践の実務上では，指導法の取り入れや，新しい教室活動の導入には保守的な傾向が強いし，なによりも（うまくいかなかった人がでてしまうという意味での）「失敗」のなさを優先する場合もあって然るべきなので，効果量が0といっても，一概に効果量ねえなら(ﾟ⊿ﾟ)ｲﾗﾈって思うべきでない。もちろん，赤の指導法が悪いとはいわない。いいに決まっている。ただ，効果量が仮にすごく小さいとしても，統制群よりもばらつきが小さいなら，まだまだ見どころ，という感じもある，ってこと。

もちろん，効果量の信頼区間についても，似たようなことがいえる。信頼区間の下限が高くなるには，点推定値だけでなく，推定精度を上げることによってでもよい。推定精度が高い，エビデンスがしっかりした（効果量の信頼区間が狭いことがわかっている）指導法は，点推定値が低くても選ばれやすいかもしれない。（この場合平均のレベルで）「失敗する」ことが少ないのだから。

大体，大量生産・大量流通になるにつれて，ほとんどの購買活動は「ハズレを引かない」戦略に移っていくんだ。すげえ高性能のケータイを使う期待感よりは，使えない「かもしれない」ケータイを選ぶリスクほうが怖い。ガジェットの世界ではよく，いくら高性能でも，人柱の数が…っていうじゃないか。

さて，もちろん，集団間に，そもそものばらつきがあるとかんがえられる場合は，この限りじゃないけど。それにpre-postの場合ももちろんある。

分散比の可能性

純粋に統制群と実験群のばらつきは，分散比をもとめればいいね。指導法効果を検証して，特に効果量が大きくなくて，そもそもはばらつきが同等と考えられる場合，あとはpre-postデザインのときは，分散比を95% CIつきで報告したりして，これを吟味してもよい。分散比はF。等分散性の検定の統計量でもある。Rのvar.testならCIも求めてくれて便利。var.test（dat1, dat2）とかってうつといいよ。

指導を受けていないひとを基準として，指導を受けた人が取りうる，しかし最も芳しくないレベルの成績をあらわす偏差値：ああメンドイなんか名前ないの

いっそのこと，分散比を加味した指標でみてもいいね。

たとえば，⊿を標本にばらして，未知の標本の予測区間の下限。

上の⊿のところのように統制群のMとSDで標準化し，スケールを50中心に偏差値にして95%予測区間の下限を見てもいい。Rの関数やシートはいつか。

つまり，「指導を受けていない人を基準とした場合の，指導を受けた人が取るうるだろう最も芳しくないレベルの成績をあらわす偏差値」ね。上の縦線がそう。これだと，効果量が1違っても，同じ値になる。

解釈だけど，この値が50だったら，最低でも実験群の人は統制群の平均値くらいはいくだろうとか，そういう風に考えれる。実務的には。

普通は標本だの，母数だの，そもそも集団に対する数値って結構，人間ニガテなんだよな。特に散布度，だからそういうのを，1ケースの値であらわすように工夫するって悪く無いと思う。それに人間の選択ってだいたい保守的だし。

（続く）

草薙の研究ログ

英語の先生をやってます。