読者です 読者をやめる 読者になる 読者になる

草薙の研究ログ

英語教育関係。でも最近は統計(特にR)ネタが中心。

平均への回帰をわかりやすく例える

なんか平均への回帰ってことばはよく知られているものの,外国語教育研究界隈では,ときに難しいとされていて,そして研究実践においてもものすごく大事なことなのにあんまり重要視されていない気がする。まあ確かに,頑張って教科書読んでも,「相関係数が1ではないということに他ならない」とか書いてあるし。


さて,平均への回帰というのは,たとえば2回テストするとして,1回目のテストで成績がよくないひとは,2回目のテストではよい成績をだすっていうだけの話なんだけど,これってピンとこないかな。

別にこれって正規分布に限ったことじゃないので,サイコロの話をする。


サイコロを30人が2回投げる。

  • 一回目投げて目が1だったひとにとって,次の目が今よりも大きい確率は5/6。
  • 一回目投げて目が2だったひとにとって,次の目が今よりも大きい確率は4/6。
  • 一回目投げて目が3だったひとにとって,次の目が今よりも大きい確率は3/6。
  • 一回目投げて目が4だったひとにとって,次の目が今よりも大きい確率は2/6。
  • 一回目投げて目が5だったひとにとって,次の目が今よりも大きい確率は1/6。
  • 一回目投げて目が6だったひとにとって,次の目が今よりも大きい確率は0。

このとき,2回目の目-1回目の目の期待値は,サイコロ投げの期待値が常に3.5なので,3.5 - 一回目の目。なので,グラフにすると,

f:id:kusanagik:20170302212443p:plain


これで,1回目1の人だけを集めて,2回目と1回目の目の差の平均値をもとめたら2.5なわけね。これが0ではないかと検定したりしたら,標本サイズによって当然有意になるでしょう。でもこれは,新しいイカサマサイコロに持ち替えたわけではない。

一回目の期待値,というかサイコロの期待値はもちろん,

f:id:kusanagik:20170302212607p:plain

うん。これだけの話。これ,別の分布でも同じ。


基本的にこれは完全に独立なサイコロを2回投げるからシンプルなんだけど,基本的には相関係数が1じゃない限りこうなる。


外国語教育研究が例外ではなくて,むしろ同じようなことが色々と起きる。



事前―事後でTOEICのテストの点を取ったとする。このとき実は差得点の平均値が0とする。

事前の成績を並べて下から33%のひとだけに検定したら,そりゃ有意になるだろう。このサイコロと全く同じことが起こる。

事前の成績で並べなくても,事前または事後の成績と相関が高い別の変数で並べても似たようなことが起きるのは当たりまえ。

ある読解テストを事前事後に実施して,読解テストと相関が高いTOEICスコアをカテゴリカルにして層別に検定してもそう。

これで成績下位層の子に特に効果がある指導法!というハッピーな指導法が世の中にたくさんになったらハッピーなのかな。

その度毎に,研究仮説に「熟達度の効果がどうなるかわからないから調べる」とか後付けで足して(HARKingして)そういう研究がいっぱいになればハッピーなのかな。