読者です 読者をやめる 読者になる 読者になる

草薙の研究ログ

英語教育関係。でも最近は統計(特にR)ネタが中心。

効果量では見えない指導の効果(8):外国語教育での実例(事前ー事後)

r 情報処理 教育 統計

さてさて。今回は繰り返しあるの比較。事前ー事後ね。

 

事前ー事後の比較

対象とする論文は,

前田啓朗(2008)「WBTを援用した授業で成功した学習者・成功しなかった学習者」ARELE, 19, 253-262.

 

ci.nii.ac.jp

 

この論文では,351人の通常クラスの理系大学生と,42人のWBT(web-based training)をとっているクラス(もちろん同じ理系)の伸びをみている。テストはTOEICの一種。

あえて書くけど,この論文の論旨は伸びたとか伸びないとか,どっちがより伸びたとかそういう単純な問題ではなくて,もちろんプログラムを実施したことで伸びた人も伸びなかった人もうまれるのだけど,むしろ,その伸びた人伸びなかった人,それぞれの背景を探りたい,というもの。ひとことでいえば適性処遇交互作用の研究のひとつ。書いた先生は,昨年お亡くなりになりになってしまったのだけど,日本の外国語教育研究における適性処遇交互作用,データ分析(特に多変量解析),教育評価,CALLなどがご専門でいらっしゃって,この論文は日本の外国語教育研究におけるデータの分析のお手本でもあり,いろいろなところで引き合いに出されている論文。

まあ,でも,このブログで扱うデータは基本的にこんな感じ。

通常の授業をしているクラスとWBTを援用している授業のクラスの,事前事後のTOEICの点がある。

記述統計とデータの可視化がしっかりされてあるデータなので,ある程度データが再現できる。共分散だけがわからないので,相関係数を仮に.80として,2変量正規分布乱数を使ってデータを再現した。

これを可視化するとこんな感じ。再現はばっちしね。

(水本篤先生,参考にさせていただきました。私はMASSパッケージのmvrnorm関数を使っています)

RPubs - R を使った Resampling と作図

 

f:id:kusanagik:20150323131906p:plain

ほい。うぃうぃ。完全にそれっぽい。記述統計などは論文をご参照のこと。

乱数だけど,数値はぴったし合うようにしている。

 

緑が全体。青がWBTクラス。

平均差を見てみると両方大差無いように見えるね。青がやや高いか…

もともとの論旨は通常クラスがいいとかWBTがいいとか,そういうことじゃないということを,ここにしつこく書いておく。

 

でも,いちおう,分析してみる。

繰り返しありのときは,比較のために標準化して,分位点回帰をして,下の方(5%とか)のラインをもとめるといいかもとかんがえている。そうすると,まあたいていの人はそれ以上になるだろうというラインがわかる。わたしは,これを意思決定に都合いいと思っているのです。

 まずは,「標準化をしないで」下から5%で分位点回帰をおこなって線を引いてみる。

 

f:id:kusanagik:20150323130914p:plain

 

こんな感じ。うぃうぃ。

次に,これをそれぞれ比較標準化したものを描く(違う単位で標準化していることに注意)。

 

f:id:kusanagik:20150323132306p:plain

出た。

 

まずは緑を見る(通常,全体)。

標準化平均差(緑の横点線)ははっきりいって,ほぼないと見るような値(0.02)。

分位点回帰式は y = 0.89x -1.10

下のライン(分位点回帰)をもとめると,傾きが小さい(0.88)。もちろん平均への回帰ってのもあるのだろうけど,例えば,事前に下群だった層が極端に下るということはなさそう。

 

さて,対象となる青の方。

標準化平均差は0.8くらい。

分位点回帰は y = 1.63x -1.12

こっちは,ちょっと振る舞いが違う。分位点回帰のラインがかなり傾いている。平均への回帰をぶっちぎっている。それに分布が縦長になっているともいえる。これはFが2を超すくらいだからで,事後の方がばらつきが2倍になっているということ。標準化平均差は確かに緑よりは高いけども,処遇によって,ばらつきが増えちゃっている。

標準化平均差では,緑より確かに高いってことを踏まえてうえで,私がしつこく推している捉え方(比較標準化した事後の成績の予測における下限)を見てみると,値はほぼ4に近いし,上位95%に対する回帰直線をみてもこっちの方(WBT)が下層の点数(特に事前に低かったひと)は相対的に成績が低くなると予測する。

しかし逆に,上位層,例えば最大値を予測するなら,断然緑よりも青の方が高い値を出すだろう。原因はすべて,単純にばらつきが増えているから。

 

結論をひとことでいうと,WBTのグループのほうが,(標準化平均差では)一見成果が好ましかったようにみえるが,事前事後でみて,ばらつきが大きいし,事前でできた人がよりできるようになり,事前で出来なかったひとは伸び悩む傾向があると推測できる。

著者の先生はこのことを取り上げて,いろいろな変数(学習観,動機,方略など)で「このばらつきが増えちゃっていること」の背景を検証しているんだ。なんらかの適性処遇交互作用があったんじゃないかって,まさに「成功した学習者・成功しなかった学習者」ってこと。

それに,このWBTを実施したクラスは,そもそも全体の中ではかなり上位に位置するサブグループだ,ということも考えなきゃならない。こういう文脈も大事。

 

わたしは,この著者の先生とはちがって,散布図と記述統計を眺めているだけでは,ここまで思いを巡らすことはできない。散布図を描き,二変量の分布のかたちを読んで,標準偏差の値を吟味して,そしてその背景にある「個々人の」要因を探ろうとか。

ばらつきが大きくなるという処遇の結果を,決してそれだけで悪いものだと捉えず,そこには,なにかしらのヒントがある,そう考えた上で,それが何故か,何故かわかればそれを,カリキュラム開発なり,クラス配置なりなんなりに使えるんじゃないか,そういう見方ね。

効果量の値が大きいとか小さいということだけに拘泥していては,きっとそういうことには縁遠くなってしまうかもしれない。効果量がダメだとか,決してそういうことではなくて,効果量はもちろんのこと,それを適切に解釈し,場合に応じてそれ以外の情報(例えば分散比,相関係数,推定精度,分布のゆがみ等)もしっかり吟味していきたい。

(続く,次は計算・ツール編)