草薙の研究ログ

英語教育関係。でも最近は統計(特にR)ネタが中心。

効果量では見えない指導の効果(3):目標規準準拠のとき

1. 集団基準準拠と目標規準準拠の差

第二言語習得研究や,外国語教育研究のうちの,一部のアカデミック寄りな観点では,第二言語なり外国語の熟達度に関する構成概念を対象として測定をおこなうことが多い。ほとんどの構成概念は,熟達度になんらかの影響をおよぼす要因か,または局所的,間接的であっても,熟達度の下位概念であるとされる(構成技能ともいえる)。こうしたさまざまな技能の関係を調査する研究も多い。たとえば,読解力の成績は語彙知識や文法知識とされた測定具の成績と相関が高くて…と言った感じ。

処遇Aによって読解力が,とか,語彙知識(たとえばサイズ)が伸びたとか。そういう感じ。これは,ある程度,集団基準準拠テスト的な見方でもまったく構わない。

 

しかし,教育実践上,カリキュラムなどで,こういった構成技能自体を伸ばすことを主たる目的とすることは常ではない。集団基準準拠テストが与えるのは,個人の集団内における位置なのである。でも,むしろ,日頃の教育実践や教育に関わる実務では,目標規準準拠テストが一般的。さまざまな構成技能のように,本質的には潜在変数としてしか得られないようなものを,集団内の位置でなんとかあらわすアカデミックな立場とは根本的に違って,規準は,「これこれをできる」,「これこれの能力を持っている」という絶対的な,実質科学的なもののはず。

たとえば,文法シラバスにもとづいて実施されている授業において,未習の文法項目(構造)をあつかって,その学習の効果を評価したいとする。その時に,あるひとがその文法項目を身につけたどうかは,あくまでも,実質科学的な絶対的基準で判断されるべきなのであって,集団内の相対的位置(単一の処遇を施した教室の中の位置だったら本当に意味が不明)にもとづいて判断するものではない。集団の相対的位置が低くても,絶対的規準の上ではOKということもあるし,逆にいうと全員が絶対的規準でOKのテストでも,必ず集団「内」の相対的位置において,低い人はいる。

 

2. ふぁ!目標規準準拠で効果量?

効果量は,「集団間の」(または同一集団の別時点間の)標準化された平均差,つまり集団間の位置を標準化したものである。効果量は,明らかに目標規準準拠の考えかたには適さない。そもそも効果量は「個人」ではなく,「集団」を評価している。

…でも多いこと,多いこと。未習の,ないし不完全にしか習得されない,または極めて習得が困難であるとされる文法項目の知識に対する処遇の効果とかを効果量で論じる論文。基本的にひとつの文法項目や,文法規則の知識は,仮に構成概念ないし熟達度の構成技能(そして潜在変数)であっても,元型尺度上では質的であるはず。

これは声を大にしていいたい。一項目の文法知識を測定するなら,元型尺度が質的(カテゴリカル,つまり規則がある/ない,知っている/知らない)であるが,でも表面尺度が量的(離散,連続)である場合が多い。つまり,本当は,知識は知っている/知らないの二値なのに,正答率やIRTなら受験者能力によって量的な変数として研究上で扱っているということ。これを忘れてはならない。

つまり,知識の有無は,元型尺度が質的なのだから,集団内(間)の相対的位置で決めるべきではない(ときもある,とちょっと弱める)。

たとえば,英語の冠詞の指導の効果の効果量,たとえば0.2でも1.0でもよい。これをもって冠詞を使えるようになったのか,なってないのかがはっきり言って全然分からないのよ(オヨヨ)。元型が質的ということは,決して標準化するべきでもないし,集団に依存するものではない,ってこと。

なのでこの点からみても,効果量が教育実践や教育に関わる実務からみてさっぱりわからないって話。

もちろん,第二言語習得のひとたちの考えがココらへんどうなっているかは不勉強なのですみません。誰か教えてください。

 

3. あくまでも,実務的に計量するなら判別?

まあ,でも,ベンチマークはほしいのよね。実務的な観点では目標規準準拠でも複数のものの効果を比べたりしたいし。実務的な観点は欲張りなのだ。

どうなんだろ?どうしても,量的に,効果量を算出するようにやるのだとしたら,こんな風にしたらいいんじゃないかな。

目標規準準拠なら,そもそも分布が正規分布するべきでないのかもだけど(床→天井),仮にしているとしたら,統制群と実験群の人の成績を混ぜて,判別分析などの分類器を使ってみたらいい。そして,その誤判別率の低さを効果量のようにベンチマークとして解釈してもいいかもしれない。つまり,教えた人と教えていない人をどれだけ正しく判別できるか。ということ。

たとえば,誤判別率が20%だったとか。誤判別率が0%なら,まあ分布は重なっていないみたいな。目標規準準拠の上で,混ぜて判別して100%の精度というのは,すごい理想的。

(こんなかんじねwwwMASSパッケージのlda使ったりして遊んだwwwまあ無理もいっぱいあることがわかった)

 

f:id:kusanagik:20150310184050p:plain

もちろん,処遇受ける前からパスみたいな人は分析から外してもいいかもだし,非連続回帰デザイン(regression-discontinuity design, RDD)みたいなのもある。

判別分析でなくともなんでもいいね。私は個人的に混合分布モデリング(mclustパッケージなど)だぁいすき。教師なしだけど,そもそも統制群と実験群を混ぜたら「混合分布すべき」なんだしね。

 

あと,できればNEDVデザインをもちいて,多変量で判別なりモデリングしてやると面白いかも。目標規準準拠のときに多特性のテストって,ちょっとおもしろそう。

 


NEDV(nonequivalent dependent variables design)のススメ - 草薙の研究ログ

 

もちろん,教育データのためには,非線形判別も大事よね。勉強したいね。