そのメタ分析なんだかな
そういう論文ってどれだけの数あるかわからないのだけど,こんなメタ分析があるって考える。
(潜在変数としての)英語の力と(同じく潜在変数としての)国語(母語?)の力の関係をメタ分析でもとめる,という話にしよう。
基本的に,英語の力(の推定値)は,英語の力を表すとする課題の成績の値それ自身ではない。国語も同じである。英語の力(の推定値)は基本的に英語の力を表すとする課題の成績と相関係数があるはずだ,と考える。英語の力っていうのがあり,それが高ければ英語テストに高い成績を取るだろう,と。
そして,世の中に,英語の力を表すとする課題は2つしかなく(TOEICとTOEFLとか),国語の力を表すとする課題も2つしかないとする。
仮に,以下の様な係数をもつ因子分析モデルがあり,これが真のモデルだと考える。
これは,大体こんな相関係数行列にフィットする構造だ。(頑張って探した)
英語テスト1 | 英語テスト2 | 国語テスト1 | 国語テスト2 | |
---|---|---|---|---|
英語テスト1 | 1.00 | 0.70 | 0.42 | 0.40 |
英語テスト2 | 0.70 | 1.00 | 0.44 | 0.42 |
国語テスト1 | 0.42 | 0.44 | 1.00 | 0.76 |
国語テスト2 | 0.40 | 0.42 | 0.76 | 1.00 |
さて,<真の>英語力と国語力の相関係数は.57くらい。
で,この世界のとき,任意に英語テストのどっちかと国語テストのどっちかをランダムに選んで,その組み合わせの相関係数を報告している研究が25件あるとする。
当たり前すぎるのだけど,これらの研究をメタ分析して,つまり相関係数の重み付け平均を求めたとしても,.57にはならない。
せいぜいがそれぞれの観測変数の相関係数であるr = .40ちょっとに近づく。
実際に数値の例を出す。
その25個の研究の標本サイズは,平均50,標準偏差10くらいだとする。
すべての研究の(両方の)課題の信頼性係数は固定的に.80だとする→汚れた観測値が得られる。
英語テストと国語テストの組み合わせは完全にランダムだとする。
こういう条件下の研究で固定効果のメタ分析(OP)をする。
結果はほい。こんな感じ。
区間で言えば,母相関係数の95%信頼区間は[.26, .37]くらい。
希薄化の修正を行えば,[.35, .45]くらい。な。当たり前だけど。
で,この研究をもって,英語力と国語力の相関は.40くらいだ!なんていったらちょっと違う。解釈がよくない。
あくまでも英語テストと国語テストの相関係数として解釈するのならいい。
任意の観測変数の組み合わせに対してメタ分析をしておいて,潜在変数間の関係として結果を解釈するのは,ちょっとなんだかな。
実際の研究はもっと複雑だ。
同じ潜在変数の指標として使われているものが2つところじゃなくてたくさん混ざっているものもある。それらのモデルはしかも得てして不明だ。処遇の効果,というのも基本的には同じだ。医療系のメタ分析のように薬,または処置,そして成果変数が揃っているわけではない。外国語教育研究では,むしろ成果変数(指導の効果を観るテスト)が同じなんてことはほとんどない。結果は無駄だといわない,ただ,解釈が本当にそれでいいのかは悩みどころ。
これで,こういうのを見たら,メタ分析だから科学的だとか,高いエビデンスを示すとか,そういう話もちょっと一歩引いて考えたくなる。メタ分析が優れた手法だというのは間違いない。
crs<-c(42,42,40,44) n<-as.numeric(25) c<-as.numeric(25) c2<-as.numeric(25) r<-as.numeric(25) r2<-as.numeric(25) l<-paste("Study",1:25) for(i in 1:25){ n[i]<-round(rnorm(1,50,10),0) c[i]<-sample(crs,1) c2[i]<-c[1]*sqrt(.80^2) r[i]<-cor(mvrnorm(n[i],mu=c(50,50),Sigma=matrix(c(100,c[i],c[i],100),2,2)))[1,2] r2[i]<-cor(mvrnorm(n[i],mu=c(50,50),Sigma=matrix(c(100,c2[i],c2[i],100),2,2)))[1,2] } metacor.OP(r,n,l) metacor.OP(r2,n,l)