草薙の研究ログ

英語教育関係。でも最近は統計(特にR)ネタが中心。

集団間の平均値の比較が置いているあまり知られていない仮定

ある種の動機づけの強さについて,性別に由来する差を知りたいと思った。それを測る質問紙(10項目)があるとする。これら10の観測値の平均をもって,この動機づけの強さの値だとみなそう。それで,男女100人ずつくらい集めて,その値の2群の平均値を比べたら,男女間の動機づけの強さの違いが分かるだろう…と。これ,実は結構危ない考えかたですよ。

まず,この測定における男女間の配置不変性(configural invariance)を検証しないとダメ。つまり,男女間で,おなじ潜在変数から同じ観測変数に矢印が刺さっているかということ。…なので,同じパスがかけるか?ってこと,同じ道具で測っているか?ということ。

次に,弱測定不変性(metric invariance)について検証しないとダメ。矢印の強さ(標準係数,因果の強さ)が群間で一緒かということ。

その次に,強測定不変性(scaler invariance)についても。切片が群間で一緒かということ。

最低でも,このようなことがわからないと単純には比較できない。

要は,群間で同じものを同じように測っているという前提の上でなければ,目には見えないものは測れないということ。

…でも,問題は,外国語教育研究では,これが分かるような多母集団検証的因子分析をいつも回せる状態じゃないってことだよね。

しかし,普通の集団間における平均値の比較はこういう仮定をガンガン無視しているんだ,ってことは知っておいて損はない。

外国語教育研究者には「時と場合によって物差し自体が変わる世界で物を測る仕事している」観,もうちょっとあってもいい。

おもしろいことに,質問紙ではこういうことの理解が進んでいて,すぐ査読者は(しっかりした論文であればあるほど)「測定不変性どうなのか?おら?」みたいな話になるのに,尺度構成もしていないような変数群だったらOKになりがちだ。つまり,因子構造が不明の観測変数群の方(ちょっと学生に聞いてみた!タイプの質問紙)が逆にさも測定不変性が完全に証明されているかのような扱いになる。まあ,実務的な問題もあらあな。

いずれにせよ,落ち着いて考えようって話だ。男女間で異性の魅力尺度っていうのを実施したとき,同じ観測変数(質問項目)の組でそれぞれの異性に感じる魅力が測れるぞなんて人はいないだろう。それが基本的にはなんにでも当てはまるのでないかい?っていうだけのこと。

 

参考になるの

Borsboom, D. (2006). The attack of the psychometricians. Psychometrika,71, 425-440.