【サドコマ⑤】それ正規分布しなくない?【尺度水準と分布】
英語教育研究の査読で困った!サドコマシリーズ第5弾!シェアしてくださると嬉しいです!コロナ禍や所属先が変わったりして,しばらくシリーズが放棄されていました!しかし,少数の熱心な読者さまの励ましとお叱りの末,ここから少しずつ再開します!
このシリーズについては↓
kusanagi.hatenablog.jp
英語教育研究を巡る査読のやりとりでは,「このデータは正規分布には従わない(から分析は間違いだ)」,「このデータはそもそも順序尺度である(から結論は信用できない)」,「尺度水準を間違えて扱っている(から落とす)」といったやりとりが多く見受けられます。私はこの点についての相談を頻繁に受けますが,論文の書き手側も査読者側も,尺度水準や分布に関するコミュニケーションに不安を覚えていらっしゃるようです。この点についてあまりコンセンサスとなるべきような点も見当たりません。…というわけで,第5弾は予定の内容を差し替えて,英語教育研究における尺度水準の取り違えと分布の無視について私見を述べます。
学際的分野である英語教育研究が,研究実践において取り扱うデータは実に多様です。しかし,現在主流であるデータ分析方法は,正規分布を仮定した分析がほとんどです。正規分布以外の分布に従うデータを取り扱う分析方法も普及の過程にありますが,そもそも英語教育研究では,確率分布に関する基礎的な知識が慢性的に欠落しているといわざるをえません。ここでは査読時を念頭に置いて,データの尺度水準や分布について疑問が起きたとき,どのようなコミュニケーションが研究を改善するために有効かについて考えます。統計分析の技術論というよりは,査読時のコミュニケーションに着目しているのがこのシリーズのコンセプトです。
*あくまでもこの記事は英語教育研究を前提にした草薙の私見であり,他分野,または統計学全般の規範とは異なる場合があります。
結論を先にいうと,私が提案する方針は「尺度水準や分布に関する言明を必須とすること」です。
問題の所在
尺度水準
他の多くの統計分析を使用する研究分野と同じく,英語教育研究においても,スティーブンズの尺度水準が常識とされてきました。たとえば,英語教師向けのデータ分析入門書である「英語教師のための教育データ分析入門」(三浦他, 2004)では,非常に平易に,身近な例を含めて,そして丁寧に尺度水準について解説しています。それ以降の外国語教育研究に関する類書も同様の取り扱いをしています。スティーブンズの尺度水準は,
- 名義尺度
- 順序尺度
- 間隔尺度
- 比例尺度
という分類です。ここではそれぞれについて細かな解説を省きます。
近年では,通例的に,
- カテゴリカルデータ(名義尺度に対応)
- 順序データ(順序尺度に対応)
- 量的データ(間隔尺度・比例尺度に対応)
などということもありますし,変数として見る場合は,カテゴリカル変数とか量的変数という場合もあります。その他にも,ときに,
- 質的データ(名義尺度・順序尺度)
- 量的データ(間隔尺度・比例尺度)
と表現するときもあるようです。さらに同じ変数として見るとしても,やや少し見方を変えて,
- カテゴリカル変数
- 離散変数
- 連続変数
として区別する場合もあります。
いずれにせよ,これらは2つ以上の値に成立する演算または関係性(2項関係)によって分類しているものだということを意識するとよいでしょう。たとえば,ちょっとだけ厳密に見てみましょう。
名義尺度について考えると,で,だったら,これは反射的であり,かつだったら対称的であると考えたりするわけです。または,順序尺度は,でなら非対称的であって,が成立するので,推移的です。間隔尺度では,,,,が成立する(加法性)とか,比尺度では,さらにとなるような(乗法単位元,0など)があるといった具合です。
要は,尺度水準によって適用してよい演算と適用できない演算があるわけです。たとえば,「男性」,「女性」といった値を取るだろう名義尺度なりカテゴリカル変数とみなすところのものは足したり引いたりできません。ただ単に(男性は男性)で,さらに(男性は女性じゃない)というだけの話です。
しかし,英語教育研究ではこのようなことが十分に周知されていないことが事実としてあるようです。
分布
実は,英語教育研究が利用するデータの多くは,常識的に考えると正規分布とみなすには問題を抱えています。むしろ,逆にどのようなデータが正規分布らしいかというと,当然,最初から正規分布に従うように加工されたデータです。たとえば,
- 項目反応モデルなどで推定された能力値や,それに派生する標準テストの得点
- 予め尺度構成された質問紙の因子得点や,それに準ずる合計尺度得点
などが典型です。要は,複数のデータを足し合わせたりしてできた二次的なデータです。一方,それ以外の,英語教育研究に頻繁に見られるさまざまなデータについて考えてみます。
- 正答 → 0/1のカテゴリカルデータ
- 正答数 → カウントデータのため,そもそも連続変数とみなしにくい
- 正答率 → 0以上1未満であり,さらに天井効果,床効果が多く見られる
- 時間(反応時間,回答時間,読解時間…) → 裾が右に流い分布型となることが一般的
- 回数(提出回数,出席回数,ログイン回数,使用回数,頻度…) → カウントデータ
といったように,少なくとも正規分布や,または間隔尺度以上であるとすらみなしにくいことが明白なものが多いのです。
また,前述のように,正答率は天井効果や床効果が起きることが多いですが,教育に関わる限り,集団基準準拠テストでもなければ起きて当然のことです。同様に,教育というドメインに由来することとして,切断効果も挙げられるでしょう。特定の基準によってすでに選抜された集団を対象にデータを取ると,分布が歪んで当然です。たとえば,ある大学の新入生,その4月の学力データを取ると,合格ライン以下の得点をもつケースは合理的に考えて少ないはずです。さらに,双峰性などとも呼ばれますが,英語教育研究では,2つ以上のピークを持つデータを得られることも少なくありません。得てして,異種のサンプルが混ざり合うことによって発生します。たとえば,小学校のデータを対象とすると,「英語塾に通っている学生」vs.「通っていない学生」といった具合です。しかし,学級を対象としたデータではこういった状況が自然に発生します。
さて,ここまでの話を簡単に,そして乱暴にまとめてしまえば,英語教育研究のデータの圧倒的大多数は,そもそも正規分布には縁遠いのです。まずはここを前提として進めなければなりません。かつて,私に「なぜか私のデータっていつも正規分布しないんです。私の行いが悪いのでしょうか?」と相談をくださった方がいました。普通にデータが回数だったので「当たり前ですよ」とお答えしたら,「やはり!?お祓いとか効きますか?!」といわれました。
目的をもって選ぶことと現実
さて,英語教育研究の多くのデータは正規分布には縁遠いといっても,私は「正規分布を前提とする分析による結果はおしなべて間違いだから唾棄すべき」という論に与することもなければ,「これからは正規分布を前提とする分析ではなくて,難しいナントカモデルを学ばなければならない」といった論に偏るつもりもありません。もちろん,データに対してより適切な確率分布を仮定した分析は有効です。しかし,逆に,目的によっては正規分布を前提とした分析も同等に有効だと考えるからです。
ここで,こんな話を考えてみましょう。私は世でいうところの大男の部類でして,183cm,今朝測ったら92kgありました。なので,日本のメーカーが作った服だったら,大抵サイズ表記でLかXL,そのときの流行りと私の太り具合によってはそれ以上の製品を手にとります。少し前,若い世代にオーバーサイズファッションが流行したときがありました。このとき,私が服を買いに行くと,明らかに小柄な20歳くらいの女性が,私のような大男と並んでメンズのXLのセーターを手に取ったりしていました。
おそらく彼女は「オーバーサイズで着る」という明確な目的をもっています。そして,おそらくこのときの風潮や彼女の嗜好からすると,ウィメンズのSよりも,メンズのXLが実際に似合うのだと思います。しかし,それでもけっして,彼女の身体は私並に大きくなったわけではありません。
話をもどして,私は合理的には正規分布にフィットしないデータに対して,正規分布を仮定するという選択は特定の研究目的の下で正当化されるべきだと考えます。しかし,その選択と目的自体は十分に論文において周知されるべきであると考えます。
逆に私が問題だと考える点は,前提の逸脱ではなくて,前提を逸脱しているということの留保のなさと未周知なのです。オーバーサイズファッション自体は悪くありませんが,オーバーサイズで着ると,着用者のサイズはほとんどわからなくなります。ここに致命的な情報の損失があります。ファッションならまだしも,研究がこれでは困ります。なんでもかんでも正規分布だと盲目的にみなすと,もともとどのようなデータなのかがわからなくなります。データへの無関心を助長します。さらに理論的にいっても,正規分布の逸脱が及ぼす結果・推論への影響がわかりません。
ですから,ある程度「寸法から大きく外れた,メンズのXLを着ている」という留保が必要なように,どのような尺度水準と分布かを予め言明する必要があります。
原則
私が考える原則はこうです。
- 扱うデータに対して尺度水準と分布を明確に言及する
- 査読者はあくまでも研究の合目的性に照らし合わせて,そのことを追求できる
たとえば,「本研究では,アウトカムであるXテストの得点を間隔尺度と捉え,正規分布に従う確率変数であるとして扱った」などと論文内において記述すべきだと考えます。できれば,その理由も添えるとなおよいでしょう。「2群の平均差の検討のために十分である」といった具合です。私はこのような記述をしたとき「当たり前で冗長だから不要である」という指摘を査読者から受けたことがあります。しかし,私はそう思いません。あくまでも,研究者の説明責任の範疇に含まれると考えます。
同様に,査読者は「実際にどの分布を仮定することが最適か」という技術論よりも,あくまでも応用分野ですから,研究との合目的性に照らし合わせて理由を追求するべきだと考えます。つまり,査読者のおしごとは,たとえば「正規分布じゃだめ!」という指摘よりも,「なぜ正規分布を?」と尋ねて説明を求めることです。
ときに「何分布を仮定することが現状の技術水準において最適か?」といったことが話題になることもありますが,これは英語教育研究といった応用分野ではそれほど大きな問題ではないと私は思っています。もちろん私は個人的に関心がありますが,そのようなことを一論文の査読の場で争わなくてもよいかと思います。大事なのは,その研究の目的と分布を選択したことの関係性です。
考えておきたいこと
もちろん,これまでも何度もこのシリーズにて述べているように,生データの共有は非常に重要です。また,適切にデータを可視化して共有することも常に基本の座を占めるでしょう。さらに,この記事は適切に分布に合わせたモデリングの重要性を貶めるものではありません。
むしろ,データ自体の共有,可視化,適切なモデリングへと至るための布石として,尺度水準や分布に関する言明が査読を巡る科学的コミュニケーションの上で機能的に重要だと考えています。たとえば,「なぜ正規分布?」と査読者に問われることによって,その証拠としてデータそのものを可視化したり,分布について検討する機会自体が相対的に増えるでしょう。また,正規分布の仮定が目的に合致しないのならば,別の分布を仮定したモデリングを行うイニシアチブが増します。このようなやりとりは研究を漸進的によりよくすると期待できます。
さて,そもそも,この話の根本について考えると,それは英語教育研究の研究方法論史から理解することもできます。戦後の英語教育研究は,心理学の研究方法論を規範として発展してきました。たとえば,心理学における各種の尺度構成やテスト理論は正規分布に従うデータを得るための非常に優れたツールです。しかし,英語教育研究は学際分野ですから,心理学の研究方法論を心理学ではあまり取り扱わないデータに対しても過剰適用するようになりました。たとえば,言語学・応用言語学に由来する回数データ,頻度データなどは,あまり心理学では扱いません。さらに,近年では教育工学・情報学との関連から,オンライン学習履歴が使用されるようになりました。これらの分野ではそもそも機械学習などが盛んに使用されていますが,英語教育研究では,このような,ときにビッグデータなど呼ばれるデータに対しても,依然として心理学由来の研究方法論を過剰適用している例が見られます。つまり,学際化の中で方法論的なミスマッチが起きているのです。このような学際化の末,英語教育研究ではどのような研究方法論が発展するのでしょうか…なんて。
サドコマシリーズ10箇条
…さて,と!およそ二年越しに新しいあいことばが増えました!
- 報告不備には生データ
- null resultsも評価する
- 検定の多重性は研究仮説を見る
- 有意じゃないとき効果量には言及しない
- 尺度水準や分布について必ず言明
次回は事後分析について書きます!今回は軽めでしたが,次こそは重めの自信作です。
私はSNSなどをやっておりませんので,どんどんシェアしていただくと幸いです!広くいろんな方に読んでいただけるよう一生懸命書いてます!