草薙の研究ログ

英語の先生をやってます。

【サドコマ⑥】事後分析の恐怖【偽陽性】

 英語教育研究の査読で困った!サドコマシリーズ第6弾!シェアしてくださると嬉しいです!

 このシリーズについては↓
kusanagi.hatenablog.jp

 量的研究法による英語教育研究が抱える最大の問題点の1つは,その偽陽性(false positivity)の高さにあると私は考えます。偽陽性とは,実際には有意ではないのに,研究結果として有意となることです。仮にそれが指導法の効果検証だとしたら,効果がない指導法を社会に対して派手に喧伝してしまうことになりかねません。そして,この偽陽性は,俗に事後分析(post-hoc analyses)と呼ばれる一般的な研究慣行によって飛躍的に高まります。しかし,英語教育研究において事後分析は,このような危険性に反して,むしろ丁寧で優れた分析とみなされ,推奨されることもありました。ここに研究規範に関する一種の矛盾があります。一体,私たちは事後分析をどう捉えるべきなのでしょうか?…というわけで,第6弾は英語教育研究における事後分析について私見を述べます。

 *あくまでもこの記事は英語教育研究を前提にした草薙の私見であり,他分野,または統計学全般の規範とは異なる場合があります。なお,この記事は,すでに学術論文として刊行された草薙・田村(2017)*1の内容を参考にしています。

 結論を先にいうと,私自身はいわゆる事後分析について強固な反対派であり,ここで提案する方針は「事後分析をする場合は検定を一切行わないこと」です。

問題の所在

偽陽性

 新型コロナウイルス感染症の拡大によって広く社会に知られるようになったことですが,臨床検査,そして統計的帰無仮説検定には以下の4種類の場合が考えられます。ここでは,平均差の検定を例に取ります。

実際に差がある 実際には差がない
検定が有意 真陽性(true positive) 偽陽性(false positive)
検定が非有意 偽陰性(false negative) 真陰性(true negative)

 統計学の文脈では,偽陽性の場合を第一種の過誤(type I error)偽陰性の場合を第二種の過誤(type II error)と呼びます。また,計算上第一種の過誤が起こる確率をαとし,これを危険率と呼びます。有意確率も同じです。また,同様に,第二種の過誤が起こる確率をβとします。一般に,第二種の過誤は起きないにこしたことがないですから,「第二種の過誤が起きない度合い」を考えて,1-βという確率を考えます。これが,いわゆる検定力(power)や検出力と呼ばれるものです。
 一般に,第一種の過誤が起きる確率を減らそうとすると,逆に第二種の過誤が起きる確率は増えてしまう関係にあります。計算上,αと1-βは標本規模に大きく依存しますから,一定の効果量などを参照基準とした上で,予め定めたαと1-βを満たす標本サイズを見積もることができます。検定力分析(power analysis)と呼ばれる手続きです。
 広く様々な分野で知られる統計改革(statistical reform)後,特に日本の外国語教育研究では,2010年代のメソドロジー・ブーム(草薙他,2021*2)のとき,検定力分析にもとづく事前の標本規模決定が推奨されましたが,英語教育分野全体として見ると,定着にはほど遠かったといえると思います。つまり,現状においても相対的多数の英語教育研究は検定力分析を使用していません。
 さて,必ずしもすべての英語教育研究がそうであるわけではないですが,英語教育研究,特にその指導法効果検証ではしばしば検定結果と指導法の効果が対応付けられます。典型的には,平均差の検定が有意であれば,指導法に効果がある,有意差が得られなければ指導法に効果がないという関係です。ですから,上の表を,

実際に効果がある 実際には効果がない
検定が有意 真陽性(true positive) 偽陽性(false positive)
検定が非有意 偽陰性(false negative) 真陰性(true negative)

というように書き換えられます。一般に検定が有意であれば,パブリケーション・バイアスによって論文が公開される確率は高まります。非有意であれば公開されにくくなります。査読で落ちるからです。さらに,偽陰性(の結果が広まること)はそれほど英語教育実践上,致命的ではないと考えられます。とういうのも,非有意であれば,当該の指導法が社会に流通したりする機会は減り,その点では確かにロスがありますが,なにせ,実際に効果があるのですから。一方,偽陽性の方が私は深刻だと考えます。実際には効果がない指導法が効果的な指導法として,より流通する機会が増えるかもしれません。これは端的にいって,社会的損失ですから研究者の責任は極めて重いと思います。
 いつも申し上げているように,世界中の言語教育に関する年間の研究総数を考えるとそれはもう莫大な数になりますから,すぐに思いつくようなすべての指導法,学習方法,指導技術,または方略であれ,どこかの研究によってすでに有意差が報告されていると考えます。「有意差が過去の研究にて報告されたことがある」という基準をエビデンスと呼ぶのなら,私はほぼすべての指導法,学習方法…にはそういう限定的な意味でエビデンスがあるのだと考えます。一方,エビデンスというのは,私は2値的に,つまり「ある」「なし」で語られるべきだとも考えません。意思決定の一つの方針だと捉えています。

事後分析

 事後分析(post-hoc analyses)は定義が難しいものです。一般に以下のような特徴をもつと考えます。

  1. 研究仮説(RQ)に含まれない,または研究仮説と整合的でない分析を加える
  2. 複数の研究仮説があり,研究仮説の中に仮定や条件がつけられている場合にのみ分析を加える
  3. 一論文において実験・調査の分割がされている

 1の場合の例です。群間比較計画によって指導法の効果検証をしたあとに,「男女やクラスによって効果に違いがあったか」を検証するために,標本分割を行って再度検定をかけるが,これはRQは記載されていない場合などです。しばしば,結果(results)ではなくて,議論(discussion)の章に書かれている場合もあります。
 2の場合は,RQが特徴的ですので見たらわかります。RQが複数並んでおり,主に2つ目以上のRQにおいて,if-then命題が含まれています。RQ1が「効果があるか?」,RQ2が「もしも効果がある場合,それはどのような標本にとって?」のような形式や,分析に着目すると因子スコアの差を検定したあとに,各項目間の検定をもう一度網羅的に行うような場合です。さらに多くの場合,「どのような項目において~」というようにhow, whenといった疑問詞を伴います。
 3の場合は,Study 1,2,3...というように書かれていたり,Experiment 1,2,3...というように書かれています。これ自体が悪いというわけではありませんし,これによって事後分析であるというわけではありません。むしろ,ポイントは,Study 2やStudy 3が,Study 1から得られた知見がなければ成立しない計画になっているような場合です。極端な場合,2と3の区別はつきません。章立てや論文の構成の問題だけの場合もあります。

 いずれにせよ,これらのポイントは,当初計画していない分析,つまり結果が出たあとに分析を加えている点なのです。これはプレレジとして知られる事前登録制度の方針の,まさに反対の行為なわけです。また,一般にQRP(quetionable research practice)の1つとして考えられているHARKing(結果を既知とした仮説形成)と区別ができません。1の場合は形式的にはHARKingではないのでしょう。仮説がないがまま分析をしています。どちらかというと,ただ形式的にRQとして言明していないだけです。2や3は,HARKingなのかそうでないのかが判断できません。本質はすべて実際は探索的な研究を形式的に検証的に見せる研究慣習です。いうまでもなくこれが,私個人がもっとも英語教育研究の発展を妨げていると睨んでいるもので,そしてこのシリーズ,サドコマに通底するテーマに他なりません。
 ところで,具体的にこのような研究がどのような分析を行うというと,草薙・田村(2017)は,以下の3つを挙げました。

  1. 標本分割:あらゆるデモグラフィック変数によって,標本をサブグループに分割する
  2. 分析の平行化:あらゆる種の研究者の自由度によって,複数の分析を同時に行う(当然cherry-pickingにもつながる)
  3. 効果のデータマイニング:予めRQにて言明しないアウトカムの効果検証を行う

 ここではそれぞれの紹介は避けますが,すべて,偽陽性を爆発的に増加させます。この問題は,私がすでに何度も述べていることにも関連します。

kusanagi.hatenablog.jp
kusanagi.hatenablog.jp

 特に後者の記事を読むと,系統的にcherry pickingなどを行うことによって,上記の3つを組み合わせて有意差を技術的に発見することは容易であることがわかります。「有意差を発見する」…。統計学をかじったことのある人にとってはすごいパワーフレーズです。
 中でも厄介なのが,そしてもっとも頻繁に見られる例ですが,熟達度といったデモグラフィックデータによって標本分割を行い,つまり上下群によって分割して効果検証を再度行うことです。これは,単純に平均への回帰によって,下位群が常に有意差を得やすくなります。このようにして,「下位群によりよく効く指導法」が生まれてきます。しかし,これも偽陽性に過ぎないと考えるのが自然でしょう。
 しかし,このような危険性を抱えるものの,事後分析は特定の分野,特定の世代,特定の研究者において,危険な研究行為であるどころか,逆に規範とされてきました。いってしまえば,これこそがよい論文を書くためのテクニックだったのです。私も,主に2010年代の日本で研究トレーニングを受けたキャリアでしたが,このような分析手順を聞くことは少なくありませんでしたし,なんなら実際に行ったことがあります。もちろん,英語教育研究に限った話ではまったくありません。そして,未だに,このような研究行為を規範とされている研究者も数多く知っています。いわく,「データを丁寧に見て」,「より情報量のある分析を行う」といった趣旨です。私も査読者から何度も叱られたことがあります。「データを丁寧に見ると色々わかってくる」「草薙はデータを大事にしていない」と。
 もちろん,私はデータを大事に見ることに反対しません。しかし,それはあくまでも探索的な研究であって,仮説検証を伴う検証型の研究の規範ではないということです。データを得てから仮説生成をすることは,まったく悪くありません。逆に素晴らしい研究になると思います。問題は,それらを履き違えることです。何度も書いているように統計的帰無仮説検定は,あくまでも検証型の方法なのであって,これを探索的に使ってしまうと大失敗する,ということです。この辺は,多重検定の回にて詳しく説明しています。

原則

 というわけでは,私が考える原則はこうです。

  • 事後分析をする論文は検定を一切行わない

 前述の通り,本質的に探索的な論文は,統計的帰無仮説検定にまったく適しません。統計的帰無仮説検定を行わければ,上記のような偽陽性の問題は原理的に発生しないはずです。ですから,事後分析が見られ,さらに統計的帰無仮説検定を行っている(ほとんどの場合,多用していますが…)場合に査読者がすべきことは,検定結果を掲載せずに,探索的な論文としての相応の記述を求めることだと考えます。適切な記述統計の報告,可視化等に留めて,その傾向から派生する新たな研究仮説を研究者コミュニティにて共有することがよいでしょう。
 また,サラミ出版の問題とも関連するため非常に難しいのですが,事後分析を行っている論文は,1論文ではなくて別論文として投稿するよう求めることも場合によっては考えられるかもしれません。

考えておきたいこと

 もちろん,探索的な研究の場合,生データの共有は常に重要です。また,この問題も括ってしまえば,「従来,探索的な研究を正当に評価する枠組みが存在しなかった」という業界に根ざす状況の帰結と言えるかもしれません。今後,検定を行わない研究,研究仮説を持たず,逆に研究仮説を生成する研究をどのように評価するか,といった学会全体のムーブメントが必要になろうかと思います。
 なお,ベイズ統計など,従来の頻度主義的な検定の代替方法についても関心が高まっています。もちろん,これらの方法はp値とは無縁ですが,私は本質はあくまでも変わらないと思っています。ベイズ統計を使ったら,事後分析が好きなようにやり放題だとか,少なくとも本質的にはそんな馬鹿な話はないと思います。むしろ大事なのは,探索的な研究と検証的な研究の区別であり,それらの両方を,適切に評価し,活用していく科学的リテラシーそれ自体なのだと信じます。
 もう1つ考えなければならないのは,研究規範の相違についてです。私がこのサドコマで述べている方針も所詮,冴えない一研究者である草薙の考えに過ぎません。未だにここで述べた事後分析こそが優れた規範,特にパブリケーション上の重要テクニックであると主張される方は大勢います。もしかしたら主流派かもしれません。このような規範の違いが起きたとき,私たちがすべきなのは,やはり話し合いなのだと思います。私は,私の考えが広まることよりも,話し合いのきっかけになることを希望しています。査読というのも,まさにその場なのだと思います。

サドコマシリーズ10箇条

 …さて,と!新しいあいことばが増えました!

 次回は「まったくわからない統計が査読に回ってきたwww」です。査読者の責任とコミュニケーションについて書きます!

 私はSNSなどをやっておりませんので,どんどんシェアしていただくと幸いです!広くいろんな方に読んでいただけるよう一生懸命書いてます!

*1:草薙邦広・田村祐 (2017) 「外国語教育研究における事後分析の危険性『外国語教育メディア学会中部支部外国語教育基礎研究部会2016年度報告論集』30-49.

*2:草薙邦広・石井雄隆・中村大輝・雲財寛・李在鎬・熊井将太・山森光陽(2021)「統計改革は各教育分野にどのように展開していったか」第63回日本教育心理学会総会. オンライン開催.