草薙の研究ログ

英語の先生をやってます。

【サドコマ③】検定めっちゃ繰り返してる…【検定の多重性】

f:id:kusanagik:20200727130701p:plain

 英語教育研究の査読で困った!サドコマシリーズ第三弾!とてもご好評いただいております!シェアしてくださると嬉しいです!
 このシリーズについては↓
kusanagi.hatenablog.jp

 こんにちは,草薙です!第3弾では,英語教育研究において頻繁に見られる「検定を多数繰り返している論文」(多重検定論文)についての私見を述べます。はっきり言って,この問題は深刻です。英語教育研究の発展を妨げるもののランキングがあったら,漏れなく5位には入るでしょう。そのため,今回の記事は特に長いです。なにせ,このシリーズの中で一番気合を入れて書いてますから。
 さて,統計的帰無仮説検定において,検定の繰り返しはよくないこととして広く知られています。英語教育研究においても,1990年代後半から現在に至るまで,検定の多重性の問題は一部の研究者によって繰り返し指摘されてきました。しかし,2020年においても検定の多重性が見られる論文は少なくありません。この記事では,英語教育研究における多重検定論文をどのように改善するかについて述べます。

 *あくまでもこの記事は英語教育研究を前提にした草薙の私見であり,他分野,または統計学全般の規範とは異なる場合があります。

 結論を先にいうと,私が提案する方針は3つです。

  1. 検定の多重性に関わらない研究仮説を立てる(検証的な,論理積の研究仮説)
  2. 検定の多重性に関わる場合は統計を行わない(探索的な,論理和の研究仮説)
  3. どうしても多重比較を行う場合はボンフェロー二の補正を使うべき

問題の所在

そもそも検定の多重性って?

 検定の多重性はよくないこととして知られているものの,曖昧な理解に留まっている方も多いです。最初に,この問題について解説します。
 たとえば,それぞれに異なる処遇を与えたA群,B群,C群とがあり,成果変数(outcome)における各群間の平均差について知りたいとします。有意水準α = .05をもって,それぞれA群-B群,A-C群,B群-C群についてt検定を3回繰り返して適用するとします。仮にA群-B群,A群-C群,B群-C群の平均値がすべて等しい場合,3つ行った検定のうち,どれか1つが誤って有意になる確率(第一種の過誤,この場合は特にFWER=familywise error rateといいます)*1が,もともとの有意水準公称の有意水準)よりも高くなります。
 つまり,「本当はどこにも差がないときに,誤ってどこかの群間に差を見出してしまう確率が検定の繰り返しに伴って高くなってしまう」という問題です。この関係はシンプルです。第一種の過誤の確率が,仮にn個の検定なら,1-(1-α)^nとなります。たとえば,検定数が3個の場合におよそ14%です。

f:id:kusanagik:20200725122110p:plain

 複数の群を総当りで比較する場合,とんでもないことになります。8群総当りの比較では,_8 C _2 = 28ですから,1-(1-α)^{28}を計算すると,76%にもなります。参考に,群数と第一種の過誤の関係も可視化しておきます。数式としては,群数がm個のとき,第一種の過誤の確率は,f(m|α)=1-(1-α)^{_m C _2}になります。ここでのαは.05です。

f:id:kusanagik:20200725123752p:plain

 これは群間の比較に限りません。たとえば永田・吉田(1997)*2は,検定の多重性の問題は,(a)多項目,(b)多時点,(c)検定の種類,(d)サブグループ,そしてこれらの組み合わせといった場面においても発生するとしています。
 日本の英語教育研究における典型的な例は以下のようなものです。

  • 20個の質問項目すべてにおいて,被験者の学年(1年,2年,3年)間の多重比較を行った(検定数は60ですから計算上第一種の過誤は計算上およそ95%)
  • 全10回の授業回それぞれにおいて,3群の多重比較を行った
  • 8群の平均値に対して,t検定およびU検定をそれぞれ行った

 英語教育では,水本(2009)*3が多項目(多重エンドポイント)で検定を繰り返す例について指摘しています。質問紙の項目全部を検定するといった場合が多重エンドポイントによる検定の多重性です。同様に,草薙・田村(2017)*4は特にサブグループ解析について検定を繰り返す例を取り上げています。点数で上・中・下群に分けて差を事後的に検定するといった場合がサブグループ解析です。
 よりカジュアルなこの問題の記述としては,この記事をご覧ください。

kusanagi.hatenablog.jp

第一種の過誤の増加よりも目的の履き違え

 ところで,たとえば,医薬分野について考えましょう。この分野では,効果がない治療法や新薬に対して誤って効果を見出してしまっては危険です。たとえばコロナウィルス感染症の治療薬として,効果がない新薬を認可したら大変です。副作用もあるかもしれません。同時に,このような効果検証の手続きに,時間的な制約がある場合もあります。たとえば,コロナウィルス感染症の対処療法の確立はできるだけ早く社会から望まれます。時間や予算の制約から,複数の療法や薬を,複数のエンドポイント(たとえば,咳,熱,倦怠感など)で同時に比較しなければならないときもあります。医薬分野においては,このような事情によって多重検定に伴うFWERを制御するための議論が徹底して行われます。
 しかし,英語教育研究はこの分野とは文脈が異なります。英語教育研究では,「ある指導法に効果がある」と論文に掲載されても,素早く教育現場に浸透することはありません。同時に,余程の拙速な政策施行や制度改革がないなら,英語教育研究者が効果検証を急ぐ必要もありません。なので,私は,正直にいうと,FWERの制御技術云々は英語教育においては比較的重要なことではないと思っています。というよりも,さらに悪いことがこの問題の中に潜んでいるからです。
 それは,意思決定的(decision-making)で,検証的(confirmative)な方法である統計的帰無仮説検定を,仮説形成的(hypothesis-formulating)で,探索的(explorative)な方法のように使用することです。そもそも,統計的帰無仮説検定の設計思想は,十分に統制された実験的状況下において,比較的小標本のデータを使って,ある具体的な仮説を検証するというものでした。雑多なデータの集まりから,研究者が予想しないパターンを網羅的に,そして自動的に抽出する方法ではありません。後者は統計的帰無仮説検定というより,一般にデータマイニングといわれる分野の領域です。
 私は英語教育研究において,仮説形成的で探索的な試みをとても重要視しています。研究はすべて検証的でなければならないとも思いません。第一,私自身が専門とする数理モデリングはかなり探索的ですし,質的研究や記述的研究も正当に評価されるべきだと思います。ここで批判したいのは,その探索的な研究目的ではなく,方法の選び方です。
 繰り返しますが,統計的帰無仮説検定,特に多重比較は効果のデータマイニング装置(草薙・田村, 2017)ではありません。「よくわからないけど取れるだけのデータを取って,全部多重比較に突っ込んだら科学的な真実が自動的に明らかになる」といった便利なツールではないのです。統計は,なんでもデータを突っ込めば科学的真偽を判定してくれる道具ではありません。研究者が,自然を観察し,観察から仮説を作り,そしてその仮説を検証する方法です。観察→仮説形成→検証というステップにおいて,統計的帰無仮説検定が検証を担っています。観察や仮説形成は統計的帰無仮説検定の主たる役割ではありません。
 私は,誤った目的での統計的帰無仮説検定の使用を,英語教育研究から追放する必要があると考えてます。つまり,「第一種の過誤の確率を減らす」という技術的問題よりも遥かに前のレベルについて私は述べているのであり,実際にありとあらゆるQRP(Questionable Research Practice; 疑問符がつく研究実践),特にHARKingに密接に関連していることが悪いのです。

なぜこうなってしまったのか

 現在私は,このような研究実践自体を,研究者の無知や悪徳というよりは,むしろ歴史的な,社会学的な,そして経済学的な分析対象だとして捉えています。つまり,このような研究実践が生まれる必然的な背景があったと考えます。以下に考えられるいくつかの要因を書きます。

  1. 英語教育研究者の養成過程において,統計分析等に関するカリキュラムが十分に提供されている例は稀であった(特に1990年代~2000年代)
  2. 1990年代以降,統計分析を行うコンピュータ・ソフトウェアが急速に普及しはじめ,訓練を受けていない研究者が使用できるようになった
  3. 2000年代,大学院重点化などによってパブリケーション・プレッシャーが高まり,統計を使用しない論文は載らなくなっていった
  4. 2000年代,指導法効果検証ブームによって,パブリケーション・バイアスが高まり,null resultsの論文は載らなくなっていった
  5. 教育を研究対象とする限り,標本サイズの統制が困難であり,小標本は必然的にnull resultsに繋がりやすい
  6. 成果変数(outcome,テストや質問紙など)を比較的自由に開発する文化がある
  7. 学際的であるがゆえに理論的基盤がないため,そもそも形式化され,焦点が絞られた仮説が成立しづらく,研究全体が概して探索的である

 つまり,英語教育研究者は,統計を使用し,有意差を報告しなければならない圧力に慢性的に晒されています。そして理論的足場が弱いために,検証的な仮説が立てられません。加えて,小標本であれば有意差が得られにくいですから,有意差を得るために,テストや質問紙を自作し,同時に取得するデータの種類を増やし,事後的にグループを分けるなど,とにかく検定数を増やさなければなりません。このような状況では,表面的には検証的で,実質的には探索的な方法が好まれることも納得できます。
 結局,具体的な仮説を作らずにおき,根こそぎデータ全部をたくさんの検定にかければよいのです。そして検定結果を見てから最後に整合的な仮説を書けば(HARKing),仮説検証的で有意な証拠を示す科学的な実証論文が「いっちょできあがり♪」です。
 私は実際にこのような方法が優れた研究規範として伝えられていたり,または指導されている例を何度何度も見てきました。いわく,「仮説は最後に書く」「結果から論文を書き始める」といったノウハウです。
 …先に改めるべきは,FWERの増加による結論の誤りというよりは,このresearch traditionです。この手順が恐ろしいのは,仮にこのノウハウを教わっていなくとも,いずれ研究の過程で自然に見につけてしまうことです。つまり,HARKingは,統計の仕組みに詳しい1人の悪質な研究者がそれを発明し,それが闇市場で広く流通しているのではありません。自然に,どの分野でも,いつでも発生し,身につけた研究者が自然に増加していくのです。

実は検証的な場合は問題がない

 ところで,英語教育研究の分野では知られていないことですが,複数の検定を行っているからといって,必ず検定の多重性の問題を抱えているとは限りません。ある特定の研究仮説(RQ)をもつ論文では,検定の多重性の問題がなく,有意水準の補正といったFWERの制御自体が不要です。
 具体的には,研究仮説が複数の検定結果の組み合わせ,つまり論理積(かつ,and,A∧Bと書きます)のみによって表現できる場合がそうです。たとえば,研究仮説において「平均値の高さがA群 > B群 > C群である」と示される場合では,(A > B)∧(B > C)∧(A > C)といった3つのt検定の対立仮説の論理積によって相当します。ここではそのような研究仮説を,論理積の研究仮説と呼びます(この用語は一般的ではありません。私は重要だと思いますが…)。繰り返しますが,このような研究仮説の場合,検定の多重性は問題ありません。
 少し難しいかもしれませんが,以下のように考えましょう。ある成果変数の平均値差について,A群とB群が等しいという帰無仮説 H_1とします。A群とC群が等しいという帰無仮説 H_2とします。B群とC群が等しいという帰無仮説 H_3としますこの3つの仮説を組み合わせて,それらの真偽表を考えると,以下のようになります。我ながら親切なことに,合わせてベン図も描きます。

f:id:kusanagik:20200727130137p:plain

 そもそも検定の多重性とは,第一種の過誤,つまり帰無仮説が正しいときに誤って対立仮説を採択する確率のことですから,α = .05で3つの検定を行えば,3つすべてが同時に第一種の過誤である確率は,0.05^3=0.000125になります。よって有意水準の調整も必要ありません。
 一方,研究仮説が論理和(または,or,∨と書きます)の集まりで構成される場合はどうでしょうか。つまり,「こうかも,またはこうかも,いや,こうかもしれない,いずれにせよ,これらの場合のうち,どれかは正しい」といった種の研究仮説のことです。ここでは論理和の研究仮説と呼ぶことにします。厳密にいえば,排他的論理和というべきです。言葉での説明が長くなりますから,先にイメージを掴むために図表を描きます。

f:id:kusanagik:20200727130318p:plain

 このように,論理和によって,組み合わせの場合全体が研究仮説になっているのですから,誤りの確率が足されていくのです。
 英語教育研究においては,研究仮説ではなく,Research Questionとして示されているとき,特にRQに以下のような表現を含む研究は,後者の論理和の研究仮説に分類されることがほとんどです。こう考えると,英語教育研究の大多数が論理和の研究仮説を持っています。

  • どのように(how)
  • なぜ(why)
  • なにが(what)
  • いつ(when)
  • だれが(who)
  • どの面において(in which aspect
  • どの順番で(in what/which order)

 お気づきのように,5H1Wの疑問文です。もう少し文脈をつけて具体例をあげますね。

  • 統合的動機づけはどのように学習者の自律学習を促すか,または促さないか
  • なぜ多読行動において理想的な自己像は重要な役割を果たすのか
  • 学習者が授業中に気づきを経験するのはいつ
  • どの質問項目がもっとも学習の成否を分けるか
  • どのような心理的側面においてシャドーイングはポジティブな効果をもつか
  • 文法形態素どの順番で習得されるか

 しつこく繰り返しますが,検定の多重性が問題になる場合は,このような論理和の研究仮説の場合です。
 これらの研究は,概して探索的な性質を持ちます。もちろん,研究仮説が明示されていない,または実証結果との対応が取れない研究も同様です。「観察→仮説形成→検証」というステップにおいて,この種のタイプはあくまでも「観察→仮説形成」のステップです。仮説がない「観察→検証」とか,逆方向の「検証→仮説形成」ではありません。
 論理積の研究仮説のイメージは,スナイパー式です。ある1つの仮説に狙いを定めて,複数の弾丸を発砲します。1人の両手両足を狙撃して,全部が当たることでやっと敵の動きを封じるイメージです。一方,論理和の研究仮説はショットガン式です。適当な方向に向けて散弾を発砲します。数ある散弾のうち,どれかが何かには当たるだろうというわけです。

原則

 さて,この問題に対する私の方針を書きます。
 1つ目は,論理積の研究仮説を立てることを推奨するというものです。研究仮説をそのように書けばよいというレトリックの問題ではなく,複数の検定結果のすべてが予想通りだったときのみその場合に限って研究仮説が実証されたとみなすような研究仮説を立てて,研究全体をデザインする必要があります。
 次に,仮説形成的で探索的な研究,特に論理和によって表される研究仮説をもつ研究は,統計的帰無仮説検定を一切行わないということです。あくまでも「観察→仮説形成」というステップですから,検定を使って多重比較を行うのではなくて,データの記述やパターンの発見に留まるべきです。
 最後に,どうしても多重比較を行う必要がある場合は,最も保守的かつ検定統計量の種類や前提に関わりなく,汎用的なボンフェロー二の補正を行う方がよいと考えています。

f:id:kusanagik:20200727154524p:plain

妥協案の提案

論理積の研究仮説の場合

 ここからが具体的な提案です。査読者は,検定の数を見るだけではなくて,むしろその研究の文言をチェックする必要があります。前述の通り,論理積の研究仮説の場合には,余計に有意水準の補正を求める意味はありません。査読段階で仮説を書き直すよう提案することはできませんが,論理積の研究仮説として形式化できる場合は,仮説を明確化することも重要です。
 逆に投稿者は,先行研究や理論的背景が十分にあるのならば,論理積の研究仮説を予め定めるようにするとよいでしょう。これが最も大事な方針です。
 仮説の作り方のより具体的なテクニックとしては,自然言語の疑問文の形をとるRQや,研究目的(purposes)ではなくて,検定結果に対応する具体的な研究仮説を書くとよいでしょう。つまり結果に関する論理的な命題宣言,または数式で結果を表現します。RQとして「どの群の成績が一番高いか?」と問うのではなくて,仮説として「A群の平均値はB群の平均値およびC群の平均値よりも高い」と書きます。もちろん,研究スタイルにも多様性がありますから,場合によっては目的,RQ,仮説を併存させても構わないでしょう。一般に「もしも<要因>を<水準>にすると,<アウトカム>は<効果・予測>になる」と書くと,仮説検証のしやすい仮説になります。
 ところで,論理積の研究仮説ならば常に問題ないかというと,そうではありません。論理積の研究仮説が尤もらしい(plausible)仮説であるかを査読者は評価すべきです。やたらと無根拠に検証的であったりする決めつけ仮説を,高く評価することはできません。決めつけ仮説は,しばしば,著者の強すぎる信念か,特定の集団の規範権威に支配されています。
 また,決めつけ仮説は,HARKingの産物である可能性が高いです。論理積の研究仮説の場合だから大丈夫とは思わず,決めつけ仮説でないかを入念に査読者が検討する必要があります。同様の理屈として,もともと探索的な研究において,仮説がやけに明確に書いてあると,それはただの決めつけです。研究者の先入観を表してるに過ぎません。そのような場合は,中立的に研究目的やRQを書くべきです。大事なことは,研究目的,RQ,仮説を研究が持つ態度によって適切に使い分けることです。英語教育研究ではこの部分が大分後進的であると感じます。
 次に,私が個人的にすり替わり仮説と呼ぶ種の仮説もあります。英語教育研究では,非常に多い例です。正直,溢れかえっています。ARELEとかLETとかLLとかSSLAの掲載論文を網羅的に調べ,当該分野における仮説のすり替え率を発表する研究をするか悩むくらいです。(興味のある人,個人的に連絡ください)
 すり替わり仮説は,論理積の研究仮説のように書かれています。たとえば,多重エンドポイントのデザインによって,「多読行動は,読解意欲,単語力,文法力のすべての変数に効果がある」と形式化されているとします。これは確かに,検証的な論理積の研究仮説です。しかし,たとえば,読解意欲の変数のみにおいて平均差が見られなかったときに,つまり結果を知って,結論で「多読行動は,単語力,文法力にのみ効果があることが解明された」と書けば,典型的なすり替わり仮説です。
 一見何の問題もないように見えますか? よく「え?何が悪いの?」と聞かれます。しかし,これは問題です。というのも,当初の研究仮説に対して整合的な結論は,「多読行動は,読解意欲,単語力,文法力のすべての変数に効果があるとはいえない」です。これは研究仮説である「多読行動は,読解意欲,単語力,文法力のすべての変数に効果がある」が採択されなかったのだから,null resultsを報告するべきです。このnull resultsとして結論づけるので,有意水準の補正が不要なのです。すり替え仮説のケースでは,最初に特定の仮説を立てておいて,途中で検定結果の組み合わせによってありえるパターンのいずれかにすり替えています。これらの論文は「仮説において考えてもいないことを突然主張し始める論文」なのです。逆にHARKingして美しく見える論文の方が悪質ですが,大抵は先行研究との整合性が怪しいため気づきます。
 いずれにせよ,査読者は上記のような研究仮説の吟味を行って,本当に検定の多重性の問題があるかないかを考える必要があります。同時にHARKing,すり替え,または決めつけがないかもチェックします。大事なことは,統計の処理を見るのではなくて,むしろ仮説と結論を見るということです。このシリーズでも繰り返し指摘してきましたが,統計に関する問題点のほとんどは,実は研究仮説と結論にあります。

論理和の研究仮説の場合

 多重比較に用いられるボンフェロー二の補正,テューキーの手順,ホルムの手順,ダネットの補正,シェッフェの方法…などなどといった多重比較の諸方法は,本来,論理和の研究仮説の際に使用されるために開発されたものです。ですが,結局のところ,医薬分野とは異なり,研究目的があくまでも仮説形成的で探索的な場合が多い英語教育研究では,そもそも上記のような多重比較ではなくて,その顕著に探索的な目的に即した方法を使用すべきです。最近はラーニングアナリティクスとかエデュケーショナルデータマイニングといった分野もあります。どちらかというと,これらの分野の手法の方が,英語教育の文脈に沿う場合が多いと思います。
 たとえば,複数の群間における平均差のパターン抽出だったら,適切な可視化の方が有効です。記述統計を報告し,それを可視化し,そのパターンについて「解明された」であるとか「証明された」であるといった検証的な用語を使用せずに,「C群は他の群よりも相対的に高い平均値の傾向を示した。統計的根拠はないが,この傾向を仮説として次の研究で検証したい」と締めくくる論文の方が,遥かに学術的貢献は大きいです。まさに探索的に観察をして,仮説形成を行っていますね。査読において,このような研究の価値を積極的に認めるべきでしょう。
 逆に,論理和の研究仮説を検定にかけることは,多くの方が思うより,ずっとずっと恐ろしいことです。たとえば,「どのように」と問えば,複数の検定結果の組み合わせがどのようになっても「そのように」という結論を導きます。「なぜ」と問えば,複数の検定結果の組み合わせがどのようになっても「こうだから」という結論を導きます。最初に決まった仮説がないのだから,後付で恣意的に解釈できてしまいます。つまりどの場合でも間違いがないように見えるのです。全部の群間がnullでもない限り,null resultsになりません。なにかが解明されます。
 チェック機能が働かないことも問題です。後付による恣意的な議論も,確固たる理論体系がなければ反駁できません。さらに前回の記事で述べたように,パブリケーション・バイアスを考えれば,そもそも実証的に否定されにくいのです。これによって誤った後付の,恣意的な解釈が理論化されて私たちの分野に居残り続けます。このようなチェック機能として,英語教育研究には形式的で強い理論や公理や原則が必要なのです。
 少し話が逸れますが,英語教育研究における議論や考察(discussion)または解釈を殊更重要視するユニークでローカルな研究規範とも繋がっています。私はこれを後付主義と呼びます。研究計画段階よりも結果が出た後の知的活動を重視するアプローチだと定義します。このアプローチでは,「結果がなぜそうなったか」「結果をどのように解釈するか」「結果から何が主張できるか」が重要視されます。英語教育の学会では,いつも研究熱心な方々がこのように質問されます。私は個人的に「くにちゃんの研究にはサスペンス感がない」と言われたことがあります。
 しかし,「結果がなぜそうなったか」と結果を見てから想像の所見を加えるというよりも,結果を事前に予測する仮説の方が重要ではないですか?「結果をどのように解釈するか」というよりも,解釈の仕方が一様に定まる研究をデザインするべきではないですか?「結果から何が主張できるか」なんて,もはや結果と主張の関係性が弱いことを自ら表明しています。主張を明確に支える証拠が重要ではないですか?
 このようなアプローチは,結局のところ,仮説形成的で探索的な目的を無理やり検証的な形式に変換した際の齟齬そのものに過ぎません。「なぜそうなったか」は結果を所与のものとして逆に仮説形成しています。「どのように解釈するか」は,解釈の仕方すら探索しています。「何がいえるか」はもはや示唆や結論を探索しています。検証的な研究と探索的な研究の区別が全くついていないのです。サスペンス感とは,結局後からあれこれ場当たり的に論じる展開のことですよね。
 …などと「常識的な議論や考察の力量が完全に欠落している」研究者である草薙は申し上げておきます。これは私が査読者さまから頂いた一番のお気に入りフレーズです。でもここに書けてスッキリしました♪
 ちょっと感情的になりすぎましたが,論理和の研究仮説がいかに仮説形成的,探索的で,そしてなぜ統計的帰無仮説検定を応用すべきでないことがわかっていただけるかと思います。もちろん,先に書いたように私は探索的な立場,特にアブダクションの機能を重要視しています。それを履き違えることを強く批判しているのです。

どうしても多重比較を行う場合

 さて,どうしても論理和の研究仮説を立てて,多重比較をしなければならない場合もあるかもしれません。そのような場合は,もちろん適切な手続きを取るべきです。
 最初に,特に多重エンドポイントの場合に考えるべきことは,変数の集約です。たとえば質問項目が複数あれば,そこから合計得点を使用したり,合成得点を作ったり,または因子分析などを行って因子得点にするなどして,とにかく変数の数を減らすべきです。
 次に,それでも変数の数が1つにならないときは,変数の優先度を宣言します。「この変数は本研究の主要な変数だ」とか「この変数はあくまでも補助的な参考である」といった具合です。レベルやランキングをつけても構いません。基本的に,補助的な変数まで全部多重比較する必要はないかもしれませんし,このように優先度を考えると検定数自体を減らせることもできます。
 3つ目に,本当に必要な検定だけを絞り込みます。たとえばCを統制群として,AとBの両方を別の処置群だとする場合,AとBの間の検定は必要ないかもしれません。この場合,AとBの間については検定しなくても構いません。必ずしも総当りで検定しなくてもいいわけです。また,たとえば3群の平均値の比較において,1元配置の分散分析を実施し,これが有意だった場合のみ,それぞれの群間のt検定を行うという分析法(下位分析)が慣習的です。この分析はそもそも多重比較において,閉手順などといって,検定数をできるだけ減らすためのフレームワークに由来します。重要な分析手順ですが,研究仮説によっては,最初の分散分析が不要な場合もあります。たとえば,「研究仮説がA群,B群,C群のうち,どれが高いか」といった仮説であれば,最初の分散分析を飛ばして,t検定を3つ行えばよいと思います。分散分析の帰無仮説はこの仮説と整合的でないからです。
 さらに,検定のための検定(e.g., 等分散性のための検定や正規性の検定)も厳密に言えば帰無仮説族を形成します。つまり,(正規性がある)∧(等分散性がある)∧(2群に差がある)といった場合です。これらの場合は,できるだけ検定のための検定を避けて,代替的な方法を取る方が無難です。より統計上の前提条件のゆるいロバストな方法を使うとよいでしょう。
 さて,最後が,ようやく多重比較の実施です。多重比較の方法はそれこそ無数にあります。場合に応じて,さまざまな方法を選ぶことができます。しかしその選択こそが難しいのです。群間,従属変数,または時期など,それらの組み合わせによって方法は全く異なりますし,等分散性や正規性といった統計的条件によっても異なります。さらに,ある種の党派性や手法の哲学争いがあります。たとえば,教育心理学では,A大は伝統的にホルムで,B大はテューキーで,C大はステップダウン・ボンフェローニで…といった話を聞いたことがあります。結局,これらの方法の選択はかなり技術的で複雑なため,英語教育研究ではこれらの方法のどれがよいかについて吟味する必要はそれほどないと考えます。

 よって,私は,英語教育研究の一般的な研究に限り,ボンフェロー二の補正を推奨します。シンプルに有意水準αを検定の総数Nで割るというもの,つまりN個の検定を行う場合 α/N有意水準として検定するわけです。もっとも有名,かつシンプルです。学習費用およびコミュニケーション費用が最安でもあります。そして,どのような統計量であっても同じように計算でき,統計的解析環境やソフトウェアに限らず実行でき,何よりも最も保守的です。保守的であるとは,もっとも有意差が出にくいことです。あまりにも保守的であるという理由で,その他の方法が好まれますが,それでも,英語教育研究のほとんどの場合では,ボンフェロー二の補正が適切だと思います。もちろん理由もあります。
 1つ目の理由です。保守的であるということは,同時に第二種の過誤,つまり有意差があっても見逃す確率も高まること(検出力が低い)を意味しますが,英語教育研究の文脈では,第二種の過誤が深刻な問題になる場合は少ないと予想されます。現実世界において,第一種の過誤の方が遥かに深刻です。その第一種の過誤ですら,教育上の応用との断絶を考えると,それほど問題でないと考えられるレベルです。
 2つ目は,少し帰結主義的ですが,この保守性,検出力の低さには,悪質な研究仮説を抑制する効果があると期待するからです。仮に研究者が強く有意性を求めるのであれば,「ボンフェロー二は有意にならないからそもそも多重比較はやめよう」となるのではないかと思います。
 3つ目です。実は,英語教育研究における過去の論文を見ると,平均的に報告される効果量は小さくありません。そもそも対象とする現象の効果量が大きい場合が多いのなら,検出力の程度に拘泥して,技術的に高度化させる意味はそれほどありません。シンプルにボンフェロー二の補正を行えばいいのです。スローガンは「英語教育研究は黙ってボンフェローニ!」です。
 4つ目に,検定力分析によって大きな標本サイズを計画することを促進させるはずです。しかし,そもそも検定力分析自体やボンフェロー二の補正したαによる検定力分析が一般化していません。検出力について次回の記事で書きます。
 なので,査読者はどうしても仮説のあり方が論理和的であり,さらに記述統計による探索的な態度ではすまない研究の場合,ボンフェロー二の補正を推奨するとよいかと思います。それ以外の方法の場合,査読者はもちろん,一般的な読者にとっても理解しにくい論文になる可能性もあります。査読プロセスの簡素化も大事な理由です。

考えておきたいこと

 最後に,考えておきたいことをいくつかまとめます。
 まず,いつもこのパターンですが,いわゆる数理モデルを構築し,近似度や適合度といったモデル評価の手続きによって,実質的には多重比較と同じ目的を達成することができる場合があります。ベイズ統計を使った実践では,もちろん場合によりますが,多重比較によるFWERの制御について考えなくてもよい場合もあります。
 次に,次回の効果量の話と関わりますが,特に統計改革後において,「とにかく効果量だけを報告すればよい」であるとか「信頼区間だけ見ればよい」といった方針が聞かれるときもありました。もちろん,効果量や信頼区間は当然報告すべきであり,値も十分に吟味すべきです。しかし,これはあくまでも記述的な,または探索的な方法であると考えた方がよく,具体的な仮説や研究仮説とは馴染みません。たとえば「項目1,項目4,項目8の効果量が大であったことからこの理論が支持された」といった判断や,またはそのような「解釈」はあまりに危険です。詳しくは次回の記事をご覧ください。
 また,α水準をもつ信頼区間も,「ある閾値が信頼区間内にあるかないか」の判断を複数行うときには,検定の多重性と同じ問題が原理的に発生します。厳密に言えば,信頼区間の水準も調整する必要があるというわけです。
 最後に,蛇足になりますが,個人的な感情について述べます。この問題には非常に強い思い入れを持っているのです。自分が勉強する内容の側に,なぜか常にこの問題があり続けたのです。英語教育研究の発展を考えるすべての時間,必ずこの問題が私の頭に浮かぶのです。でも,本当に,この問題はもうそろそろやめにしませんか。どうにかこの記事が広まり,議論が深まることを期待するばかりです。そして,この記事がこの問題を考えさせてくれた先輩研究者*5たちの意図に沿うものであることを祈るばかりです。

サドコマシリーズ10箇条

 …さて,と!これで新しいあいことばが増えました!

 次回は効果量について書きます!(現在は従来予定していたペースよりもだいぶ早めに公開しています)

 私はSNSなどをやっておりませんので,どんどんシェアしていただくと幸いです!広くいろんな方に読んでいただけるよう一生懸命書いてます!

*1:ここでいうfamilyとは帰無仮説の集まり,帰無仮説のことです

*2:永田靖・吉田 道弘(1997)『統計的多重比較法の基礎』サイエンティスト社.

*3:水本篤(2009)「複数の項目やテストにおける検定の多重性: モンテカルロ・シミュレーションによる検証」Language Education & Technology, 46, 1-19.

*4:草薙邦広・田村祐 (2017) 「外国語教育研究における事後分析の危険性」『外国語教育メディア学会中部支部外国語教育基礎研究部会2016年度報告論集』30-49.

*5:2008年くらいでしたが,私はある故人の先生のHPを見て,この問題を知りました。そのページでは非常にやさしく,わかりやすく,そしてユーモアを交えてこの問題を解説していました(私とは大違いです)。この先生のHPを見ているうちに,英語教育研究におけるデータ分析の実践一般に疑問と憤りを覚え,私は日に日に方法論に夢中になっていきました。それから時間が経って,こちらは名前を出させてもらいますが,関西大学の水本先生は,この問題を取り上げられて2010年に画期的な論文を執筆されました。モンテカルロ・シミュレーションを使った研究でした。「モンテカルロ・シミュレーションなんて名前がかっこいい」なんて思っているうちに,ブートストラップだのマルコフ連鎖モンテカルロ法だのを覚えました。そして,時代は変わっても,いつも私の前には「多重比較どうしたらいい?」という相談が来続けます。この記事を執筆している一週間くらいの間にもメールが1通来ました。本当に,「また,お前か…」です。先輩研究者たちも同じ轍を踏んでいたのでしょうね。