草薙の研究ログ

英語の先生をやってます。

【サドコマ④】有意差がなかったのに効果量が大きい?【効果量の誤解】

f:id:kusanagik:20200806152046p:plain

 英語教育研究の査読で困った!サドコマシリーズ第4弾!とてもご好評いただいております!シェアしてくださると嬉しいです!
 このシリーズについては↓
kusanagi.hatenablog.jp

 第4弾では,英語教育研究における「効果量(effect size)に関わる誤解」についての私見を述べます。国内の英語教育研究では,2010年頃から効果量を報告する論文が徐々に増加しました。しかし,それに伴って効果量について根本的な誤解をもったまま研究を進める例が目立つようになりました。そのもっとも典型的な例は,「検定結果は有意ではなかったが,効果量が大を示した。このことから,実質科学的にこの指導法の効果はあったものと考えられる」といった主張です。この主張のどのような点が問題になるのでしょうか?そして英語教育研究において,効果量の報告にはどのような意義があるのでしょうか?

 *あくまでもこの記事は英語教育研究を前提にした草薙の私見であり,他分野,または統計学全般の規範とは異なる場合があります。

 結論を先にいうと,私が提案する方針は,「検定が有意であったときのみ,効果量へ言及する」と「効果量を使った探索的な研究を推奨する」です。

問題の所在

誤解の始まり

 効果量は,記述統計や検定統計量などの組合わせから計算される統計的指標の種類です。効果量と呼ばれる総称的なカテゴリーがあって,その中に具体的に,Cohen's d,Glass's ⊿,r η^2...といった無数の指標があります。効果量に属す種々の統計的指標は,計算の方式によって,d族の効果量r族の効果量,または,単純効果量標準化効果量というようなサブカテゴリーに分けられます。分け方にも複数あって,標本効果量と,不偏推定量としての効果量にも分けることもあります。さらに,効果量に属する多数の指標は,ある組み合わせにおいて換算可能であったり,または換算不可能であったりします。
 さて,本来数式で定義されるものを,数式以外の方法,たとえば自然言語で表すと大抵の場合は失敗します。効果量もまさにそうだったと思います。効果量はあくまでも上記のような指標のことですが,しばしば「実質科学的に効果がある度合いを表している」と評されるときがあります。

もともとの目的

 「実質科学的な」という表現の含意は概ね,「理論的にp値と独立していること」という点と「相互に比較可能であること」という点だと私は思っています。
 たとえば,もっともシンプルな効果量であり,そして単純効果量とも呼ばれる平均差は,その名の通り,2群の平均値の差で表されます。A群の平均値が50,B群の平均値が60だったら,平均差は10です。この値自体は,少なくとも理論的にはp値と独立です。というのも,p値の計算過程の途中に平均差は現れますが,平均差の計算にp値は現れません。
 実際の研究ではもちろん,平均差(または効果量全般)の値が大きい場合には,p値が小さくなる傾向にありますが,平均差が厳密に0ピッタリでもなければ,たとえば平均差が0.00001であっても,標本サイズが十分に大きければ検定結果は有意になりえます。
 効果量という枠組み自体は「どのような小さい値であれ,検定が有意差を見出してしまうこと」を問題意識としているわけです。見方を変えていえば,「検定が有意であることが,その知見がもつ帰結の重大さを意味しない」ともいえます。よって,効果量には検定後のチェック機能としての役割が期待されます。検定が有意であったときに,「意味のない差ではないか」というように事後的にチェックするわけです。
 さらにここから発展して,効果量は研究デザインにおいて中心的な役割をもつようになります。より具体的に,標本サイズの決定に重要です。しつこいですが,検定はたとえ途方もなく小さい差であっても標本サイズが十分に大きければ有意差を検出します。逆に,たとえ大きな差であっても,標本サイズが十分でなければ検定は非有意になります。ですから,研究の事前に効果量の値に目安を立てて,その効果量の検出に十分な標本サイズを設定する必要があります。これは,検定力分析(power analysis)と呼ばれる分析の1つです。「10点の差があったら効果があったといえるだろう。なら,10点の差を見出すために適切な標本サイズを決めよう」といった手続きが典型です。
 3つ目,「相互に比較可能であること」とは,たとえば同じ指導法についての研究で,ある研究では10点満点のテストを使用したとして,別の研究では1,000点満点のテストを使用したとします。このとき,2つの研究の平均差を比較しようとしても,スケールが異なるために単純な比較ができません。これを比較可能にするために,それぞれの研究における変数の標準偏差で割ってスケールを揃えます。このようにして標準化平均差といった指標が使用されます。メタ分析は,このような標準化された効果量を使って複数の研究の成果を統合します。
 ここまでをまとめると,「実質科学的」といったことばに期待された効果量の機能・目的は3つです。これらはもちろん,数式上の性質によります。この性質を無視して,「実質科学的」ということばの表面だけに着目すると間違った利用が始まってしまいます。

  1. 検定後のチェック(e.g., 帰結が些細なことを発見してはいないか)
  2. 研究のデザイン(e.g., 必要な標本サイズの見積もり)
  3. 比較可能化(e.g., 他研究と結果を比較・統合できるか)
間違った利用

 間違った利用方法の代表は,検定の互換・代用として利用される場合です。
 効果量には,悪くいえば「文脈を完全に無視した」「恣意的な」,よくいえば,「よく知られている」「慣習的な」基準があって,値を大(0.8くらい?)・中(0.5くらい?)・小(0.2くらい?)といった形容詞に対応させることがあります。このような形容詞の使用の是非は後回しにして,ここでは,仮に効果量が「大」である場合・ない場合と,検定結果が有意である場合・ない場合があると考えましょう。そしてそれらを組み合わせて,以下の4つの場合を考えてみましょう。

f:id:kusanagik:20200801163715p:plain

 タイトルにもあるように,「有意ではなかったが,効果量が大きい」として,研究仮説を支持する事例です。ここで,検定が非有意であり,かつ効果量が大だったときに,対立仮説を支持すれば,これは研究全体としての第一種の過誤の確率を高めます。もちろん,厳密な意味では第一種の過誤ではないのですが,議論を間違ったほうに引っ張ります。つまり,非有意なのに,さも有意であったかのように扱っています。
 私は,これを個人的に自己救済措置と呼んでいます。「検定は有意じゃなかったけど,効果量で救済された!私の研究仮説が復活した!」といった例です。自己救済措置は英語教育研究においてとても頻繁に見られます。*1

f:id:kusanagik:20200806145000p:plain

 私はこれを悪意がある行為というよりは,「実質科学的」ということばに惑わされた帰結だと思っているんです。「検定はうさんくさいらしい。でも効果量は実質科学的らしい」と聞けば,応用分野に属する一般的な統計ユーザーは,効果量が真実(実質科学的)を表していて,検定はあくまでも付随的(実質科学的でない)なものだと考えてしまいます。つまり,標本サイズを十分に大きくできないような教育の分野では,「仕方なく有意差は得られなかったけど,本当は効果があるんだ!」と考えてしまうのです。もちろん,感情的にはとても共感できます。しかし,それを差し引いても,自己救済措置はあまりにも危険です。
 危険性はどんどん増していきます。たとえば,効果量は小・中・大のどの程度であっても,0付近でもない限りにおいて研究仮説自体を主張するとしたらどうでしょうか。また0.20以下は小だともいえないとしても,0.19999...ならどうでしょうか?結局のところ,研究仮説通りの主張を行う確率が際限なく上がっていきます。

f:id:kusanagik:20200801170623p:plain

 これに加えて,前回の多重検定の記事を思い出してください。こんなグラフを見たことはありませんか?検定の多重性を回避しようとして効果量を報告しているのでしょうが,結局有意でないものの中からいくつか救済して,それらについて,さも有意であったときと同じように扱おうとしているのかもしれません。このような論理展開はあまりにも危険です。

f:id:kusanagik:20200806133736p:plain

 端的に効果量の誤差を無視していることが危険性の根本にあります。たとえば,実際には効果量が0だとしたとき(母効果量を0だとする),毎回標本を得れば,その度に効果量の値(標本効果量)は0を中心にばらつきます。そして,標本が小さければ小さいほど,そのばらつきは大きくなっていきます。
 少し複雑に思われるかもしれませんが,こう考えましょう。本当の効果量が0のときに,標本効果量が,ある特定の値以上を取る確率を大きくする一番簡単な方法は,標本サイズを下げることです。標本サイズが小さいと誤差が大きくなりますから,その誤差によって大きな効果量が得られる確率は上がります。これでは,誤差が大きくなることを期待して,小標本の研究を行うことにインセンティブが働いてしまいます。
 こんなシミュレーションをしてみましょう。各群の標本サイズにおいて,100,20,8人の3パターンがあるとします。母効果量を0だとして,それぞれ1,000セットのデータを生成し,その全てのセットにおいて効果量(d)をもとめます。本当は効果がないことのメタ分析を行っているイメージですね。そのシミュレーション結果が下の図です。8人の場合なら,たとえば0.20より大きくなったのは,全体の約35%です。実際に効果量がないというシミュレーション上の環境ですら,8人の比較だと,35%くらいの確率でポジティブな方に効果量を示します。そして第一種の確率が(片側の)2.5%だとすると,シミュレーション結果のうちの33%は「有意じゃなかったけど,効果量はすくなくとも小程度あった」というパターンになります。ちなみに中以上(0.5以上)だと約15%がそのパターンになります。

f:id:kusanagik:20200806135512p:plain

 結局,人数が少ない実験をすればするほど,「有意じゃなかったけど,効果量はあった」という議論がしやすくなります。
 同じように,検定の互換として「効果があるか?」とRQにおいて問い,効果量の任意の値をもって効果があると結論づけるのも場合によっては問題です。上記のように誤差を考慮していないからです。
 さらに,ここまでの話とまったく同様に,有意傾向というのも,ただの非有意のことなので用いるべきではない言葉です。

原則

 原則は,もちろん,「有意差が得られなかったときに,標本効果量を証拠として研究仮説を主張しない」です。このような展開は絶対阻止です。査読でこのような論文が見かけたら,最初にこの点を徹底的に改める必要があります。これを正当化することはできません。
 しかし,これにとどまらず,効果量の本来の目的に忠実に沿った使用を心がける必要があります。英語教育研究に関する状況を考慮して,英語教育研究に限り,私は以下の3つの方針を具体的に提案します。

  1. 検定が有意であったときに限り,効果量の値に言及できる
  2. 効果量の値への言及は,根拠とともに示す。根拠がないなら言及しない
  3. 探索的な研究における効果量の報告を推奨する

妥協案の提案

検定が有意である場合のみ言及

 効果量の1つ目の健全な使い方は,前で述べたように事後的チェックです。事後的チェックというよりも,結果に対する反論への予防線と考えた方がいいでしょう。そもそも,統計的帰無仮説検定という仕組み自体が,学術コミュニケーションにおける機能に着目すれば,結果に対する反論への予防線です。
 たとえば,有意であることが,機能的に何を意味するかというと,「それは偶然ではないか?」というタイプの反論に対するカウンターエビデンスです。検定が有意であれば,「偶然ではなさそうだ」ということの証拠の1つになります。同様に,「有意差があったが,実際には意味がない値ではないか?」という反論があったとしたら,効果量の報告は「意味がないわけではなさそうだ」という種のカウンターエビデンスになります。反論があるから,それを予防しているわけです。
 このことを考えれば,そもそも検定が非有意であるとき,偶然ではなさそうだとも返すこともできないので,次の予防線を張る意味がありません。つまり,「偶然かもしれないが,意味がありそうだ」という種の主張にはまったく説得力がないでしょう?ですので,検定が有意じゃなかった場合には,そもそも効果量の値について積極的に言及する必要はないと思います。
 なぜ,あえて言及すらしないかというと,有意じゃないときに効果量の値に言及すると,いずれにせよレトリックを使って対立仮説を支持するような議論になる場合が多いからです。あえてそのような展開を防ぐためにも,危ない橋は渡らないということです。

効果量への言及は根拠を示す

 次に,上記の事後的チェックとして効果量へ言及するときは,いわゆる大・中・小基準以外の根拠をもって言及すべきだと考えます。少なくとも理想的には,です。
 より具体的にいえば,大・中・小といった表現自体は使用しない方がよいと思います。大・中・小とは,一般に検定力分析を行う際などの目安であって,統計的な計算上の通例だけに意味をもっています。より具体的な,特定の文脈,たとえば,「ある実験条件があるアウトカムに及ぼす影響」とか「ある処遇があるアウトカムに及ぼす影響」といった文脈をもつ場合において使用すべきではありません。つまり,ある具体的な研究において,「効果量が大であった」とか「小であった」という表現は英語教育研究では基本的に不必要だと思います。
 効果量の値は,あくまでも特定の文脈をもつ場合に限定して,その文脈内における相対的な比較のみに役立つと考えたほうがよいかもしれません。たとえば,「ほぼ同条件で行った先行研究の実験と同等の効果量だ」といった具体的な事例を引用した上で言及するべきかと思います。

探索的な研究における効果量

 研究仮説が特にない探索的な,または記述的な研究において,効果量を報告する必要がないかといえばそうではありません。
 むしろ効果量の役割として,将来行われる研究のデザインに貢献することができます。たとえば,探索的な目的の下で,検定をせずに記述統計と効果量を報告する研究があったとします。この研究では確かに強い主張をすることはできませんが,少なくとも仮説形成には役立つはずです。そして仮説形成だけでなく,次の検証的な研究のデザインを可能にします。たとえば,この論文で,標本効果量d = 0.40を示したとします。この探索的な効果量の報告から検定力分析を行って,各群の標本サイズがおよそ100人ずつ必要なことがわかります。次の検証的な研究では100人ずつの実験を行うとよい,といった具合です。
 さらに,探索的な研究であって検定を行っていないとしても,効果量が報告されてあれば,将来的にメタ分析で参照される可能性もあります。 もちろん,APAなどでは効果量の報告を求めています。
 このように,研究は競争的な側面もありますが,基本は科学コミュニティ全体のチームプレイです。チームプレイにおいてこのようなバトンの渡し方はもっとも理想的なものです。このシリーズでは何回も繰り返しますが,英語教育研究において,1論文の価値はそれほど高くないものです。だからこそ,英語教育研究全体が協同的に,効率的に作業を進めていけるような仕組みが必要だと思うんです。そして効果量はそのような仕組みの足場の1つだと思っています。効果量は有意じゃないときの救済措置ではなくて,複数の研究をつなぐバトンだと思いましょう。

考えておきたいこと

 さて,特に教育実践を視野に置くと,効果量に属する指標だけが特別重要だというわけではありません。確かに効果量は研究デザインなどにおいてとても重要ですが,「大きい効果量を示した指導法がよい」といったことばかりに囚われるべきではないかと思います。効果に限らず,リスクコストなどについての観点も重要です。
 国内の英語教育研究の例を挙げると,寺沢(2018)*2は効果量に対する言及の仕方を示す手本の1つになるかと思います。この論文では,約3,000人の調査データを使用し,構造方程式モデリングを行っています。目標としては,小学校における英語経験が英語学習への態度,英語のスキル,そして異文化理解といったアウトカムに及ぼす効果を推定することです。寺沢は,まず,上記のようなアウトカムに対する効果が有意であることを報告しています。しかし,その後,以下のように論じています。

 第一に、前述の通り、本研究で示された小学校英語の効果は(たとえ統計的に有意だったとしても)ごく微弱なものであり、政策導入に必要なコストに見合うものかどうか疑問を抱かせるものである。もっとも、本分析で示された効果量自体は――たとえば偏差値 1-2 程度の向上は――、介入に要するコスト次第では有効性と見なせることがある。たとえば、千円程度の小冊子(たとえば副読本やドリルブックなど)を配布するというコストの小さい教育的介入で、これだけの成果が上がるのであれば大いに評価できるだろう。
 しかしながら、小学校英語のコストはこの対極にある。多くの論者が指摘しているとおり、小学校英語を施行するには教員の再研修、教員の配置、教材・カリキュラムの整備などに莫大なコストを要する (Hashimoto, 2011; 藤原・仲・寺沢, 2017)。これだけのコストに対して、偏差値にして 1-2 ポイントほどの上昇を、小学校英語の有効性と解釈するのは困難と思われる。(寺沢, 2018)

 まさに,検定後の事後チェックとして効果量に言及しており,効果が「あるかないか」といった二極思考ではなく,効果の程度自体に着目し,さらにそのコストを割り引いた上で効果量について議論しています。丁寧に標準化係数を偏差値換算し,そしてコストにかかる証拠となる文献を挙げています。そして「疑問を抱かせる」といったように断定的でない表現を使っています。規範的です。
 大事なことは,統計的な意味での効果,そして効果量自体は,私たちの複雑な意思決定における要因の1つでしかないということです。私たちはそれ以外にもコストやリスクについても考えますし,そしてそもそも定量化できないことにすら価値を見出すでしょう。最初の話題に戻りますが,そしてしつこいですが,効果量はある種の統計指標のカテゴリーの名前です。効果量を使うとき,いつもそのことを思い出すべきだと思います。効果量で目を曇らせてはなりません。
 最後に,効果量の信頼区間の報告も重要です。なかなか査読などで求めることは少ないかもしれませんが,効果量は信頼区間と合わせて報告すべきです。ただ,シリーズ第1弾で述べたようにそれが難しいのなら,生データを公開するほうが便利だと思います。同じように,効果量にもたくさんの種類があります。これらの氾濫もまた問題とされており,換算性の高い共通言語効果量というのも考案されています。「効果量のどれを報告すればよいか」という問題もありますが,まずは生データ自体を公開するように努めるほうがよいかもしれませんね。

サドコマシリーズ10箇条

 …さて,と!これで新しいあいことばが増えました!

 次回は事後分析について書きます!今回は軽めでしたが,次回は重めの自信作です。

 私はSNSなどをやっておりませんので,どんどんシェアしていただくと幸いです!広くいろんな方に読んでいただけるよう一生懸命書いてます!

*1:私は英語教育研究史,特に研究方法に関する技術面の歴史オタクでもあるんですが,こういう事例を収集しています。ちなみに今のところ,手元に該当する39本の論文コレクションがあります。2010年代前半,一気に増えた時期がありました。いわば自己救済措置ブームがあったのです。

*2:寺沢拓敬 (2018)「小学校英語に関する政策的エビデンスー子ども英語力・態度は向上したのか?ー」『関東甲信越英語教育学会誌』32, 57-70. 小学校英語に関する政策的エビデンス

【サドコマ③】検定めっちゃ繰り返してる…【検定の多重性】

f:id:kusanagik:20200727130701p:plain

 英語教育研究の査読で困った!サドコマシリーズ第三弾!とてもご好評いただいております!シェアしてくださると嬉しいです!
 このシリーズについては↓
kusanagi.hatenablog.jp

 こんにちは,草薙です!第3弾では,英語教育研究において頻繁に見られる「検定を多数繰り返している論文」(多重検定論文)についての私見を述べます。はっきり言って,この問題は深刻です。英語教育研究の発展を妨げるもののランキングがあったら,漏れなく5位には入るでしょう。そのため,今回の記事は特に長いです。なにせ,このシリーズの中で一番気合を入れて書いてますから。
 さて,統計的帰無仮説検定において,検定の繰り返しはよくないこととして広く知られています。英語教育研究においても,1990年代後半から現在に至るまで,検定の多重性の問題は一部の研究者によって繰り返し指摘されてきました。しかし,2020年においても検定の多重性が見られる論文は少なくありません。この記事では,英語教育研究における多重検定論文をどのように改善するかについて述べます。

 *あくまでもこの記事は英語教育研究を前提にした草薙の私見であり,他分野,または統計学全般の規範とは異なる場合があります。

 結論を先にいうと,私が提案する方針は3つです。

  1. 検定の多重性に関わらない研究仮説を立てる(検証的な,論理積の研究仮説)
  2. 検定の多重性に関わる場合は統計を行わない(探索的な,論理和の研究仮説)
  3. どうしても多重比較を行う場合はボンフェロー二の補正を使うべき

問題の所在

そもそも検定の多重性って?

 検定の多重性はよくないこととして知られているものの,曖昧な理解に留まっている方も多いです。最初に,この問題について解説します。
 たとえば,それぞれに異なる処遇を与えたA群,B群,C群とがあり,成果変数(outcome)における各群間の平均差について知りたいとします。有意水準α = .05をもって,それぞれA群-B群,A-C群,B群-C群についてt検定を3回繰り返して適用するとします。仮にA群-B群,A群-C群,B群-C群の平均値がすべて等しい場合,3つ行った検定のうち,どれか1つが誤って有意になる確率(第一種の過誤,この場合は特にFWER=familywise error rateといいます)*1が,もともとの有意水準公称の有意水準)よりも高くなります。
 つまり,「本当はどこにも差がないときに,誤ってどこかの群間に差を見出してしまう確率が検定の繰り返しに伴って高くなってしまう」という問題です。この関係はシンプルです。第一種の過誤の確率が,仮にn個の検定なら,1-(1-α)^nとなります。たとえば,検定数が3個の場合におよそ14%です。

f:id:kusanagik:20200725122110p:plain

 複数の群を総当りで比較する場合,とんでもないことになります。8群総当りの比較では,_8 C _2 = 28ですから,1-(1-α)^{28}を計算すると,76%にもなります。参考に,群数と第一種の過誤の関係も可視化しておきます。数式としては,群数がm個のとき,第一種の過誤の確率は,f(m|α)=1-(1-α)^{_m C _2}になります。ここでのαは.05です。

f:id:kusanagik:20200725123752p:plain

 これは群間の比較に限りません。たとえば永田・吉田(1997)*2は,検定の多重性の問題は,(a)多項目,(b)多時点,(c)検定の種類,(d)サブグループ,そしてこれらの組み合わせといった場面においても発生するとしています。
 日本の英語教育研究における典型的な例は以下のようなものです。

  • 20個の質問項目すべてにおいて,被験者の学年(1年,2年,3年)間の多重比較を行った(検定数は60ですから計算上第一種の過誤は計算上およそ95%)
  • 全10回の授業回それぞれにおいて,3群の多重比較を行った
  • 8群の平均値に対して,t検定およびU検定をそれぞれ行った

 英語教育では,水本(2009)*3が多項目(多重エンドポイント)で検定を繰り返す例について指摘しています。質問紙の項目全部を検定するといった場合が多重エンドポイントによる検定の多重性です。同様に,草薙・田村(2017)*4は特にサブグループ解析について検定を繰り返す例を取り上げています。点数で上・中・下群に分けて差を事後的に検定するといった場合がサブグループ解析です。
 よりカジュアルなこの問題の記述としては,この記事をご覧ください。

kusanagi.hatenablog.jp

第一種の過誤の増加よりも目的の履き違え

 ところで,たとえば,医薬分野について考えましょう。この分野では,効果がない治療法や新薬に対して誤って効果を見出してしまっては危険です。たとえばコロナウィルス感染症の治療薬として,効果がない新薬を認可したら大変です。副作用もあるかもしれません。同時に,このような効果検証の手続きに,時間的な制約がある場合もあります。たとえば,コロナウィルス感染症の対処療法の確立はできるだけ早く社会から望まれます。時間や予算の制約から,複数の療法や薬を,複数のエンドポイント(たとえば,咳,熱,倦怠感など)で同時に比較しなければならないときもあります。医薬分野においては,このような事情によって多重検定に伴うFWERを制御するための議論が徹底して行われます。
 しかし,英語教育研究はこの分野とは文脈が異なります。英語教育研究では,「ある指導法に効果がある」と論文に掲載されても,素早く教育現場に浸透することはありません。同時に,余程の拙速な政策施行や制度改革がないなら,英語教育研究者が効果検証を急ぐ必要もありません。なので,私は,正直にいうと,FWERの制御技術云々は英語教育においては比較的重要なことではないと思っています。というよりも,さらに悪いことがこの問題の中に潜んでいるからです。
 それは,意思決定的(decision-making)で,検証的(confirmative)な方法である統計的帰無仮説検定を,仮説形成的(hypothesis-formulating)で,探索的(explorative)な方法のように使用することです。そもそも,統計的帰無仮説検定の設計思想は,十分に統制された実験的状況下において,比較的小標本のデータを使って,ある具体的な仮説を検証するというものでした。雑多なデータの集まりから,研究者が予想しないパターンを網羅的に,そして自動的に抽出する方法ではありません。後者は統計的帰無仮説検定というより,一般にデータマイニングといわれる分野の領域です。
 私は英語教育研究において,仮説形成的で探索的な試みをとても重要視しています。研究はすべて検証的でなければならないとも思いません。第一,私自身が専門とする数理モデリングはかなり探索的ですし,質的研究や記述的研究も正当に評価されるべきだと思います。ここで批判したいのは,その探索的な研究目的ではなく,方法の選び方です。
 繰り返しますが,統計的帰無仮説検定,特に多重比較は効果のデータマイニング装置(草薙・田村, 2017)ではありません。「よくわからないけど取れるだけのデータを取って,全部多重比較に突っ込んだら科学的な真実が自動的に明らかになる」といった便利なツールではないのです。統計は,なんでもデータを突っ込めば科学的真偽を判定してくれる道具ではありません。研究者が,自然を観察し,観察から仮説を作り,そしてその仮説を検証する方法です。観察→仮説形成→検証というステップにおいて,統計的帰無仮説検定が検証を担っています。観察や仮説形成は統計的帰無仮説検定の主たる役割ではありません。
 私は,誤った目的での統計的帰無仮説検定の使用を,英語教育研究から追放する必要があると考えてます。つまり,「第一種の過誤の確率を減らす」という技術的問題よりも遥かに前のレベルについて私は述べているのであり,実際にありとあらゆるQRP(Questionable Research Practice; 疑問符がつく研究実践),特にHARKingに密接に関連していることが悪いのです。

なぜこうなってしまったのか

 現在私は,このような研究実践自体を,研究者の無知や悪徳というよりは,むしろ歴史的な,社会学的な,そして経済学的な分析対象だとして捉えています。つまり,このような研究実践が生まれる必然的な背景があったと考えます。以下に考えられるいくつかの要因を書きます。

  1. 英語教育研究者の養成過程において,統計分析等に関するカリキュラムが十分に提供されている例は稀であった(特に1990年代~2000年代)
  2. 1990年代以降,統計分析を行うコンピュータ・ソフトウェアが急速に普及しはじめ,訓練を受けていない研究者が使用できるようになった
  3. 2000年代,大学院重点化などによってパブリケーション・プレッシャーが高まり,統計を使用しない論文は載らなくなっていった
  4. 2000年代,指導法効果検証ブームによって,パブリケーション・バイアスが高まり,null resultsの論文は載らなくなっていった
  5. 教育を研究対象とする限り,標本サイズの統制が困難であり,小標本は必然的にnull resultsに繋がりやすい
  6. 成果変数(outcome,テストや質問紙など)を比較的自由に開発する文化がある
  7. 学際的であるがゆえに理論的基盤がないため,そもそも形式化され,焦点が絞られた仮説が成立しづらく,研究全体が概して探索的である

 つまり,英語教育研究者は,統計を使用し,有意差を報告しなければならない圧力に慢性的に晒されています。そして理論的足場が弱いために,検証的な仮説が立てられません。加えて,小標本であれば有意差が得られにくいですから,有意差を得るために,テストや質問紙を自作し,同時に取得するデータの種類を増やし,事後的にグループを分けるなど,とにかく検定数を増やさなければなりません。このような状況では,表面的には検証的で,実質的には探索的な方法が好まれることも納得できます。
 結局,具体的な仮説を作らずにおき,根こそぎデータ全部をたくさんの検定にかければよいのです。そして検定結果を見てから最後に整合的な仮説を書けば(HARKing),仮説検証的で有意な証拠を示す科学的な実証論文が「いっちょできあがり♪」です。
 私は実際にこのような方法が優れた研究規範として伝えられていたり,または指導されている例を何度何度も見てきました。いわく,「仮説は最後に書く」「結果から論文を書き始める」といったノウハウです。
 …先に改めるべきは,FWERの増加による結論の誤りというよりは,このresearch traditionです。この手順が恐ろしいのは,仮にこのノウハウを教わっていなくとも,いずれ研究の過程で自然に見につけてしまうことです。つまり,HARKingは,統計の仕組みに詳しい1人の悪質な研究者がそれを発明し,それが闇市場で広く流通しているのではありません。自然に,どの分野でも,いつでも発生し,身につけた研究者が自然に増加していくのです。

実は検証的な場合は問題がない

 ところで,英語教育研究の分野では知られていないことですが,複数の検定を行っているからといって,必ず検定の多重性の問題を抱えているとは限りません。ある特定の研究仮説(RQ)をもつ論文では,検定の多重性の問題がなく,有意水準の補正といったFWERの制御自体が不要です。
 具体的には,研究仮説が複数の検定結果の組み合わせ,つまり論理積(かつ,and,A∧Bと書きます)のみによって表現できる場合がそうです。たとえば,研究仮説において「平均値の高さがA群 > B群 > C群である」と示される場合では,(A > B)∧(B > C)∧(A > C)といった3つのt検定の対立仮説の論理積によって相当します。ここではそのような研究仮説を,論理積の研究仮説と呼びます(この用語は一般的ではありません。私は重要だと思いますが…)。繰り返しますが,このような研究仮説の場合,検定の多重性は問題ありません。
 少し難しいかもしれませんが,以下のように考えましょう。ある成果変数の平均値差について,A群とB群が等しいという帰無仮説 H_1とします。A群とC群が等しいという帰無仮説 H_2とします。B群とC群が等しいという帰無仮説 H_3としますこの3つの仮説を組み合わせて,それらの真偽表を考えると,以下のようになります。我ながら親切なことに,合わせてベン図も描きます。

f:id:kusanagik:20200727130137p:plain

 そもそも検定の多重性とは,第一種の過誤,つまり帰無仮説が正しいときに誤って対立仮説を採択する確率のことですから,α = .05で3つの検定を行えば,3つすべてが同時に第一種の過誤である確率は,0.05^3=0.000125になります。よって有意水準の調整も必要ありません。
 一方,研究仮説が論理和(または,or,∨と書きます)の集まりで構成される場合はどうでしょうか。つまり,「こうかも,またはこうかも,いや,こうかもしれない,いずれにせよ,これらの場合のうち,どれかは正しい」といった種の研究仮説のことです。ここでは論理和の研究仮説と呼ぶことにします。厳密にいえば,排他的論理和というべきです。言葉での説明が長くなりますから,先にイメージを掴むために図表を描きます。

f:id:kusanagik:20200727130318p:plain

 このように,論理和によって,組み合わせの場合全体が研究仮説になっているのですから,誤りの確率が足されていくのです。
 英語教育研究においては,研究仮説ではなく,Research Questionとして示されているとき,特にRQに以下のような表現を含む研究は,後者の論理和の研究仮説に分類されることがほとんどです。こう考えると,英語教育研究の大多数が論理和の研究仮説を持っています。

  • どのように(how)
  • なぜ(why)
  • なにが(what)
  • いつ(when)
  • だれが(who)
  • どの面において(in which aspect
  • どの順番で(in what/which order)

 お気づきのように,5H1Wの疑問文です。もう少し文脈をつけて具体例をあげますね。

  • 統合的動機づけはどのように学習者の自律学習を促すか,または促さないか
  • なぜ多読行動において理想的な自己像は重要な役割を果たすのか
  • 学習者が授業中に気づきを経験するのはいつ
  • どの質問項目がもっとも学習の成否を分けるか
  • どのような心理的側面においてシャドーイングはポジティブな効果をもつか
  • 文法形態素どの順番で習得されるか

 しつこく繰り返しますが,検定の多重性が問題になる場合は,このような論理和の研究仮説の場合です。
 これらの研究は,概して探索的な性質を持ちます。もちろん,研究仮説が明示されていない,または実証結果との対応が取れない研究も同様です。「観察→仮説形成→検証」というステップにおいて,この種のタイプはあくまでも「観察→仮説形成」のステップです。仮説がない「観察→検証」とか,逆方向の「検証→仮説形成」ではありません。
 論理積の研究仮説のイメージは,スナイパー式です。ある1つの仮説に狙いを定めて,複数の弾丸を発砲します。1人の両手両足を狙撃して,全部が当たることでやっと敵の動きを封じるイメージです。一方,論理和の研究仮説はショットガン式です。適当な方向に向けて散弾を発砲します。数ある散弾のうち,どれかが何かには当たるだろうというわけです。

原則

 さて,この問題に対する私の方針を書きます。
 1つ目は,論理積の研究仮説を立てることを推奨するというものです。研究仮説をそのように書けばよいというレトリックの問題ではなく,複数の検定結果のすべてが予想通りだったときのみその場合に限って研究仮説が実証されたとみなすような研究仮説を立てて,研究全体をデザインする必要があります。
 次に,仮説形成的で探索的な研究,特に論理和によって表される研究仮説をもつ研究は,統計的帰無仮説検定を一切行わないということです。あくまでも「観察→仮説形成」というステップですから,検定を使って多重比較を行うのではなくて,データの記述やパターンの発見に留まるべきです。
 最後に,どうしても多重比較を行う必要がある場合は,最も保守的かつ検定統計量の種類や前提に関わりなく,汎用的なボンフェロー二の補正を行う方がよいと考えています。

f:id:kusanagik:20200727154524p:plain

妥協案の提案

論理積の研究仮説の場合

 ここからが具体的な提案です。査読者は,検定の数を見るだけではなくて,むしろその研究の文言をチェックする必要があります。前述の通り,論理積の研究仮説の場合には,余計に有意水準の補正を求める意味はありません。査読段階で仮説を書き直すよう提案することはできませんが,論理積の研究仮説として形式化できる場合は,仮説を明確化することも重要です。
 逆に投稿者は,先行研究や理論的背景が十分にあるのならば,論理積の研究仮説を予め定めるようにするとよいでしょう。これが最も大事な方針です。
 仮説の作り方のより具体的なテクニックとしては,自然言語の疑問文の形をとるRQや,研究目的(purposes)ではなくて,検定結果に対応する具体的な研究仮説を書くとよいでしょう。つまり結果に関する論理的な命題宣言,または数式で結果を表現します。RQとして「どの群の成績が一番高いか?」と問うのではなくて,仮説として「A群の平均値はB群の平均値およびC群の平均値よりも高い」と書きます。もちろん,研究スタイルにも多様性がありますから,場合によっては目的,RQ,仮説を併存させても構わないでしょう。一般に「もしも<要因>を<水準>にすると,<アウトカム>は<効果・予測>になる」と書くと,仮説検証のしやすい仮説になります。
 ところで,論理積の研究仮説ならば常に問題ないかというと,そうではありません。論理積の研究仮説が尤もらしい(plausible)仮説であるかを査読者は評価すべきです。やたらと無根拠に検証的であったりする決めつけ仮説を,高く評価することはできません。決めつけ仮説は,しばしば,著者の強すぎる信念か,特定の集団の規範権威に支配されています。
 また,決めつけ仮説は,HARKingの産物である可能性が高いです。論理積の研究仮説の場合だから大丈夫とは思わず,決めつけ仮説でないかを入念に査読者が検討する必要があります。同様の理屈として,もともと探索的な研究において,仮説がやけに明確に書いてあると,それはただの決めつけです。研究者の先入観を表してるに過ぎません。そのような場合は,中立的に研究目的やRQを書くべきです。大事なことは,研究目的,RQ,仮説を研究が持つ態度によって適切に使い分けることです。英語教育研究ではこの部分が大分後進的であると感じます。
 次に,私が個人的にすり替わり仮説と呼ぶ種の仮説もあります。英語教育研究では,非常に多い例です。正直,溢れかえっています。ARELEとかLETとかLLとかSSLAの掲載論文を網羅的に調べ,当該分野における仮説のすり替え率を発表する研究をするか悩むくらいです。(興味のある人,個人的に連絡ください)
 すり替わり仮説は,論理積の研究仮説のように書かれています。たとえば,多重エンドポイントのデザインによって,「多読行動は,読解意欲,単語力,文法力のすべての変数に効果がある」と形式化されているとします。これは確かに,検証的な論理積の研究仮説です。しかし,たとえば,読解意欲の変数のみにおいて平均差が見られなかったときに,つまり結果を知って,結論で「多読行動は,単語力,文法力にのみ効果があることが解明された」と書けば,典型的なすり替わり仮説です。
 一見何の問題もないように見えますか? よく「え?何が悪いの?」と聞かれます。しかし,これは問題です。というのも,当初の研究仮説に対して整合的な結論は,「多読行動は,読解意欲,単語力,文法力のすべての変数に効果があるとはいえない」です。これは研究仮説である「多読行動は,読解意欲,単語力,文法力のすべての変数に効果がある」が採択されなかったのだから,null resultsを報告するべきです。このnull resultsとして結論づけるので,有意水準の補正が不要なのです。すり替え仮説のケースでは,最初に特定の仮説を立てておいて,途中で検定結果の組み合わせによってありえるパターンのいずれかにすり替えています。これらの論文は「仮説において考えてもいないことを突然主張し始める論文」なのです。逆にHARKingして美しく見える論文の方が悪質ですが,大抵は先行研究との整合性が怪しいため気づきます。
 いずれにせよ,査読者は上記のような研究仮説の吟味を行って,本当に検定の多重性の問題があるかないかを考える必要があります。同時にHARKing,すり替え,または決めつけがないかもチェックします。大事なことは,統計の処理を見るのではなくて,むしろ仮説と結論を見るということです。このシリーズでも繰り返し指摘してきましたが,統計に関する問題点のほとんどは,実は研究仮説と結論にあります。

論理和の研究仮説の場合

 多重比較に用いられるボンフェロー二の補正,テューキーの手順,ホルムの手順,ダネットの補正,シェッフェの方法…などなどといった多重比較の諸方法は,本来,論理和の研究仮説の際に使用されるために開発されたものです。ですが,結局のところ,医薬分野とは異なり,研究目的があくまでも仮説形成的で探索的な場合が多い英語教育研究では,そもそも上記のような多重比較ではなくて,その顕著に探索的な目的に即した方法を使用すべきです。最近はラーニングアナリティクスとかエデュケーショナルデータマイニングといった分野もあります。どちらかというと,これらの分野の手法の方が,英語教育の文脈に沿う場合が多いと思います。
 たとえば,複数の群間における平均差のパターン抽出だったら,適切な可視化の方が有効です。記述統計を報告し,それを可視化し,そのパターンについて「解明された」であるとか「証明された」であるといった検証的な用語を使用せずに,「C群は他の群よりも相対的に高い平均値の傾向を示した。統計的根拠はないが,この傾向を仮説として次の研究で検証したい」と締めくくる論文の方が,遥かに学術的貢献は大きいです。まさに探索的に観察をして,仮説形成を行っていますね。査読において,このような研究の価値を積極的に認めるべきでしょう。
 逆に,論理和の研究仮説を検定にかけることは,多くの方が思うより,ずっとずっと恐ろしいことです。たとえば,「どのように」と問えば,複数の検定結果の組み合わせがどのようになっても「そのように」という結論を導きます。「なぜ」と問えば,複数の検定結果の組み合わせがどのようになっても「こうだから」という結論を導きます。最初に決まった仮説がないのだから,後付で恣意的に解釈できてしまいます。つまりどの場合でも間違いがないように見えるのです。全部の群間がnullでもない限り,null resultsになりません。なにかが解明されます。
 チェック機能が働かないことも問題です。後付による恣意的な議論も,確固たる理論体系がなければ反駁できません。さらに前回の記事で述べたように,パブリケーション・バイアスを考えれば,そもそも実証的に否定されにくいのです。これによって誤った後付の,恣意的な解釈が理論化されて私たちの分野に居残り続けます。このようなチェック機能として,英語教育研究には形式的で強い理論や公理や原則が必要なのです。
 少し話が逸れますが,英語教育研究における議論や考察(discussion)または解釈を殊更重要視するユニークでローカルな研究規範とも繋がっています。私はこれを後付主義と呼びます。研究計画段階よりも結果が出た後の知的活動を重視するアプローチだと定義します。このアプローチでは,「結果がなぜそうなったか」「結果をどのように解釈するか」「結果から何が主張できるか」が重要視されます。英語教育の学会では,いつも研究熱心な方々がこのように質問されます。私は個人的に「くにちゃんの研究にはサスペンス感がない」と言われたことがあります。
 しかし,「結果がなぜそうなったか」と結果を見てから想像の所見を加えるというよりも,結果を事前に予測する仮説の方が重要ではないですか?「結果をどのように解釈するか」というよりも,解釈の仕方が一様に定まる研究をデザインするべきではないですか?「結果から何が主張できるか」なんて,もはや結果と主張の関係性が弱いことを自ら表明しています。主張を明確に支える証拠が重要ではないですか?
 このようなアプローチは,結局のところ,仮説形成的で探索的な目的を無理やり検証的な形式に変換した際の齟齬そのものに過ぎません。「なぜそうなったか」は結果を所与のものとして逆に仮説形成しています。「どのように解釈するか」は,解釈の仕方すら探索しています。「何がいえるか」はもはや示唆や結論を探索しています。検証的な研究と探索的な研究の区別が全くついていないのです。サスペンス感とは,結局後からあれこれ場当たり的に論じる展開のことですよね。
 …などと「常識的な議論や考察の力量が完全に欠落している」研究者である草薙は申し上げておきます。これは私が査読者さまから頂いた一番のお気に入りフレーズです。でもここに書けてスッキリしました♪
 ちょっと感情的になりすぎましたが,論理和の研究仮説がいかに仮説形成的,探索的で,そしてなぜ統計的帰無仮説検定を応用すべきでないことがわかっていただけるかと思います。もちろん,先に書いたように私は探索的な立場,特にアブダクションの機能を重要視しています。それを履き違えることを強く批判しているのです。

どうしても多重比較を行う場合

 さて,どうしても論理和の研究仮説を立てて,多重比較をしなければならない場合もあるかもしれません。そのような場合は,もちろん適切な手続きを取るべきです。
 最初に,特に多重エンドポイントの場合に考えるべきことは,変数の集約です。たとえば質問項目が複数あれば,そこから合計得点を使用したり,合成得点を作ったり,または因子分析などを行って因子得点にするなどして,とにかく変数の数を減らすべきです。
 次に,それでも変数の数が1つにならないときは,変数の優先度を宣言します。「この変数は本研究の主要な変数だ」とか「この変数はあくまでも補助的な参考である」といった具合です。レベルやランキングをつけても構いません。基本的に,補助的な変数まで全部多重比較する必要はないかもしれませんし,このように優先度を考えると検定数自体を減らせることもできます。
 3つ目に,本当に必要な検定だけを絞り込みます。たとえばCを統制群として,AとBの両方を別の処置群だとする場合,AとBの間の検定は必要ないかもしれません。この場合,AとBの間については検定しなくても構いません。必ずしも総当りで検定しなくてもいいわけです。また,たとえば3群の平均値の比較において,1元配置の分散分析を実施し,これが有意だった場合のみ,それぞれの群間のt検定を行うという分析法(下位分析)が慣習的です。この分析はそもそも多重比較において,閉手順などといって,検定数をできるだけ減らすためのフレームワークに由来します。重要な分析手順ですが,研究仮説によっては,最初の分散分析が不要な場合もあります。たとえば,「研究仮説がA群,B群,C群のうち,どれが高いか」といった仮説であれば,最初の分散分析を飛ばして,t検定を3つ行えばよいと思います。分散分析の帰無仮説はこの仮説と整合的でないからです。
 さらに,検定のための検定(e.g., 等分散性のための検定や正規性の検定)も厳密に言えば帰無仮説族を形成します。つまり,(正規性がある)∧(等分散性がある)∧(2群に差がある)といった場合です。これらの場合は,できるだけ検定のための検定を避けて,代替的な方法を取る方が無難です。より統計上の前提条件のゆるいロバストな方法を使うとよいでしょう。
 さて,最後が,ようやく多重比較の実施です。多重比較の方法はそれこそ無数にあります。場合に応じて,さまざまな方法を選ぶことができます。しかしその選択こそが難しいのです。群間,従属変数,または時期など,それらの組み合わせによって方法は全く異なりますし,等分散性や正規性といった統計的条件によっても異なります。さらに,ある種の党派性や手法の哲学争いがあります。たとえば,教育心理学では,A大は伝統的にホルムで,B大はテューキーで,C大はステップダウン・ボンフェローニで…といった話を聞いたことがあります。結局,これらの方法の選択はかなり技術的で複雑なため,英語教育研究ではこれらの方法のどれがよいかについて吟味する必要はそれほどないと考えます。

 よって,私は,英語教育研究の一般的な研究に限り,ボンフェロー二の補正を推奨します。シンプルに有意水準αを検定の総数Nで割るというもの,つまりN個の検定を行う場合 α/N有意水準として検定するわけです。もっとも有名,かつシンプルです。学習費用およびコミュニケーション費用が最安でもあります。そして,どのような統計量であっても同じように計算でき,統計的解析環境やソフトウェアに限らず実行でき,何よりも最も保守的です。保守的であるとは,もっとも有意差が出にくいことです。あまりにも保守的であるという理由で,その他の方法が好まれますが,それでも,英語教育研究のほとんどの場合では,ボンフェロー二の補正が適切だと思います。もちろん理由もあります。
 1つ目の理由です。保守的であるということは,同時に第二種の過誤,つまり有意差があっても見逃す確率も高まること(検出力が低い)を意味しますが,英語教育研究の文脈では,第二種の過誤が深刻な問題になる場合は少ないと予想されます。現実世界において,第一種の過誤の方が遥かに深刻です。その第一種の過誤ですら,教育上の応用との断絶を考えると,それほど問題でないと考えられるレベルです。
 2つ目は,少し帰結主義的ですが,この保守性,検出力の低さには,悪質な研究仮説を抑制する効果があると期待するからです。仮に研究者が強く有意性を求めるのであれば,「ボンフェロー二は有意にならないからそもそも多重比較はやめよう」となるのではないかと思います。
 3つ目です。実は,英語教育研究における過去の論文を見ると,平均的に報告される効果量は小さくありません。そもそも対象とする現象の効果量が大きい場合が多いのなら,検出力の程度に拘泥して,技術的に高度化させる意味はそれほどありません。シンプルにボンフェロー二の補正を行えばいいのです。スローガンは「英語教育研究は黙ってボンフェローニ!」です。
 4つ目に,検定力分析によって大きな標本サイズを計画することを促進させるはずです。しかし,そもそも検定力分析自体やボンフェロー二の補正したαによる検定力分析が一般化していません。検出力について次回の記事で書きます。
 なので,査読者はどうしても仮説のあり方が論理和的であり,さらに記述統計による探索的な態度ではすまない研究の場合,ボンフェロー二の補正を推奨するとよいかと思います。それ以外の方法の場合,査読者はもちろん,一般的な読者にとっても理解しにくい論文になる可能性もあります。査読プロセスの簡素化も大事な理由です。

考えておきたいこと

 最後に,考えておきたいことをいくつかまとめます。
 まず,いつもこのパターンですが,いわゆる数理モデルを構築し,近似度や適合度といったモデル評価の手続きによって,実質的には多重比較と同じ目的を達成することができる場合があります。ベイズ統計を使った実践では,もちろん場合によりますが,多重比較によるFWERの制御について考えなくてもよい場合もあります。
 次に,次回の効果量の話と関わりますが,特に統計改革後において,「とにかく効果量だけを報告すればよい」であるとか「信頼区間だけ見ればよい」といった方針が聞かれるときもありました。もちろん,効果量や信頼区間は当然報告すべきであり,値も十分に吟味すべきです。しかし,これはあくまでも記述的な,または探索的な方法であると考えた方がよく,具体的な仮説や研究仮説とは馴染みません。たとえば「項目1,項目4,項目8の効果量が大であったことからこの理論が支持された」といった判断や,またはそのような「解釈」はあまりに危険です。詳しくは次回の記事をご覧ください。
 また,α水準をもつ信頼区間も,「ある閾値が信頼区間内にあるかないか」の判断を複数行うときには,検定の多重性と同じ問題が原理的に発生します。厳密に言えば,信頼区間の水準も調整する必要があるというわけです。
 最後に,蛇足になりますが,個人的な感情について述べます。この問題には非常に強い思い入れを持っているのです。自分が勉強する内容の側に,なぜか常にこの問題があり続けたのです。英語教育研究の発展を考えるすべての時間,必ずこの問題が私の頭に浮かぶのです。でも,本当に,この問題はもうそろそろやめにしませんか。どうにかこの記事が広まり,議論が深まることを期待するばかりです。そして,この記事がこの問題を考えさせてくれた先輩研究者*5たちの意図に沿うものであることを祈るばかりです。

サドコマシリーズ10箇条

 …さて,と!これで新しいあいことばが増えました!

 次回は効果量について書きます!(現在は従来予定していたペースよりもだいぶ早めに公開しています)

 私はSNSなどをやっておりませんので,どんどんシェアしていただくと幸いです!広くいろんな方に読んでいただけるよう一生懸命書いてます!

*1:ここでいうfamilyとは帰無仮説の集まり,帰無仮説のことです

*2:永田靖・吉田 道弘(1997)『統計的多重比較法の基礎』サイエンティスト社.

*3:水本篤(2009)「複数の項目やテストにおける検定の多重性: モンテカルロ・シミュレーションによる検証」Language Education & Technology, 46, 1-19.

*4:草薙邦広・田村祐 (2017) 「外国語教育研究における事後分析の危険性」『外国語教育メディア学会中部支部外国語教育基礎研究部会2016年度報告論集』30-49.

*5:2008年くらいでしたが,私はある故人の先生のHPを見て,この問題を知りました。そのページでは非常にやさしく,わかりやすく,そしてユーモアを交えてこの問題を解説していました(私とは大違いです)。この先生のHPを見ているうちに,英語教育研究におけるデータ分析の実践一般に疑問と憤りを覚え,私は日に日に方法論に夢中になっていきました。それから時間が経って,こちらは名前を出させてもらいますが,関西大学の水本先生は,この問題を取り上げられて2010年に画期的な論文を執筆されました。モンテカルロ・シミュレーションを使った研究でした。「モンテカルロ・シミュレーションなんて名前がかっこいい」なんて思っているうちに,ブートストラップだのマルコフ連鎖モンテカルロ法だのを覚えました。そして,時代は変わっても,いつも私の前には「多重比較どうしたらいい?」という相談が来続けます。この記事を執筆している一週間くらいの間にもメールが1通来ました。本当に,「また,お前か…」です。先輩研究者たちも同じ轍を踏んでいたのでしょうね。

【サドコマ②】どこにも有意差がなかった…【null results】

f:id:kusanagik:20200720171945p:plain

 英語教育研究の査読で困った!サドコマシリーズ第二弾!早速ご好評いただいております!

 このシリーズについては↓
kusanagi.hatenablog.jp


 第二弾では,英語教育研究において,「論文内のどこにも有意差がない,期待される結果が得られなかった論文(null results)」について私見を述べます。
 統計的帰無仮説検定の枠組みでは,よく知られているように,帰無仮説を棄却できない場合において,対立仮説の含意を主張することができないばかりか,帰無仮説の含意すら主張できません。つまり有意差がなければ,厳密には主張できることなどなにもないと考えられることもあります。しかしそうはいっても,null results論文は,英語教育研究にとって本当に何の意味もないのでしょうか?果たしてそのようなnull results論文を評価する観点はないのでしょうか?

 *あくまでもこの記事は英語教育研究を前提にした草薙の私見であり,他分野,または統計学全般の規範とは異なる場合があります。

 結論を先にいうと,私個人は「null resultsと結論に論理的整合性がある場合に限り,null resultsはnull results独自の基準によって評価し,その貢献をみとめるべき」と考えています。

問題の所在についての詳細

 さて,繰り返しますが,統計的帰無仮説検定において,検定が有意でなかった場合に「この指導法に効果がある」といった対立仮説の含意を主張することはできません(対立仮説の支持)。同時に「この指導法に効果がない」と主張することもできません(帰無仮説の支持)。
 このような非対称な仕組みから,研究者にとって有意な結果を報告するようなインセンティブが働きますから,いわゆるp-hacking(さまざまな方法で有意差を得るための工夫)またはHARKing(既知の結果の下での仮説生成)と呼ばれるような行為の温床になります。否定的な結果を示す論文がパブリッシュされる確率が相対的に低い現状をパブリケーション・バイアスなどとも呼ぶこともあります。もちろん,パブリケーション・バイアスは,さまざまな分野において問題として十分に認識されています。
 ところで英語教育研究では,ある指導法の効果を報告する実証論文(指導法効果検証論文)が主流です。しかし,指導法効果検証論文にパブリケーション・バイアスが働くことは容易に想像できます。また,実例は憚られますが,一般にp-hackingとされる行為の痕跡が見られる論文もあります。私自身,そのような行為と無縁だったとはいいません。そして,これもあくまでも記述的な話ですが,そのような行為自体が研究の生産性とつながっていることも否定できません。このようにnull resultsは研究倫理との関連において議論されることがあります。
 しかし,研究倫理の問題もそのとおりですが,より単純に見て,内容として一向に否定根拠自体が得られないことも重要な問題です。つまり,統計的帰無仮説検定の枠組みでは「指導法に効果がない」というカウンターエビデンスを積極的に示すことができません。しかし,これでは,実質的に効果があると先にいったもの勝ちの状況です。もはや「殴っても反撃がないからとにかく先に殴れ」という世界になります。実際,後世になって効果が否定された指導法はほとんどありません。これによって,「科学的に効果が検証された指導法」は世に溢れます。モンド・セレクションのようです。
 効果は否定されませんが,時代の流れに沿って自然発生する指導法の流行り廃りはあります。ある指導法が流行れば,その指導法の効果がより多く報告され,廃れればその報告の数が少なくなる,大局的に見ればそれだけです。仕組みとして,効果があることを報告するしかないのですから。統計的帰無仮説検定による指導法効果検証は,検証に誤りがあることを最初から念頭に置いている,可謬主義的な研究プログラムではないのかもしれませんね。そもそも。

原則

 さて,たとえどれだけこのシリーズが現実的な妥協点ギリギリを狙うものであっても,統計的帰無仮説検定によって帰無仮説の含意を主張できないことは絶対に捻じ曲げてはなりません。つまり,null resultsの結論は必ず「効果検証に失敗した」または「対立仮説の支持に失敗した」と明確に書くべきであって,あくまでも「効果がないことが科学的に解明された」というように書いてはなりません。null resultsの論文におけるアブストラクトは,たとえば以下のように書かれるべきだと思います。

  • The present study failed to replicate ...
  • The present study did not obtain any statistical significances...
  • The results showed that the present study failed to support the alternative hypothesis (H1).
  • The authors, thus, avoid to conclude that ....
  • The present study did not confirm ...

しかし,一方,上記のように,統計的帰無仮説検定のロジックと結論の記載に整合性があれば,null reults論文に対してはnull results論文として適正な評価を査読者が与えるべきだと考えます。ここが大前提です。

妥協案の提案

null resultsにも意味がある

 研究にはそれ相応の費用と労力がかかっており,パブリケーション・バイアスを強めることは科学研究全体の問題です。なので,null resultsの積極的な価値を考えるムーブメントもあります。たとえば,英語教育研究に限らず,他分野に目を向けると,null resultsを専門とするジャーナルも見つかります。

Journal of Negative Results in BioMedicine | Home page

 また,より具体的に,神経科学分野において,De Graaf and Sack(2018)はnull resultsを実際にどのように評価するべきかについてのモデルを提案しています。(もちろん,null resultsの評価に関して論じる論文はこれに限りません)

www.ncbi.nlm.nih.gov

 つまり,どのような論文であれnull resultsは掲載しない,というような強固な編集方針ではなく,null results論文の積極的な価値を,ある観点をもって,部分的に認めようとするのです。部分的に,というところがポイントです。すべてのnull resultsがよいわけではないことに気をつけなければなりません。「みなさん,失敗した研究をとにかくここに載せましょう!コロナの後はnull resultsキャンペーンだよ!実質査読はないよ!」といったことを英語教育研究において推し進めることを主張したいわけではありません。

null resultsの評価指針

 ここでは,De Graaf and Sack(2018)によるnull resultsの評価指針を参考にしながら,日本の英語教育研究の文脈を考慮し,null resultsをどのように評価するべきか,その観点について書きます。まず,De Graaf and Sack は,null resultsが2つの連続的な特性をもつと考えるモデルを提案しました。そのモデルにおいて,gradient of surprise(意外性の程度)gradient of interpretability(解釈可能性の程度)という特性が仮定されます。これらの組み合わせによって,null resultsの貢献を捉えようとするわけです。

意外性

 意外性とは,その事前における結果の予測とnull resultsの整合性です。たとえば,とてもよく知られた研究結果の追試(replication)の結果がnull resultsだった場合,意外性は高いです。一方,事前に研究者が仮説として立てる結果(研究者がnull resultsを予測する)であれば,意外性は低いです。意外性が低いnull resultsに積極的な価値を見出すことはしにくいですね。「まじか!?」と「そりゃそうだろ」ということです。
 たとえば,とても効果があることがよく知られている指導法の効果がnull resultsなら,意外性は高いといえるでしょう。タスクは言語習得を促すといえないとか。(英語教育では,タスクと呼ばれる処遇の類は科学的に効果があるものとして喧伝されてきたようです)
 一方,効果がないことが普通に信じられていることを題材に,効果がないことを示しても,なんの意外性もありません。大学生にハイブランドの鞄を与えても英語力は伸びたといえなかったとか。(英語教育研究では,学習やその成果変数に対して,学習にかかる経済的資源の大きさが交絡変数になることは自然に予想されます。しかし調度品の経済的価値を変更することが学習に対して直接的な因果関係をもつとは考えられていません)
 つまり,意外性とは,研究者の事前の信念の度合いに依ります。もちろん,信念の度合いといっても,いわゆる「へ~,意外だわ~」といった心理的な個人内経験や「こうであるべきだ」といった個人の規範的意識というより,先行研究との整合性,そして既存の理論からの予測のことだと考えましょう。これはベイズ統計の流行を受けた観点ですね。

解釈可能性

 さて,次の解釈可能性は少しだけ難しい概念です。上記の意外性とは独立した情報量の大きさのこととしています。より具体的にいえば,研究デザインの総合的評価などです。たとえば,事前に検定力分析によって標本サイズを十分に大きくとった研究や大人数のランダム化比較実験は,8人ずつの小標本の研究よりもnull resultsのあり方として解釈しやすいです。手法が悪かったから,といった解釈の確率が低いからです。つまり,解釈可能性とは,手法,デザイン,分析に由来するnull resultsではなさそうな度合いだと考えてもよいでしょう。

これらを参考に組み合わせて

 これらの2つの組み合わせで,null resultsにもさまざまな場合が考えられることがわかります。一般に,意外性が高く,かつ,解釈可能性が高い論文には,より大きな価値があると考えてもいいでしょう。意外性が低く,解釈可能性も低い論文には価値を見出しにくいでしょう。
 たとえば,両方が高い例は「5000人対5000人のランダム化比較実験において,タスクの効果についてnull resultを示す」といった感じです。「しっかりした研究デザインだし,とても意外」です。
 次に,意外性が高く,解釈可能性が低い論文は,「8人と8人の縁故サンプリングの群比較実験で,タスクの効果についてnull resultを示す」といった感じ。「研究デザインは弱いけど,結果自体はとても意外」です。
 3つ目に,意外性が低く,解釈可能性が高い論文は,「5000人対5000人のランダム化比較実験において,鞄を買い与える効果についてnull resultを示す」とか。「研究デザインは優れているけど,結果自体は予想通り」です。
 最後に,意外性が低く,解釈可能性が低い論文は,「8人と8人の縁故サンプリングの群比較実験で,鞄を買い与える効果についてnull resultを示す」など。「研究デザインが弱いし,結果も予想通り」です。
 こう考えると,2つの軸のうち,英語教育研究では意外性の方がやや重要なように考えられます。というのは,解釈可能性が非常に高い実験がそもそもしにくいからです。
 また,意外性がなくても,社会的意義が大きい結果も考えられます。たとえば,こんな場合はどうでしょう?ある既存の政策は,ほぼエビデンスに基づかずにいわゆる「思いつき」や「なりゆき」で施行されたとします。研究者の多くは,この施策に効果がないことを信念として持っているかもしれません。その意味では,この施策に関するnull resultsに意外性はありません。しかし,施行されている政策と整合的な結果にならないことは,研究者の信念というわけではなくても,社会的には十分に意外です。意外性という概念も,研究者個人の信念という枠組みよりも少し大きな意味で捉えられるべきですね。社会学や心理学では,脱常識性といったりするようです。英語教育研究も意外性,脱常識性といった観点について十分に考えたいものですね。

結局null results論文で見るべきこと

 さて,ここまでの議論はこうまとめられます。

  1. 「効果がないことが解明された」と結論で述べていないか
  2. 意外性があるか,つまり,査読者にとってその結果が予想できたか
  3. 解釈可能性があるか,つまり,研究のデザイン全体の評価はどうか

f:id:kusanagik:20200724084805p:plain

考えておきたいこといくつか

 ここでは上記に加え,考えておきたい論点を補足していきます。
 近年の統計学では,帰無仮説に相当する含意を主張するためには,ベイズ統計を使った情報仮説の評価を使用することが標準的です。ベイズ因子といいます。もちろん,ベイズ因子の積極的な利用も考慮されるべきです。特に,最初から研究者がnull resultsを予測した研究を行う場合には,ベイズ因子の利用が適切かと私は思っています。英語教育研究におけるベイズ統計の普及も望まれます。
 もちろん,それ相応に十分に大きな標本サイズを得られるならば,どのような効果量の値であれ(母効果量が0といった特異的なケースを除けば),適切な標本サイズの下では必ず有意差を得ることができます。null resultsの評価の前に,標本サイズの適切な設計段階についても考えるべきことは忘れてはなりません。
 次に,「最後にそれをいっちゃうのか」と批判されそうですが,少なくとも私は,英語教育研究において解釈可能性が高いnull resultsの論文をあまり見たことがありません。ほとんどの場合,有意でない理由は研究デザインにあると推測できます。つまり,null results論文の解釈可能性が概して低いのです。たとえば,

  • 合理的に期待される効果量の大きさに対して標本サイズが小さすぎる
  • 処遇の期間が短すぎる
  • 容易に交絡すると想定できる交絡要因が事後的に統制されていない
  • 標本が明確に不均質・アンバランス
  • 測定の精度が低い(テストのクオリティー,信頼性係数,テストと集団のミスフィット)
  • 単純に統計の分析由来(尺度水準の取り違え,計算ミス,前提の無視,分布の無視,外れ値の無視)
  • 研究のモデルとする先行研究の母集団の適用範囲を遥かに超えて適用している(母集団の年齢,国籍,言語…)

などです。査読者は上記の点などを一通りチェックされてもよいでしょう。どれかに当てはまると予想します。また,自分の論文で有意差を見出すことができなかったら,上記をチェックされるとよいでしょう。
 さらに,意外性の評価といっても,実際には非常に難しい面もあります。たとえば,英語教育研究ではなく隣接分野のSLAという分野では,ライティング・フィードバックの効果について,長い間論争になっているそうです(執筆時にSLAの研究者の方に確認を取りました)。つまり効果がある派とない派が真っ二つになって論争をしているわけです。このような研究テーマでは,効果がない派にとってのnull resultsは意外ではありません。そう信じられていますから。しかしこの結果を意外と見るのは,逆に効果がある派です。すると,もともと反対意見の研究者が高い評価を与え,同意見の研究者が低い評価を与える状況になります。もちろん,これも自然な姿ですが,このような係争中の論争でのnull resultsの評価は実際に難しそうですね。
 また,HARKingにも関することですが,null resultsを得た論文では,その結果がさも従来の先行研究に反するものというように歪めて書くことが,パブリケーションの上で有利になる可能性があります。たとえば,単純に結果がでなかったとき,恣意的に本来の自分の意見の反対意見だけを集めて先行研究を再構築するかもしれません。このような事態は,英語教育研究では十分に考えられることです。そもそも,分野全体で受け入れられている基盤や公理が存在しないため,ありとあらゆる他分野由来の都合のよい知見を拾い上げて,null resultsの意外性を高く見せようとするかもしれません。結果を知ったあとに。
 最後に,ある特定の理論がそもそもnull resultsの累積によって築かれている(theories supported by null results)というケースもあります。たとえば,隣接分野であるSLAの文法や語彙の研究では,「母語話者の反応時間・読解時間に見られる言語刺激や課題の効果が,学習者には見られない」というnull resultsを基盤とした理論形成がとても頻繁に見られます。このような場合,そもそも意外性の評価はどうなるのでしょうか。
 これらを考えると,意外性の評価といっても,意外性を与えるような理論的基盤がなければ評価が成立しません。確固たる研究方法論の基盤がなければ,解釈可能性の評価も成立しません。実際にこのような評価が英語教育研究で機能するかを保証できないのです(むしろ,実は悲観的です)。英語教育研究分野全体として,このようなnull resultsをどう扱うかの議論が活発になってほしいと思います。

サドコマシリーズ10箇条

 さて,これで新しいあいことばが増えました!

  1. 報告不備には生データ
  2. null resultsも評価する

 また来週!来週は「検定めっちゃ繰り返してる」,つまり英語教育研究における多重検定の問題について書きます!(現在は従来予定していたペースよりも早めに公開しています)
 

【サドコマ①】絶対に不可欠な統計の報告がなされてないんだけど?【報告不備】

f:id:kusanagik:20200717225935p:plain

 英語教育研究の査読で困った!サドコマシリーズ第一弾!

 このシリーズについては↓
kusanagi.hatenablog.jp

 第一弾では,「必要と考えられる統計に関する値が報告されていない」論文(報告不備,報告抜け,報告落ち)について私見を述べます。必要不可欠な統計報告がなされていない場合,意図的にデータやその処理過程を隠しているという意味では研究不正,またはQRP(疑問符がつく研究実践)とみなされることもありえます。しかし,応用分野である英語教育研究の現状において,必ずしも適正な報告がなされるわけではありません。あまりにも強く規範的な報告をするような改善を求め,論文を一様にリジェクトすると,逆にそれが英語教育研究における生産性全体を低減させることも想像に難くありません。私たちは,このようなトレードオフの中で,適切な妥協点を見出せるのでしょうか?
 *あくまでもこの記事は英語教育研究を前提にした草薙の私見であり,他分野,または統計学全般の規範とは異る見解を述べています。

 ここで結論を先にいっておくと,報告不備が見られる場合,その報告について事細かに修正するというよりは,生データ自体をそのまま公開するべきだということです。

問題の所在についての詳細

 最初に,統計的帰無仮説検定に属する分析のほとんどは,データから求められる値の変換・計算の段階的過程だと考えることができます。たとえば,2群の平均差に関するt検定では,2群それぞれの平均値,標準偏差,標本サイズから検定統計量t値が求められます(また,Cohen's dのような標準化平均差も求まります)。次に,検定統計量と自由度から有意確率p値が計算できます。その自由度は,それぞれの群の標本サイズから求められます。最後に,有意確率と有意水準から検定の結果が定まります。
 また,分散分析表はよりわかりやすい例です。分散分析表では左の列から右の列へ統計量の計算をしていきます。最左列にある平方和を,その右列にある自由度で割って,平均平方を求め,この平均平方を自由度の右列に付け足します。要因変動と誤差変動における平均平方の比がF値で,これをその右列に付け足します。ここまで求めたF値,第1自由度,第2自由度からp値が計算できます。p値が最右列ですね。分散分析表を掲載すると,このような計算のどの段階がおかしいかがわかるわけです。ステップ化することによって,結果の検証可能性を高める自然な仕組みになっているわけです。
 このことから,規範として,ある分析に使用される値は,漏らさずに報告することが推奨されます。APAなどもそのように推奨しています。これは再現可能性の確保にも繋がる重要な観点です。一般に広く信じられているように,検定結果は,必ずしも生データにのみ対応しているわけではありませんパラメトリック検定といわれる検定は,その名の通り,パラミタだけを使って計算されます。たとえば,完全に同じ平均値,標準偏差,標本サイズをもつ複数のデータセットt検定の結果は同じです。ある一定のデータから計算される値(記述統計等)の組み合わせがあれば,そこから検定結果が検算できたり,またはシミュレーションによって分析自体を再現することが可能なわけです。
 分析の方法によって,検算やシミュレーションに必要となる情報は大きく異なります。たとえば,対応のあるt検定の場合,上記に加え,一般に相関係数が必要になります。検算が可能となる統計量が何であるかは,かなり複雑です。たとえば,標準偏差が報告されてなくても,代わりに分散共分散行列があれば代用できますし,平均値と標本サイズ,あとは差得点の分散がある場合においても,対応のあるt検定を検算することができます。ここまでが基礎的な知識です。
 ところで,英語教育研究の現状では,ある分析に使用される値の報告が徹底されているとは限りません。より具体的にいうと,

  • 検定結果のみを報告している(e.g., 有意だった)
  • 加えて,有意確率を報告している(p = .01で有意であった)
  • 加えて,自由度,検定量,有意確率を報告している(t(31) = 10.21, p < .01で有意であった)
  • 加えて,有意水準,自由度,検定量,有意確率だけを報告している(α = .05として検定では,t(31) = 10.21, p < .01で有意であった)
  • 上記に加え,平均値の報告はされているが,標準偏差の報告が欠落している
  • t検定の等分散性や正規性の仮定についての言及がない

といった場合が少なくありません。かなり厳密にいえば,英語教育研究における大半の論文が,必要不可欠な値の報告を怠っているといえなくもありません。このような報告形態の論文を一概に研究不正やQRPとみなすべきでしょうか?または査読側から,どのような改善を提案したらよいのでしょうか?

原則

 原則として,少なくとも規範的には,研究の責任著者は,その研究の再現に必要なあらゆる情報の開示に協力する義務があると考えましょう。その研究の再現に必要な情報を隠蔽したり,利用不可能にすること自体を正当化することは不可能です。

英語教育研究の現状

 しかし,統計分析のすべての過程に必要な情報を,すべて漏らさず報告しないとならないとはいえない実情もあります。そして,その必要な情報なるものの基準が明確なものとは限らないのです。つまり,タイトルにあるような,絶対に不可欠といったものの線引き自体が非常に微妙です。このことに関して詳しく書きます。
 1つ目のポイントです。英語教育研究者のほとんどは,記述的にいって,どの分析において,どの値が計算の過程に使用されているかの知識をほとんど持ちません。査読者も投稿者も,双方ともに明確な判断がつかないことがほとんどです。どの値が必要でどの値が不必要かをやりとりすること,そして限られた時間内でそこに合意を見出すことが困難な場合があります。そもそもこのやりとりが不効率な場合あります。たとえば,査読者の判断が必ずしも正しくない場合が結構多いのです。これは私の個人的経験でもありますが,査読者の完全な誤解による報告落ちリジェクトというケースは少なくありません。極端な例ですが,ベイズ統計を使用した際に「この論文ではp値が記載されていないので誤りである」という査読者の指摘を実際に見たことがありますし,「2要因の分散分析では自由度は2つ(第一自由度と第二自由度)あるわけがないため,統計的信頼性が欠ける」という指摘も見たことがあります。
 2つ目のポイントです。研究者が再現に必要なあらゆる情報の開示に協力しないケースが多いことも他分野の事例から想像できます。たとえば,事実として,様々な分野において,元データの提出の要請に応える研究者は多くないという報告が次々となされています。これは,元論文の研究者にとってインセンティブが働かない仕組みになっていることも問題です。たとえば,元データの提出をしたところで,問題がなかったとしても,何も研究者にとって利益はなく,提出をすれば誤りであることが指摘される可能性が0じゃないとすれば,期待値としては必ず元研究の価値が疑われることになります。さらに,そもそもデータの記録や整理がなされていなく,技術的に提出の要請に応じられないという場合も多いでしょう。つまり,査読者が「この値,この値,そしてこの値が欠落しているから報告してください」と仮に要請しても,これに応えられる場合はそれほど多くないと考えます。また,査読者に指定された意味のわからい値をソフトウェアから転写する作業自体にはあまり意味がありません。
 3つ目に,現状の英語教育研究において,1論文の統計処理の精度や,分析の高度さ,報告の精度自体はさほど大きな問題ではないという事情もあります。これまで,実際に,重要な理論的知見とされてきた隣接分野(応用言語学第二言語習得)の研究においても,現在の観点から見ればですが,単純な統計の誤用であったり,論理的な誤謬が多く含まれています。そういったことに関わらず,専門用語を提案し,分析のフレームワークを提供したような論文,つまり分野全体に多大な貢献を残した研究は無数にあります。自由度の報告がない1990年代以前の研究はすべて無価値だというわけではありません。n.s.と表記していた1980年代以前,または計算資源の節約からz検定を行っていた論文にも価値があります。
 4つ目です。統計分析の技術的な発展について考えてみましょう。現状において必要とされる統計量などが,将来的に必要とされるとは限りません。たとえば,現在統計分析の主流であるベイズ統計を援用するとしたら,t検定におけるt値は必ずしも必要でないかもしれません。発展速度というか,移り変わりのスピードが非常に速い統計分析技術の中で,たまたま,ちょうど現状において使用されているスタンダード(それすらも最先端からは数十年以上の遅れを取っている)な分析のみに必要な値の報告を徹底することは,それほど重要なことでしょうか?
 私は,それよりもさらに重要なことがあると考えます。

妥協案の提案

 私の考えはこうです。基本的に,査読者や読者が求める情報の開示要請のすべてに応じる必要がある,という原則は厳守すべきです。しかしその上で,顕著に応用的な分野であるのだから,この点については柔軟な態度を取り,1論文における報告の整合性の評価よりも,将来的な再分析が可能であることを保証すべきと思います。
 たとえば,t値,自由度,p値についてすべて誤った報告されていたとしても,または記述統計がすべて報告されていなかったとしても,全データとその明確な取得手続きが公開されてあれば,それほど大きな問題ではないと考えます。仮に元データがありさえすれば,そんなものは後から簡単に計算できますから。将来的にはデータ分析の技術が高度化し,コストも低減しているでしょう。そして実際に再分析をする研究者は,計算の途中段階の値を重要視することはあまりありません。
 さらにいうと,英語教育研究全体の将来の資産になること自体が重要であって,その論文内において決定的な結論を出したりするために,すべての計算過程を完璧に示すべきだとは思いません。自然科学とは異なり,人文系の応用分野で,1つの検定結果がそれほど大きな意味を持ちません。まさに,この分野の歴史が示しているように。メタ分析が理想的な分析だとはいいませんが,1研究の報告よりも,メタ分析の結果がより重要だとするエビデンス階層の考え方も同じです。そうすると,メタ分析で将来的に使用される要件を満たす方がより重要です。
 つまり,報告不備などがあり,全体的に瑕疵あると認められるときに,査読側が投稿者に求めるべきことは,統計処理の途中段階の値を網羅的に記載することよりは,データそのものの公開を求めることです。投稿者に必要なことは,データそのものを公開する準備です。統計処理になにか問題があると考えられた場合,その問題の解決に労力を費やすというよりは,データそのものを公開することの方が手っ取り早く,将来的な利益を考えれば相対的に有効です。そのようなシステムも整備されつつありますが,英語教育研究のほとんどは小規模ですから,統計処理に費やしていた部分を削れば,そのスペースに生データ自体を掲載できる可能性があります。2ページもあれば論文そのものの付録に掲載できるでしょう。もちろん,それに合わせ多少結論を弱める必要もあるかと思います。

f:id:kusanagik:20200718073238p:plain

覚えておくとよいこと

 そうはいっても,整合性のある報告や,1論文の完成度の高さがどうでもいいわけはありません。適切な報告に越したことはありませんし,それを目指す方向性もとても重要です。「生データを出せば統計は間違っててもいい」,「データの提供だけで研究はOK」ということを強調したいわけではありません。
 報告の質を高めるために,ここでは,より一般的な意味で,整合的な報告に必要な情報を記しておきます。逆に言えば,以下のような情報が揃っている場合,データそのものがなくても,分析結果を再現することが可能である場合が多いです。原則はよく知られているように,記述統計をしっかりと報告することです。

  • 2群の平均差の検定の際は,それぞれの平均値,標準偏差,標本サイズが必要
  • 対応のあるt検定,または被験者内計画の分散分析,回帰モデルの際は,上記に加え,分散共分散行列,または相関係数行列が必要
  • 分散分析は,各セルごとの平均値,標準偏差,または分散共分散行列が必要
  • 因子分析,構造方程式モデリングのほとんどの場合,平均ベクトル(各変数の平均値のセット),分散共分散行列,または分散ベクトルと相関係数行列が必要
  • 正規性等の仮定をもつ分析を行った際には,(場合によっては多変量の)歪度および尖度,または分布型に関する言及,または分布型の可視化が必要

 特に,分布型に関する歪度および尖度の報告,またはそもそもデータがどのような分布型であるか,またはどのように扱ったかについての情報は不可欠ですが,現状において報告が徹底されていません。なので,平均値,標準偏差,歪度,尖度,それに加え,分散共分散行列,相関係数行列などといったいわゆる記述統計のレベルを徹底することが重要だと思います。

最後に

 再現可能性を重視するならば,報告内の整合性を追求することよりもデータそのものの公開の方が重要です。
 これでサドコマシリーズ10か条の1つ目ができました。

サドコマシリーズ10か条

  1. 報告不備なら生データ

【サドコマ】英語教育の統計関係の査読で困ったときに

f:id:kusanagik:20200717184409p:plain

このシリーズについて

 このシリーズでは,英語教育研究でしばしば問題になる統計処理のあり方について私見を述べます。後で詳しく書きますが,毎週1本程度,「英語教育研究の統計関係に関して査読で困ったら読む記事」という体裁でカジュアルな統計記事を定期的にアップしていきたいと思います。略してサドコです。現在のところ10回のシリーズものとして計画しています。(ということで自分自身にペースを課しています)
 想定する読者さまは,査読者として,統計関係の評価に悩んでいる方と,投稿者として,査読者対応に悩んでいる方の両方です。内容は,あくまでも,私,草薙個人の私見によります。一研究者としての知見の陳述としてのみ,責任を持つ所存です。私の所属先や,私が所属する学会の見解ではないことに留意してください。
 記事については,統計学全般における規範というよりは,英語教育研究に固有な事情や現状と機能についての側面を優先して書いています。なので,私がこの一連の記事で述べることは,統計学,特に心理学,社会学,医療などで規範とされる統計分析と一部異なります。他分野の方に読んでいただいても,参考程度になるかどうかもわかりません。この記事の読者の大半が英語教育研究者ではないことも留意しています。
 また,ある具体的な論文を落とすべきか採択にすべきかといった観点にも立ち入りません。それはあまりにも文脈依存的です。むしろ,査読においてどうやりとりすべきか,そしてどのような改善ができるか,またはできないか,について書いています。

私の動機

英語教育研究の現状認識

 英語教育研究は非常に学際的な分野であり,様々な他分野の影響を受けて成立しています。そのため,他分野の研究方法と新しい技術の取り入れに対して非常に積極的です。一方で,分野全体の前提となるべき確固たる基盤がないため,研究方法論に関する共通認識が得られにくい状況です。
 そのもっとも典型的な例が,査読のやりとりにあらわれます。主に,統計解析やデータ分析について,査読者と投稿者の間に共通認識が成立しないため,査読のやりとり自体がまったくもって不毛になる場合があります。これは査読者や投稿者がもつ能力の欠乏を意味するものではなく,あくまでも,上記のように,顕著な学際性をもつ応用分野であるゆえ,分野全体において共通認識が得られにくいためであると考えています。
 より具体的にいえば,2010年代以降,日本の英語教育研究では,研究方法論に関する関心が高まり,統計改革といわれる一連の運動が広まりを見せました。従来より流行していた統計的帰無仮説検定のあり方には疑義の目が集まって「従来の統計的帰無仮説検定は望ましいものではなかったのではないか」という反省的な機運もあります。
 しかし統計改革後,規範的な代替として示される数々の新しい解析技術は,控えめにいっても,英語教育研究において十分に普及しませんでした。つまり,現在,統計解析やデータ分析について,いわば「2010年代以前に確立しつつあった一種のスタンダードはよくないものと認識されているが,具体的な代替案には見当がつかない」といった慢性的な状況にあると私は考えます。英語教育研究を担う教員養成や研究者養成のあり方とも無関係ではありません。実際のところ,この点を取り扱う確固たるカリキュラムがない状態なんです。

個人的な動機といきさつ

 査読の話に戻ると,私はここ数年に亘り,年間数十件以上の頻度で「査読者から,その統計の仕方は悪いといわれたけども,代わりにどうしたらよいかわからない」といった投稿者の相談を受けてきました。被査読者から見ると,一方的にダメ出しをされて,しかし代替案は示されてない状況です。一方,それよりも遥かに比率は少ないですが,「現在査読中のこの論文のこの統計について正直判断がつかないから,草薙の意見を知りたい」という相談を受けます。つまり,査読者から見ても,いいのか悪いのかもわからないという状況です。
 私がここ5年くらいの経験で気づいたことは,面白いことに,かなりトピックが限定的だということでした。相談の95%は,10個くらいにトピックに集約できるのじゃないかと。しかもその殆どのトピックは,統計的帰無仮説検定と多変量解析に関係しており,そして投稿者や査読者の研究能力というよりは,そもそもの手法的限界英語教育研究に根ざす根本的な問題に由来するものでした。これがこの一連の記事の動機です。
 ところで,私は,「変態だ」「倒錯している」または「外れ値だ」と周りから窘められるくらい,若手時代の多くの時間を研究方法論に費やしてしまいました。怪我の功名で,その点に関しての多少の専門性は認めてもらっています。ですが,私はやはり若かったので,年齢相応にとても傲慢でした。「英語教育研究の質が低いのは研究者の程度が低いからだ」という観点を信じていました。研究者が自己研鑽すれば,統計に関する問題などはまったく起きないはずだと。より優れた,正しい規範が示されれば,自然にそのような問題は発生しなくなるとタカをくくっていたのです。自己研鑽が大事だと思った自分は,これが今年の新しい数理モデルだと聞けば,そのモデルを習得し,このプログラミング言語が流行ると聞けばそれに時間を掛けました。そんな新しいものを人に伝えると勝手によくなるのではないかと。しかし,そんなことで根本的な問題は解決しませんでした。トレンド系のセレクトショップのバイヤー気取りだったのです。
 トレンドのおっかけでなくて,より現実的な意味において,多くの英語教育研究者が,自分の関心と情熱をもって,普通の研究方法によって普通に研究を進め,それが結実するプロセス自体がより大事だと思うようになりました。これは,私に対して統計の相談に来られる方の目を見てある気づきを得たからです。みなさん,とても困った顔をされているんですよ。相談者には確かに必要最低限の研究の訓練を受けられていない方も多いです。しかし,誰一人として自分の労力を惜しむために私に相談している人はいませんでした。彼ら彼女らの真剣さを見て,私は,私の変態と評されるくだらない研究なんかよりも,私に相談をされる方の研究が実を結ぶほうが社会的な価値をもつのではないかと思うようになりました。もしよかったら,あまり社会との接点がない私ですから,サポートの形でなにか関わりを持てないか,と思ったのです。特に,こういう時期ですしね。

取り上げるトピック

 というわけで,次回からは,具体的に以下のようなトピックについて記事を書いていきます(実は半分くらいはもう書き終わってます)。週1,週末公開の予定です。公開されていない週は,草薙が締め切りに追われているのだと優しく察してください。あと,私になにかの締め切りを課されていて,かつ,私の仕事が遅れている場合でも,「なんだ,くにちゃん,余裕あるじゃん」とか思わないでくださいね。私のエフォート配分というよりは,生存確認の機能もここで兼ねたいと思っています。いつものグデグデとした厭世的で,悲観的で,神経病質な文体を好んでくださっている少数の方(そしていつも励ましとお叱りの手紙をくださる方)にも申し訳ございません。ここでは真面目に,上品に,真剣に丁寧体で書きます。またあまりテクニカルに書くつもりもありません。ただ,想定する読者はあくまでも査読を受けたりしたりする研究者ですから,layman's termだけを使用するわけではありません。そういう意味で入門的ではありません。

 さて,具体的な取り上げる予定のトピックは以下の通りです。

  1. ①絶対に不可欠な統計の報告がなされてないんだけど?
  2. ②どこにも有意差がなかった…
  3. ③検定めっちゃ繰り返してる
  4. ④有意差がなかったのに効果量が大きい?
  5. ⑤変な分布になっちゃった!
  6. ⑥この因子分析,なんか怪しいわ…
  7. ⑦まったくわからない統計が査読に回ってきたwww
  8. ⑧有意差がないけど質的には効果があったかもっていうけど…
  9. ⑨質的研究の査読ってどうするの?
  10. ⑩標本サイズが小さすぎる&アンバランス

 もしかしたら,好評を頂いたら,続けて別の問題についても取り上げたいと思います。それではよろしくお願いします!

 来週は,「①絶対に不可欠な統計の報告がなされてないんだけど?」について書きます。

現在公開中の記事

2020/7/17
kusanagi.hatenablog.jp

2020/7/24
kusanagi.hatenablog.jp

2020/7/28
kusanagi.hatenablog.jp

2020/8/6
kusanagi.hatenablog.jp

「私は本質病が怖かった…」:研究テーマの決め方(2)

本質病って?

前回の記事で,私は私のアイデンティティをそこに見出せるような研究テーマを持たなかった,という個人的な話を変な喩え話を使って書いた。「俺は殺し屋になりたいのであって,敵討ちしたいわけではなかった」っと院生のときに考えたっていう。まあ,平たく言ってこれはその話の続きなんだ。
 私が研究テーマを持たなかったのは,研究テーマをドヤ顔でいう世界が恥ずかしかったことに加えて,ある病気が怖かったからでもあるんだ。ここではその病を本質病と呼ぶことにしよう。本質病ってのは,私の命名でなくて,物理学の武谷三男先生の著書で述べられてるらしい。
 なんか本質病っていえば大げさなんだけど,要は,実際に検証可能なレベルまで研究テーマを絞ることが研究技術としてできなくて,もっぱら解決不可能で,しばしば壮大な思弁に終始するような状態だ。「そもそも本質的には…」みたいな話。「そもそも」って表現がポイントかな。もちろん,分野を限らず,大学院生にも多い。卒論指導の初期段階でもよく見られるし,引退なさった大先生も人によってこうなってらっしゃる場合がある。研究として成立しないような壮大なテーマをいつも語るひと,そんな感じ。

本質病でいいじゃないの

 もちろん,こういう状態も視野を広げたりするのに役立つし,思索を続けるのはなによりも大事だ。研究という営為を日常的にするなら,誰もが経験あることだろうし,私もよくこうなる。いまもそうじゃないかって疑うくらい。いつも,自分は本質病じゃないかって神経質にもなる。
 本質病が悪いかっていったら,別に悪いことだともいいきれない。なにより,知的な原動力を示すからいいじゃないの。パースの「探求の道を塞ぐな」だよね。これは自分の原点だともいえることば。
 素晴らしい。本質病,そういう意味でかっこいいじゃん。「どうでもいいわ」よりは「そもそも本質とは…」ってやっぱかっこいいじゃない。
 それにかなり冷めた目,特に機能文脈的に見ても,本質病を揶揄してもしょうがないし,そういう風土は研究を抑制させる機能を内在させる。本質病の話もちゃんと聞くのが研究コミュニティのマナーだと思う。研究者だったら,そういう話は,常に真剣に耳を傾けるべきだと思うんだ。

それでもやっぱ怖かった…

 しかし,私は自分のやたらと限られた例からだけど,個人的にこう思ったんだよね。2011年のことだったかね。この本質病ってのは,単純に研究が行き詰まった状態のことを示してるんじゃないかって。
 もっといえば,実行可能な研究テーマやその研究の手順がまったく計画できないとき,まさにその状態のことをそういっているのじゃないって。そういうとき,身の丈に合わないような,そもそも不可能なテーマとかを考えちゃう。統計的にいって。現実がそうであるという観測を伴って。
 「本質とは何か」といっちゃうような顕著な志向性が本質ではなくて,研究が進まない状態それ自身が本質病の本質だって。なんとなく,そう思ったんだ。そんな自信無いけどね。
 なんていうか,私は,まさに研究の手順すらまったく計画できない状態,というのがひたすら怖かったんだ。ほんとう,それはもう怖くてたまらなかった。いつも,血の流れが止まっていずれ破裂するようなイメージを持っていた。なんていうか,死に方のひとつなんだ。サラサラ血液みたいに,流れがよくなれば血液はサラサラ,それはもうサラサラなんだけど,なんかその流れが塞がって破裂して結果として死んじゃう,みたいな。そんなイメージがいつもいつも湧いて,私を苦しめた。卒中で死ぬ,そういう悪夢にいつもうなされた。
 自分のことだけじゃなくて,どうやら研究上でそうなってる人を,それこそ本当にたくさん見てきたんだ。その栓みたいなのが取れて流れ出すのが,閃きとか光とかいって,カタルシス感じれて研究は素晴らしいとかいうけど,なんていうかやっぱ怖かったんだ。学位がかかっていれば,期間内にその研究が終わらないといけない。そういう制約は常にある。
 当たり前だけど,若いうちには業績もないと飯も食えない。業績がないと研究ができない。それに一番怖かったのは,本質病の人たちがいずれコミュニティからいなくなること,だった。破裂すると「俺,研究向いてないわ…」って言い出す。一緒に青春を過ごしたひとがいなくなるのはつらいよね。来週からゼミこない,みたいな。どうやらそういう話すら禁じられているようだった。

本質病から抜け出すには

 なんだかんだいっても,結局,研究テーマの決め方,あとは研究手順の計画の技量を高めるしかないのよね。そのためには,まずは研究の手順に慣れること。些細なことから順番に。次に,些細な研究テーマをできるだけ多く立てること。
 これはスケッチと一緒。こう考えると,まずはとにかく実験手順とかに親しんで,ひたすら研究テーマみたいなのを書いてみたらいい。そうしたら,下手な鉄砲数撃ちゃ当たる的な感じでそれらしい研究テーマも見つかる。
 だから,くだらなくてもいい,学術的な貢献や意義は置いといてもいい,とにかく自分にできることを考えて,手当たり次第に研究したらいいじゃないかと思ったんだ。だから自分もまったく意味のないような研究をたくさんした。今だとなんの貢献も意味もないことがわかる。これは自分の職業的適正を高めるためだけのもので,今なら何の意義も意味もないことがわかる(大事なことなので二回ね)。
 正直,自分の研究なんて,全部,たまたまなんだよね。別になんの興味もないし,社会的に大事だともまったく思っていない。もっと社会的に大事なことは知っているつもり。これらが私の業績だと認められることも拒みたいくらい。
 私の観点はそうじゃなかった。まさにwant to doよりもcan doよ。そうやってたら,can doが増えてさ,いつかcan doリストに来たるべきwant to doが入るんじゃないかって。そんな感じでたくさんやったらどうかって。まずは自分が何が知りたいかとかさ,そんなドラマチックで個人的なストーリーは置いていて。そういう技術の習得の過程だと思ってさ。いつか好きにできるようになることを信じて,まずはその研究テーマとかいうのは置いておいて,修行しようって話。私は,院生の限られたときの業績よりも,それ以降の業績の意義が遥かに大きいってポジティブに信じることにしたんだ。実際そうなるかってわからないけどね。

最小単位でパラミタを変える

 うまい研究の立て方っていえば,そんなのはすぐに出てくるわけないけど,具体的なレベルでの研究テーマの実行可能性の判断は,結構体系的なものだと思う。一番簡単なのは,実験におけるパラミタのごく一部,そのパラミタの変動が依然として未知なものに変えることだ。サンプルとか,実験条件とか,実験方法とか,そういったごく一部のパラミタだけを変えて,既存の論文の実験手続きを真似る。これは結構大事なことだと思う。サンプルが日本人学習者でなければ,それを日本人学習者にすっかり変えた実験をしてみるとか,同じ仮説を検証するために,違う方法を使ってみる,そういうテクニックだ。もちろん,だから新しい方法を試すってのも大事。なんていうか,偏微分な,ね。これが研究テーマの探り方で一番重要なことだと思うんだ。

細かいところではより小さく,よくわからないところではより大きく実験条件を設定する

 十分に知られている現象に当たるときは,実験条件の細かな値域みたいなのの幅を細かく設定することで新規性が得られる。十分に知られていないときは,実験条件の値域を大きく設定したほうがうまくいきやすい。

同一理論の説明範囲を広げる

 ある現象を説明する理論を,別の現象の説明に使う。これは一般的な科学的な推論における重要な方向性だと思う。結局,類推(アナロジーは研究者が思うよりも重大な役割を演じる。だから,マイナーな現象をよく知られた理論で説明しようとする試みは結構いい研究テーマになる。

説明できない現象の存在を認めた上で理論を守る

 これ自体は必ずしもよくないけど,理論っていうのは思ったよりも,というか研究者じゃない人が思うよりも,実態ははるかに脆弱なもので,特に英語教育なんていつもそうだから。仮説の修正やアドホックな補助仮説の添加が重要な研究上の機能だったりもする。こういった仮説の修正やアドホックな補助仮説の添加は,十分にいい研究テーマになる。

適当で曖昧な言い方を形式化する

 これはあまり現在の英語教育研究で使用されているわけでないけど,科学的な知見の最初期において,必ずしもその知見が形式的で無矛盾な記述によって表されているとは限らない。このような知見を整理して形式的に言い換えることは十分な研究テーマになりうる。現在,私はこういう研究のあり方に取り組んでいる。

最後に

 研究テーマの設定方法はあまりにも複雑で,枚挙的に種類を出していくにはあまりにも多すぎるけど,結局,こういう技術的なレパートリーの話なんじゃないかって思っている。ここで唐突に上げたのはそういう技術の代表例。
 繰り返すけど,本質とは何かみたいな志向性についてあれこれ考えるのではなくて,研究の実現力を欠いた状態の解決方法について我々は真剣になるべきで,研究テーマの決め方や研究手続きの計画の技能が上がれば,こういった状況には陥らないのかな,って思っているんだ。
 逆にいうと,研究が進まくなるようなカリキュラムや,制度,そういったものは常に本質病を催す環境になっているっていうこと。やり方も教えずに,できない人を個人的に批判するな,そういう観点も大事だと思う。実行可能かもわからないから,実行不可能なことを考えるんだもんね。
 英語教育研究は応用分野だけど,こういった研究テーマの決め方についても十分に意見交換したいもんだよね。

「私には研究テーマがなかった…」:研究テーマの決め方

研究テーマの決め方を巡る議論

 研究テーマをどのように決めるべきか,そして誰が決めるべきかといった規範的なはなしから,どのように決めているか,誰が決めているかといった記述的なはなしまで,とにかく研究テーマの決め方については議論が絶えない。もちろん,文系だとか理系だとかいうようなさして意味のない区分における差,たとえば「理系は指導教員が決める」かつ「文系は自分で探しだす」から始まり,究極的にはその研究室や指導教員の方針によるところが大きい。結局,指導教員との十分な相談による,というほかない。規範についていえば,すべての文脈を無視してこうあるべきだ,なんていうのはもちろんありえない。

決め方を巡って

 こういった論では大抵,3つの要因が話題に上がる。
 1つは,実行可能性。もちろん,研究室がもつ機材とか予算といった資源から始まり,指導教員の専門性,そして個人の資質能力も実行可能性に入る。
 2つ目は,意義。社会及び学問的にある程度の効用をもつことが期待されるわけだから,ひらたくいえば意義のない研究テーマは成立しない。
 最後は,合意性。結局のところ,本人が望んでいない研究テーマはモチベーションの問題などで研究が進まないし,指導教員との合意がない指導は難しい。
 これらを勘案すると,実行可能であり,意義があって,そして本人や指導教員が十分に合意できる研究テーマにするとよい,とまあ,そんな話になる。これら3つが大きく重複している。
 大事なのは,いずれも個人的な問題ではない,ということだ。どれだけ個人があることが好きでやりたがろうが,実行不可能だったり,意義がない研究は成り立たない。そういう研究は結局の所,合意性が得られない。そもそも(指導を受ける)研究全体が,個人的な問題ではない。そして,研究とは基本的に社会的行為だということを意識したいものだ。

冒険者の2つ名

 なんてまあ常識的な一般論を挟んでおいて,これからが私のとりとめのない話。
 私は私の領域で,ずっとこの研究テーマというものに悩まされ続けた。どこにいっても「研究テーマはなんですか?」とか「どんな研究をしているの?」というように聞かれる。私は研究テーマや,さらに自分の専門というのを答えるのがとても嫌だった。
 たとえば,研究というのには程遠い学部一年生のことを今も忘れない。高校の卒業式で,校長先生は私たち卒業生にこう言葉をかけた。「みなさんの人生はまだ何も決まっていない。無限の可能性がある!」
 おお,いいぞ。人間主義的で温かいじゃないか。
 しかし,その後大学に入ったら,入学式直後に大学の先生はこう声をかけた。「お前の専門は何だ?!それに若い体力を全部ぶつけろ!!」みたいな世界だった。「あれ,自分の人生はまだ何も決まっていないし,自分には何の専門もないんじゃ…」と鳩の豆鉄砲だった。
 大学院に入っても同じだった。魔法と剣のファンタジーものに出てくる冒険者が自己紹介するときの2つ名のように,専門分野だの研究テーマが常に会話につきまとった。
 「俺は風の魔法剣士くさなぎ!」とか「人は俺を赤き流星と呼ぶ…」みたいな世界に思えてちょっと滑稽だった。何も知らない田舎から出てきたばかりの若いヤツに,専門も研究テーマもあるまいなんて思った。妄想が膨らんだせいで答えられないでいる私を尻目に,私の同期やら先輩やらはスラスラ,それはもうペラペラと,自分の2つ名のような難しい単語を並び立てていた。「俺は統合的動機づけのくさなぎだ!」みたいにいえればよかったんだろうか。
 「しまった。進路間違った」と思ったことが2010年4月15日の日記に書いてある。もう10年前の話であるからびっくりだ。

私は殺し屋を選んだわけで,別に敵討ちをしたいわけではなかった

 ところで,私は,研究というのを,ある程度の流派やスタイルはありつつも,普遍的に人間に認められている行為やその技能のことのように思っていた。そしてその技能は社会的そして経済的な価値を生むがゆえに,職業として成立するのだと思っていた。
 魔法と剣のファンタジー世界のくだらない喩え話を続けるのだったら,私はそうするとご飯が食えると思って,というかそれ以外飯が食えなさそうなので,暗殺者ギルドに入って最終的に暗殺者になろうとしたのであって,自分の村を滅ぼした盗賊の親分ボブに敵討ちをしたいわけではなかったのだ。
 なので私は,「研究テーマはなに?」と聞かれると「お前は誰を殺したい?誰を憎んでいるのだ?ん?ほらほら?」としつこく聞かれているような気分になっていた。「誰を殺すかは顧客次第では?」とも思った。
 しかしこの種の質問はあまりにもしつこいし,私はお察しの通り神経質な変わり者なので,すぐ「研究テーマはありません。院生なので専門性もまだありません」といつもいうようになった。私も頑ななので,この態度はいつも周りから窘められた。
 というのも,合わせて「そもそも研究したくはありません」とも答えるからである。大学院なら「やる気ないなら院生やめろ,モラトリアムが」といったレベルの発言であることは歳を取って知った。しかし,暗殺者ギルドの新米であった私は「私にも飯が食えるなら,できれば誰も殺さなくていい生活がいいな」という普通のニュアンスのつもりだった。
 しかし,この自分が飯が食えるならいいや,という態度も,特に文系の間では非常に不遜で歪んだ考えのようで,いつもお酒の席で怒られたものだ。「お前には知的好奇心がないのか?審美的に思う現象はないのか?なら,ここは向いていない!」

誰を殺すかが一番むずかしい

 いや,まあ演出が過ぎるけど,しかしこの変な文章で言いたいことは,誰を殺すかを決めることは,実際の殺しの手順よりも遥かに難しい問題だということなんだ。たとえば誰が悪人で,死に値するか,死を望む人はいるか,そして殺しの費用は殺しのリスクの割に合うか,そして暗殺の契約が成立するか,そういったことよりも,サプレッサーつきの銃弾の引き金を引くことは遥かに容易い。
 どのような研究テーマであれば社会的な貢献をするか,といっても小僧には社会的な貢献の道筋どころか,社会自体を知らないのである。学問的意義があるかといえば,そもそもその学問を修めてはいないのである。実行可能かといえば,どんなコストがかかるか,なにが不可能かもわからないのである。そんなことよりも,実験器具のボタンを押し,決められた動作をするプログラムのコードを書く方が簡単だ。
 仮に殺しという技術体系があるのだとしたなら,その技術体系の最高峰こそが誰を殺すかの判断だろう。同じように,研究という技術体系があるのだとしたなら,その頂点に研究テーマの設定がある

私はやめようとは思わなかった

 敵討ちを目的に敵を殺すなら,確かにその敵だけを殺すのに必要な技術だけを身につければ,あとはいらない。そして,その敵を殺したら,あとは殺しをしなくてもいい。
 でも,私は,自分の身につけた技術の使用をやめようとは思わなかった。自分がコレさえわかればいい,そのためだけの知識や技術がほしい,とは思わなかった。むしろ,この知識や技術で自分の人生を生きていこうと思った。まだまだ若手だけど,それなりにキャリアを重ねたので,そしてそのおかげだからこそ,やっと今の自分なら,どの悪党を殺したら世のためになるか,それが可能かといったことが全くわからないわけではない。
 今も,以下のようなお叱りを受ける。いわく「何にでも手を出す節操のないやつ」「人生をかける研究テーマがない人」「何を研究しているか一向にわからん」「研究が機械的で情熱がない」「いつも愛情を持たずに研究している」。確かに私には研究テーマがなかった。けしからん。確かに私の博士の学位記には「~学」とも書いていない。私は学を修めなかった。
 でも,私の学位記には「学術」と書いてある。幸い,学で生きていく術(すべ)がそこにあった。それを身につけられたとは言いにくいけど,仮にそうならとても幸せなことだと思う。

話を戻して

 誰でも殺していい,好きなひとを殺せばいい,そして任意の人を殺せればそれが以外学ばなくていい,そういうもんじゃないだろうと思う。私怨だったり通り魔だったり,快楽殺人とかそういうのがいいわけがない。わからないこそ,ある程度のガイドやリードが必要だとと思う。もちろん,主体性も大切だけれども,研究というのはその主体性こそが最も重要なのものだとはいいきれないと思う。そういう理解の前提が大事かな,などと思ったりもする。