草薙の研究ログ

英語の先生をやってます。

【サドコマ②】どこにも有意差がなかった…【null results】

f:id:kusanagik:20200720171945p:plain

 英語教育研究の査読で困った!サドコマシリーズ第二弾!早速ご好評いただいております!

 このシリーズについては↓
kusanagi.hatenablog.jp


 第二弾では,英語教育研究において,「論文内のどこにも有意差がない,期待される結果が得られなかった論文(null results)」について私見を述べます。
 統計的帰無仮説検定の枠組みでは,よく知られているように,帰無仮説を棄却できない場合において,対立仮説の含意を主張することができないばかりか,帰無仮説の含意すら主張できません。つまり有意差がなければ,厳密には主張できることなどなにもないと考えられることもあります。しかしそうはいっても,null results論文は,英語教育研究にとって本当に何の意味もないのでしょうか?果たしてそのようなnull results論文を評価する観点はないのでしょうか?

 *あくまでもこの記事は英語教育研究を前提にした草薙の私見であり,他分野,または統計学全般の規範とは異なる場合があります。

 結論を先にいうと,私個人は「null resultsと結論に論理的整合性がある場合に限り,null resultsはnull results独自の基準によって評価し,その貢献をみとめるべき」と考えています。

問題の所在についての詳細

 さて,繰り返しますが,統計的帰無仮説検定において,検定が有意でなかった場合に「この指導法に効果がある」といった対立仮説の含意を主張することはできません(対立仮説の支持)。同時に「この指導法に効果がない」と主張することもできません(帰無仮説の支持)。
 このような非対称な仕組みから,研究者にとって有意な結果を報告するようなインセンティブが働きますから,いわゆるp-hacking(さまざまな方法で有意差を得るための工夫)またはHARKing(既知の結果の下での仮説生成)と呼ばれるような行為の温床になります。否定的な結果を示す論文がパブリッシュされる確率が相対的に低い現状をパブリケーション・バイアスなどとも呼ぶこともあります。もちろん,パブリケーション・バイアスは,さまざまな分野において問題として十分に認識されています。
 ところで英語教育研究では,ある指導法の効果を報告する実証論文(指導法効果検証論文)が主流です。しかし,指導法効果検証論文にパブリケーション・バイアスが働くことは容易に想像できます。また,実例は憚られますが,一般にp-hackingとされる行為の痕跡が見られる論文もあります。私自身,そのような行為と無縁だったとはいいません。そして,これもあくまでも記述的な話ですが,そのような行為自体が研究の生産性とつながっていることも否定できません。このようにnull resultsは研究倫理との関連において議論されることがあります。
 しかし,研究倫理の問題もそのとおりですが,より単純に見て,内容として一向に否定根拠自体が得られないことも重要な問題です。つまり,統計的帰無仮説検定の枠組みでは「指導法に効果がない」というカウンターエビデンスを積極的に示すことができません。しかし,これでは,実質的に効果があると先にいったもの勝ちの状況です。もはや「殴っても反撃がないからとにかく先に殴れ」という世界になります。実際,後世になって効果が否定された指導法はほとんどありません。これによって,「科学的に効果が検証された指導法」は世に溢れます。モンド・セレクションのようです。
 効果は否定されませんが,時代の流れに沿って自然発生する指導法の流行り廃りはあります。ある指導法が流行れば,その指導法の効果がより多く報告され,廃れればその報告の数が少なくなる,大局的に見ればそれだけです。仕組みとして,効果があることを報告するしかないのですから。統計的帰無仮説検定による指導法効果検証は,検証に誤りがあることを最初から念頭に置いている,可謬主義的な研究プログラムではないのかもしれませんね。そもそも。

原則

 さて,たとえどれだけこのシリーズが現実的な妥協点ギリギリを狙うものであっても,統計的帰無仮説検定によって帰無仮説の含意を主張できないことは絶対に捻じ曲げてはなりません。つまり,null resultsの結論は必ず「効果検証に失敗した」または「対立仮説の支持に失敗した」と明確に書くべきであって,あくまでも「効果がないことが科学的に解明された」というように書いてはなりません。null resultsの論文におけるアブストラクトは,たとえば以下のように書かれるべきだと思います。

  • The present study failed to replicate ...
  • The present study did not obtain any statistical significances...
  • The results showed that the present study failed to support the alternative hypothesis (H1).
  • The authors, thus, avoid to conclude that ....
  • The present study did not confirm ...

しかし,一方,上記のように,統計的帰無仮説検定のロジックと結論の記載に整合性があれば,null reults論文に対してはnull results論文として適正な評価を査読者が与えるべきだと考えます。ここが大前提です。

妥協案の提案

null resultsにも意味がある

 研究にはそれ相応の費用と労力がかかっており,パブリケーション・バイアスを強めることは科学研究全体の問題です。なので,null resultsの積極的な価値を考えるムーブメントもあります。たとえば,英語教育研究に限らず,他分野に目を向けると,null resultsを専門とするジャーナルも見つかります。

Journal of Negative Results in BioMedicine | Home page

 また,より具体的に,神経科学分野において,De Graaf and Sack(2018)はnull resultsを実際にどのように評価するべきかについてのモデルを提案しています。(もちろん,null resultsの評価に関して論じる論文はこれに限りません)

www.ncbi.nlm.nih.gov

 つまり,どのような論文であれnull resultsは掲載しない,というような強固な編集方針ではなく,null results論文の積極的な価値を,ある観点をもって,部分的に認めようとするのです。部分的に,というところがポイントです。すべてのnull resultsがよいわけではないことに気をつけなければなりません。「みなさん,失敗した研究をとにかくここに載せましょう!コロナの後はnull resultsキャンペーンだよ!実質査読はないよ!」といったことを英語教育研究において推し進めることを主張したいわけではありません。

null resultsの評価指針

 ここでは,De Graaf and Sack(2018)によるnull resultsの評価指針を参考にしながら,日本の英語教育研究の文脈を考慮し,null resultsをどのように評価するべきか,その観点について書きます。まず,De Graaf and Sack は,null resultsが2つの連続的な特性をもつと考えるモデルを提案しました。そのモデルにおいて,gradient of surprise(意外性の程度)gradient of interpretability(解釈可能性の程度)という特性が仮定されます。これらの組み合わせによって,null resultsの貢献を捉えようとするわけです。

意外性

 意外性とは,その事前における結果の予測とnull resultsの整合性です。たとえば,とてもよく知られた研究結果の追試(replication)の結果がnull resultsだった場合,意外性は高いです。一方,事前に研究者が仮説として立てる結果(研究者がnull resultsを予測する)であれば,意外性は低いです。意外性が低いnull resultsに積極的な価値を見出すことはしにくいですね。「まじか!?」と「そりゃそうだろ」ということです。
 たとえば,とても効果があることがよく知られている指導法の効果がnull resultsなら,意外性は高いといえるでしょう。タスクは言語習得を促すといえないとか。(英語教育では,タスクと呼ばれる処遇の類は科学的に効果があるものとして喧伝されてきたようです)
 一方,効果がないことが普通に信じられていることを題材に,効果がないことを示しても,なんの意外性もありません。大学生にハイブランドの鞄を与えても英語力は伸びたといえなかったとか。(英語教育研究では,学習やその成果変数に対して,学習にかかる経済的資源の大きさが交絡変数になることは自然に予想されます。しかし調度品の経済的価値を変更することが学習に対して直接的な因果関係をもつとは考えられていません)
 つまり,意外性とは,研究者の事前の信念の度合いに依ります。もちろん,信念の度合いといっても,いわゆる「へ~,意外だわ~」といった心理的な個人内経験や「こうであるべきだ」といった個人の規範的意識というより,先行研究との整合性,そして既存の理論からの予測のことだと考えましょう。これはベイズ統計の流行を受けた観点ですね。

解釈可能性

 さて,次の解釈可能性は少しだけ難しい概念です。上記の意外性とは独立した情報量の大きさのこととしています。より具体的にいえば,研究デザインの総合的評価などです。たとえば,事前に検定力分析によって標本サイズを十分に大きくとった研究や大人数のランダム化比較実験は,8人ずつの小標本の研究よりもnull resultsのあり方として解釈しやすいです。手法が悪かったから,といった解釈の確率が低いからです。つまり,解釈可能性とは,手法,デザイン,分析に由来するnull resultsではなさそうな度合いだと考えてもよいでしょう。

これらを参考に組み合わせて

 これらの2つの組み合わせで,null resultsにもさまざまな場合が考えられることがわかります。一般に,意外性が高く,かつ,解釈可能性が高い論文には,より大きな価値があると考えてもいいでしょう。意外性が低く,解釈可能性も低い論文には価値を見出しにくいでしょう。
 たとえば,両方が高い例は「5000人対5000人のランダム化比較実験において,タスクの効果についてnull resultを示す」といった感じです。「しっかりした研究デザインだし,とても意外」です。
 次に,意外性が高く,解釈可能性が低い論文は,「8人と8人の縁故サンプリングの群比較実験で,タスクの効果についてnull resultを示す」といった感じ。「研究デザインは弱いけど,結果自体はとても意外」です。
 3つ目に,意外性が低く,解釈可能性が高い論文は,「5000人対5000人のランダム化比較実験において,鞄を買い与える効果についてnull resultを示す」とか。「研究デザインは優れているけど,結果自体は予想通り」です。
 最後に,意外性が低く,解釈可能性が低い論文は,「8人と8人の縁故サンプリングの群比較実験で,鞄を買い与える効果についてnull resultを示す」など。「研究デザインが弱いし,結果も予想通り」です。
 こう考えると,2つの軸のうち,英語教育研究では意外性の方がやや重要なように考えられます。というのは,解釈可能性が非常に高い実験がそもそもしにくいからです。
 また,意外性がなくても,社会的意義が大きい結果も考えられます。たとえば,こんな場合はどうでしょう?ある既存の政策は,ほぼエビデンスに基づかずにいわゆる「思いつき」や「なりゆき」で施行されたとします。研究者の多くは,この施策に効果がないことを信念として持っているかもしれません。その意味では,この施策に関するnull resultsに意外性はありません。しかし,施行されている政策と整合的な結果にならないことは,研究者の信念というわけではなくても,社会的には十分に意外です。意外性という概念も,研究者個人の信念という枠組みよりも少し大きな意味で捉えられるべきですね。社会学や心理学では,脱常識性といったりするようです。英語教育研究も意外性,脱常識性といった観点について十分に考えたいものですね。

結局null results論文で見るべきこと

 さて,ここまでの議論はこうまとめられます。

  1. 「効果がないことが解明された」と結論で述べていないか
  2. 意外性があるか,つまり,査読者にとってその結果が予想できたか
  3. 解釈可能性があるか,つまり,研究のデザイン全体の評価はどうか

f:id:kusanagik:20200724084805p:plain

考えておきたいこといくつか

 ここでは上記に加え,考えておきたい論点を補足していきます。
 近年の統計学では,帰無仮説に相当する含意を主張するためには,ベイズ統計を使った情報仮説の評価を使用することが標準的です。ベイズ因子といいます。もちろん,ベイズ因子の積極的な利用も考慮されるべきです。特に,最初から研究者がnull resultsを予測した研究を行う場合には,ベイズ因子の利用が適切かと私は思っています。英語教育研究におけるベイズ統計の普及も望まれます。
 もちろん,それ相応に十分に大きな標本サイズを得られるならば,どのような効果量の値であれ(母効果量が0といった特異的なケースを除けば),適切な標本サイズの下では必ず有意差を得ることができます。null resultsの評価の前に,標本サイズの適切な設計段階についても考えるべきことは忘れてはなりません。
 次に,「最後にそれをいっちゃうのか」と批判されそうですが,少なくとも私は,英語教育研究において解釈可能性が高いnull resultsの論文をあまり見たことがありません。ほとんどの場合,有意でない理由は研究デザインにあると推測できます。つまり,null results論文の解釈可能性が概して低いのです。たとえば,

  • 合理的に期待される効果量の大きさに対して標本サイズが小さすぎる
  • 処遇の期間が短すぎる
  • 容易に交絡すると想定できる交絡要因が事後的に統制されていない
  • 標本が明確に不均質・アンバランス
  • 測定の精度が低い(テストのクオリティー,信頼性係数,テストと集団のミスフィット)
  • 単純に統計の分析由来(尺度水準の取り違え,計算ミス,前提の無視,分布の無視,外れ値の無視)
  • 研究のモデルとする先行研究の母集団の適用範囲を遥かに超えて適用している(母集団の年齢,国籍,言語…)

などです。査読者は上記の点などを一通りチェックされてもよいでしょう。どれかに当てはまると予想します。また,自分の論文で有意差を見出すことができなかったら,上記をチェックされるとよいでしょう。
 さらに,意外性の評価といっても,実際には非常に難しい面もあります。たとえば,英語教育研究ではなく隣接分野のSLAという分野では,ライティング・フィードバックの効果について,長い間論争になっているそうです(執筆時にSLAの研究者の方に確認を取りました)。つまり効果がある派とない派が真っ二つになって論争をしているわけです。このような研究テーマでは,効果がない派にとってのnull resultsは意外ではありません。そう信じられていますから。しかしこの結果を意外と見るのは,逆に効果がある派です。すると,もともと反対意見の研究者が高い評価を与え,同意見の研究者が低い評価を与える状況になります。もちろん,これも自然な姿ですが,このような係争中の論争でのnull resultsの評価は実際に難しそうですね。
 また,HARKingにも関することですが,null resultsを得た論文では,その結果がさも従来の先行研究に反するものというように歪めて書くことが,パブリケーションの上で有利になる可能性があります。たとえば,単純に結果がでなかったとき,恣意的に本来の自分の意見の反対意見だけを集めて先行研究を再構築するかもしれません。このような事態は,英語教育研究では十分に考えられることです。そもそも,分野全体で受け入れられている基盤や公理が存在しないため,ありとあらゆる他分野由来の都合のよい知見を拾い上げて,null resultsの意外性を高く見せようとするかもしれません。結果を知ったあとに。
 最後に,ある特定の理論がそもそもnull resultsの累積によって築かれている(theories supported by null results)というケースもあります。たとえば,隣接分野であるSLAの文法や語彙の研究では,「母語話者の反応時間・読解時間に見られる言語刺激や課題の効果が,学習者には見られない」というnull resultsを基盤とした理論形成がとても頻繁に見られます。このような場合,そもそも意外性の評価はどうなるのでしょうか。
 これらを考えると,意外性の評価といっても,意外性を与えるような理論的基盤がなければ評価が成立しません。確固たる研究方法論の基盤がなければ,解釈可能性の評価も成立しません。実際にこのような評価が英語教育研究で機能するかを保証できないのです(むしろ,実は悲観的です)。英語教育研究分野全体として,このようなnull resultsをどう扱うかの議論が活発になってほしいと思います。

サドコマシリーズ10箇条

 さて,これで新しいあいことばが増えました!

  1. 報告不備には生データ
  2. null resultsも評価する

 また来週!来週は「検定めっちゃ繰り返してる」,つまり英語教育研究における多重検定の問題について書きます!(現在は従来予定していたペースよりも早めに公開しています)