草薙の研究ログ

英語の先生をやってます。

【サドコマ①】絶対に不可欠な統計の報告がなされてないんだけど?【報告不備】

f:id:kusanagik:20200717225935p:plain

 英語教育研究の査読で困った!サドコマシリーズ第一弾!

 このシリーズについては↓
kusanagi.hatenablog.jp

 第一弾では,「必要と考えられる統計に関する値が報告されていない」論文(報告不備,報告抜け,報告落ち)について私見を述べます。必要不可欠な統計報告がなされていない場合,意図的にデータやその処理過程を隠しているという意味では研究不正,またはQRP(疑問符がつく研究実践)とみなされることもありえます。しかし,応用分野である英語教育研究の現状において,必ずしも適正な報告がなされるわけではありません。あまりにも強く規範的な報告をするような改善を求め,論文を一様にリジェクトすると,逆にそれが英語教育研究における生産性全体を低減させることも想像に難くありません。私たちは,このようなトレードオフの中で,適切な妥協点を見出せるのでしょうか?
 *あくまでもこの記事は英語教育研究を前提にした草薙の私見であり,他分野,または統計学全般の規範とは異る見解を述べています。

 ここで結論を先にいっておくと,報告不備が見られる場合,その報告について事細かに修正するというよりは,生データ自体をそのまま公開するべきだということです。

問題の所在についての詳細

 最初に,統計的帰無仮説検定に属する分析のほとんどは,データから求められる値の変換・計算の段階的過程だと考えることができます。たとえば,2群の平均差に関するt検定では,2群それぞれの平均値,標準偏差,標本サイズから検定統計量t値が求められます(また,Cohen's dのような標準化平均差も求まります)。次に,検定統計量と自由度から有意確率p値が計算できます。その自由度は,それぞれの群の標本サイズから求められます。最後に,有意確率と有意水準から検定の結果が定まります。
 また,分散分析表はよりわかりやすい例です。分散分析表では左の列から右の列へ統計量の計算をしていきます。最左列にある平方和を,その右列にある自由度で割って,平均平方を求め,この平均平方を自由度の右列に付け足します。要因変動と誤差変動における平均平方の比がF値で,これをその右列に付け足します。ここまで求めたF値,第1自由度,第2自由度からp値が計算できます。p値が最右列ですね。分散分析表を掲載すると,このような計算のどの段階がおかしいかがわかるわけです。ステップ化することによって,結果の検証可能性を高める自然な仕組みになっているわけです。
 このことから,規範として,ある分析に使用される値は,漏らさずに報告することが推奨されます。APAなどもそのように推奨しています。これは再現可能性の確保にも繋がる重要な観点です。一般に広く信じられているように,検定結果は,必ずしも生データにのみ対応しているわけではありませんパラメトリック検定といわれる検定は,その名の通り,パラミタだけを使って計算されます。たとえば,完全に同じ平均値,標準偏差,標本サイズをもつ複数のデータセットt検定の結果は同じです。ある一定のデータから計算される値(記述統計等)の組み合わせがあれば,そこから検定結果が検算できたり,またはシミュレーションによって分析自体を再現することが可能なわけです。
 分析の方法によって,検算やシミュレーションに必要となる情報は大きく異なります。たとえば,対応のあるt検定の場合,上記に加え,一般に相関係数が必要になります。検算が可能となる統計量が何であるかは,かなり複雑です。たとえば,標準偏差が報告されてなくても,代わりに分散共分散行列があれば代用できますし,平均値と標本サイズ,あとは差得点の分散がある場合においても,対応のあるt検定を検算することができます。ここまでが基礎的な知識です。
 ところで,英語教育研究の現状では,ある分析に使用される値の報告が徹底されているとは限りません。より具体的にいうと,

  • 検定結果のみを報告している(e.g., 有意だった)
  • 加えて,有意確率を報告している(p = .01で有意であった)
  • 加えて,自由度,検定量,有意確率を報告している(t(31) = 10.21, p < .01で有意であった)
  • 加えて,有意水準,自由度,検定量,有意確率だけを報告している(α = .05として検定では,t(31) = 10.21, p < .01で有意であった)
  • 上記に加え,平均値の報告はされているが,標準偏差の報告が欠落している
  • t検定の等分散性や正規性の仮定についての言及がない

といった場合が少なくありません。かなり厳密にいえば,英語教育研究における大半の論文が,必要不可欠な値の報告を怠っているといえなくもありません。このような報告形態の論文を一概に研究不正やQRPとみなすべきでしょうか?または査読側から,どのような改善を提案したらよいのでしょうか?

原則

 原則として,少なくとも規範的には,研究の責任著者は,その研究の再現に必要なあらゆる情報の開示に協力する義務があると考えましょう。その研究の再現に必要な情報を隠蔽したり,利用不可能にすること自体を正当化することは不可能です。

英語教育研究の現状

 しかし,統計分析のすべての過程に必要な情報を,すべて漏らさず報告しないとならないとはいえない実情もあります。そして,その必要な情報なるものの基準が明確なものとは限らないのです。つまり,タイトルにあるような,絶対に不可欠といったものの線引き自体が非常に微妙です。このことに関して詳しく書きます。
 1つ目のポイントです。英語教育研究者のほとんどは,記述的にいって,どの分析において,どの値が計算の過程に使用されているかの知識をほとんど持ちません。査読者も投稿者も,双方ともに明確な判断がつかないことがほとんどです。どの値が必要でどの値が不必要かをやりとりすること,そして限られた時間内でそこに合意を見出すことが困難な場合があります。そもそもこのやりとりが不効率な場合あります。たとえば,査読者の判断が必ずしも正しくない場合が結構多いのです。これは私の個人的経験でもありますが,査読者の完全な誤解による報告落ちリジェクトというケースは少なくありません。極端な例ですが,ベイズ統計を使用した際に「この論文ではp値が記載されていないので誤りである」という査読者の指摘を実際に見たことがありますし,「2要因の分散分析では自由度は2つ(第一自由度と第二自由度)あるわけがないため,統計的信頼性が欠ける」という指摘も見たことがあります。
 2つ目のポイントです。研究者が再現に必要なあらゆる情報の開示に協力しないケースが多いことも他分野の事例から想像できます。たとえば,事実として,様々な分野において,元データの提出の要請に応える研究者は多くないという報告が次々となされています。これは,元論文の研究者にとってインセンティブが働かない仕組みになっていることも問題です。たとえば,元データの提出をしたところで,問題がなかったとしても,何も研究者にとって利益はなく,提出をすれば誤りであることが指摘される可能性が0じゃないとすれば,期待値としては必ず元研究の価値が疑われることになります。さらに,そもそもデータの記録や整理がなされていなく,技術的に提出の要請に応じられないという場合も多いでしょう。つまり,査読者が「この値,この値,そしてこの値が欠落しているから報告してください」と仮に要請しても,これに応えられる場合はそれほど多くないと考えます。また,査読者に指定された意味のわからい値をソフトウェアから転写する作業自体にはあまり意味がありません。
 3つ目に,現状の英語教育研究において,1論文の統計処理の精度や,分析の高度さ,報告の精度自体はさほど大きな問題ではないという事情もあります。これまで,実際に,重要な理論的知見とされてきた隣接分野(応用言語学第二言語習得)の研究においても,現在の観点から見ればですが,単純な統計の誤用であったり,論理的な誤謬が多く含まれています。そういったことに関わらず,専門用語を提案し,分析のフレームワークを提供したような論文,つまり分野全体に多大な貢献を残した研究は無数にあります。自由度の報告がない1990年代以前の研究はすべて無価値だというわけではありません。n.s.と表記していた1980年代以前,または計算資源の節約からz検定を行っていた論文にも価値があります。
 4つ目です。統計分析の技術的な発展について考えてみましょう。現状において必要とされる統計量などが,将来的に必要とされるとは限りません。たとえば,現在統計分析の主流であるベイズ統計を援用するとしたら,t検定におけるt値は必ずしも必要でないかもしれません。発展速度というか,移り変わりのスピードが非常に速い統計分析技術の中で,たまたま,ちょうど現状において使用されているスタンダード(それすらも最先端からは数十年以上の遅れを取っている)な分析のみに必要な値の報告を徹底することは,それほど重要なことでしょうか?
 私は,それよりもさらに重要なことがあると考えます。

妥協案の提案

 私の考えはこうです。基本的に,査読者や読者が求める情報の開示要請のすべてに応じる必要がある,という原則は厳守すべきです。しかしその上で,顕著に応用的な分野であるのだから,この点については柔軟な態度を取り,1論文における報告の整合性の評価よりも,将来的な再分析が可能であることを保証すべきと思います。
 たとえば,t値,自由度,p値についてすべて誤った報告されていたとしても,または記述統計がすべて報告されていなかったとしても,全データとその明確な取得手続きが公開されてあれば,それほど大きな問題ではないと考えます。仮に元データがありさえすれば,そんなものは後から簡単に計算できますから。将来的にはデータ分析の技術が高度化し,コストも低減しているでしょう。そして実際に再分析をする研究者は,計算の途中段階の値を重要視することはあまりありません。
 さらにいうと,英語教育研究全体の将来の資産になること自体が重要であって,その論文内において決定的な結論を出したりするために,すべての計算過程を完璧に示すべきだとは思いません。自然科学とは異なり,人文系の応用分野で,1つの検定結果がそれほど大きな意味を持ちません。まさに,この分野の歴史が示しているように。メタ分析が理想的な分析だとはいいませんが,1研究の報告よりも,メタ分析の結果がより重要だとするエビデンス階層の考え方も同じです。そうすると,メタ分析で将来的に使用される要件を満たす方がより重要です。
 つまり,報告不備などがあり,全体的に瑕疵あると認められるときに,査読側が投稿者に求めるべきことは,統計処理の途中段階の値を網羅的に記載することよりは,データそのものの公開を求めることです。投稿者に必要なことは,データそのものを公開する準備です。統計処理になにか問題があると考えられた場合,その問題の解決に労力を費やすというよりは,データそのものを公開することの方が手っ取り早く,将来的な利益を考えれば相対的に有効です。そのようなシステムも整備されつつありますが,英語教育研究のほとんどは小規模ですから,統計処理に費やしていた部分を削れば,そのスペースに生データ自体を掲載できる可能性があります。2ページもあれば論文そのものの付録に掲載できるでしょう。もちろん,それに合わせ多少結論を弱める必要もあるかと思います。

f:id:kusanagik:20200718073238p:plain

覚えておくとよいこと

 そうはいっても,整合性のある報告や,1論文の完成度の高さがどうでもいいわけはありません。適切な報告に越したことはありませんし,それを目指す方向性もとても重要です。「生データを出せば統計は間違っててもいい」,「データの提供だけで研究はOK」ということを強調したいわけではありません。
 報告の質を高めるために,ここでは,より一般的な意味で,整合的な報告に必要な情報を記しておきます。逆に言えば,以下のような情報が揃っている場合,データそのものがなくても,分析結果を再現することが可能である場合が多いです。原則はよく知られているように,記述統計をしっかりと報告することです。

  • 2群の平均差の検定の際は,それぞれの平均値,標準偏差,標本サイズが必要
  • 対応のあるt検定,または被験者内計画の分散分析,回帰モデルの際は,上記に加え,分散共分散行列,または相関係数行列が必要
  • 分散分析は,各セルごとの平均値,標準偏差,または分散共分散行列が必要
  • 因子分析,構造方程式モデリングのほとんどの場合,平均ベクトル(各変数の平均値のセット),分散共分散行列,または分散ベクトルと相関係数行列が必要
  • 正規性等の仮定をもつ分析を行った際には,(場合によっては多変量の)歪度および尖度,または分布型に関する言及,または分布型の可視化が必要

 特に,分布型に関する歪度および尖度の報告,またはそもそもデータがどのような分布型であるか,またはどのように扱ったかについての情報は不可欠ですが,現状において報告が徹底されていません。なので,平均値,標準偏差,歪度,尖度,それに加え,分散共分散行列,相関係数行列などといったいわゆる記述統計のレベルを徹底することが重要だと思います。

最後に

 再現可能性を重視するならば,報告内の整合性を追求することよりもデータそのものの公開の方が重要です。
 これでサドコマシリーズ10か条の1つ目ができました。

サドコマシリーズ10か条

  1. 報告不備なら生データ