【サドコマ④】有意差がなかったのに効果量が大きい？【効果量の誤解】

f:id:kusanagik:20200806152046p:plain

　英語教育研究の査読で困った！サドコマシリーズ第４弾！とてもご好評いただいております！シェアしてくださると嬉しいです！！
　このシリーズについては↓
kusanagi.hatenablog.jp

　第４弾では，英語教育研究における「効果量（effect size）に関わる誤解」についての私見を述べます。国内の英語教育研究では，2010年頃から効果量を報告する論文が徐々に増加しました。しかし，それに伴って効果量について根本的な誤解をもったまま研究を進める例が目立つようになりました。そのもっとも典型的な例は，「検定結果は有意ではなかったが，効果量が大を示した。このことから，実質科学的にこの指導法の効果はあったものと考えられる」といった主張です。この主張のどのような点が問題になるのでしょうか？そして英語教育研究において，効果量の報告にはどのような意義があるのでしょうか？

　＊あくまでもこの記事は英語教育研究を前提にした草薙の私見であり，他分野，または統計学全般の規範とは異なる場合があります。

　結論を先にいうと，私が提案する方針は，「検定が有意であったときのみ，効果量へ言及する」と「効果量を使った探索的な研究を推奨する」です。

問題の所在
原則
妥協案の提案
考えておきたいこと
サドコマシリーズ10箇条

問題の所在

誤解の始まり

　効果量は，記述統計や検定統計量などの組合わせから計算される統計的指標の種類です。効果量と呼ばれる総称的なカテゴリーがあって，その中に具体的に，Cohen's d，Glass's ⊿，r， $η^2$ ...といった無数の指標があります。効果量に属す種々の統計的指標は，計算の方式によって，d族の効果量やr族の効果量，または，単純効果量と標準化効果量というようなサブカテゴリーに分けられます。分け方にも複数あって，標本効果量と，不偏推定量としての効果量にも分けることもあります。さらに，効果量に属する多数の指標は，ある組み合わせにおいて換算可能であったり，または換算不可能であったりします。
　さて，本来数式で定義されるものを，数式以外の方法，たとえば自然言語で表すと大抵の場合は失敗します。効果量もまさにそうだったと思います。効果量はあくまでも上記のような指標のことですが，しばしば「実質科学的に効果がある度合いを表している」と評されるときがあります。

もともとの目的

　「実質科学的な」という表現の含意は概ね，「理論的にp値と独立していること」という点と「相互に比較可能であること」という点だと私は思っています。
　たとえば，もっともシンプルな効果量であり，そして単純効果量とも呼ばれる平均差は，その名の通り，2群の平均値の差で表されます。A群の平均値が50，B群の平均値が60だったら，平均差は10です。この値自体は，少なくとも理論的にはp値と独立です。というのも，p値の計算過程の途中に平均差は現れますが，平均差の計算にp値は現れません。
　実際の研究ではもちろん，平均差（または効果量全般）の値が大きい場合には，p値が小さくなる傾向にありますが，平均差が厳密に0ピッタリでもなければ，たとえば平均差が0.00001であっても，標本サイズが十分に大きければ検定結果は有意になりえます。
　効果量という枠組み自体は「どのような小さい値であれ，検定が有意差を見出してしまうこと」を問題意識としているわけです。見方を変えていえば，「検定が有意であることが，その知見がもつ帰結の重大さを意味しない」ともいえます。よって，効果量には検定後のチェック機能としての役割が期待されます。検定が有意であったときに，「意味のない差ではないか」というように事後的にチェックするわけです。
　さらにここから発展して，効果量は研究デザインにおいて中心的な役割をもつようになります。より具体的に，標本サイズの決定に重要です。しつこいですが，検定はたとえ途方もなく小さい差であっても標本サイズが十分に大きければ有意差を検出します。逆に，たとえ大きな差であっても，標本サイズが十分でなければ検定は非有意になります。ですから，研究の事前に効果量の値に目安を立てて，その効果量の検出に十分な標本サイズを設定する必要があります。これは，検定力分析（power analysis）と呼ばれる分析の1つです。「10点の差があったら効果があったといえるだろう。なら，10点の差を見出すために適切な標本サイズを決めよう」といった手続きが典型です。
　3つ目，「相互に比較可能であること」とは，たとえば同じ指導法についての研究で，ある研究では10点満点のテストを使用したとして，別の研究では1,000点満点のテストを使用したとします。このとき，2つの研究の平均差を比較しようとしても，スケールが異なるために単純な比較ができません。これを比較可能にするために，それぞれの研究における変数の標準偏差で割ってスケールを揃えます。このようにして標準化平均差といった指標が使用されます。メタ分析は，このような標準化された効果量を使って複数の研究の成果を統合します。
　ここまでをまとめると，「実質科学的」といったことばに期待された効果量の機能・目的は3つです。これらはもちろん，数式上の性質によります。この性質を無視して，「実質科学的」ということばの表面だけに着目すると間違った利用が始まってしまいます。

検定後のチェック（e.g., 帰結が些細なことを発見してはいないか）
研究のデザイン（e.g., 必要な標本サイズの見積もり）
比較可能化（e.g., 他研究と結果を比較・統合できるか）

間違った利用

　間違った利用方法の代表は，検定の互換・代用として利用される場合です。
　効果量には，悪くいえば「文脈を完全に無視した」「恣意的な」，よくいえば，「よく知られている」「慣習的な」基準があって，値を大（0.8くらい？）・中（0.5くらい？）・小（0.2くらい？）といった形容詞に対応させることがあります。このような形容詞の使用の是非は後回しにして，ここでは，仮に効果量が「大」である場合・ない場合と，検定結果が有意である場合・ない場合があると考えましょう。そしてそれらを組み合わせて，以下の４つの場合を考えてみましょう。

f:id:kusanagik:20200801163715p:plain

　タイトルにもあるように，「有意ではなかったが，効果量が大きい」として，研究仮説を支持する事例です。ここで，検定が非有意であり，かつ効果量が大だったときに，対立仮説を支持すれば，これは研究全体としての第一種の過誤の確率を高めます。もちろん，厳密な意味では第一種の過誤ではないのですが，議論を間違ったほうに引っ張ります。つまり，非有意なのに，さも有意であったかのように扱っています。
　私は，これを個人的に自己救済措置と呼んでいます。「検定は有意じゃなかったけど，効果量で救済された！私の研究仮説が復活した！」といった例です。自己救済措置は英語教育研究においてとても頻繁に見られます。*1

f:id:kusanagik:20200806145000p:plain

　私はこれを悪意がある行為というよりは，「実質科学的」ということばに惑わされた帰結だと思っているんです。「検定はうさんくさいらしい。でも効果量は実質科学的らしい」と聞けば，応用分野に属する一般的な統計ユーザーは，効果量が真実（実質科学的）を表していて，検定はあくまでも付随的（実質科学的でない）なものだと考えてしまいます。つまり，標本サイズを十分に大きくできないような教育の分野では，「仕方なく有意差は得られなかったけど，本当は効果があるんだ！」と考えてしまうのです。もちろん，感情的にはとても共感できます。しかし，それを差し引いても，自己救済措置はあまりにも危険です。
　危険性はどんどん増していきます。たとえば，効果量は小・中・大のどの程度であっても，0付近でもない限りにおいて研究仮説自体を主張するとしたらどうでしょうか。また0.20以下は小だともいえないとしても，0.19999...ならどうでしょうか？結局のところ，研究仮説通りの主張を行う確率が際限なく上がっていきます。

f:id:kusanagik:20200801170623p:plain

　これに加えて，前回の多重検定の記事を思い出してください。こんなグラフを見たことはありませんか？検定の多重性を回避しようとして効果量を報告しているのでしょうが，結局有意でないものの中からいくつか救済して，それらについて，さも有意であったときと同じように扱おうとしているのかもしれません。このような論理展開はあまりにも危険です。

f:id:kusanagik:20200806133736p:plain

　端的に効果量の誤差を無視していることが危険性の根本にあります。たとえば，実際には効果量が0だとしたとき（母効果量を0だとする），毎回標本を得れば，その度に効果量の値（標本効果量）は0を中心にばらつきます。そして，標本が小さければ小さいほど，そのばらつきは大きくなっていきます。
　少し複雑に思われるかもしれませんが，こう考えましょう。本当の効果量が0のときに，標本効果量が，ある特定の値以上を取る確率を大きくする一番簡単な方法は，標本サイズを下げることです。標本サイズが小さいと誤差が大きくなりますから，その誤差によって大きな効果量が得られる確率は上がります。これでは，誤差が大きくなることを期待して，小標本の研究を行うことにインセンティブが働いてしまいます。
　こんなシミュレーションをしてみましょう。各群の標本サイズにおいて，100，20，8人の3パターンがあるとします。母効果量を0だとして，それぞれ1,000セットのデータを生成し，その全てのセットにおいて効果量（d）をもとめます。本当は効果がないことのメタ分析を行っているイメージですね。そのシミュレーション結果が下の図です。8人の場合なら，たとえば0.20より大きくなったのは，全体の約35%です。実際に効果量がないというシミュレーション上の環境ですら，8人の比較だと，35%くらいの確率でポジティブな方に効果量を示します。そして第一種の確率が（片側の）2.5%だとすると，シミュレーション結果のうちの33%は「有意じゃなかったけど，効果量はすくなくとも小程度あった」というパターンになります。ちなみに中以上（0.5以上）だと約15%がそのパターンになります。

f:id:kusanagik:20200806135512p:plain

　結局，人数が少ない実験をすればするほど，「有意じゃなかったけど，効果量はあった」という議論がしやすくなります。
　同じように，検定の互換として「効果があるか？」とRQにおいて問い，効果量の任意の値をもって効果があると結論づけるのも場合によっては問題です。上記のように誤差を考慮していないからです。
　さらに，ここまでの話とまったく同様に，有意傾向というのも，ただの非有意のことなので用いるべきではない言葉です。

原則

　原則は，もちろん，「有意差が得られなかったときに，標本効果量を証拠として研究仮説を主張しない」です。このような展開は絶対阻止です。査読でこのような論文が見かけたら，最初にこの点を徹底的に改める必要があります。これを正当化することはできません。
　しかし，これにとどまらず，効果量の本来の目的に忠実に沿った使用を心がける必要があります。英語教育研究に関する状況を考慮して，英語教育研究に限り，私は以下の3つの方針を具体的に提案します。

検定が有意であったときに限り，効果量の値に言及できる
効果量の値への言及は，根拠とともに示す。根拠がないなら言及しない
探索的な研究における効果量の報告を推奨する

妥協案の提案

検定が有意である場合のみ言及

　効果量の1つ目の健全な使い方は，前で述べたように事後的チェックです。事後的チェックというよりも，結果に対する反論への予防線と考えた方がいいでしょう。そもそも，統計的帰無仮説検定という仕組み自体が，学術コミュニケーションにおける機能に着目すれば，結果に対する反論への予防線です。
　たとえば，有意であることが，機能的に何を意味するかというと，「それは偶然ではないか？」というタイプの反論に対するカウンターエビデンスです。検定が有意であれば，「偶然ではなさそうだ」ということの証拠の1つになります。同様に，「有意差があったが，実際には意味がない値ではないか？」という反論があったとしたら，効果量の報告は「意味がないわけではなさそうだ」という種のカウンターエビデンスになります。反論があるから，それを予防しているわけです。
　このことを考えれば，そもそも検定が非有意であるとき，偶然ではなさそうだとも返すこともできないので，次の予防線を張る意味がありません。つまり，「偶然かもしれないが，意味がありそうだ」という種の主張にはまったく説得力がないでしょう？ですので，検定が有意じゃなかった場合には，そもそも効果量の値について積極的に言及する必要はないと思います。
　なぜ，あえて言及すらしないかというと，有意じゃないときに効果量の値に言及すると，いずれにせよレトリックを使って対立仮説を支持するような議論になる場合が多いからです。あえてそのような展開を防ぐためにも，危ない橋は渡らないということです。

効果量への言及は根拠を示す

　次に，上記の事後的チェックとして効果量へ言及するときは，いわゆる大・中・小基準以外の根拠をもって言及すべきだと考えます。少なくとも理想的には，です。
　より具体的にいえば，大・中・小といった表現自体は使用しない方がよいと思います。大・中・小とは，一般に検定力分析を行う際などの目安であって，統計的な計算上の通例だけに意味をもっています。より具体的な，特定の文脈，たとえば，「ある実験条件があるアウトカムに及ぼす影響」とか「ある処遇があるアウトカムに及ぼす影響」といった文脈をもつ場合において使用すべきではありません。つまり，ある具体的な研究において，「効果量が大であった」とか「小であった」という表現は英語教育研究では基本的に不必要だと思います。
　効果量の値は，あくまでも特定の文脈をもつ場合に限定して，その文脈内における相対的な比較のみに役立つと考えたほうがよいかもしれません。たとえば，「ほぼ同条件で行った先行研究の実験と同等の効果量だ」といった具体的な事例を引用した上で言及するべきかと思います。

探索的な研究における効果量

　研究仮説が特にない探索的な，または記述的な研究において，効果量を報告する必要がないかといえばそうではありません。
　むしろ効果量の役割として，将来行われる研究のデザインに貢献することができます。たとえば，探索的な目的の下で，検定をせずに記述統計と効果量を報告する研究があったとします。この研究では確かに強い主張をすることはできませんが，少なくとも仮説形成には役立つはずです。そして仮説形成だけでなく，次の検証的な研究のデザインを可能にします。たとえば，この論文で，標本効果量d = 0.40を示したとします。この探索的な効果量の報告から検定力分析を行って，各群の標本サイズがおよそ100人ずつ必要なことがわかります。次の検証的な研究では100人ずつの実験を行うとよい，といった具合です。
　さらに，探索的な研究であって検定を行っていないとしても，効果量が報告されてあれば，将来的にメタ分析で参照される可能性もあります。　もちろん，APAなどでは効果量の報告を求めています。
　このように，研究は競争的な側面もありますが，基本は科学コミュニティ全体のチームプレイです。チームプレイにおいてこのようなバトンの渡し方はもっとも理想的なものです。このシリーズでは何回も繰り返しますが，英語教育研究において，1論文の価値はそれほど高くないものです。だからこそ，英語教育研究全体が協同的に，効率的に作業を進めていけるような仕組みが必要だと思うんです。そして効果量はそのような仕組みの足場の1つだと思っています。効果量は有意じゃないときの救済措置ではなくて，複数の研究をつなぐバトンだと思いましょう。

考えておきたいこと

　さて，特に教育実践を視野に置くと，効果量に属する指標だけが特別重要だというわけではありません。確かに効果量は研究デザインなどにおいてとても重要ですが，「大きい効果量を示した指導法がよい」といったことばかりに囚われるべきではないかと思います。効果に限らず，リスクやコストなどについての観点も重要です。
　国内の英語教育研究の例を挙げると，寺沢（2018）*2は効果量に対する言及の仕方を示す手本の1つになるかと思います。この論文では，約3,000人の調査データを使用し，構造方程式モデリングを行っています。目標としては，小学校における英語経験が英語学習への態度，英語のスキル，そして異文化理解といったアウトカムに及ぼす効果を推定することです。寺沢は，まず，上記のようなアウトカムに対する効果が有意であることを報告しています。しかし，その後，以下のように論じています。

　第一に、前述の通り、本研究で示された小学校英語の効果は（たとえ統計的に有意だったとしても）ごく微弱なものであり、政策導入に必要なコストに見合うものかどうか疑問を抱かせるものである。もっとも、本分析で示された効果量自体は――たとえば偏差値 1-2 程度の向上は――、介入に要するコスト次第では有効性と見なせることがある。たとえば、千円程度の小冊子（たとえば副読本やドリルブックなど）を配布するというコストの小さい教育的介入で、これだけの成果が上がるのであれば大いに評価できるだろう。
　しかしながら、小学校英語のコストはこの対極にある。多くの論者が指摘しているとおり、小学校英語を施行するには教員の再研修、教員の配置、教材・カリキュラムの整備などに莫大なコストを要する (Hashimoto, 2011; 藤原・仲・寺沢, 2017)。これだけのコストに対して、偏差値にして 1-2 ポイントほどの上昇を、小学校英語の有効性と解釈するのは困難と思われる。（寺沢, 2018）

　まさに，検定後の事後チェックとして効果量に言及しており，効果が「あるかないか」といった二極思考ではなく，効果の程度自体に着目し，さらにそのコストを割り引いた上で効果量について議論しています。丁寧に標準化係数を偏差値換算し，そしてコストにかかる証拠となる文献を挙げています。そして「疑問を抱かせる」といったように断定的でない表現を使っています。規範的です。
　大事なことは，統計的な意味での効果，そして効果量自体は，私たちの複雑な意思決定における要因の1つでしかないということです。私たちはそれ以外にもコストやリスクについても考えますし，そしてそもそも定量化できないことにすら価値を見出すでしょう。最初の話題に戻りますが，そしてしつこいですが，効果量はある種の統計指標のカテゴリーの名前です。効果量を使うとき，いつもそのことを思い出すべきだと思います。効果量で目を曇らせてはなりません。
　最後に，効果量の信頼区間の報告も重要です。なかなか査読などで求めることは少ないかもしれませんが，効果量は信頼区間と合わせて報告すべきです。ただ，シリーズ第1弾で述べたようにそれが難しいのなら，生データを公開するほうが便利だと思います。同じように，効果量にもたくさんの種類があります。これらの氾濫もまた問題とされており，換算性の高い共通言語効果量というのも考案されています。「効果量のどれを報告すればよいか」という問題もありますが，まずは生データ自体を公開するように努めるほうがよいかもしれませんね。