2020-07-23

【サドコマ②】どこにも有意差がなかった…【null results】

サドコマ統計

f:id:kusanagik:20200720171945p:plain

　英語教育研究の査読で困った！サドコマシリーズ第二弾！早速ご好評いただいております！

　このシリーズについては↓
kusanagi.hatenablog.jp

　第二弾では，英語教育研究において，「論文内のどこにも有意差がない，期待される結果が得られなかった論文（null results）」について私見を述べます。
　統計的帰無仮説検定の枠組みでは，よく知られているように，帰無仮説を棄却できない場合において，対立仮説の含意を主張することができないばかりか，帰無仮説の含意すら主張できません。つまり有意差がなければ，厳密には主張できることなどなにもないと考えられることもあります。しかしそうはいっても，null results論文は，英語教育研究にとって本当に何の意味もないのでしょうか？果たしてそのようなnull results論文を評価する観点はないのでしょうか？

　＊あくまでもこの記事は英語教育研究を前提にした草薙の私見であり，他分野，または統計学全般の規範とは異なる場合があります。

　結論を先にいうと，私個人は「null resultsと結論に論理的整合性がある場合に限り，null resultsはnull results独自の基準によって評価し，その貢献をみとめるべき」と考えています。

問題の所在についての詳細
原則
妥協案の提案
考えておきたいこといくつか
サドコマシリーズ10箇条

問題の所在についての詳細

　さて，繰り返しますが，統計的帰無仮説検定において，検定が有意でなかった場合に「この指導法に効果がある」といった対立仮説の含意を主張することはできません（対立仮説の支持）。同時に「この指導法に効果がない」と主張することもできません（帰無仮説の支持）。
　このような非対称な仕組みから，研究者にとって有意な結果を報告するようなインセンティブが働きますから，いわゆるp-hacking（さまざまな方法で有意差を得るための工夫）またはHARKing（既知の結果の下での仮説生成）と呼ばれるような行為の温床になります。否定的な結果を示す論文がパブリッシュされる確率が相対的に低い現状をパブリケーション・バイアスなどとも呼ぶこともあります。もちろん，パブリケーション・バイアスは，さまざまな分野において問題として十分に認識されています。
　ところで英語教育研究では，ある指導法の効果を報告する実証論文（指導法効果検証論文）が主流です。しかし，指導法効果検証論文にパブリケーション・バイアスが働くことは容易に想像できます。また，実例は憚られますが，一般にp-hackingとされる行為の痕跡が見られる論文もあります。私自身，そのような行為と無縁だったとはいいません。そして，これもあくまでも記述的な話ですが，そのような行為自体が研究の生産性とつながっていることも否定できません。このようにnull resultsは研究倫理との関連において議論されることがあります。
　しかし，研究倫理の問題もそのとおりですが，より単純に見て，内容として一向に否定根拠自体が得られないことも重要な問題です。つまり，統計的帰無仮説検定の枠組みでは「指導法に効果がない」というカウンターエビデンスを積極的に示すことができません。しかし，これでは，実質的に効果があると先にいったもの勝ちの状況です。もはや「殴っても反撃がないからとにかく先に殴れ」という世界になります。実際，後世になって効果が否定された指導法はほとんどありません。これによって，「科学的に効果が検証された指導法」は世に溢れます。モンド・セレクションのようです。
　効果は否定されませんが，時代の流れに沿って自然発生する指導法の流行り廃りはあります。ある指導法が流行れば，その指導法の効果がより多く報告され，廃れればその報告の数が少なくなる，大局的に見ればそれだけです。仕組みとして，効果があることを報告するしかないのですから。統計的帰無仮説検定による指導法効果検証は，検証に誤りがあることを最初から念頭に置いている，可謬主義的な研究プログラムではないのかもしれませんね。そもそも。

原則

　さて，たとえどれだけこのシリーズが現実的な妥協点ギリギリを狙うものであっても，統計的帰無仮説検定によって帰無仮説の含意を主張できないことは絶対に捻じ曲げてはなりません。つまり，null resultsの結論は必ず「効果検証に失敗した」または「対立仮説の支持に失敗した」と明確に書くべきであって，あくまでも「効果がないことが科学的に解明された」というように書いてはなりません。null resultsの論文におけるアブストラクトは，たとえば以下のように書かれるべきだと思います。

The present study failed to replicate ...

The present study did not obtain any statistical significances...

The results showed that the present study failed to support the alternative hypothesis (H1).

The authors, thus, avoid to conclude that ....

The present study did not confirm ...

しかし，一方，上記のように，統計的帰無仮説検定のロジックと結論の記載に整合性があれば，null reults論文に対してはnull results論文として適正な評価を査読者が与えるべきだと考えます。ここが大前提です。

妥協案の提案

null resultsにも意味がある

　研究にはそれ相応の費用と労力がかかっており，パブリケーション・バイアスを強めることは科学研究全体の問題です。なので，null resultsの積極的な価値を考えるムーブメントもあります。たとえば，英語教育研究に限らず，他分野に目を向けると，null resultsを専門とするジャーナルも見つかります。

Journal of Negative Results in BioMedicine | Home page

　また，より具体的に，神経科学分野において，De Graaf and Sack（2018）はnull resultsを実際にどのように評価するべきかについてのモデルを提案しています。（もちろん，null resultsの評価に関して論じる論文はこれに限りません）

www.ncbi.nlm.nih.gov

　つまり，どのような論文であれnull resultsは掲載しない，というような強固な編集方針ではなく，null results論文の積極的な価値を，ある観点をもって，部分的に認めようとするのです。部分的に，というところがポイントです。すべてのnull resultsがよいわけではないことに気をつけなければなりません。「みなさん，失敗した研究をとにかくここに載せましょう！コロナの後はnull resultsキャンペーンだよ！実質査読はないよ！」といったことを英語教育研究において推し進めることを主張したいわけではありません。

null resultsの評価指針

　ここでは，De Graaf and Sack（2018）によるnull resultsの評価指針を参考にしながら，日本の英語教育研究の文脈を考慮し，null resultsをどのように評価するべきか，その観点について書きます。まず，De Graaf and Sack は，null resultsが２つの連続的な特性をもつと考えるモデルを提案しました。そのモデルにおいて，gradient of surprise（意外性の程度）とgradient of interpretability（解釈可能性の程度）という特性が仮定されます。これらの組み合わせによって，null resultsの貢献を捉えようとするわけです。

意外性

　意外性とは，その事前における結果の予測とnull resultsの整合性です。たとえば，とてもよく知られた研究結果の追試（replication）の結果がnull resultsだった場合，意外性は高いです。一方，事前に研究者が仮説として立てる結果（研究者がnull resultsを予測する）であれば，意外性は低いです。意外性が低いnull resultsに積極的な価値を見出すことはしにくいですね。「まじか！？」と「そりゃそうだろ」ということです。
　たとえば，とても効果があることがよく知られている指導法の効果がnull resultsなら，意外性は高いといえるでしょう。タスクは言語習得を促すといえないとか。（英語教育では，タスクと呼ばれる処遇の類は科学的に効果があるものとして喧伝されてきたようです）
　一方，効果がないことが普通に信じられていることを題材に，効果がないことを示しても，なんの意外性もありません。大学生にハイブランドの鞄を与えても英語力は伸びたといえなかったとか。（英語教育研究では，学習やその成果変数に対して，学習にかかる経済的資源の大きさが交絡変数になることは自然に予想されます。しかし調度品の経済的価値を変更することが学習に対して直接的な因果関係をもつとは考えられていません）
　つまり，意外性とは，研究者の事前の信念の度合いに依ります。もちろん，信念の度合いといっても，いわゆる「へ～，意外だわ～」といった心理的な個人内経験や「こうであるべきだ」といった個人の規範的意識というより，先行研究との整合性，そして既存の理論からの予測のことだと考えましょう。これはベイズ統計の流行を受けた観点ですね。

解釈可能性

　さて，次の解釈可能性は少しだけ難しい概念です。上記の意外性とは独立した情報量の大きさのこととしています。より具体的にいえば，研究デザインの総合的評価などです。たとえば，事前に検定力分析によって標本サイズを十分に大きくとった研究や大人数のランダム化比較実験は，8人ずつの小標本の研究よりもnull resultsのあり方として解釈しやすいです。手法が悪かったから，といった解釈の確率が低いからです。つまり，解釈可能性とは，手法，デザイン，分析に由来するnull resultsではなさそうな度合いだと考えてもよいでしょう。

これらを参考に組み合わせて

　これらの2つの組み合わせで，null resultsにもさまざまな場合が考えられることがわかります。一般に，意外性が高く，かつ，解釈可能性が高い論文には，より大きな価値があると考えてもいいでしょう。意外性が低く，解釈可能性も低い論文には価値を見出しにくいでしょう。
　たとえば，両方が高い例は「5000人対5000人のランダム化比較実験において，タスクの効果についてnull resultを示す」といった感じです。「しっかりした研究デザインだし，とても意外」です。
　次に，意外性が高く，解釈可能性が低い論文は，「8人と8人の縁故サンプリングの群比較実験で，タスクの効果についてnull resultを示す」といった感じ。「研究デザインは弱いけど，結果自体はとても意外」です。
　３つ目に，意外性が低く，解釈可能性が高い論文は，「5000人対5000人のランダム化比較実験において，鞄を買い与える効果についてnull resultを示す」とか。「研究デザインは優れているけど，結果自体は予想通り」です。
　最後に，意外性が低く，解釈可能性が低い論文は，「8人と8人の縁故サンプリングの群比較実験で，鞄を買い与える効果についてnull resultを示す」など。「研究デザインが弱いし，結果も予想通り」です。
　こう考えると，2つの軸のうち，英語教育研究では意外性の方がやや重要なように考えられます。というのは，解釈可能性が非常に高い実験がそもそもしにくいからです。
　また，意外性がなくても，社会的意義が大きい結果も考えられます。たとえば，こんな場合はどうでしょう？ある既存の政策は，ほぼエビデンスに基づかずにいわゆる「思いつき」や「なりゆき」で施行されたとします。研究者の多くは，この施策に効果がないことを信念として持っているかもしれません。その意味では，この施策に関するnull resultsに意外性はありません。しかし，施行されている政策と整合的な結果にならないことは，研究者の信念というわけではなくても，社会的には十分に意外です。意外性という概念も，研究者個人の信念という枠組みよりも少し大きな意味で捉えられるべきですね。社会学や心理学では，脱常識性といったりするようです。英語教育研究も意外性，脱常識性といった観点について十分に考えたいものですね。

結局null results論文で見るべきこと

　さて，ここまでの議論はこうまとめられます。

「効果がないことが解明された」と結論で述べていないか
意外性があるか，つまり，査読者にとってその結果が予想できたか
解釈可能性があるか，つまり，研究のデザイン全体の評価はどうか

f:id:kusanagik:20200724084805p:plain

考えておきたいこといくつか

　ここでは上記に加え，考えておきたい論点を補足していきます。
　近年の統計学では，帰無仮説に相当する含意を主張するためには，ベイズ統計を使った情報仮説の評価を使用することが標準的です。ベイズ因子といいます。もちろん，ベイズ因子の積極的な利用も考慮されるべきです。特に，最初から研究者がnull resultsを予測した研究を行う場合には，ベイズ因子の利用が適切かと私は思っています。英語教育研究におけるベイズ統計の普及も望まれます。
　もちろん，それ相応に十分に大きな標本サイズを得られるならば，どのような効果量の値であれ（母効果量が0といった特異的なケースを除けば），適切な標本サイズの下では必ず有意差を得ることができます。null resultsの評価の前に，標本サイズの適切な設計段階についても考えるべきことは忘れてはなりません。
　次に，「最後にそれをいっちゃうのか」と批判されそうですが，少なくとも私は，英語教育研究において解釈可能性が高いnull resultsの論文をあまり見たことがありません。ほとんどの場合，有意でない理由は研究デザインにあると推測できます。つまり，null results論文の解釈可能性が概して低いのです。たとえば，

合理的に期待される効果量の大きさに対して標本サイズが小さすぎる
処遇の期間が短すぎる
容易に交絡すると想定できる交絡要因が事後的に統制されていない
標本が明確に不均質・アンバランス
測定の精度が低い（テストのクオリティー，信頼性係数，テストと集団のミスフィット）
単純に統計の分析由来（尺度水準の取り違え，計算ミス，前提の無視，分布の無視，外れ値の無視）
研究のモデルとする先行研究の母集団の適用範囲を遥かに超えて適用している（母集団の年齢，国籍，言語…）

などです。査読者は上記の点などを一通りチェックされてもよいでしょう。どれかに当てはまると予想します。また，自分の論文で有意差を見出すことができなかったら，上記をチェックされるとよいでしょう。
　さらに，意外性の評価といっても，実際には非常に難しい面もあります。たとえば，英語教育研究ではなく隣接分野のSLAという分野では，ライティング・フィードバックの効果について，長い間論争になっているそうです（執筆時にSLAの研究者の方に確認を取りました）。つまり効果がある派とない派が真っ二つになって論争をしているわけです。このような研究テーマでは，効果がない派にとってのnull resultsは意外ではありません。そう信じられていますから。しかしこの結果を意外と見るのは，逆に効果がある派です。すると，もともと反対意見の研究者が高い評価を与え，同意見の研究者が低い評価を与える状況になります。もちろん，これも自然な姿ですが，このような係争中の論争でのnull resultsの評価は実際に難しそうですね。
　また，HARKingにも関することですが，null resultsを得た論文では，その結果がさも従来の先行研究に反するものというように歪めて書くことが，パブリケーションの上で有利になる可能性があります。たとえば，単純に結果がでなかったとき，恣意的に本来の自分の意見の反対意見だけを集めて先行研究を再構築するかもしれません。このような事態は，英語教育研究では十分に考えられることです。そもそも，分野全体で受け入れられている基盤や公理が存在しないため，ありとあらゆる他分野由来の都合のよい知見を拾い上げて，null resultsの意外性を高く見せようとするかもしれません。結果を知ったあとに。
　最後に，ある特定の理論がそもそもnull resultsの累積によって築かれている（theories supported by null results）というケースもあります。たとえば，隣接分野であるSLAの文法や語彙の研究では，「母語話者の反応時間・読解時間に見られる言語刺激や課題の効果が，学習者には見られない」というnull resultsを基盤とした理論形成がとても頻繁に見られます。このような場合，そもそも意外性の評価はどうなるのでしょうか。
　これらを考えると，意外性の評価といっても，意外性を与えるような理論的基盤がなければ評価が成立しません。確固たる研究方法論の基盤がなければ，解釈可能性の評価も成立しません。実際にこのような評価が英語教育研究で機能するかを保証できないのです（むしろ，実は悲観的です）。英語教育研究分野全体として，このようなnull resultsをどう扱うかの議論が活発になってほしいと思います。

サドコマシリーズ10箇条

　さて，これで新しいあいことばが増えました！

報告不備には生データ
null resultsも評価する

　また来週！来週は「検定めっちゃ繰り返してる」，つまり英語教育研究における多重検定の問題について書きます！（現在は従来予定していたペースよりも早めに公開しています）
　

2020-07-17

【サドコマ①】絶対に不可欠な統計の報告がなされてないんだけど？【報告不備】

サドコマ統計

f:id:kusanagik:20200717225935p:plain

　英語教育研究の査読で困った！サドコマシリーズ第一弾！

　このシリーズについては↓
kusanagi.hatenablog.jp

　第一弾では，「必要と考えられる統計に関する値が報告されていない」論文（報告不備，報告抜け，報告落ち）について私見を述べます。必要不可欠な統計報告がなされていない場合，意図的にデータやその処理過程を隠しているという意味では研究不正，またはQRP（疑問符がつく研究実践）とみなされることもありえます。しかし，応用分野である英語教育研究の現状において，必ずしも適正な報告がなされるわけではありません。あまりにも強く規範的な報告をするような改善を求め，論文を一様にリジェクトすると，逆にそれが英語教育研究における生産性全体を低減させることも想像に難くありません。私たちは，このようなトレードオフの中で，適切な妥協点を見出せるのでしょうか？
　＊あくまでもこの記事は英語教育研究を前提にした草薙の私見であり，他分野，または統計学全般の規範とは異る見解を述べています。

　ここで結論を先にいっておくと，報告不備が見られる場合，その報告について事細かに修正するというよりは，生データ自体をそのまま公開するべきだということです。

問題の所在についての詳細
原則
英語教育研究の現状
妥協案の提案
覚えておくとよいこと
最後に
サドコマシリーズ10か条

問題の所在についての詳細

　最初に，統計的帰無仮説検定に属する分析のほとんどは，データから求められる値の変換・計算の段階的過程だと考えることができます。たとえば，2群の平均差に関するt検定では，2群それぞれの平均値，標準偏差，標本サイズから検定統計量t値が求められます（また，Cohen's dのような標準化平均差も求まります）。次に，検定統計量と自由度から有意確率p値が計算できます。その自由度は，それぞれの群の標本サイズから求められます。最後に，有意確率と有意水準から検定の結果が定まります。
　また，分散分析表はよりわかりやすい例です。分散分析表では左の列から右の列へ統計量の計算をしていきます。最左列にある平方和を，その右列にある自由度で割って，平均平方を求め，この平均平方を自由度の右列に付け足します。要因変動と誤差変動における平均平方の比がF値で，これをその右列に付け足します。ここまで求めたF値，第1自由度，第2自由度からp値が計算できます。p値が最右列ですね。分散分析表を掲載すると，このような計算のどの段階がおかしいかがわかるわけです。ステップ化することによって，結果の検証可能性を高める自然な仕組みになっているわけです。
　このことから，規範として，ある分析に使用される値は，漏らさずに報告することが推奨されます。APAなどもそのように推奨しています。これは再現可能性の確保にも繋がる重要な観点です。一般に広く信じられているように，検定結果は，必ずしも生データにのみ対応しているわけではありません。パラメトリック検定といわれる検定は，その名の通り，パラミタだけを使って計算されます。たとえば，完全に同じ平均値，標準偏差，標本サイズをもつ複数のデータセットのt検定の結果は同じです。ある一定のデータから計算される値（記述統計等）の組み合わせがあれば，そこから検定結果が検算できたり，またはシミュレーションによって分析自体を再現することが可能なわけです。
　分析の方法によって，検算やシミュレーションに必要となる情報は大きく異なります。たとえば，対応のあるt検定の場合，上記に加え，一般に相関係数が必要になります。検算が可能となる統計量が何であるかは，かなり複雑です。たとえば，標準偏差が報告されてなくても，代わりに分散共分散行列があれば代用できますし，平均値と標本サイズ，あとは差得点の分散がある場合においても，対応のあるt検定を検算することができます。ここまでが基礎的な知識です。
　ところで，英語教育研究の現状では，ある分析に使用される値の報告が徹底されているとは限りません。より具体的にいうと，

検定結果のみを報告している（e.g., 有意だった）
加えて，有意確率を報告している（p = .01で有意であった）
加えて，自由度，検定量，有意確率を報告している（t(31) = 10.21, p < .01で有意であった）
加えて，有意水準，自由度，検定量，有意確率だけを報告している（α = .05として検定では，t(31) = 10.21, p < .01で有意であった）
上記に加え，平均値の報告はされているが，標準偏差の報告が欠落している
t検定の等分散性や正規性の仮定についての言及がない

といった場合が少なくありません。かなり厳密にいえば，英語教育研究における大半の論文が，必要不可欠な値の報告を怠っているといえなくもありません。このような報告形態の論文を一概に研究不正やQRPとみなすべきでしょうか？または査読側から，どのような改善を提案したらよいのでしょうか？

原則

　原則として，少なくとも規範的には，研究の責任著者は，その研究の再現に必要なあらゆる情報の開示に協力する義務があると考えましょう。その研究の再現に必要な情報を隠蔽したり，利用不可能にすること自体を正当化することは不可能です。

英語教育研究の現状

　しかし，統計分析のすべての過程に必要な情報を，すべて漏らさず報告しないとならないとはいえない実情もあります。そして，その必要な情報なるものの基準が明確なものとは限らないのです。つまり，タイトルにあるような，絶対に不可欠といったものの線引き自体が非常に微妙です。このことに関して詳しく書きます。
　1つ目のポイントです。英語教育研究者のほとんどは，記述的にいって，どの分析において，どの値が計算の過程に使用されているかの知識をほとんど持ちません。査読者も投稿者も，双方ともに明確な判断がつかないことがほとんどです。どの値が必要でどの値が不必要かをやりとりすること，そして限られた時間内でそこに合意を見出すことが困難な場合があります。そもそもこのやりとりが不効率な場合あります。たとえば，査読者の判断が必ずしも正しくない場合が結構多いのです。これは私の個人的経験でもありますが，査読者の完全な誤解による報告落ちリジェクトというケースは少なくありません。極端な例ですが，ベイズ統計を使用した際に「この論文ではp値が記載されていないので誤りである」という査読者の指摘を実際に見たことがありますし，「2要因の分散分析では自由度は2つ（第一自由度と第二自由度）あるわけがないため，統計的信頼性が欠ける」という指摘も見たことがあります。
　2つ目のポイントです。研究者が再現に必要なあらゆる情報の開示に協力しないケースが多いことも他分野の事例から想像できます。たとえば，事実として，様々な分野において，元データの提出の要請に応える研究者は多くないという報告が次々となされています。これは，元論文の研究者にとってインセンティブが働かない仕組みになっていることも問題です。たとえば，元データの提出をしたところで，問題がなかったとしても，何も研究者にとって利益はなく，提出をすれば誤りであることが指摘される可能性が0じゃないとすれば，期待値としては必ず元研究の価値が疑われることになります。さらに，そもそもデータの記録や整理がなされていなく，技術的に提出の要請に応じられないという場合も多いでしょう。つまり，査読者が「この値，この値，そしてこの値が欠落しているから報告してください」と仮に要請しても，これに応えられる場合はそれほど多くないと考えます。また，査読者に指定された意味のわからい値をソフトウェアから転写する作業自体にはあまり意味がありません。
　3つ目に，現状の英語教育研究において，1論文の統計処理の精度や，分析の高度さ，報告の精度自体はさほど大きな問題ではないという事情もあります。これまで，実際に，重要な理論的知見とされてきた隣接分野（応用言語学，第二言語習得）の研究においても，現在の観点から見ればですが，単純な統計の誤用であったり，論理的な誤謬が多く含まれています。そういったことに関わらず，専門用語を提案し，分析のフレームワークを提供したような論文，つまり分野全体に多大な貢献を残した研究は無数にあります。自由度の報告がない1990年代以前の研究はすべて無価値だというわけではありません。n.s.と表記していた1980年代以前，または計算資源の節約からz検定を行っていた論文にも価値があります。
　4つ目です。統計分析の技術的な発展について考えてみましょう。現状において必要とされる統計量などが，将来的に必要とされるとは限りません。たとえば，現在統計分析の主流であるベイズ統計を援用するとしたら，t検定におけるt値は必ずしも必要でないかもしれません。発展速度というか，移り変わりのスピードが非常に速い統計分析技術の中で，たまたま，ちょうど現状において使用されているスタンダード（それすらも最先端からは数十年以上の遅れを取っている）な分析のみに必要な値の報告を徹底することは，それほど重要なことでしょうか？
　私は，それよりもさらに重要なことがあると考えます。

妥協案の提案

　私の考えはこうです。基本的に，査読者や読者が求める情報の開示要請のすべてに応じる必要がある，という原則は厳守すべきです。しかしその上で，顕著に応用的な分野であるのだから，この点については柔軟な態度を取り，1論文における報告の整合性の評価よりも，将来的な再分析が可能であることを保証すべきと思います。
　たとえば，t値，自由度，p値についてすべて誤った報告されていたとしても，または記述統計がすべて報告されていなかったとしても，全データとその明確な取得手続きが公開されてあれば，それほど大きな問題ではないと考えます。仮に元データがありさえすれば，そんなものは後から簡単に計算できますから。将来的にはデータ分析の技術が高度化し，コストも低減しているでしょう。そして実際に再分析をする研究者は，計算の途中段階の値を重要視することはあまりありません。
　さらにいうと，英語教育研究全体の将来の資産になること自体が重要であって，その論文内において決定的な結論を出したりするために，すべての計算過程を完璧に示すべきだとは思いません。自然科学とは異なり，人文系の応用分野で，1つの検定結果がそれほど大きな意味を持ちません。まさに，この分野の歴史が示しているように。メタ分析が理想的な分析だとはいいませんが，1研究の報告よりも，メタ分析の結果がより重要だとするエビデンス階層の考え方も同じです。そうすると，メタ分析で将来的に使用される要件を満たす方がより重要です。
　つまり，報告不備などがあり，全体的に瑕疵あると認められるときに，査読側が投稿者に求めるべきことは，統計処理の途中段階の値を網羅的に記載することよりは，データそのものの公開を求めることです。投稿者に必要なことは，データそのものを公開する準備です。統計処理になにか問題があると考えられた場合，その問題の解決に労力を費やすというよりは，データそのものを公開することの方が手っ取り早く，将来的な利益を考えれば相対的に有効です。そのようなシステムも整備されつつありますが，英語教育研究のほとんどは小規模ですから，統計処理に費やしていた部分を削れば，そのスペースに生データ自体を掲載できる可能性があります。2ページもあれば論文そのものの付録に掲載できるでしょう。もちろん，それに合わせ多少結論を弱める必要もあるかと思います。

f:id:kusanagik:20200718073238p:plain

覚えておくとよいこと

　そうはいっても，整合性のある報告や，1論文の完成度の高さがどうでもいいわけはありません。適切な報告に越したことはありませんし，それを目指す方向性もとても重要です。「生データを出せば統計は間違っててもいい」，「データの提供だけで研究はOK」ということを強調したいわけではありません。
　報告の質を高めるために，ここでは，より一般的な意味で，整合的な報告に必要な情報を記しておきます。逆に言えば，以下のような情報が揃っている場合，データそのものがなくても，分析結果を再現することが可能である場合が多いです。原則はよく知られているように，記述統計をしっかりと報告することです。

2群の平均差の検定の際は，それぞれの平均値，標準偏差，標本サイズが必要
対応のあるt検定，または被験者内計画の分散分析，回帰モデルの際は，上記に加え，分散共分散行列，または相関係数行列が必要
分散分析は，各セルごとの平均値，標準偏差，または分散共分散行列が必要
因子分析，構造方程式モデリングのほとんどの場合，平均ベクトル（各変数の平均値のセット），分散共分散行列，または分散ベクトルと相関係数行列が必要
正規性等の仮定をもつ分析を行った際には，（場合によっては多変量の）歪度および尖度，または分布型に関する言及，または分布型の可視化が必要

　特に，分布型に関する歪度および尖度の報告，またはそもそもデータがどのような分布型であるか，またはどのように扱ったかについての情報は不可欠ですが，現状において報告が徹底されていません。なので，平均値，標準偏差，歪度，尖度，それに加え，分散共分散行列，相関係数行列などといったいわゆる記述統計のレベルを徹底することが重要だと思います。

最後に

　再現可能性を重視するならば，報告内の整合性を追求することよりもデータそのものの公開の方が重要です。
　これでサドコマシリーズ10か条の1つ目ができました。

サドコマシリーズ10か条

報告不備なら生データ

2020-07-17

【サドコマ】英語教育の統計関係の査読で困ったときに

サドコマ統計

このシリーズについて
私の動機
- 英語教育研究の現状認識
- 個人的な動機といきさつ
取り上げるトピック
現在公開中の記事

このシリーズについて

　このシリーズでは，英語教育研究でしばしば問題になる統計処理のあり方について私見を述べます。後で詳しく書きますが，毎週1本程度，「英語教育研究の統計関係に関して査読で困ったら読む記事」という体裁でカジュアルな統計記事を定期的にアップしていきたいと思います。略してサドコマです。現在のところ10回のシリーズものとして計画しています。（ということで自分自身にペースを課しています）
　想定する読者さまは，査読者として，統計関係の評価に悩んでいる方と，投稿者として，査読者対応に悩んでいる方の両方です。内容は，あくまでも，私，草薙個人の私見によります。一研究者としての知見の陳述としてのみ，責任を持つ所存です。私の所属先や，私が所属する学会の見解ではないことに留意してください。
　記事については，統計学全般における規範というよりは，英語教育研究に固有な事情や現状と機能についての側面を優先して書いています。なので，私がこの一連の記事で述べることは，統計学，特に心理学，社会学，医療などで規範とされる統計分析と一部異なります。他分野の方に読んでいただいても，参考程度になるかどうかもわかりません。この記事の読者の大半が英語教育研究者ではないことも留意しています。
　また，ある具体的な論文を落とすべきか採択にすべきかといった観点にも立ち入りません。それはあまりにも文脈依存的です。むしろ，査読においてどうやりとりすべきか，そしてどのような改善ができるか，またはできないか，について書いています。

私の動機

英語教育研究の現状認識

　英語教育研究は非常に学際的な分野であり，様々な他分野の影響を受けて成立しています。そのため，他分野の研究方法と新しい技術の取り入れに対して非常に積極的です。一方で，分野全体の前提となるべき確固たる基盤がないため，研究方法論に関する共通認識が得られにくい状況です。
　そのもっとも典型的な例が，査読のやりとりにあらわれます。主に，統計解析やデータ分析について，査読者と投稿者の間に共通認識が成立しないため，査読のやりとり自体がまったくもって不毛になる場合があります。これは査読者や投稿者がもつ能力の欠乏を意味するものではなく，あくまでも，上記のように，顕著な学際性をもつ応用分野であるゆえ，分野全体において共通認識が得られにくいためであると考えています。
　より具体的にいえば，2010年代以降，日本の英語教育研究では，研究方法論に関する関心が高まり，統計改革といわれる一連の運動が広まりを見せました。従来より流行していた統計的帰無仮説検定のあり方には疑義の目が集まって「従来の統計的帰無仮説検定は望ましいものではなかったのではないか」という反省的な機運もあります。
　しかし統計改革後，規範的な代替として示される数々の新しい解析技術は，控えめにいっても，英語教育研究において十分に普及しませんでした。つまり，現在，統計解析やデータ分析について，いわば「2010年代以前に確立しつつあった一種のスタンダードはよくないものと認識されているが，具体的な代替案には見当がつかない」といった慢性的な状況にあると私は考えます。英語教育研究を担う教員養成や研究者養成のあり方とも無関係ではありません。実際のところ，この点を取り扱う確固たるカリキュラムがない状態なんです。

個人的な動機といきさつ

　査読の話に戻ると，私はここ数年に亘り，年間数十件以上の頻度で「査読者から，その統計の仕方は悪いといわれたけども，代わりにどうしたらよいかわからない」といった投稿者の相談を受けてきました。被査読者から見ると，一方的にダメ出しをされて，しかし代替案は示されてない状況です。一方，それよりも遥かに比率は少ないですが，「現在査読中のこの論文のこの統計について正直判断がつかないから，草薙の意見を知りたい」という相談を受けます。つまり，査読者から見ても，いいのか悪いのかもわからないという状況です。
　私がここ5年くらいの経験で気づいたことは，面白いことに，かなりトピックが限定的だということでした。相談の95%は，10個くらいにトピックに集約できるのじゃないかと。しかもその殆どのトピックは，統計的帰無仮説検定と多変量解析に関係しており，そして投稿者や査読者の研究能力というよりは，そもそもの手法的限界と英語教育研究に根ざす根本的な問題に由来するものでした。これがこの一連の記事の動機です。
　ところで，私は，「変態だ」「倒錯している」または「外れ値だ」と周りから窘められるくらい，若手時代の多くの時間を研究方法論に費やしてしまいました。怪我の功名で，その点に関しての多少の専門性は認めてもらっています。ですが，私はやはり若かったので，年齢相応にとても傲慢でした。「英語教育研究の質が低いのは研究者の程度が低いからだ」という観点を信じていました。研究者が自己研鑽すれば，統計に関する問題などはまったく起きないはずだと。より優れた，正しい規範が示されれば，自然にそのような問題は発生しなくなるとタカをくくっていたのです。自己研鑽が大事だと思った自分は，これが今年の新しい数理モデルだと聞けば，そのモデルを習得し，このプログラミング言語が流行ると聞けばそれに時間を掛けました。そんな新しいものを人に伝えると勝手によくなるのではないかと。しかし，そんなことで根本的な問題は解決しませんでした。トレンド系のセレクトショップのバイヤー気取りだったのです。
　トレンドのおっかけでなくて，より現実的な意味において，多くの英語教育研究者が，自分の関心と情熱をもって，普通の研究方法によって普通に研究を進め，それが結実するプロセス自体がより大事だと思うようになりました。これは，私に対して統計の相談に来られる方の目を見てある気づきを得たからです。みなさん，とても困った顔をされているんですよ。相談者には確かに必要最低限の研究の訓練を受けられていない方も多いです。しかし，誰一人として自分の労力を惜しむために私に相談している人はいませんでした。彼ら彼女らの真剣さを見て，私は，私の変態と評されるくだらない研究なんかよりも，私に相談をされる方の研究が実を結ぶほうが社会的な価値をもつのではないかと思うようになりました。もしよかったら，あまり社会との接点がない私ですから，サポートの形でなにか関わりを持てないか，と思ったのです。特に，こういう時期ですしね。

取り上げるトピック

　というわけで，次回からは，具体的に以下のようなトピックについて記事を書いていきます（実は半分くらいはもう書き終わってます）。週1，週末公開の予定です。公開されていない週は，草薙が締め切りに追われているのだと優しく察してください。あと，私になにかの締め切りを課されていて，かつ，私の仕事が遅れている場合でも，「なんだ，くにちゃん，余裕あるじゃん」とか思わないでくださいね。私のエフォート配分というよりは，生存確認の機能もここで兼ねたいと思っています。いつものグデグデとした厭世的で，悲観的で，神経病質な文体を好んでくださっている少数の方（そしていつも励ましとお叱りの手紙をくださる方）にも申し訳ございません。ここでは真面目に，上品に，真剣に丁寧体で書きます。またあまりテクニカルに書くつもりもありません。ただ，想定する読者はあくまでも査読を受けたりしたりする研究者ですから，layman's termだけを使用するわけではありません。そういう意味で入門的ではありません。

　さて，具体的な取り上げる予定のトピックは以下の通りです。

①絶対に不可欠な統計の報告がなされてないんだけど？
②どこにも有意差がなかった…
③検定めっちゃ繰り返してる
④有意差がなかったのに効果量が大きい？
⑤それ正規分布しなくない？
⑥事後分析の恐怖
⑦まったくわからない統計が査読に回ってきたwww
⑧有意差がないけど質的には効果があったかもっていうけど…
⑨質的研究の査読ってどうするの？
⑩標本サイズが小さすぎる＆アンバランス

　もしかしたら，好評を頂いたら，続けて別の問題についても取り上げたいと思います。それではよろしくお願いします！

　来週は，「①絶対に不可欠な統計の報告がなされてないんだけど？」について書きます。

現在公開中の記事

2020/7/17
kusanagi.hatenablog.jp

2020/7/24
kusanagi.hatenablog.jp

2020/7/28
kusanagi.hatenablog.jp

2020/8/6
kusanagi.hatenablog.jp

2022/8/21
kusanagi.hatenablog.jp

2022/8/30
kusanagi.hatenablog.jp

2022/9/21
kusanagi.hatenablog.jp

2020-06-10

「私は本質病が怖かった…」：研究テーマの決め方（2）

雑感

本質病って？

前回の記事で，私は私のアイデンティティをそこに見出せるような研究テーマを持たなかった，という個人的な話を変な喩え話を使って書いた。「俺は殺し屋になりたいのであって，敵討ちしたいわけではなかった」っと院生のときに考えたっていう。まあ，平たく言ってこれはその話の続きなんだ。
　私が研究テーマを持たなかったのは，研究テーマをドヤ顔でいう世界が恥ずかしかったことに加えて，ある病気が怖かったからでもあるんだ。ここではその病を本質病と呼ぶことにしよう。本質病ってのは，私の命名でなくて，物理学の武谷三男先生の著書で述べられてるらしい。
　なんか本質病っていえば大げさなんだけど，要は，実際に検証可能なレベルまで研究テーマを絞ることが研究技術としてできなくて，もっぱら解決不可能で，しばしば壮大な思弁に終始するような状態だ。「そもそも本質的には…」みたいな話。「そもそも」って表現がポイントかな。もちろん，分野を限らず，大学院生にも多い。卒論指導の初期段階でもよく見られるし，引退なさった大先生も人によってこうなってらっしゃる場合がある。研究として成立しないような壮大なテーマをいつも語るひと，そんな感じ。

本質病でいいじゃないの

　もちろん，こういう状態も視野を広げたりするのに役立つし，思索を続けるのはなによりも大事だ。研究という営為を日常的にするなら，誰もが経験あることだろうし，私もよくこうなる。いまもそうじゃないかって疑うくらい。いつも，自分は本質病じゃないかって神経質にもなる。
　本質病が悪いかっていったら，別に悪いことだともいいきれない。なにより，知的な原動力を示すからいいじゃないの。パースの「探求の道を塞ぐな」だよね。これは自分の原点だともいえることば。
　素晴らしい。本質病，そういう意味でかっこいいじゃん。「どうでもいいわ」よりは「そもそも本質とは…」ってやっぱかっこいいじゃない。
　それにかなり冷めた目，特に機能文脈的に見ても，本質病を揶揄してもしょうがないし，そういう風土は研究を抑制させる機能を内在させる。本質病の話もちゃんと聞くのが研究コミュニティのマナーだと思う。研究者だったら，そういう話は，常に真剣に耳を傾けるべきだと思うんだ。

それでもやっぱ怖かった…

　しかし，私は自分のやたらと限られた例からだけど，個人的にこう思ったんだよね。2011年のことだったかね。この本質病ってのは，単純に研究が行き詰まった状態のことを示してるんじゃないかって。
　もっといえば，実行可能な研究テーマやその研究の手順がまったく計画できないとき，まさにその状態のことをそういっているのじゃないって。そういうとき，身の丈に合わないような，そもそも不可能なテーマとかを考えちゃう。統計的にいって。現実がそうであるという観測を伴って。
　「本質とは何か」といっちゃうような顕著な志向性が本質ではなくて，研究が進まない状態それ自身が本質病の本質だって。なんとなく，そう思ったんだ。そんな自信無いけどね。
　なんていうか，私は，まさに研究の手順すらまったく計画できない状態，というのがひたすら怖かったんだ。ほんとう，それはもう怖くてたまらなかった。いつも，血の流れが止まっていずれ破裂するようなイメージを持っていた。なんていうか，死に方のひとつなんだ。サラサラ血液みたいに，流れがよくなれば血液はサラサラ，それはもうサラサラなんだけど，なんかその流れが塞がって破裂して結果として死んじゃう，みたいな。そんなイメージがいつもいつも湧いて，私を苦しめた。卒中で死ぬ，そういう悪夢にいつもうなされた。
　自分のことだけじゃなくて，どうやら研究上でそうなってる人を，それこそ本当にたくさん見てきたんだ。その栓みたいなのが取れて流れ出すのが，閃きとか光とかいって，カタルシス感じれて研究は素晴らしいとかいうけど，なんていうかやっぱ怖かったんだ。学位がかかっていれば，期間内にその研究が終わらないといけない。そういう制約は常にある。
　当たり前だけど，若いうちには業績もないと飯も食えない。業績がないと研究ができない。それに一番怖かったのは，本質病の人たちがいずれコミュニティからいなくなること，だった。破裂すると「俺，研究向いてないわ…」って言い出す。一緒に青春を過ごしたひとがいなくなるのはつらいよね。来週からゼミこない，みたいな。どうやらそういう話すら禁じられているようだった。

本質病から抜け出すには

　なんだかんだいっても，結局，研究テーマの決め方，あとは研究手順の計画の技量を高めるしかないのよね。そのためには，まずは研究の手順に慣れること。些細なことから順番に。次に，些細な研究テーマをできるだけ多く立てること。
　これはスケッチと一緒。こう考えると，まずはとにかく実験手順とかに親しんで，ひたすら研究テーマみたいなのを書いてみたらいい。そうしたら，下手な鉄砲数撃ちゃ当たる的な感じでそれらしい研究テーマも見つかる。
　だから，くだらなくてもいい，学術的な貢献や意義は置いといてもいい，とにかく自分にできることを考えて，手当たり次第に研究したらいいじゃないかと思ったんだ。だから自分もまったく意味のないような研究をたくさんした。今だとなんの貢献も意味もないことがわかる。これは自分の職業的適正を高めるためだけのもので，今なら何の意義も意味もないことがわかる（大事なことなので二回ね）。
　正直，自分の研究なんて，全部，たまたまなんだよね。別になんの興味もないし，社会的に大事だともまったく思っていない。もっと社会的に大事なことは知っているつもり。これらが私の業績だと認められることも拒みたいくらい。
　私の観点はそうじゃなかった。まさにwant to doよりもcan doよ。そうやってたら，can doが増えてさ，いつかcan doリストに来たるべきwant to doが入るんじゃないかって。そんな感じでたくさんやったらどうかって。まずは自分が何が知りたいかとかさ，そんなドラマチックで個人的なストーリーは置いていて。そういう技術の習得の過程だと思ってさ。いつか好きにできるようになることを信じて，まずはその研究テーマとかいうのは置いておいて，修行しようって話。私は，院生の限られたときの業績よりも，それ以降の業績の意義が遥かに大きいってポジティブに信じることにしたんだ。実際そうなるかってわからないけどね。

最小単位でパラミタを変える

　うまい研究の立て方っていえば，そんなのはすぐに出てくるわけないけど，具体的なレベルでの研究テーマの実行可能性の判断は，結構体系的なものだと思う。一番簡単なのは，実験におけるパラミタのごく一部，そのパラミタの変動が依然として未知なものに変えることだ。サンプルとか，実験条件とか，実験方法とか，そういったごく一部のパラミタだけを変えて，既存の論文の実験手続きを真似る。これは結構大事なことだと思う。サンプルが日本人学習者でなければ，それを日本人学習者にすっかり変えた実験をしてみるとか，同じ仮説を検証するために，違う方法を使ってみる，そういうテクニックだ。もちろん，だから新しい方法を試すってのも大事。なんていうか，偏微分的な，ね。これが研究テーマの探り方で一番重要なことだと思うんだ。

細かいところではより小さく，よくわからないところではより大きく実験条件を設定する

　十分に知られている現象に当たるときは，実験条件の細かな値域みたいなのの幅を細かく設定することで新規性が得られる。十分に知られていないときは，実験条件の値域を大きく設定したほうがうまくいきやすい。

同一理論の説明範囲を広げる

　ある現象を説明する理論を，別の現象の説明に使う。これは一般的な科学的な推論における重要な方向性だと思う。結局，類推（アナロジー）は研究者が思うよりも重大な役割を演じる。だから，マイナーな現象をよく知られた理論で説明しようとする試みは結構いい研究テーマになる。

説明できない現象の存在を認めた上で理論を守る

　これ自体は必ずしもよくないけど，理論っていうのは思ったよりも，というか研究者じゃない人が思うよりも，実態ははるかに脆弱なもので，特に英語教育なんていつもそうだから。仮説の修正やアドホックな補助仮説の添加が重要な研究上の機能だったりもする。こういった仮説の修正やアドホックな補助仮説の添加は，十分にいい研究テーマになる。

適当で曖昧な言い方を形式化する

　これはあまり現在の英語教育研究で使用されているわけでないけど，科学的な知見の最初期において，必ずしもその知見が形式的で無矛盾な記述によって表されているとは限らない。このような知見を整理して形式的に言い換えることは十分な研究テーマになりうる。現在，私はこういう研究のあり方に取り組んでいる。

最後に

　研究テーマの設定方法はあまりにも複雑で，枚挙的に種類を出していくにはあまりにも多すぎるけど，結局，こういう技術的なレパートリーの話なんじゃないかって思っている。ここで唐突に上げたのはそういう技術の代表例。
　繰り返すけど，本質とは何かみたいな志向性についてあれこれ考えるのではなくて，研究の実現力を欠いた状態の解決方法について我々は真剣になるべきで，研究テーマの決め方や研究手続きの計画の技能が上がれば，こういった状況には陥らないのかな，って思っているんだ。
　逆にいうと，研究が進まくなるようなカリキュラムや，制度，そういったものは常に本質病を催す環境になっているっていうこと。やり方も教えずに，できない人を個人的に批判するな，そういう観点も大事だと思う。実行可能かもわからないから，実行不可能なことを考えるんだもんね。
　英語教育研究は応用分野だけど，こういった研究テーマの決め方についても十分に意見交換したいもんだよね。

2020-05-31

「私には研究テーマがなかった…」：研究テーマの決め方

雑感

研究テーマの決め方を巡る議論

　研究テーマをどのように決めるべきか，そして誰が決めるべきかといった規範的なはなしから，どのように決めているか，誰が決めているかといった記述的なはなしまで，とにかく研究テーマの決め方については議論が絶えない。もちろん，文系だとか理系だとかいうようなさして意味のない区分における差，たとえば「理系は指導教員が決める」かつ「文系は自分で探しだす」から始まり，究極的にはその研究室や指導教員の方針によるところが大きい。結局，指導教員との十分な相談による，というほかない。規範についていえば，すべての文脈を無視してこうあるべきだ，なんていうのはもちろんありえない。

決め方を巡って

　こういった論では大抵，3つの要因が話題に上がる。
　1つは，実行可能性。もちろん，研究室がもつ機材とか予算といった資源から始まり，指導教員の専門性，そして個人の資質能力も実行可能性に入る。
　2つ目は，意義。社会及び学問的にある程度の効用をもつことが期待されるわけだから，ひらたくいえば意義のない研究テーマは成立しない。
　最後は，合意性。結局のところ，本人が望んでいない研究テーマはモチベーションの問題などで研究が進まないし，指導教員との合意がない指導は難しい。
　これらを勘案すると，実行可能であり，意義があって，そして本人や指導教員が十分に合意できる研究テーマにするとよい，とまあ，そんな話になる。これら3つが大きく重複している。
　大事なのは，いずれも個人的な問題ではない，ということだ。どれだけ個人があることが好きでやりたがろうが，実行不可能だったり，意義がない研究は成り立たない。そういう研究は結局の所，合意性が得られない。そもそも（指導を受ける）研究全体が，個人的な問題ではない。そして，研究とは基本的に社会的行為だということを意識したいものだ。

冒険者の2つ名

　なんてまあ常識的な一般論を挟んでおいて，これからが私のとりとめのない話。
　私は私の領域で，ずっとこの研究テーマというものに悩まされ続けた。どこにいっても「研究テーマはなんですか？」とか「どんな研究をしているの？」というように聞かれる。私は研究テーマや，さらに自分の専門というのを答えるのがとても嫌だった。
　たとえば，研究というのには程遠い学部一年生のことを今も忘れない。高校の卒業式で，校長先生は私たち卒業生にこう言葉をかけた。「みなさんの人生はまだ何も決まっていない。無限の可能性がある！」
　おお，いいぞ。人間主義的で温かいじゃないか。
　しかし，その後大学に入ったら，入学式直後に大学の先生はこう声をかけた。「お前の専門は何だ？！それに若い体力を全部ぶつけろ！！」みたいな世界だった。「あれ，自分の人生はまだ何も決まっていないし，自分には何の専門もないんじゃ…」と鳩の豆鉄砲だった。
　大学院に入っても同じだった。魔法と剣のファンタジーものに出てくる冒険者が自己紹介するときの2つ名のように，専門分野だの研究テーマが常に会話につきまとった。
　「俺は風の魔法剣士くさなぎ！」とか「人は俺を赤き流星と呼ぶ…」みたいな世界に思えてちょっと滑稽だった。何も知らない田舎から出てきたばかりの若いヤツに，専門も研究テーマもあるまいなんて思った。妄想が膨らんだせいで答えられないでいる私を尻目に，私の同期やら先輩やらはスラスラ，それはもうペラペラと，自分の2つ名のような難しい単語を並び立てていた。「俺は統合的動機づけのくさなぎだ！」みたいにいえればよかったんだろうか。
　「しまった。進路間違った」と思ったことが2010年4月15日の日記に書いてある。もう10年前の話であるからびっくりだ。

私は殺し屋を選んだわけで，別に敵討ちをしたいわけではなかった

　ところで，私は，研究というのを，ある程度の流派やスタイルはありつつも，普遍的に人間に認められている行為やその技能のことのように思っていた。そしてその技能は社会的そして経済的な価値を生むがゆえに，職業として成立するのだと思っていた。
　魔法と剣のファンタジー世界のくだらない喩え話を続けるのだったら，私はそうするとご飯が食えると思って，というかそれ以外飯が食えなさそうなので，暗殺者ギルドに入って最終的に暗殺者になろうとしたのであって，自分の村を滅ぼした盗賊の親分ボブに敵討ちをしたいわけではなかったのだ。
　なので私は，「研究テーマはなに？」と聞かれると「お前は誰を殺したい？誰を憎んでいるのだ？ん？ほらほら？」としつこく聞かれているような気分になっていた。「誰を殺すかは顧客次第では？」とも思った。
　しかしこの種の質問はあまりにもしつこいし，私はお察しの通り神経質な変わり者なので，すぐ「研究テーマはありません。院生なので専門性もまだありません」といつもいうようになった。私も頑ななので，この態度はいつも周りから窘められた。
　というのも，合わせて「そもそも研究したくはありません」とも答えるからである。大学院なら「やる気ないなら院生やめろ，モラトリアムが」といったレベルの発言であることは歳を取って知った。しかし，暗殺者ギルドの新米であった私は「私にも飯が食えるなら，できれば誰も殺さなくていい生活がいいな」という普通のニュアンスのつもりだった。
　しかし，この自分が飯が食えるならいいや，という態度も，特に文系の間では非常に不遜で歪んだ考えのようで，いつもお酒の席で怒られたものだ。「お前には知的好奇心がないのか？審美的に思う現象はないのか？なら，ここは向いていない！」

誰を殺すかが一番むずかしい

　いや，まあ演出が過ぎるけど，しかしこの変な文章で言いたいことは，誰を殺すかを決めることは，実際の殺しの手順よりも遥かに難しい問題だということなんだ。たとえば誰が悪人で，死に値するか，死を望む人はいるか，そして殺しの費用は殺しのリスクの割に合うか，そして暗殺の契約が成立するか，そういったことよりも，サプレッサーつきの銃弾の引き金を引くことは遥かに容易い。
　どのような研究テーマであれば社会的な貢献をするか，といっても小僧には社会的な貢献の道筋どころか，社会自体を知らないのである。学問的意義があるかといえば，そもそもその学問を修めてはいないのである。実行可能かといえば，どんなコストがかかるか，なにが不可能かもわからないのである。そんなことよりも，実験器具のボタンを押し，決められた動作をするプログラムのコードを書く方が簡単だ。
　仮に殺しという技術体系があるのだとしたなら，その技術体系の最高峰こそが誰を殺すかの判断だろう。同じように，研究という技術体系があるのだとしたなら，その頂点に研究テーマの設定がある。

私はやめようとは思わなかった

　敵討ちを目的に敵を殺すなら，確かにその敵だけを殺すのに必要な技術だけを身につければ，あとはいらない。そして，その敵を殺したら，あとは殺しをしなくてもいい。
　でも，私は，自分の身につけた技術の使用をやめようとは思わなかった。自分がコレさえわかればいい，そのためだけの知識や技術がほしい，とは思わなかった。むしろ，この知識や技術で自分の人生を生きていこうと思った。まだまだ若手だけど，それなりにキャリアを重ねたので，そしてそのおかげだからこそ，やっと今の自分なら，どの悪党を殺したら世のためになるか，それが可能かといったことが全くわからないわけではない。
　今も，以下のようなお叱りを受ける。いわく「何にでも手を出す節操のないやつ」「人生をかける研究テーマがない人」「何を研究しているか一向にわからん」「研究が機械的で情熱がない」「いつも愛情を持たずに研究している」。確かに私には研究テーマがなかった。けしからん。確かに私の博士の学位記には「～学」とも書いていない。私は学を修めなかった。
　でも，私の学位記には「学術」と書いてある。幸い，学で生きていく術（すべ）がそこにあった。それを身につけられたとは言いにくいけど，仮にそうならとても幸せなことだと思う。

話を戻して

　誰でも殺していい，好きなひとを殺せばいい，そして任意の人を殺せればそれが以外学ばなくていい，そういうもんじゃないだろうと思う。私怨だったり通り魔だったり，快楽殺人とかそういうのがいいわけがない。わからないこそ，ある程度のガイドやリードが必要だとと思う。もちろん，主体性も大切だけれども，研究というのはその主体性こそが最も重要なのものだとはいいきれないと思う。そういう理解の前提が大事かな，などと思ったりもする。

2020-02-21

全国英語教育学会紀要掲載論文が"effect"をタイトルに使う確率

r 教育雑感

この学会はほんとうに効果（effect）が好きだなあという印象
調べてもほらやっぱ効果ばっかじゃんね！

この学会はほんとうに効果（effect）が好きだなあという印象

　わたしは全国英語教育学会という学会の会員でして，この学会は会員が2,000人弱（たぶん…）で，英語教育の中では比較的大きな学会になっている。この学会の紀要はAnnual Review of English Language Education in Japanというもので，長いのでARELEなどと略されていわれているよう。毎年20本台くらいの論文を掲載していて，今は30号くらい。国内の英語教育研究の動向を知るために，代表的な資料とされることも多いよう。
　わたしもちょっと最近あることが気になっていて，それは「英語教育の研究ってやたらと効果（effect）っていうことば使うじゃんね～」ということ。論文のタイトルは，The effect of ~，Effects of ~ ，Effective ~といったのがた～くさん♪
　大修館書店の『英語教育』という雑誌に，英語教育時評というコーナーがあって，縁あって寄稿させてもらっている。昨年あたり，「英語教育の学会は効果の話ばっかりで違和感を感じている」なんて書いたりしたのだけど，「学会にあまり参加しないくせにわかったようなことをいうな」といったお叱り（をやわらかくされた表現）をいただきました…。確かに印象でものをいうのは悪い。本当に学会では効果の話ばかりなのかを真剣に調べたことがなかったので，ちょっと調べようと思う。思ったらやってみる。

調べてもほらやっぱ効果ばっかじゃんね！

　ここの学会の紀要ARELEはJ-Stageで公開されているので，ちょっとプログラムを書いて2010~2018年分の論文の英語タイトルを集めた。英語タイトルに，"Effect"，"Effects"，および形容詞の"Effective"が使われている数を集計した。

年	使ってない	使った
2010	18	6
2011	21	5
2012	20	6
2013	12	9
2014	17	5
2015	20	8
2016	14	6
2017	19	6
2018	12	7

使う率の年ごとの推移は，こんな感じ。

f:id:kusanagik:20200221125517p:plain — Effectを使う率の推移（2010-2018）

この比率をベイズ推定すると，こんな事後分布になる。（実際には年を変量効果にしているが話を妨げるので省略）

f:id:kusanagik:20200221125758p:plain — Effect使う率の事後分布の概観

事後期待値は，確率に換算すると.38。HDIは[.26, .53]。下限をとっても4本に1本くらいはEffectをタイトルに使いそうだ！
4本に1本の論文のタイトルに効果がつくレベルなのに，よく効果を語っているとはいっちゃだめなのかな。

2020-01-05

青い目の人形の現存率

r 情報処理統計

青い目の人形

　青い目の人形ってのは，1927年に日米友好のために，アメリカから日本に送られた人形のこと。当時の日米間は緊張状態にあった。日本人の移民がアメリカでの職を奪っている，という見方の下で，日系人排斥の機運が高まっていた。いわゆる黄禍論みたいな。それで，「こんな時代だけど，むしろこんな時代だからこそ仲良くすべきだ」っていうような話になった。

で，奥ゆかしいことに「仲良しのしるしなら人形だろ」ってことで，莫大な数のアメリカン・ドールを日本中に配ったわけ。それらの殆どは地方の小学校とか教育施設などに。

わーい。アメリカから青い目の人形が送られてきたぞ。

ja.wikipedia.org

　…この話，小さいときから個人的に何百回も聞かされたものだ。それだけでなく，当時送られたという実際のアメリカン・ドールを何度も何度もこの目で見たことがある。というのも，この青い目の人形，たまたま私が通学していた小学校に現存していた。私が対面したドールには名前があって，「ミミー」といった。ミミーちゃんの顔はこちらのサイトから確認できる。そうだ，ミミーだよ。ミミー。Long time no see!

www.cec.or.jp

現存率

　ちょうど今年で93年も経ったし，この青い目の人形の所在の多くはわからなくなってしまっているそう。そういや，この若くてピッチピチの私が見たのも25年くらい前の話だもんな。先週，東京のホテルで寂しく年越しをしていたら，酒の勢いかなにかの謎の作用で，なぜかこの青い目の人形の話を不意に思い出した。その後も夢に出てきてくれた。「不意に思い出す」ってのは予想も納得もいかないのがポイントだけど，あまりにも不意だよなあ。そういや，青い目の人形ってなんだったんだろう？ついに化けて出たのか？そもそもどれくらい現存しているんだろう？

ま，でも気になって調べてみたら，先述のWikipediaにとてもすばらしくまとめられていた。以下の表はWikipediaの転記（だから信憑性もWikipediaに準ずるだけでなく私の転記ミスの可能性もある）。

都道府県	寄贈数	現存数	現存率
北海道	643	26	.040
青森県	220	10	.045
岩手県	263	18	.068
宮城県	231	10	.043
秋田県	190	12	.063
山形県	205	12	.059
福島県	323	17	.053
茨城県	246	11	.045
栃木県	213	5	.023
群馬県	142	19	.134
埼玉県	178	12	.067
千葉県	214	11	.051
東京都	568	11	.019
神奈川県	166	12	.072
新潟県	418	12	.029
富山県	150	6	.040
石川県	205	3	.015
福井県	152	1	.007
山梨県	129	5	.039
長野県	286	28	.098
岐阜県	235	2	.009
静岡県	253	7	.028
愛知県	349	9	.026
三重県	194	9	.046
滋賀県	135	4	.030
京都府	262	8	.031
大阪府	429	4	.009
兵庫県	373	11	.029
奈良県	144	5	.035
和歌山県	177	1	.006
鳥取県	107	3	.028
島根県	182	2	.011
岡山県	238	3	.013
広島県	326	5	.015
山口県	200	5	.025
徳島県	152	1	.007
香川県	108	1	.009
愛媛県	214	6	.028
高知県	187	1	.005
福岡県	259	3	.012
佐賀県	98	1	.010
長崎県	214	2	.009
熊本県	241	2	.008
大分県	182	4	.022
宮崎県	131	1	.008
鹿児島県	209	0	.000
沖縄県	63	0	.000

とにかくデータが出たら見せてみろ，っていう世の中の圧力なので，都道府県別の現存率を地図で塗り分けるとこう。

f:id:kusanagik:20200105164520p:plain — 都道府県別の現存率

全体としては，約3.16%ということね。このデータに二項分布を仮定してベイズ推定すると，確率pの事後分布はこんな感じ。

f:id:kusanagik:20200105165700p:plain — 現存率の事後分布の感じ

そうか。そうだよな。3%くらいしか残されていないのね。

都道府県別の確率の分布

　全体としては3%くらいだけど，都道府県によってはばらつきはあるね。じゃ，これをベータ二項モデルで考える。ベータ二項モデルによると，現存は都道府県iに固有な確率iのpによって出てきてて，このiのpが47都道府県毎にベータ分布に従っている，とまあそう考える。で，適当にStanしたらできたので，事後期待値から見ておそらくこんなベータ分布の感じ。

f:id:kusanagik:20200105170343p:plain — 予測されたベータ分布の概観

実測値の現存率のヒストグラムにこれを描き足すと，こう。

f:id:kusanagik:20200105171454p:plain — 現存率のヒストグラムとベータ分布

ま，多くて10%は残っているところもあるといった感じか。
90年も経てば，国際親善に来た青い目の人形も97%はその役目を終えるのね。