草薙の研究ログ

英語の先生をやってます。

実践報告やアクションリサーチにおいて統計分析は必要ない?

前までのシリーズはちょっとおやすみ。

ちょっと,ここで気になる話について書いてみる。

実践報告

よく,日本の外国語教育に関わる諸学会では,実践報告という枠が発表や論文に対してあって,そこでは,実際におこなっている指導内容などについて報告することになっている。実証研究とは異なる基準で評価される場合も多い。このような研究は,アクションリサーチ(AR)のような方式をとっている場合も多い。

もっとも典型的な場合,なにかしらの特色ある処遇をおこなって,それに関わる実務的な事情の考察をおこなう。なにかしらの効果測定をおこなっているものもあるし,アンケートなどの結果を示すものもある。

このような実践報告やアクションリサーチは,非常に残念ながら,国内で刊行される論文のなかでは,いまだ少数派だとおもう。研究やその公刊が通常の業務となっているひとならまだしも,そうでない環境にいるひとは,通常の業務にくわえてそれだから,それももっともなはなし。それに定量的な研究方法にはそれなりの訓練がいるし,定性的方法にはその何倍もの訓練がいる。ひとことでいって,よういでない。よういでねっす。

アクションリサーチは,けっこう概念整備がされていて,研究者間でポイントが異なるのかもしれないのだけど,キーワードは「一般化」ね。

 

藤田卓郎先生の資料(勉強させていただいておりますぅ)

http://takuro-fujita.com/publication/2014method.pdf

 

アクションリサーチは「結果の一般化を目的としていない」かどうか,っていう点がけっこうやっかいな問題。これをかんがえてみたい。でも,わたしは浅学なだけでなく,頭がちょっと足りないタイプなので,実存主義,観念論,構成主義などにはたちいらない(たちいれない)。

 

統計が必要ない?って話

実際のカリキュラムなどにもとづく研究は,あらゆる面で状況依存的(situated)。「超多要因カオス」とか「指導場面に固有」ってやつね。再現可能性がないともいえる。お気に入りは「指導は一度きりの過去のできごと」っていう考えかた。若林俊輔先生の「教育は実験ではない」っていうことばも好き。

標本の無作為サンプリングはできないし,変数の操作もほぼ不可能に近い。そもそも標本ってなんだ?わたしが受けもつ「このクラスに対する処遇」に母集団なんてあるのか?クラスのみんなは全数じゃないか?っていう考えももっとも。postの母平均値の信頼区間ってなんだ?上限も下限もないぞ,この値だ。母平均を検討する検定なんかいらないんじゃないか?

なので,統計,とくに母数に関する定量的手法の援用はいらないんじゃないか,するべきじゃないんじゃないか,っていう考えもある。今日,考えたいのはこれ。

まず,結論からいうと,これは場面,場面に強く依存することだとおもう。「母集団はない」という主張の合理性は疑いようがないし,しかしだからといって「母集団はある」とかんがえることがいけないわけでもなさそう。そもそも,問題を分割しなきゃだ。

ひとことでいうと,わたしは「母集団を想定することによる,過度な情報の集約がもたらす不利益」や「統計的前提を無視してまで統計をおこなうことの弊害」に気をつけさえすれば,母集団を想定して,統計分析をもちいた方が基本的によいとおもっている。しかし,それも報告者の勉強量や手間とのコストパフォーマンス次第だとおもわれ。

 

母集団の想定は紋切り型じゃなくて場合によって

そもそも,母集団の想定が完全にできないわけではない。一般的な場合,母集団には,「人母集団」と「反応母集団」があるとかんがえられる。人母集団は,人に固有な値についてであって,たとえば身長を測るとき,人の身長は,人を母集団として集計・分析する。

このとき,「時間よとまれ的な」共時的な見方をすると,人の「なかの」変動や差異は捨象できる。

一方,反応母集団は,たとえば反射神経のテストで,音の刺激と光の刺激でどちらがはやいか,みたいに,人の「なかの」変動や差異に興味がある場合,実質的にひとの「そと」はマルチレベルのネストをなしているかもしれないけど(変量効果),捨象できなくもない。

もちろん,人×反応母集団っていうのがあって,これは,ひとのなかとそとの組み合わせについて母集団と捉えているもの。幼児に音刺激と光刺激とか,大人に音刺激とか光刺激とか。外国語教育における処遇の結果もそう。「このような学習者に,このような処遇を」ということ。

一般化ができるか,という観点,母集団があるか,という観点は,まさにこのひとと反応のカテゴリーの「立て方」による。幼児という母集団を想定したときに,個々のケースがそれに類するか類しないかがあきらかであるならば,そして,それがことさら反応と特殊な交互作用にあると期待できなければ,母集団をかんがえてもよいかもしれない。

通常,標本の1ケースについては,日本語を母語とする中学生英語学習者かどうかといった判断は難しくない。ここで,つぎに,日本語を母語とする中学生英語学習者全体のうち,標本がもつなんらかの特性が,特段,処遇(反応)と交互作用をもつと想定できるかをかんがえればよい。たとえば,処遇が津軽弁でおこなわれていて,標本が全員津軽弁話者であったら,日本語を母語とする中学生英語学習者を母集団と考えたらいけない。津軽弁による英語指導の例がおもしろい。(わたしは完璧に聞き取れるけど)

 


津軽弁英語教師地元密着すぎる授業事件 - YouTube

 

さてさて。

教育実践はありとあらゆる要因に条件づけられている。先生との関係とか,前の時間が給食だったか,プールだったかとか,クラスルームダイナミックスはどうかとか。でも,そういう要因が特段処遇と交互作用をもつと予測できなければ,別にいい。誤差にまわってて別にいい。そういう無限の事象のすべてが,処遇の結果をしめす何かに強い影響を示しているともおもえない。それは実証研究もいっしょ。どうせ心理・社会科学なんだから,実験室の温度,部屋の明かり,そういうのまで完璧に統制できているわけではない。

どちらかというと,問題は , 反応(処遇)母集団の想定。実践者が主導した処遇(TPRやったった)が,それを名乗る他の処遇(TPR)と同じカテゴリーである,と自他ともに容易にみとめられるなら,そして,そのカテゴリー自体(TPR)の概念的特性とは無縁であり,かつ,その実践に特有な性質が,対象とするひととなにかの特段の交互作用がなければ,その実践を処遇のカテゴリーの1ケースとみてもいいかもしれない。しかし,これがクセモノっぽい。

というのも,「処遇カテゴリー自体の特性とは無縁であり,かつ,その実践に特有な性質」っていうのが多すぎるもん。たとえば,処遇の時間,先生のありとあらゆる要因などは,あきらかに処遇カテゴリー自体よりもおおきな効果をもってそう。たとえば,先生Aと先生BがTPRと訳読をやりました,で,処遇カテゴリーの差よりも,先生の差のほうが大きくなりそうだ,ってなっちゃいそう。「達人の実践,真似しても微妙」的な。そういうときは,処遇についての一般化をおこなわない,または弱めてもいい。たとえば,くわしく実践者自身の情報を加えてもよい。「TPRに熟達しており,中学校英語教員10年程度で学級担任でもある」とか。そういう記述は,一見,一般化を損なわせるようにみえるけど,逆に,一般化の可能性もある程度確保している。オール・オア・ナッシングではなくて,一般化も,その程度を見極めなければならない。 「厚い記述」は,一概に一般化できないからではなく,場合によっては小さい一般化を可能にするかもしれない。

また,人や反応母集団だけではなくて,もっと現実的に,測定によって生じる誤差についても考えたほうがいい。たとえば処遇後のテストの得点の誤差が0,信頼性係数が1.00ということはない。よって手元で得られたデータは,真値±誤差なわけなので,これを「一度きりの過去のできごと」としてがんばって解釈しても,誤差を積極的に解釈していることになりかねない。対象としているのは,測りたい能力であって,テストの点数ではないし。テストが人間の特性をあたえているわけではない。

ここでの誤差は,統制できていないばらつきなので,統制できていないことを一般化できないという考えかたはいいけど,誤差を考えないというのは違う。仮に時間を処遇直後にさかのぼって,もう一回テストしたらおそらく個々のケースは違う点数になり,平均値も標準偏差もかわってしまう。そしたら,またそのテストについてもう一回議論するのか。処遇はまったくいっしょなのに?現実的な面からいって,得られたデータの誤差を考慮する分析(区間推定や仮説検定)をおこなうほうが,知見をよりよくするとおもう。母集団に対する推測が,という原理的な見方はおいといて,ある設定(帰無仮説など)を前提としたときに,手元のデータとの確率論的な整合性,という観点は見方を広げる。でもそれも標本サイズとかのいろいろや,考えかたしだい。

 

結果として,すべては場合による。でも,教育実践は,まったく一般化する可能性がない,という紋切り型というよりは,状況に応じて,というかんじ。

もちろん,母集団を想定しなくても,普通,人間はエピソードの積み重ねからなにかを学び,推測することが得意。特に同条件でなくても,ある程度効果の見通しをつけるのが得意(わたしは直観変数分析とよんでいる)。たとえば,イケメンのユウサクが振られた女性だから,わたしが告白してもOKするわけないだろう,とか。こういう普通の人間の推測は,けっこう複雑。まず,イケメン度と告白の成功確率の関係を想定している(前提としての一般常識)。ロジスティック回帰でいうなら,イケメン度が高ければ告白の成功確率が高い。ユウサクはわたしよりもイケメンであるが(観測),ふられた(観測)。わたしの告白成功確率はユウサクより低い(推測)から,やめようショボ(意思決定)。みたいな。こういう推測が結構普通にはたらくのだから,エピソードの共有にも,もちろん価値がある。

実践者の文脈を適切に共有することで,ある程度同じ文脈をもつひとにとっては一般化の可能性があるかもしれないし,違う文脈を持つひとにとってはないかもしれない。でも,完全に不可能なものではないと思う。いずれにせよ,先にあげた藤田先生も,一般化可能性の議論!というよりは,知見への貢献が優先という態度でいらっしゃるね。

母集団を想定することで逆に適切に情報を集約できないなら(゚⊿゚)イラネ

でも,あきらかに悪いのは,母集団を想定したことによって不利益がでること。たとえば,学術的な見方にそって,データの平均値と標準偏差をもとめたとする。

平均値と標準偏差のみを報告することは,これを

f:id:kusanagik:20150402150648p:plain

f:id:kusanagik:20150402150853p:plain

これに「置き換えて」考えるわけだから,分布の歪み,個々人の振る舞いなどありとあらゆる情報を捨象して考えることになる。だからといって,誤差まみれかもしれない小標本を頑張って吟味しても…っていうのもあるけど。

それに,統計的有意差は非常に重要で,わたしは実践報告においてもやっていいとおもっているけども,よくもわるくも教えてくれるのは「母平均差が0であるという仮定のもとで,手元のデータが確率的にありそうもない」という程度のことなので,ひとりひとりの伸びとか,伸びの大きさとか,そういう具体的なことはわからない。でも,少なくとも有意差があれば,帰無仮説の可能性に対する議論(平均値がほんとは一緒かもしれない可能性)をしなくていい。それに有意差が得られもしないときに効果量の値を積極的に議論するのは論理的に変だ。

それに,効果量が実質的な解釈に適している場合は限られている。たとえば,実践報告では,あるカリキュラムにもとづいておこなわれている処遇についてのものが多いけど,そのテストはそもそも集団基準準拠テストなのかどうか考えたほうがいい。効果量は集団基準なので,解釈が困難になる。たとえば,平均差(単純効果量)や標準化平均差は,目標規準準拠テストのときに,基本的には,なんの情報量ももたない。当然だけど。

こういうのは,母集団を想定し,それに関する定量的な方法を援用することで,逆に意思決定が困難になるので(・A・)イクナイ!!かもしれない。でもこれも場合によるね。情報の要約の適切性っていうのを場合に応じて考えたい。

 

統計的前提を無視してまでなら(゚⊿゚)イラネ

場合に応じて,ってはなしだけど,実践研究では,普通,標本サイズをぜんぜんコントロールできない。適切な標本サイズが確保できないことが既知のうえで統計的仮説検定をすることは,原理的にナンセンスだし,だからといって,手元の小さい標本サイズだけで有意になるような効果量が大きい現象のみを,研究の対象にしていてははなしが進まない。

それに小標本だと正規性やその他の分析に関する統計的前提を満たせない場合がおおい。効果量の推定だって,仮に意味があってもかなり誤差が大きい。そんなときに頑張ってまで推測統計を援用しなくてもいい,ってのは確か。

しかしそうした事情に対して,定量的方法として質が低いとか,実験計画が厳密でないからうんぬんというのは違う。

一番むずかしいけど,やるほうも読むほうも場合に応じて,ってこと。

結局コスパ

けっきょく,実務的な観点ではコスパがものをいうね。もちろん,分析にはコストがかかるし,それを学ぶにもコストがかかる。統計的分析を援用することによって,得られる知見(パフォーマンス)がその対価よりも大きいと考えられるなら,いい。けど,そうでないなら,ね。でも,定性的な研究よりも定量的な研究のほうが運用のコストも初期コストもずっと低いとはおもう。

一番やっかいなのは,上記のように,「場合に応じて統計的分析をするかどうか」を判断するまでのコスト自体が高いということ。わたしは定量的な方法しかしらないけど,定性的なメソドロジストのひとは,「場合に応じて定性的な分析をするかどうかの判断」は難しい,っていうだろうしね。

だけど,もし仮に,教育従事者にとって,定量的な分析をするためのコストがもっともっと安くなったら,っておもう。そしてそれはぜんぜんありえないことではないとおもうけど。

もし,この定量的な分析に対するコストがどんどん安くなったら,実践報告のありかたも少し変わるとおもう。(大事なことだけど)実在論とか観念論とか,そういうパラダイムのあり方よりも,よくもわるくも,結局は,実務家にとってのコストが主導になっているとおもうんだ。