こなした問題数,学習時間,オンライン教材へのログイン時間といったデータの分析
オンライン教材へのログイン時間といった学習履歴は,現在の外国語教育現場では容易に得られるようになってきていて,(主に探索的な目論見で)分析に組み込まれることが多くなってきている。
しかし外国語教育研究ではこういったデータの分析の歴史は浅く,まだこれといって確立された手法があるわけではない。
ここではあくまでも実務的な態度で思いついたメモをここにも書き写す。
1. 分布や変数の型
- オンライン教材などでこなした問題数は,離散型として扱うべき。ポアソン分布や負の二項分布などで。特に個人間で同一の単位時間内にこなした問題数はポアソン分布がよいと思われ。
- 学習時間やオンライン教材へのログイン時間は,連続。大体大きく歪んだ分布になる。ガンマ分布(またはアーラン分布),ワイブル分布,対数正規分布,ex-Gaussian分布などにフィットさせるとよいかも。たまたま手元にある実際のデータを見てみるとほとんどの場合でワイブル分布によくフィットするよう。
- 単位時間内の最長ログイン時間など(開講時期における個人の最長ログイン時間)は,一般化極値分布で。
- 「自己報告による学習時間」はリッカート尺度などで観察しやすいけども,本来の学習時間などは歪んでいるはずなのに,自己報告になるととたんに正規分布に近づく。原型尺度と表面的な尺度で分布が明らかに異なる点に注意。
まず,最尤法などを使って任意の分布に当てはめてみればいいかもだ。MASSパッケージのfitdistr関数を使ってフィットを報告しよう。
library(MASS) fit<-fitdistr(a,denfun="Poisson") AIC(fit) BIC(fit) fit
library(MASS) fit<-fitdistr(a,denfun="Gamma") AIC(fit) BIC(fit) fit
- 歪んでいるので,とりあえずカーネル密度推定とかで様子を見てみてもいいかもだ。
2. 潜在変数化
- 変数が多くなりやすいので,うまくいくなら集約してもよいかもだ。因子分析でも,主成分でも。
- ただ,潜在変数を仮定するにはそれ相応の議論が必要だと思う。学習時間などに因果を及ぼすだろうものは無限にあって,勝手に「学習意欲」とかだって「みなす」べきではない
3. 応答変数として
- GLMをやればOK。ガンマとかで。クラスとか先生とかは階層線形モデル的なノリで。
4. 変換
- 歪みがあれなんで,とりあえず実務的には変換することもあり
- 逆数変換とか,対数変換とか,開平変換とか
5. クラスタリング
6. グラフィカルモデル,ネットワーク
- アクセスログみたいなのは,行動のフローを隣接行列みたいにして,可視化して,中心傾向とかスモールワールドとかアレ系の一連の記述統計を出せばいいかも。
- まあ,普通にいろいろなタイプの変数が混ざって意味不明だから,無向グラフみたいなのを出しとけばいいみたいな。
7. 成果変数に対する因果
- 統制が取れていない割に大規模な場合が多いから,やっぱ理想は傾向スコアかなあ。。。
8. 「できない人ほどたくさんこなさなきゃ抜けられない」問題
- これ,すごく関心がある。WBTというようなタイプには成功しないと次にいけない仕様のものがある。そうすると,分析の中で誤って,「その教材で勉強するほど成績が伸びない,低くなる」みたいな結果を導いてしまいやすい。間違った回数は幾何分布とかそういうのでモデルできる可能性があるし,抜けるまでの時間はガンマとかそういうの。ただし,結局は「向学習性」みたいなのと「能力」が原則分離不可能ってことに変わりない感じ。「測定」なら終わるまでの時間は能力を示す(教育測定におけるSAT的な話で)のに,「勉強」ならどうかな,ってこと。
9. 達成動機づけと学習履歴
- 理論的にすごく興味ある。T先生,なんか一緒にやりましょう。
- 結局は時系列モデルみたいな話だな
とりあえず,こんな感じ。