こなした問題数，学習時間，オンライン教材へのログイン時間といったデータの分析

オンライン教材へのログイン時間といった学習履歴は，現在の外国語教育現場では容易に得られるようになってきていて，（主に探索的な目論見で）分析に組み込まれることが多くなってきている。

しかし外国語教育研究ではこういったデータの分析の歴史は浅く，まだこれといって確立された手法があるわけではない。

ここではあくまでも実務的な態度で思いついたメモをここにも書き写す。

1. 分布や変数の型

オンライン教材などでこなした問題数は，離散型として扱うべき。ポアソン分布や負の二項分布などで。特に個人間で同一の単位時間内にこなした問題数はポアソン分布がよいと思われ。
学習時間やオンライン教材へのログイン時間は，連続。大体大きく歪んだ分布になる。ガンマ分布（またはアーラン分布），ワイブル分布，対数正規分布，ex-Gaussian分布などにフィットさせるとよいかも。たまたま手元にある実際のデータを見てみるとほとんどの場合でワイブル分布によくフィットするよう。
単位時間内の最長ログイン時間など（開講時期における個人の最長ログイン時間）は，一般化極値分布で。
「自己報告による学習時間」はリッカート尺度などで観察しやすいけども，本来の学習時間などは歪んでいるはずなのに，自己報告になるととたんに正規分布に近づく。原型尺度と表面的な尺度で分布が明らかに異なる点に注意。

まず，最尤法などを使って任意の分布に当てはめてみればいいかもだ。MASSパッケージのfitdistr関数を使ってフィットを報告しよう。

library(MASS)
fit<-fitdistr(a,denfun="Poisson")
AIC(fit)
BIC(fit)
fit

library(MASS)
fit<-fitdistr(a,denfun="Gamma")
AIC(fit)
BIC(fit)
fit

2. 潜在変数化

変数が多くなりやすいので，うまくいくなら集約してもよいかもだ。因子分析でも，主成分でも。
ただ，潜在変数を仮定するにはそれ相応の議論が必要だと思う。学習時間などに因果を及ぼすだろうものは無限にあって，勝手に「学習意欲」とかだって「みなす」べきではない

3. 応答変数として

4. 変換

6. グラフィカルモデル，ネットワーク

7. 成果変数に対する因果

8. 「できない人ほどたくさんこなさなきゃ抜けられない」問題

これ，すごく関心がある。WBTというようなタイプには成功しないと次にいけない仕様のものがある。そうすると，分析の中で誤って，「その教材で勉強するほど成績が伸びない，低くなる」みたいな結果を導いてしまいやすい。間違った回数は幾何分布とかそういうのでモデルできる可能性があるし，抜けるまでの時間はガンマとかそういうの。ただし，結局は「向学習性」みたいなのと「能力」が原則分離不可能ってことに変わりない感じ。「測定」なら終わるまでの時間は能力を示す（教育測定におけるSAT的な話で）のに，「勉強」ならどうかな，ってこと。

9. 達成動機づけと学習履歴