問題の一部実施で妥当性の検証？

たまたま手元に40人，48問の反応のデータがある。

この状態で信頼性係数（α）は.85というくらい。

ここから，仮に（a）5問，（b）10問，（c）20問，（d）40問というように問題をランダムに抽出して信頼性係数を求めるという計算を，それぞれ100回ずつおこなって分布を比較するという遊びをする。

はい。

f:id:kusanagik:20150216171400p:plain

（これヒストグラムのbreaksを固定にしないと悪い図だけどまあいっかww）

5問とかひっでーなwww

相関係数／分散共分散行列を睨むことによる妥当性の証拠っていうのも悪くないけど，「希薄化」という問題があって，信頼性係数が低くなれば，相関係数も低くなってしまうんだべ。

（計算上）仮に，真の相関係数が.80で，もう片方のテストの信頼性係数が.90だったとしたって，こっちの信頼性係数のせいで，こういう関数を描くべなあ。

f:id:kusanagik:20150216172436p:plain

k = 5だと，α = .30がいいところだから，そりゃ，単純に相関係数がでようがないよなあ。

仮に典型的な小標本で，20人とか，このレベルで標本相関係数が0.2だとしても，その母数の95%信頼区間は，-.27から.59とかそういう世界だから。

それで，理論的にあるべき相関が見られないという証拠をもって，基準関連妥当性が，とか，構成概念妥当性が，というのは結構厳しいっていうか，テスト作っている側にしたらたまらんいいがかりだよなあwww

喧嘩にならない喧嘩，文句にならない文句ってやつだ。

それに，なぜ私のデータはきったないのかとか，なぜ私のデータは思うようにならないの，とか，そういう仕組みはすごくはっきりしているし，自分にみすみす都合の悪いデザインにしちゃだめだ。

なんていうか，この勝手に問題抜粋（k =10未満）→項目数少なくて信頼性係数低下→相関係数でない→このテスト妥当じゃないんじゃないか！というコンボ流行っているのかな。

草薙の研究ログ