草薙の研究ログ

英語教育関係。でも最近は統計(特にR)ネタが中心。

統計

対数変換したあとの値の記述統計を報告?vs.対数変換する前の値の記述統計を報告?

外国語教育研究では強く歪んだ分布をもつ連続型確率変数を扱うときがある。 学習時間,ある変数上でのテスト成績,心理学的な実験における反応時間,読解時間などがそう。場合によっては,これを正規分布にしたがう確率変数にすることを目的に対数変換すると…

そのメタ分析なんだかな

そういう論文ってどれだけの数あるかわからないのだけど,こんなメタ分析があるって考える。 (潜在変数としての)英語の力と(同じく潜在変数としての)国語(母語?)の力の関係をメタ分析でもとめる,という話にしよう。基本的に,英語の力(の推定値)は…

(量的)進歩主義と(質的)回帰主義

(最近バカのひとつ覚えの要領で話すネタ) (今年のCELESのワークショップ,LETのシンポ,全国英語教育学会のワークショップにお越しいただいた方,駄弁にお付き合いいただき,ありがとうございました) 1990年代前後から英語教育研究は欧米で流行していた…

2変量正規分布の片方の変数を平均でぶった切ってもう片方の変数の値の平均差を検討する?

これ,どうやってご説明差し上げたらいいか迷ってたけど,説明用のグラフ用意した。 当たり前だけど相関係数と密接な関係がある(なのであまり操作としてよくない) 相関が十分に高いとき,それぞれ分割した変数の方は当然正規性が満たされなくなる(←これが…

還元主義者が陥ること2題

還元主義一般の話 自分は強烈な還元主義者だと思うのだけど,還元主義の限界は日頃から意識しているつもり。むしろ,意味のなかった還元などについては,一段階前に戻そうと思う時も最近は多くなった。 還元(reduction)とは,たとえば「Aとは結局のところC…

質的成果指標に関する後ろ向き研究:相対危険度とその信頼区間

ある質的な成果指標(ある試験の合格・不合格)がある。テストが終わったあとに,合格した人と不合格だった人に,どの教科書(A,B)を使っていたかそれぞれ聞く。すると以下のようなクロス集計が得られる。このとき,使用した教科書と合格・不合格の関係を…

diffIRT:Diffusion IRTモデルのRパッケージ

たまには真面目なことを記事にしよう。ここ1年くらい夢中になっているDiffusion Modelの話。 Diffusion Modelっていうのは,2値判断課題における正答率と反応時間の分布を<同時に扱う>数理的モデル。「信号検出理論(SDT)に反応時間を足したようなもの」…

学習時間の和もガンマ分布って話とか

学習時間(もとい,ICT教材などへのログイン時間)は往々にしてガンマ分布やワイブル分布やその他の親族の分布に従う。もう,これは外国語教育研究の定番でいいんじゃないかと。まあ,記述的には最尤推定して形状母数や尺度母数と対数尤度,AIC,BICなどを報…

層別データの可視化:plot関数が思ったより賢い件

何故か知らんかった。plot関数って思ったより賢い。(いや,plot関数が賢いのは昔から当たり前なんだけど)ひとつのグループ化変数とひとつの連続量を入れたデータフレームがあるとする。こんなふうにして作ろう。 group<-c(rep("a",25),rep("b",25)) score<…

こなした問題数,学習時間,オンライン教材へのログイン時間といったデータの分析

オンライン教材へのログイン時間といった学習履歴は,現在の外国語教育現場では容易に得られるようになってきていて,(主に探索的な目論見で)分析に組み込まれることが多くなってきている。しかし外国語教育研究ではこういったデータの分析の歴史は浅く,…

The relationship between A and B in the context of C的なのとか

好きだよねえ。みんな大好き。 Aには(得てして海外で)有名な(そして得てして尺度の翻訳版が確立していない)構成概念 Bには(得てして海外で)有名な(そして得てして尺度の翻訳版が確立していない)別の構成概念 Cには自分の興味のある国,校種など でも…

層別の記述統計

あるテストを実施したとき,クラスごとに合計得点をもとめたいとか,そういうことって外国語教育ではよくある(そういうことしかない気もする)。 男女とか,3クラスとかだったらね,記述統計をエクセルでそれぞれ手動でもとめてもいいかもだけど,20クラス…

オッズ比からテトラコリック相関係数への近似変換

テトラコリック相関係数でメタ分析したいときに,先行研究がオッズ比で報告してたりするからどうするんだって話があるそうな。もちろんクロス集計があればいいのだけど,それがないときはどうするか。オッズ比からテトラコリック相関係数の近似値を求める方…

標準偏差の平均?

標準偏差の平均を知りたいという問い合わせ。 評定者が何人かいて,評定者の評定の平均的なばらつきを知りたいのだと。 単純に相加平均しちゃだめで,評定した人の数が一緒だとして,こういうふうにする。 でも,ちょっと微妙。 評定が連続量なのかってのは…

t検定に取って代わるベイズ推定:BESTパッケージ

今更だけど,BESTっていうパッケージなんだって。Bayesian Estimation Supersedes the T-testということでBESTパッケージ。うむうむ。https://cran.r-project.org/web/packages/BEST/vignettes/BEST.pdf CRAN - Package BESTなるほどね。基本はまずJAGSでMCM…

Rの図の中の字をTImes New Romanにしたい?

…という矢の問い合わせ。基本図の中はサンセリフでいいと思うんだけど,わざわざこういう指定のジャーナルもあるんだそう。 なるほど。 windowsFonts(TNR = windowsFont("Times New Roman")) par(family="TNR") x<-data.frame("How about"=rnorm(100),"this"…

信号検出理論の弁別力と対数オッズ比とベイズ因子と

信号検出理論における被験者反応を4つに分けて(H, Miss, FA, CR)2×2表にしたときの対数オッズ比は,0.6倍すると信号検出理論における弁別力指標d'にまあまあ近似する。なので,大雑把にいえば互いに代用できなくもない。 #データを作る dat<-matrix(c(100,…

集団間の平均値の比較が置いているあまり知られていない仮定

ある種の動機づけの強さについて,性別に由来する差を知りたいと思った。それを測る質問紙(10項目)があるとする。これら10の観測値の平均をもって,この動機づけの強さの値だとみなそう。それで,男女100人ずつくらい集めて,その値の2群の平均値を比べた…

処理速度と反応時間はまったく違うものだってこと

背景 日本の外国語教育研究では,先達のたゆまぬ努力によって1990年代から認知心理学的な研究手法が欧米より徐々に輸入されはじめ,2000年代後半から広く一般化し,今に続く研究の流れを形成した。認知心理学といっても,特に外国語の語彙処理に関わる研究が…

MANOVAをしたときの効果量

なぜか一部の人はMANOVAを嫌うのだけど,MANOVAしたほうがいい場合っていっぱいあると思う。 で,ある統計の相談案件で効果量はどう報告したらいいのっていう話になった。「そういやあまり聞かない」…というのは国内の外国語教育研究で概説が見当たらないっ…

じわじわくる理屈

私たちの友達グループ ある友達のグループで,これまでの人生で付き合ってきたひとの数を集計してみたら,大体真ん中(50%点)ぐらいが12人だったという。世では4人くらいを「普通」だといっているんだけど,私たちの友達グループでは12人を「普通」と呼ぼう…

多変量上の群間の中心差に関する効果量としてのマハラノビス距離と情報量?

ある指導法Aの効果をみたいとする。 NEGD(群間計画)を組めたとする。 処遇後における処置群と統制群の中心傾向の差をもって効果と考えたい。 このとき,結果変数として2変数もっているとする。 文法テストと語彙テスト。 このとき,効果量としてもちいるべ…

【R】マハラノビス距離のもとめ方と判別

Rでマハラノビス距離をもとめるためには,mahalanobis関数を使う。 勉強用に書いてみた。マハラノビス距離自体は,やっぱり英語のwiki先生が詳しい。Mahalanobis distance - Wikipedia, the free encyclopedia #2変量のマハラノビス距離をもとめる #数値例の…

Rで逆正規分布の確率密度関数,累積分布関数,乱数発生

逆正規分布(逆ガウス分布,Inverse Gaussian Distribution)は,反応時間の分析で使ったりすることがあるらしい。歪んでいるので。2母数の連続型分布で,形状パラミタ(λ)と平均(μ)をもつ。 相変わらず英語のwiki先生は統計と数学に詳しい。Inverse Gaus…

【数式なしで見てわかる】標準偏差がどうしてもわからない人へ【卒論・修論執筆者向け】

背景 卒業論文や修士論文で,指導教官や先輩,または投稿論文で査読者から「標準偏差」を出しなさいと言われたことがある方も多いと思います。 ただ,「標準偏差とはなにか」を理解することは簡単じゃありません(と考えるひともいるようです)。 ここでは,…

Windows10のアップグレードはRAMDISKを勝手に外すという罠

心情としてはLinux派(のエンドユーザー)なのだが,これまでどうしてもMS Officeでやらなきゃいけないことが多いので,Windows 7も使っていた。 ThinkPad Tシリーズなのだけど,RAMが4GB余っていたので,RAMDISKとしてTMPファイルなどいろいろ割り当ててい…

Rで反応時間データの基礎的処理まとめ

これで外国語教育でやるような処理は大体できると思う。ご自由にどうぞ。 library(retimes) #ない場合はインストールすること library(MASS) library(ks) x<-rexgauss(1000,300,200,500) #数値例の生成 #基礎 x<-x[!is.na(x)] #欠損の除外(ここにはない) s…

RでS-P表

まだモックアップ版です。RでS-P表を返します。 ヘッダーつきのデータフレームを入れます。 S-P表を返します。 オプションのplot=TでS CurveとP Curveも描画します。 このデフォルトはTです。 sp<-function(dat,plot=T){ dat[order(apply(dat,1,sum),decreas…

Rコードいろいろ

このブログやHPなどで,いろんなRのコードを書いてきたのだけど,そしてそれはほとんど自分のためなのだけど,私自身が自分で探すのもメンドくなってきてしまったので,.txtにベタ打ちしたやつをダウンロードできるようにまとめていくことにした。これから充…

Ex-Gaussian分布の累積分布関数:Rコード

前よくわからないから 積分でやったんだけど,調べたらwikipediaにあったから関数作ったった。wikipediaすげえな。でも700円のコーヒーを飲む層ではないんだ俺。 pexgauss<-function(x,mu,sigma,tau){ tau<-1/tau u<-tau*(x-mu) v<-tau*sigma phi1<-pnorm(u,…