草薙の研究ログ

英語教育関係。でも最近は統計(特にR)ネタが中心。

情報処理

授業や研究発表をWeb-based slideshowでやるべき6つの理由

その理由はこちらから! web-based slideshow

一般化パレート分布をデータに当てはめる

一般化パレート分布は所得の分布などに使われるそうだ。 外国語教育研究でもこういった分布になる変数を私はひとつだけ知っている(いわないwww)。Rにいろいろあると思うけど,ここではactuarパッケージとfitdistrplusパッケージを使う。 actuarパッケージ…

当てはめた分布と推定した母数から平均,分散,歪度,尖度をもとめる

なんかある論文で,分布が強く歪んでいることが理論的に明白だった変数に,ガンマ分布か対数正規分布かなにかを当てはめて,その推定母数と適合度指標のみを(きつい紙幅の関係もあって)報告したときに,「標本の記述統計を報告しないとはけしからん」とい…

混合ガンマ分布モデルをデータにフィットさせる

Rのmixtoolsパッケージでは,混合ガンマ分布モデルもデータへフィットさせることができる。 #λ= .25,.75,α - 4, 10,β= 1, .2が正解 set.seed(0) dat<-c(rgamma(100,4,1),rgamma(300,10,.2)) hist(dat,breaks=20, main="",col="lightblue") model<-gammamix…

単変量混合正規分布モデルをデータにフィットさせる

外国語教育研究では2つの山とか3つの山とかの分布になっているのを見ることがある。こういうときは,混合分布モデルをデータにフィットさせるといいかもだ。Rではmclustもいいけど,mixtoolsというパッケージがある。 #準備 library(mixtools) #数値例の作成…

自分で用意した分布をデータへフィットさせる

fitdistrplusパッケージのfitdist関数は,dnorm, pnormのように,dとpの関数が定義されていればどんなものでも指定することができる。自作でもいいってこと。ま,でも殆どの場合,自分程度が思いつくような分布はすでに用意されているってのがR。たとえば,…

単変量の分布母数の推定からあれこれ:fitdistrplusパッケージが便利

ある確率分布を手持ちの単変量データに当てはめ,その母数を最尤推定するという方法があって,Rでは通常MASSパッケージのfitdistr関数を使うのがお手軽なんだけど,fitdistrplusという便利なパッケージが出ていてこれがとてもいいかも。ま,結局はoptimにか…

負の二項分布に関する2つのパラメーター化の方法

負の二項分布(negative binomial distribution)は,(a)その母数を成功回数(ないしサイズ母数)rと,成功確率pとする場合(こっちに親しみ)と,(b)サイズ母数rと平均μとするときの二種類があるんだそうだ。パラメーター化の方法が違うってのは,ガン…

対数変換したあとの値の記述統計を報告?vs.対数変換する前の値の記述統計を報告?

外国語教育研究では強く歪んだ分布をもつ連続型確率変数を扱うときがある。 学習時間,ある変数上でのテスト成績,心理学的な実験における反応時間,読解時間などがそう。場合によっては,これを正規分布にしたがう確率変数にすることを目的に対数変換すると…

diffIRT:Diffusion IRTモデルのRパッケージ

たまには真面目なことを記事にしよう。ここ1年くらい夢中になっているDiffusion Modelの話。 Diffusion Modelっていうのは,2値判断課題における正答率と反応時間の分布を<同時に扱う>数理的モデル。「信号検出理論(SDT)に反応時間を足したようなもの」…

ちゃんと勉強してこなかったせいで死ぬほど後悔しているもの

年を取るとやっぱり勉強できなくなる。 業務上必要なのに,自分が怠けて勉強しなかったばっかりに結局はできないままのことも多い。これまで自分がどれだけサボってきたかという,悔しくて仕方ないもの。若いときの過ごし方ってのはやはり大事だと思う。以下…

学習時間の和もガンマ分布って話とか

学習時間(もとい,ICT教材などへのログイン時間)は往々にしてガンマ分布やワイブル分布やその他の親族の分布に従う。もう,これは外国語教育研究の定番でいいんじゃないかと。まあ,記述的には最尤推定して形状母数や尺度母数と対数尤度,AIC,BICなどを報…

層別データの可視化:plot関数が思ったより賢い件

何故か知らんかった。plot関数って思ったより賢い。(いや,plot関数が賢いのは昔から当たり前なんだけど)ひとつのグループ化変数とひとつの連続量を入れたデータフレームがあるとする。こんなふうにして作ろう。 group<-c(rep("a",25),rep("b",25)) score<…

こなした問題数,学習時間,オンライン教材へのログイン時間といったデータの分析

オンライン教材へのログイン時間といった学習履歴は,現在の外国語教育現場では容易に得られるようになってきていて,(主に探索的な目論見で)分析に組み込まれることが多くなってきている。しかし外国語教育研究ではこういったデータの分析の歴史は浅く,…

層別の記述統計

あるテストを実施したとき,クラスごとに合計得点をもとめたいとか,そういうことって外国語教育ではよくある(そういうことしかない気もする)。 男女とか,3クラスとかだったらね,記述統計をエクセルでそれぞれ手動でもとめてもいいかもだけど,20クラス…

Rの図の中の字をTImes New Romanにしたい?

…という矢の問い合わせ。基本図の中はサンセリフでいいと思うんだけど,わざわざこういう指定のジャーナルもあるんだそう。 なるほど。 windowsFonts(TNR = windowsFont("Times New Roman")) par(family="TNR") x<-data.frame("How about"=rnorm(100),"this"…

処理速度と反応時間はまったく違うものだってこと

背景 日本の外国語教育研究では,先達のたゆまぬ努力によって1990年代から認知心理学的な研究手法が欧米より徐々に輸入されはじめ,2000年代後半から広く一般化し,今に続く研究の流れを形成した。認知心理学といっても,特に外国語の語彙処理に関わる研究が…

Rで逆正規分布の確率密度関数,累積分布関数,乱数発生

逆正規分布(逆ガウス分布,Inverse Gaussian Distribution)は,反応時間の分析で使ったりすることがあるらしい。歪んでいるので。2母数の連続型分布で,形状パラミタ(λ)と平均(μ)をもつ。 相変わらず英語のwiki先生は統計と数学に詳しい。Inverse Gaus…

【数式なしで見てわかる】標準偏差がどうしてもわからない人へ【卒論・修論執筆者向け】

背景 卒業論文や修士論文で,指導教官や先輩,または投稿論文で査読者から「標準偏差」を出しなさいと言われたことがある方も多いと思います。 ただ,「標準偏差とはなにか」を理解することは簡単じゃありません(と考えるひともいるようです)。 ここでは,…

Windows10のアップグレードはRAMDISKを勝手に外すという罠

心情としてはLinux派(のエンドユーザー)なのだが,これまでどうしてもMS Officeでやらなきゃいけないことが多いので,Windows 7も使っていた。 ThinkPad Tシリーズなのだけど,RAMが4GB余っていたので,RAMDISKとしてTMPファイルなどいろいろ割り当ててい…

【2015年度版】文系院生へのlinux OSのススメ【lubuntuいいよ】

lubuntuかわいいよ好きよ 背景 文系院生に必要な研究環境は,はっきりいって以下の要件に尽きる。 pdfが閲覧できること ネット・ブラウジングができること メールの送受信ができること オフィススイートを備えていること (人によって)ターミナル上で文字処…

検定力についてわかったようなわからないような人がもっとわかったというようなグラフ

1/0の正誤データから信号検出理論:Rの自作関数

背景 手元に判断課題のデータがあって,信号検出理論の指標を出したいとする。大概の信号検出理論指標は計算が簡単なのでExcelでもできるのだけど,大量データだと結構面倒くさい。 信号検出理論では,反応を4種類に分ける。 Hit, Miss, CR, FA。 これを数え…

カーネル密度推定からその後:ksパッケージ

背景 正規分布を逸脱したデータの累積分布曲線を描きたい。 たとえば,こんなデータってことにしよう。 このデータは, c(rnorm(100.-5,1),rnorm(100,5,1))->dat こうやってつくろう。 Nが200もあれば,quantile関数で, で,こんな感じにできる。 でもこれ…

クロス集計をあえて散布図みたいに可視化する:Rの関数つき

背景 たいていの質問紙の項目に対する回答は,離散的な値を取る。 1, 2, 3, 4, 5みたいな。リッカート尺度みたいな場合ね。 ここである質問項目iの回答と質問項目jの回答をみたい。 5件とか7件のリッカート尺度だと,(ピアソンの)相関係数を出したりするこ…

外国語教育で極値統計・VaR・期待ショートフォール:自分用メモ

極値統計 極値分布:最小値や最大値が(漸近的に)従う分布。リスク管理などで使われる。 一般極値分布(generalized extreme value distribution, GEV)は,3つのパラミターをもつ。 位置パラミター スケールパラミター 形状パラミター 形状パラミターの値…

幾何分布関係メモ:Rで乱数発生,最尤推定,負の二項回帰

幾何分布ってなに 幾何分布(geometric distribution)は,離散分布のひとつ。 表になるまでコイン投げを繰り返すとして,はじめて表になった回数(または,表になるまでにかかった施行回数)などにあてはまる。もちろん,無記憶だということで,各回の施行…

論文で報告されていない相関係数をサルベージ!(Rの関数つき)

背景 対応のあるデータの論文で,あるある。 平均値と標準偏差のペアが報告されている,よしよし。 対応のあるt検定の検定統計量が報告されている,ふむふむ。 でも相関係数や分散共分散行列が報告されていない!なんでだよー。。。 たとえば,標準化効果量…

「カタチ」で見る集団に対する処遇の結果

はじめに 集団に対する処遇の結果に関するデータを「可視化」して,目でみて把握しましょうというはなし。 データの可視化を…? たとえば,多読の授業をやって,事前と事後でテストの成績を比較するとする。 もちろん,こういうふうに可視化してもよい。 で…

効果量では見えない指導の効果(8):外国語教育での実例(事前ー事後)

さてさて。今回は繰り返しあるの比較。事前ー事後ね。 事前ー事後の比較 対象とする論文は, 前田啓朗(2008)「WBTを援用した授業で成功した学習者・成功しなかった学習者」ARELE, 19, 253-262. &lt;a href="http://ci.nii.ac.jp/naid/110008512362" data-m…