草薙の研究ログ

英語の先生をやってます。

情報処理

青い目の人形の現存率

青い目の人形 青い目の人形ってのは,1927年に日米友好のために,アメリカから日本に送られた人形のこと。当時の日米間は緊張状態にあった。日本人の移民がアメリカでの職を奪っている,という見方の下で,日系人排斥の機運が高まっていた。いわゆる黄禍論み…

電子板書はCalmly Writerで

授業をする際に,電子的にその場で板書したりすることを個人的に電子板書と呼んでいる。emacsやAtomといった適当なエディタを開いてやることも多いけど,何分学生にとっては見にくい。 最近Calmly Writerという無料のWebAppを知った。これ本当に素晴らしい。…

分散分析結果の可視化例

よく指導法の効果の検証っていうような目的でこんなグラフを見る。これ,カーネルとか使ってこんな感じでいいじゃない? 名前なんていうかわからんけど。 これパッケージにしたら需要あるんだろうか? 流行ったらいいな。 または,これでもいいな。 library(…

AtomからRを使うための設定(Ubuntu系OS)

お気に入りのエディタからなにがなんでも出たくないという病気。 ここ3年はAtom推しなので,今回はAtomからRを使用する環境を作る。環境は,Lubuntu 18.04 LTS。 でも別にこのOSがなにか特別なわけじゃない。これまでAtomからRを使うときは,Atomのパッケー…

言語法則とベイズ的なカーブフィッティング

続きもので書いていたつもりだったのだけど,放置しすぎて前回からの更新間隔がえげつないことになってしまった。前回は,Menzerath-Altmann法則をRのnls関数で - 草薙の研究ログっていう話だった。えっと,「ある言語学的単位の平均長(y)は,その構成要素…

授業や研究発表をWeb-based slideshowでやるべき6つの理由

その理由はこちらから! web-based slideshow

一般化パレート分布をデータに当てはめる

一般化パレート分布は所得の分布などに使われるそうだ。 外国語教育研究でもこういった分布になる変数を私はひとつだけ知っている(いわないwww)。Rにいろいろあると思うけど,ここではactuarパッケージとfitdistrplusパッケージを使う。 actuarパッケージ…

当てはめた分布と推定した母数から平均,分散,歪度,尖度をもとめる

なんかある論文で,分布が強く歪んでいることが理論的に明白だった変数に,ガンマ分布か対数正規分布かなにかを当てはめて,その推定母数と適合度指標のみを(きつい紙幅の関係もあって)報告したときに,「標本の記述統計を報告しないとはけしからん」とい…

混合ガンマ分布モデルをデータにフィットさせる

Rのmixtoolsパッケージでは,混合ガンマ分布モデルもデータへフィットさせることができる。 #λ= .25,.75,α - 4, 10,β= 1, .2が正解 set.seed(0) dat<-c(rgamma(100,4,1),rgamma(300,10,.2)) hist(dat,breaks=20, main="",col="lightblue") model<-gammamix…

単変量混合正規分布モデルをデータにフィットさせる

外国語教育研究では2つの山とか3つの山とかの分布になっているのを見ることがある。こういうときは,混合分布モデルをデータにフィットさせるといいかもだ。Rではmclustもいいけど,mixtoolsというパッケージがある。 #準備 library(mixtools) #数値例の作成…

自分で用意した分布をデータへフィットさせる

fitdistrplusパッケージのfitdist関数は,dnorm, pnormのように,dとpの関数が定義されていればどんなものでも指定することができる。自作でもいいってこと。ま,でも殆どの場合,自分程度が思いつくような分布はすでに用意されているってのがR。たとえば,…

単変量の分布母数の推定からあれこれ:fitdistrplusパッケージが便利

ある確率分布を手持ちの単変量データに当てはめ,その母数を最尤推定するという方法があって,Rでは通常MASSパッケージのfitdistr関数を使うのがお手軽なんだけど,fitdistrplusという便利なパッケージが出ていてこれがとてもいいかも。ま,結局はoptimにか…

負の二項分布に関する2つのパラメーター化の方法

負の二項分布(negative binomial distribution)は,(a)その母数を成功回数(ないしサイズ母数)rと,成功確率pとする場合(こっちに親しみ)と,(b)サイズ母数rと平均μとするときの二種類があるんだそうだ。パラメーター化の方法が違うってのは,ガン…

対数変換したあとの値の記述統計を報告?vs.対数変換する前の値の記述統計を報告?

外国語教育研究では強く歪んだ分布をもつ連続型確率変数を扱うときがある。 学習時間,ある変数上でのテスト成績,心理学的な実験における反応時間,読解時間などがそう。場合によっては,これを正規分布にしたがう確率変数にすることを目的に対数変換すると…

diffIRT:Diffusion IRTモデルのRパッケージ

たまには真面目なことを記事にしよう。ここ1年くらい夢中になっているDiffusion Modelの話。 Diffusion Modelっていうのは,2値判断課題における正答率と反応時間の分布を<同時に扱う>数理的モデル。「信号検出理論(SDT)に反応時間を足したようなもの」…

ちゃんと勉強してこなかったせいで死ぬほど後悔しているもの

年を取るとやっぱり勉強できなくなる。 業務上必要なのに,自分が怠けて勉強しなかったばっかりに結局はできないままのことも多い。これまで自分がどれだけサボってきたかという,悔しくて仕方ないもの。若いときの過ごし方ってのはやはり大事だと思う。以下…

学習時間の和もガンマ分布って話とか

学習時間(もとい,ICT教材などへのログイン時間)は往々にしてガンマ分布やワイブル分布やその他の親族の分布に従う。もう,これは外国語教育研究の定番でいいんじゃないかと。まあ,記述的には最尤推定して形状母数や尺度母数と対数尤度,AIC,BICなどを報…

層別データの可視化:plot関数が思ったより賢い件

何故か知らんかった。plot関数って思ったより賢い。(いや,plot関数が賢いのは昔から当たり前なんだけど)ひとつのグループ化変数とひとつの連続量を入れたデータフレームがあるとする。こんなふうにして作ろう。 group<-c(rep("a",25),rep("b",25)) score<…

こなした問題数,学習時間,オンライン教材へのログイン時間といったデータの分析

オンライン教材へのログイン時間といった学習履歴は,現在の外国語教育現場では容易に得られるようになってきていて,(主に探索的な目論見で)分析に組み込まれることが多くなってきている。しかし外国語教育研究ではこういったデータの分析の歴史は浅く,…

層別の記述統計

あるテストを実施したとき,クラスごとに合計得点をもとめたいとか,そういうことって外国語教育ではよくある(そういうことしかない気もする)。 男女とか,3クラスとかだったらね,記述統計をエクセルでそれぞれ手動でもとめてもいいかもだけど,20クラス…

Rの図の中の字をTImes New Romanにしたい?

…という矢の問い合わせ。基本図の中はサンセリフでいいと思うんだけど,わざわざこういう指定のジャーナルもあるんだそう。 なるほど。 windowsFonts(TNR = windowsFont("Times New Roman")) par(family="TNR") x<-data.frame("How about"=rnorm(100),"this"…

処理速度と反応時間はまったく違うものだってこと

背景 日本の外国語教育研究では,先達のたゆまぬ努力によって1990年代から認知心理学的な研究手法が欧米より徐々に輸入されはじめ,2000年代後半から広く一般化し,今に続く研究の流れを形成した。認知心理学といっても,特に外国語の語彙処理に関わる研究が…

Rで逆正規分布の確率密度関数,累積分布関数,乱数発生

逆正規分布(逆ガウス分布,Inverse Gaussian Distribution)は,反応時間の分析で使ったりすることがあるらしい。歪んでいるので。2母数の連続型分布で,形状パラミタ(λ)と平均(μ)をもつ。 相変わらず英語のwiki先生は統計と数学に詳しい。Inverse Gaus…

【数式なしで見てわかる】標準偏差がどうしてもわからない人へ【卒論・修論執筆者向け】

背景 卒業論文や修士論文で,指導教官や先輩,または投稿論文で査読者から「標準偏差」を報告しなさいと言われたことがある方も多いと思います。 ただ,「標準偏差とはなにか」を理解することは簡単じゃありません(と考えるひともいるようです)。 ここでは…

Windows10のアップグレードはRAMDISKを勝手に外すという罠

心情としてはLinux派(のエンドユーザー)なのだが,これまでどうしてもMS Officeでやらなきゃいけないことが多いので,Windows 7も使っていた。 ThinkPad Tシリーズなのだけど,RAMが4GB余っていたので,RAMDISKとしてTMPファイルなどいろいろ割り当ててい…

【2015年度版】文系院生へのlinux OSのススメ【lubuntuいいよ】

lubuntuかわいいよ好きよ 背景 文系院生に必要な研究環境は,はっきりいって以下の要件に尽きる。 pdfが閲覧できること ネット・ブラウジングができること メールの送受信ができること オフィススイートを備えていること (人によって)ターミナル上で文字処…

検定力についてわかったようなわからないような人がもっとわかったというようなグラフ

1/0の正誤データから信号検出理論:Rの自作関数

背景 手元に判断課題のデータがあって,信号検出理論の指標を出したいとする。大概の信号検出理論指標は計算が簡単なのでExcelでもできるのだけど,大量データだと結構面倒くさい。 信号検出理論では,反応を4種類に分ける。 Hit, Miss, CR, FA。 これを数え…

カーネル密度推定からその後:ksパッケージ

背景 正規分布を逸脱したデータの累積分布曲線を描きたい。 たとえば,こんなデータってことにしよう。 このデータは, c(rnorm(100.-5,1),rnorm(100,5,1))->dat こうやってつくろう。 Nが200もあれば,quantile関数で, で,こんな感じにできる。 でもこれ…

クロス集計をあえて散布図みたいに可視化する:Rの関数つき

背景 たいていの質問紙の項目に対する回答は,離散的な値を取る。 1, 2, 3, 4, 5みたいな。リッカート尺度みたいな場合ね。 ここである質問項目iの回答と質問項目jの回答をみたい。 5件とか7件のリッカート尺度だと,(ピアソンの)相関係数を出したりするこ…