草薙の研究ログ

英語教育関係。でも最近は統計(特にR)ネタが中心。

単変量の分布母数の推定からあれこれ:fitdistrplusパッケージが便利

ある確率分布を手持ちの単変量データに当てはめ,その母数を最尤推定するという方法があって,Rでは通常MASSパッケージのfitdistr関数を使うのがお手軽なんだけど,fitdistrplusという便利なパッケージが出ていてこれがとてもいいかも。ま,結局はoptimにか…

最尤推定した母数のもとでの確率密度曲線をヒストグラムに描き足す

えっと,リクエストがあったのでここに書く。(SPSSならそれっぽい曲線もつけてくれるのにRはそんなこともできないのか?といわれた)まずはこんなデータがあるとしよう。形状母数が3,尺度母数1のガンマ分布にしたがう300個。 set.seed(0) dat<-rgamma(300,…

負の二項分布に関する2つのパラメーター化の方法

負の二項分布(negative binomial distribution)は,(a)その母数を成功回数(ないしサイズ母数)rと,成功確率pとする場合(こっちに親しみ)と,(b)サイズ母数rと平均μとするときの二種類があるんだそうだ。パラメーター化の方法が違うってのは,ガン…

野良観測変数?

なんていうんだろ,それが何を測るかは一切分かっていないけど,その変数の利活用を暗に強いられているような変数。 オンライン学習履歴データとかがまさにそうだ。オンライン教材のログイン時間とか。これは何か測定を目指す構成概念がこのデータに先んじて…

オンラインでできるPOS Tagger

なんか最近こういうのやたら多いね。POSってはpart of speech。品詞のこと。 ウェブブラウザでテキスト投げてやればPOSをタグして返してくれるっていうお手軽サービス。 1. Parts-of-speech.Info - POS tagging online 2. NLTK POS Tagging - API & Demo | T…

分散共分散行列を相関係数行列に変換するR関数

自分で関数書けばいいってのもごもっともだし,他にも色々あるんだけど,bayesmパッケージにnmatっていう関数がある。 vcovm<-matrix(c(3,2,2,3),2,2) cm<-nmat(vcovm) matrix(cm,2,2)

手法上の利点とノウハウの違い

手法上の利点,または手法的に優れている(methodologically sound)手法というのは,基本的に適用する対象と独立してその有用性が与えられるものだ。だから,「手法上の」(methodologically)という言葉をつける。 これは主に数理的な,または技術的な意味…

名古屋で討論型ワークショップやります!

12/17の名古屋,外国語教育メディア学会中部支部外国語教育基礎研究部会第4回年次例会で討論型ワークショップやります! このワークショップは,(私の得てしてくだらない話題提供のあと)基本的に参加者同士でグループを組んでもらい,想いの丈を共有し合う…

ベイズ因子をやりたいんだけどRは敷居が高いっていうときの無料統計ソフト:JASP

オランダのWagenmakers先生たちのチームがJASPっていう統計ソフトを開発している。(結構前から)無料で公開中。 JASP | A Fresh Way to Do Statistics https://jasp-stats.org/wp-content/uploads/2016/10/DISCOVER_JASP.pdf まだ開発途中感があるけど,す…

新世代翻訳技術を援用した豊かな人間性を育む英語教育実践

google翻訳すごい。 おそらく10年もしないうちにこういう授業実践が見られるようになるかも。 10年後,新しい能力,より汎用的な能力,就業力,コミュニケーション能力,批判的思考力といった概念が,教育上の成果や目的変数として今以上に重要とされるよう…

対数変換したあとの値の記述統計を報告?vs.対数変換する前の値の記述統計を報告?

外国語教育研究では強く歪んだ分布をもつ連続型確率変数を扱うときがある。 学習時間,ある変数上でのテスト成績,心理学的な実験における反応時間,読解時間などがそう。場合によっては,これを正規分布にしたがう確率変数にすることを目的に対数変換すると…

本当は効果が全くないときに標本の効果量が任意の値以上を超える確率

変な話だけど,研究者にとって,実験をして得る標本効果量の期待値を最大化する方法はないけど,標本効果量が任意の値x以上を取る確率を最大化する最も合理的な方法はある。標本サイズを小さくすること。母標準化平均差が0であるとき,たとえば,4人対4人と…

クラスタリングあれこれ

local shirnkingに基づくクラスタリングっていう手法があるんだって。http://math.yorku.ca/~stevenw/pub/sw14.pdfこれをやるRパッケージもある。https://cran.r-project.org/web/packages/clues/clues.pdf まあ,よさそう。このパッケージ面白くて,面白い…

R連携アプリ開発関係メモ(1):Rscriptでbat実行するときに,コマンドプロンプトを表示しない簡単な方法はVBScript

美しいリレーの話。 まずはRのスクリプトファイル(.r)を用意する(a.rとする)。 それでこのスクリプトファイルをRscriptで実行するバッチファイル(b.bat)を用意する。 このバッチファイルを実行するVBScript(c.vbs)を用意する。 vbsは,コマンドプロ…

頻度主義的・ベイジアン標本サイズ決定

概論的にはこの論文がいいかも。 Adcock, C. J. (1997). Sample size determination: a review. Journal of the Royal Statistical Society: Series D (The Statistician), 46(2), 261-283. 実験する前に,適切な標本サイズを決定しましょう,というそういう…

そのメタ分析なんだかな

そういう論文ってどれだけの数あるかわからないのだけど,こんなメタ分析があるって考える。 (潜在変数としての)英語の力と(同じく潜在変数としての)国語(母語?)の力の関係をメタ分析でもとめる,という話にしよう。基本的に,英語の力(の推定値)は…

ジョンソンのSU分布

ジョンソンの分布っていうのは,こんな感じ。PDFとかCDFとか。Johnson's SU-distribution - Wikipedia, the free encyclopedia この分布は4パラミターある。 γ δ ξ λ このように贅沢な関数なので,やはり表現力は高い。 Rでは,SuppDistsパッケージなどでこ…

正答率がチャンスレート以上か調べるベイズ因子

ある被験者になんかの判断課題,32試行やってもらったとしよう。正答数は18個。なので正答率は18/32 = .56くらい。この人の判断は,チンパンジー(チャンスレート)より優れているとどれくらいいえるのだろうか。ベイズ因子で考える。まずは,普通に母比率の…

(量的)進歩主義と(質的)回帰主義

(最近バカのひとつ覚えの要領で話すネタ) (今年のCELESのワークショップ,LETのシンポ,全国英語教育学会のワークショップにお越しいただいた方,駄弁にお付き合いいただき,ありがとうございました) 1990年代前後から英語教育研究は欧米で流行していた…

2変量正規分布の片方の変数を平均でぶった切ってもう片方の変数の値の平均差を検討する?

これ,どうやってご説明差し上げたらいいか迷ってたけど,説明用のグラフ用意した。 当たり前だけど相関係数と密接な関係がある(なのであまり操作としてよくない) 相関が十分に高いとき,それぞれ分割した変数の方は当然正規性が満たされなくなる(←これが…

学会でスライドをカメラでパシャパシャ問題

この前,猛暑の東京で学会があった。盛会でなによりでした。 ところで,この学会を通じて,参加者の先生方にはあることがお心に残られたと思う。 講演,シンポジウム,発表中にスライドを逐一撮影することはどうなのか,ということ。 確かにすごい頻度で目に…

観測と解析どっちが大事かという話

観測が大事だというひと。 実験手法,実験方法,実験計画の精密さ,脅威要因を「事前に工夫して」排除する人,実験操作によって交絡変数の影響を取り除こうとする人。 そういう人にとっては,統計解析でデータをごまかすことは本質的ではない。 料理でいうな…

女性の方が英語ができるって話を聞いた時に専門家の端くれとして返すべき一言

巷にあふれるこんな話。 「女性の方がそもそもコミュニケーションが好きだから外国語もできる」(コミュニケーション意欲万能説) 「大体子どもを見ていると女の子のほうが発達がはやいよ。だから外国語もそうだ」(母語獲得投影説) 「英語は女性をエンパワ…

外国語教育におけるアクセシビリティ関係の研究

今年の全国英語教育学会でアクセシビリティに関する研究が複数あるようだ。(勉強させてもらいにいきます) 学会運営側も,発表枠(分野)に「特支」という用語を振ったようだ。 自分自身も長いこと気になっているテーマなので,今後このような研究が増える…

因子得点の計算方法っていろいろある

因子分析した後にそれぞれの因子についてその因子得点を求めるとき,実は因子得点にはいろいろな計算方法がある,っていうことが結構見逃されている気がする。 Rだったら,一番メジャーなのは,psychパッケージのfa関数。 これでやったあとにfactor.scores関…

validityって掲載寄与力?

外国語教育研究では,たまに妥当性を, 科学的コミュニティにおいてある変数の質やある実験手順が広く受けいられている度合い 科学的コミュニティが共有している変数の質に対する信念の度合い 一般に「妥当性についての証拠とされる観測」が過去に示された程…

還元主義者が陥ること2題

還元主義一般の話 自分は強烈な還元主義者だと思うのだけど,還元主義の限界は日頃から意識しているつもり。むしろ,意味のなかった還元などについては,一段階前に戻そうと思う時も最近は多くなった。 還元(reduction)とは,たとえば「Aとは結局のところC…

質的成果指標に関する後ろ向き研究:相対危険度とその信頼区間

ある質的な成果指標(ある試験の合格・不合格)がある。テストが終わったあとに,合格した人と不合格だった人に,どの教科書(A,B)を使っていたかそれぞれ聞く。すると以下のようなクロス集計が得られる。このとき,使用した教科書と合格・不合格の関係を…

「おい,海外でなんかNHSTとかいう科学的なことやっているぞ!」

1960年代「地方も含めて全国の国立大学で教員養成しろだって。とりあえず体裁もあるから俺たちの研究は学問ってことにしよう,急げ急げ」 1960年代末~1970年代前半「よし,とりあえず関係者で集まって組織を作って学会にしよう」 1970年代半ば「英語教育学…

diffIRT:Diffusion IRTモデルのRパッケージ

たまには真面目なことを記事にしよう。ここ1年くらい夢中になっているDiffusion Modelの話。 Diffusion Modelっていうのは,2値判断課題における正答率と反応時間の分布を<同時に扱う>数理的モデル。「信号検出理論(SDT)に反応時間を足したようなもの」…