読者です 読者をやめる 読者になる 読者になる

草薙の研究ログ

英語教育関係。でも最近は統計(特にR)ネタが中心。

コストをより要する英語学習法や英語教材がより高い効果を示すさまざまな理由

正確にはいつ頃だったでしょうかね,少なくても昭和中期頃からは一般的に広く認識されていることのように記憶していますが,英語教材詐欺といわれるような一見法外な値の教材を売るビジネスがあります。おそらく,これは現在もまったくないというわけではあ…

平均への回帰をわかりやすく例える

なんか平均への回帰ってことばはよく知られているものの,外国語教育研究界隈では,ときに難しいとされていて,そして研究実践においてもものすごく大事なことなのにあんまり重要視されていない気がする。まあ確かに,頑張って教科書読んでも,「相関係数が1…

Rで混同行列から感度・特異度などの指標

例えば,何かの指標なりモデルを用いて, 二値的に何かの状態がある(陽性)かない(陰性)かを検査する方法を作るとする。 そのパフォーマンスは以下のような真の状態と検査結果の混同行列を見るとわかる。この場合の混同行列は, 真の状態が陽性 真の状態…

ゼロ過剰ポアソン分布をデータにフィットさせる

ゼロ過剰ポアソン分布では2つのプロセスが考えられている。まず,最初に0の確率がσである二項分布で,値が0でないときのカウントデータがμに従うという。統計モデリングにおいて「ゼロが多いときに使うといい」とはよく聞くものの,厳密にいえば,このような…

授業や研究発表をWeb-based slideshowでやるべき6つの理由

その理由はこちらから! web-based slideshow

わーい!どんなときでも有意差を見つけられるフレンズなんだね!

「思ったように有意差が出なかったんですけどなにかこのデータから言えることはありませんか?」 「どんなデザインですか?」 「処置群・統制群,事前・事後,成果変数は1です」 「そうですね…まずは処置群を恣意的に何パターンかに分割してみましょう!そう…

モデルの中で何が捨象できるかを語らない科学

数理モデルというものは,その記述の仕方の形式性の割には,数理モデルということばに親しみを感じないほとんどのひとが思うより,本来結果主義的で効用主義的なものだ。 モデルは,もちろん現象それ自体ではないし,その現象を大幅に捨象していて,しかしそ…

Rで日付データの処理

自分用のメモ。 #日付クラスへ変換 d<-"2016-1-1" d2<-as.Date(d) class(d2) #日付データの足し引き(日付クラスだとこれができるようになるのが最高) d2-1 d2+1 d2-1000 d2+1000 #基準日から1日毎にログイン回数を累積計算 #datは時間とログイン回数のデー…

一般化パレート分布をデータに当てはめる

一般化パレート分布は所得の分布などに使われるそうだ。 外国語教育研究でもこういった分布になる変数を私はひとつだけ知っている(いわないwww)。Rにいろいろあると思うけど,ここではactuarパッケージとfitdistrplusパッケージを使う。 actuarパッケージ…

MCMCを使って正規指数合成分布の母数を推定

RのMCMCpackにはMCMCmetrop1Rっていう関数があって,これは任意(自作)の対数尤度の関数をいれてMCMCでサンプリングすることができる。なので,結構手軽にMCMCを使ってデータに好きな分布を当てはめることが可能。ここでは(まったくそんなことはしなくても…

非線形最小二乗法で学習コンテンツ消化曲線をモデル化

まあ結構いろんなことに汎用的に当てはまることだと思うのだけど,ソフトウェアの品質管理とかの分野では,ソフトウェア信頼度成長曲線という手法があるそうだ(古い友人に教えてもらった)。これは,ソフトウェア開発において,バグの発見数や残ったバグの…

混合正規指数合成分布モデル(?)を最尤法で…

聞いたこともないけど,要素数2の混合正規指数合成分布(ex-Gaussian)モデルというのを考えてみる。ま,2つの異なる認知プロセスが混合したときの反応時間の分布だとか,そんなそれっぽいことを考えてみる。そんなものは多分ない。ま,でもこの確率密度関数…

当てはめた分布と推定した母数から平均,分散,歪度,尖度をもとめる

なんかある論文で,分布が強く歪んでいることが理論的に明白だった変数に,ガンマ分布か対数正規分布かなにかを当てはめて,その推定母数と適合度指標のみを(きつい紙幅の関係もあって)報告したときに,「標本の記述統計を報告しないとはけしからん」とい…

混合ガンマ分布モデルをデータにフィットさせる

Rのmixtoolsパッケージでは,混合ガンマ分布モデルもデータへフィットさせることができる。 #λ= .25,.75,α - 4, 10,β= 1, .2が正解 set.seed(0) dat<-c(rgamma(100,4,1),rgamma(300,10,.2)) hist(dat,breaks=20, main="",col="lightblue") model<-gammamix…

単変量混合正規分布モデルをデータにフィットさせる

外国語教育研究では2つの山とか3つの山とかの分布になっているのを見ることがある。こういうときは,混合分布モデルをデータにフィットさせるといいかもだ。Rではmclustもいいけど,mixtoolsというパッケージがある。 #準備 library(mixtools) #数値例の作成…

任意の累積分布関数を仮定した一標本コルモゴロフ・スミルノフ検定

#正規分布の場合 set.seed(0) dat<-rnorm(100,0,1) ks.test(dat,"pnorm") #特定の平均と標準偏差をもつ正規分布 set.seed(0) dat<-rnorm(100,0,1) ks.test(dat,"pnorm",1,1) #ガンマ分布 set.seed(0) dat<-rgamma(100,2,3) ks.test(dat,"pgamma",2,3) #ワイ…

自分で用意した分布をデータへフィットさせる

fitdistrplusパッケージのfitdist関数は,dnorm, pnormのように,dとpの関数が定義されていればどんなものでも指定することができる。自作でもいいってこと。ま,でも殆どの場合,自分程度が思いつくような分布はすでに用意されているってのがR。たとえば,…

単変量の分布母数の推定からあれこれ:fitdistrplusパッケージが便利

ある確率分布を手持ちの単変量データに当てはめ,その母数を最尤推定するという方法があって,Rでは通常MASSパッケージのfitdistr関数を使うのがお手軽なんだけど,fitdistrplusという便利なパッケージが出ていてこれがとてもいいかも。ま,結局はoptimにか…

最尤推定した母数のもとでの確率密度曲線をヒストグラムに描き足す

えっと,リクエストがあったのでここに書く。(SPSSならそれっぽい曲線もつけてくれるのにRはそんなこともできないのか?といわれた)まずはこんなデータがあるとしよう。形状母数が3,尺度母数1のガンマ分布にしたがう300個。 set.seed(0) dat<-rgamma(300,…

負の二項分布に関する2つのパラメーター化の方法

負の二項分布(negative binomial distribution)は,(a)その母数を成功回数(ないしサイズ母数)rと,成功確率pとする場合(こっちに親しみ)と,(b)サイズ母数rと平均μとするときの二種類があるんだそうだ。パラメーター化の方法が違うってのは,ガン…

野良観測変数?

なんていうんだろ,それが何を測るかは一切分かっていないけど,その変数の利活用を暗に強いられているような変数。 オンライン学習履歴データとかがまさにそうだ。オンライン教材のログイン時間とか。これは何か測定を目指す構成概念がこのデータに先んじて…

オンラインでできるPOS Tagger

なんか最近こういうのやたら多いね。POSってはpart of speech。品詞のこと。 ウェブブラウザでテキスト投げてやればPOSをタグして返してくれるっていうお手軽サービス。 1. Parts-of-speech.Info - POS tagging online 2. NLTK POS Tagging - API & Demo | T…

分散共分散行列を相関係数行列に変換するR関数

自分で関数書けばいいってのもごもっともだし,他にも色々あるんだけど,bayesmパッケージにnmatっていう関数がある。 vcovm<-matrix(c(3,2,2,3),2,2) cm<-nmat(vcovm) matrix(cm,2,2)

手法上の利点とノウハウの違い

手法上の利点,または手法的に優れている(methodologically sound)手法というのは,基本的に適用する対象と独立してその有用性が与えられるものだ。だから,「手法上の」(methodologically)という言葉をつける。 これは主に数理的な,または技術的な意味…

名古屋で討論型ワークショップやります!

12/17の名古屋,外国語教育メディア学会中部支部外国語教育基礎研究部会第4回年次例会で討論型ワークショップやります! このワークショップは,(私の得てしてくだらない話題提供のあと)基本的に参加者同士でグループを組んでもらい,想いの丈を共有し合う…

ベイズ因子をやりたいんだけどRは敷居が高いっていうときの無料統計ソフト:JASP

オランダのWagenmakers先生たちのチームがJASPっていう統計ソフトを開発している。(結構前から)無料で公開中。 JASP | A Fresh Way to Do Statistics https://jasp-stats.org/wp-content/uploads/2016/10/DISCOVER_JASP.pdf まだ開発途中感があるけど,す…

新世代翻訳技術を援用した豊かな人間性を育む英語教育実践

google翻訳すごい。 おそらく10年もしないうちにこういう授業実践が見られるようになるかも。 10年後,新しい能力,より汎用的な能力,就業力,コミュニケーション能力,批判的思考力といった概念が,教育上の成果や目的変数として今以上に重要とされるよう…

対数変換したあとの値の記述統計を報告?vs.対数変換する前の値の記述統計を報告?

外国語教育研究では強く歪んだ分布をもつ連続型確率変数を扱うときがある。 学習時間,ある変数上でのテスト成績,心理学的な実験における反応時間,読解時間などがそう。場合によっては,これを正規分布にしたがう確率変数にすることを目的に対数変換すると…

本当は効果が全くないときに標本の効果量が任意の値以上を超える確率

変な話だけど,研究者にとって,実験をして得る標本効果量の期待値を最大化する方法はないけど,標本効果量が任意の値x以上を取る確率を最大化する最も合理的な方法はある。標本サイズを小さくすること。母標準化平均差が0であるとき,たとえば,4人対4人と…

クラスタリングあれこれ

local shirnkingに基づくクラスタリングっていう手法があるんだって。http://math.yorku.ca/~stevenw/pub/sw14.pdfこれをやるRパッケージもある。https://cran.r-project.org/web/packages/clues/clues.pdf まあ,よさそう。このパッケージ面白くて,面白い…

R連携アプリ開発関係メモ(1):Rscriptでbat実行するときに,コマンドプロンプトを表示しない簡単な方法はVBScript

美しいリレーの話。 まずはRのスクリプトファイル(.r)を用意する(a.rとする)。 それでこのスクリプトファイルをRscriptで実行するバッチファイル(b.bat)を用意する。 このバッチファイルを実行するVBScript(c.vbs)を用意する。 vbsは,コマンドプロ…

頻度主義的・ベイジアン標本サイズ決定

概論的にはこの論文がいいかも。 Adcock, C. J. (1997). Sample size determination: a review. Journal of the Royal Statistical Society: Series D (The Statistician), 46(2), 261-283. 実験する前に,適切な標本サイズを決定しましょう,というそういう…

そのメタ分析なんだかな

そういう論文ってどれだけの数あるかわからないのだけど,こんなメタ分析があるって考える。 (潜在変数としての)英語の力と(同じく潜在変数としての)国語(母語?)の力の関係をメタ分析でもとめる,という話にしよう。基本的に,英語の力(の推定値)は…

ジョンソンのSU分布

ジョンソンの分布っていうのは,こんな感じ。PDFとかCDFとか。Johnson's SU-distribution - Wikipedia, the free encyclopedia この分布は4パラミターある。 γ δ ξ λ このように贅沢な関数なので,やはり表現力は高い。 Rでは,SuppDistsパッケージなどでこ…

正答率がチャンスレート以上か調べるベイズ因子

ある被験者になんかの判断課題,32試行やってもらったとしよう。正答数は18個。なので正答率は18/32 = .56くらい。この人の判断は,チンパンジー(チャンスレート)より優れているとどれくらいいえるのだろうか。ベイズ因子で考える。まずは,普通に母比率の…

(量的)進歩主義と(質的)回帰主義

(最近バカのひとつ覚えの要領で話すネタ) (今年のCELESのワークショップ,LETのシンポ,全国英語教育学会のワークショップにお越しいただいた方,駄弁にお付き合いいただき,ありがとうございました) 1990年代前後から英語教育研究は欧米で流行していた…

2変量正規分布の片方の変数を平均でぶった切ってもう片方の変数の値の平均差を検討する?

これ,どうやってご説明差し上げたらいいか迷ってたけど,説明用のグラフ用意した。 当たり前だけど相関係数と密接な関係がある(なのであまり操作としてよくない) 相関が十分に高いとき,それぞれ分割した変数の方は当然正規性が満たされなくなる(←これが…

学会でスライドをカメラでパシャパシャ問題

この前,猛暑の東京で学会があった。盛会でなによりでした。 ところで,この学会を通じて,参加者の先生方にはあることがお心に残られたと思う。 講演,シンポジウム,発表中にスライドを逐一撮影することはどうなのか,ということ。 確かにすごい頻度で目に…

観測と解析どっちが大事かという話

観測が大事だというひと。 実験手法,実験方法,実験計画の精密さ,脅威要因を「事前に工夫して」排除する人,実験操作によって交絡変数の影響を取り除こうとする人。 そういう人にとっては,統計解析でデータをごまかすことは本質的ではない。 料理でいうな…

女性の方が英語ができるって話を聞いた時に専門家の端くれとして返すべき一言

巷にあふれるこんな話。 「女性の方がそもそもコミュニケーションが好きだから外国語もできる」(コミュニケーション意欲万能説) 「大体子どもを見ていると女の子のほうが発達がはやいよ。だから外国語もそうだ」(母語獲得投影説) 「英語は女性をエンパワ…

外国語教育におけるアクセシビリティ関係の研究

今年の全国英語教育学会でアクセシビリティに関する研究が複数あるようだ。(勉強させてもらいにいきます) 学会運営側も,発表枠(分野)に「特支」という用語を振ったようだ。 自分自身も長いこと気になっているテーマなので,今後このような研究が増える…

因子得点の計算方法っていろいろある

因子分析した後にそれぞれの因子についてその因子得点を求めるとき,実は因子得点にはいろいろな計算方法がある,っていうことが結構見逃されている気がする。 Rだったら,一番メジャーなのは,psychパッケージのfa関数。 これでやったあとにfactor.scores関…

validityって掲載寄与力?

外国語教育研究では,たまに妥当性を, 科学的コミュニティにおいてある変数の質やある実験手順が広く受けいられている度合い 科学的コミュニティが共有している変数の質に対する信念の度合い 一般に「妥当性についての証拠とされる観測」が過去に示された程…

還元主義者が陥ること2題

還元主義一般の話 自分は強烈な還元主義者だと思うのだけど,還元主義の限界は日頃から意識しているつもり。むしろ,意味のなかった還元などについては,一段階前に戻そうと思う時も最近は多くなった。 還元(reduction)とは,たとえば「Aとは結局のところC…

質的成果指標に関する後ろ向き研究:相対危険度とその信頼区間

ある質的な成果指標(ある試験の合格・不合格)がある。テストが終わったあとに,合格した人と不合格だった人に,どの教科書(A,B)を使っていたかそれぞれ聞く。すると以下のようなクロス集計が得られる。このとき,使用した教科書と合格・不合格の関係を…

「おい,海外でなんかNHSTとかいう科学的なことやっているぞ!」

1960年代「地方も含めて全国の国立大学で教員養成しろだって。とりあえず体裁もあるから俺たちの研究は学問ってことにしよう,急げ急げ」 1960年代末~1970年代前半「よし,とりあえず関係者で集まって組織を作って学会にしよう」 1970年代半ば「英語教育学…

diffIRT:Diffusion IRTモデルのRパッケージ

たまには真面目なことを記事にしよう。ここ1年くらい夢中になっているDiffusion Modelの話。 Diffusion Modelっていうのは,2値判断課題における正答率と反応時間の分布を<同時に扱う>数理的モデル。「信号検出理論(SDT)に反応時間を足したようなもの」…

ちゃんと勉強してこなかったせいで死ぬほど後悔しているもの

年を取るとやっぱり勉強できなくなる。 業務上必要なのに,自分が怠けて勉強しなかったばっかりに結局はできないままのことも多い。これまで自分がどれだけサボってきたかという,悔しくて仕方ないもの。若いときの過ごし方ってのはやはり大事だと思う。以下…

学習時間の和もガンマ分布って話とか

学習時間(もとい,ICT教材などへのログイン時間)は往々にしてガンマ分布やワイブル分布やその他の親族の分布に従う。もう,これは外国語教育研究の定番でいいんじゃないかと。まあ,記述的には最尤推定して形状母数や尺度母数と対数尤度,AIC,BICなどを報…

層別データの可視化:plot関数が思ったより賢い件

何故か知らんかった。plot関数って思ったより賢い。(いや,plot関数が賢いのは昔から当たり前なんだけど)ひとつのグループ化変数とひとつの連続量を入れたデータフレームがあるとする。こんなふうにして作ろう。 group<-c(rep("a",25),rep("b",25)) score<…