草薙の研究ログ

英語の先生をやってます。

オンラインでできるPOS Tagger

なんか最近こういうのやたら多いね。POSってはpart of speech。品詞のこと。

ウェブブラウザでテキスト投げてやればPOSをタグして返してくれるっていうお手軽サービス。

 

1. Parts-of-speech.Info - POS tagging online

2. NLTK POS Tagging - API & Demo | Text Analysis Online | TextAnalysis

3. Stanford Parser

4. https://cogcomp.cs.illinois.edu/page/demo_view/POS

5. Free English Part-of-Speech Tagging Service

6.  LX-Center

7. CST's online-værktøjer

手法上の利点とノウハウの違い

手法上の利点,または手法的に優れている(methodologically sound)手法というのは,基本的に適用する対象と独立してその有用性が与えられるものだ。だから,「手法上の」(methodologically)という言葉をつける。

これは主に数理的な,または技術的な意味で従来のものを包含してしまうか(俗にいう一般化された),または明らかにその手法自体のアフォーダンスに当たる要素について,客観的で,もはや自明ともいえるような評価が与えられるものに限る。

私は1980年代の生まれなので,ビデオデッキもしっているし,その規格争いについても知っている。そして新しいDVD規格,そしてBlueray規格もしっている。おそらく,これら新しいもの(記録方法など)は古いものに比べて手法的に優れている。保存できる情報量とか,そういう数値でそれが評価できる。

でも,大事なことは,我々がしばしば道具や手法のよしあしを議論するときに,「適用する対象と独立しているか」について見逃してしまうことだ。

「昭和のアダルトビデオを見るのはやはり擦り切れてフィルム焼けしたビデオに限るな,ブルーレイや動画配信なんて好きじゃない。これは俺の青春だ」っていうちょっと気持ちの悪いおっさんがどこか広島あたりにいてもいいし,スマフォよりもガラケーの方が好きなひともいていいし,誰が竹枕で寝てもいいし。…ああ,そうですか,となる。たいていの人は。

…これはノウハウだ。手法的に(技術的に)ブルーレイがビデオよりも優れているとか,そういうのとはちょっと関係の薄いことだ。

 

私の分野,外国語教育研究は計量的な分析について非常に後進的だが,「手法Aより手法Bの方がいい」みたいな話でいっぱいだ。結構なことだ。

でも,「手法的に優れている」ことを主張するためには,あくまでも「その手法を応用する対象」とは独立して,客観的な方法で示したらいい。たとえば統計モデルでは,従来のモデルを新しいモデルが含んでいることを数理的に説明できたらいい。

でも一方のノウハウは,ある対象における文脈の中の話だ。

 

分散分析より重回帰がいいというと話をよく聞く。大概のひとは耳だこだ。最近も聞いた。手法上の利点の話をすれば,正直どっちもあまり変わらない。成立過程を問わなければ,どちらも一般線形モデルの仲間と捉えられるし,一般線形モデルは一般化線形モデルへ一般化された。混合モデルをこれに適用できるようになったし,もはやMCMCなどの数値解析法に頼れば,従属変数,独立変数,階層レベルでの母数の分布,そういったものはとても自由にモデリングできるようになった。こういった発達を考えれば,手法上そんなに差はない。それに分散分析や重回帰は構造方程式モデリングで代用できるし。

手法上のことをいえば,典型的な分散分析は,独立変数がカテゴリカルで,典型的な重回帰よりも独立変数の数が少ない。…手法上の観点でいえば,でも,まあそれくらいだ。

 

この話の問題はノウハウに当たることだろう。

独立変数の尺度水準は,単純に研究対象による。

実験を計画し,条件を割り当てたりしたとき,その尺度水準がカテゴリカルなのは自明であるし,場合によってはカテゴリカルな尺度水準の方が理論上望ましい,または理論上それらしい時もある。観測変数とその背後にある変数のそれぞれの水準は,基本的には理論または必要性に関する議論から得られるべきだ。

また,独立変数の数についても,ランダムサンプリングができており,割り当てた水準との交絡が無い限り,従属変数に対する交絡変数の影響は無視できる。そういった時に無駄に変数を増やすことは研究計画の一貫性を著しく下げる。

もっと簡単にいうと,統計モデルを選択するときに,ある研究においてそれが分散分析モデルに帰着したからといって,それがなんだというんだろう。

こういったある目的下における親和性などを無視して,さも手法上の利点であるかのようにある手法をアピールすることは違う。そしてある具体的な状況下・目的を踏まえないノウハウなんてもはやなに。

 

統計の手法はより制約が自由に,そして理論的見地からモデルがより導出しやすく,そしてよりユーザーフレンドリーになる方法で発達していく。しかしその中で,例えばその古い方法の制約が満たされて,十分に理論的見地よりそれで検証できることが明白ならば,別に新しい手法使わなくていいんじゃない。そういうノウハウも重要でしょう。手法が自由になる,というのはそういうことでしょう。

新しい手法,新しい手法というようにとらわれるのも,もはや1つの理解不足だな,というように自分にも常々言い聞かせたいものだ。

 

もちろん,ある場合によって重回帰の方が断然いいだろうというノウハウには大いに賛同だ。そしてこれはもっとも議論する余地のないところだと思う。

名古屋で討論型ワークショップやります!

12/17の名古屋,外国語教育メディア学会中部支部外国語教育基礎研究部会第4回年次例会で討論型ワークショップやります!

このワークショップは,(私の得てしてくだらない話題提供のあと)基本的に参加者同士でグループを組んでもらい,想いの丈を共有し合うという企画です。

内容は研究のメタ的な部分についてです。

研究方法論のあり方や自分の今後の方向性などについて大いに語り合いましょう!

 

www.letchubu.net

ベイズ因子をやりたいんだけどRは敷居が高いっていうときの無料統計ソフト:JASP

オランダのWagenmakers先生たちのチームがJASPっていう統計ソフトを開発している。(結構前から)無料で公開中。

 

JASP | A Fresh Way to Do Statistics

https://jasp-stats.org/wp-content/uploads/2016/10/DISCOVER_JASP.pdf

 

まだ開発途中感があるけど,すでに高度でおしゃれなユーザーインターフェースを備えていて,ベイズ因子にかぎらず,さまざまな分析ができる。

目玉は(おそらくRouderら提案の仕様による)ベイズ因子関係がかなりお手軽にできることね。古典的な,たとえばt検定,回帰分析,ANOVA,あとカテゴリカルデータ分析の互換にあたるようなベイズ因子が実装されている。

すごくいい感じ。

チュートリアル動画もあるので丁寧。

 

(微妙に今更感)

 

 

新世代翻訳技術を援用した豊かな人間性を育む英語教育実践

google翻訳すごい。

おそらく10年もしないうちにこういう授業実践が見られるようになるかも。

 

10年後,新しい能力,より汎用的な能力,就業力,コミュニケーション能力,批判的思考力といった概念が,教育上の成果や目的変数として今以上に重要とされるようになっていて,そしてgoogle翻訳といった無料翻訳サービスの精度は今よりもずっと上がっている。学力観の拡張,そして情報化社会といったいつもの流れだ。

そのときには,もはや,たとえば「英字新聞を読む」ために必要な英語の語彙知識や文法知識,構文の知識,新聞の文体の知識よりも,相対的に,英字新聞にアクセスする力,アクセスしようとする態度,そして英字新聞の内容に関する批判的な見方,避けては通れない各新聞社のポリティカルポジションを読む力,そしてその背景,そういったことに関する能力が重要とされているはず。あくまでも,今より相対的にという程度で。

そして多言語翻訳に関する技術の進歩は,個別言語として英語にこだわる理由も薄れさせる。つまり,もはや,英字新聞である意味は今よりは薄い。あくまでも,相対的に。

 

そしたら,きっとこんな授業実践が行われるはずだ。

 

教師は,ある国際的な社会問題のインターネット記事を生徒に見せて,生徒はそれをまず翻訳を使うなりして読む。で,教師は,その国際的な社会問題において利害関係のある別の国の,同じ社会問題に関するその国の言語で書かれた記事も見せる(これも多言語翻訳で読む)。そこでこう発問する。「それぞれの国では,問題の扱い方が大きく違いますね。どこが違うのでしょうか」。学生はそれを聞いてグループワーク形式で違いを見つけ,各グループ発表する。で,「どうしてこのような差が生まれるのでしょうか,他の国ではどうでしょうか,同じ国でも論調の違いがあります,これはどうしてでしょうか」といった次の発問。

で,最終的に生徒のグループは,同じ社会問題における国ごと,新聞社ごとの記事の扱いを比較・整理して,何か抽象的なパターンや必然性を見つけ,それをプレゼンし合う。その後,プレゼン後に大いにディベートしてオープエンド。

 

みたいな。きっとこんな授業実践が目を引くはずだ。

 

そしてその時,これに反して一部の間で「生の英語力」,「オーセンティックな知識」,「個別言語への愛着」,「地のちから」といった言葉も流行っているはずだ。

 

きっとその時の生徒は,私達が「昔,新聞では冠詞が省略されたり,独自の時制や倒置の表現が多くて,一生懸命覚えたもんだったよ」といったら,今私達世代が上の世代から「昔はひたすら筆記体を書くことを授業でやらせていたもんじゃ」という話を聞いたときの,まさにその顔を今度は私達に向けるに違いない。

 

…なんて日が,本当にくるのか,こないのかwww

 

対数変換したあとの値の記述統計を報告?vs.対数変換する前の値の記述統計を報告?

外国語教育研究では強く歪んだ分布をもつ連続型確率変数を扱うときがある。
学習時間,ある変数上でのテスト成績,心理学的な実験における反応時間,読解時間などがそう。

場合によっては,これを正規分布にしたがう確率変数にすることを目的に対数変換するときがある。反応時間などでは底を10としたり,2としたりするときがあるけど,まあよほど値が大きくならないスケールなら自然対数の底(ネイピア数)でいいんじゃないかな。

で,このとき,論文で平均を報告したいとする。そこで,対数変換をしたあとの値の平均値で報告するべきか,対数変換をする前の値で報告するべきか?という疑問が湧く。


…一般に,両方を報告するべきとされている。これはなんでだろう?


というのも,対数変換は戻せる。

たとえば,ガンマ分布からこんな変数が得られたとして,

mae<-rgamma(500,3,1/1000)
hist(mae)

これをこんな感じで対数変換するんじゃ。

ato<-log(mae)
hist(ato)

これはこうやったら元の変数に完璧に戻せる。

modoshi<-exp(1)^ato
hist(modoshi)

なら,別にどっちで報告しても同じじゃないか?って思っちゃう。

しかし,当たり前だけど平均値を対数変換した値と対数変換した後の平均値は同じ値じゃない。

log(mean(mae))
mean(log(mae))

さらに当たり前だけど,ネイピア数^対数変換した後の平均値は,対数変換する前の平均値と同じ値じゃない。

mean(mae)
exp(1)^(mean(ato))

当たり前だけど。

だから,報告された片方の平均値から,もう片方の平均値を計算することはこの情報だけでは不可能。やっぱ両方報告した方がいい。



ただし,中央値などの分位点は一致する(丸め誤差などを除けば)。

quantile(mae)
quantile(ato)

log(quantile(mae))

なので,分位点で報告する場合,別に変換前,変換後の両方の値を報告しなくてもいい。読み手が得られる情報だといえる。