草薙の研究ログ

英語の先生をやってます。

青い目の人形の現存率

青い目の人形

 青い目の人形ってのは,1927年に日米友好のために,アメリカから日本に送られた人形のこと。当時の日米間は緊張状態にあった。日本人の移民がアメリカでの職を奪っている,という見方の下で,日系人排斥の機運が高まっていた。いわゆる黄禍論みたいな。それで,「こんな時代だけど,むしろこんな時代だからこそ仲良くすべきだ」っていうような話になった。

で,奥ゆかしいことに「仲良しのしるしなら人形だろ」ってことで,莫大な数のアメリカン・ドールを日本中に配ったわけ。それらの殆どは地方の小学校とか教育施設などに。

わーい。アメリカから青い目の人形が送られてきたぞ。


ja.wikipedia.org


 …この話,小さいときから個人的に何百回も聞かされたものだ。それだけでなく,当時送られたという実際のアメリカン・ドールを何度も何度もこの目で見たことがある。というのも,この青い目の人形,たまたま私が通学していた小学校に現存していた。私が対面したドールには名前があって,「ミミー」といった。ミミーちゃんの顔はこちらのサイトから確認できる。そうだ,ミミーだよ。ミミー。Long time no see!


www.cec.or.jp

現存率

 ちょうど今年で93年も経ったし,この青い目の人形の所在の多くはわからなくなってしまっているそう。そういや,この若くてピッチピチの私が見たのも25年くらい前の話だもんな。先週,東京のホテルで寂しく年越しをしていたら,酒の勢いかなにかの謎の作用で,なぜかこの青い目の人形の話を不意に思い出した。その後も夢に出てきてくれた。「不意に思い出す」ってのは予想も納得もいかないのがポイントだけど,あまりにも不意だよなあ。そういや,青い目の人形ってなんだったんだろう?ついに化けて出たのか?そもそもどれくらい現存しているんだろう?

ま,でも気になって調べてみたら,先述のWikipediaにとてもすばらしくまとめられていた。以下の表はWikipediaの転記(だから信憑性もWikipediaに準ずるだけでなく私の転記ミスの可能性もある)。

都道府県 寄贈数 現存数 現存率
北海道 643 26 .040
青森県 220 10 .045
岩手県 263 18 .068
宮城県 231 10 .043
秋田県 190 12 .063
山形県 205 12 .059
福島県 323 17 .053
茨城県 246 11 .045
栃木県 213 5 .023
群馬県 142 19 .134
埼玉県 178 12 .067
千葉県 214 11 .051
東京都 568 11 .019
神奈川県 166 12 .072
新潟県 418 12 .029
富山県 150 6 .040
石川県 205 3 .015
福井県 152 1 .007
山梨県 129 5 .039
長野県 286 28 .098
岐阜県 235 2 .009
静岡県 253 7 .028
愛知県 349 9 .026
三重県 194 9 .046
滋賀県 135 4 .030
京都府 262 8 .031
大阪府 429 4 .009
兵庫県 373 11 .029
奈良県 144 5 .035
和歌山県 177 1 .006
鳥取県 107 3 .028
島根県 182 2 .011
岡山県 238 3 .013
広島県 326 5 .015
山口県 200 5 .025
徳島県 152 1 .007
香川県 108 1 .009
愛媛県 214 6 .028
高知県 187 1 .005
福岡県 259 3 .012
佐賀県 98 1 .010
長崎県 214 2 .009
熊本県 241 2 .008
大分県 182 4 .022
宮崎県 131 1 .008
鹿児島県 209 0 .000
沖縄県 63 0 .000


とにかくデータが出たら見せてみろ,っていう世の中の圧力なので,都道府県別の現存率を地図で塗り分けるとこう。



f:id:kusanagik:20200105164520p:plain
都道府県別の現存率

全体としては,約3.16%ということね。このデータに二項分布を仮定してベイズ推定すると,確率pの事後分布はこんな感じ。

f:id:kusanagik:20200105165700p:plain
現存率の事後分布の感じ


そうか。そうだよな。3%くらいしか残されていないのね。

都道府県別の確率の分布

 全体としては3%くらいだけど,都道府県によってはばらつきはあるね。じゃ,これをベータ二項モデルで考える。ベータ二項モデルによると,現存は都道府県iに固有な確率ipによって出てきてて,このipが47都道府県毎にベータ分布に従っている,とまあそう考える。で,適当にStanしたらできたので,事後期待値から見ておそらくこんなベータ分布の感じ。

f:id:kusanagik:20200105170343p:plain
予測されたベータ分布の概観


実測値の現存率のヒストグラムにこれを描き足すと,こう。

f:id:kusanagik:20200105171454p:plain
現存率のヒストグラムとベータ分布

ま,多くて10%は残っているところもあるといった感じか。
90年も経てば,国際親善に来た青い目の人形も97%はその役目を終えるのね。

電子板書はCalmly Writerで

授業をする際に,電子的にその場で板書したりすることを個人的に電子板書と呼んでいる。emacsAtomといった適当なエディタを開いてやることも多いけど,何分学生にとっては見にくい。

最近Calmly Writerという無料のWebAppを知った。これ本当に素晴らしい。

https://www.calmlywriter.com/

 

好きなところは

  • Markdown言語をサポートしているところ
  • Markdownをリアルタイムで表示できるところ
  • UIが非常にシンプル
  • ダークモードにトグルできる
  • フルスクリーンモードにトグルできる
  • ファイルはGoogle Driveと連携できる
  • キーボードショートカットが多い

素晴らしい。電子板書で求める要件のすべてを満たしている

 

関係の数と三角数

2人いれば,2人の関係は1つ。3人いれば3つの関係。4人いれば6個の関係,5人いれば10の関係がある。
総当たり戦の数もいっしょ。2人いれば1試合,3人いれば3試合,4人いれば6試合,5人いれば10試合だ。
これを数列だと考えると,

 0, 0, 1, 3, 6, 10, 15 ....

という見たことあるような数列。今週奇しくも2回出会った。
これは,三角数に似ている。三角数は,

 0, 1, 3, 6, 10, 15, 21...

だから,三角数より一個ずれているみたい。三角数 T_nとすると, T_n = \frac {n(n+1)} {2}なので,この数列(を a_nとすると)は, a_n = \frac {n(n-1)}{2}ということ。もっとわかりやすくすると, T_n = a_{n+1}というかんじ。

入試問題などにも出るみたい。階差数列の単純な問題として。

関係の数,というとなんか曖昧なんだけど,グラフ理論を考えると視覚的にわかりやすい。無向グラフ G = (V, E)があって,Vの要素数nのとき,このグラフが完全グラフになるEの要素数がこの数列。

f:id:kusanagik:20190526110152p:plain

三角数との関係は,完全グラフの隣接行列を考えるとピンとくる。三角数の定義通り,辺の中にある点が同じ正方形になっていて,その和がエッジ数であることがわかるし,増えていく列の中にある1の数が n-1になってることから,階差数列であることもわかる。

 |A_2| = \left|
    \begin{array}{cc}
      0 & 1\\
      1 &  0\\
    \end{array}   \right|

 |A_3| = \left|
    \begin{array}{ccc}
      0 & 1 &1\\
      1 & 0 &1\\
      1 & 1 &0\\
    \end{array}   \right|

 |A_4| = \left|
    \begin{array}{ccc}
      0 & 1 &1&1\\
      1 & 0 &1&1\\
      1 & 1 &0&1\\
      1 & 1 &1&0\\
    \end{array}   \right|

 |A_5| = \left|
    \begin{array}{ccc}
      0 & 1 &1&1&1\\
      1 & 0 &1&1&1\\
      1 & 1 &0&1&1\\
      1 & 1 &1&0&1\\
      1 & 1 &1&1&0\\
    \end{array}   \right|


これ,組み合わせと同じ。要素がn個ある集合から,要素を2個選ぶ組み合わせは, _n C_2なので,やはり, _n C_2 =  \frac {n(n-1)}{2}。一般に,三角数の方がメジャーなので, {}_nC_2 = T_{n-1}とするよう。

ちなみに三角数の方は,それこそ無数に色んなところに出てくる。パスカルの三角形の3列目にも出てくる。

オンライン整数辞典という素晴らしいサイトがあって,この数列のページももちろんある。

0, 0,1,3,6,10,15, 21 - OEIS

Rで微分

RにはDという関数があってこれで関数と微分する変数を入れたら導関数を返してくれる。

#簡単な公式の確認
D(expression(x^2),"x")
#2 * x
D(expression(x^3),"x")
#3 * x^2
D(expression(log(x)),"x")
#1/x
D(expression(sin(x)),"x")
#cos(x)
D(expression(cos(x)),"x")
#-sin(x)

最近導入したウェブアプリメモ

Stock

https://www.stock-app.jp/

Snipper.io

https://snipper.io/

  • コードエディタ(ブラウザ上で共同編集できる)

Overleaf

https://www.overleaf.com/

StackEdit

https://stackedit.io/

  • 高性能なMarkdownエディタ
  • 後述のMermaidを使ってUMLのグラフをかける

 Mermaid Live Editor

https://mermaidjs.github.io/mermaid-live-editor/#/edit/eyJjb2RlIjoiZ3JhcGggVERcbkFbQ2hyaXN0bWFzXSAtLT58R2V0IG1vbmV5fCBCKEdvIHNob3BwaW5nKVxuQiAtLT4gQ3tMZXQgbWUgdGhpbmt9XG5DIC0tPnxPbmV8IERbTGFwdG9wXVxuQyAtLT58VHdvfCBFW2lQaG9uZV1cbkMgLS0-fFRocmVlfCBGW2ZhOmZhLWNhciBDYXJdXG4iLCJtZXJtYWlkIjp7InRoZW1lIjoiZGVmYXVsdCJ9fQ

  • Mermaidを使ってUMLのグラフをかける 

 

ウィーナーのサイバネティックスの広い定義

ウィーナーの『サイバネティックス』を読むとやっぱなんか当時の北米の知的雰囲気があってワクワクする。こういう古典って読んでみるとやる気出るね。

特に,岩波文庫版の訳本(池原他訳)で,日本語版へのあとがきのところ…

 

…今日,わたしはそれをこう述べたいと思います。 われわれの状況に関する二つの変量があるものとして,その一方はわれわれには制御できないもの,他の一方は我々に調節できるものであるとしましょう。そのとき制御できない変数の過去から現在にいたるまでの値にもとづいて,調節できる変量の値を適当に定め,われわれに最もつごうのよい状況をもたらせたいと望みがもたれます。それを達成する方法がCyberneticsにほかならないのです。―『サイバネティックス』(岩波文庫版訳本, p. 5)

 

 これすばらしい。なんというかその包括性の大きさにやられる。こんな包括的なことをこんなに明確にいえるのかと。

そして自分がやりたいことは間違いなくこの範疇に入る。

 

マルチレベルのROC曲線

状況

  • 信号検出モデルのおはなし
  • ある信号の有無について多段階評定法(5段階)でデータを取る
  • 横軸にFA(率),縦軸にH(率)を描くとこうなる(ROC曲線)

f:id:kusanagik:20181121155648p:plain

  • このデータを100人について取るとする
  • もちろん,この曲線にも個人差がある

f:id:kusanagik:20181121155958p:plain

  • ところで,FA率,H率をz変換するとおよそ(大雑把にいって)線形回帰で近似できる
  • この線形回帰モデルの傾きが1に等しくなければ,等分散ガウス信号検出モデルの等分散の仮定が怪しい,そういう理屈

f:id:kusanagik:20181121160447p:plain

  • で,これを戻すとまあまあROC曲線に近似するというわけだ

f:id:kusanagik:20181121160728p:plain

  • しかし,これはあくまでもひとりのデータであって,これが100人分ある,と考えよう

ベイズでやろう

  • これは普通に変換したFA率を説明変数,変換したH率を応答変数,個人を変量効果と考えた線形混合効果モデルに帰着する
  • つまり,集団平均の傾きと切片があり,集団内の傾きと切片の分散共分散行列があると考える
  • Rのbrmsパッケージとかでちゃっちゃとやっちゃう

事後分布を見る

  • 基本的に,一番の興味はFAの傾きの母平均
  • ベイズ信用区間からみて,普通に1はなさそうだ(ベイズ因子とかやってもいいけど…)
  • なので,集団平均として見ると,等分散性は怪しそうだ

f:id:kusanagik:20181121161639p:plain

f:id:kusanagik:20181121161836p:plain

  • 0.04から0.20を考えればいいくらいみたいだ

集団平均と個々人の推定値からROC曲線を描いてみる

  • それぞれEAPを使って曲線を描くといいわけだ
  • こんな感じ

f:id:kusanagik:20181121162226p:plain

  • 弁別力が負に入るひともいるし,大体集団平均として等分散はないな,ってことがわかる
  • 次にここから正答率を計算できるわけだけど…って,まあいいや