草薙の研究ログ

英語の先生をやってます。

クラスタリングあれこれ

local shirnkingに基づくクラスタリングっていう手法があるんだって。

http://math.yorku.ca/~stevenw/pub/sw14.pdf

これをやるRパッケージもある。

https://cran.r-project.org/web/packages/clues/clues.pdf

まあ，よさそう。

このパッケージ面白くて，面白いデータセットがある。（まあよくあるタイプなんだけど）

Broken Ringっていうの。こういう2変量のデータ。

f:id:kusanagik:20160922193939p:plain

クラスタリングの精度を見たりするにはよさげなデータなんだけど，

人間の目に対してのわかりやすさに反して，よく見ると数字的には難しそうなデータよね。

各クラスターの距離とか，歪みとか，そういう分布の形が…

人間の目（人間のパターン認識能力）にはもちろん，問答無用にこう映る。

f:id:kusanagik:20160922194116p:plain

よほどのことがないと，人間間で分類に差はでないだろう。

5を指定したk-means法だと，

f:id:kusanagik:20160922194359p:plain

人間からしたらなんでそうなる？？？みたいな。

ちなみに，5を指定した混合分布モデルだと，

f:id:kusanagik:20160922194852p:plain

なんでそこだけ！！？？的な。

で，まあそのlocal shrinkingによるクラスタリングだと，完璧とかいう話なんだけど。

ううむ。

たとえばirisなら，

正直人間の目ではよくわからない。1クラス離れているのはわかる。

f:id:kusanagik:20160922194646p:plain

答えは，

f:id:kusanagik:20160922194705p:plain

こういう答えをみてから，やっと「俺にはそう見えてたけど？」みたいな顔をするのが普通だ。

人間のパターン認識は別に距離の近さだとか，混ざった分布の尤度だとか，必ずしもそういうものでないかもしれない，みたいな。そんなことを感じられる。

このデータの悪意っていうか，その意匠がね。

ううむ。