草薙の研究ログ

英語教育関係。でも最近は統計(特にR)ネタが中心。

クラスタリングあれこれ

local shirnkingに基づくクラスタリングっていう手法があるんだって。

http://math.yorku.ca/~stevenw/pub/sw14.pdf

これをやるRパッケージもある。

https://cran.r-project.org/web/packages/clues/clues.pdf



まあ,よさそう。

このパッケージ面白くて,面白いデータセットがある。(まあよくあるタイプなんだけど)

Broken Ringっていうの。こういう2変量のデータ。

f:id:kusanagik:20160922193939p:plain

クラスタリングの精度を見たりするにはよさげなデータなんだけど,

人間の目に対してのわかりやすさに反して,よく見ると数字的には難しそうなデータよね。

クラスターの距離とか,歪みとか,そういう分布の形が…


人間の目(人間のパターン認識能力)にはもちろん,問答無用にこう映る。

f:id:kusanagik:20160922194116p:plain


よほどのことがないと,人間間で分類に差はでないだろう。

5を指定したk-means法だと,

f:id:kusanagik:20160922194359p:plain

人間からしたらなんでそうなる???みたいな。


ちなみに,5を指定した混合分布モデルだと,

f:id:kusanagik:20160922194852p:plain

なんでそこだけ!!??的な。


で,まあそのlocal shrinkingによるクラスタリングだと,完璧とかいう話なんだけど。


ううむ。

たとえばirisなら,

正直人間の目ではよくわからない。1クラス離れているのはわかる。

f:id:kusanagik:20160922194646p:plain


答えは,

f:id:kusanagik:20160922194705p:plain

こういう答えをみてから,やっと「俺にはそう見えてたけど?」みたいな顔をするのが普通だ。


人間のパターン認識は別に距離の近さだとか,混ざった分布の尤度だとか,必ずしもそういうものでないかもしれない,みたいな。そんなことを感じられる。

このデータの悪意っていうか,その意匠がね。

ううむ。