クラスタリングあれこれ
local shirnkingに基づくクラスタリングっていう手法があるんだって。
http://math.yorku.ca/~stevenw/pub/sw14.pdf
これをやるRパッケージもある。
https://cran.r-project.org/web/packages/clues/clues.pdf
まあ,よさそう。
このパッケージ面白くて,面白いデータセットがある。(まあよくあるタイプなんだけど)
Broken Ringっていうの。こういう2変量のデータ。
クラスタリングの精度を見たりするにはよさげなデータなんだけど,
人間の目に対してのわかりやすさに反して,よく見ると数字的には難しそうなデータよね。
各クラスターの距離とか,歪みとか,そういう分布の形が…
人間の目(人間のパターン認識能力)にはもちろん,問答無用にこう映る。
よほどのことがないと,人間間で分類に差はでないだろう。
5を指定したk-means法だと,
人間からしたらなんでそうなる???みたいな。
ちなみに,5を指定した混合分布モデルだと,
なんでそこだけ!!??的な。
で,まあそのlocal shrinkingによるクラスタリングだと,完璧とかいう話なんだけど。
ううむ。
たとえばirisなら,
正直人間の目ではよくわからない。1クラス離れているのはわかる。
答えは,
こういう答えをみてから,やっと「俺にはそう見えてたけど?」みたいな顔をするのが普通だ。
人間のパターン認識は別に距離の近さだとか,混ざった分布の尤度だとか,必ずしもそういうものでないかもしれない,みたいな。そんなことを感じられる。
このデータの悪意っていうか,その意匠がね。
ううむ。