日々の事柄に関する雑記帳。



クラスタ分析

クラスタ似ているもの同士の集合。
クラスタ分析似ているデータ同士をグループ化する。

階層的クラスタリング

凝集型似ているデータ同士を結び付けていく手法。
分割型似ていないデータ同士を分離させていく手法。

似ている、似ていないの判断根拠→類似度の測定
類似度=ユークリッド距離=樹形図の足の長さ
データ同士を結び付けていくとクラスタが形成される。

A:a=(a_1, a_2, ..., a_n)\\
B:b=(b_1, b_2, ..., b_n)\\
d(A, B) = \sqrt{(a_1-b_1)^2 + (a_2-b_2)^2 + ... (a_n - b_n)^2}

クラスター同士の距離
最短距離法異なるクラスタの内、最も近いデータ同士の距離を、クラスタ間の距離とする。
再長距離法異なるクラスタの内、最も遠いデータ同士の距離を、クラスタ間の距離とする。
群平均法異なるクラスタの全データ同士の距離の平均を、クラスタ間の距離とする。
重心法異なるクラスタの重心(データの平均)同士の距離を、クラスタ間の距離とする。

距離行列
データa, b, d, d, e間の距離行列。
abcde
a083710
b806512
c360112
d751109
e1012290

c, e間の距離が最も近いので、(c、e)を単一クラスタとする。→最短距離法
クラスタ(c, e)と、他のデータとの最短距離を選択する。
(c, e)abd
(c, e)0369
a3087
b6805
d9750

非階層的クラスタリング

k-meansk平均法
  1. ランダムにkこのクラスタの重心を決める。
  2. 定めたクラスタの重心に基づいて、データを最も近い重心へ分ける。→データがk個のクラスタに分割される。
  3. 各クラスタの重心を求める。
  4. 新たな重心に基づいて、データを最も近い重心へ分ける。
  5. 分割できなくなるまで、処理を繰り返す。
タグ

管理人/副管理人のみ編集できます