AI Technology Community
DBSCANモデル
データ集合を考慮して、まず以下の概念と数学記号を導入します:
1. ∈近傍(∈ neighborhood)
設とし、
を x の∈近傍と呼びます。明らかに、
2. 密度(density)
設とし、
を x の密度と呼びます。ここでの密度は整数値であり、半径∈に依存します。
3. 核心点(core point)
設とし、もし
(クラスタを形成するために必要な最小点数 minimum numberof points required to form a cluster)であれば、x を X の核心点と呼びます。X のすべての核心点から構成される集合を
と記し、
を X のすべての非核心点から構成される集合と記します。
4. 境界点(border point)
もしが
を満たす。つまり、x の∈近傍に核心点が存在する場合、x を X の境界点と呼びます。X のすべての境界点から構成される集合を
と記します。
さらに、境界点は次のように定義することもできます。もしであり、かつ x がある核心点の∈近傍内にある場合、x を X の境界点と呼びます。境界点は、1つまたは複数の核心点の∈近傍に同時に含まれる可能性があります。
5. ノイズ点(noise point)
記とすると、x をノイズ点と呼びます。
直感的には、核心点は高密度領域の内部の点に対応し、境界点は高密度領域の縁の点に対応し、ノイズ点は低密度領域の点に対応します。次の図のように:
注意すべきは、核心点はクラスタの内部に位置し、特定のクラスタに確実に属します。ノイズ点はデータセットの干渉データであり、どのクラスタにも属しません。境界点は特殊な点の一種で、1つまたはいくつかのクラスタの縁に位置し、あるクラスタに属する可能性もあれば、別のクラスタに属する可能性もあり、クラスタへの所属は明確ではありません。
6. 直接密度到達可能(directly density-reachable)
設とすると、y は x から直接密度到達可能であると呼びます。
7. 密度到達可能(density-reachable)
設とし、もしそれらが
が直接密度到達可能で、
を満たす場合、
は
から密度到達可能であると呼びます。
注目すべきは、m = 2 のとき、密度到達可能は直接密度到達可能となります。密度到達可能は直接密度到達可能の一般化です。実際、密度到達可能は直接密度到達可能の推移閉包です。
8. 密度連結(density-connected)
設とし、もし y と z がどちらも x から密度到達可能であれば、y と z は密度連結していると呼びます。明らかに、密度連結は対称性を持ちます。
9. クラスタ(cluster)
非空集合を X のクラスタ(cluster)と呼びます。これは、
に対して以下を満たす場合です。
(1)最大性:もしであり、かつ y が x から密度到達可能であれば、
(2)連結性:もしであれば、x と y は密度連結しています。
11
item of content
クラスタリング(Cluster)分析はいくつかのパターン(Pattern)から構成されています。通常、パターンは測定値(Measurement)のベクトルであるか、多次元空間内の一点です。
クラスタリング分析は相似性に基づいており、同一クラスタ内のパターン間には、異なるクラスタに属するパターン間よりも多くの相似性があることが特徴です。このため、クラスタリング分析はデータ内の自然なグループやパターンを見つけ出すのに非常に有用です。
- 524hits
- 0replay
-
0like
- collect
- send report