Select Language

AI Technology Community

DBSCANモデル

データ集合を考慮して、まず以下の概念と数学記号を導入します:

1.  ∈近傍(∈ neighborhood)

とし、を x の∈近傍と呼びます。明らかに、

2. 密度(density)

とし、を x の密度と呼びます。ここでの密度は整数値であり、半径に依存します。

3. 核心点(core point)

とし、もし(クラスタを形成するために必要な最小点数 minimum numberof points required to form a cluster)であれば、x を X の核心点と呼びます。X のすべての核心点から構成される集合をと記し、を X のすべての非核心点から構成される集合と記します。

4. 境界点(border point)

もしを満たす。つまり、x の近傍に核心点が存在する場合、x を X の境界点と呼びます。X のすべての境界点から構成される集合をと記します。

さらに、境界点は次のように定義することもできます。もしであり、かつ x がある核心点の近傍内にある場合、x を X の境界点と呼びます。境界点は、1つまたは複数の核心点の∈近傍に同時に含まれる可能性があります。

5. ノイズ点(noise point)

とすると、x をノイズ点と呼びます。

直感的には、核心点は高密度領域の内部の点に対応し、境界点は高密度領域の縁の点に対応し、ノイズ点は低密度領域の点に対応します。次の図のように:

注意すべきは、核心点はクラスタの内部に位置し、特定のクラスタに確実に属します。ノイズ点はデータセットの干渉データであり、どのクラスタにも属しません。境界点は特殊な点の一種で、1つまたはいくつかのクラスタの縁に位置し、あるクラスタに属する可能性もあれば、別のクラスタに属する可能性もあり、クラスタへの所属は明確ではありません。

6. 直接密度到達可能(directly density-reachable)

とすると、y は x から直接密度到達可能であると呼びます。

7. 密度到達可能(density-reachable)

とし、もしそれらがが直接密度到達可能で、を満たす場合、から密度到達可能であると呼びます。

注目すべきは、m = 2 のとき、密度到達可能は直接密度到達可能となります。密度到達可能は直接密度到達可能の一般化です。実際、密度到達可能は直接密度到達可能の推移閉包です。

8. 密度連結(density-connected)

とし、もし y と z がどちらも x から密度到達可能であれば、y と z は密度連結していると呼びます。明らかに、密度連結は対称性を持ちます。

9. クラスタ(cluster)

非空集合を X のクラスタ(cluster)と呼びます。これは、に対して以下を満たす場合です。

(1)最大性:もしであり、かつ y が x から密度到達可能であれば、

(2)連結性:もしであれば、x と y は密度連結しています。


post
  • 11

    item of content
クラスタリング分析は群分析とも呼ばれ、(サンプルまたは指標の)分類問題を研究するための統計的分析方法であり、同時にデータマイニングにおける重要なアルゴリズムでもあります。

クラスタリング(Cluster)分析はいくつかのパターン(Pattern)から構成されています。通常、パターンは測定値(Measurement)のベクトルであるか、多次元空間内の一点です。

クラスタリング分析は相似性に基づいており、同一クラスタ内のパターン間には、異なるクラスタに属するパターン間よりも多くの相似性があることが特徴です。このため、クラスタリング分析はデータ内の自然なグループやパターンを見つけ出すのに非常に有用です。