Select Language

AI Technology Community

KNNアルゴリズムの流れ

KNNアルゴリズムの流れ

テストデータと各訓練データ間の距離を計算する;距離の昇順に並べ替える;距離が最も小さいK個の点を選択する;上位K個の点が属するクラスの出現頻度を確定する;上位K個の点の中で出現頻度が最も高いクラスをテストデータの予測分類として返す。下の図にはKNNアルゴリズムにおけるK値の選択規則が示されています:

図のデータセットは良好なデータです。つまり、すべてに対応するラベルがあります。一方は青色の正方形、もう一方は赤色の三角形で、緑色の円は分類対象のデータです。

K = 3のとき、範囲内で赤色の三角形が多いため、この分類対象の点は赤色の三角形に属します。K = 5のとき、範囲内で青色の正方形が多いため、この分類対象の点は青色の正方形に属します。最適なK値の選び方はデータによって異なります。一般的に、分類する際に大きなK値を選ぶとノイズの影響を減らすことができますが、クラス間の境界が曖昧になります。したがって、Kの値は一般的に比較的小さく設定されます (K < 20)。


post
  • 4

    item of content
K最近傍(k-Nearest Neighbor, KNN)分類アルゴリズムは、理論的に成熟した手法であり、最もシンプルな機械学習アルゴリズムの一つです。この方法の考え方は次の通りです:特徴空間において、もしあるサンプルの近くにあるk個の最近傍(つまり、特徴空間で最も近い)サンプルの大多数が特定のクラスに属している場合、そのサンプルも同じクラスに属すると判断します。