AI Technology Community
データ正規化(Normalization)
一、定義
データの正規化(Normalization)は、ノーマライゼーションとも呼ばれます。ノーマライゼーションとは、処理する必要のあるデータをあるアルゴリズムで処理した後、それを必要な一定の範囲内に制限することです。
データの正規化処理はデータマイニングの基礎的な作業です。異なる評価指標はしばしば異なる次元と次元単位を持っており、このような状況はデータ分析の結果に影響を与えます。指標間の次元の影響を排除するために、データのノーマライゼーション処理が必要で、データ指標間の比較可能性の問題を解決します。
二、利点
上記のように、データのノーマライゼーションの目的は、異なるソースからのデータを同じ数量級(1つの参照座標系)に統一することで、比較が意味を持つようにすることです。ノーマライゼーションは、後のデータ処理をより便利にします。それには2つの大きな利点があります。(1)ノーマライゼーションは勾配降下法による最適解の求解速度を速めることができます。(2)ノーマライゼーションは精度を向上させる可能性があります。
(1)ノーマライゼーションは勾配降下法による最適解の求解速度を向上させる
下の図のように、青い円は特徴の等高線を表しています。左図の2つの特徴x1とx2の区間は大きく異なり、x1~[0,2000]、x2~[1,5]で、形成された等高線はいくつかの領域で非常に離れています。勾配降下法で最適解を求解するとき、等高線に垂直に「の」の字路を歩く可能性が高く(左図の赤い経路)、収束するまで何度も反復する必要があり、収束しないこともあります。一方、右図では2つの元の特徴にノーマライゼーション処理を施しており、対応する等高線は丸く見え、勾配降下の際にすぐに収束します。したがって、機械学習で勾配降下法で最適解を求解する場合、ノーマライゼーションはしばしば非常に必要です。
(2)ノーマライゼーションは精度を向上させる可能性がある
一部の分類器(KNNなど)は、サンプル間の距離(ユークリッド距離など)を計算する必要があります。ある特徴の値域範囲が非常に大きい場合、距離の計算はこの特徴に依存することになります。このとき、実際の状況では値域範囲の小さい特徴がより重要である場合、ノーマライゼーションが役立ちます。
三、ノーマライゼーション方法
(1)線形ノーマライゼーションは、min - max正規化、偏差正規化とも呼ばれます。元のデータの線形変換で、結果の値を[0,1]の間にマッピングします。変換関数は次のとおりです。
このノーマライゼーションは、数値が比較的集中している場合に適しています。この方法には欠点があり、maxとminが不安定な場合、ノーマライゼーションの結果が不安定になりやすく、後続の使用効果に影響を与えます。実際の応用では、一般的に経験定数でmaxとminを置き換えます。
(2)標準偏差ノーマライゼーションは、Z - score正規化とも呼ばれます。この方法は、元のデータの平均値(mean、μ)と標準偏差(standard deviation、σ)に基づいてデータの正規化を行います。処理後のデータは標準正規分布に従い、つまり平均値が0、標準偏差が1で、変換関数は次のとおりです。
(3)非線形ノーマライゼーションは、一般的にデータ分析が比較的大きいシナリオで使用されます。一部の数値は非常に大きく、一部は小さく、いくつかの数学関数を通じて元の値をマッピングします。一般的に使用される関数には、log、指数、正接などが含まれ、非線形関数の曲線はデータ分布の具体的な状況に応じて決定する必要があります。
四、構造
(1)深層モデルの活性化関数
(2)活性化関数による勾配消失
(3)バッチ正規化
(4)自己正規化ニューラルネットワーク
2
item of content
- 568hits
- 0replay
-
1like
- collect
- send report