AI Technology Community

payititi-AI助手 2021-12-06 16:12:50

サポートベクトルマシン（support vector machines，SVM）

SVMの概要

サポートベクターマシン（support vector machines, SVM）は二値分類モデルであり、その基本モデルは特徴空間上で定義される間隔が最大の線形分類器です。

間隔が最大であるという点が、感知機との違いです。SVMにはカーネルトリックも含まれており、これにより実質的に非線形分類器となります。SVMの学習戦略は間隔の最大化であり、凸二次計画問題の求解として定式化することができ、正則化されたヒンジ損失関数の最小化問題と等価です。SVMの学習アルゴリズムは、凸二次計画問題の最適化アルゴリズムです。

SVMアルゴリズムの原理

SVM学習の基本的な考え方は、訓練データセットを正しく分割し、かつ幾何学的間隔が最大となる分離超平面を求めることです。

下図のように、 $\boldsymbol{w}\cdot x+b=0$ が分離超平面です。線形分離可能なデータセットの場合、このような超平面は無数に存在します（つまり感知機）が、幾何学的間隔が最大の分離超平面は唯一です。

導出する前に、いくつかの定義を示します。特徴空間上の訓練データセットが与えられたと仮定します。

$T=\left\{ \left( \boldsymbol{x}_1,y_1 \right) ,\left( \boldsymbol{x}_2,y_2 \right) ,...,\left( \boldsymbol{x}_N,y_N \right) \right\}$

ここで、 $\boldsymbol{x}_i\in \mathbb{R}^n$ 、 $y_i\in \left\{ +1,-1 \right\} ,i=1,2,...N$ 、 $x_i$ は第 $i$ 個の特徴ベクトル、 $y_i$ はクラスラベルで、+1のとき正例、-1のとき負例です。さらに、訓練データセットが線形分離可能であると仮定します。

幾何学的間隔

：与えられたデータセット $T$ と超平面 $w\cdot x+b=0$ に対して、超平面に関するサンプル点 $\left( x_i,y_i \right)$ の幾何学的間隔を以下のように定義します。

$\gamma _i=y_i\left( \frac{\boldsymbol{w}}{\lVert \boldsymbol{w} \rVert}\cdot \boldsymbol{x}_{\boldsymbol{i}}+\frac{b}{\lVert \boldsymbol{w} \rVert} \right)$

超平面に関するすべてのサンプル点の幾何学的間隔の最小値は、

$\gamma =\underset{i=1,2...,N}{\min}\gamma _i$

実際には、この距離は我々がいうサポートベクターから超平面までの距離です。

以上の定義に基づき、SVMモデルの最大分割超平面問題の求解は、以下の制約付き最適化問題として表すことができます。

$\underset{\boldsymbol{w,}b}{\max}\ \gamma$

$s.t.\ \ \ y_i\left( \frac{\boldsymbol{w}}{\lVert \boldsymbol{w} \rVert}\cdot \boldsymbol{x}_{\boldsymbol{i}}+\frac{b}{\lVert \boldsymbol{w} \rVert} \right) \ge \gamma \ ,i=1,2,...,N$

制約条件の両辺を $\gamma$ で割ると、

$y_i\left( \frac{\boldsymbol{w}}{\lVert \boldsymbol{w} \rVert \gamma}\cdot \boldsymbol{x}_{\boldsymbol{i}}+\frac{b}{\lVert \boldsymbol{w} \rVert \gamma} \right) \ge 1$

$\lVert \boldsymbol{w} \rVert \text{，}\gamma$ はどちらもスカラーなので、式を簡潔にするために、

$\boldsymbol{w}=\frac{\boldsymbol{w}}{\lVert \boldsymbol{w} \rVert \gamma}$

$b=\frac{b}{\lVert \boldsymbol{w} \rVert \gamma}$

とすると、

$y_i\left( \boldsymbol{w}\cdot \boldsymbol{x}_{\boldsymbol{i}}+b \right) \ge 1,\ i=1,2,...,N$

また、 $\gamma$ を最大化することは、 $\frac{1}{\lVert \boldsymbol{w} \rVert}$ を最大化することと等価であり、 $\frac{1}{2}\lVert \boldsymbol{w} \rVert ^2$ を最小化することと等価です（ $\frac{1}{2}$ は後で微分する際に式が簡潔になるようにするためのもので、結果に影響しません）。したがって、SVMモデルの最大分割超平面問題の求解は、以下の制約付き最適化問題として表すこともできます。

$\underset{\boldsymbol{w,}b}{\min}\ \frac{1}{2}\lVert \boldsymbol{w} \rVert ^2$

$s.t.\ \ y_i\left( \boldsymbol{w}\cdot \boldsymbol{x}_{\boldsymbol{i}}+b \right) \ge 1,\ i=1,2,...,N$

これは不等式制約付きの凸二次計画問題であり、ラグランジュ乗数法を用いてその双対問題（dual problem）を求めることができます。

まず、制約付きの元の目的関数を、制約のない新しく構築されたラグランジュ目的関数に変換します。

$L\left( \boldsymbol{w,}b,\boldsymbol{\alpha } \right) =\frac{1}{2}\lVert \boldsymbol{w} \rVert ^2-\sum_{i=1}^N{\alpha _i\left( y_i\left( \boldsymbol{w}\cdot \boldsymbol{x}_{\boldsymbol{i}}+b \right) -1 \right)}$

ここで、 $\alpha _i$ はラグランジュ乗数であり、 $\alpha _i\ge 0$ です。ここで、

$\theta \left( \boldsymbol{w} \right) =\underset{\alpha _{_i}\ge 0}{\max}\ L\left( \boldsymbol{w,}b,\boldsymbol{\alpha } \right)$

サンプル点が制約条件を満たさない場合、すなわち可行解領域外では、

$y_i\left( \boldsymbol{w}\cdot \boldsymbol{x}_{\boldsymbol{i}}+b \right) <1$

このとき、 $\alpha _i$ を無限大に設定すると、 $\theta \left( \boldsymbol{w} \right)$ も無限大になります。

サンプル点が制約条件を満たす場合、すなわち可行解領域内では、

$y_i\left( \boldsymbol{w}\cdot \boldsymbol{x}_{\boldsymbol{i}}+b \right) \ge 1$

このとき、 $\theta \left( \boldsymbol{w} \right)</div> </div> </div> </div> <div class=$

post

SVMアルゴリズム
2021-12-02 23:00:13join communtity

3
item of content

サポートベクターマシン（Support Vector Machines, SVM）は二値分類モデルであり、その基本モデルは特徴空間上で定義された最大の間隔を持つ線形分類器です。この間隔最大化により、SVMはパーセプトロンとは区別されます。また、SVMにはカーネルトリックが含まれており、これにより実質的に非線形分類器となります。SVMの学習戦略は間隔の最大化であり、これは凸二次計画問題の解決形式として表現され、正則化されたヒンジ損失関数の最小化問題と等価です。SVMの学習アルゴリズムは凸二次計画の最適化アルゴリズムを求解するものです。

574hits
0replay
1like

0

dinglike
collect
send report

+replay

Select Language