AI Technology Community
Naive Bayesian Classification(Naive Bayesian Classification)
1、分類とは何か
分類は重要なデータ分析の形式であり、重要なデータクラスを特徴付けるモデルを抽出します。このようなモデルを分類器と呼び、分類の(離散的で無順序の)クラスラベルを予測します。例えば、医師が患者を診断することは典型的な分類過程です。医師は一目で患者がどの病気にかかっているかを判断するのではなく、患者の症状や検査結果に基づいて、患者がどの病気にかかっているかを診断し、どのような治療法を採用するかを決めます。また、小売業の販売マネージャーは、特定の特徴を持つ顧客がある商品を購入するかどうかを推測するために、顧客データを分析する必要があります。
2、分類はどのように行うか
データ分類は学習段階(分類モデルの構築)と分類段階(モデルを使用して与えられたデータのクラスラベルを予測)の2段階の過程です。
3、ベイズ分類の基本概念
ベイズ分類法は統計学的な分類方法であり、クラス所属関係の確率、例えば与えられたタプルが特定のクラスに属する確率を予測することができます。ベイズ分類はベイズの定理に基づいています。単純ベイズ分類法は、ある属性値が与えられたクラスにおける確率が他の属性値から独立していると仮定します。この仮定をクラス条件独立性と呼びます。
4、ベイズの定理
ベイズの定理は非常に便利ですが、複雑ではありません。この定理は生活でよく遭遇する問題を解決します。つまり、ある条件下での確率がわかっている場合、2つの条件を入れ替えた後の確率をどのように求めるか、つまりP(A|B)がわかっている場合にP(B|A)の確率をどのように求めるかです。P(A|B)は事後確率(posterior probability)であり、私たちがよく言う条件付き確率、つまり条件Bの下で事象Aが起こる確率です。逆に、P(A)またはP(B)は事前確率(prior probability)と呼ばれます。ベイズの定理が有用なのは、生活でP(A|B)は簡単に直接求めることができるが、P(B|A)は直接求めるのが難しい場合がよくあるからです。しかし、私たちはP(B|A)により関心があり、ベイズの定理はP(A|B)からP(B|A)を求める道を開いてくれます。
以下に、証明を省いてベイズの定理を直接示します:
5、単純ベイズ分類の考え方と動作過程
単純ベイズ分類の考え方は本当に単純です。その考え方の基礎は次の通りです。与えられた分類対象項目について、この項目が出現する条件下で各クラスが出現する確率を求め、最も大きい確率を持つクラスにこの分類対象項目が属するとみなします。
単純ベイズ分類の動作過程は次の通りです:
(1)、Dを訓練タプルとそれらに関連付けられたクラスラベルの集合とします。各タプルはn次元の属性ベクトルX = {x1,x2,...,xn}で表されます。
(2)、m個のクラスC1,C2,...Cmがあると仮定します。与えられたタプルXに対して、分類法はXが最も高い事後確率を持つクラスに属すると予測します。つまり、単純ベイズ分類法は、P(Ci|X) > P(Cj|X) (1 ≤ j ≤ m, j ≠ i)の場合に、XがクラスCiに属すると予測します。
このように、P(Ci|X)が最大のクラスCiを最大事後確率と呼びます。ベイズの定理によれば
(3)、P(X)はすべてのクラスに対して定数であるため、P(Ci|X)P(Ci)が最大であればよいです。クラスの事前確率が未知の場合、通常はこれらのクラスが等確率であると仮定します。つまり、P(C1) = P(C2) = ... = P(Cm)とし、これに基づいてP(Ci|X)を最大化します。そうでなければ、P(Ci|X)P(Ci)を最大化します。
(4)、多くの属性を持つデータセットが与えられた場合、P(Ci|X)を計算するコストは非常に大きくなります。計算コストを削減するために、クラス条件独立の単純な仮定を行うことができます。与えられたタプルのクラスラベルに対して、属性値は条件付きで相互に独立していると仮定します。したがって、
この属性が分類属性であるか連続値属性であるかを考慮します。例えば、P(X|Ci)を計算するために、次の2つのケースを考えます:
(a)、Akが分類属性の場合、P(xk|Ci)はD内の属性Akの値がxkであるCiクラスのタプル数をD内のCiクラスのタプル数|Ci,D|で割った値です。
(b)、Akが連続値属性の場合、連続値属性が平均η、標準偏差σのガウス分布に従うと仮定します。これは次式で定義されます:
つまり、P(xk |Ci) = g(xk,ηci,σci)です。
(5)、Xのクラスラベルを予測するために、各クラスCiに対してP(Ci|X)P(Ci)を計算します。この分類法は、P(X|Ci)P(Ci) > P(X|Cj)P(Cj) (1 ≤ j ≤ m, j ≠ i)の場合に、入力タプルXのクラスをCiと予測します。つまり、予測されるクラスラベルはP(X|Ci)P(Ci)が最大のクラスCiです。
6、ラプラス校正(laplace)
P(xk|Ci) = 0の場合はどうすればよいでしょうか。あるクラスの下である特徴項目が出現しない場合にこの現象が起こります。この場合、このゼロ確率がなくても、XがCiクラスに属することを示す高い確率が得られる可能性があります。この問題を回避するための簡単な方法があります。訓練データベースDが非常に大きいと仮定し、各カウントに1を加えることによる推定確率の変化を無視できる程度に小さいとします。しかし、確率値が0になることを簡単に回避することができます。このような確率推定カウントをラプラス校正またはラプラス推定法と呼びます。
7、単純ベイズ分類の流れ
分かるように、単純ベイズ分類全体は3つの段階に分けられます:
第一段階——準備段階。この段階のタスクは、単純ベイズ分類に必要な準備を行うことです。主な作業は、具体的な状況に応じて特徴属性を決定し、各特徴属性を適切に分割し、その後、一部の分類対象項目を手動で分類して訓練サンプル集合を形成することです。この段階の入力はすべての分類対象データであり、出力は特徴属性と訓練サンプルです。この段階は単純ベイズ分類全体で唯一手動で行う必要がある段階であり、その品質は全体のプロセスに重要な影響を与えます。分類器の品質は、特徴属性、特徴属性の分割および訓練サンプルの品質に大きく依存します。
第二段階——分類器訓練段階。この段階のタスクは分類器を生成することです。主な作業は、訓練サンプル内の各クラスの出現頻度と各特徴属性分割の各クラスに対する条件付き確率推定を計算し、結果を記録することです。入力は特徴属性と訓練サンプルであり、出力は分類器です。この段階は機械的な段階であり、
1
item of content
ベイズの定理は、特定の属性値が与えられたクラスへの影響が他の属性値から独立しているという仮定に基づいています。しかし、実際の状況ではこの仮定はしばしば成立しないため、分類精度が低下する可能性があります。これに対応するために、独立性の仮定を緩和する様々なベイジアン分類アルゴリズムが開発されてきました。例えば、TAN(Tree Augmented Bayes Network)アルゴリズムなどが挙げられます。
- 475hits
- 0replay
-
1like
- collect
- send report