Select Language

AI Technology Community

構造決定ツリー

決定木を構築するとは、現有的なサンプルデータに基づいて木構造を生成することです。ここでは、最も簡単なケース、つまりサンプルデータの特徴がすべて離散的である場合を考えます。以下の通りです。

ID

不動産所有

既婚か否か

年収>80K?

債務返済能力あり

1

はい

いいえ

はい

はい

2

いいえ

はい

はい

いいえ

3

いいえ

いいえ

いいえ

いいえ

4

はい

はい

はい

はい

5

いいえ

いいえ

はい

はい

6

いいえ

はい

いいえ

いいえ

7

はい

いいえ

はい

はい

8

いいえ

いいえ

はい

はい

9

いいえ

はい

いいえ

いいえ

10

いいえ

いいえ

はい

はい

    上記のようなサンプルがあると仮定して、根ノードから始めてどのようにして決定木を構築するのでしょうか?

    第一段階:分割属性を決定する(つまり、サンプルデータのどの特徴を基に分割するか)。

    ここで最適な分割特徴を決定する方法は、決定木全体の重要な部分です。最適な分割特徴の選択は、分割後の各ノードのデータの「純度」を最大化するという目標に基づいています。つまり、その特徴を基に分類した後の分岐ノードに含まれるサンプルができるだけ同一のクラスに属するようにすることです。適切な特徴を判断ノードとして選ぶことで、迅速な分類が可能になり、決定木の深さを減らすことができます。

    この「純度」をどのように定量化するのでしょうか?

    1.情報利得

    情報エントロピーの定義を示します。サンプルをDで表すとします。

    ここで、piはi番目のクラスが全訓練データ中に現れる確率を表し、このクラスに属する要素の数を訓練データの要素の総数で割った値として推定することができます。Mはクラスの数で、上の例では債務返済能力の有無で、m = 2です。

    エントロピーはサンプルの混乱度を表し、サンプルデータが無秩序で混乱しているほど、エントロピーは大きくなります。分割特徴の前後でサンプルデータのエントロピーの変化を比較することで、サンプルの純度の変化を判断することができます。

post
  • 2

    item of content
決定木(Decision Tree)は、さまざまな状況の発生確率が既知である場合に、決定木を構築して純現在価値の期待値がゼロ以上となる確率を求め、プロジェクトリスクを評価し、その実行可能性を判断するための意思決定分析手法です。これは直感的な確率分析を図解で表現する方法であり、この意思決定の分岐をグラフィックに描くと木の枝のように見えるため、「決定木」と呼ばれます。機械学習において、決定木は予測モデルを表し、オブジェクトの属性とその値間のマッピング関係を表現します。「エントロピー = システムの乱雑さ」であり、ID3、C4.5、およびC5.0アルゴリズムを使用して木を生成する際にはこのエントロピーが使用されます。この尺度は情報理論におけるエントロピーの概念に基づいています。

決定木は、各内部ノードが属性に対するテストを表し、各分岐がテスト結果を示し、各葉ノードがカテゴリを表すツリー構造です。分類木(決定木)は非常に一般的な分類方法であり、教師あり学習の一形態です。教師あり学習とは、与えられたサンプル群があり、それぞれのサンプルが一組の属性と一つのクラスを持つ場合、これらのクラスは事前に確定されており、学習を通じて分類器を得ることで新しいオブジェクトを適切に分類できるようにすることを指します。このような機械学習は「教師あり学習」と呼ばれます。