AI Technology Community
ランダムな森に関する基礎知識
ランダムフォレストは一見理解しやすいように見えますが、その仕組みを完全に理解するには、機械学習に関連する多くの基礎知識が必要です。この記事では簡単に触れるだけで、逐一詳述しません。関連知識があまり分からない同学は、他のブロガーの関連するブログ記事や文献を参照することができます。
1)情報、エントロピー、および情報利得の概念
この3つの基本概念は決定木の根本であり、決定木が特徴を利用して分類する際に、特徴の選択順序を決定する根拠となります。これらを理解すれば、決定木の概略も把握できます。
シャノンの言葉を引用すると、情報とはランダムな不確定性を解消するものです。もちろんこの言葉は古典的ですが、この「もの」が実際に何なのかを理解するのは依然として難しいです。おそらく場面によって指すものが異なるでしょう。機械学習の決定木に関して、分類対象の事物集合が複数のカテゴリに分割できる場合、あるカテゴリ(xi)の情報は以下のように定義できます:
I(x)は確率変数の情報を表し、p(xi)はxiが発生する確率を指します。
エントロピーは不確定性を測るためのもので、エントロピーが大きいほど、X = xiの不確定性が大きく、逆に小さくなります。機械学習の分類問題において、エントロピーが大きいほどそのカテゴリの不確定性が大きく、逆に小さくなります。
情報利得は決定木アルゴリズムで特徴を選択するための指標で、情報利得が大きいほど、その特徴の選択性が良いです。
この方面の内容についてはこれ以上詳述しません。興味のある同学は「情報&エントロピー&情報利得」というブログ記事を読んでみてください。
2)決定木
決定木は木構造で、各内部ノードは属性のテストを表し、各枝はテストの出力を表し、各葉ノードは1つのカテゴリを表します。一般的な決定木アルゴリズムにはC4.5、ID3、およびCARTがあります。
3)アンサンブル学習
アンサンブル学習は、いくつかのモデルを組み合わせて単一の予測問題を解決します。その仕組みは、複数の分類器/モデルを生成し、それぞれ独立に学習して予測を行います。これらの予測は最後に1つの予測に統合されるため、単一の分類器による予測よりも優れています。
ランダムフォレストはアンサンブル学習のサブクラスで、決定木の投票によって最終的な分類結果を決定します。
6
item of content
- 528hits
- 0replay
-
0like
- collect
- send report