Select Language

AI Technology Community

ランダムな森に関する基礎知識

  ランダムフォレストは一見理解しやすいように見えますが、その仕組みを完全に理解するには、機械学習に関連する多くの基礎知識が必要です。この記事では簡単に触れるだけで、逐一詳述しません。関連知識があまり分からない同学は、他のブロガーの関連するブログ記事や文献を参照することができます。

  1)情報、エントロピー、および情報利得の概念

  この3つの基本概念は決定木の根本であり、決定木が特徴を利用して分類する際に、特徴の選択順序を決定する根拠となります。これらを理解すれば、決定木の概略も把握できます。

  シャノンの言葉を引用すると、情報とはランダムな不確定性を解消するものです。もちろんこの言葉は古典的ですが、この「もの」が実際に何なのかを理解するのは依然として難しいです。おそらく場面によって指すものが異なるでしょう。機械学習の決定木に関して、分類対象の事物集合が複数のカテゴリに分割できる場合、あるカテゴリ(xi)の情報は以下のように定義できます:

  I(x)は確率変数の情報を表し、p(xi)はxiが発生する確率を指します。

  エントロピーは不確定性を測るためのもので、エントロピーが大きいほど、X = xiの不確定性が大きく、逆に小さくなります。機械学習の分類問題において、エントロピーが大きいほどそのカテゴリの不確定性が大きく、逆に小さくなります。

  情報利得は決定木アルゴリズムで特徴を選択するための指標で、情報利得が大きいほど、その特徴の選択性が良いです。

  この方面の内容についてはこれ以上詳述しません。興味のある同学は「情報&エントロピー&情報利得」というブログ記事を読んでみてください。

  2)決定木

  決定木は木構造で、各内部ノードは属性のテストを表し、各枝はテストの出力を表し、各葉ノードは1つのカテゴリを表します。一般的な決定木アルゴリズムにはC4.5、ID3、およびCARTがあります。

  3)アンサンブル学習 

  アンサンブル学習は、いくつかのモデルを組み合わせて単一の予測問題を解決します。その仕組みは、複数の分類器/モデルを生成し、それぞれ独立に学習して予測を行います。これらの予測は最後に1つの予測に統合されるため、単一の分類器による予測よりも優れています。

  ランダムフォレストはアンサンブル学習のサブクラスで、決定木の投票によって最終的な分類結果を決定します。


post
  • 6

    item of content
ランダムフォレスト(Random Forest、略してRF)は広範な応用可能性を持っており、マーケティングから医療保険まで多岐にわたり利用されています。マーケティングシミュレーションのモデリングや顧客の獲得、維持および離反の統計に使用されるだけでなく、疾患リスクや患者の感受性の予測にも用いられます。私自身、初めてこのアルゴリズムに触れたのは校外コンペティションに参加していた時でした。近年の国内外の大会、例えば2013年の百度校园电影推荐系统大赛(Baiduキャンパス映画推薦システムコンペティション)、2014年の阿里巴巴天池大数据竞赛(アリババTianchiビッグデータコンペティション)やKaggleデータサイエンスコンペティションなどでも、参加者の多くがランダムフォレストを使用しています。さらに、私の個人的な経験からも、最終選考に残ったチームの大部分がRandom ForestまたはGBDTアルゴリズムを選択していることが分かります。したがって、Random Forestはその精度において相当な優位性を持っていると言えるでしょう。