AI Technology Community
ランダムな森とは?
新興の、高度に柔軟な機械学習アルゴリズムとして、ランダムフォレスト(Random Forest、略称RF)は広範な応用前景を持っています。マーケティングから医療保険まで、マーケティングシミュレーションのモデリングや顧客の出所、維持と離脱の統計に使用できるだけでなく、病気のリスクや患者の易感性を予測することもできます。最初に、私は校外のコンテストに参加したときにランダムフォレストアルゴリズムに触れました。近年の国内外の大会、2013年の百度キャンパス映画推薦システム大会、2014年のアリババ天池ビッグデータコンテストやKaggleデータサイエンスコンテストを含め、参加者の中でランダムフォレストの使用割合はかなり高いです。さらに、私の個人的な知る限り、多くの最終審査に進んだチームもRandom ForestまたはGBDTアルゴリズムを選択しています。したがって、Random Forestは精度面でかなり優位性があることがわかります。
ここまでたくさん話しましたが、ランダムフォレストとは一体どのようなアルゴリズムなのでしょうか?
読者が決定木(Decision Tree)に触れたことがあれば、ランダムフォレストが何かを理解するのは簡単です。ランダムフォレストは、集成学習の考え方を用いて複数の木を集めたアルゴリズムで、その基本単位は決定木で、本質的には機械学習の一大分野である集成学習(Ensemble Learning)方法に属します。ランダムフォレストの名前には2つのキーワードがあり、1つは「ランダム」、もう1つは「フォレスト」です。「フォレスト」は簡単に理解できます。1本の木は木と呼ばれ、何百何千本の木が集まればフォレストと呼ばれます。この比喩はとても適切で、実際にこれがランダムフォレストの主な考え方である集成思想の体現です。「ランダム」の意味については、次の部分で説明します。
実際、直感的に説明すると、各決定木は分類器です(今は分類問題を対象としていると仮定します)。したがって、入力サンプルに対して、N本の木はN個の分類結果を持ちます。そして、ランダムフォレストはすべての分類投票結果を集め、投票数が最も多いクラスを最終出力として指定します。これが最も簡単なバギング思想です。
6
item of content
- 564hits
- 0replay
-
0like
- collect
- send report