Select Language

AI Technology Community

ランダム森林の動作原理の説明の簡単な例

  説明:既存の訓練データセットに基づいて、対応するランダムフォレストが生成されました。ランダムフォレストは、ある人物の年齢(Age)、性別(Gender)、教育状況(Highest Educational Qualification)、職種分野(Industry)、居住地(Residence)の5つのフィールドをどのように利用して、その人物の収入層を予測するのでしょうか。

  収入層 :

    第1層 : 40,000ドル未満

    第2層: 40,000ドル~150,000ドル

    第3層: 150,000ドル超

  ランダムフォレストの各木は、CART(分類回帰木)と見なすことができます。ここでは、森林に5本のCART木があると仮定し、総特徴数N = 5、m = 1とします(ここでは、各CART木が異なる特徴に対応すると仮定します)。

  CART 1 : 変数 年齢

  rf1

  CART 2 : 変数 性別

  rf2

  CART 3 : 変数 教育

  rf3

  CART 4 : 変数 居住地

  rf4

  CART 5 : 変数 職種分野

  rf5

  予測対象の人物の情報は以下の通りです。

  1. 年齢 : 35歳 ; 2. 性別 : 男性 ; 3. 最高学歴 : 卒業証書取得者; 4. 職種分野 : 製造業; 5. 居住地 : 大都市圏。

  この5本のCART木の分類結果に基づいて、この人物の情報に関する収入層の分布を作成することができます。

  DF

  最後に、この人物の収入層は70%が第1層、約24%が第2層、6%が第3層であると結論付けられます。したがって、最終的にこの人物は第1収入層(40,000ドル未満)に属すると判断されます。


post
  • 6

    item of content
ランダムフォレスト(Random Forest、略してRF)は広範な応用可能性を持っており、マーケティングから医療保険まで多岐にわたり利用されています。マーケティングシミュレーションのモデリングや顧客の獲得、維持および離反の統計に使用されるだけでなく、疾患リスクや患者の感受性の予測にも用いられます。私自身、初めてこのアルゴリズムに触れたのは校外コンペティションに参加していた時でした。近年の国内外の大会、例えば2013年の百度校园电影推荐系统大赛(Baiduキャンパス映画推薦システムコンペティション)、2014年の阿里巴巴天池大数据竞赛(アリババTianchiビッグデータコンペティション)やKaggleデータサイエンスコンペティションなどでも、参加者の多くがランダムフォレストを使用しています。さらに、私の個人的な経験からも、最終選考に残ったチームの大部分がRandom ForestまたはGBDTアルゴリズムを選択していることが分かります。したがって、Random Forestはその精度において相当な優位性を持っていると言えるでしょう。