Random Forest

2022年4月8日 Quark Apps_ML

最終更新日 2023年3月10日 by Quark Staff

Random Forestは、予め正解データを用意して学習させ、そのモデルを使って分類や予測を行うものです。教師あり学習の一つです。

Contents

1 モデルの作成（学習）
2 モデルの適用（予測）
3 アルゴリズム

モデルの作成（学習）

Dataシートに、正解データをロードします。不要な説明変数（列）は、予め削除してください。質的変数、量的変数が混在していても問題ありません。

Random Forestを起動します。Output Modelにモデルの保存先とファイル名を指定します。Target Columnでは目的変数となる列を選択します。First Partitionではデータの何％を学習用に使うかを指定します。70%なら、データの70%を学習に使い、残り30%は予測の検証に使われます。Split Criterionでは分岐のアルゴリズムを選択します。

実行するとファイルが出力されます。出力ファイルのPrediction outputシートが残り30%の予測結果です。また、Accuracy statisticsシートでは予測の精度が確認できます。下の例では、このモデルが約81%（Accuracy列）の精度であることがわかります。精度が悪い場合は、最初に戻って説明変数を見直すか、正解データの数やアルゴリズムを再検討してください。

モデルの適用（予測）

Dataシートに、予測したいデータをロードします。モデルで使用した説明変数が全て含まれている必要があります。不要な列は無視されるので残っていても問題ありません。

Random Forestを起動し、先に作成したモデルを指定してRunします。

出力ファイルには、各レコードの予測値（Prediction）と予測の信頼性が付与されます。

アルゴリズム

Random Forest Learner

Random Forest Predictor