ランダムフォレスト分類アルゴリズムを使用して Iris データ分類をトレーニングするとどうなるでしょうか?

[[205745]]

MLlib は、機械学習のエンジニアリング実践を簡素化し、大規模への拡張を容易にすることを目的としています。

MLlib は、分類、回帰、クラスタリング、協調フィルタリング、次元削減などの一般的な学習アルゴリズムとツール、および低レベルの最適化プリミティブと高レベルのパイプライン API で構成されています。

MLllib は現在 2 つのコードパッケージに分かれています。spark.mllib には、RDD に基づくオリジナルのアルゴリズム API が含まれています。

spark.ml は、機械学習パイプラインの構築に使用できる DataFrames に基づく高レベル API を提供します。FEA-spk テクノロジーの機械学習は、spark.ml パッケージに基づいています。

spark.ml パッケージは DataFrame に基づいており、将来的には Spark 機械学習のメイン API になります。分散クラスター上で大規模な機械学習モデルのトレーニングを実行し、データを視覚化できます。

1. ランダムフォレスト分類アルゴリズムの紹介

名前が示すように、ランダムフォレストはランダムな方法でフォレストを構築します。フォレストは多数の決定木で構成され、ランダムフォレスト内の各決定木の間には相関関係はありません。フォレストを取得した後、新しい入力サンプルが入力されると、フォレスト内の各決定木は、サンプルがどのカテゴリに属するべきかを判断し（分類アルゴリズムに対応）、どのカテゴリが最も多く選択されているかを確認し、サンプルがそのカテゴリに属することを予測します。

Spark MLlib ランダムフォレストアルゴリズムの使用には欠陥があり、改善が必要です。

具体的には、Spark MLlib を使用してモデルをトレーニングするには、列をベクトルに集約するなど、多くのデータ変換が必要になります。非常に面倒で、データを視覚化することができません。

FEA-spk テクノロジーはこれらの問題をうまく解決できます。モデルのトレーニングには 1 つのコマンドのみが必要で、結果のデータを視覚化できます。

2. アイリスデータ分類トレーニングケース

以下は、ランダムフォレスト分類アルゴリズムを使用して Iris データを分類する例です。

1. データの準備

元のデータと対応する手順は、https://pan.baidu.com/s/1c2d0hpA からダウンロードできます。これを基にヘッダー情報を追加しました。

ここで、ダウンロードしたデータは読み取り用に HDF 上に置かれます。

2. Irisデータを使ったトレーニングの具体的な手順

（1）FEA-spkテクノロジーを使用するには、まずspk接続を作成する必要があり、すべての操作はそれをコンテキストとして実行されます。 feaインターフェースで次のコマンドを実行します

（2）データをロードします。データはHDFSにあります。データ形式はcsvファイルで、ディレクトリは/data/iris_data.txtです。

（３）ML_siメソッドを使って文字ラベルをインデックスに変換する