自動機械学習ガイド: 4 つの成熟モデル

[51CTO.com クイック翻訳] 人工知能と機械学習の概念は、データサイエンスコミュニティで人気が高まっています。これらのコンセプトにより、以前は手作業を必要としていた多くのタスクを、より効率的で正確な自動化された方法に置き換えることができるようになりました。技術トレンドの変化に伴い、自動化された機械学習は時間を節約するだけでなく、手動操作を簡素化することで効率も向上すると言えます。

自動機械学習: トレーニングプロセスの自動化

概念的には、機械学習は、現実世界のデータを処理して、望ましい出力を出すように機械をトレーニングすることを目的としています。言い換えれば、機械が既存のデータ（または経験）からある程度のトレーニングを取得できるようにし、完全なデータ処理の後、より正確な出力を生成できるようになります。自動機械学習 (AutoML) の概念は、明らかにプロセス全体を完全に自動化することです。

自動機械学習の成熟モデル

自動化された機械学習のさまざまな実装は、対応する成熟度に基づいてさまざまなレベルに分類できます。下の図に示すように、モデルの成熟度が高ければ高いほど、自動化されたタスクのサポートが向上します。もちろん、これには、データの集中トレーニングを通じてモデルがより多くのタスクを実行し、より多くのサービスを提供できることも必要です。

1. ハイパーパラメータの最適化

データセットが送信されると、自動化された機械学習は、上記の成熟度モデルに基づいて、ランダムフォレスト、線形回帰などのさまざまな既存のモデル（通常は構造化データを使用）との一致を試みます。同時に、データに適用される各モデルの必要に応じてハイパーパラメータを最適化します。このような最適化手法には、手動検索、ランダム検索、グリッド検索などがあります。

たとえば、Auto-sklearn はハイパーパラメータの最適化にベイズモデルを使用し、望ましい結果を提供できます。ただし、この成熟レベルのモデルでは、自動化された機械学習は、クロス検証、機械学習アルゴリズムの選択、ハイパーパラメータの最適化などの限られたタスクしか実行できません。もちろん、成熟度が上がるにつれて、自動化された機械学習の機能は向上し、より良い結果が得られるようになります。

2. レベル1以上のデータ前処理

最初のレベルでは、自動化された機械学習では、ユーザーがデータの前処理手段を自分で実装する必要があります。ただし、第 2 レベルでは、より洗練されたモデルを使用することで、さまざまなデータ前処理タスクを自動化自体で完了し、さらなる処理の準備を整えることができます。

列の型を検索して理解することで、機械学習自体はすべてのデータ (一部の null 値を含む) を一般的な数値型に変換することが完全に可能になります。もちろん、これにはデータの高度な変換や前処理は含まれておらず、データサイエンティスト自身がさらにアクションを実行する必要があります。

対象タスクに対して、システムは適切な機械学習アルゴリズムを検索して選択する役割のみを担います。たとえば、現在のモバイルアプリケーション開発タスクに基づいて、自動化された機械学習アルゴリズムとモデルを設計し、データを前処理して、必要な予算、時間、その他の正確な結果を取得します。

データを前処理することで、自動化された機械学習システムは、特徴選択、次元削減、データ圧縮などの機能を構築および実装し、さまざまなトレーニングタスクをシームレスに実行できます。

3. 適切な機械学習アーキテクチャを見つける

前述の第 1 レベルおよび第 2 レベルの自動化された機械学習システムは、データの性質に基づいて適切な機械学習アーキテクチャを積極的に検出し、実行を通じて優れた出力を保証することができないことは明らかです。 3 番目のレベルでは、AutoKeras などのオープンソースの自動機械学習ライブラリがニューラルアーキテクチャ検索 (NAS、ニューラルアーキテクチャ検索、https://en.wikipedia.org/wiki/Neural_architecture_search を参照) を実装します。この人気の高いアーキテクチャは、画像、音声、テキストに対して機械学習アルゴリズムを効果的に実装できます。

したがって、データサイエンティストは、さまざまなニューラルアーキテクチャ検索アルゴリズムを使用して、自動化された機械学習のサポートと経験の蓄積を強化できます。実際の応用では、自動運転車、自動化された消費者サービスなどの分野で第 3 レベルの自動化された機械学習システムが採用されています。

4. 関連分野の知識の活用

機械学習システムに正確な出力を提供するには、データ、特にデータの範囲とそれをホストするシステムについての深い理解が不可欠です。複雑な人工知能の効果は、関連分野の知識を活用し、必要なすべての基準を念頭に置くことによってのみ実現できます。

既存の関連分野における知識の蓄積と実際のシナリオでのその使用により、最終結果の精度が間違いなく向上することがわかります。同時に、精度の向上により優れた予測機能が向上し、自動化された機械学習タスクに対する包括的なサポートが提供されます。したがって、この成熟度レベルのモデルは、コンテキストドメインの関連知識を増やし、明確な結果指向の記録によって、自動化された機械学習システムの精度を向上させることに重点を置いています。

自動化された機械学習の例

データサイエンスの研究に携わる人々は、さまざまなツールやソフトウェアライブラリを使用して、実際のアプリケーションシナリオのニーズに応じて正確な出力を持つ自動化プロセスや機械学習システムを開発できます。

自動機械学習のためのオープンソースライブラリ

現在、業界には、さまざまな自動機械学習をシステムに実装したいという開発者のニーズをサポートし、満たすことができるさまざまな種類のオープンソースライブラリが存在します。

1. オートケラス

ソフトウェアライブラリは、開発者が GitHub 上で無料で使用できます。 Data Lab が開発した AutoKeras は、すべてのディープラーニングツールへのアクセスを提供し、ディープラーニングモデルの全体的な機能を強化することを目的としています。次のコードは AutoKeras のアプリケーション例です。

 autokeras をakとしてインポートする
clf = ak.ImageClassifier()
 clf.fit(x_train, y_train)
結果 = clf.predict(x_test)

Python ソースコードリンク: https://github.com/jhfjhfj1/autokeras

2. MLボックス

MLBox は Python で書かれた別のオープンソースライブラリです。データの前処理、クリーニング、フォーマットなどの機能を含む、自動機械学習のさまざまな機能をより迅速かつ容易に開発できるようになります。次のコード例は、データをインポートした後に前処理する方法を示しています。

 mlbox.preprocessingからインポート *
 mlbox.optimisationからのインポート *
 mlbox.predictionからインポート *
パス = [ "../input/train.csv" , "../input/test.csv" ]
 target_name = "生き残った"  
 rd = リーダー(sep = "," )
 df = rd.train_test_split(paths, target_name) #読み取りと前処理 (日付など)

Python ソースコードリンク: https://www.kaggle.com/axelderomblay/running-mlbox-auto-ml-package-on-titanic

3. 自動学習

Auto-sklearn は、もう 1 つのオープンソースの自動機械学習サポートライブラリです。適切な機械学習アルゴリズムを選択して、データのモデルと要件を調査します。ユーザー側でのハイパーパラメータ処理の必要性がなくなり、処理自体を実行できるようになります。次のコードは、データセットに Auto-sklearn を実装する例です。

 autosklearn.classificationをインポートする
sklearn.model_selectionをインポートする
sklearn.datasetsをインポートする
sklearn.metricsをインポートする
X, y = sklearn.datasets.load_digits(return_X_y= True )
 X_train、X_test、y_train、y_test = \
 sklearn.model_selection.train_test_split(X, y, ランダム状態=1)
 automl = autosklearn.classification.AutoSklearnClassifier()
 automl.fit(X_train、y_train) を実行します。
 y_hat = automl.predict(X_test)
 print( "精度スコア" , sklearn.metrics.accuracy_score(y_test, y_h

Python ソースコードリンク: https://automated-machine-learning.github.io/auto-sklearn/master/

自動化された機械学習ツール

以下のツールは商用利用向けにリリースされていますが、広く使用されているだけでなく、自動化された機械学習の出力の品質も保証します。

データロボット

DataRobot は、自動化された機械学習をサポートする最初のツールです。人工知能を実現できる高度なプラットフォームを提供し、ユーザーがさまざまな問題を解決するのを支援しながら、ユーザーは実行プロセスをあまり心配する必要がなく、簡単に希望する結果を得ることができます。 DataRobot API は予測をサポートするだけでなく、適切な方法を選択して出力結果を提供することで、マシンがプロセスを自動化できるようにします。

以下のコードは、DataRobot API のアプリケーション例です。データセットを使用して、患者が 30 日以内に各病院に再入院する確率を予測します。

 datarobot をdrとしてインポート 
 pandasをpdとしてインポートする
pd.options.display.max_columns = 1000  
 numpyをnpとしてインポートする 
インポート時間   
 matplotlib.pyplot をpltとしてインポートします。  
 jupyterthemesからjtplotをインポート 
 # 現在インストールされているテーマは 引数が指定されていない場合はプロットスタイルを設定する 
 jtplot.style()  
 get_ipython().magic( 'matplotlib インライン' )  
 #入力データを読み込む 
 df = pd.read_csv( '../demo_data/10kDiabetes.csv' )  
 # データロボットクライアントインスタンスを初期化する 
 dr.Client(config_path= '/Users/benjamin.miller/.config/datarobot/my_drconfig.yaml' )を設定します。  
 #元の 10K 糖尿病データセットから100 個のサンプルを置き換えて作成します
サンプル = []  
 iが範囲(100)内にある場合:  
サンプルを追加(df.sample(10000, replace = True ))  
 # 各サンプルデータフレームをループする 
 enumerate (samples)のi, sについて:  
 # プロジェクトを初期化する 
プロジェクト = dr.Project.start  
 （  
プロジェクト名 = 'API_Test_{}' .format(i+20),  
ソースデータ=s、  
ターゲット = '再入国' 、  
ワーカー数=2  
 ）  
 #すべてのプロジェクトを取得 
プロジェクト = []  
 dr.Project.list()内のプロジェクトの場合:  
 「API_Test」の場合  project.project_name内:  
プロジェクト.append(プロジェクト)  
 # *プロジェクトごとに...*  
 #最も正確なモデルを使用して元のデータセットを予測する 
 #リストを初期化する 結果を統合するためのすべての予測 
ブートストラップ予測 = []  
 # 関連する各プロジェクトをループして、元の入力データセットの予測を取得します 
プロジェクト内のプロジェクト:  
 # 最高のパフォーマンスを発揮するモデルを取得する 
モデル = dr.Model.get(プロジェクト=project.id、モデルID=project.get_models()[0].id)  
 # データセットをアップロード 
新しいデータ = project.upload_dataset(df)
 # 予測ジョブを開始する 
予測ジョブ = model.request_predictions(新しいデータID)  
 # 5秒ごとにジョブステータスを取得し、  動く かつて「進行中」だった   
 iが範囲(100)内にある場合:  
時間.sleep(5)
試す：  
ジョブステータス = dr.PredictJob.get(  
プロジェクトID=プロジェクトID、  
予測ジョブID=予測ジョブID  
 ）。状態 
 except : # 通常、job_statusは完了するとエラーを生成します
壊す 
 # これで予測は終了です 
予測 = dr.PredictJob.get_predictions(
プロジェクトID=プロジェクトID、
予測ジョブID=予測ジョブID
 ）  
 # 行IDと正の確率を抽出 すべての記録と セット 辞書へ 
 pred_dict = {k: kのv 、 zip内のv (predictions.row_id、predictions.positive_probability)}
 #ブートストラップ予測に予測辞書を追加する
bootstrap_predictions.append(予測予測)  
 #すべての予測を、キーをIDとして単一のデータフレームに結合します 
 # 各レコードは行、各列は セットです に関する予測   
 #ブートストラップされたデータセットから作成されたモデル 
 df_predictions = pd.DataFrame(bootstrap_predictions).T  
 # df_predictionsの各観測値の平均予測を追加します 
 df_predictions[ '平均' ] = df_predictions.mean(axis=1)  
 #平均を使用して各レコードを均等なサイズの確率グループに配置する 
 df_predictions[ '確率グループ' ] = pd.qcut(df_predictions[ '平均' ], 10)  
 #各確率グループのすべての予測を集計する   
 d = {} # 格納する辞書{Interval(probability_group): array([predictions])}  
ページ内 設定(df_predictions.probability_group):  
 #特定のグループのすべての予測を結合する   
フレーム = df_predictions[df_predictions.probability_group == pg].iloc[:, 0:100]  
 d[str(pg)] = frame.as_matrix().flatten()  
 #データフレームを作成する 全確率グループ予測 
 df_pg = pd.DataFrame(d)  
 #ボックスプロットを作成する 注文 確率範囲の増加
props = dict(ボックス = 'slategray' 、中央値 = 'black' 、ひげ = 'slategray' )
 viz = df_pg.plot.box(color=props, figsize=(15,7), patch_artist= True , rot=45)
グリッド = viz.grid( False 、軸 = 'x' )
 ylab = viz.set_ylabel( '再入院確率' )
 xlab = viz.set_xlabel( '平均予測確率範囲' )
タイトル = viz.set_title(
 label= '再入院予測範囲による予測分布' ,
フォントサイズ=18
 ）

Python ソースコードリンク: https://blog.datarobot.com/estimation-of-prediction-distributions-using-datarobot

H2O.ai

AI 対応のサービスプラットフォームツールとしてもう 1 つ挙げられるのが H2O です。主に無人運転のAI結果の出力など機械学習タスクを実行するために使用されます。

要約する

上記のツールやソフトウェアライブラリに加えて、Google AutoML (https://cloud.google.com/automl/) などの他の商用ソリューションも市場に出回っています。機械学習の概念を実装しながら自動データトレーニングを可能にし、優れた結果と予測を提供できます。現在、自動化された機械学習の効果が顕著になるにつれて、人工知能技術は継続的に強化されており、ますます多くの企業がそのようなシステムの出力結果から利益を得続けることができます。

原題: 初心者のための自動機械学習ガイド: 理解すべき 4 つの成熟度モデル、著者: Manoj Rupareliya

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<: 機械学習の卒業生は就職に不安を感じ始めています!卒業生と企業のどちらがより厳しいでしょうか?

>>: 多くのビッグデータサイエンティストが仕事を辞めた？理由を説明しましょう。