機械学習が自動的にモデル化を手助けしてくれる、これら4つのPythonライブラリがあなたの目を開かせてくれる

自動機械学習 (AutoML と略されることが多い) は、機械学習モデルを構築してデータをモデリングするプロセスを自動化する新しい分野です。 AutoML を使用すると、モデリングがより簡単かつ誰でもアクセスしやすくなります。

[[342604]]

AutoML に興味があるなら、これら 4 つの Python ライブラリが最適です。

1.自動学習

auto-sklearn は、誰もが使い慣れている標準の sklearn インターフェースとシームレスに統合される、自動化された機械学習ツールライブラリです。ベイズ最適化などの最新の手法を使用することで、ライブラリを使用して、可能なモデルの空間をナビゲートし、特定の構成が特定のタスクを適切に実行するかどうかを推測することを学習できます。

このライブラリは Matthias Feurer らによって作成され、その技術的な詳細は論文「効率的で堅牢な機械学習」に記載されています。Feurer は次のように書いています。

…scikit-learn をベースにした強力な新しい AutoML システムを導入します (15 個の分類器、14 個の機能前処理方法、4 個のデータ前処理方法を使用し、110 個のハイパーパラメータの構造化された仮説空間を生成します)。

auto-sklearn はおそらく AutoML を始めるのに最適なライブラリです。検出データセットのデータ準備とモデル選択に加えて、類似のデータセットで優れたパフォーマンスを発揮するモデルから学習し、最高のパフォーマンスを発揮するモデルを集約することもできます。

効率的な実装に加えて、auto-sklearn は最小限のユーザー操作しか必要としません。ライブラリは、 pip install auto-sklearn を使用してインストールできます。

使用できる主なクラスは AutoSklearnClassifier と AutoSklearnRegressor で、それぞれ分類タスクと回帰タスクに使用されます。どちらにもユーザー指定の同じパラメータがあり、最も重要なのは時間制限とコレクションサイズです。

 autosklearn をaskとしてインポートします
回帰タスク用の #ask.regression.AutoSklearnRegressor()
 model = ask.classification.AutoSklearnClassifier(ensemble_size=10, #最終セットのサイズ（最小値は1）
                                                 time_left_for_this_task=120, #プロセスが実行される秒数
                                                 per_run_time_limit=30) #各モデルに割り当てられる最大秒数
model.fit(X_train, y_train) #検索モデルのフィッティングを開始
print(model.sprint_statistics()) #検索統計を印刷する
y_predictions = model.predict(X_test) #モデルから予測値を取得する

AutoSklearn 公式ドキュメント: https://automl.github.io/auto-sklearn/master/

2.TPOT

TPOT は自動モデリング用の別の Python ライブラリですが、このライブラリはデータの準備、モデリングアルゴリズム、モデルハイパーパラメータに重点を置いています。これは、「機械学習パイプラインの設計と最適化を自動化するツリーベースのパイプライン最適化ツール (TPOT)」と呼ばれる進化型ツリーベースの構造を通じて、機能の選択、前処理、構築を自動化します。

プログラムまたはパイプラインはツリーとして表されます。遺伝的プログラムは、特定のプログラムを選択して進化させ、各自動化された機械学習パイプラインの最終結果を最大化します。

Pedro Domingos 氏は、「大量のデータを扱うガベージアルゴリズムは、限られたデータを扱う賢いアルゴリズムよりも優れています」と述べています。これは真実でもあります。TPOT は複雑なデータ前処理パイプラインを生成できます。

TPOT パイプラインオプティマイザーは、多くの AutoML アルゴリズムと同様に、良好な結果を生成するのに数時間かかる場合があります (データセットが小さい場合を除く)。これらの長いプログラムを Kaggle コミッティまたは googlecolab で実行することもできます。

インポートtpot
 pipeline_optimizer = tpot.TPOTClassifier(generations=5, #トレーニングの反復回数
                                         population_size=20, #トレーニング用データの量
                                         cv=5) #StratifiedKFold の倍数
pipeline_optimizer.fit(X_train, y_train) #パイプライン オプティマイザーを適合します。時間がかかる場合があります。print(pipeline_optimizer.score(X_test, y_test)) #パイプライン スコアを出力します。
 pipeline_optimizer.export( 'tpot_exported_pipeline.py' ) #パイプラインを Python コードでエクスポートします。

TPOT の最大の特徴は、モデルを Python コードファイルとしてエクスポートでき、後で簡単に使用できることです。

TPOT 公式ドキュメント: https://epistasislab.github.io/tpot/

TPOT の例: https://epistasislab.github.io/tpot/examples/

3. ハイパーオプト

HyperOpt は、James Bergstra によって開発されたベイズ最適化用の Python ライブラリです。数百のパラメータを持つモデルの大規模な最適化用に設計されたこのライブラリは、複数のコアとマシンにわたる最適化プロセスを選択するオプションを使用して、機械学習パイプラインを明示的に最適化するために使用できます。

ただし、HyperOpt は非常に技術的であり、最適化の手順とパラメータを慎重に指定する必要があるため、直接使用するのは困難です。代わりに、sklearn ライブラリの HyperOpt ラッパーである HyperOpt-sklearn を使用することをお勧めします。

具体的には、HyperOpt は前処理をサポートしていますが、特定のモデル内の多くのハイパーパラメータに重点が置かれています。 HyperOpt-sklearn の検索結果の 1 つをよく見ると、前処理なしの勾配ブースティング分類器が結果に表示されていることがわかります。

 { 'learner' : GradientBoostingClassifier(ccp_alpha=0.0, criterion= 'friedman_mse' , init=None,
                           学習率=0.009132299586303643、損失= '逸脱' 、
                           max_depth=なし、max_features= 'sqrt' 、
                           max_leaf_nodes=なし、min_impurity_decrease=0.0、
                           min_impurity_split=なし、min_samples_leaf=1、
                           min_samples_split=2、min_weight_fraction_leaf=0.0、
                           n_estimators=342、n_iter_no_change=なし、
                           事前ソート= 'auto' 、ランダム状態=2、
                           サブサンプル=0.6844206624548879、tol=0.0001、
                           検証率=0.1、詳細=0、
                           warm_start = False )、 'preprocs' : ()、 'ex_preprocs' : ()}

HyperOpt-sklearn モデルの構築に関するドキュメント: http://hyperopt.github.io/hyperopt-sklearn/。

HyperOpt ライブラリは auto-sklearn や TPOT よりもはるかに複雑ですが、ハイパーパラメータがモデルにとって非常に重要である場合は、使用する価値があります。

4. オートケラス

ニューラルネットワークとディープラーニングは、標準的な機械学習ライブラリよりも強力であるため、自動化がより困難になります。

AutoKeras を使用すると、Neural Architecture Search アルゴリズムは、レイヤー内のニューロンの数、レイヤーの数、マージするレイヤー、フィルターサイズやドロップアウトニューロンの割合などのレイヤー固有のパラメーターなど、最適なアーキテクチャを見つけます。検索が完了すると、モデルは通常の TensorFlow/Keras モデルとして使用できるようになります。

AutoKeras を使用すると、ディープラーニングを学習している人にとってはあまり理解しにくい複雑な要素 (埋め込みや空間縮小など) を含むモデルを構築できます。

AutoKeras がモデルを作成すると、テキストデータのベクトル化やクリーンアップなどの多くの前処理が実行され、最適化されます。

検索を開始してトレーニングするには 2 つの行が必要です。 AutoKeras は Keras のようなインターフェースを備えているため、覚えたり使用したりするのは難しくありません。

AutoKeras は、テキスト、画像、構造化データのサポートに加え、初心者やより技術的な詳細を求めるユーザー向けのインターフェースを備え、進化型ニューラルアーキテクチャ検索アプローチを使用して、面倒な作業や曖昧さを排除します。

AutoKeras の実行には長い時間がかかりますが、実行時間、探索するモデルの数、検索空間のサイズなどを制御するために使用できるユーザー指定のパラメーターが多数あります。

AutoKeras を使用して生成されたテキスト分類タスクのこの考慮されたアーキテクチャを検討してください。

ハイパーパラメータ | 値 | これまでの最高値
text_block_1/ブロックタイプ|トランスフォーマー|トランスフォーマー
分類ヘッド1/ドロップアウト|0 |0
オプティマイザー |アダム |アダム
学習率 |0.001 |0.001
テキストブロック1/最大トークン数|20000 |20000
テキストブロック1/テキストから整数へのシーケンス1/出力シーケンスの長さ|200 |200
 text_block_1/transformer_1/事前トレーニング|なし |なし
テキストブロック1/トランスフォーマー1/埋め込み寸法|32 |32
テキストブロック1/トランスフォーマー1/num_heads|2 |2
テキストブロック1/トランスフォーマー1/高密度|32 |32
テキストブロック1/トランスフォーマー1/ドロップアウト|0.25 |0.25
テキストブロック1/空間削減1/削減タイプ|グローバル平均|グローバル平均
テキストブロック1/高密度ブロック1/レイヤー数|1 |1
 text_block_1/dense_block_1/use_batchnorm| False | False                 
テキストブロック1/高密度ブロック1/ドロップアウト|0.5 |0.5
テキストブロック1/密ブロック1/ユニット0|20 |20

AutoKeras チュートリアル: https://towardsdatascience.com/automl-creating-top-performing-neural-networks-without-defining-architectures-c7d3b08cddc

AutoKeras 公式ドキュメント: https://autokeras.com/

比較: どの AutoML ライブラリを使用すべきでしょうか?

シンプルでクリーンなインターフェースと比較的高速な結果が主なニーズである場合は、auto-sklearn を選択してください。さらに、ライブラリは sklearn と自然に統合されており、一般的なモデルやメソッドで使用できるため、タイミングをより細かく制御できます。

必要なトレーニング時間が長くなる可能性に関係なく、高精度を最優先する場合は、TPOT を使用します。パイプラインをツリー構造として表現することで可能になる、高度な前処理方法に重点を置いています。ボーナスヒント: TPOT は最適なモデルの Python コードを出力できます。

トレーニング時間が長くなる可能性に関係なく、高精度を優先する場合は、HyperOpt sklearn を使用できます。モデルのハイパーパラメータの最適化に重点を置いても、具体的な状況はデータセットとアルゴリズムによって異なるため、何らかの効果が得られるかどうかは不明です。

問題を解決するためにニューラルネットワークが必要な場合、特に問題がテキストや画像の形式で提供される場合は、AutoKeras を使用します。トレーニングには長い時間がかかりますが、時間と検索空間のサイズを制御する方法は多数あります。

<<: COVID-19パンデミックは不動産業界のインテリジェントな変革とアップグレードを加速させた

>>: AIが書いた記事は教師を本当に騙すことができる

ブログ

All Research: AIガバナンス市場規模は2027年に13億4,520万米ドルに達する

機械学習が自動的にモデル化を手助けしてくれる、これら4つのPythonライブラリがあなたの目を開かせてくれる

All Research: AIガバナンス市場規模は2027年に13億4,520万米ドルに達する

フェイフェイ・リーのチームの新しい研究：脳制御ロボットが家事を行い、脳コンピューターインターフェースに少ないサンプルで学習する能力を与える

物流と輸送における人工知能の将来的な役割

機械学習のコンテナ化: TensorFlow、Kubernetes、Kubeflow

「ロボット」は詐欺の標的になり得るのか？

AIが初めて量子レベルで物質を記述！自然：化学分野で最も価値のある技術の一つ

推薦する

感情知能の高いNPCがやって来て、手を伸ばすとすぐに次の行動に協力する準備が整いました。

AIの時代において、従来の検索エンジンはどこへ向かうのでしょうか?

貧困が私を訓練した

Huawei NoahのPangu Agentは、インテリジェントエージェントが構造化推論を学習するのを支援します

正義がアルゴリズムを採用したとき、最後に笑うのは正義か、それともテクノロジーか?

顔認識は道徳的および倫理的な懸念を引き起こします。あなたの顔は監視されていますか？

人工知能が医薬品開発を加速させる

Appleの会話型AI予算は1日あたり数百万ドルに拡大

GenAIは将来のインシデント管理プロセスを形作っています

ディープラーニング/コンピュータービジョンでよくある8つの間違いとその回避方法

機械学習 = 「新しいボトルに入った古いワイン」の統計？いいえ！

人工知能はどのようにして新しい世界を創造するのでしょうか?

ロボティックプロセスオートメーションについて知っておくべき 10 のこと

考えてみると恐ろしいですね！人工知能は、成功率70％で人間の行動を操作することを学習したと疑われている。