アンサンブル学習: 3人の頭脳は1人の頭脳よりも優れている

アンサンブル学習: 3人の頭脳は1人の頭脳よりも優れている

[51CTO.com からのオリジナル記事] 「靴屋が 3 人いれば、諸葛亮 1 人より優れている」ということわざがあります。複数の弱い立場の人々が知恵を結集する方法があれば、より良い結果が得られます。

[[241185]]

実際、アンサンブル学習の考え方は同じです。新しいインスタンスを分類するときに、複数の単一分類器が統合され、複数の分類器の分類結果を何らかの方法で組み合わせて最終的な分類が決定され、単一の分類器よりも優れたパフォーマンスが実現されます。

単一の分類器を意思決定者に例えると、アンサンブル学習法は複数の意思決定者が一緒に意思決定を行うことに相当します。

アンサンブル学習の一般的なアルゴリズム

現在、アンサンブル学習で一般的に使用されているアルゴリズムは、バギング、ブースティング、スタッキングの 3 つです。

バギングアルゴリズム

バギング アルゴリズム。ブートストラップ集約アルゴリズムとも呼ばれます。バギングはブートストラップと集約を組み合わせて形成された複合モデルであるため、通常はバギングという名前が使用されます。

バギング アルゴリズムは、主にサンプル トレーニング セットに対してランダム サンプリングを実行し、繰り返しサンプリングすることで新しいモデルをトレーニングし、最終的にこれらのモデルに基づいて包括的な予測結果を選択します。

袋詰め

バギングに基づく代表的なアルゴリズムにはランダムフォレストがある。

ブースティングアルゴリズム

ブースティング アルゴリズムは、一般的に使用されている効果的な統計学習アルゴリズムであり、反復アルゴリズムです。ブースティングとバギングの違いは、重み付けされたデータが弱い分類器を使用して順番にトレーニングされることです。

ブースティングは、弱い学習器を継続的に使用して、以前の弱い学習器の「欠陥」を補うことで、より強い学習器を連続的に構築します。この強い学習器は、目的関数の値を十分に小さくすることができます。

ブースト

Boosting シリーズのアルゴリズムの中で最も人気のあるアルゴリズムは、AdaBoost アルゴリズムと GBDT アルゴリズムです。

スタッキングアルゴリズム

スタッキング アルゴリズムは、メタ分類器またはメタ回帰器を通じて複数の分類モデルまたは回帰モデルを統合するアンサンブル学習手法です。ベースモデルはトレーニング セット全体をトレーニングに使用し、メタモデルはベースモデルの機能をトレーニングの機能として使用します。

スタッキング

基本モデルには通常、異なる学習アルゴリズムが含まれているため、スタッキングは通常、異種のアンサンブルになります。

アンサンブル学習のための組み合わせ戦略

平均法

数値出力の場合、最も一般的な結合戦略は平均化を使用することです。

  • 単純平均法

  • 加重平均法

ただし、大規模な統合の場合、重みパラメータが多くなり、過剰適合に陥りやすくなります。加重平均法は必ずしも単純平均法よりも優れているわけではありません。

一般的に、学習者ごとの成績が大きく異なる場合には加重平均法を用いるのが適切であり、学習者ごとの成績が同程度である場合には単純平均法を用いるのが適切である。

投票法

多数決: 最も多くの票を獲得したマークが予測となります。複数のマークが同時に *** 票を獲得した場合、ランダムに 1 つが選択されます。

予測カテゴリが、任意の予測サンプル x に対して、弱学習器の予測結果がそれぞれであると仮定します。 最も単純な投票方法は相対多数決投票法で、これはよく「少数が多数に従う」と呼ばれるものです。つまり、サンプル X に対する弱学習器の予測結果のうち、最も数字が大きいカテゴリが最終的な分類カテゴリになります。複数のカテゴリーが最も多くの票を獲得した場合、最終カテゴリーとしてランダムに 1 つが選ばれます。

絶対多数決方式: ラベルが過半数の票を獲得した場合、そのラベルの予測が有効になります。そうでない場合、予測は拒否されます。

これは、しばしば多数決と呼ばれる相対多数決方式よりも複雑です。相対多数決方式に基づくと、100% の投票だけでなく、過半数の投票も必要になります。

加重投票法:アルゴリズムはより複雑です。加重平均法と同様に、各弱学習器の分類投票に重みを掛け、最後に各カテゴリの加重投票を合計し、最も高い値に対応するカテゴリが最終カテゴリになります。

学習方法

トレーニング データが大量にある場合、エラーを最小限に抑えるために、より強力な組み合わせ戦略、つまり「学習法」を使用して、別の学習者を介して組み合わせることができます。

学習方法としては、スタッキングが代表的な方法です。スタッキングの組み合わせ戦略では、弱学習器の結果に対して単純な論理処理を実行するのではなく、もう 1 層の学習器を追加します。つまり、トレーニング セット内の弱学習器の学習結果を入力として、トレーニング セットの出力を出力として使用し、学習器を再トレーニングして最終結果を取得します。

この場合、弱い学習者を一次学習者、組み合わせに使用される学習者を二次学習者と呼びます。テスト セットでは、最初にプライマリ学習器を使用して 1 回予測し、セカンダリ学習器の入力サンプルを取得し、次にセカンダリ学習器を使用してもう一度予測し、最終的な予測結果を取得します。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  「ブロックチェーン+人工知能」は医療金融やその他の応用シナリオに応用されています

>>:  アルゴリズムは偏っているか?他の人よりも優れていればいいのです!

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

人工知能を客観的に見てみましょう。この記事では、AI が世界を変える 5 つの理由を紹介します。

人工知能 (AI) は、私たちがよく人工知能と呼んでいるものです。これは、コンピューター プログラム...

マスク氏:ニューラリンクが初めて人体にチップを埋め込み、製品化へ

マスク氏の脳コンピューターインターフェース企業ニューラリンクがついに人間に対する臨床研究を開始した。...

人工知能には関連する専門家の参加も必要です!これはより良く、より速くなります

機械にはハードウェアだけでなくソフトウェアもあります。ハードウェアには材料や電力の問題が必要ですが、...

...

...

気候ガバナンスの年、希望はAIにある

[[391671]]気候変動は今日世界が直面している最大の課題となっています。国連は、2021年が地...

清華大学がJittorをオープンソース化:国内初の大学開発のディープラーニングフレームワーク、PyTorchへのワンクリック変換が可能

Theano、Caffeに続き、大学主導のディープラーニングフレームワークがオープンソース化され、国...

...

...

2020 年の RPA の 7 つの主要トレンド: AI の有効化からより戦略的な拡張まで

ロボティック プロセス オートメーション (RPA) サービス プロバイダーである Blue Pri...

Web 2.0 のソーシャル関連性ランキング アルゴリズムの探究

FriendFeed は最近検索機能を開始しましたが、Facebook もすぐに追随すると思います。...

人工知能の7つの応用シナリオ

人工知能とは、人間の行動や思考をシミュレートし、トレーニングを通じて特定の問題を解決できる機械によっ...

ニューラルネットワークの仕組みを1つの記事で学ぶ

出典: getwallpapers.comディープラーニングは機械学習の重要な分野の 1 つです。そ...