アンサンブル学習: 3人の頭脳は1人の頭脳よりも優れている

アンサンブル学習: 3人の頭脳は1人の頭脳よりも優れている

[51CTO.com からのオリジナル記事] 「靴屋が 3 人いれば、諸葛亮 1 人より優れている」ということわざがあります。複数の弱い立場の人々が知恵を結集する方法があれば、より良い結果が得られます。

[[241185]]

実際、アンサンブル学習の考え方は同じです。新しいインスタンスを分類するときに、複数の単一分類器が統合され、複数の分類器の分類結果を何らかの方法で組み合わせて最終的な分類が決定され、単一の分類器よりも優れたパフォーマンスが実現されます。

単一の分類器を意思決定者に例えると、アンサンブル学習法は複数の意思決定者が一緒に意思決定を行うことに相当します。

アンサンブル学習の一般的なアルゴリズム

現在、アンサンブル学習で一般的に使用されているアルゴリズムは、バギング、ブースティング、スタッキングの 3 つです。

バギングアルゴリズム

バギング アルゴリズム。ブートストラップ集約アルゴリズムとも呼ばれます。バギングはブートストラップと集約を組み合わせて形成された複合モデルであるため、通常はバギングという名前が使用されます。

バギング アルゴリズムは、主にサンプル トレーニング セットに対してランダム サンプリングを実行し、繰り返しサンプリングすることで新しいモデルをトレーニングし、最終的にこれらのモデルに基づいて包括的な予測結果を選択します。

袋詰め

バギングに基づく代表的なアルゴリズムにはランダムフォレストがある。

ブースティングアルゴリズム

ブースティング アルゴリズムは、一般的に使用されている効果的な統計学習アルゴリズムであり、反復アルゴリズムです。ブースティングとバギングの違いは、重み付けされたデータが弱い分類器を使用して順番にトレーニングされることです。

ブースティングは、弱い学習器を継続的に使用して、以前の弱い学習器の「欠陥」を補うことで、より強い学習器を連続的に構築します。この強い学習器は、目的関数の値を十分に小さくすることができます。

ブースト

Boosting シリーズのアルゴリズムの中で最も人気のあるアルゴリズムは、AdaBoost アルゴリズムと GBDT アルゴリズムです。

スタッキングアルゴリズム

スタッキング アルゴリズムは、メタ分類器またはメタ回帰器を通じて複数の分類モデルまたは回帰モデルを統合するアンサンブル学習手法です。ベースモデルはトレーニング セット全体をトレーニングに使用し、メタモデルはベースモデルの機能をトレーニングの機能として使用します。

スタッキング

基本モデルには通常、異なる学習アルゴリズムが含まれているため、スタッキングは通常、異種のアンサンブルになります。

アンサンブル学習のための組み合わせ戦略

平均法

数値出力の場合、最も一般的な結合戦略は平均化を使用することです。

  • 単純平均法

  • 加重平均法

ただし、大規模な統合の場合、重みパラメータが多くなり、過剰適合に陥りやすくなります。加重平均法は必ずしも単純平均法よりも優れているわけではありません。

一般的に、学習者ごとの成績が大きく異なる場合には加重平均法を用いるのが適切であり、学習者ごとの成績が同程度である場合には単純平均法を用いるのが適切である。

投票法

多数決: 最も多くの票を獲得したマークが予測となります。複数のマークが同時に *** 票を獲得した場合、ランダムに 1 つが選択されます。

予測カテゴリが、任意の予測サンプル x に対して、弱学習器の予測結果がそれぞれであると仮定します。 最も単純な投票方法は相対多数決投票法で、これはよく「少数が多数に従う」と呼ばれるものです。つまり、サンプル X に対する弱学習器の予測結果のうち、最も数字が大きいカテゴリが最終的な分類カテゴリになります。複数のカテゴリーが最も多くの票を獲得した場合、最終カテゴリーとしてランダムに 1 つが選ばれます。

絶対多数決方式: ラベルが過半数の票を獲得した場合、そのラベルの予測が有効になります。そうでない場合、予測は拒否されます。

これは、しばしば多数決と呼ばれる相対多数決方式よりも複雑です。相対多数決方式に基づくと、100% の投票だけでなく、過半数の投票も必要になります。

加重投票法:アルゴリズムはより複雑です。加重平均法と同様に、各弱学習器の分類投票に重みを掛け、最後に各カテゴリの加重投票を合計し、最も高い値に対応するカテゴリが最終カテゴリになります。

学習方法

トレーニング データが大量にある場合、エラーを最小限に抑えるために、より強力な組み合わせ戦略、つまり「学習法」を使用して、別の学習者を介して組み合わせることができます。

学習方法としては、スタッキングが代表的な方法です。スタッキングの組み合わせ戦略では、弱学習器の結果に対して単純な論理処理を実行するのではなく、もう 1 層の学習器を追加します。つまり、トレーニング セット内の弱学習器の学習結果を入力として、トレーニング セットの出力を出力として使用し、学習器を再トレーニングして最終結果を取得します。

この場合、弱い学習者を一次学習者、組み合わせに使用される学習者を二次学習者と呼びます。テスト セットでは、最初にプライマリ学習器を使用して 1 回予測し、セカンダリ学習器の入力サンプルを取得し、次にセカンダリ学習器を使用してもう一度予測し、最終的な予測結果を取得します。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  「ブロックチェーン+人工知能」は医療金融やその他の応用シナリオに応用されています

>>:  アルゴリズムは偏っているか?他の人よりも優れていればいいのです!

ブログ    
ブログ    
ブログ    

推薦する

スマートコミュニティにおける人工知能応用の5つのシナリオ

モノのインターネット、クラウド コンピューティング、ビッグ データ、人工知能は、概念からアプリケーシ...

人工知能を活用した新しい小売無人店舗の発展展望は?

[[253800]] 2017年にジャック・マーがニューリテールの概念を提唱して以来、雨後の筍のよ...

2020年に人工知能はどのように発展するでしょうか?知っておくべき6つのトレンド

過去1年を振り返ると、人工知能の発展は繁栄し、多彩なものであったと言えます。人工知能が3回連続で政府...

「象の鼻」ロボットが登場!ボトルキャップを開けたり、家事も問題なく行えます。

ロボットに対する従来の印象は、四角くて冷たい機械、または人間に似た機械ですが、柔らかいロボット、特に...

Java プログラミング スキル - データ構造とアルゴリズム「フィボナッチ検索」

[[398011]]基本的な紹介フィボナッチとは、線分を 2 つの部分に分割し、一方の長さと全体の...

AI はその「創造物」に対して創造的権利を有するのでしょうか?人民日報:いいえ

AI技術の発展に伴い、AIの創作への参加も魅力的なハイライトとなっています。そこで疑問なのが、AI ...

AIシミュレーターが物理シミュレーションで新たなSOTAを達成!

機械学習により、コンピュータグラフィックス(CG)シミュレーションがよりリアルになります。この方法は...

...

テキストからキーワードを抽出するにはどうすればいいですか? Daguan Dataが使用する3つのアルゴリズムから始めましょう

導入自然言語処理の分野では、膨大なテキストファイルを処理する上で、ユーザーが最も関心を持っている問題...

GPT-3 の推論高速化は NVIDIA のソリューションを 50% 上回ります。大規模モデル推論システムEnergon-AIオープンソース

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AIとIoTの完璧な組み合わせ

AI と IoT が広く使用されるようになるにつれて、これら 2 つのテクノロジーがどのように連携し...

世界中の人工知能企業の数:米国 2,028 社、インド 800 社、中国はどうでしょうか?

テクノロジーは生活を変えるだけでなく、世界も変えることができます。 1760年代初頭、イギリスを中心...

このAIは、監視カメラを素早く検索し、重要なシーンを見つけ、24時間のビデオを10分で処理するのに役立ちます。

1月23日のニュース、今日では、ビデオ監視の存在により、過去には検証が困難だった多くの事実を記録す...

Googleの2018年度PhDフェローシップが発表され、選ばれた8人の中国人学生は全員国内の大学を卒業した。

[[225280]] 2018年度Google PhDフェローシップ(北米、ヨーロッパ、中東)の候...

重要なポイントを強調します。最大2億元の支援、AIイノベーション開発パイロットゾーンの5つの重点政策を理解する

[[344168]] 2019年8月、科学技術部は「国家新世代人工知能イノベーション開発パイロットゾ...