機械学習技術におけるアンサンブル学習とは何ですか?

機械学習技術におけるアンサンブル学習とは何ですか?

[51CTO.com クイック翻訳] アンサンブル学習は強力な機械学習技術の 1 つです。アンサンブル学習は、複数の機械学習モデルを使用することで、予測結果の信頼性と精度を向上させます。しかし、複数の機械学習モデルを使用すると、予測の精度がどのように向上するのでしょうか? アンサンブル学習モデルを作成するには、どのような手法を使用できますか? この記事では、これらの質問に対する答えを探り、アンサンブル モデルを使用する基本原則と、アンサンブル モデルを作成するための主な方法を検討します。

アンサンブル学習とは何ですか?

簡単に言えば、アンサンブル学習とは、複数の機械学習モデルをトレーニングし、その出力を組み合わせるプロセスです。組織はさまざまなモデルに基づいて最適な予測モデルの構築に取り組んでいます。さまざまな機械学習モデルを組み合わせることで、モデル全体の安定性が向上し、より正確な予測結果を得ることができます。アンサンブル学習モデルは個々のモデルよりも信頼性が高い場合が多く、そのため多くの機械学習の競争で勝利を収めています。

エンジニアはさまざまな手法を使用してアンサンブル学習モデルを作成できます。単純なアンサンブル学習手法は、さまざまなモデルの出力を平均化することで構成されますが、多くの基本学習者/モデルの予測を組み合わせることに特化した、より洗練された方法とアルゴリズムが開発されています。

アンサンブルトレーニングを使用する理由は何ですか?

機械学習モデルは、さまざまな理由により互いに異なる場合があります。異なる機械学習モデルは、母集団データの異なるサンプルに対して動作し、異なるモデリング手法を使用し、異なる仮定を行う可能性があります。

さまざまな専門家で構成されるチームに参加すると、他のメンバーと技術的なトピックについて話し合っていると仮定すると、知っている技術と知らない技術が必ずあるはずです。彼らもあなたと同じで、自分の専門分野しか知らず、他の専門スキルについては何も知りません。しかし、これらの技術的な知識を最終的に組み合わせることができれば、より多くの領域についてより正確な推測が可能になります。これが、異なる個々のモデル(チームメンバー)の予測を組み合わせて精度を向上させ、エラーを最小限に抑えるというアンサンブル学習の原理です。

統計学者は、ある質問に対して、一連の可能な回答を使って正解を推測するように人々のグループに依頼すると、その回答すべてが確率分布を形成することを明らかにしました。実際に正解を知っている人は自信を持って正解を選びますが、間違った答えを選ぶ人は、考えられる間違った答えの範囲全体に推測を広げます。たとえば、推測ゲームで、あなたと 2 人の友人が正解が A だと知っている場合、3 人とも A を選択し、チームの答えを知らない他の 3 人は B、C、D、または E と誤って推測する可能性が高く、結果として A に 3 票が投じられ、他の答えには 1 票か 2 票しか投じられません。

すべてのモデルにはある程度の誤差があります。前述の理由によりモデル自体が異なるため、あるモデルから発生するエラーは別のモデルによって発生するエラーとは異なります。すべてのエラーを調査すると、エラーは 1 つの回答に集中しているのではなく、広範囲に分散していることがわかります。誤った推測は、基本的にすべての可能性のある誤った回答に分散され、互いに打ち消されます。同時に、さまざまなモデルからの正しい推測が正しい答えの周りに集まります。アンサンブルトレーニング法を使用すると、より確実に正解を見つけることができます。

シンプルなアンサンブルトレーニング法

単純なアンサンブル トレーニング方法では、多くの場合、一連の予測のモード、平均、加重平均を決定するなどの統計的アンサンブル手法の適用のみが含まれます。

パターンとは、数字のセットの中で最も頻繁に出現する要素です。このモデルを取得するには、学習した個々のモデルが予測を返し、それが最終予測への投票としてみなされます。予測の平均は、予測の算術平均(最も近い整数に丸められる)を計算することによって決定されます。最後に、予測を作成するために使用されたモデルに異なる重みを割り当てることによって加重平均を計算できます。ここで、重みはそのモデルの予測の重要性を表します。クラス予測の数値表現に重み (0 ~ 1.0) を掛け、個々の重み付け予測を合計して、結果を最も近い整数に丸めます。

高度なアンサンブルトレーニング方法

主な高レベルのアンサンブル トレーニング手法は 3 つあり、それぞれ特定の種類の機械学習問題を解決するように設計されています。 「バギング」という手法は、モデルの予測の分散、つまり同じ観測に基づく予測のばらつきを減らすために使用されます。ブースティング技術を使用してモデルからバイアスを除去します。最後に、スタッキングは予測結果を改善するためによく使用されます。

アンサンブル学習法は、一般的に、順次アンサンブル法と並列アンサンブル法の 2 つのカテゴリに分けられます。

シーケンシャル アンサンブル メソッドは、基本学習者/モデルが順番に生成されるため、「シーケンシャル」と名付けられています。シーケンシャル アンサンブル法の場合、基本的な考え方は、ベース学習者間の依存関係を活用して、より正確な予測を得ることです。誤ってラベル付けされた例は重みが調整され、正しくラベル付けされた例は重みがそのまま維持されます。新しい学習者が生成されるたびに重みが変化し、その精度が向上します。

順次アンサンブル モデルとは対照的に、並列アンサンブル メソッドは並列にベース学習器を生成します。並列アンサンブル学習を行う場合、各学習者の予測を平均化することで全体的なエラー率を削減できるため、ベース学習者の独立性を活用できます。

アンサンブル トレーニング方法は、同種または異種のいずれかになります。ほとんどのアンサンブル学習方法は均質であり、つまり、単一のタイプの基本学習モデル/アルゴリズムを使用します。対照的に、異種アンサンブルは、異なる学習アルゴリズムを使用して学習者を多様化し、可能な限り最高の精度を保証します。

アンサンブル学習アルゴリズムの例

統合された強化された視覚化

シーケンシャル アンサンブル メソッドの例には、AdaBoost、XGBoost、勾配ツリー ブースティングなどがあります。これらはすべてブーストモデルです。これらの強化モデルの目標は、パフォーマンスが低い弱い学習者を高機能の学習者に変えることです。 AdaBoost や XGBoost などのモデルは、ランダムな推測よりもわずかに優れたパフォーマンスを発揮する多くの弱い学習器から始まります。トレーニングが続くと、データに重みが適用され、調整されます。トレーニングの初期段階で学習者によって誤分類されたインスタンスには、より大きな重みが付けられます。このプロセスを必要な数のトレーニング ラウンドで繰り返した後、予測は加重合計 (回帰タスクの場合) と加重投票 (分類タスクの場合) によって結合されます。

バギング学習プロセス

並列アンサンブル モデルの例としてはランダム フォレスト分類器があり、ランダム フォレストはバギング手法の例でもあります。 「バギング」という用語は「ガイド付き集約」に由来します。サンプルは、「ブートストラップ サンプリング」と呼ばれるサンプリング手法を使用して全体のデータ セットから抽出され、ベース学習者はこれらの手法を使用して予測を行います。分類タスクの場合、基本モデルの出力は投票を使用して集計され、回帰タスクの場合は平均化されます。ランダム フォレストは、個々の決定木を基本学習者として使用し、アンサンブル内の各決定木はデータセットからの異なるサンプルを使用して構築されます。特徴のランダムなサブセットも決定木の生成に使用されます。その結果、高度にランダム化された個々の決定木が生成され、それらすべてが組み合わさって信頼性の高い予測が提供されます。

積み重ねられた統合可視化

スタッキング アンサンブル手法では、複数の回帰モデルまたは分類モデルが、より高レベルのメタモデルを通じて結合されます。下位レベルの基本モデルは、データセット全体を入力してトレーニングされます。ベースモデルの出力は、メタモデルをトレーニングするための機能として使用されます。スタックされたアンサンブル モデルは通常、本質的に異質です。

元の記事のタイトル: アンサンブル学習とは何か?、著者: ダニエル・ネルソン

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  百度が銀川市で初のインテリジェントネットワーク試験ライセンスを獲得し、自動運転車が銀川市の公道でデビューした。

>>:  研究者たちは、スマートデバイスがAIを使って声の発信元を判断できるようにする準備を進めている。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

ジェネレーティブ AI でデータ エンジニアリングを変革する方法

企業が生産性を高め、顧客体験を強化する方法を模索する中、生成 AI は今後 10 年間であらゆる業界...

...

卒業生は就職活動のためにアルゴリズムを知っておく必要があります。バイナリ検索をステップバイステップで教えます

1. 二分探索の背景配列またはコレクションに多数の要素が格納されている場合、特定の要素の位置または存...

人工知能は繊維産業の生産プロセスをデジタル化し、自動化するだろう

デジタル変革への最善のアプローチを知りたいですか? 全体的なテクノロジーを明らかにすることはできませ...

...

企業は生成AIのオープンソース化のリスクとメリットを検討

EmTech MIT では、専門家が、生成 AI モデルのオープンソース化の長所と短所を含め、企業で...

...

中国の自動運転分類の国家基準が正式に発表され、来年3月に施行される予定

自動車の電動化や知能化が進む中、自動運転は人々の日常生活にますます近づきつつあります。現在、市場に出...

魂への窓!人工知能は網膜をスキャンして心臓発作を予測できる

ビッグデータダイジェスト制作眼鏡をかければ心臓発作の危険があるかどうかがわかるなんて、驚きですよね?...

自動運転技術アーキテクチャ:安全でインテリジェントな交通システムの構築

人工知能分野における重要なイノベーションとして、自動運転技術は将来の交通の様相を徐々に変えつつありま...

ヘルスケアにおける人工知能

[[433316]] AI の恩恵を受けるすべての業界の中で、ヘルスケアはおそらく最も重要かつ関連性...

ワシントンポスト紙の李開復氏のコラム:お金を与えることでAI失業危機は解決するのか?シリコンバレーの大物は世間知らずすぎる

AI革命が到来し、それは最良の時代になるかもしれないし、最悪の時代になるかもしれない。それが良いこと...

自動運転車の台頭は半導体業界に発展のチャンスをもたらす

現在市販されている「手動運転」の自動車には、ナビゲーション、車載インフォテインメントシステム、道路監...

「幻獣パル」が大ヒット、大手企業も黙っていられない。このゲームはAIが設計?

最近、多くのソーシャル ネットワーキング プラットフォームに、オープン ワールド サバイバル ゲーム...

GPT-4 は宇宙のすべてのデータを消費します! OpenAI、データ不足で相次いで訴訟に直面、カリフォルニア大学バークレー校教授が警告

「ネットワーク全体」を使い果たすと、生成 AI はすぐにデータを使い果たします。最近、カリフォルニア...