生物学(または生命科学)に対する理解は時間の経過とともに大きく深まり、多くのエンジニアにとって、困難な問題を解決し、発明を生み出すための重要なインスピレーションの源となっています。 日本の高速鉄道「新幹線」を例に挙げてみましょう。新幹線は時速300kmを超える世界最速の鉄道の一つです。 設計の過程で、エンジニアたちは大きな問題に遭遇しました。列車の前方の空気の移動によって発生する騒音が非常に大きく、一部のトンネルの構造に損傷を与える可能性があるという問題です。 彼らは予想外の方法でこの問題の解決策を見つけました。それはカワセミです。この鳥はくちばしが長く、水しぶきを少なくして獲物を捕まえるために水中に飛び込むことができます。 そこで、エンジニアたちは列車を鳥に似せて再設計することで、当初の問題を解決しただけでなく、列車の電力消費を 15% 削減し、速度を 10% 向上させました。
図1-日本の高速鉄道、新幹線、出典 生物学的知識は機械学習のインスピレーションの源にもなります。 コンテンツこの記事で焦点を当てている例の 1 つは、進化する決定木です。 このタイプの分類器は進化的アルゴリズムを使用して、より堅牢でパフォーマンスの優れた決定木を構築します。進化アルゴリズムは、生物学的進化にヒントを得たメカニズムに依存しています。
データセットこの記事の概念を説明するために、航空会社の乗客満足度に関する調査結果のデータセットを使用します。このデータセットの詳細については、こちらをご覧ください。 その目的は、航空会社のサービスに対する顧客満足度を予測することです。このような調査は企業の意思決定にとって非常に重要です。商品やサービスを提供する企業は、自社の製品の改善が必要な箇所を把握できるだけでなく、どの程度の改善が必要なのか、改善の緊急性はどの程度なのかも把握できるようになります。 では早速、決定木の基本を確認してみましょう。 1. 決定木とは何ですか?決定木は、分類プロセスをツリー図として表現できる分類器です。トレーニング プロセス中に、モデルはデータの特性に基づいて単純な決定ルールを推測し、それに応じてデータ ポイントを分類します。 下の図は決定木の例を示しています。これは、航空会社の乗客満足度に関する調査結果のデータセットで Scikit Learn 決定木モジュールをトレーニングした結果です。 図2 - 決定木の例 意思決定ツリーは、オンライン チェックイン サービスが出張中の乗客満足度の重要な要素であり、オンラインで簡単かつ効率的にチェックインできると乗客の満足度が高くなることを示しています。さらに、機内Wi-Fiの信号品質も非常に重要です。 決定木は、次のような多くの利点があるため、分類タスクで広く使用されています。
決定木を導出するためのほとんどのアルゴリズムは、トップダウンの再帰的分割の「貪欲」戦略を使用します。 ソース セットはツリーのルート ノードを表します。ソース セットは、特定のルールに従ってサブセット (サブノード) に分割されます。特定のノード下のサブセット内のターゲット変数の値がすべて同じになるか、または分割プロセスによって予測結果の値が増加しなくなるまで、分割された各サブセットに対して分割プロセスが繰り返されます。 ノードとパーティションでテストを生成する最適な方法を決定するために使用される定量的なメトリックは、アルゴリズムに固有です。最も一般的な指標は、情報コンテンツ (またはエントロピー) とジニ不純度です。これらは不純度を測定します。ノードのすべてのサンプルが同じカテゴリに属している場合、このタイプの指標の値は 0 です。ノードのサンプルのカテゴリが均一に分布している場合 (つまり、ノードが特定のカテゴリを取る確率が一定である場合)、このタイプの指標の値は最大値に達します。詳細については、この記事をご覧ください。 ただし、このような指標には主に 2 つの欠点があります。 2. 複雑すぎる決定木が生成され、トレーニング データ内で適切に一般化されず、過剰適合が発生する可能性があります。 これらの問題を克服するために、いくつかのアプローチが開発されました。
したがって、ツリー モデルを生成する他の方法を検討する必要があります。最近、進化アルゴリズム(EA)が大きな注目を集めています。進化型アルゴリズムは、ローカル検索だけでなく、すべての可能なソリューションの中から強力なグローバル検索を実行します。その結果、進化的アルゴリズムは貪欲な戦略よりも属性の相互作用をより適切に処理できる可能性が高くなります。 進化アルゴリズムの具体的な動作方法を以下に示します。 2. 進化アルゴリズムを使用して決定木を構築するにはどうすればよいでしょうか? 進化アルゴリズムは、自然界の生物学的進化プロセスから派生したメカニズムを持つ探索的ヒューリスティック手法です。 このパラダイムでは、集団内の各「個体」が特定の問題に対する解決策の候補を表します。各個体の適応度はソリューションの品質を表します。このようにして、ランダムに初期化された最初の集団は、検索空間内のより良い領域に向かって進化します。各世代において、選択プロセスによって、適応度の高い個体(原文では「適応度が低い」となっているが、これは誤りである疑いがある)の繁殖確率が高くなります。 さらに、2 つの個体の情報が子孫に受け継がれる前に混合される組み換えや、個体に小さなランダムな変化をもたらす突然変異など、遺伝学にヒントを得た特定の操作が集団に対して実行されます。このプロセスは、特定の終了条件に達するまで繰り返されます。次に、回答として最適な個人を選択します。 進化的アルゴリズムに基づく決定木は、次のような理由から、汎用的な方法の興味深い代替手段となります。
2.1 人口の初期化進化的決定木では、個体が決定木を表します。初期の集団はランダムに生成された木で構成されます。 ランダムツリーは次のように生成できます。 ルート ノードと 2 つの子ノードの後、アルゴリズムは、各子ノードを分割し続けるか、事前に設定された確率 p で終了ポイントになるかを決定します。
2.2 フィットネス分類器の目標は、新しいラベルなしデータを入力したときに、可能な限り最高の予測精度を達成することです。さらに、決定木分類器では、ツリーの最終的なサイズを制御する必要もあります。ツリーのサイズが小さいとアンダーフィッティングにつながり、ツリーの構造が複雑な場合はオーバーフィッティングにつながります。 したがって、フィットネスを定義するには、次のバランスが必要です。 適応度 = α1 f1 + α2 f2 で:
2.3. 選考プロセス次の世代の木を作成するために使用する親を選択する方法はいくつかあります。最も一般的なものは次のとおりです。
2.4 再編組み換え子孫を得るプロセスでは、親をペアにする必要があります。 まず、2 人の個体が親として選択されます。次に、2 つのツリーのそれぞれでノードをランダムに選択します。最初のツリーで選択されたサブツリーを 2 番目のツリーで選択されたサブツリーに置き換えて、子孫を取得します。 図3-再編 2.5 突然変異突然変異とは、集団内の少数の個体がランダムに選択されることです。突然変異により遺伝的多様性が確保され、遺伝的アルゴリズムはより広い範囲を検索できるようになります。 決定木の場合、属性をランダムに変更したり、ランダムに選択されたノードを細分化したりすることで突然変異を実現できます。 図4 - 突然変異 2.6 終了条件最良の個体の適応度が指定された世代数にわたって増加しない場合、アルゴリズムは収束したとみなされます。 この世代数は、収束が遅い場合に計算時間を節約するために事前に設定されたパラメータです。 3. 進化した決定木のパフォーマンスは他の分類器と比べてどうですか?進化する決定木は素晴らしいように見えますが、通常の機械学習アルゴリズムと比較してパフォーマンスはどうでしょうか? 3.1 簡単な実験分類器の効率を評価するために、決定木を構築し、航空会社の乗客満足度調査結果のデータセットでトレーニングしました。 目標は、乗客満足度の向上につながる要因を特定することです。 これには、乗客の満足度(または不満)につながる経路を説明するシンプルで堅牢なモデルが必要です。
この写真はこのウェブサイト、この写真家からのものです データセットについて このデータセットは大規模で、100,000 を超えるルートをカバーしています。
データラベルは、「満足」、「中立」、「不満足」を含む乗客の満足度です。 方法私が使用した計算手順は、次のように簡単にまとめることができます。 1. データ前処理: カテゴリ変数を指標変数に変換します。データセットをトレーニング セットとテスト セットにランダムに分割します。 2. モデリングとテスト: 各モデルは、トレーニング サブセットの条件を考慮してトレーニングされ、検証サブセットで測定されます。 3. 各モデルのパフォーマンスを比較します。 私は、進化型決定木 (EDT) アプローチを、単純なツリーベース、決定木 (DT) ベース、ランダム フォレスト (RF) ベースのモデルと比較することを選択しました。ツリーの深さを 3 未満 (3 と等しい?) に制限します。 また、妥当な計算時間内で一貫した方法で比較できるように、EDT の人口規模と RF の評価者の数を 10 に設定しました。 結果結果は次のとおりです。 図5 - 「満足」と「中立または不満」の乗客数 表1-DTモデルの分類レポート 表2 - RFモデルの分類レポート 表3 - EDTモデルの分類レポート 図6-3 3つのモデルのROC曲線と曲線の下の領域 このパラメータ設定により、EDT は他の 2 つの機械学習アルゴリズムに非常に近いパフォーマンスを発揮します。 ただし、EDT の利点は、次のような決定ツリーを提供することです。
トレーニング プロセス中、最大深度は 2 に設定され、EDT 集団内の最適な決定木は次のように表されます。 図7 ()-EDTにおける最良決定木の概略図 3.2 EDF法のより一般化された実験的検証上記の実験は、他の機械学習アルゴリズムと比較して、進化した決定木のパフォーマンスと信頼性を評価するには明らかに不十分です。 使用されたデータセットは 1 つだけであったため、ラベル カテゴリの数、機能の数、観測数の影響など、すべての可能性が考慮されたわけではありません。 [2]では、著者らは実際のUCIデータセットを使用して、EDT法と他の機械学習法のパフォーマンスを比較しました。 この記事の調査結果は次のとおりです。 データセットについて次の表では、使用されるデータセットについて簡単に説明します。 表4 - データセットのプロパティ ご覧のとおり、データセットは観測値、特徴、クラスの数の点で大きく異なります。 最も難しいデータセットは、カテゴリが多く、観測値が少ないため、間違いなく最初のデータセットです。 方法以下は、著者らが EDT モデルのパフォーマンスをより「古典的な」機械学習アルゴリズムと比較して評価するために使用したアプローチから得られた主なポイントです。
結果表5 - 使用されるデータセットに応じたモデルの精度
EDT モデルではデフォルトのパラメータが使用されることに注意してください。 パラメータを調整するとパフォーマンスが向上する可能性があります。 参考文献[1] R. Barros他「決定木誘導のための進化的アルゴリズムの調査」 、 2011年 [2] D. Jankowski他「決定木誘導のための進化的アルゴリズム」 、2016年 [3] S. Cha,遺伝的アルゴリズムを用いた二分決定木の構築, 2008 [4] D. Carvalho他「データマイニングのためのハイブリッド決定木/遺伝的アルゴリズム法」 、2003年 [5] Wikipedia、巡回セールスマン問題 [6] Wikipedia、遺伝的アルゴリズム |
>>: ドライバーの状態行動を識別できる監視システムは、実際には十分に正確で信頼できるものではない
翻訳者 | 朱 仙中校正:孫淑娟導入私たちは人工知能の黄金時代にいます。 AI ソリューションを導入...
近年、セキュリティ業界のデータ量は飛躍的に増加しており、バックエンド サーバーはますます多くのデータ...
人工知能はまだ少し遠く、Google の巨大なデータセンターの部屋や神秘的な MIT ロボット工学研...
近年、幼児教育のスマート化を導き、子どもたちの学習と成長をサポートするスマート幼稚園環境を総合的に構...
[[415155]]未成年者のゲームプレイの問題に関しては、依存症防止システムが厳しすぎると不満を言...
ニューロテクノロジーは人間の神経系の原理に基づいており、人間の脳の極めて複雑なモデル構造を研究するこ...
機械学習の話題は誰もが話題にするほど普及していますが、それを完全に理解している人はほとんどいません。...
顧客エンゲージメント、パーソナライゼーションなど、5 つの異なる領域で AI を使用して顧客サービス...
[[322803]]近年、IT 業界でどの技術方向が最もホットであるかと聞かれれば、それは ABC...
はじめに:近年の人工知能技術の急速な発展は、主にニューラルネットワーク、チップ、ビッグデータという ...
[[402565]]インターネット業務に携わる陸鋒さんは、あるテクノロジー製品の機能やユーザーエクス...
[[357046]]序文「三国殺し」は、中国の三国時代を背景に、身分を手がかりにカードを形にした人...
今日、デジタル変革はビジネス存続の基盤となっています。自動化された工場から人工知能 (AI) 品質管...
オラクルが市場調査会社ウェイクフィールド・リサーチおよびニューヨークに拠点を置く小売コンサルティング...
[[187107]]人工知能技術は飛躍的に進歩していますが、人工知能間のコミュニケーションの問題は...