機械学習の変革: 多分野にわたる問題に立ち向かい、新しい機械学習エコシステムを構築する

機械学習の手法は、生命、物理学、社会経済などの複雑なシステムにますます応用されています。特定のタスクに適切な機械学習手法をどのように選択するか、また、さまざまな機械学習手法を総合的に活用してその強みを生かす方法は、機械学習の分野では重要な課題となっています。最近公開された PNAS ある研究では、複数の関連タスクと複数の学習方法からのデータを総合的に活用し、トレーニングモデルにエンコードされたさまざまなソースから事前知識を抽出できる、変革型機械学習と呼ばれる手法が開発されました。これは、説明可能性が強く求められる医薬品設計などの科学研究分野に特に適しています。より一般的に言えば、変革的機械学習は、学習タスク、例、方法、予測結果、メタ学習が相互に促進され、機械学習エコシステム内のすべてのタスクのパフォーマンスと解釈可能性が共同で向上する機械学習エコシステムを構築するための新しいアプローチを提案します。

論文タイトル:

変革的機械学習: 関連する多くの科学的問題から学ぶ方法を学ぶ

論文リンク:

https://www.pnas.org/content/118/49/e2108013118

注文記録

まとめ

意義

1. 変革的機械学習入門

2. コンバージョン機械学習と他の方法

3. 変換機械学習は既存のアルゴリズムを改善できる

4. 機械学習の解釈可能性の変革

5. 変換機械学習とディープニューラルネットワーク

6. 機械学習エコシステムを構築する

7. データセット、コード、モデルのオープンソース

翻訳名詞比較

ほぼすべての機械学習は内生的（本質的）特徴はトレーニングデータを特徴付けるために使用されます。関連する機械学習タスクが複数ある場合（質問）ターゲットタスクを使用すると、機械学習モデルをターゲットタスク以外のタスクでトレーニングして、内生的特徴を外生的特徴に変換することができます。（外因的）特徴を抽出し、訓練された機械学習モデルを使用してターゲットインスタンスを予測し、新しい表現を生成します。これを 機械学習の変革 (変革的機械学習、TML) 。変換機械学習と転移学習（TL）、マルチタスク学習 (中文) 重ね合わせ学習（積み重ね）これらは密接に関連し、相乗効果を発揮するため、あらゆる非線形機械学習を改善するために使用できます。変換機械学習を評価するために、最も重要な非線形機械学習の種類であるランダムフォレストを使用します。（RF）、勾配ブースティングマシン (XGB) 、サポートベクターマシン（SVM）、k近傍法（KNN）、ニューラルネットワーク（NN）。評価の一般化と堅牢性を確保するために、私たちは、医薬品設計、遺伝子発現予測、機械学習アルゴリズムの選択という 3 つの科学分野からの何千もの機械学習の問題を活用しています。

変革的機械学習は、あらゆる領域におけるすべての機械学習の予測性能を大幅に向上させることがわかった。（平均4％～50％の増加）変換された機械学習によって識別された特徴は、内生的特徴よりも優れていることがよくあります。機械学習を説明可能な機械学習に変換することで、科学的理解も深まります。医薬品の設計においては、トランスレーショナル機械学習によって、医薬品の標的特異性、医薬品間の関係、タンパク質と標的の関係に関する新たな洞察が得られることがわかりました。変革的機械学習は、新しいタスク、インスタンス、予測などが連携して予測パフォーマンスを向上させる、エコシステムベースの機械学習アプローチを生み出します。

機械学習は、経験から学習できるコンピューティングシステムの開発を目的とした人工知能の分野です。教師あり機械学習では、機械学習システムはラベル付きデータから未知のデータのラベルを予測するための一般化可能なモデルを取得します。多くの場合、データはインスタンスを直接記述する特徴によって特徴付けられます。たとえば、医薬品の設計では、機械学習は医薬品の分子構造を特徴として使用します。関連する機械学習の問題が複数ある状況では、機械学習モデルを使用して他の問題のデータに基づいて予測を行う、異なるタイプの機能を使用できます。これを変換型機械学習と呼びます。このパラダイムを科学的問題に適用すると、予測可能性と理解可能性が向上することを示します。

1. 変革的機械学習入門

機械学習は経験から学習するコンピューティングシステムを開発します。科学分野での応用には長い歴史があり[1-4]、最も初期の機械学習プログラムの1つは、機械学習を使用して質量分析データの解析を改善したMeta-Denralでした[5]。機械学習の科学における重要性は広く認識されており、創薬[6]、有機合成計画[7]、材料科学[8]、医学[9]など、ほぼすべての科学分野で使用されています。

ほとんどの機械学習アプローチでは、トレーニングデータを表すために特徴タプルを使用します。たとえば、各行がインスタンスを表し、各列が特徴を表す単一のテーブルにデータを入れることができます。インスタンスの特性は属性とも呼ばれる（属性）。現在、インスタンスはほぼ常に内生的プロパティによって特徴付けられます。たとえば、薬物の薬理学的活性を理解したい場合、薬物の分子構造はそのインスタンスの有用な特性となります。通常、1 つの特徴が予測値として選択され、他の属性は予測に使用される情報を提供します。予測する属性がラベルである場合、これは判別/分類タスクです。予測する属性が実数である場合、これは回帰問題です。この研究では主に回帰問題について議論します。

関連する機械学習タスクが複数ある場合は、外生的特徴も使用される場合があります。つまり、他のタスクでトレーニングされた機械学習を使用して、ターゲットインスタンスに関する予測を行います。。これを変革的機械学習と呼びます。変換機械学習は、内生属性に基づく表現を、モデルの残りの部分の予測値に基づく外生表現に変換します。以下で説明するように、変革型機械学習は転移学習、マルチタスク学習、加法学習と密接な相乗関係にあります。これにより、モデルは最初から学習することなく、他の関連タスクで学習した知識を活用できるようになります。したがって、変革的機械学習はメタ学習に属する。（メタ学習）このパラダイムは、特に関連する小さな学習タスクが多数あるシナリオにおいて、あらゆる非線形機械学習アルゴリズムを改善できます。

直感的に、複数の動物を認識するタスクを学習する例を考えてみましょう。複数の動物を識別する必要があり、さらに追加する種がある場合は、1 つの大きな分類器を使用するのではなく、種ごとに個別の分類器を使用する方が合理的です。標準的な機械学習手法では内生的特徴を使用する（例：動物に毛があるかどうか、毛の大きさなど）分類器をトレーニングします。機械学習の変革は標準的なアプローチから始まる（図1A左）さまざまな動物の予測モデルを学び、これらのモデルに基づく予測を使用してさまざまな動物の特性を評価します。例えば、標準的な方法で馬のような、猫のような、ウサギのような表現を得た後、それらを使って訓練することができます。（元）機械学習モデル（図1A右）。変革的機械学習は、すべての機械学習タスクが一連の内生的特徴とターゲット変数を共有する分野に適用できます。これは、化合物の分子特性評価とターゲット変数を組み合わせる必要がある医薬品設計などの科学研究で一般的です。（タンパク質）マッチ（図1B）。変革的機械学習の有効性は、以前にトレーニングされたモデルにエンコードされた、世界の仕組みに関する知識を活用することにあります。

図 1A. 動物種の予測における標準的な機械学習と変革的機械学習の比較。変革的機械学習は、動物がロバ、猫、ウサギのいずれであるかを予測するという 3 つの機械学習タスクの例を通じて説明されます。標準的な機械学習では、体の大きさ、耳、食用性などの内生的特徴に基づいて予測モデルを構築します：ロバ（）、ウサギ（）、猫（）。内生的特徴をモデルウサギ（）に入力し、動物がウサギである確率を出力します。これら 3 つのモデルの結果は、変換機械学習のトレーニングのための外生的特徴として機能します。ウサギとロバはどちらも耳が長いという点で似ており、ウサギと猫はどちらも小さくてかわいいという点で似ているため、直感的に機械学習の表現を変換することは理にかなっていることがわかります。したがって、変換された外生的表現は、動物がかわいいかどうか、目が頭の側面にあるかどうか（ウサギとロバに共通する特徴）など、元の説明に含まれていない特徴を捉えることができます。

図 1B. QSAR (定量的構造活性相関) 学習。 QSAR 予測モデルには、ターゲット (通常はタンパク質) と一連の化合物 (小分子) およびそれらの対応する活性 (特定のタンパク質の阻害など) が与えられ、化合物の分子表現からその活性へのマッピングを学習します。

図 1C. QSAR における標準機械学習と変換された機械学習の比較。標準的な機械学習を使用して、各ターゲットは、特定の分子群が含まれているかどうかなど、複数の薬物の内因性特徴に関連付けられ、分子表現から活性へのマッピングを確立するようにモデルをトレーニングします。

2. コンバージョン機械学習と他の方法

変革型機械学習は、他の機械学習手法と多くの共通点があります。しかし、特定の変革的機械学習の概念はこれまで体系的に評価されたことはありませんでした。

機械学習の変革 マルチタスク学習 [10] 非常に似ています。マルチタスク学習とは、「関連タスクのトレーニングデータに含まれるドメイン情報を帰納的ベンチマークとして使用し、一般化能力を向上させる帰納的転移法」です。マルチタスク学習における関連する問題（タスク）質問間の類似性を活用して予測パフォーマンスを向上させるために、同時に学習されます。マルチタスク学習は、共有表現を並行してトレーニングすることでこの目標を達成します。各タスクから学習した知識は、他のタスクの学習に役立ちます[10]。マルチタスク学習と変換型機械学習には、主に 2 つの違いがあります。マルチタスク学習は通常、並行してトレーニングされますが、変換型機械学習は通常、1 つずつトレーニングされます。また、変換型機械学習ではタスク間でデータ表現が共有されますが、マルチタスク学習では単一のモデルが使用されます。

変換機械学習は、 転移学習 [13]密接な関係がある。転移学習は、特定のソース問題から特定のターゲット問題に情報を転送します。転移学習の考え方は、1 つ以上のソースドメインから知識を抽出し、その知識をデータが不足しているターゲットドメインで再利用することで、ターゲットドメインでより優れたパフォーマンスを発揮する学習モデルを構築するというものです。ただし、転移学習は通常、トランスレーショナル機械学習とは異なります。転移学習は 1 つのソースタスクのみを対象とするのに対し、トランスレーショナル機械学習は複数のソースタスクを処理する必要があるためです。転移学習は医薬品設計にうまく応用されており、いくつかの将来的な応用でその有効性が実証されている[15]。

機械学習の変革 オーバーレイ学習 [16,17]も非常に似ていますが、後者は統合された機械学習アルゴリズムです。スタック学習は複数のアルゴリズムを組み合わせて、単独のアルゴリズムよりも優れた予測パフォーマンスを実現します。複数のベースラインモデルをスタックする場合、最初にベースラインモデルがトレーニングされ、次にベースラインモデルの出力を使用してメタモデルがトレーニングされます。変換型機械学習と加法学習の主な違いは、変換型機械学習のトレーニングは関連するタスクの大規模なセットに対して実行され、各タスクに対応するトレーニングセットが異なる可能性があることです。スタック学習では、通常、同じタスクに対して異なるベースラインモデルがトレーニングされます。

3. 変換機械学習は既存のアルゴリズムを改善できる

変革的機械学習は、非線形機械学習のあらゆる改善に適用されます。変換機械学習を評価するために、5つの機械学習手法[1-4]を選択しました：ランダムフォレスト（RF） [21] 勾配ブースティングアルゴリズム (XGB) [22] サポートベクターマシン（SVM） [23] k近傍法（KNN） [3] ニューラルネットワーク（NN） [3,4]。評価の一般性と堅牢性を保証するために、私たちは3つの重要な科学的問題、すなわち創薬に関するデータを活用します。（QSAR学習、すなわち定量的構造活性相関）遺伝子発現の予測（組織の種類や薬物治療の違いにかかわらず）、メタ機械学習（問題解決における機械学習手法の有効性を予測する） ——数千の機械学習タスク。

それぞれの機械学習アプローチと問題領域について、変革型機械学習のパフォーマンスをベースライン機械学習アルゴリズムと比較しました。私たちは、強力な改善と共同改善という 2 つの形式の予測改善を研究します。大幅な改善とは、新しい変換された機械学習機能を使用して得られた予測が、ベースラインを使用して得られた予測よりも優れていることを意味します。（内因性）特徴の予測。共同改善とは、ベースライン機能を新しい変換された機械学習機能として使用して、予測パフォーマンスを向上させることです。変換機械学習予測のパフォーマンスを向上させるために、予測結果を組み合わせるという最も単純な重ね合わせ方法を使用しました。変革型機械学習により、3 つのドメインすべてにおいてすべての手法の平均予測パフォーマンスが大幅に向上することがわかりました。（4％から50％に増加）つまり、新しい外生的特徴で訓練されたモデルは、通常、内生的特徴で訓練されたモデルよりも優れている。（表１）。

表1. 予測結果。表内の値は二乗平均平方根誤差（RMSE）です。太字の値は、特定のアプリケーションシナリオにおける最適な結果です。ベンチマーク結果は、標準的な内生的表現と対応する機械学習アルゴリズムを使用して取得されます。変革型機械学習は、外生的表現を使用して結果を生成します。二乗平均平方根誤差は、各アプリケーション領域における数千のタスクの平均です。最小二乗法（凸二乗法）（非負の最小値）とリッジ回帰の 2 つのスタッキング手法をテストしました。 t 検定と Wilcoxon 検定という 2 つの有意性検定を使用しました。どちらの方法も、標準方法と変換された機械学習の間の RMS 誤差の差が有意であるかどうか (p < 0.05) をテストし、前者は 2 つの方法の平均 RMS 誤差が統計的に異なるかどうかをテストし、後者は 2 つの方法の平均 RMS 誤差が統計的に異なるかどうかをテストしました。

ほぼすべての統計的および機械学習的手法がQSAR問題に適用されているが[23]、最良の方法はまだ見つかっていない[24,25]。 QSAR は、薬物分子の特性を関連する標的タンパク質を通じて相関させることができるため、変革的機械学習の適用に適しています。。例えば、マウスとヒトにおけるジヒドロ葉酸還元酵素の阻害（DHFR）両者の問題は類似している。なぜなら、両者は類似したリガンド結合部位[活性中心] [26]を持ち、同じまたは関連する分子が関与しているからである[26-28]。 QSAR学習のための転移機械学習を評価するために、2219個のQSAR問題[24,25]を使用しました。 QSARベンチマーク（内因性）この表現は1024ビットの分子指紋表現であり、効果的であることが示されている[25]。各ベンチマーク機械学習アルゴリズムについて (RF、SVM、k-NN、NN) 、以前にトレーニングされたモデルによって予測された複合アクティビティを使用して、変革型機械学習のための外生的特徴を取得します。次に、ベンチマーク機械学習アプローチを使用して QSAR モデルをトレーニングしました。すべての方法において、変換機械学習予測はベースラインアルゴリズムを上回りました。関連する結果を表1に示します。全体的に最も良い結果が得られたのは、勾配ブースティングマシンを重ねた変換機械学習モデルで、ベースライン勾配ブースティングマシンと比較して 7% 改善され、次にニューラルネットワークを重ねた変換機械学習モデルが続くことがわかりました。注目すべきことに、このデータセットは広範囲に研究されており[18の学習方法と6つの分子表現[25]]、変換機械学習はこれまでの最高の結果を大幅に上回っています。

2 番目の問題領域については、細胞シグネチャの統合ネットワークベースのデータベースを使用しました。（リンクス） [29]は、118,050の実験条件下で測定された978の象徴的なヒト遺伝子の発現レベルを説明しています。私たちは機械学習のタスクを次のように捉えています（細胞の種類、薬剤、投与量）次に、各遺伝子の発現レベルを予測できるモデルが確立されます。遺伝子発現予測問題は、遺伝子間の関係性のため、変革型機械学習にも適しています。（相同性、共通シグナル伝達経路など） 実験条件の関係 （薬物の類似性など）予測パフォーマンスを向上させるために使用できます。 QSAR 問題と同じアプローチを使用して、ランダムフォレスト、サポートベクターマシン、k 近傍法、ニューラルネットワークを使用して比較評価を実行し、内生的表現と変換された機械学習表現を使用したモデルを比較しました。結果を表 1 に示します。すべての方法において、変換機械学習を使用したモデルはベースライン機械学習よりも優れたパフォーマンスを発揮しました。ランダムフォレストの全体的な結果が最も改善され、ベースラインと比較して 4% 増加し、次に勾配ブースティングマシンとサポートベクターマシンモデルが続くことがわかりました。

評価問題の3番目の領域は機械学習から生じます。基本的な問題は、新しいタスクに最適な機械学習アルゴリズムを選択することです。機械学習はこの問題を解決する効果的な方法であり、メタ機械学習と呼ばれます。。機械学習モデルのタスクは、トレーニングデータの特徴に基づいて（例：トレーニングデータの統計分布）予測するための機械学習アルゴリズムを学ぶ（特定のタスクを与えられた場合）パフォーマンスのメタモデル。このシナリオは、同様のデータ分布とデータ特性を持つことで機械学習タスクを解決できるため、転移機械学習にも適しています。（欠損値など）または、同様のプロセスによって生成されたデータが含まれているため、関連している可能性があります。 OpenML[31]から351のタスクと53の機械学習手法について10,840の評価を実行し、351のメタ学習タスクを生成した。結果を表1に示す。すべての方法において、変換された機械学習機能を使用するアルゴリズムは、ベースラインの機械学習アルゴリズムよりも優れたパフォーマンスを発揮しました。全体的に、変換機械学習を使用したランダムフォレストで最大の改善が達成され、内生的特徴を使用するアルゴリズムよりも 50% 高い結果となりました。変換された機械学習機能を使用する勾配ブースティングマシンも、ベースラインアルゴリズムに対して同様の改善を実現します。サポートベクターマシンとニューラルネットワークの場合も、変換された機械学習機能を使用するとパフォーマンスが向上します。 k 近傍法の場合、変換された機械学習機能を積み重ねる方法が最適です。前述のシナリオと比較すると、変換された機械学習機能を使用すると、予測パフォーマンスの向上率は大幅に高まります。これは、オリジナルの（内因性）機能はトレーニングデータセットの説明としては不十分ですが、変革型機械学習機能はさまざまなタスクのアルゴリズムに関するより暗黙的な情報をエンコードします。さらに、パフォーマンスを予測する際の実験的なノイズは、以前のシナリオと比較して少なくなります。

4. 機械学習の解釈可能性の変革

機械学習のますます重要な分野は説明可能なAIです。多くのアプリケーションでは（例：医療や金融）その過程で、予測を理解できるようにする必要があります。科学においては、説明可能な機械学習予測モデルが新たな科学的知識につながる可能性があります。機械学習モデルの理解しやすさは、モデルの単純さとモデル表現が人間の概念にどれだけ近いかによって決まります。概念構造の標準的な理論は、アリストテレスに由来し、概念の存在に必要な十分な条件を定義し、説明することを基本としています。機械学習モデルの解釈可能性の変革同様の概念に基づく複数の代替学習方法がある [33,34]。

医薬品設計の分野でランダムフォレストモデルを使用して、変革型機械学習モデルが科学的洞察を生み出す 3 つの方法を示します。まず、機械学習モデルを使用して特定の薬物ターゲットを変換する方法を説明します。 ホモ・サピエンス DHFR の QSAR 予測は説明を提供します。表2は、 ホモ・サピエンス DHFR 薬剤活性を予測するための 10 の最も重要な特徴（ベースラインモデル）。予想どおり、このリストには他の DFHR ターゲットのモデルも含まれています。しかし興味深いことに、これらのモデルは細菌である（ L. カゼイ、大腸菌 、そして M.アビウム ）哺乳類モデルではなく、モデルです。これら 3 つの細菌 DHFR モデルは、ヒト DHFR の予測に貢献します。 L.カゼイ DHFRの 大腸菌 そして M.アビウム 大腸菌DHFRは抗生物質トリメトプリムと強く結合しますが、 M.アビウム DHFRは耐性があります。この情報は、より優れた癌治療のためのヒト DHFR 阻害剤の設計に役立つ可能性があります。表 2 の他の特徴も同様の洞察を提供します。

表2. ヒトDHFR活性を予測する10のベストモデル

変換機械学習はクラスタリングを通じても実行できる（教師なし学習）新たな科学的知識を提供する。ケモインフォマティクスにおける基本的な問題は、化合物間の類似性を推定することです。標準的な方法は、谷本らの化学構造の類似性に基づいて化合物間の類似性を推定する。（ジャカード）係数距離の推定。しかし、薬物を比較する場合、構造的類似性よりも機能的類似性の方がより重要となる[15]。機能的類似性は、実験的に蓄積された情報を使用して測定できます。この情報は QSAR モデルにエンコードされており、ターゲットに対する薬物の活性を予測するために使用できます。（図2A）。予測結果を使用して、薬物とその薬理学的特性の間の距離を計算することができます。図2B 変換機械学習を使用して、米国食品医薬品局は（FDA）承認された医薬品は 3 つのクラスターに分類されます。これらの化合物の薬理学は複雑ですが、これらすべての薬剤はセロトニン受容体およびドーパミン受容体との相互作用に関連しています。この相互作用は、変換型機械学習を使用して予測し、クラスタリングに使用できます。クラスター化された化合物の相対的な位置に基づいて、さまざまな化合物の薬理学的特性を予測できます。

図 2. (A) 薬物分子の特性評価によって薬物をクラスター分析するための変換型機械学習の適用。これらの表現では、各要素はターゲット (問題) の 1 つに対する薬剤の予測値です。

(B) QSARターゲットに対する予測活性による化合物のクラスタリング。この図は、FDA 承認化合物のクラスタリング (色はクラスターを表します) と、密接に関連する 3 つのクラスター、および拡大された単一のクラスターを示しています。

我々は、タンパク質標的の類似性を推定するバイオインフォマティクスの問題に同様のアプローチを適用した。（図2C）。このタスクの標準的なアプローチは、配列アラインメントを使用して進化距離を推定することです。しかし、ほとんどの問題において最も重要なのは進化の距離ではなく、タンパク質の活性部位の機能的類似性です。変換された機械学習 QSAR モデルに蓄積された情報を使用して、機能の類似性を推定できます。各ターゲットに対する薬物活性予測、つまり FDA 承認化合物のターゲットに対する活性予測を特徴付けます。化合物の類似性予測と同様に、薬物設計のためのクラスタリングは、ターゲットの化合物に対する経験的な反応に基づいているため、従来の進化距離よりも多くの洞察が得られると考えます。 QSAR類似性予測モデルによって特定された興味深いタンパク質（薬物ターゲット）クラスターは図 2C に示されています。このタンパク質群には明らかな構造上の類似性はないが、（哺乳類）タンパク質の機能は代謝制御と明らかに関連しています。

5. 変換機械学習とディープニューラルネットワーク

今日最も重要な機械学習アルゴリズムであるディープニューラルネットワークで機械学習を変革します（DNN） [35] この比較は有益である。 DNN の入力は通常、空間構造またはシーケンシャル構造であり、入力構造に関する事前知識はネットワーク構造にエンコードされます。 DNNの成功は、複数のニューラルネットワーク層と大量のデータを使用して、貧弱な入力を表現する方法を学習する能力にあります。（画像のピクセル値など）豊富で効果的な潜在表現へのマッピング。これは、微分可能な学習モデルとエンドツーエンドの学習を使用することで実現されます。貧弱な入力表現を改善する能力により、DNNはこれまで機械学習には不向きと判明していた分野でも成功を収めることができました。例えば、囲碁などのゲームで世界チャンピオンに勝利したり[36]、人間の専門家よりも皮膚がんを診断したり[9]しています。 DNN の成功から得られた重要な教訓は、機械学習を活用することで機械学習の表現を強化できるということであり、これはまさに変革的機械学習が行うことです。。 DNN は、適切な表現をトレーニングするために利用できるデータが豊富にあり、使用される記号モデルが人間の認知に適合する必要がない問題に最適です。ほとんどの科学的問題領域はこれらの基準を満たしていません。

標準的な DNN アルゴリズムでマルチタスクの問題を処理する必要がある場合、すべての問題を網羅する単一の大規模なモデルを学習する必要があります。変換型機械学習と比較すると、DNN 問題間の関係とトレーニングデータ間の関係は、変換機能の形で明示的ではありません。マルチタスクの問題の場合、変換型機械学習には増分機械学習をサポートするという利点もあります。つまり、新しいデータや新しいタスクが追加されても、タスクモデルを再学習する必要はありません。変換機械学習では追加の計算コストがかかりますが、変換機械学習の追加コストは DNN 学習と比較すると非常に低くなります。

6. 機械学習エコシステムを構築する

機械学習に対する従来のアプローチは、各学習タスクを個別の問題として扱うことです。マルチタスク学習[10]、転移学習[13]、生涯学習の発展により、（生涯学習） [37] この見方は他の分野での進歩により変化し始めました。機械学習を変革することで、機械学習をエコシステムとしてより広い視点で捉えられるようになります。このエコシステムでは、学習タスク、学習例、機械学習手法、機械学習予測、メタ機械学習手法などが連携して、エコシステム内のすべてのタスクのパフォーマンスと解釈可能性を向上させることができます。。トレーニングデータを追加すると、特定のタスクのモデルが改善されるだけでなく、（特徴選択、アンサンブル学習、スタッキング学習、変換機械学習、2次変換機械学習などを使用）、また、タスク固有のモデルを使用する他のすべてのモデルを改善することもできます（変換機械学習、二次変換機械学習など）。同様に、新しいタスクを追加すると、変換された表現を拡張することができ、それによって、変換機械学習、2 次変換機械学習などを通じて他のすべてのタスクのモデルが改善されます。新しい機械学習またはメタ機械学習手法を追加すると、すべてのタスクのモデルが改善されます。このような機械学習エコシステムでは、新しい知識が追加されるにつれて、予測性能は徐々に向上します[38]。あらゆる予測タスクにおいて、さまざまな情報源からの事前知識が使用されるため[38]、予測の信頼性も高まります。

機械学習の分野では、 機械学習の自動化 関心が高まっており、機械学習を自動化して新しい問題を解決する無料および商用のシステムが数多く存在します。例えば、Auto-WEKAとAuto-sklearn[39]は、可能な機械学習手法とハイパーパラメータの空間を探索することで、機械学習の予測性能を最適化します。しかし、ドロップアウトやスタッキングなどの価値ある新しい機械学習手法を発見できる自動化された機械学習システムは現在のところ存在しません。科学的発見を自動化するAIシステムは増加しているが[40]、これらのシステムは機械学習に大きく依存しており、AI発見システムを機械学習に適用する研究はほとんど行われていない。重要な新しい機械学習技術を発見できる機械学習システムを開発することで、機械学習と世界が変わります。

7. データセット、コード、モデルのオープンソース

再現性を実現するために、この記事に含まれる数千のデータセット (QSAR、LINCS、メタラーニング) 、コードへのリンク (TML、RF、XGB、SVM、k-NN、NN) 、およびすべての決定木を含む約50,000のランダムフォレストモデルが、オープンサイエンスプラットフォームで利用可能である。 (オープンサイエンスプラットフォーム、OSP) Creative Commons ライセンスデータベースは、https://osf.io/vbn5u/ から入手できます。合計で約 100 GB の圧縮データになります。 これほど多くの再現可能なデータをオンラインに公開している機械学習プロジェクトはほとんどありません。 。付加価値を最大化するために、私たちは公共デジタルオブジェクトに対する FAIR 原則に従います。 (検索可能性、アクセシビリティ、相互運用性、再利用性) [41]。