機械学習の錬金術の理論的根拠はどれほど強固なのでしょうか?

機械学習の分野は近年急速に発展しています。しかし、機械学習理論に対する理解は依然として非常に限られています。一部のモデルの実験結果は、基礎理論に対する理解を超えています。

現在、この分野の研究者の多くがこの問題に注目し、考察し始めています。最近、Aidan Cooper というデータサイエンティストが、モデルの実験結果とその基礎理論の関係を整理したブログ記事を書きました。以下は元のブログ投稿です:

機械学習の分野では、いくつかのモデルが非常に効果的ですが、その理由は完全にはわかっていません。逆に、比較的よく理解されている研究分野の中には、実際の適用範囲が限られているものもあります。この記事では、機械学習の有用性と理論的理解に基づいて、さまざまなサブフィールドにおける進歩について説明します。

ここでの「実験的有用性」という用語は、方法の適用範囲の広さ、実装の容易さ、そして最も重要な、現実世界での有用性を考慮した包括的な尺度です。いくつかの方法は、非常に実用的であるだけでなく、幅広く適用できます。一方、いくつかの方法は強力ですが、特定の分野に限定されています。信頼性が高く、予測可能で、大きな欠陥のない方法は、より高い有用性があると考えられます。

いわゆる理論的理解とは、モデル法の解釈可能性、つまり、入力と出力の関係は何か、期待される結果をどのように得るか、この方法の内部メカニズムは何か、また、その方法に関連する文献の深さと完全性を考慮することです。

理論的理解が低い方法では、実装においてヒューリスティックスや広範囲にわたる試行錯誤が使用されることが多く、理論的理解が高い方法では、強力な理論的基礎と予測可能な結果を伴う定型的な実装が行われる傾向があります。線形回帰などのより単純な方法では理論上の上限が低くなりますが、ディープラーニングなどのより複雑な方法では理論上の上限が高くなります。ある分野の文献の深さと完全性に関しては、その分野について想定されている理論上の上限に基づいてその分野が評価されますが、これはある程度直感に依存します。

ユーティリティマトリックスを 4 つの象限として構築することができ、軸の交点は平均的な理解と平均的なユーティリティを持つ仮想参照領域を表します。このアプローチにより、ドメインが属する象限に基づいてドメインを定性的に解釈することができます。下の図に示すように、特定の象限内のドメインは、対応する象限の一部またはすべての特性を持つ場合があります。

一般的に、有用性と理解は緩やかに相関しており、理論的理解度の高い手法は理解度の低い手法よりも有用であると考えられます。つまり、ほとんどのフィールドは左下または右上の象限に配置する必要があります。左下から右上の対角線から離れた領域は例外を表します。通常、初期の研究理論を現実世界のアプリケーションに変換するには時間がかかるため、実用性は理論に遅れをとることになります。したがって、この対角線は原点を直接通るのではなく、原点より上になければなりません。

2022年の機械学習

上の図のすべての領域が機械学習 (ML) に完全に含まれているわけではありませんが、すべて ML のコンテキストに適用できるか、または ML と密接に関連しています。評価対象領域の多くは重複しており、明確に説明することはできません。強化学習、連合学習、グラフ ML における高度なアプローチは、多くの場合、ディープラーニングに基づいています。したがって、私はディープラーニング以外の側面の理論的および実用的な有用性を考慮しました。

右上象限：理解度が高く、有用性が高い

線形回帰はシンプルで理解しやすく、効率的な方法です。過小評価され、見落とされてしまうことも多々あります。しかし、その用途の広さと徹底した理論的根拠により、図の右上隅に配置されています。

従来の機械学習は、理論的に高度に理解され、実践的な分野へと発展しました。勾配ブースティング決定木 (GBDT) などの複雑な ML アルゴリズムは、複雑な予測タスクによっては線形回帰よりも優れたパフォーマンスを発揮することが示されています。これはビッグデータの問題の場合に確かに当てはまります。過剰パラメータ化されたモデルの理論的理解にはまだ穴があると言えますが、機械学習の実装は繊細な方法論的プロセスであり、うまく実行されれば、モデルは業界で確実に実行できます。

ただし、複雑さと柔軟性が増すとエラーが発生する可能性があるため、機械学習を線形回帰の左側に配置します。一般的に、教師あり機械学習は教師なし*機械学習よりも洗練されており、影響力も大きいですが、どちらのアプローチも効果的に異なる問題領域に対処します。

ベイズ的アプローチには、より一般的な古典的な統計手法よりも優れていると主張する実践者の熱狂的な支持者がいます。ベイズモデルは、点推定だけでは不十分で不確実性の推定が重要な場合、データが限られているか欠落しているデータが多い場合、およびモデルに明示的に含めたいデータ生成プロセスを理解している場合など、特定の状況で特に役立ちます。ベイズモデルの有用性は、多くの問題では点推定で十分であり、人々は単に非ベイズ法をデフォルトに選ぶという事実によって制限されます。さらに、従来の ML では不確実性を定量化する方法があります (ほとんど使用されていないだけです)。多くの場合、データ生成メカニズムや事前条件を考慮せずに、ML アルゴリズムをデータに適用する方が簡単です。ベイズモデルは計算コストも高く、理論の進歩によってより優れたサンプリング法や近似法が実現すれば、さらに有用性が増すでしょう。

右下象限: 理解度は低いが有用性は高い

ほとんどの分野における進歩とは対照的に、ディープラーニングは、理論的な側面では根本的に進歩が難しいことが判明しているにもかかわらず、驚くべき成功を収めています。ディープラーニングは、あまり知られていないアプローチの多くの特徴を示します。モデルは不安定で、信頼性のある構築が難しく、弱いヒューリスティックに基づいて構成され、予測できない結果を生み出します。ランダムシードの「調整」などの疑わしい慣行は一般的であり、モデルがどのように機能するかのメカニズムを説明することは困難です。しかし、ディープラーニングは進歩を続け、コンピュータービジョンや自然言語処理などの分野で超人的なレベルのパフォーマンスに到達し、自動運転など、他の方法では理解できないタスクの世界を切り開きます。

仮に、汎用 AI が右下隅を占めることになる。なぜなら、定義上、超知能は人間の理解を超えており、あらゆる問題を解決するために使用できるからである。今のところ、これは思考実験としてのみ含まれています。

各象限の定性的な説明。フィールドは、対応する領域の説明の一部または全部で説明できます。

左上象限: 理解度は高いが、有用性は低い

因果推論のほとんどの形式は機械学習ではありませんが、機械学習である場合もあり、予測モデルでは常に興味深いものです。因果関係は、ランダム化比較試験 (RCT) と、観察データから因果関係を測定しようとするより複雑な因果推論方法に分けられます。 RCT は理論的には単純で厳密な結果が得られますが、現実世界で実施するには費用がかかり非現実的（不可能）な場合が多く、そのため有用性は限られています。因果推論法は、本質的には何もする必要がなく RCT を模倣するため、実行がはるかに簡単になりますが、結果を無効にする可能性のある多くの制限と落とし穴があります。全体的に、因果関係は依然として苛立たしい追求であり、現在の方法では、それらの疑問がランダム化比較試験で探求できるか、またはそれらがたまたま特定の枠組みに適合する（例えば、「自然実験」の偶然の結果として）場合を除き、私たちが尋ねたい疑問に適切に答えられないことが多い。

フェデレーテッドラーニング (FL) は、あまり注目されていない素晴らしいコンセプトです。おそらく、その最も注目すべきアプリケーションは、多数のスマートフォンデバイスへの配布を必要とするため、FL は実際には Apple と Google の 2 社によってのみ研究されています。 FL には、独自のデータセットをプールするなどの他の使用例もありますが、これらの取り組みを調整するには政治的およびロジスティックスの課題があり、実際の有用性が制限されます。それでも、一見派手なコンセプトのように聞こえるものの（大まかにまとめると、「データをモデルに持ち込むのではなく、モデルをデータに持ち込む」）、FL は効果的であり、キーボード入力予測やパーソナライズされたニュース推奨などの分野で具体的な成功事例があります。FL の背後にある基本的な理論とテクノロジーは、FL をより広く使用できるようにするのに十分なほど有望であると思われます。

強化学習 (RL) は、チェス、囲碁、ポーカー、DotA などのゲームで前例のないレベルの能力を達成しました。しかし、ビデオゲームやシミュレーション環境以外では、強化学習はまだ現実世界のアプリケーションに説得力を持って応用されていません。ロボット工学は RL の次のフロンティアになるはずでしたが、これは実現しませんでした。現実は、制約の厳しいおもちゃの環境よりも難しいようです。そうは言っても、RL のこれまでの成果は感動的であり、チェスを本当に楽しむ人々は、その有用性はもっと高まるべきだと主張するかもしれません。 RL をマトリックスの右側に配置する前に、その潜在的な現実世界のアプリケーションのいくつかが実現されるのを見たいと思います。

左下象限: 理解度が低い、有用性が低い

グラフニューラルネットワーク (GNN) は現在、機械学習において非常に注目されている分野であり、多くの分野で有望な成果を上げています。しかし、これらの例の多くでは、GNN が、ディープラーニングアーキテクチャと組み合わせた従来の構造化データを使用する代替アプローチよりも優れているかどうかは不明です。ケモインフォマティクスの分子など、データが自然にグラフ構造になっている問題では、より説得力のある GNN 結果が得られるようです (ただし、これらは一般にグラフに関連しない方法よりも劣ります)。ほとんどの分野と比較して、大規模な GNN をトレーニングするためのオープンソースツールと業界で使用されている社内ツールとの間には大きなギャップがあるようで、これらのウォールドガーデンの外で大規模な GNN を実現する可能性は制限されています。この分野の複雑さと広さから、理論上の上限は高いことが示唆されるため、GNN には成熟する余地があり、特定のタスクで利点を説得力を持って実証し、より実用的な応用につながるはずです。グラフは現在、既存のコンピューティングハードウェアに自然には適合しないため、GNN は技術の進歩の恩恵を受けることもできます。

説明可能な機械学習 (IML) は、注目を集め続けている重要な有望な分野です。 SHAP や LIME などの技術は、ML モデルを調査するための非常に便利なツールになりました。しかし、既存のアプローチの有用性は、採用が限られているため十分に実現されておらず、堅牢なベストプラクティスと実装ガイドラインはまだ確立されていません。しかし、現時点での IML の主な弱点は、私たちが実際に関心を持っている因果関係の疑問に対処していないことです。 IML はモデルがどのように予測を行うかを説明しますが、基礎となるデータがそれらの予測とどのように因果関係にあるかを説明するものではありません (ただし、そのように誤って解釈されることがよくあります)。大きな理論的進歩が達成されるまで、IML の正当な用途は主にモデルのデバッグ/監視と仮説の生成に限定されます。

量子機械学習 (QML) は私の専門分野からは程遠いですが、現時点では実用的な量子コンピュータが利用可能になるまで辛抱強く待つ間の仮説的な演習のようです。それまでは、QML は左下隅に目立たない位置に置かれます。

漸進的な進歩、技術の飛躍、パラダイムシフト

理論的理解と経験的効用マトリックスが現場で横断される主なメカニズムは 3 つあります (図 2)。

フィールドが行列を横断する方法の例示的な例

プログレッシブプログレッションは、マトリックスフィールドの右側に沿ってゆっくりと着実に進んでいきます。過去数十年にわたる教師あり機械学習は、このことを示す好例です。この間に、ますます効果的な予測アルゴリズムが改良され、採用され、今日私たちが享受している強力なツールボックスが誕生しました。技術の飛躍やパラダイムシフトによる劇的な変化の時期を除き、すべての成熟した分野では漸進的な進歩が現状です。

いくつかの分野では、技術の飛躍的な進歩により科学の進歩に目覚ましい変化が見られました。 *ディープラーニング*の分野は、2010 年代のディープラーニング大流行の 20 年以上前に発見された理論的基礎によって解き放たれたのではなく、消費者向け GPU による並列処理によって復活を遂げたのです。技術的な飛躍は通常、経験実用性軸に沿った右方向へのジャンプとして現れます。しかし、テクノロジー主導の進歩のすべてが飛躍的な進歩というわけではありません。今日のディープラーニングは、より多くの計算能力とますます特殊化したハードウェアを使用して、より大規模なモデルをトレーニングすることで達成される漸進的な進歩を特徴としています。

この枠組みの中で科学を進歩させる究極のメカニズムはパラダイムシフトです。トーマス・クーン氏が著書『科学革命の構造』で指摘したように、パラダイムシフトは科学分野の基本概念と実験実践における重要な変化を表しています。ドナルド・ルービンとジューディア・パールが開拓した因果関係の枠組みはその一例であり、これによって因果関係の分野はランダム化比較試験や従来の統計分析から因果推論というより強力な数学的分野へと高められました。パラダイムシフトは、多くの場合、理解の向上として現れ、それに続いて有用性の向上が起こったり、それと同時に起こったりすることがあります。

ただし、パラダイムシフトはマトリックスをあらゆる方向に横断する可能性があります。これは当初、ニューラルネットワーク (およびその後のディープニューラルネットワーク) が従来の ML とは別のパラダイムとして確立されたときに、有用性と理解度が低下したことに対応していました。多くの新興分野は、このようにして、より確立された研究分野から分岐しています。

予測とディープラーニングの科学革命

要約すると、将来起こるかもしれないと私が考える推測的な予測をいくつか示します (表 1)。右上の象限のフィールドは、成熟度が高すぎて大きな進歩が見られないため省略されています。

表1: 機械学習のいくつかの主要分野における将来の進歩の予測

しかし、個々の分野がどのように発展するかよりも重要な観察は、経験主義への一般的な傾向と、包括的な理論的理解を認める意欲の高まりです。

歴史的経験から、通常は最初に理論（仮説）が現れ、その後にアイデアが形成されます。しかし、ディープラーニングはこれを覆す新たな科学的プロセスをもたらしました。つまり、誰も理論に注目する前から、最先端のパフォーマンスを発揮することが期待されています。経験的結果が重要であり、理論はオプションです。

これにより、機械学習研究の体系的なゲーム化が広まり、分野の理論を有意義に前進させるのではなく、既存の方法を単純に修正し、ランダム性に頼ってベースラインを上回ることで、最先端の新しい結果が達成されるようになりました。しかし、これは機械学習ブームの新たな波に対して私たちが払う代償なのかもしれません。

図3: 2022年のディープラーニング開発の3つの潜在的な軌道

2022 年は、ディープラーニングが不可逆的に結果重視のプロセスとなり、理論的な理解がオプションに格下げされるかどうかの転換点となる可能性があります。私たちは次の質問について考える必要があります。

理論上のブレークスルーにより、私たちの理解が実用性に追いつき、ディープラーニングが従来の機械学習のようなより構造化された分野に変わるでしょうか。既存のディープラーニングの文献は、単にモデルをどんどん大きくしていくだけで、実用性を無限に高めるのに十分でしょうか。それとも、経験的なブレークスルーにより、そのパラダイムについての理解が浅いにもかかわらず、私たちをウサギの穴の奥深くへと導き、実用性を高める新しいパラダイムへと導くのでしょうか。

これらのルートのいずれかが汎用人工知能につながるのでしょうか? それは時が経てばわかるでしょう。

オリジナルリンク: https://www.aidancooper.co.uk/utility-vs-understanding/?continueFlag=b96fa8ed72dfc82b777e51b7e954c7dc

<<: ICLR 2022: AI が「目に見えないもの」を認識する方法

>>: 機械学習における特徴選択の3つの代替手法