ディープラーニングの限界と将来

[[227297]]

注: この記事は、Keras の作者である François Chollet によるもので、彼の著書「Deepening Learning with Python」の第 9 章、セクション 2 から引用したものです。

著者注: この記事の対象読者は、すでにディープラーニングの経験がある人 (たとえば、この本の第 1 章から第 8 章を読んだ人) です。読者はすでにある程度の知識を持っているものと想定しています。

深層学習の幾何学的観点

ディープラーニングの最も驚くべき点は、そのシンプルさです。 10 年前には、勾配降下法でトレーニングされた単純なパラメトリックモデルが機械認識の問題で驚くべき結果を達成できるとは誰も予想していませんでした。今では、必要なのは、十分な大きさのデータセットで勾配降下法を使用してトレーニングされた、十分なパラメータを持つモデルだけであることがわかりました。ファインマンはかつて宇宙についてこう述べた。「宇宙は複雑なのではなく、ただたくさんあるだけだ。」

ディープラーニングでは、すべてがベクトル、つまり幾何学的空間内のすべてが点です。モデル入力 (テキスト、画像など) とターゲットは最初に「ベクトル化」され、つまり、初期入力ベクトル空間とターゲットベクトル空間に変換されます。ディープラーニングモデルの各レイヤーは、通過するデータに対して単純な幾何学的変換を実行します。同時に、モデルの階層的なチェーンは非常に複雑な幾何学的変換を形成し、一連の単純な幾何学的変換に分解されます。この複雑な変換は、入力空間を一度に 1 ポイントずつターゲット空間にマッピングしようとします。この変換はレイヤーの重みによってパラメータ化され、モデルの現在のパフォーマンスに基づいて反復的に更新されます。この幾何学的変換の重要な特徴は、勾配降下法によってそのパラメータを学習できるようにするために、微分可能でなければならないということです。直感的に言えば、これは入力から出力までの幾何学的変形が滑らかで連続的でなければならないことを意味し、これは重要な制約です。

この複雑な幾何学的変換を入力データに適用するプロセス全体は、くしゃくしゃになった紙のボールをまっすぐにしようとしている人を想像することで 3 次元で視覚化できます。くしゃくしゃになった紙のボールは、モデルの開始時の入力データのレプリカです。人が紙のボールに対して行う各操作は、単純な幾何学的変換操作に相当します。完全なスムージング (紙ボール) アクションシーケンスは、モデル全体の複雑な変換です。ディープラーニングモデルは、高次元データの複雑な多様体を解明するために設計された数学的なマシンです。

ディープラーニングの魔法は、セマンティクスをベクトル、つまり幾何学的空間に変換し、ある空間を別の空間にマッピングする複雑な幾何学的変換を徐々に学習することです。必要なのは、元のデータ内のあらゆる関係性を捉えられるほど十分に高い次元の空間だけです。

ディープラーニングの限界

このシンプルな戦略で実装できるアプリケーションの領域は、事実上無制限です。しかし、既存のディープラーニング技術では、たとえ大量の手動で注釈が付けられたデータが提供されても、さらに多くのアプリケーションを解決することはまったく不可能です。たとえば、製品マネージャーによって書かれたソフトウェア製品の機能に関する英語の説明の数千または数百万のデータセットと、これらの要件を満たすためにエンジニアチームによって開発された対応するソースコードの収集を試みることができます。このデータを使用しても、製品の説明を読み取って適切なコードベースを生成するだけのディープラーニングモデルをトレーニングすることはできません。これは単なる一例です。一般的に言えば、どれだけ多くのデータを投げ込んでも、ディープラーニングモデルは、プログラミングや科学的手法の適用 (長期計画やデータのアルゴリズム操作) など、推論を必要とする作業は何も達成できません。ディープニューラルネットワークを使用しても、ソートアルゴリズムを学習することは非常に困難です。

これは、ディープラーニングモデルが、あるベクトル空間を別のベクトル空間にマッピングする連続的な幾何学的変換の単純なチェーンにすぎないためです。できることは、X から Y への学習可能な連続変換が存在し、高密度の X:Y サンプリングをトレーニングデータとして使用できると仮定して、1 つのデータ多様体 X を別の多様体 Y にマッピングすることだけです。したがって、ディープラーニングモデルはプログラムとして解釈できますが、逆に、ほとんどのプログラムはディープラーニングモデルとして表現できません。ほとんどのタスクでは、タスクを解決するための実用的なサイズの対応するディープニューラルネットワークがないか、そのようなニューラルネットワークが存在しても学習できない可能性があります。つまり、対応する幾何学的変換が複雑すぎるか、学習に適したデータが存在しない可能性があります。

より多くのレイヤーを積み重ね、より多くのトレーニングデータを使用することで現在のディープラーニング技術を拡張しても、問題の一部は表面的にしか軽減できません。これは、ディープラーニングモデルが表現できるものの種類が非常に限られており、学習可能であると期待されるほとんどのプログラムがデータ多様体の連続的な幾何学的変形として表現できないという根本的な問題に対処できていません。

機械学習モデルを擬人化することのリスク

現代の AI における非常に現実的なリスクは、人々がディープラーニングモデルの機能を誤解し、その能力を過大評価してしまうことです。人間の心の基本的な特徴は「心の理論」、つまり、私たちの周囲の物事に意図、信念、知識を投影する傾向です。心の中で、岩に笑顔を描くと、その岩は突然「幸せ」になります。これをディープラーニングに適用すると、画像を説明するキャプションを生成するモデルを「ほぼ正常に」トレーニングできる場合、モデルが画像の内容を「理解」し、生成したキャプションを「理解」できると信頼することになります。その後、トレーニングデータに存在する画像のカテゴリがわずかに逸脱すると、モデルがまったくばかげたキャプションを生成し始めるのを見て、私たちは非常に驚くことになります。

[[227298]]

特に、「敵対的サンプル」は強調する価値があります。これは、モデルを騙して誤分類させるように設計されたディープラーニングネットワークへの入力の例です。入力空間で勾配上昇法を実行して、ある閉ループフィルターのアクティブ化を最大化する入力を生成できることはすでにおわかりでしょう。これは、第 5 章で紹介したフィルター視覚化手法と第 8 章の Deep Dream アルゴリズムの基礎です。同様に、勾配上昇法によって、画像をわずかに変更して、特定のクラスのクラス予測を最大化することができます。パンダの写真を撮り、「テナガザル」の勾配を追加することで、ニューラルネットワークがこのパンダをテナガザルとして分類できるようになります。これは、これらのモデルの脆弱性と、それらの入出力マッピングと私たち自身の認識との間の大きな違いを示しています。

つまり、ディープラーニングモデルは、少なくとも人間の意識的な意味では、入力を理解しません。私たち人間の画像、音、言語に対する理解は、地球上の生物が示すのと同じように、人間としての感覚運動経験に基づいています。機械学習モデルはこれらの経験にアクセスできないため、人間と同じように入力を「理解」することはできません。多数のトレーニング例に注釈を付けてモデルをトレーニングすることで、特定のデータセット上のデータを人間の概念にマッピングする幾何学的変換をモデルに学習させますが、このマッピングは、人間の実体としての経験から導き出された頭の中の元のモデルの単純な要約にすぎません。鏡に映ったぼやけた画像のようなものです。

機械学習の実践者として、常にこのことを念頭に置き、ニューラルネットワークが実行するタスクを理解していると思い込むという罠に陥らないようにしてください。少なくとも、ニューラルネットワークは、私たちにとって意味のある方法ではタスクを理解していません。私たちが教えたいタスクではなく、はるかに狭い範囲のタスク、つまりトレーニングセットの入力をトレーニングターゲットにポイントごとにマッピングするだけのタスクを実行するようにトレーニングされます。トレーニングデータから逸脱するものを何でも見せると、彼らは最もばかげた結果を返します。

局所的一般化と極端一般化

ディープラーニングモデルにおける入力から出力への直接的な幾何学的変換は、人間の思考や学習の方法とはほとんど完全に異なります。それは、人間が明示的なトレーニング例からではなく、自分自身の経験から学習するだけの問題ではありません。学習プロセスの違いに加えて、基礎となる表現の性質にも根本的な違いがあります。

人間は、ディープニューラルネットワークや昆虫のように、直接的な刺激を即時の反応にマッピングする以上のことができる。人々は、現在の状況、自分自身、そして他の人々についての複雑な抽象モデルを維持し、これらのモデルを使用してさまざまな将来を予測し、長期計画を立てることができます。彼らは、ジーンズを履いた馬を思い浮かべたり、宝くじに当たったらどうするかを想像したりするなど、既知の概念を組み合わせて、これまで経験したことのないことを表現することができます。仮説を処理し、直接経験できるものの空間をはるかに超えてメンタルモデルの空間を拡大し、抽象化して推論するこの能力は、おそらく人間の認知を定義する特性です。私はこれを「極端な一般化」と呼んでいます。これは、新しいデータをほとんどまたはまったく使用せずに、未経験の状況に直面した場合でも、新しい状況に適応する能力です。

これは、私が「ローカル一般化」と呼んでいるディープネットの機能とはまったく対照的です。新しい入力がトレーニング中に見たものとわずかに異なる場合、ディープネットによって実行される入力から出力へのマッピングはすぐに無意味になります。たとえば、ロケットを月に着陸させるための適切な打ち上げパラメータを知りたいという問題を考えてみましょう。このタスクにディープネットワークを使用する場合、教師あり学習または強化学習のどちらを使用してトレーニングする場合でも、数千または数百万の起動試行でトレーニングする必要があります。つまり、入力空間から出力空間への信頼性の高いマッピングを学習するために、モデルを入力サンプルポイントの密な空間にさらす必要があります。

対照的に、人間は抽象的な能力を使って物理モデル（ロケット科学）を考え出し、わずか 1 回または数回の試行で月へのロケットの打ち上げパラメータを正確に求める解決策に到達することができます。同様に、都市部で他の車にぶつからずに安全に車を運転できるように人間の体を制御するディープネットワークを開発した場合、ネットワークは、車と危険について推論し、適切な回避策を開発できるようになるまで、さまざまなシナリオで何千回も「死ぬ」必要があります。新しい都市に設置されると、ネットワークは既に知っていることの多くを再学習する必要があります。一方、人間は、仮想的な状況を抽象的にモデル化する能力のおかげで、安全な行動を学ぶために死ぬ必要はありません。

局所的一般化：パターン認識レベルでの一般化能力、極度一般化：抽象化と推論によって得られる一般化能力

要約すると、機械認識の進歩にもかかわらず、私たちはまだ人間レベルの AI には程遠いと言えます。私たちのモデルは局所的な一般化しか実行できず、新しいシナリオに適応するには元のデータに非常に近いものでなければなりません。一方、人間の認知は極端な一般化が可能で、まったく新しい状況に素早く適応したり、長期的な将来の状況を計画したりすることができます。

拡大

覚えておいていただきたいのは、これまでのところディープラーニングの唯一の真の成功は、人間が注釈を付けた大量のデータを与えられた場合に、連続的な幾何学的変換を使用して空間 X を空間 Y にマッピングする能力であったということです。これを正しく実現できれば、あらゆる業界にとって大変革をもたらすことになるでしょうが、人間レベルの AI にはまだ程遠い状況です。

これらの制限を解除し、人間の脳と競争し始めるには、単純な入力から出力へのマッピングから、推論と抽象化へと移行する必要があります。コンピュータプログラムは、さまざまな状況や概念を抽象的にモデル化するのに適した基盤となる場合があります。本書では以前、機械学習モデルは「学習可能なプログラム」として定義できると述べましたが、現在学習できるプログラムは、考えられるすべてのプログラムのうち、非常に狭く特定のサブセットに属しています。しかし、モジュール式かつ再利用可能な方法であらゆるプログラムを学習できるとしたらどうでしょうか?

ディープニューラルネットワークの仕組み、その限界、現在の研究状況について私たちが知っていることを踏まえると、ニューラルネットワークが中期的にどのように発展していくかを予測できるでしょうか。以下に私の個人的な考えをいくつか示します。私には水晶玉がないので、私が行う予測のほとんどはおそらく外れるだろうということをご了承ください。これは純粋に予測的な投稿であり、これらの推測をシェアするのは、近い将来に正しいことが証明されることを期待しているからではなく、現時点で非常に興味深く実用的であると思われるからです。

一般的に、私が予測する主な方向性は次のとおりです。

汎用コンピュータプログラムに近いモデルは、現在の微分可能レイヤーよりもはるかに豊富なプリミティブの上に構築されます。これにより、モデルに推論と抽象化がもたらされますが、これが現在のモデルの根本的な弱点です。
これは、モデルが現在の微分可能な変換から脱出できるようにする新しい学習戦略によって可能になります。
人間によるエンジニアリングの関与をあまり必要としないモデル、つまりパラメータを際限なく微調整することが仕事の一部になるべきではありません。
以前に学習した機能とアーキテクチャのより大規模で体系的な再利用。再利用可能なモジュール式サブルーチンに基づくメタ学習システム。

また、私のこれらの考えは、教師あり学習の主力となっているディープラーニングに向けられたものではないことも注目に値します。逆に、これらの考慮事項は、教師なし学習、自己教師学習、強化学習など、あらゆる形式の機械学習に適用されます。ラベルがどこから来るのか、トレーニングループがどのようになっているのかは問題ではありません。機械学習のこれらの異なる分野は、同じ構造の異なる側面にすぎません。早速始めましょう。

プログラムとしてのモデル

前回の記事で述べたように、機械学習で予想される変化の 1 つは、純粋にパターン認識のみで局所的な一般化しか実現できないモデル (前回の記事を参照) から、抽象化と推論、つまり究極の一般化機能を実現できるモデルへの移行です。 AI プログラムが現在実行できる基本的な推論形式は、人間のプログラマーによってハードコードされています。たとえば、検索アルゴリズム、グラフ処理、形式論理に依存するソフトウェアなどです。具体的には、たとえば DeepMind の AlphaGo では、「インテリジェンス」の大部分はプロのプログラマーによって設計され、ハードコードされており (モンテカルロ木探索など)、データからの学習は特殊なサブモジュール (価値ネットワークとポリシーネットワーク) でのみ行われます。しかし将来的には、このような AI システムは人間の関与をまったく必要とせずに学習されるようになるでしょう。

これを実現する方法はあるのでしょうか? よく知られているタイプのネットワーク、リカレントニューラルネットワーク (RNN) を考えてみましょう。重要な点は、リカレントニューラルネットワークはフィードフォワードネットワークよりも制限が少ないということです。これは、RNN が単なる幾何学的変換ではなく、for ループ内で繰り返し適用される幾何学的変換であるためです。順次 for ループ自体は人間の開発者によってハードコードされており、ネットワークに組み込まれた前提となっています。当然ながら、リカレントニューラルネットワークが表現できる内容は依然として非常に限られています。主な理由は、実行する各ステップが依然として微分可能な幾何学的変換にすぎず、現在のステップから次のステップに情報を伝達する方法が連続した幾何学的空間 (状態ベクトル) 内の点を通じて行われるためです。

ここで、ニューラルネットワークが、for ループプログラミングプリミティブを使用して同様の方法で「プログラム」されると想像してください。ただし、ハードコードされたジオメトリメモリを持つハードコードされた for ループだけではなく、モデルが自由に操作して処理機能を拡張できる、if 分岐、while ループ、変数作成、長期メモリ用のディスクストレージ、並べ替え操作、リスト、グラフ、ハッシュテーブルなどの高度なデータ構造などの大規模なプログラミングプリミティブのセットもプログラムされます。このようなネットワークが表現できるプログラムの空間は、現在のディープラーニングモデルが表現できる空間よりもはるかに広くなり、これらのプログラムの中には優れた一般化機能を実現するものもあるかもしれません。

要約すると、私たちは「ハードコードされたアルゴリズム知能」（手作りのソフトウェア）から、「学習された幾何学的知能」（ディープラーニング）から離れていきます。推論と抽象化の機能を提供する正式なアルゴリズムモジュールと、非公式な直感とパターン認識の機能を提供する幾何学的モジュールを用意します。システム全体では、学習を完了するために人間の介入をほとんど必要としません。

人工知能に関連するサブフィールド、つまりプログラム合成、特にニューラルプログラム合成が、これから活発になるのではないかと思います。プログラム合成では、検索アルゴリズム (遺伝的プログラミングにおける遺伝的検索など) を使用して、可能性のあるプログラムの巨大な空間を探索し、単純なプログラムを自動的に生成します。要件に一致するプログラムが見つかると、検索は停止します (要件は通常、入力と出力のペアのセットとして提供されます)。ご想像のとおり、これは機械学習を思い起こさせます。つまり、入力と出力のペアを「トレーニングデータ」として与えて、入力を出力にマッピングし、他の入力に一般化する「プログラム」を見つけます。違いは、ハードコードされたプログラム（ニューラルネットワーク）でパラメータ値を学習するのではなく、離散的な検索プロセスを通じてソースコードを生成することです。

私は、この分野が今後数年のうちに第二の春を迎えるのを心から楽しみにしています。特に、ディープラーニングとプログラム合成の間に交差するサブフィールドが出現することを期待しています。そこでは、汎用言語からプログラムを生成するのではなく、for ループなどの豊富なアルゴリズムプリミティブで強化されたニューラルネットワーク (幾何学的データ処理フロー) を生成します。これは、ソースコードを直接生成するよりもはるかに扱いやすく便利であり、機械学習で解決できる問題の範囲を大幅に拡大します。適切なトレーニングデータが与えられれば、プログラムの空間を自動的に生成できます。シンボリック AI と幾何学的 AI の融合である現代の再帰ニューラルネットワークは、このハイブリッドアルゴリズム幾何学モデルの先駆者と言えます。

幾何学的プリミティブ（パターン認識と直感）とアルゴリズムプリミティブ（推論、検索、および記憶）に依存する学習手順

バックプロパゲーションと微分可能層を超えて

機械学習モデルがプログラムに似たものになると、微分化できなくなります。もちろん、これらのプログラムは、微分化可能なサブルーチンとして連続する幾何学的レイヤーを引き続き使用しますが、モデル全体は微分化できません。したがって、バックプロパゲーションを使用して固定されたハードコードされたネットワークの重みを調整することは、将来的にはモデルのトレーニングに推奨される方法ではなく、少なくとも現在ほど主流にはならないでしょう。微分不可能なシステムを効率的にトレーニングする方法を見つける必要があります。現在の方法には、遺伝的アルゴリズム、進化戦略、特定の強化学習法、交互方向乗数法 (ADMM) などがあります。当然、勾配降下法はなくなることはありません。勾配情報は、微分可能なパラメータ関数を最適化するために常に役立ちます。しかし、私たちのモデルは単純に微分可能なパラメトリック関数よりも確実に強力になるため、その自律的な改善（「機械学習」における「学習」）には、バックプロパゲーション以上のものが必要になります。

さらに、バックプロパゲーションはエンドツーエンドの学習パラダイムであり、優れた連鎖変換を学習するには適していますが、ディープニューラルネットワークのモジュール性を十分に活用していないため、計算的には非常に非効率的です。効率を向上させるための一般的な戦略は、モジュール性と階層性を導入することです。したがって、個別のトレーニングモジュールとそれらの間の同期メカニズムを導入し、それらを階層的に整理することで、バックプロパゲーション計算をより効率的にすることができます。 DeepMind の最近の「合成勾配」に関する研究は、ある程度この戦略を反映しています。近い将来、この分野でさらに多くの作業が行われることを期待しています。

私たちが予見できる未来の 1 つは、これらのモデルが全体的には微分不可能 (ただし、局所的には微分可能) になり、勾配戦略ではなく効率的な検索手順を通じてトレーニングされるようになることです。一方、局所的に微分可能な領域は、勾配降下法を最大限に活用するために、バックプロパゲーションのより効率的なバージョンを活用することで、はるかに高速にトレーニングできます。

自動化された機械学習

将来的には、モデルアーキテクチャはエンジニアが手動で設定する必要はなく、学習できるようになります。また、自動学習アーキテクチャは、より豊富なプリミティブとプログラムのような機械学習モデルの使用と組み合わせられます。

現在、ディープラーニングエンジニアの仕事のほとんどは、Python スクリプトを使用してデータを処理し、ディープネットワークのアーキテクチャとハイパーパラメータを調整して適切なモデルを取得することです。エンジニアが十分に野心的であれば、最も高度なパフォーマンスを備えたモデルを取得することさえ可能です。言うまでもなく、このアプローチは最適ではありませんが、現時点ではディープラーニング技術が一定の役割を果たすことは可能です。残念ながら、データ処理部分は、通常、ドメイン知識とエンジニアが望む効果に関する非常に明確で高レベルの理解が必要となるため、自動化が困難です。ただし、ハイパーパラメータの調整は非常に単純な検索プロセスであり、この場合、エンジニアがどのような効果を達成したいかはすでにわかっています。これは、微調整されるネットワークの損失関数によって定義されます。モデルのチューニングの大部分を処理する基本的な「AutoML」システムをセットアップするのが一般的です。数年前には独自のモデルを構築し、Kaggle コンテストで優勝したこともあります。

最も基本的なレベルでは、このようなシステムは、スタックに積み重ねられたレイヤーの数、それらの順序、および各レイヤー内のユニットまたはフィルターの数を調整するだけです。これは通常、Python によるディープラーニングの第 7 章で説明した Hyperopt などのライブラリを使用して行われます。しかし、もっと野心的に、適切なアーキテクチャを一から学び、制約をできるだけ少なくしようとすることもできます。これは強化学習または遺伝的アルゴリズムを通じて実現できます。

AutoML のもう 1 つの重要な方向性は、モデルの重みとともにモデルアーキテクチャを共同で学習することです。まったく新しいアーキテクチャを最初からトレーニングし、試行ごとに微調整するのは非常に時間がかかり非効率的であるため、真に強力な AutoML システムでは、トレーニングデータを通じてモデルの機能をバック調整しながらアーキテクチャを改善することで、すべての計算の冗長性を排除します。これを書いている時点で、これらのアプローチはすでに現れ始めています。

そうなれば、機械学習エンジニアの仕事がなくなるわけではなく、むしろエンジニアが価値創造チェーンの上位に上がることになるでしょう。企業は、ビジネス目標を真に反映する洗練された損失関数の作成にさらなる労力を注ぎ始め、モデルが展開されるデジタルエコシステム (モデルの予測を利用するユーザーやモデルのトレーニングを生成したデータなど) にモデルがどのように影響するかを深く理解するようになります。これは、現在は最大規模の企業だけが取り組む時間がある問題です。

生涯学習とモジュールサブルーチンの再利用

モデルがますます複雑になり、より豊富なアルゴリズムプリミティブに基づいて構築される場合、この複雑さの増大により、新しいタスクや新しいデータセットがあるたびに新しいモデルをゼロからトレーニングするのではなく、さまざまなタスク間での再利用性を高めることが必要になります。実際、多くのデータセットは、新しい複雑なモデルをゼロからトレーニングするのに十分な大きさではなく、以前のデータセットの情報を活用する必要があります。新しい本を開くたびに英語をもう一度学び直す必要がないのと同じです。さらに、現在のタスクと以前に遭遇したタスクの間には大きな重複がある可能性があるため、新しいタスクごとにモデルを最初からトレーニングするのは非常に非効率的です。

さらに、近年繰り返し現れている注目すべき観察結果は、同じモデルをトレーニングして、緩く関連した複数のタスクを同時に実行させると、各タスクに適したモデルが生成されるというものです。たとえば、同じニューラル機械翻訳モデルを英語からドイツ語、フランス語からイタリア語への翻訳をカバーするようにトレーニングすると、それぞれを個別にトレーニングするよりも優れたモデルが生成されます。もう 1 つの例としては、画像分類モデルを画像セグメンテーションモデルと一緒にトレーニングし、同じ畳み込みカーネルを共有することで、両方のタスクでより優れたパフォーマンスを発揮するモデルを生成する、などが挙げられます。これは直感的に完全に理にかなっています。一見無関係なタスク間には常に情報の重複があるため、共同でトレーニングされたモデルは、特定の 1 つのタスクのみでトレーニングされたモデルと比較して、個々のタスクに関する多くの情報を取得できます。

タスク間でのモデルの再利用に向けた私たちの現在の取り組みは、視覚的特徴の抽出などの一般的なタスクを処理するために、事前トレーニング済みの重みモデルを使用することです。これについては第 5 章で説明します。将来的には、この一般化機能によってより優れた普遍性が実現されることを期待しています。つまり、以前に学習した機能 (サブモデルの重み) を再利用するだけでなく、モデルアーキテクチャとトレーニング手順も再利用することになります。モデルがますますプログラムに似てくると、人間のプログラミング言語の関数やクラスなどのプログラムサブルーチンを再利用し始めます。

今日のソフトウェア開発のプロセスについて考えてみましょう。エンジニアが特定の問題 (Python での HTTP リクエストの問題など) を解決すると、それを抽象的で再利用可能なライブラリにパッケージ化します。こうすることで、将来同様の問題に直面するエンジニアは、既存のライブラリを検索し、それをダウンロードしてプロジェクトで使用するだけで、問題を解決できるようになります。同様に、将来的には、メタ学習システムは、高レベルの再利用可能なブロックのグローバルライブラリをふるいにかけて、まったく新しいプログラムを組み立てることができるようになります。

システムが、いくつかの異なるタスクに対して類似のプログラムサブルーチンを開発していることに気付いた場合、サブルーチンの再利用可能なバージョンを「抽象化」し、それをグローバルライブラリに格納することができます。このようなプロセスにより、抽象化が可能になります。これは、「究極の一般化」を達成するために必要な要素です。さまざまなタスクやドメインにわたって有用なサブルーチンを発見することは、ある問題に対する解決策のいくつかの側面を「抽象化」することと考えることができます。ここでの「抽象」の定義は、ソフトウェアエンジニアリングにおける抽象化の概念に似ています。これらのサブルーチンは、幾何学的なもの（事前トレーニング済みの表現を備えたディープラーニングモジュール）またはアルゴリズム的なもの（現代のソフトウェアエンジニアが使用するソフトウェアライブラリに近いもの）のいずれかになります。

メタ学習者は、再利用可能なプリミティブ（アルゴリズムと幾何学）を使用して特定のタスクのモデルを迅速に開発し、「極端な一般化」を達成することができます。

結論: 未来への洞察

要約すると、機械学習の長期的な発展に関する私の見解は次のとおりです。

モデルはよりプログラムに似たものになり、現在使用しているものよりもはるかに広範囲に渡って入力データの連続的な幾何学的変換が可能になります。これらのプログラムは、人間が周囲や自分自身に対して持つ抽象的なメンタルモデルに近いと言えるでしょう。また、豊富なアルゴリズムの性質により、一般化能力も向上します。
特に、このモデルは、形式的な推論、検索、抽象化機能を提供するアルゴリズムモジュールと、非形式的な直感とパターン認識機能を提供する幾何学的モジュールを融合します。 AlphaGo (多くの手動ソフトウェアエンジニアリングと人間による設計上の決定を必要とするシステム) は、記号 AI と幾何学 AI が融合するとどのようなものになるかを示す初期の例を提供しました。
これらは、人間のエンジニアが手作業で作成するのではなく、何万もの過去のタスクとデータセットで学習した高性能モデルから進化した再利用可能なサブルーチンのグローバルライブラリに保存されたモジュールコンポーネントを使用して、自動的に成長します。メタ学習システムが共通の問題解決パターンを識別すると、それらは現代のソフトウェアエンジニアリングの関数やクラスと同様に再利用可能なサブルーチンに変換され、グローバルライブラリに追加され、抽象化機能が実現されます。
このグローバルライブラリと関連するモデル成長システムは、人間のような「極端な一般化」を実現できます。つまり、新しいタスクや状況が与えられた場合、システムはごくわずかなデータで、新しいタスクに適したまったく新しい実用的なモデルを組み立てることができます。これは、1) 強力な一般化能力を備えたプログラムのようなプリミティブが豊富にあること、2) 類似のタスクに関する豊富な経験があることによるものです。人間が新しい複雑なビデオゲームを非常に速くプレイできるのは、そのゲームに関する過去の経験が豊富であり、過去の経験から導き出されたモデルが刺激と動作の基本的なマッピングではなく抽象的で手続き型であるためです。
したがって、この永続的に学習しモデルを成長させるシステムは、汎用人工知能 (AGI) と呼ぶことができます。しかし、ロボットによる終末についてはまだ心配する必要はありません。それは単に、知性とテクノロジーに関する一連の深い誤解から生まれた幻想です。しかし、この点についての批判はこの記事の範囲を超えています。

<<: 私は 8 つの企業と面接しましたが、機械学習に関する次のような質問をされました…

>>: これを読めば分かるでしょう。これらは人工知能によって排除されつつある主要な職業です。