ディープラーニングの限界を理解していますか?

[[205696]]

簡単なコメント: AI、機械学習、ディープラーニングは近年注目されている分野ですが、ディープラーニングの限界については明確に認識しておく必要があります。連続的な幾何学的変換を使用して X を Y にマッピングすることはできますが、推論機能と抽象化機能が欠けています。トレーニングセットのサンプルが不十分であり、一部のデータは連続的な幾何学的変換では表現できません。機械学習は現在、多くの業界でゲームのルールを変えることができますが、人間化された AI にはまだまだ遠い道のりがあります。

ディープラーニング: 幾何学的視点

ディープラーニングの最も素晴らしい点は、複雑なものをシンプルにすることです。 10 年前には、勾配降下法による単純なパラメータモデルのトレーニングによって、機械知覚においてこのような驚くべき結果が得られるとは誰も想像できなかったでしょう。今では、十分な数の例と必要な数のパラメーターモデルを考慮するだけでよいことがわかります。ファインマンはかつて宇宙をこう表現した。「宇宙は複雑ではない。ただたくさんあるだけだ。」

ディープラーニングでは、すべてがベクトル、つまり幾何学的空間内のすべてが点です。モデル入力 (テキスト、画像など) とターゲットは最初に「ベクトル化」され、つまり、いくつかの初期入力ベクトル空間とターゲットベクトル空間に変換されます。ディープラーニングモデルの各レイヤーは、通過するデータに対して単純な幾何学的変換を実行します。モデルのレイヤーのチェーンを総合すると、非常に複雑な幾何学的変換が形成され、それが一連のより単純な幾何学的変換に分解されます。この複雑な変換は、入力空間をターゲット空間に 1 ポイントずつマッピングしようとします。この変換は、さまざまなレイヤーの重みパラメータに基づいて変化し、モデルの現在のパフォーマンスに基づいて繰り返し更新されます。この幾何学的変換の重要な特徴は、微分可能でなければならないということです。これは、勾配降下法によってそのパラメータを調べるために必要な条件です。直感的に言えば、これは入力から出力までの幾何学的変形が滑らかで連続的である必要があることを意味します。

全体のプロセスは、複雑なジオメトリを入力データに変換することです。

これがディープラーニングの魔法です。意味をベクトル、幾何学的空間に変換し、複雑な幾何学的変換を徐々に学習して、ある空間を別の空間にマッピングします。

ディープラーニングの限界

シンプルな戦略により、実装の可能性はほぼ無限に広がります。しかし、現時点では、人間が注釈を付けた大量のデータを使用しても、ディープラーニングでは達成できないことが数多くあります。たとえば、ソフトウェア製品の機能を説明する数百、数千、数十万、さらには数百万の言語からなるデータセットをコンパイルできます。このデータを使用しても、製品の説明を単純に読み取って対応するコードベースを生成するディープラーニングモデルをトレーニングすることはできません。これは単なる一例です。一般的に言えば、推論を必要とするプログラミングや科学的手法（長期計画やアルゴリズムのようなデータ操作）の適用を必要とするものは、どれだけ多くのデータを投入しても、ディープラーニングモデルの能力を超えています。ディープニューラルネットワークを使用してソートアルゴリズムを学習することさえ困難です。

これは、ディープラーニングモデルが、あるベクトル空間を別のベクトル空間にマッピングする幾何学的変換の連続チェーンにすぎないためです。ディープラーニングモデルでは、データ X にラベルを付けて、それをデータ Y に関連付けることができます。X から Y への学習可能な連続変換があり、高密度で利用可能な XY トレーニングセットがあると仮定すると、ディープラーニングモデルを確立できます。しかし、ほとんどのプログラムはディープラーニングモデルとは言えません。ほとんどのタスクでは、タスクを解決するための対応する実質的にディープニューラルネットワークがないか、ニューラルネットワークが存在しても、それ自体では学習できない可能性があります。つまり、対応する幾何学的変換が複雑すぎるか、学習するための基本的なデータセットが存在しない可能性があります。

より多くのレイヤーを積み重ね、より多くのトレーニングデータを使用することで現在のディープラーニング技術を拡張しても、これらの問題の一部は表面的にしか軽減できません。これらは非常に限られた範囲のデータを表しており、ディープラーニングモデルのより基本的な問題には対処していません。また、ディープラーニングを採用する可能性のあるほとんどのプログラムは、多様なデータの連続的な幾何学的変形を使用して表現することはできません。

擬人化された機械学習モデルのリスク

現代の AI における非常に顕著なリスクは、「ディープラーニングを誤解し、その能力を過大評価すること」です。人間の思考の基本的な特徴は、人類の「イデオロギーとシステム」に基づいて、人間の意図、信念、理解を周囲の物事に押し付ける傾向があることです。岩に笑顔を描くと笑っているように見えるのと同じように、これらはすべて私たちの想像力です。たとえば、ディープラーニングでは、画像を見たときにキャプションを生成するモデルをある程度うまくトレーニングできた場合、モデルが画像の内容を「理解」してキャプションを生成していると誤って信じてしまうことがよくあります。すると、トレーニングデータに存在する画像の種類からわずかに逸脱しただけで、モデルがまったく意味をなさないキャプションを生成し始めたら、私たちは非常に驚くことになります。

（機械学習が理解する能力を発達させたと考えると、機械学習の出力結果が元のものと異なると非常に驚くでしょう。写真キャプション：この少年は野球のバットを持っています）

認識の脆弱性を証明できる「敵対的ケース」がしばしば存在します。入力ケースでは、モデルを欺くサンプルを意図的にディープラーニングの入力データとして配置します。勾配上昇法では、特定のクラスのクラス予測を最大化するために、画像をわずかに変更できます。パンダの写真を撮り、「テナガザル」のグラデーションを追加すると、ニューラルネットワークがパンダをテナガザルとして分類していることがわかります。これは、これらのモデルの脆弱性と、それらが動作する入力から出力へのマッピングと私たち自身の人間の認識との間の大きな矛盾を示しています。

（テナガザルをトレーニングセットに入れると、ニューラルネットワークは写真のパンダがテナガザルであると判断する）

私たち自身の画像、音、言語に対する理解は、人間としての私たち自身の感覚的経験に基づいていますが、それは地球上の生き物にも当てはまります。機械学習モデルはこのような感情や理解を持つことができないため、機械に人間の感情を持って学習するように求めることはできません。多数のトレーニング例に注釈を付けてモデルに取り込むことで、データをこの特定の例セットにマッピングする幾何学的変換を学習させますが、このマッピングは、元のモデルの単純なスケッチにすぎません。機械学習は実行者のようなものです。人間のアイデアを実行しますが、感情や理解はありません。その動作ガイドラインはすべて人間によって与えられます。

機械学習の実践者として、常にこのことを念頭に置き、ニューラルネットワークが実行するタスクを理解していると考えるという罠に陥らないようにしてください。

局所一般化と極端一般化

ディープラーニングモデルの入力から出力への直接的な幾何学的変換は、人間の思考や学習の方法とは根本的に異なります。人間は自己認識と外界の経験的知識から継続的に学習しますが、これは機械学習の学習パスとは異なります。学習プロセスが異なるだけでなく、基礎となる表現の性質にも根本的な違いがあります。

人間は、現在の状況、自分自身、そして他の人々についての複雑で抽象的な思考と行動のパターンを維持しており、これらのモデルを使用してさまざまな将来の可能性を予測し、長期的な計画を立てることができます。人間は、馬がジーンズを履いているのを見たり、宝くじに当たったらどうするかなど、これまで一度も経験したことがなくても、既知の概念を組み合わせることができます。仮定を処理してメンタルモデルをより複雑にするこの能力は、おそらく人間の認知を定義する特性です。私はこれを「極端な一般化」と呼んでいます。これは、新しいデータをほとんどまたはまったく使用せずに、これまでに経験したことのない新しい状況に適応する能力です。

これは、私が「ローカル一般化」と呼んでいるディープニューラルネットワークとはまったく対照的です。新しい入力が以前のトレーニングセットから少しでも逸脱すると、ディープニューラルネットワークの入力と出力のエラー率が上昇し、すべてが停止します。たとえば、ディープラーニングを使用してロケットの月面着陸の問題を解くには、適切な打ち上げパラメータが必要です。このタスクにディープニューラルネットワークを使用する場合、教師あり学習または強化学習のどちらを使用してトレーニングしたとしても、入力空間から出力空間への信頼性の高いマッピングを実現するために、数千または数百万のスタートアップトライアル、つまり高密度にサンプリングされた入力空間を入力する必要があります。対照的に、人間は抽象化の力を使って物理モデル（ロケット科学）を考え出し、1 回または数回の実験で正確な解決策を導き出し、ロケットを月に送ることができます。

別の例を挙げると、人の体を制御できるニューラルネットワークを開発し、車にぶつかることなく街中を移動できるようにしたい場合、ニューラルネットワークによって制御される人は、車両の状況やさまざまな危険を判断して回避行動を身に付けられるまで、さまざまな状況で何千回も死ぬ必要があります。新しい都市に行くとき、ニューラルネットワークは知識のほとんどを再学習する必要があります。逆に、人間は仮説的な状況を抽象的にモデル化することで、死を伴う試行錯誤を経ずに安全な行動を学ぶことができます。

(同じ経験ですが、左側は機械学習の局所的な一般化であり、抽象化能力に欠けています。右側は人間の極端な一般化であり、実際に横断することなく仮定を通じて抽象的にモデル化できます)

つまり、機械の知覚は進歩しているものの、知覚的な人間的 AI にはまだまだ遠いということです。私たちのモデルは、過去のデータに非常に近い新しい状況に適応するローカルな一般化しか実行できませんが、人間の認知は、大胆で斬新な状況に素早く適応したり、はるか先の状況を計画したりするなど、極端な一般化が可能です。

結論は

覚えておいていただきたいのは、これまでのディープラーニングの唯一の真の成功は、連続的な幾何学的変換を使用して空間 X を空間 Y にマッピングする能力であり、ただし、大量の人間が注釈を付けたデータが与えられた場合に限られるということです。これらすべてをうまく行えば、基本的にあらゆる業界のゲームのルールが変わるでしょうが、より人間的な AI を実現するにはまだ長い道のりがあります。

AI がこれらの限界に対処し、人間の脳と競争し始めるためには、単純な入力から出力へのマッピングを超えて、推論と抽象化に重点を置く必要があります。

<<: 人工知能は医師に完全に取って代わることはできない

>>: 大規模機械学習システムでは無料のランチはない