ディープラーニング: シンプルだが限界のあるソリューション

ディープラーニング：幾何学的視点

ディープラーニングに関する最も驚くべき事実は、それがいかにシンプルであるかということです。 10 年前には、単純な勾配降下パラメータモデルを使用して機械認知においてこのような驚くべき成果を達成できるとは誰も思っていなかったでしょう。ここで、勾配降下法を使用して、十分なサンプルで十分に大きなパラメータモデルをトレーニングする必要があります。ファインマンはかつてこう言いました。「宇宙は複雑ではない。ただ宇宙で構成されているだけだ。」

ディープラーニングの分野では、すべてが単なるベクトル、つまり幾何学的空間内の点です。モデル入力 (テキスト、画像など) とターゲットは、最初にベクトル化、つまり元の入力ベクトル空間とターゲットベクトル空間に変換する必要があります。ディープラーニングモデルの各レイヤーは、その中のデータに対して単純な幾何学的変換を実行します。複数のレイヤーは非常に複雑な幾何学的変換を形成しますが、これは複数の単純な幾何学的変換に分解できます。この複雑な幾何学的変換は、入力空間とターゲット空間の間を 1 点ずつマッピングしようとします。変換は各レイヤーの重みによってパラメータ化され、モデルの現在の状態に基づいて反復的に更新されます。この幾何学的変換の重要な特徴は、勾配降下法によってそのパラメータを学習できるように、微分可能でなければならないことです。直感的に言えば、これは入力から出力までの幾何学的変形が連続的かつ一貫していなければならないことを意味し、これも大きな制約となります。

この幾何学的変換を入力データに適用するプロセス全体は、人が紙のボールを滑らかにしている様子を想像することで 3D で視覚化できます。しわくちゃの紙のボールは、モデルの開始時の大量の入力データを表し、紙のボール上の人の動きは、各レイヤーで実行される単純な幾何学的変換に相当します。すべてのスムージングアクションにより、モデル全体の複雑な幾何学的変換が行われます。ディープラーニングモデルは、複雑で大量の高次元データを平滑化する数学的マシンです。

これがディープラーニングの魔法です。意味をベクトルと幾何学的空間に変換し、複雑な幾何学的変換を徐々に学習して、ある空間を別の空間にマッピングします。元のデータ内のすべての関係をキャプチャするには、十分に高い次元空間が必要です。

ディープラーニングの限界

このシンプルな戦略の応用範囲はほぼ無限です。しかし、大量の手動で注釈付けされたデータがあっても、現在のディープラーニング技術を使用できないアプリケーションが数多くあります。たとえば、ソフトウェア機能に関する英語の説明が数十万、あるいは数百万件含まれているデータセットと、それらの要件を満たすためにエンジニアチームが開発した対応するソースコードを収集できます。しかし、このデータを使用しても、製品の説明を読み取って対応するコードベースを出力するようにディープラーニングモデルをトレーニングすることはできません。これは無数の例のうちのほんの1つです。一般的に言えば、プログラミング、長期計画への科学的方法の適用、アルゴリズムのようなデータ操作など、推論を必要とするものは、データの量に関係なく、ディープラーニングモデルには適していません。ディープニューラルネットワークでソートアルゴリズムを学習することさえ非常に困難です。

これは、ディープラーニングモデルが、あるベクトル空間を別のベクトル空間にマッピングする、単純で連続的な一連の幾何学的変換にすぎないためです。 X から Y への変換が永続的かつ学習可能であり、X:Y の多数の例がトレーニングデータとして利用可能であると仮定すると、この幾何学的変換では、1 つのデータ多様体 X を別のデータ多様体 Y にのみマッピングできます。したがって、たとえディープラーニングモデルがプログラムとして理解できたとしても（逆に言えば、ほとんどのプログラムはディープラーニングモデルとは言えません）、ほとんどのタスクでは、適切なサイズのディープニューラルネットワークがないか、あるいは、たとえあったとしても、ネットワークを学習できない、つまり、対応する幾何学的変換が複雑すぎるか、ネットワークを学習するための適切なデータを取得できないかのいずれかです。

より多くのレイヤーを積み重ね、より多くのトレーニングデータを使用することで現在のディープラーニング技術を改善することは一時的な解決策にすぎず、ディープラーニングモデルのより根本的な問題を解決することはできません。つまり、ディープラーニングモデルが表現できる範囲は非常に限られています。学習したいプログラムのほとんどは、データ多様体の連続的な幾何学的変形として表現することはできません。

機械学習モデルを擬人化することのリスク

現在の AI 開発における非常に現実的なリスクは、ディープラーニングモデルの誤解とその能力の過大評価です。人間の思考の基本的な特徴は「心の理論」であり、それは私たちの周囲の人々の意図、信念、知識を理解する能力です。石に笑顔を描くと、私たちの脳はすぐに「幸せ」と考えるようになります。これをディープラーニングの分野に拡張すると、画像にキャプションを追加するモデルを正常にトレーニングすると、モデルが画像の内容とそれが生成するコンテンツを「理解している」と信じる傾向があることを意味します。後で、トレーニングデータとは少し異なる種類の画像を入力した場合、モデルが非常に異なるキャプションを出力することに驚くでしょう。

[[197939]]

これは特に敵対的例を使用する場合に当てはまります。敵対的サンプルは、ディープラーニングネットワークを混乱させるように設計された入力サンプルです。入力空間で勾配降下法を実行することで、convnet フィルターのアクティビティを最大化する入力サンプルを生成できることがわかりました。同様に、勾配降下法では、画像をわずかに変更して、特定のクラスの分類予測を最大化することができます。パンダの写真を撮り、「テナガザル」のグラデーションを追加すると、パンダがテナガザルであると認識するニューラルネットワークが得られます。これは、モデルの脆弱性と、モデル操作の入出力マッピングと人間の認知との間の大きな違いを示しています。

つまり、ディープラーニングモデルは、少なくとも人間の認知能力では、入力サンプルをまったく理解しません。画像、音、言語に対する私たちの理解は、人間としての感覚運動の経験から生まれます。機械学習モデルはこのような経験を獲得することができないため、人間と同じように入力サンプルを「理解」することはできません。多数のトレーニング例に注釈を付けてモデルに取り込むことで、モデルはデータを特定のサンプルセットの人間の概念の幾何学的変換にマッピングすることを学習しますが、このマッピングは、鏡に映った実際の人物のぼやけた影のように、私たちの経験から開発された具現化されたエージェントである、私たちの心の中の元のモデルの単純化された表現にすぎません。

機械学習の実践者として、私はニューラルネットワークが実行しているタスクを理解するだろうと期待するという罠に陥らないように、自分自身によく言い聞かせています。少なくとも人間と同じようには理解できません。これらは、私たちが教えたいタスクとは異なる、より狭い範囲のタスク、つまりトレーニングでの入力例をポイントごとにターゲット例にマッピングするというタスクでトレーニングされます。訓練されたデータと異なるデータを与えると、ばかげた結果が出力されます。

部分的な一般化と極端な一般化

ディープラーニングモデルにおける入力から出力への直接的な幾何学的変換は、人間の思考や学習の方法とは根本的に異なります。違いは、人間は明示的な訓練例に基づいて訓練されるのではなく、具体化された経験を通じて自ら学ぶということではありません。学習プロセスが異なることに加えて、両者の根底にある表現にも本質的な違いがあります。

人間は、ディープネットや昆虫のように、直接的な刺激を直接的な反応にマッピングする以上の能力を持っています。人間は自分自身や他人の現在の状況に関する複雑で抽象的なモデルを持っており、それを使ってさまざまな将来の可能性を予測し、長期的な計画を立てます。カウボーイの服を着た馬を描いたり、宝くじに当たったらどう行動するかを想像したりするなど、既知の概念を統合して、これまで経験したことのないことを表現することができます。この仮説を扱う能力は、私たちが直接経験できる範囲をはるかに超えてメンタルモデルの空間を拡大します。つまり、抽象化と推論は、人間の認知を定義する特性であると言えます。私はこれを「極端な一般化」と呼んでいます。これは、ほとんどまたは全くデータを使用せずに、これまで経験したことのない新しい状況に適応する能力です。

これは、私が「ローカル一般化」と呼ぶディープニューラルネットワークのパターンとはまったく対照的です。ディープニューラルネットワークが実行する入力から出力へのマッピングは、新しい入力がモデルのトレーニングに使用されたデータとわずかに異なるとすぐに機能しなくなります。たとえば、ロケットが月に着陸できるように適切な打ち上げパラメータを学習します。このタスクに取り組むためにディープネットワークを使用する場合、トレーニングに教師あり学習または強化学習のどちらを使用するかに関係なく、数千または数百万の起動実験を実行する必要があります。つまり、入力空間と出力空間間の信頼性の高いマッピングを学習するには、モデルの入力空間に多数のサンプルを提供する必要があります。対照的に、人間は抽象化の能力を利用して、1 回または数回の実験で正確な解決策を生み出す物理モデル (ロケット科学) を作成することができます。同様に、人体を制御するディープネットワークを開発し、車に衝突することなく安全に街中を移動することを学習させたい場合、ネットワークは車が危険であると推測して適切な回避行動を身に付けるまでに何度も失敗することになります。新しい都市に入ると、すでに知っていたデータの多くを再学習する必要があります。しかし、人間は一度も死ぬことなく安全な行動を学ぶことができます。これもまた、仮説的な状況を抽象的にモデル化する能力のおかげです。

要約すると、機械の認知能力は大きく進歩しているにもかかわらず、人間レベルの AI はまだまだ遠いと言えます。私たちのモデルは、以前のデータに非常に近い新しい状況に適応するローカルな一般化しか実行できませんが、人間の認知能力は、まったく新しい状況に素早く適応したり、はるか将来の出来事を計画したりする、極端な一般化が可能です。

結論

これまでのところ、ディープラーニングの唯一の真の成功は、人間が注釈を付けたデータが大量にある場合に、連続的な幾何学的変換を使用して X 空間と Y 空間の間をマッピングする機能であることを覚えておく必要があります。これを正しく行えば、あらゆる業界が根本的に変わる可能性がありますが、人間レベルの AI にはまだ程遠い状況です。

これらの制限に対処し、AI を人間の脳と競争できるようにするには、直接的な入出力マッピングから離れ、推論と抽象化に重点を置く必要があります。さまざまな状況や概念に適した抽象モデリングマトリックスは、コンピュータプログラムの抽象モデリング機能である可能性があります。以前、機械学習モデルは「学習するプログラム」であると述べましたが、現在私たちが理解しているプログラムは、すべてのプログラムのうちの非常に狭く特定のサブセットにすぎません。しかし、モジュール式かつ再利用可能な方法であらゆるプログラムを学習できるとしたらどうでしょうか?これがAIの将来の発展の方向性なのかもしれません。

<<: アルゴリズム王国では中国が他国を追い抜くかもしれない

>>: ひどい、顔認識の練習のための40行のコード