ルカン氏は、今後10年間の研究計画に関する62ページの論文を発表した。AI自律知能

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

この時期、「AIは今後どこに向かうのか」についての議論はますます激しくなっていると言えるでしょう。

まず、Meta は AI 関連部門の大幅な再編に直面し、その後、Google AI に人格があるかどうかについて白熱した議論が繰り広げられました。ほぼすべての議論に Yann LeCun の姿が見られます。

今、ルカンはもうじっと座っていられない。

彼は62ページに及ぶ最新の論文を使って、今後10年間にどのようなAI研究を行う予定かを詳しく説明した。

自律型機械知能。

ルカン氏は、ほとんどの研究者が研究内容を事前に公表しない「学術的雰囲気」の中で、自身の行動は非常に特別なものだと言えると述べた。

その理由は、開かれた科学研究の精神を促進するためだけではなく、より多くの人々が参加して共同で研究を行うことを呼びかけるためでもあります。

では、彼が言う自律型人工知能とは一体何であり、どのように開発できるのでしょうか?

世界の仕組みをシミュレートできるAI

論文の中で、ルカン氏はまず次のような例を挙げた。

若者はわずか 20 時間で運転を習得できます。

現在、世界で最も優れた自動運転システムの 1 つには、数百万、あるいは数十億ものラベル付きトレーニングデータと、仮想環境での数百万回の強化学習が必要ですが、それでも人間のレベルにはほど遠いものです。

この例から、人工知能の研究は相当進歩しているものの、真に人間のように考え、学習できる AI を生み出すにはまだまだ遠いという結論が導き出せます。

LeCun 氏が提案した自律型人工知能は、この問題を解決することを目的としています。

彼の見解では、「世界モデル」、つまり世界がどのように機能するかの内部モデルを学習する能力が鍵となるかもしれない。

人間や他の動物は、観察やちょっとしたやりとりを通じて、常に世界がどのように機能するかについて多くの背景知識を、監督なしに学ぶことができることはよく知られています。

この知識は私たちが常識と呼ぶものであり、常識は「世界モデル」の基礎となります。

常識があれば、慣れない状況でも行動することができます。例えば、最初は車を運転したことのない若者が、雪に遭遇したとき、道路が非常に滑りやすいのでゆっくり運転しなければならないことを、教えられることなく知っていました。

さらに、常識は時間と空間における情報のギャップを埋めるのに役立ちます。例えば、運転手が金属などの物体がぶつかる音を聞くと、現場を見ていなかったとしても交通事故が起こる可能性があることを知ることができます。

これらの概念に基づいて、LeCun 氏は自律型 AI を構築するという最初の課題を提案しました。

機械が自己教師学習（つまり、ラベル付けされたデータなしで）を通じて「世界モデル」を学習し、このモデルを使用して予測、推論、およびアクションを実行できるようにする学習パラダイムとシステムアーキテクチャを設計する方法。

ここで彼は、認知科学、システム神経科学、最適制御、強化学習、そして「伝統的な」人工知能など、さまざまな分野のアイデアを再結合し、機械学習の新しい概念と組み合わせて、 6つの独立したモジュールで構成される自律型インテリジェンスアーキテクチャを提案しました。

各モジュールは微分可能であり、それぞれが自身の入力に対する特定の目的関数の勾配推定値を簡単に計算し、その勾配情報を上流モジュールに伝播することができます。

6モジュールの自律型インテリジェントアーキテクチャ

LeCun が構想した 6 つのモジュールは次のとおりです。

1. 構成モジュール:実行制御を担当します。実行するタスクを指定すると、他のモジュールのパラメータを調整することで、タスクの知覚モジュール、世界モジュール、およびその他の 3 つのモジュールの値を事前に構成できます。

2. 認識モジュール:センサーからの信号を受信し、世界の現在の状態を推定する役割を担います。

3. ワールドモデルモジュール:このアーキテクチャの中で最も複雑な部分です。 2つの機能があります:

（１）知覚モジュールが提供できない世界の状態に関する欠落情報を推定する。

（２）起こりうる将来の状態を予測する。世界は不確実性に満ちているため、モジュールは複数の可能性のある予測をカバーできなければなりません。

4. コストモジュール：エージェントの不快感の度合い（エージェントへのダメージ、ハードコードされた行動制約の違反など）を予測できるスカラー出力を計算するために使用されます。

このモジュールには 2 つのサブモジュールがあります。

（１）固有コストモジュール（コスト）は、リアルタイムで「不快感」を計算するために使用される。

（２）批評家：固有コストモジュールの将来価値を予測する。

5. アクションモジュール:実行するアクションのシーケンスを計算するために使用されます。アクションモジュールは、将来のコストモジュールを最小化する最適なアクションシーケンスを見つけ、従来の最適制御と同様の方法で、最適なシーケンスの最初のアクションを出力できます。

6. 短期記憶モジュール:現在の世界状態と予測される世界状態、および関連するコストを追跡します。

その中で、このアーキテクチャの中核となる世界モジュールにとって最も重要な課題は、複数の合理的な予測を表現できるようにすることです。

さらに、世界の抽象的な表現を学習するにつれて、無関係な情報を無視し、最も有用な詳細のみを保持することも学習します。

たとえば、車を運転する場合、道路の両側の木々の葉っぱの詳細な位置を予測する必要はなく、運転者の周りの車がどう動くかを予測するだけで済みます。

この点に関して、ルカン氏は次のような解決策も示した。

予測の不確実性を処理するために、 Joint Embedding Prediction Architecture (JEPA)が使用されます。

同時に、彼は、非対照的な自己教師あり学習と、異なる時間スケールでの予測のための階層型 JEPA を使用して JEPA をトレーニングすることも提案しました。これにより、複雑なタスクを、より抽象度の低い一連のサブタスクに分解できます。

AIが解決すべき問題はまだたくさんある

ルカン氏は、今後数十年間、このような世界モデルの訓練が、人工知能が画期的な進歩を達成するために直面しなければならない最大の課題であると述べた。

現時点では、上記のアーキテクチャを実現するために定義すべき点がまだ多くあります。たとえば、批評家を正確にトレーニングする方法、コンフィギュレータを構築してトレーニングする方法、短期記憶を使用して世界の状態を追跡し、批評家を調整するために世界の状態、アクション、および関連する固有コストの履歴を保存する方法などです。

さらに、ルカン氏は論文の中で、将来の自律型人工知能研究について次のように指摘した。

（１）モデル規模の拡大は必要だが、それだけでは十分ではない。

（２）報酬メカニズムだけでは不十分であり、観察に基づく自己教師学習の方がより効果的なアプローチである。

（３）推論と計画は本質的には推論、つまり（微分可能な）目的を最小化する一連の行動と潜在変数を見つけることに帰着する。これは、推論を勾配ベースの学習と互換性のあるものにするものです。

（４）上記の場合には、明示的なシンボル操作メカニズムは必要ないかもしれない。

詳細については、原著論文を参照してください。
https://openreview.net/forum?id=BZ5a1r-kVsf

<<: 人工知能は裁判所によって特許発明者とみなされるでしょうか?

>>: CTO は、企業開発のさまざまな段階で知的財産権の対応する全体像をどのように確立できるでしょうか?