AIに人間の思考や行動を模倣させる方法

AI システムは、人間の知能の特定の側面を模倣し、物体の検出、環境のナビゲーション、チェスのプレイ、さらにはテキストの生成など、優れた結果を達成できます。しかし、人間の行動をクローン化することには限界がある。行動を裏付ける思考がなければ、AI システムは新しい状況に直面したときに脆弱になり、予期しないミスを犯す可能性があります。

ブリティッシュコロンビア大学とベクター研究所の科学者による最近のプロジェクトは、人工知能システムが人間のように考えることの利点を実証しています。彼らは、人工知能の思考と行動を同時に訓練できる「マインドクローニング」と呼ばれる技術を提案した。

マインドクローニングにより、ディープラーニングモデルは行動の推論プロセスを生成し、その推論を人間のオペレーターに渡すことができるようになります。マインドクローニングには、トレーニングの効率化、トラブルシューティングとバグ修正、有害な行動の防止など、多くの利点があります。

行動のクローン化と思考のクローン化

多くのディープラーニングシステムは、人間が生成したデータに基づいてトレーニングされます。たとえば、トレーニングデータは、チェスゲームの動きのリストや戦略ゲームでの一連のアクションである可能性があります。倉庫内でのタスクの完了など、現実世界のアクションである場合もあります。十分に大きなデータセットでトレーニングすることで、AI エージェントはタスクにおける人間の行動のモデルを作成できるようになります。

クローン行動

しかし、モデルは人間の行動を模倣し、多くのタスクで同じ結果を達成することを学習できますが、必ずしもそれらの行動の背後にある理由を学習できるわけではありません。思考プロセスがなければ、AI エージェントは学習したアクションを新しい設定に一般化することができません。したがって、考えられるすべてのシナリオを含む、はるかに大きなトレーニングデータセットが必要になります。予期しないエッジケースが発生した場合、予測不可能なままとなります。

マインドクローニングの背後にある仮定は、行動とそれに対応する思考についてモデルをトレーニングすると、モデルは行動と目標の正しいつながりを学習するというものです。また、その行動の背後にある理由を生成し、伝えることも可能になります。

ML モデルでマインドクローニングを実現するには、トレーニング中にモデルに複数の情報ストリームを提供する必要があります。 1 つは、プレイヤーがゲーム内で実行する動きなどのアクションの観察です。 2つ目は、行動の背景にある説明など、思考の流れです。たとえば、リアルタイム戦略ゲームでは、AI はプレイヤーが橋の前にいくつかのユニットを移動させたことを観察します。同時に、「敵が橋を渡るのを防ぐ」などのテキスト説明が表示されます。

行動クローニング

このアプローチにはいくつかの利点があります。まず、特定のアクションがなぜ重要であるかを理解するために必要な例が少なくなるため、AI エージェントはより速く学習します。第二に、同じ推論を未知の状況に一般化できるため、パフォーマンスが向上します。 3 つ目は、あらゆる行動の背後にある理由を表現することで安全性を向上させることです。たとえば、AI エージェントが正しい目標を追求しているが、安全でないアクション（目的地に時間通りに到着するために赤信号を無視するなど）を取ろうとしている場合、損害が発生する前に停止できます。したがって、間違った理由で正しい行動をとった場合、正しい方向に導かれる可能性があります。

AIに人間の思考を模倣するよう教える

研究者らは、このタスクを達成するために2部構成のディープラーニングアーキテクチャを提案した。「上位レベルのコンポーネント」は、一連の思考と環境の観察を処理し、モデルが目標を達成するのに役立つ次の思考を予測しようとします。「下位レベルのコンポーネント」は、環境の観察と上位レベルのコンポーネントの出力を受け取り、実行する正しいアクションを予測しようとします。

モデルは、各ステージの結果を次のステージの入力として使用して、このプロセスを繰り返します。トレーニング中、モデルは人間が作成した一連の思考と行動にアクセスします。この情報をグラウンドトゥルースとして使用してパラメータを調整し、思考や行動の予測の損失を最小限に抑えます。トレーニングされたモデルは、目に見えないタスクに対して正しい思考と行動のシーケンスを生成できる必要があります。

このモデルは、トランスフォーマー、長短期記憶 (LSTM) ネットワーク、および視覚言語モデルを使用して、テキストコマンドと視覚データを処理し、それらを融合し、複数のステップにわたって埋め込みを追跡します。研究者らは、モデルの重み、モデルをトレーニングするためのコード、トレーニングおよびテストデータを生成するためのコードを含む結果を GitHub に公開しました。 (AI ラボがモデルの詳細をあまり公開せず秘密にしている現状では、これは有望な展開です。)

思考クローンアーキテクチャ（出典：arXiv）

著者らは実験に、AI エージェントがさまざまなタスクを完了する必要のあるグリッドワールドプラットフォームである BabyAI を使用しました。エージェントは、オブジェクトを拾ったり、ドアを開けたり、部屋の中を移動したりするなど、さまざまなアクションを実行できます。 BabyAI プラットフォームの利点は、AI システムをトレーニングするための世界、タスク、ソリューション、ナラティブをプログラムで生成できることです。研究者たちは、マインドクローニングモデルを訓練するために100万シーンのデータセットを作成した。

研究者たちは、自分たちの技術をテストするために、2つの異なるモデルを作成した。最初のクローンは純粋な行動クローンとして訓練され、環境の観察情報のみが与えられた。 2 つ目は、行動データと、各行動の背後にある理由に関するプレーンテキストの説明のストリームを受信するマインドクローントレーニングです。

結果は、思考のクローニングが行動のクローニングよりも大幅に優れており、未知のサンプルに一般化するために必要なトレーニングサンプルが少ないため、収束が速いことを示しています。彼らの実験では、思考クローニングは、アウトディストリビューション（OOD）の例（モデルがトレーニングされた例とは非常に異なるタスク）でも行動クローニングよりも優れていることも示されています。

マインドクローニングでは、AI エージェントがあらゆるステップで自然言語で計画し、推論するため、研究者は AI エージェントの行動をより深く理解できるようになります。実際、この解釈可能性の機能により、研究者はトレーニング中のモデルの初期のエラーの一部を調査し、トレーニング体制を迅速に調整して正しい方向に進めることができました。

BabyAI 環境でのクローン作成を検討する (出典: arXiv)

セキュリティ面では、研究者らは、モデルの思考フローを調べることで危険な行動を自動的に検出し防止する「犯罪防止介入」と呼ばれる技術を開発した。研究者らは、実験環境において、犯罪防止介入によって「危険な行動がほぼ完全に排除され、TC エージェントが AI の安全性を向上させる大きな可能性を実証した」ことを観察しました。

マインドクローニングを現実世界のAIに適用する

クローニングは人工知能の研究開発にとって興味深く有望な方向性であると考えられています。これは、Google の PaLM-E や DeepMind の Gato など、具体化されたマルチモーダルなディープラーニングモデルを作成する他の取り組みと一致します。人間の知能が現在の AI よりもはるかに強力である理由の 1 つは、さまざまな形式の情報を同時に吸収し、処理する能力です。実験により、マルチモーダル AI システムははるかに堅牢で効率的であることが示されています。

しかし、心のクローン作成には課題がないわけではない。まず、BabyAI 環境はシンプルで決定論的であるため、ディープラーニングモデルがそのニュアンスや複雑さを理解しやすくなります。現実の世界はより混沌としており、予測が難しく、複雑です。

このアプローチのもう 1 つの課題は、トレーニングデータの作成です。タスクを実行するとき、人々は必ずしも自分の行動のすべてを語るわけではありません。私たちは知識を共有し、身体的特徴も似ているため、すべての意図を明示的に述べる必要はありません。著者らは、タスクを実行しながら説明する人々の YouTube ビデオを使用するソリューションを提案しています。しかし、それでも人間の行動には、平易な言葉では説明できない隠れた理由が満ち溢れています。

マインドクローニングがインターネット規模のデータや複雑な問題に対してどのように機能するかはまだ分からない。しかし、論文の著者らが言うように、これは「AI、AIの安全性、説明可能性に関する科学的研究」のための新たな道を切り開くものだ。

<<:

>>: ChatGPT と Stack Overflow: どちらの回答がより良いでしょうか?