インテリジェントエージェントは人工知能分野の主要な研究テーマであり、非身体型知能と身体型知能に分けられます。現在、AI の分野では非具現化された認知に重点が置かれており、具現化されたエージェントを作成することは非常に困難です。最近、スタンフォード大学のフェイフェイ・リー氏と他の学者らは、新しいコンピューティング フレームワークであるディープ エボリューション強化学習 (DERL) を提案しました。このフレームワークに基づいて作成された具現化されたインテリジェント エージェントは、複数の複雑な環境で複数のタスクを実行できます。さらに、この研究では、形態学習を通じて進化生物学におけるボールドウィン効果が初めて実証されました。 過去6億年にわたる進化により、古代の左右相称動物の昆虫から多種多様な動物の形態に至るまで、さまざまな種類の「最も美しい無限の形態」が生み出されました。これらの動物は、進化した形態を利用して複雑なタスクを学習し、驚くべき具現化された知能も示しています。具体化認知の分野では、インテリジェントエージェントはそのようなインテリジェントな動作を素早く学習でき、その形態は環境にうまく適応できると考えています。しかし、AIの分野では、言語、視覚、ゲームなどの「非具現化された認知」に重点を置いています。 人工知能エージェントは、その形態が環境にうまく適応していれば、さまざまな複雑な環境で制御タスクを学習できます。ただし、次のような理由から、そのようなエージェントを作成することは困難です。 これには、多数の可能性のある形態を検索する必要があります。 生涯学習を通じてエージェントの適応度を評価するには、多くの計算時間が必要です。 そのため、これまでの研究では、極めて限定された形態学的探索空間内でエージェントを進化させるか、人工的に設計された固定形態を前提として最適なパラメータを見つけていました。適応度を評価することの難しさから、これまでの研究では、生の感覚観察から直接適応型コントローラーを学習すること、少数のパラメーター (≤ 100) を使用して手作りのコントローラーを学習すること、モーフの適応度を予測することを学習すること、そして、学習した情報を世代間で直接転送するためにダーウィン進化論ではなくラマルク進化論を模倣することを避けてきました。さらに、これまでの研究は、エージェントの自由度 (DoF) が少ない、またはその体の構成が立方体で構成されている、平らな地面を移動するという単純なタスクに限定されており、コントローラーの学習の問題がさらに単純化されていました。 これらの制限を克服するにはどうすればよいでしょうか? 最近、スタンフォード大学の研究者であるアグリム・グプタ、シルビオ・サヴァレーゼ、スーリヤ・ガングリ、フェイフェイ・リーは、環境、形態、制御という3つの複雑性次元で具現化されたインテリジェントエージェントを同時にかつスケーラブルに作成できる新しい計算フレームワーク、ディープ・エボリューション・リインフォースメント・ラーニング(DERL)を提案しました。 DERL フレームワークを以下の図 1 に示します。 DERL は、コンピューター シミュレーション実験で大規模な具現化エージェント作成アクティビティを実行するための扉を開き、学習と進化がどのように連携して環境の複雑さ、形態学的知能、制御タスクの学習可能性の間の複雑な関係を構築するかについての科学的洞察を得るのに役立ちます。さらに、DERL は強化学習のサンプルの非効率性を軽減し、より少ないデータを使用するだけでなく、さまざまな新しいタスクを解決するために一般化できる具現化されたエージェントを作成します。 DERL は、ダーウィン進化論の複雑な世代を超えた進化プロセスを模倣して形態空間を探索し、生涯にわたる神経学習によるインテリジェントな制御を通じて複雑なタスクを解決する際の特定の形態の速度と品質を評価します。 スタンフォード大学の教授であり、論文の著者の一人であるフェイフェイ・リー氏は、「この研究は、深層進化強化学習(DERL)という新しいコンピューティングフレームワークを提案しただけでなく、形態学的学習を通じてダーウィン・ボールドウィン効果を初めて実証しました。形態学的学習は自然界の動物の進化に不可欠なスキルであり、私たちが作成したAIエージェントで実証されました」と述べています。 論文アドレス: https://arxiv.org/pdf/2102.02202.pdf 具現化されたエージェントはどのようなタスクを実行できますか? 本研究で作成された具現化エージェントは、平坦な地形(FT)、可変地形(VT)、可変地形での非把持操作(MVT)の3つの環境で、巡回、ポイントナビゲーション、障害物回避、探索、脱出、傾斜、プッシュボックス傾斜、ボール操作などのタスクを実行できます。 次の 3 つのアニメーション画像は、具現化されたエージェントの障害物回避 (上)、ランプ ボックスの押し出し (中央)、およびボール制御 (下) の動作を示しています。 障害物の回避。 斜面で箱を押します。 ボールをコントロールしてください。 DERL: 具現化されたエージェントを作成するための計算フレームワーク 学習では、各エージェントは低レベルの自己固有受容覚と外部受容覚の観測のみを受け取ることで世界を認識し、ディープ ニューラル ネットワークのパラメータによって決定される確率的ポリシーを通じてアクションを選択します (上図 1b)。ディープ ニューラル ネットワークのパラメータは、近似ポリシー最適化 (PPO) を通じて学習されます。 全体として、DERL により、研究者は 1,152 個の CPU で大規模な実験を実施できるようになりました。これには、平均 10 世代の進化、4,000 の形態の検索とトレーニング、形態ごとに 500 万回のエージェントと環境の相互作用 (つまり、学習の反復) が含まれます。この研究では、288 個のモーフを並行して非同期的にマッチングさせてトレーニングすることができ、任意の時点で学習と進化のプロセス全体を 16 時間以内に完了することができました。私たちの知る限り、これはこれまでで最大の形態進化と強化学習の同時シミュレーションです。 UNIMAL: ユニバーサル動物形態設計空間 これまでの形態学的検索空間の表現力の限界を克服するために、本研究ではUNIversal aniMAL(UNIMAL)設計空間を導入しました(上図1e)。研究対象の遺伝子型は、モーターによって駆動されるヒンジで接続された 3D 剛性パーツの階層に対応するモーター ツリーです。ロコモーション ツリーのノードは、エージェントの頭部 (ツリーのルートを形成) を表す球体と手足を表す円柱の 2 つのコンポーネント タイプで構成されます。 進化は、3 種類の突然変異演算子を通じて無性的に伝播します。1) 四肢の成長または除去によるモーター ツリーの縮小または成長 (上図 1d)、2) 長さや密度など、既存の四肢の物理的特性の変更 (上図 1d)、3) 自由度、回転角度制限、ギア比など、四肢間の関節の特性の変更です。 重要なのは、この研究では、進化の過程で動物の体型に現れた最も古い特徴(6億年以上前に始まった)である左右対称性を維持する一対の変異のみを許可した点だ。重要な物理的な結果は、各エージェントの質量の中心が矢状面にあるため、左右のバランスを学習するために必要な制御の程度が減少することです。この制限にもかかわらず、提案された形態設計空間は非常に表現力豊かで、少なくとも 10 本の肢を持つ約 1018 個の固有のエージェント形態が含まれています。 インテリジェントエージェントの「変態」:複雑な環境で異なる形態に進化する 研究によると、DERLにより、エージェントは初めて平地移動のタスクを超え、3つの環境で複数のエージェント形態を同時に進化させ、コントローラーを学習できるようになり、3つの環境の難易度は平地(FT)、可変地形(VT)、可変地形での非把持操作(MVT)と徐々に増加しました。 DERL は、これら 3 つの環境に適した形態学的ソリューションを見つけることができます。 まず、エージェントは FT 環境内を移動します。 次に、エージェントは不均一な VT 環境内を移動します。
最後に、エージェントは MVT 環境内を移動し、ボックスを押します。
研究者らは、これら 3 つの環境におけるさまざまな形態学的記述子の変化を分析し (下の図 3 を参照)、環境が形態学的進化に大きな影響を与えることを発見しました。 すべての環境で進化したエージェントが同様の質量と制御の複雑さを持つ場合、VT/MVT エージェントは FT エージェントよりも前方方向に長く移動し、高さ方向に短く移動しますが、FT エージェントは VT/MVT よりも小さなスペースを占めます。 FT エージェントの占有スペースが少ないという特性は、一般的な戦略を反映しています。つまり、四肢を体から離して設置し、全範囲の動きを可能にするという戦略です (下の図 2i、7a、8a を参照)。 FT エージェントは、前方に倒れる歩行とトカゲのような動きをします (下の図 2i)。VT エージェントは FT に似ていますが、歩行をより安定させる追加のメカニズムを備えています。最後に、MVT エージェントは、箱を目的の場所に押し出すタスクを達成するために、ピンセットまたは爪に似た到達アームを開発します。 環境の複雑さが形態的知能につながる 環境が形態進化に与える影響に関する上記の分析は、主にさまざまな形態記述子や形態の複雑さに焦点を当てていますが、重要な課題は、新しいタスクに迅速に適応できるようにインテリジェントエージェントを設計することです。したがって、研究者は、この能力が組み合わせ学習と進化を通じてどのように獲得されるかを理解するために、具現化された知能の形態を記述することに目を向けます。具体的には、多数のテストタスクにおける形態学の学習促進効果を計算しました。このアプローチは、転移学習を介して下流のタスクでのパフォーマンスを計算することで潜在的なニューラル表現の品質を評価することに似ています。 研究者らは、エージェントの敏捷性(巡回、ポイントナビゲーション、障害物回避と探索)、安定性(脱出と登攀)、操作能力(斜面で箱を押す、ボールをコントロールする)をテストするために 3 つの領域に分けられる 8 つのタスク セットを作成しました(下の図 4a)。各タスクのコントローラーは最初から学習され、パフォーマンスの違いが形態の違いによるものであることが保証されます。 研究者らはまず、より複雑な環境での進化によってより知的な形態が生まれ、テストタスクでより優れたパフォーマンスを発揮するという仮説を検証しました (上記の図 4b を参照)。結果は、MVT 環境で進化したエージェントのパフォーマンスが 7 つのテスト タスクで FT 環境で進化したエージェントのパフォーマンスよりも優れていることを示しています。敏捷性と安定性を含む 6 つのタスクのうち、VT エージェントは 5 つのタスクで FT エージェントよりも優れており、操作タスクではパフォーマンスが同様でした。 学習速度をテストするために、研究者は 1/5 の学習反復で同じ実験を繰り返し (上記の図 4c を参照)、すべてのタスクで MVT/VT エージェントと FT エージェントの違いが大きいことを発見しました。これらの結果は、より複雑な環境で進化した形態は、エージェントがさまざまな新しいタスクをより良く、より速く学習できるようにするため、実際にはよりインテリジェントであることを示唆しています。 形態学的ボールドウィン効果のより強い形態を実証した 1 世紀以上前、アメリカの心理学者ボールドウィンは、進化の初期の世代で生涯を通じて最初に学習された行動が、後の世代では徐々に本能的になり、遺伝子を通じて伝達される可能性もあるという代理メカニズムの存在について推測しました。表面的には、このボールドウィン効果はラマルクの遺伝のように見えますが、厳密に言えばダーウィンの起源です。しかし、生物学者は長い間、ボールドウィン効果が形態学的進化と感覚運動学習のレベルで複雑な環境でも持続する可能性があると信じてきました。したがって、広く推測されているにもかかわらず、生体内またはコンピューター内での形態進化におけるボールドウィン効果を実証した研究はこれまでありません。 シミュレーションでは、研究者らは形態学におけるボールドウィン効果の存在を示す最初の証拠を発見しました。これは、下の図 5A に示すように、3 つの環境で上位 100 のエージェントが標準的な適応度レベルに到達するのに必要なトレーニング時間が急速に短縮されたことに反映されています。驚くべきことに、平均トレーニング時間はわずか 10 エポックで半分に短縮されました。研究者たちは、以下の図 5d に示すように、学習を高速化する方法の例を示しており、異なる世代にわたって FT で進化するエージェントの学習曲線を示しています。 学習の終了時には、第 8 世代エージェントのパフォーマンスは第 1 世代エージェントの 2 倍になり、5 分の 1 の時間で同じ最終適応度に到達できました。研究者らはまた、モルフの適応度は学習終了時の自身のパフォーマンスによってのみ決定されるため、シミュレーションでは高速学習に対する明示的な選択圧力に遭遇しなかったと指摘している。それにもかかわらず、進化はより速く学習する者を選択し続けており、そうする選択圧は存在しない。このように、スキル習得率に対する明示的な選択圧力はボールドウィン効果には必要ではないことを実証することによって、研究者は実際に、文献でこれまで疑われていたよりも強力なボールドウィン効果を発見した。 興味深いことに、形態学的ボールドウィン効果の存在は、サンプルの複雑性が低く、一般化度が高い具現化されたエージェントを作成するために、将来の研究でさらに調査される可能性があります。 形態学的知能と強力なボールドウィン効果のメカニズム的基礎 次に、この研究では、進化がどのように形態学的知能を生み出し(上図4b、c)、学習速度に直接的な選択圧力をかけずに、より速い学習者を選択するのか、その潜在的なメカニズムの基礎を探ります。 この研究では、具現化された認知の推測に沿って、進化的に発見された形態は、知的エージェントとその環境との間の物理的相互作用の受動的なダイナミクスをより効果的に活用し、それによって学習制御の問題を簡素化し、新しい環境でのより良い学習(形態知能)と世代を超えたより速い学習(ボールドウィン効果)の両方を達成できるという仮説を立てています。このようなスマートな形態は、エネルギー効率と受動的安定性の物理的特性を示す可能性が高いため、この研究では両方の特性を調査しました。 研究者は、エネルギー効率を、単位質量あたりの目標を達成するために消費されるエネルギーの量と定義しています (付録 D を参照)。驚くべきことに、エネルギー効率に対する直接的な選択圧がない場合、進化はエネルギー効率の高い形態学的解決策を選択しました (上図 5c)。この研究では、エネルギー効率は単に四肢密度を減らすだけでは達成されないことが確認されました (上図 3e)。 むしろ、全体的な質量は 3 つの環境すべてで実際に増加しており、これは、身体と環境の相互作用の受動的な物理的ダイナミクスをより効果的に活用する形態を選択することによってエネルギー効率が達成されることを示唆しています。さらに、どの固定エポックでも、エネルギー効率の高い形態の方がパフォーマンスが向上し (下の図 6a)、学習も速くなります (下の図 6b)。 同様に、3 つの環境すべてにおいて、進化は時間の経過とともにより受動的に安定した形態を選択しました (付録 D を参照)。ただし、安定した形態の割合は FT と比較して VT/MVT で高く、これらのより複雑な環境では安定性に対する相対的な選択圧が高かったことを示唆しています (図 5b)。 したがって、進化の過程で、エネルギー効率 (図 5c) と安定性 (図 5b) の両方が、学習率 (図 5a) と密接に相関して向上します。 |
<<: 人工知能が再び警告を発する!研究者は懸念している:将来、研究者が全てを支配することになる
>>: AIとロボットはどこで使われていますか?お伝えしたいユースケースはたくさんあります
[[422878]]海外メディアCNETによると、米商務省は水曜日、人工知能の研究開発についてジョー...
GPT-4 は論文をレビューできますか?スタンフォード大学などの研究者が実際にテストしました。彼ら...
今日は、5 つの AI ウェブサイト ビルダー ツールをご紹介します。これらの AI ツールを使用す...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[328804]] 【ガイド】AI時代では、データ、情報、アルゴリズム、統計、確率、データマイニ...
最近、アリババDAMOアカデミーは、2022年に最も注目に値する最先端技術トップ10をまとめました。...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
AI とメタバースのつながりは、新たなデジタルのフロンティアを開拓しています… Metaverse ...
英国最高裁判所は12月21日、特許出願において人工知能(AI)を発明者として記載することはできないと...
ありがたいことに、倉庫のピッキング作業で荷物を手作業で扱う時代は終わりつつあります。コンベアを使用す...
[[423154]]近年、正規化フローモデルは、画像超解像(画像SR)[SRFlow、ECCV20...