李菲菲の「具現化された知能」はどこまで進歩したのか？

2009年、当時プリンストン大学に勤務していたコンピューター科学者のフェイフェイ・リー氏が、人工知能の歴史を変えたデータセット、ImageNetの構築を主導しました。画像内のオブジェクトを認識するための複雑な機械学習モデルのトレーニングに使用できる、ラベル付けされた画像が何百万枚も含まれています。

2015年、機械はパターンを認識する能力において人間を上回りました。その後すぐに、フェイフェイ・リーも新たな目標に目を向け、彼女がもう一つの「北極星」と呼ぶものを探し始めました（ここでの「北極星」とは、研究者が解決に注力する重要な科学的問題を指し、研究への熱意を刺激し、画期的な進歩を達成することができます）。

彼女は、多くの陸上動物種が初めて出現した5億3000万年前のカンブリア爆発を振り返ることでインスピレーションを得た。有力な説の一つは、生物が初めて周囲の世界を見ることができるようになった目の出現が、新種の爆発的な増加の一因となったとしている。リー氏は、動物の視覚は孤立して発生するものではなく、「急速に変化する環境の中で、移動、移動、生存、操作、変化を必要とするシステム全体に深く組み込まれている」と考えている。「そのため、私にとって、よりアクティブな AI の分野に移行するのは自然な流れでした」と彼女は語った。

現在、Li 氏の研究は、データセットから静止画像を受け取るだけでなく、3 次元の仮想世界のシミュレートされた環境内を動き回り、周囲と対話できる AI エージェントに焦点を当てています。

これは、具現化された AI と呼ばれる新しい分野の幅広い目標です。ロボットは現実世界における具現化された AI エージェントや強化学習の物理的な同等物とみなすことができるという点で、ロボット工学と重なります。フェイフェイ・リー氏らは、具現化された AI によって、画像認識などの単純な機械学習機能から、オムレツ作りなど複数のステップを経て人間のような複雑なタスクを実行する方法を学習する機能へと大きな変化がもたらされると考えています。

現在、具現化された AI という用語には、環境を検出して変更できるあらゆるインテリジェントエージェントが含まれます。ロボット工学では、AI エージェントは常にロボットの体内で活動しますが、実際のシミュレーションのエージェントは仮想ボディを持ち、移動するカメラを通じて世界を認識し、周囲と対話することができます。「具現化とは身体そのものに関することではなく、環境と関わり、環境の中で物事を行うという全体的な必要性と機能に関することです」とリー氏は説明した。

このインタラクティブ性により、エージェントは世界について学ぶための新しい（そして多くの場合、より優れた）方法を手に入れることができます。これは、以前は 2 つのオブジェクト間の可能な関係を観察するだけでしたが、今では自分で実験してこの関係を実現できるようになりました。この新たな理解により、アイデアが実践され、より大きな知恵が生まれます。新しい一連の仮想世界が稼働し始めると、具現化された AI エージェントはこの可能性を実現し始め、新しい環境で大きな進歩を遂げます。

「現時点では、世界とやりとりすることで学習しない知能の証拠はない」と、ドイツのオスネブリュック大学の具現化AI研究者、ヴィヴィアン・クレイ氏は言う。

完璧なシミュレーションに向けて

研究者たちは長い間、AI エージェントが探索できる現実的な仮想世界を作りたいと考えてきましたが、そうした世界が誕生したのはまだ 5 年ほどしか経っていません。この機能は、映画やビデオゲーム業界のグラフィックスの改善によって実現されました。 2017 年には、AI エージェントが、仮想的でありながら文字通り、まるで自宅にいるかのようにリアルに室内空間を描写できるようになりました。アレン人工知能研究所のコンピューター科学者は、エージェントが自然なキッチン、バスルーム、リビングルーム、寝室を動き回ることができる AI2-Thor と呼ばれるシミュレーターを構築しました。エージェントは、移動するにつれて変化する 3D ビューを学習し、さらに詳しく見ようと決めたときに、シミュレーターが新しい角度を表示します。

この新しい世界では、エージェントは時間という新しい次元における変化について考える機会も得られます。「これは大きな変化だ」とサイモンフレーザー大学のコンピューターグラフィックス研究者、マノリス・サヴァ氏は言う。「具現化されたAI環境では、時間的に一貫した情報の流れがあり、それを制御できるのだ。」

これらのシミュレートされた世界は、エージェントがまったく新しいタスクを達成できるようにトレーニングするのに十分なレベルに達しています。物体を認識できるだけでなく、物体と対話したり、持ち上げたり、物体の周りを移動したりすることもできます。これらの一見小さなステップは、あらゆるインテリジェントエージェントが環境を理解するために必要です。 2020 年、仮想エージェントは視覚を超えて仮想の物体が発する音を聞くことができるようになり、物体とその世界における動作を理解するための新たな視点を提供します。

仮想世界 (ManipulaTHOR 環境) で動作できる具現化された AI エージェントは、異なる方法で学習し、より複雑で人間のようなタスクに適している可能性があります。

ただし、シミュレータにも限界があります。「最高のシミュレーターでさえ、現実世界ほどリアルにはなれない」とスタンフォード大学のコンピューター科学者ダニエル・ヤミンズ氏は言う。ヤミンズ氏はMITやIBMの同僚とともにThreeDWorldを開発した。これは、液体の挙動や、物体がある部分では硬く、別の部分では柔軟になる仕組みなど、現実の物理現象を仮想世界でシミュレートすることに焦点を当てたプロジェクトである。

これは、AI が新しい方法で学習する必要がある非常に困難なタスクです。

ニューラルネットワークとの比較

これまで、具現化された AI の進歩を測定する簡単な方法は、具現化されたエージェントのパフォーマンスを、より単純な静止画像タスクでトレーニングされたアルゴリズムと比較することでした。研究者らは、これらの比較は完璧ではないが、初期の結果では、具現化された AI は先行する AI とは異なる方法で学習し、場合によっては先行する AI よりも優れた方法で学習することを示唆していると指摘している。

最近の論文（「Interactron: Embodied Adaptive Object Detection」）で、研究者らは、具現化された AI エージェントが特定のオブジェクトの検出において従来の方法よりも約 12% 正確であることを発見しました。「物体検出の分野がこのレベルの改善を達成するには3年以上かかりました」と、アレン人工知能研究所のコンピューター科学者でこの研究の共著者であるルーズベ・モッタギ氏は言う。「私たちは世界とやりとりするだけで大きな進歩を遂げてきました。」

他の論文では、物体検出アルゴリズムを具現化された AI にして、仮想空間を一度探索させたり、歩き回って物体の複数のビューを収集させたりすることで、アルゴリズムが向上することが示されています。

研究者らはまた、具現化されたアルゴリズムは従来のアルゴリズムとはまったく異なる方法で学習することを発見した。これを説明するために、あらゆる具体化されたアルゴリズムの背後にある基本的な要素、および多くの非具体化されたアルゴリズムの学習能力であるニューラルネットワークについて考えてみましょう。ニューラルネットワークは、人間の脳のネットワークを大まかにモデル化した、相互に接続された人工ニューロンノードの多数の層で構成されています。研究者らは2つの別々の論文で、具現化されたエージェントの神経ネットワークでは視覚情報に反応するニューロンの数が少ないことを発見した。これは、個々のニューロンの反応がより選択的であることを意味している。非具体化ネットワークは効率がはるかに低く、ほとんどの時間アクティブな状態を維持するにはより多くのニューロンが必要です。あるチーム（ニューヨーク大学の新任教授、グレース・リンゼイ氏が率いる）は、具体化されたニューラルネットワークと非具体化されたニューラルネットワークを生きた脳（マウスの視覚皮質）のニューロン活動と比較し、具体化されたネットワークが生きたネットワークに最も近いことを発見した。

リンジーは、これは必ずしも具現化されたバージョンの方が優れているという意味ではなく、単に異なるだけだとすぐに指摘します。物体検出の論文とは異なり、Lindsay らの研究では、エージェントにまったく異なるタスクを実行させて、同じニューラルネットワークの潜在的な違いを比較したため、目標を達成するには異なる動作をするニューラルネットワークが必要になる可能性があります。

具現化されたニューラルネットワークを非具現化されたものと比較することは、改善を測定する 1 つの方法ですが、研究者が実際にやろうとしているのは、既存のタスクにおける具現化されたエージェントのパフォーマンスを向上させることではなく、より複雑で、より人間らしいタスクを学習することです。これは、特にナビゲーションタスクにおいて目覚ましい進歩が見られる研究者にとって最もエキサイティングなことです。これらのタスクでは、エージェントは目的地の長期目標を記憶しながら、迷ったり物体に衝突したりすることなく目的地に到達するための計画を立てなければなりません。

わずか数年で、Meta AI の研究ディレクターであり、ジョージア工科大学のコンピューター科学者でもある Dhruv Batra 氏が率いるチームは、「ポイントゴールナビゲーション」と呼ばれる特定のナビゲーションタスクで大きな進歩を遂げました。このタスクでは、エージェントは完全に新しい環境に配置され、地図なしで特定の座標（例：「北に 5 メートル、東に 10 メートルの地点に移動する」）まで歩く必要があります。

バトラ氏は、エージェントを「AI Habitat」と呼ばれるMeta仮想世界で訓練し、GPSとコンパスを与えたと述べた。その結果、標準的なデータセットで99.9%以上の精度を達成できることがわかった。最近、彼らはコンパスや GPS なしで、より困難で現実的なシナリオにまで成果を拡張することに成功しました。その結果、エージェントは移動中に見たピクセルのストリームのみを使用して、自身の位置を推定する精度を 94% 達成することができました。

Meta AI Dhruv Batra のチームが作成した仮想世界「AI Habitat」。彼らは、具現化された AI がわずか 20 分間の実時間で 20 年間のシミュレーション経験を達成できるようになるまで、シミュレーションの速度を上げたいと考えています。

「これは目覚ましい進歩だが、ナビゲーションが完全に解決されたわけではない」とモッタギ氏は言う。他の多くのナビゲーションタスクでは、「寝室のベッドサイドテーブルにある眼鏡をキッチンに取りに行く」など、より複雑な言語指示が必要であり、その精度は依然として30％から40％程度にすぎない。

しかし、エージェントが環境内を移動する際に何かを操作する必要がないため、ナビゲーションは具現化された AI における最も単純なタスクの 1 つのままです。今のところ、具現化された AI エージェントは、オブジェクト関連のタスクを習得するにはまだほど遠い状態です。課題の一部は、エージェントが新しいオブジェクトと対話するときに多くの間違いを犯し、間違いが積み重なる可能性があることです。現在、ほとんどの研究者は、数ステップのタスクを選択してこの問題に取り組んでいますが、パンを焼いたり皿を洗ったりするなど、人間のような活動のほとんどは、複数のオブジェクトに対する長い一連のアクションを必要とします。この目標を達成するには、AI エージェントにさらなる進歩が必要になります。

ここでも、フェイフェイ・リーは最前線に立っているかもしれない。彼女のチームは、シミュレーションデータセット「BEHAVIOR」を開発しており、彼女は、ImageNet プロジェクトが物体認識にもたらした効果と同じ効果を、具現化された AI にもたらすことを期待している。

このデータセットには、エージェントが実行する必要がある 100 を超える人間のアクティビティが含まれており、テストは任意の仮想環境で実行できます。 Li 氏のチームの新しいデータセットでは、これらのタスクを実行するエージェントと、同じタスクを実行する人間の実際のビデオを比較する指標を作成することで、コミュニティが仮想 AI エージェントの進歩をより適切に評価できるようになります。

エージェントがこれらの複雑なタスクを正常に完了すると、シミュレーションの目的は究極の運用空間、つまり現実世界に向けてトレーニングすることになると Li 氏は考えています。

「私の意見では、シミュレーションはロボット研究の中で最も重要かつ刺激的な分野の一つです」とフェイフェイ・リー氏は語った。

ロボット研究の新たな境地

ロボットは本質的に具現化されたエージェントです。彼らは現実世界に何らかの物理的な身体を持ち、具現化された AI エージェントの最も極端な形態を表しています。しかし、多くの研究者は、これらのエージェントであっても仮想世界でのトレーニングから利益を得ることができることを発見しました。

モッタギ氏は、強化学習などのロボット工学における最先端のアルゴリズムでは、意味のあることを学習するために通常何百万回もの反復が必要であると述べた。したがって、実際のロボットに難しいタスクを完了させるためのトレーニングには何年もかかる可能性があります。

ロボットは現実世界の不確実な地形を移動することができます。新たな研究によると、仮想環境でのトレーニングはロボットがこれらのスキルやその他のスキルを習得するのに役立つことが示されています。

しかし、最初に仮想世界で訓練すれば、はるかに速くなります。何千ものエージェントを何千もの異なる部屋で同時にトレーニングできます。さらに、仮想トレーニングはロボットと人間の両方にとってより安全です。

2018年、OpenAIの研究者らは、仮想世界で学んだスキルを現実世界に応用できることを実証し、多くのロボット工学者がシミュレーターに注目し始めました。彼らは、シミュレーションでしか見たことのない立方体を操作できるようにロボットハンドを訓練した。最近の研究成果には、ドローンに空中衝突の回避を教える、2つの異なる大陸の都市環境に自動運転車を配備する、4本足のロボット犬にスイスアルプスでの1時間のハイキングを完了させる（人間が歩くのと同じ時間）ことなどがある。

将来的には、研究者は仮想現実ヘッドセットを通じて人間を仮想空間に送り込むことも可能となり、シミュレーションと現実世界とのギャップが縮まるかもしれない。エヌビディアのロボット研究担当シニアディレクターでワシントン大学教授のディーター・フォックス氏は、ロボット研究の重要な目標は現実世界で人間を助けることができるロボットを作ることだと指摘した。しかし、そのためには、まず人間と接触し、人間との関わり方を学ばなければなりません。

フォックス氏は、仮想現実を使って人間をこうしたシミュレーション環境の中に置き、デモンストレーションを行なわせたり、ロボットとやりとりさせたりすることは、非常に強力なアプローチになるだろうと述べた。

シミュレーションでも現実世界でも、具現化された AI エージェントはより人間らしくなり、より人間のタスクのようなタスクを実行するように学習しています。この分野は、新しい世界、新しいタスク、新しい学習アルゴリズムによって、あらゆる面で進歩しています。

「ディープラーニング、ロボット学習、視覚、さらには言語の融合が見られる」とリー氏は言う。「今、私は、具現化されたAIのこの『ムーンショット』、あるいは『北極星』を通じて、私たちは本当に大きなブレークスルーにつながる知能の基礎技術を学ぶことになるだろうと考えている。」

コンピュータービジョンにおける「ノーススター」問題について議論する Fei-Fei Li の記事。リンク: https://www.amacad.org/publication/searching-computer-vision-north-stars

<<: 人工知能とモノのインターネットの統合後の応用シナリオは何ですか?

>>: 人工知能の環境コストと可能性

李菲菲の「具現化された知能」はどこまで進歩したのか？

完璧なシミュレーションに向けて

ニューラルネットワークとの比較

ロボット研究の新たな境地

人工知能は教育のバランスのとれた発展に貢献する

フェデックスが分析と AI を活用してサプライチェーンを強化する方法

スマートビルディングでは通信システムに何が必要ですか?

コカ・コーラの新たな試み：アートや広告制作における生成AIの活用

Google の大きな暴露: 謎の AI ツールが明らかに、Gemini が PaLM 2 に取って代わる

機械学習によるよりスマートなユーティリティ管理

GC アルゴリズムをアニメーショングラフィックで説明 - ガベージコレクションを動かしましょう。

テクノロジー大手はAI人材の獲得に競い合い、新卒でも巨額の給与を得られる

推薦する

クラッシュラマ2！マイクロソフトの13億パラメータphi-1.5は、単一のA100でトレーニングされ、SOTAを更新します

プログラマーの間でデータ構造やアルゴリズムに関する知識が一般的に不足していることについてどう思いますか?

機器の検査に手作業が必要な人はいますか? AIの活用

防衛分野で人工知能はどのような役割を果たすのでしょうか?

ディープラーニングに基づく教師あり音声分離

人工知能が新薬開発を支援

コインの端を歩くこともできます！陸上最小のカニ型ロボットが開発され、将来的には低侵襲手術に利用できるようになる。

脚付きロボットの新たなスキル：ANYmalは山登りを学んでいる

Hacker Newsのランキングアルゴリズムの仕組み

Raspberry Pi の「リス対策アーティファクト」が Reddit で人気に。13 行のコードで AI があなたの代わりに食べ物を守れる

企業に適応型 AI を実装するにはどうすればよいでしょうか?

AI を使って「手を洗ってください」を 500 の言語に翻訳する方法