メタ研究者が新たなAIの試み:地図や訓練なしでロボットに物理的なナビゲーションを教える

メタ研究者が新たなAIの試み:地図や訓練なしでロボットに物理的なナビゲーションを教える

Meta Platformsの人工知能部門は最近、少量のトレーニングデータのサポートにより、AIモデルに物理的な世界での歩行を学習する方法を教えており、急速な進歩を遂げていると述べた。

この研究により、AI モデルが視覚ナビゲーション機能を習得するのにかかる時間が大幅に短縮されます。これまで、このような目標を達成するには、大規模なデータセットと「強化学習」の繰り返しの使用が必要でした。

Meta AI の研究者たちは、AI 視覚ナビゲーションのこの研究は仮想世界に大きな影響を与えるだろうと述べています。このプロジェクトの基本的な考え方は複雑ではありません。単純に観察と探索を通じて、AIが人間のように物理空間内を移動できるように支援することです。

Meta AI は次のように説明しています。「たとえば、AR グラスを使って鍵を探す場合、AI が見慣れない、常に変化する環境レイアウトを理解できるようにする方法を見つけなければなりません。結局のところ、これは非常に詳細で小さな要件であり、多くのコンピューティング リソースを消費する高精度のプリセット マップに常に頼ることは不可能です。人間は、衝突することなく簡単に角を曲がるために、コーヒー テーブルの正確な位置や長さを知る必要はありません。」

この目的のために、Meta は「具現化された AI」、つまり 3D シミュレーションのインタラクティブなメカニズムを通じて AI システムをトレーニングすることに重点を置くことにしました。この分野では、Meta 社は地図や GPS センサーなしで新しい環境をナビゲートできる有望な「ポイント ターゲット ナビゲーション モデル」を構築したと述べています。

このモデルは、視覚測定学と呼ばれる技術を使用しており、これにより AI は視覚入力に基づいて現在の位置を追跡できます。 Meta は、このデータ拡張技術により、手動でデータを注釈付けする必要なく、効果的なニューラル モデルを迅速にトレーニングできると述べています。 Meta 社はまた、独自の Habitat 2.0 具現化 AI トレーニング プラットフォーム (Realistic PointNav ベンチマーク タスクを使用して仮想空間シミュレーションを実行) でのテストを 94% の成功率で完了したと述べました。

メタ氏は、「私たちの方法はまだデータセット内のすべてのシナリオを完全に解決したわけではありませんが、この研究は、現実世界の環境をナビゲートする能力を実現するために必ずしも明示的なマッピングが必要ではないことを最初に実証しました」と説明した。

地図に頼らずに AI ナビゲーション トレーニングをさらに改善するために、Meta は Habitat-Web と呼ばれるトレーニング データセットを作成しました。このデータセットには、人間が実証した 10 万を超えるさまざまなオブジェクト ターゲット ナビゲーション メソッドが含まれています。 Amazon.com の Mechanical Turk サービスには、Web ブラウザ上で実行される Habitat シミュレーターを通じてアクセスでき、ユーザーは仮想ロボットをリモートで安全に操作できます。メタ氏は、得られたデータはAIエージェントが「最先端の結果」を達成するのに役立つトレーニング教材として役立つだろうと述べた。部屋をスキャンして全体的な空間特性を把握したり、角に障害物がないか確認したりすることは、すべて AI が人間から学ぶことができる効率的な物体検索動作です。

さらに、Meta AI チームは、独自の「ゼロサンプル体験学習フレームワーク」を通じて、ロボットがさまざまなセマンティックナビゲーションタスクとターゲットパターンを一般化できるようにする、いわゆる「プラグアンドプレイ」モジュールアプローチを開発しました。このようにして、AI エージェントは、リソースを大量に消費するマップやトレーニングなしで基本的なナビゲーション スキルを習得し、追加の調整なしで 3D 環境でさまざまなタスクを実行できるようになります。

Meta は、これらのエージェントがトレーニング中に画像オブジェクトを継続的に検索すると説明しています。環境内のランダムな場所で撮影された写真を受け取り、自律ナビゲーションを使用してその写真を探します。 Metaの研究者は、「私たちの方法はトレーニングデータを1/12.5に削減し、最先端の転移学習技術よりも成功率が14%高くなります」と述べています。

コンステレーション・リサーチのアナリスト、ホルガー・ミューラー氏はインタビューで、Metaの最新の進歩が同社のメタバース開発計画において重要な役割を果たすことが期待されると語った。彼は、将来仮想世界が標準になるとすれば、AI はこの新しい空間を理解できなければならず、理解にかかるコストは高すぎてはならないと考えています。

ミュラー氏はさらに、「AI の物理世界を理解する能力は、ソフトウェアベースのアプローチによって拡張される必要があります。Meta はこの道を歩み、具現化された AI の進歩を遂げ、トレーニングなしで周囲を理解できるソフトウェアを開発しています。この取り組みの早期の実際の応用を見るのが楽しみです」と付け加えました。

これらの実際の使用例は、そう遠くない将来に実現するかもしれません。 Meta 氏は、次のステップは、これらの進歩をナビゲーションからモバイル操作にまで進め、特定のタスク (財布を識別して所有者に返却するなど) を実行できる AI エージェントを開発することだと述べています。

<<:  Transformer 機械学習モデルとは何ですか?

>>:  5G悪報セキュリティ管理プラットフォームにおけるディープラーニングに基づくテキスト感情認識技術の応用

ブログ    

推薦する

SQL は ChatGPT を実行できますか?答えはYESです!

ChatGPTは世界中で人気を博しています。今日の質問は、SQL で ChatGPT を実行できる...

美術系の学生は皆AIを崇拝しており、写真はすぐに絵画に描ける

ピエロの写真を入力するだけです。このプログラムは、油絵の肖像画を一筆一筆描いていく画家のようなもので...

2022年にAIがサイバーセキュリティにもたらすもの

過去 1 年間で、人工知能 (AI) は私たちの日常生活のより大きな部分を占めるようになり、さまざま...

フレームワークがシャム自己教師学習を統合、清華大学とセンスタイムが効果的な勾配形式を提案

[[443228]]現在、自己教師あり学習は、手動によるラベル付けを必要とせずに強力な視覚特徴抽出機...

2019 ディープラーニング フレームワーク対決: PyTorch がトップ AI カンファレンスを席巻し、NeurIPS 2019 で再び優勝!

最近、Reddit のホットな投稿が機械学習コミュニティで大きな議論を巻き起こしました。 NeurI...

人工知能は石油・ガス生産者の業務改善と温室効果ガス排出削減に貢献

[[437362]]石油・ガス生産者の操業実績を測る指標は数多くあり、効率性の向上、コストの削減、油...

失業は避けられないのでしょうか? AI時代、人類が将来やるべきことは2つだけ

Sinovation Venturesの李開復氏は「2017年中国企業100%年次大会」で講演し、「...

パスワードを解読する方法: 暗号ハッシュアルゴリズムの識別

Q: パスワードのビットシーケンスから暗号化アルゴリズムを識別することは可能ですか? A: 外部ソー...

高度なランサムウェア攻撃によりAIによるサイバー防御の必要性が浮き彫りに

Deep Instinct の CIO である Carl Froggett 氏は、2024 年に予算...

サービスロボットは驚異的なユニコーンを生み出すことができるか?

サービスロボットはニッチな領域を超えつつあるようだ。まず、2018年の世界ロボット産業の市場規模は2...

興味深い質問です。2025年までに自動運転車が普及したとしても、運転免許証を取得する必要はあるのでしょうか?

以前にも似たような質問に回答したことがありますが、コメント欄には大きな意見の相違があります。自動運転...

GPT-4 の時代は終わったのでしょうか?世界中のネットユーザーがクロード3を試し衝撃を受けた

大型モデルのプレーンテキスト方向は終焉を迎えた?昨夜、OpenAI の最大のライバルである Anth...

デューク大学: 効率的な人工知能システムのソフトウェアとハ​​ードウェアの共同設計

少し前に、機械知能 AI テクノロジー年次会議がオンラインで開催されました。デューク大学電気・コンピ...

大規模モデルをより強力にするには、検索拡張生成を使用します。ここでは、Python による実装手順を示します。

この記事では、まず RAG の概念と理論に焦点を当てます。次に、オーケストレーション用の LangC...