このプロジェクトはオープンソース化されています。Microsoft Research は転移学習を使用して、実用化に向けて自律型ドローンをトレーニングします。

このプロジェクトはオープンソース化されています。Microsoft Research は転移学習を使用して、実用化に向けて自律型ドローンをトレーニングします。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

画像ソース: https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/

知覚と行動の回路は私たちの日常活動の中心にあります。私たちの脳は、無意識のうちに感覚入力を利用して特定の運動動作をリアルタイムでトリガーし、継続的な活動を形成します。運動やテレビ鑑賞などのさまざまな活動は、このようにして形成されます。

人工知能の文脈では、知覚と行動のループは自動運転車などの自律システムの基礎となります。強化学習などの分野はこの分野である程度の進歩を遂げていますが、自律システムは視覚データに基づいて直接意思決定を行うという点では現時点では人間に大きく遅れをとっています。

最近、マイクロソフトの人工知能研究者は、シミュレートされた環境で認識と行動のポリシーを学習し、その知識をドローンに適用するための転移学習法を提案する論文を発表しました。

感覚入力に基づいてどのような行動を取るかは、理論的な問題というよりも実践的な問題です。近年、強化学習や模倣学習などの手法はこの分野で大きな可能性を示していますが、大量のラベル付き実世界データを収集することが難しいという制限が依然として残っています。一方、シミュレートされたデータは生成が簡単ですが、さまざまな現実のシナリオでは安全でない動作を示すことがよくあります。

シミュレートされた環境でポリシーを学習し、その知識を実際の環境に外挿できることは、自律システムにとって依然として大きな課題の 1 つです。この分野の研究を進めるために、AI コミュニティは現実世界の自律システムに関する多くのベンチマークを確立してきました。これらの中で最も難しいのは一人称視点のドローンレースです。

FPVチャレンジ

一人称視点(FPV)で行われる競技では、プロのパイロットは安全性を考慮せずに、優れた機敏性でクワッドコプターを計画し、制御することができます。 Microsoft Research チームは、FPV レースでドローンを制御できる自律エージェントの構築を試みました。

ディープラーニングの観点から見ると、ナビゲーション タスクにおける最大の課題の 1 つは、入力画像データの高次元性と変動性です。このタスクをうまく解決するには、視覚的な外観に対して不変であり、シミュレーションと現実の違いに対して堅牢な表現が必要です。この観点から、FPV レースなどの環境で動作できる自律エージェントは、実際の環境で使用できるポリシーを学習するシミュレートされたデータを使用してトレーニングされる必要があります。

FPV コンテストなどの研究の多くは、ドローンの周囲のモデルの構築に役立つさまざまなセンサーの強化に重点を置いています。しかし、マイクロソフトの研究チームは、人間の脳の機能にヒントを得て、視覚情報を正しい制御アクションに直接マッピングする計算構造を作成することを目指しました。

これを実証するために、Microsoft Research は前面カメラを備えた非常に基本的なクアッドコプターを使用しました。すべての処理は、6 つの CPU コアと統合 GPU を備えた Nvidia TX2 コンピューターで実行されました。市販の Intel T265 追跡カメラは走行距離測定機能を提供し、画像処理には Tensorflow フレームワークを使用します。画像センサーは水平視野 830 の USB カメラで、生画像は 128 x 72 の寸法に縮小されます。

画像ソース: https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/

演技

Microsoft Research チームは、シミュレートされた環境で自律エージェントをトレーニングし、学習したポリシーを実際の FPV レースに適用することを目指しています。シミュレーション データについては、Microsoft はドローン、自動車、その他の車両用の高忠実度シミュレーターである AirSim に依存しています。 AirSim によって生成されたデータはトレーニング フェーズで使用され、学習されたポリシーは変更なしで実際の環境に展開されます。

画像ソース: https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/

シミュレートされた現実のギャップを埋めるために、Microsoft の研究では、ラベル付きおよびラベルなしのシミュレートされたデータと現実世界のデータセットを使用するクロスモーダル学習に依存しています。アイデアは、高次元のシミュレートされたデータでトレーニングし、現実のシナリオで効果的に使用できる低次元のポリシー表現を学習することです。この目標を達成するために、Microsoft Research は、各データ モダリティに対して 1 つのエンコーダーとデコーダーのペアを使用しながら、すべての入力と出力を単一の潜在空間に圧縮する、クロスモーダル変分オートエンコーダー (CM-VAE) フレームワークを活用しました。このアプローチにより、ラベル付きデータ モダリティとラベルなしデータ モダリティの両方を潜在変数のトレーニング プロセスに組み込むことができます。

このテクノロジーを FPV 環境に適用するには、異なるデータ モデルが必要です。最初のデータ モダリティでは、未加工のラベルなしセンサー入力 (FPV 画像) を考慮しますが、2 番目のデータ モダリティでは、現在のタスクに直接関連する状態情報を考慮します。ドローンレースの場合、2 番目のモダリティは、ドローンの座標フレームで定義された次のゲートの相対的なポーズに対応します。各データ モダリティは、CM-VAE フレームワークを使用してエンコーダーとデコーダーのペアによって処理され、低次元ポリシーの学習が可能になります。

自律型 FPV レーシング エージェントのアーキテクチャは、主に 2 つのステップで構成されます。最初のステップでは潜在的な状態表現を学習することに重点を置き、2 番目のステップではこの潜在的な表現を操作するための制御ポリシーを学習することを目的としています。最初のコンポーネントまたは制御システム アーキテクチャは、単眼カメラ画像を入力として受け取り、次の可視ドアの相対的なポーズと背景の特徴を低次元の潜在表現にエンコードします。この潜在表現は制御ネットワークに送られ、速度コマンドを出力します。その後、速度コマンドはドローンのフライト コントローラーによってアクチュエータ コマンドに変換されます。

画像ソース: https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/

次元削減は、Microsoft Research のアプローチの重要な部分です。 FPV 競技では、効果的な次元削減技術は、シミュレートされた画像と実際の画像の視覚情報の違いに対して滑らかで、連続的で、一貫性があり、堅牢である必要があります。これを実現するために、アーキテクチャでは CM-VAE アプローチが採用されており、各データ サンプルは独立した潜在空間にエンコードされ、画像にデコードしたり、ドローンに対するドアの姿勢など、別の形式のデータに変換したりできます。

画像ソース: https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/

結果として得られるアーキテクチャは、27,468 個の変数に基づく高次元表現を最小 10 個の変数に削減できます。わずか 10 個の変数を使用して画像をエンコードしたにもかかわらず、デコードされた画像には、考えられるすべてのドアのサイズと位置、さまざまな背景情報など、ドローンが見ることができる前方の物体に関する豊富な説明が含まれています。

画像ソース: https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/

Microsoft Research は、視覚的に極めて困難な環境を含むさまざまな FPV 競技環境で自律型ドローンをテストしました。たとえば、ドアと同じ色合いの赤い縞模様が床に描かれている部屋や、雪が降っている環境などです。

自律型ドローンが低次元画像表現を使用してすべての課題を達成する方法を紹介する関連ビデオもあります。ご興味がございましたら、このビデオをご覧ください: https://youtu.be/AxE7qGKJWaw 。

Microsoft の研究作業は特に FPV レース シナリオを対象としていますが、その原理は他の多くの認識される動きのシナリオにも適用できます。このような技術は、シミュレートされた環境でトレーニングできる自律エージェントの開発を加速するのに役立つ可能性があります。この研究を促進するために、Microsoft は FPV エージェントのコードを GitHub でオープンソース化しました。

GitHub プロジェクト URL: https://github.com/microsoft/AirSim-Drone-Racing-VAE-Imitation

出典: https://towardsdatascience.com/microsoft-research-uses-transfer-learning-to-train-real-world-autonomous-drones-53b3f941768f

<<:  ハルビン工業大学は、象の鼻と同じくらい柔軟な人工筋肉を備えた柔軟なロボットを開発しました。

>>:  一目でわかるアルゴリズム「選択ソート」

ブログ    
ブログ    
ブログ    

推薦する

マスク氏はまたも常識に反する発言をしました。自動運転は普及初期段階では渋滞を増加させるでしょう。

自動運転の普及初期には交通渋滞が悪化するだろう。これは、自動運転についてのあなたの理解と異なりますか...

Tech Neo 10月号: 同時実行最適化

51CTO.com+プラットフォームは、オリジナルの技術コンテンツの選択と絶妙なレイアウトを通じて、...

長沙の無人タクシーが提起する疑問:本当に無人運転が可能なのか?

自動運転無人現在、スマートカーには2つの呼び方があります。自動車会社がクローズドなシナリオでテストす...

...

Amazon Web Services は生成 AI の分野に全力で取り組んでいます。Amazon Q は将来の働き方を大きく変えるかもしれません。

最近、Amazon Web Services は、革新的な技術の再構築を通じて顧客がイノベーションを...

...

顔をスキャンして食べて、拭いてから帰る、アリババの未来の人工知能レストランがお披露目!

[[218392]]毎年、最も注目を集めるのはジャック・マー氏だ。彼は住宅賃貸の保証金を免除したり...

ML コミュニティにおける 8 つの主要な「癌」: 盲目的崇拝、相互批判、SOTA の重視と有効性の軽視...

諺にあるように、人がいるところには川や湖があり、さまざまな立場や利害の争いがあるものです。科学研究の...

...

...

人工知能は教育にどのように活用されていますか?ここに実際の例をいくつか示しますので、ぜひご覧ください。

教育者、心理学者、親たちが、子どもがスクリーンを見る時間の長さについて議論する一方で、人工知能や機械...

海外の専門家による人工知能の発展見通しに関する衝撃的な4つの予測

人工知能技術が成熟するにつれ、この技術のより広範な社会的、倫理的影響に十分な注意が払われていないので...

Mamba 論文が ICLR に受け入れられなかったのはなぜですか? AIコミュニティは盛り上がっている

2023年、大規模AIモデルの分野におけるTransformerの優位性が揺らいだ。この挑戦のきっか...

...

携帯電話を使ってドライバーを監視:ドライバーレコーダーもAI技術を活用し始めている

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...