このプロジェクトはオープンソース化されています。Microsoft Research は転移学習を使用して、実用化に向けて自律型ドローンをトレーニングします。

このプロジェクトはオープンソース化されています。Microsoft Research は転移学習を使用して、実用化に向けて自律型ドローンをトレーニングします。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

画像ソース: https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/

知覚と行動の回路は私たちの日常活動の中心にあります。私たちの脳は、無意識のうちに感覚入力を利用して特定の運動動作をリアルタイムでトリガーし、継続的な活動を形成します。運動やテレビ鑑賞などのさまざまな活動は、このようにして形成されます。

人工知能の文脈では、知覚と行動のループは自動運転車などの自律システムの基礎となります。強化学習などの分野はこの分野である程度の進歩を遂げていますが、自律システムは視覚データに基づいて直接意思決定を行うという点では現時点では人間に大きく遅れをとっています。

最近、マイクロソフトの人工知能研究者は、シミュレートされた環境で認識と行動のポリシーを学習し、その知識をドローンに適用するための転移学習法を提案する論文を発表しました。

感覚入力に基づいてどのような行動を取るかは、理論的な問題というよりも実践的な問題です。近年、強化学習や模倣学習などの手法はこの分野で大きな可能性を示していますが、大量のラベル付き実世界データを収集することが難しいという制限が依然として残っています。一方、シミュレートされたデータは生成が簡単ですが、さまざまな現実のシナリオでは安全でない動作を示すことがよくあります。

シミュレートされた環境でポリシーを学習し、その知識を実際の環境に外挿できることは、自律システムにとって依然として大きな課題の 1 つです。この分野の研究を進めるために、AI コミュニティは現実世界の自律システムに関する多くのベンチマークを確立してきました。これらの中で最も難しいのは一人称視点のドローンレースです。

FPVチャレンジ

一人称視点(FPV)で行われる競技では、プロのパイロットは安全性を考慮せずに、優れた機敏性でクワッドコプターを計画し、制御することができます。 Microsoft Research チームは、FPV レースでドローンを制御できる自律エージェントの構築を試みました。

ディープラーニングの観点から見ると、ナビゲーション タスクにおける最大の課題の 1 つは、入力画像データの高次元性と変動性です。このタスクをうまく解決するには、視覚的な外観に対して不変であり、シミュレーションと現実の違いに対して堅牢な表現が必要です。この観点から、FPV レースなどの環境で動作できる自律エージェントは、実際の環境で使用できるポリシーを学習するシミュレートされたデータを使用してトレーニングされる必要があります。

FPV コンテストなどの研究の多くは、ドローンの周囲のモデルの構築に役立つさまざまなセンサーの強化に重点を置いています。しかし、マイクロソフトの研究チームは、人間の脳の機能にヒントを得て、視覚情報を正しい制御アクションに直接マッピングする計算構造を作成することを目指しました。

これを実証するために、Microsoft Research は前面カメラを備えた非常に基本的なクアッドコプターを使用しました。すべての処理は、6 つの CPU コアと統合 GPU を備えた Nvidia TX2 コンピューターで実行されました。市販の Intel T265 追跡カメラは走行距離測定機能を提供し、画像処理には Tensorflow フレームワークを使用します。画像センサーは水平視野 830 の USB カメラで、生画像は 128 x 72 の寸法に縮小されます。

画像ソース: https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/

演技

Microsoft Research チームは、シミュレートされた環境で自律エージェントをトレーニングし、学習したポリシーを実際の FPV レースに適用することを目指しています。シミュレーション データについては、Microsoft はドローン、自動車、その他の車両用の高忠実度シミュレーターである AirSim に依存しています。 AirSim によって生成されたデータはトレーニング フェーズで使用され、学習されたポリシーは変更なしで実際の環境に展開されます。

画像ソース: https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/

シミュレートされた現実のギャップを埋めるために、Microsoft の研究では、ラベル付きおよびラベルなしのシミュレートされたデータと現実世界のデータセットを使用するクロスモーダル学習に依存しています。アイデアは、高次元のシミュレートされたデータでトレーニングし、現実のシナリオで効果的に使用できる低次元のポリシー表現を学習することです。この目標を達成するために、Microsoft Research は、各データ モダリティに対して 1 つのエンコーダーとデコーダーのペアを使用しながら、すべての入力と出力を単一の潜在空間に圧縮する、クロスモーダル変分オートエンコーダー (CM-VAE) フレームワークを活用しました。このアプローチにより、ラベル付きデータ モダリティとラベルなしデータ モダリティの両方を潜在変数のトレーニング プロセスに組み込むことができます。

このテクノロジーを FPV 環境に適用するには、異なるデータ モデルが必要です。最初のデータ モダリティでは、未加工のラベルなしセンサー入力 (FPV 画像) を考慮しますが、2 番目のデータ モダリティでは、現在のタスクに直接関連する状態情報を考慮します。ドローンレースの場合、2 番目のモダリティは、ドローンの座標フレームで定義された次のゲートの相対的なポーズに対応します。各データ モダリティは、CM-VAE フレームワークを使用してエンコーダーとデコーダーのペアによって処理され、低次元ポリシーの学習が可能になります。

自律型 FPV レーシング エージェントのアーキテクチャは、主に 2 つのステップで構成されます。最初のステップでは潜在的な状態表現を学習することに重点を置き、2 番目のステップではこの潜在的な表現を操作するための制御ポリシーを学習することを目的としています。最初のコンポーネントまたは制御システム アーキテクチャは、単眼カメラ画像を入力として受け取り、次の可視ドアの相対的なポーズと背景の特徴を低次元の潜在表現にエンコードします。この潜在表現は制御ネットワークに送られ、速度コマンドを出力します。その後、速度コマンドはドローンのフライト コントローラーによってアクチュエータ コマンドに変換されます。

画像ソース: https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/

次元削減は、Microsoft Research のアプローチの重要な部分です。 FPV 競技では、効果的な次元削減技術は、シミュレートされた画像と実際の画像の視覚情報の違いに対して滑らかで、連続的で、一貫性があり、堅牢である必要があります。これを実現するために、アーキテクチャでは CM-VAE アプローチが採用されており、各データ サンプルは独立した潜在空間にエンコードされ、画像にデコードしたり、ドローンに対するドアの姿勢など、別の形式のデータに変換したりできます。

画像ソース: https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/

結果として得られるアーキテクチャは、27,468 個の変数に基づく高次元表現を最小 10 個の変数に削減できます。わずか 10 個の変数を使用して画像をエンコードしたにもかかわらず、デコードされた画像には、考えられるすべてのドアのサイズと位置、さまざまな背景情報など、ドローンが見ることができる前方の物体に関する豊富な説明が含まれています。

画像ソース: https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/

Microsoft Research は、視覚的に極めて困難な環境を含むさまざまな FPV 競技環境で自律型ドローンをテストしました。たとえば、ドアと同じ色合いの赤い縞模様が床に描かれている部屋や、雪が降っている環境などです。

自律型ドローンが低次元画像表現を使用してすべての課題を達成する方法を紹介する関連ビデオもあります。ご興味がございましたら、このビデオをご覧ください: https://youtu.be/AxE7qGKJWaw 。

Microsoft の研究作業は特に FPV レース シナリオを対象としていますが、その原理は他の多くの認識される動きのシナリオにも適用できます。このような技術は、シミュレートされた環境でトレーニングできる自律エージェントの開発を加速するのに役立つ可能性があります。この研究を促進するために、Microsoft は FPV エージェントのコードを GitHub でオープンソース化しました。

GitHub プロジェクト URL: https://github.com/microsoft/AirSim-Drone-Racing-VAE-Imitation

出典: https://towardsdatascience.com/microsoft-research-uses-transfer-learning-to-train-real-world-autonomous-drones-53b3f941768f

<<:  ハルビン工業大学は、象の鼻と同じくらい柔軟な人工筋肉を備えた柔軟なロボットを開発しました。

>>:  一目でわかるアルゴリズム「選択ソート」

ブログ    

推薦する

...

機械学習の次元削減手法で「次元の呪い」を打破する

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

脱ぐ!ドローンは1000億元の農薬市場の発展を加速させている

現在、農業の需要と供給の矛盾がますます顕著になる中、植物保護分野におけるドローンの導入と応用は、農業...

人工知能の時代において、自己成長と教育においてどのような取り組みがなされるべきでしょうか?

近年、私たちは時代の広大さと大きな変化を痛感しています。潮流の下では、個人は泥や砂のように小さく、そ...

キャッシュに関して最も懸念される問題は何ですか?種類は何ですか?リサイクル戦略とアルゴリズム?

[[342437]]著者は、正確なタイミング タスクと遅延キュー処理機能を備えた、高同時実行シナリ...

厳しい期限内で機械学習を行う方法: ラベル付きニュースの構築

[[195898]]翻訳者注: この記事では、著者と 3 人の友人がプログラミング マラソンに参加し...

...

MySQL などの従来のリレーショナル データベースは弱すぎます。 GPU データベースは将来のトレンドです!

データベース市場でMySQLの地位を揺るがすようなデータベースが登場したのは久しぶりのようです。主要...

...

AI規制論争が再燃、しかしウォール街は依然として熱狂的

米国政府は最近、新たな AI 規制を発表し、AI のセキュリティ上の懸念に再び世界の注目が集まってい...

...

0パラメータ+0トレーニング、3D点群解析手法Point-NNは複数のSOTAを更新します

論文リンク: https://arxiv.org/pdf/2303.08134.pdfコードアドレス...

GPT-3を超えて、DeepMindは新しいお気に入りのGatoをリリースしましたが、「スープは変えても薬は変えない」と疑問視されています

大規模な言語モデリングにヒントを得て、Deepmind は同様のアプローチを適用し、マルチモーダル、...

仕事の未来に役立つAIの3つの重要な要素

[[255096]]私たちは今、デジタル変革を通じて、人工知能 (AI) と機械学習という 1 つの...

「トランスフォーマー」は5年でクレイジーなCNNに取って代わりました!トランスフォーマーは人工知能を支配するのでしょうか?

AI業界では今や誰もが知る名前となったTransformerが、これほど短期間でなぜこれほど人気を...