このプロジェクトはオープンソース化されています。Microsoft Research は転移学習を使用して、実用化に向けて自律型ドローンをトレーニングします。

このプロジェクトはオープンソース化されています。Microsoft Research は転移学習を使用して、実用化に向けて自律型ドローンをトレーニングします。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

画像ソース: https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/

知覚と行動の回路は私たちの日常活動の中心にあります。私たちの脳は、無意識のうちに感覚入力を利用して特定の運動動作をリアルタイムでトリガーし、継続的な活動を形成します。運動やテレビ鑑賞などのさまざまな活動は、このようにして形成されます。

人工知能の文脈では、知覚と行動のループは自動運転車などの自律システムの基礎となります。強化学習などの分野はこの分野である程度の進歩を遂げていますが、自律システムは視覚データに基づいて直接意思決定を行うという点では現時点では人間に大きく遅れをとっています。

最近、マイクロソフトの人工知能研究者は、シミュレートされた環境で認識と行動のポリシーを学習し、その知識をドローンに適用するための転移学習法を提案する論文を発表しました。

感覚入力に基づいてどのような行動を取るかは、理論的な問題というよりも実践的な問題です。近年、強化学習や模倣学習などの手法はこの分野で大きな可能性を示していますが、大量のラベル付き実世界データを収集することが難しいという制限が依然として残っています。一方、シミュレートされたデータは生成が簡単ですが、さまざまな現実のシナリオでは安全でない動作を示すことがよくあります。

シミュレートされた環境でポリシーを学習し、その知識を実際の環境に外挿できることは、自律システムにとって依然として大きな課題の 1 つです。この分野の研究を進めるために、AI コミュニティは現実世界の自律システムに関する多くのベンチマークを確立してきました。これらの中で最も難しいのは一人称視点のドローンレースです。

FPVチャレンジ

一人称視点(FPV)で行われる競技では、プロのパイロットは安全性を考慮せずに、優れた機敏性でクワッドコプターを計画し、制御することができます。 Microsoft Research チームは、FPV レースでドローンを制御できる自律エージェントの構築を試みました。

ディープラーニングの観点から見ると、ナビゲーション タスクにおける最大の課題の 1 つは、入力画像データの高次元性と変動性です。このタスクをうまく解決するには、視覚的な外観に対して不変であり、シミュレーションと現実の違いに対して堅牢な表現が必要です。この観点から、FPV レースなどの環境で動作できる自律エージェントは、実際の環境で使用できるポリシーを学習するシミュレートされたデータを使用してトレーニングされる必要があります。

FPV コンテストなどの研究の多くは、ドローンの周囲のモデルの構築に役立つさまざまなセンサーの強化に重点を置いています。しかし、マイクロソフトの研究チームは、人間の脳の機能にヒントを得て、視覚情報を正しい制御アクションに直接マッピングする計算構造を作成することを目指しました。

これを実証するために、Microsoft Research は前面カメラを備えた非常に基本的なクアッドコプターを使用しました。すべての処理は、6 つの CPU コアと統合 GPU を備えた Nvidia TX2 コンピューターで実行されました。市販の Intel T265 追跡カメラは走行距離測定機能を提供し、画像処理には Tensorflow フレームワークを使用します。画像センサーは水平視野 830 の USB カメラで、生画像は 128 x 72 の寸法に縮小されます。

画像ソース: https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/

演技

Microsoft Research チームは、シミュレートされた環境で自律エージェントをトレーニングし、学習したポリシーを実際の FPV レースに適用することを目指しています。シミュレーション データについては、Microsoft はドローン、自動車、その他の車両用の高忠実度シミュレーターである AirSim に依存しています。 AirSim によって生成されたデータはトレーニング フェーズで使用され、学習されたポリシーは変更なしで実際の環境に展開されます。

画像ソース: https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/

シミュレートされた現実のギャップを埋めるために、Microsoft の研究では、ラベル付きおよびラベルなしのシミュレートされたデータと現実世界のデータセットを使用するクロスモーダル学習に依存しています。アイデアは、高次元のシミュレートされたデータでトレーニングし、現実のシナリオで効果的に使用できる低次元のポリシー表現を学習することです。この目標を達成するために、Microsoft Research は、各データ モダリティに対して 1 つのエンコーダーとデコーダーのペアを使用しながら、すべての入力と出力を単一の潜在空間に圧縮する、クロスモーダル変分オートエンコーダー (CM-VAE) フレームワークを活用しました。このアプローチにより、ラベル付きデータ モダリティとラベルなしデータ モダリティの両方を潜在変数のトレーニング プロセスに組み込むことができます。

このテクノロジーを FPV 環境に適用するには、異なるデータ モデルが必要です。最初のデータ モダリティでは、未加工のラベルなしセンサー入力 (FPV 画像) を考慮しますが、2 番目のデータ モダリティでは、現在のタスクに直接関連する状態情報を考慮します。ドローンレースの場合、2 番目のモダリティは、ドローンの座標フレームで定義された次のゲートの相対的なポーズに対応します。各データ モダリティは、CM-VAE フレームワークを使用してエンコーダーとデコーダーのペアによって処理され、低次元ポリシーの学習が可能になります。

自律型 FPV レーシング エージェントのアーキテクチャは、主に 2 つのステップで構成されます。最初のステップでは潜在的な状態表現を学習することに重点を置き、2 番目のステップではこの潜在的な表現を操作するための制御ポリシーを学習することを目的としています。最初のコンポーネントまたは制御システム アーキテクチャは、単眼カメラ画像を入力として受け取り、次の可視ドアの相対的なポーズと背景の特徴を低次元の潜在表現にエンコードします。この潜在表現は制御ネットワークに送られ、速度コマンドを出力します。その後、速度コマンドはドローンのフライト コントローラーによってアクチュエータ コマンドに変換されます。

画像ソース: https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/

次元削減は、Microsoft Research のアプローチの重要な部分です。 FPV 競技では、効果的な次元削減技術は、シミュレートされた画像と実際の画像の視覚情報の違いに対して滑らかで、連続的で、一貫性があり、堅牢である必要があります。これを実現するために、アーキテクチャでは CM-VAE アプローチが採用されており、各データ サンプルは独立した潜在空間にエンコードされ、画像にデコードしたり、ドローンに対するドアの姿勢など、別の形式のデータに変換したりできます。

画像ソース: https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/

結果として得られるアーキテクチャは、27,468 個の変数に基づく高次元表現を最小 10 個の変数に削減できます。わずか 10 個の変数を使用して画像をエンコードしたにもかかわらず、デコードされた画像には、考えられるすべてのドアのサイズと位置、さまざまな背景情報など、ドローンが見ることができる前方の物体に関する豊富な説明が含まれています。

画像ソース: https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/

Microsoft Research は、視覚的に極めて困難な環境を含むさまざまな FPV 競技環境で自律型ドローンをテストしました。たとえば、ドアと同じ色合いの赤い縞模様が床に描かれている部屋や、雪が降っている環境などです。

自律型ドローンが低次元画像表現を使用してすべての課題を達成する方法を紹介する関連ビデオもあります。ご興味がございましたら、このビデオをご覧ください: https://youtu.be/AxE7qGKJWaw 。

Microsoft の研究作業は特に FPV レース シナリオを対象としていますが、その原理は他の多くの認識される動きのシナリオにも適用できます。このような技術は、シミュレートされた環境でトレーニングできる自律エージェントの開発を加速するのに役立つ可能性があります。この研究を促進するために、Microsoft は FPV エージェントのコードを GitHub でオープンソース化しました。

GitHub プロジェクト URL: https://github.com/microsoft/AirSim-Drone-Racing-VAE-Imitation

出典: https://towardsdatascience.com/microsoft-research-uses-transfer-learning-to-train-real-world-autonomous-drones-53b3f941768f

<<:  ハルビン工業大学は、象の鼻と同じくらい柔軟な人工筋肉を備えた柔軟なロボットを開発しました。

>>:  一目でわかるアルゴリズム「選択ソート」

ブログ    
ブログ    
ブログ    

推薦する

将来を見据えたデータセキュリティのためのAIソリューション

今日、ビジネスリーダーは急速に進化するデジタル世界における多数のデータセキュリティの脅威に対処してい...

...

無料の Python 機械学習コース パート 2: 多重線形回帰

Python で任意の数の変数に対する多重線形回帰をゼロから開発する方法を学びます。線形回帰はおそら...

AIが世界中の産業に及ぼす影響

人工知能は、すでに私たちの世界を微妙かつ広範囲に変化させている、画期的な技術です。クラウド コンピュ...

ニューラルネットワークの背後にあるシンプルな数学

[[376715]] > Unsplash の Alina Grubnyak による画像ニュー...

IBMは今後5年間で全人類に大きな影響を与える5つの主要な技術革新を発表

海外メディアの報道によると、IBMは3月19日に「Five-for-Five」レポートを発表し、世界...

クレイジーすぎる、GPTsがオンライン:ウルトラマンがマスクの大型模型の手こすりを披露、誰かがサードパーティのマーケットを作った

数日前の開発者会議で、OpenAIは、メンバーシップを購入すれば、GPT-4大規模モデルの新バージョ...

エッジAI: 人工知能の進化の次のステップ

[[422303]]人工知能(AI)は、かなり長い間、世界中のビジネスにおいて安定した存在となってい...

人工知能開発の現状と将来動向の分析

人工知能、またはよく「AI」(英語の正式名称:Artificial Intelligence)と呼ば...

...

人工知能は医療現場の診断や治療の決定に役立つ

必要な変更。医療制度と支払者(政府と民間の両方)において、この用語は患者への不必要なリスク、医療の質...

金融AIが外灘サミットでデビュー: 完全な金融知識を備え、同時に数百万人と会話し、金融アドバイスを提供可能

「こんにちは。投資したいお金があります。期待収益は 6 ~ 10 ポイントです。1 年間投資したいと...

マッキンゼーは、2030年までに1億人の中国人が転職に直面し、世界中で8億人がロボットに置き換えられると予測している。

最近、マッキンゼー・グローバル研究所は水曜日に発表した報告書の中で、技術の進歩により、将来世界で約3...