ドローンレースが人間のトッププレイヤーを上回り、強化学習が再びネイチャーの表紙を飾る

ドローンレースが人間のトッププレイヤーを上回り、強化学習が再びネイチャーの表紙を飾る

最近、自律型ドローンがドローン競技会で人間のトッププレイヤーに勝利しました。

この自律型ドローンは、チューリッヒ大学の研究チームによって設計・開発されたSwiftシステムです。研究結果は、ネイチャー誌の最新号の表紙に掲載されています。

研究内容: https://www.nature.com/articles/s41586-023-06419-4

このドローンレースでは、人間のオペレーターがドローンに搭載されたカメラを使用して 3D トラック上でドローンを操縦し、オペレーターはドローンの視点から周囲の環境を観察することができます。自律型ドローンが人間が操縦するドローンのレベルを達成するのは非常に困難です。ドローンは搭載センサーのみを使用して速度と軌道上の位置を推定する必要があるためです。

スウィフトは、2019年ドローンレーシングリーグ世界チャンピオンのアレックス・ヴァノーバー、マルチGPインターナショナルオープンで2度優勝したトーマス・ビットマッタ、スイスナショナルチャンピオンで3度優勝したマーヴィン・シェッパーといった世界チャンピオンの人間プレイヤーを破りました。

下の図 1a はこの競技のコースです。スウィフトは人間のチャンピオンとの競争に勝利しただけでなく、最速のレース記録も樹立しました。この研究は、移動ロボットと機械知能の分野における画期的な成果です。

図1

次に、自律型ドローン Swift の技術的アプローチについて見ていきます。

Swift テクノロジーの紹介

Swift は、搭載センサーと計算のみを使用して自らを制御するクアッドローターです。2 つの主要モジュールで構成されています。

  1. 知覚システムは、高次元の視覚情報と慣性情報を低次元の表現に変換します。
  2. 制御戦略は、知覚システムによって生成された低次元表現を取り込み、制御コマンドを生成します。

制御ポリシーはフィードフォワード ニューラル ネットワークによって表現され、モデルフリーのポリシーオン深層強化学習 (RL) を使用してトレーニングされます。

シミュレーションと現実世界では感知と動力学に違いがあるため、シミュレーションのみで戦略を最適化すると、ドローンの現実世界でのパフォーマンスが低下します。そのため、研究チームは物理システムから収集したデータを使用して、ノンパラメトリックな経験的ノイズモデルを推定しました。実験により、これらの経験的ノイズ モデルが、制御戦略をシミュレーションから現実にうまく移行するのに役立つことが示されています。

具体的には、Swift は搭載センサーからの読み取り値を制御コマンドにマッピングします。このマッピングは、(1) 高次元の視覚情報と慣性情報をタスク固有の低次元エンコーディングに精製する観測戦略と、(2) エンコーディングをドローン コマンドに変換する制御戦略の 2 つの部分で構成されます。 Swift システムの全体概要を以下の図 2 に示します。

図2

図 1 に示すシナリオでは、Swift の観測戦略で視覚慣性推定器とドア検出器を実行する必要があります。ゲート検出器は、空中画像内のレースゲートを検出し、検出されたゲートを使用してトラック上のドローンのグローバル位置と飛行方向を推定する畳み込みニューラル ネットワークです。これは、カメラ再断面アルゴリズムとトラックのマップを組み合わせて行われます。最後に、Swift は、カルマン フィルターを使用して、グローバル姿勢推定値 (ドア検出器から取得) と視覚慣性推定値を組み合わせて、ロボットの状態をより正確に特徴付けます。

制御戦略 (2 層パーセプトロンで表現) は、カルマン フィルターの出力をドローン制御コマンドにマッピングする役割を担います。制御ポリシーは、モデルフリーのオンポリシー深層強化学習 (RL) を使用してシミュレーションでトレーニングされます。トレーニング中、ポリシーはカメラの視野内にある次のレーシングゲートに関する情報を考慮し、報酬を最大化して姿勢推定の精度を向上させます。

実験と結果

Swift のパフォーマンスを評価するために、この研究では一連のレース実験を実施し、軌道計画とモデル予測制御 (MPC) と比較しました。

下の図 3b に示すように、Swift は A. Vanover に対して 9 試合中 5 試合に勝ち、T. Bitmatta に対して 7 試合中 4 試合に勝ち、M. Schaepper に対して 9 試合中 6 試合に勝ちました。スウィフトが記録した10回の敗北のうち、40%は対戦相手との衝突によるもの、40%は競技ゲートとの衝突によるもの、そして20%は人間が操縦するドローンよりも遅かったことによるものだった。全体として、スウィフトは人間が操縦するドローンとのレースで最も多くの勝利を収め、また、人間が操縦するドローン (A. ヴァノーバー) のベストタイムを 0.5 秒上回る最速タイムも記録しました。

図3

Swift のパフォーマンスをより詳細に分析するために、この研究では Swift と人間が操縦するドローンの最速の 1 周飛行速度を比較しました。結果は、以下の図 4 と表 1 に示されています。

図4

表1

Swift は全体的には人間が操縦するすべてのドローンよりも高速でしたが、表 1 に示すように、トラックのすべてのセグメントで高速だったわけではありません。

研究チームは注意深く分析し、離陸時のスウィフトの反応時間は人間のパイロットよりも短く、平均120ミリ秒早く離陸していること、またスウィフトはより速く加速し、より速い速度で最初の競技ゲートに進入していることを発見した。図 4cd に示すように、急旋回するとき、Swift の動きはよりコンパクトになります。

研究チームはまた、Swift は人間のオペレーターよりも長い時間スケールで軌道を最適化するという仮説を提唱しました。ご存知のとおり、モデルフリー RL は価値関数を通じて長期的な報酬を最適化できます。対照的に、人間のオペレーターはより短い時間スケールで動きを計画し、せいぜい将来のレースゲート 1 つ分しか予測できません。

<<: 

>>:  OpenAI の公式チュートリアル: GPT-4 で議事録生成 AI を作成する方法

ブログ    
ブログ    

推薦する

AIは実は人々の思考や視野を制限している

[[252987]] AIは徐々に成熟し、さまざまな産業に導入され、人々の生活を微妙に変えています。...

自己回帰デコードが64倍高速化、Googleが新たな画像合成モデルMaskGITを提案

生成トランスフォーマーは、高忠実度かつ高解像度の画像を合成するために急速に人気を集めています。しかし...

待ちに待った! ByteDance初の大規模モデル製品「Doubao」が公開テスト可能、招待コードは不要!

ノア著他の大手企業と比較すると、ByteDanceの大型モデル分野における進歩は常に比較的神秘的であ...

2021年にAIは暗号通貨分野に参入するでしょうか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

斉燕傑:Sina Weibo のパーソナライズされたプッシュにおける機械学習の応用

[51CTO.comより引用] Sina Weiboは情報交換プラットフォームであるだけでなく、メデ...

IoT と AI を組み合わせたユースケースにはどのようなものがありますか?

モノのインターネットは現代のビジネスと経済を急速に変革しています。この革新的なテクノロジーにより、膨...

PythonコードからAPPまで、必要なのは小さなツールだけ:GitHubには3,000以上のスターがある

機械学習開発者にとってアプリを構築するのはどれくらい難しいのでしょうか?実際、Python コードを...

...

AIoT = AI + IoT、舞台裏で誰が誰をもっと必要としているのでしょうか?

AIoTとは何でしょうか?多くの人にとって「AI+IoT」が答えになると信じています。昨年初めから...

...

ChatGPTの背後にある技術的進化を分析する

1. 自然言語理解と言語モデル1.1 自然言語処理自然言語処理 (NLP) は人工知能 (AI) の...

米国版「テンセントがアプリのアップデートを停止」、米国が「AIアルゴリズム」を法制化、未審査の公開を禁止

数日前、テンセントの製品に違反があり、合計4回に分けて報告されました。工業情報化部はテンセントに対し...

...

第 1 回 51CTO 開発者コンペティションの作品がいくつか公開され、皆さんの参加を待っています。

/* 世界を変えるために生きるここでは、あらゆる作品が市場に参入するための種となる可能性があります...

ChatGPT 技術製品の実装: 技術アーキテクチャから実際のアプリケーションまで

導入この共有では、ChatGPTテクノロジー製品の実装についてお話ししたいと思います。技術アーキテク...