ドローンレースが人間のトッププレイヤーを上回り、強化学習が再びネイチャーの表紙を飾る

ドローンレースが人間のトッププレイヤーを上回り、強化学習が再びネイチャーの表紙を飾る

最近、自律型ドローンがドローン競技会で人間のトッププレイヤーに勝利しました。

この自律型ドローンは、チューリッヒ大学の研究チームによって設計・開発されたSwiftシステムです。研究結果は、ネイチャー誌の最新号の表紙に掲載されています。

研究内容: https://www.nature.com/articles/s41586-023-06419-4

このドローンレースでは、人間のオペレーターがドローンに搭載されたカメラを使用して 3D トラック上でドローンを操縦し、オペレーターはドローンの視点から周囲の環境を観察することができます。自律型ドローンが人間が操縦するドローンのレベルを達成するのは非常に困難です。ドローンは搭載センサーのみを使用して速度と軌道上の位置を推定する必要があるためです。

スウィフトは、2019年ドローンレーシングリーグ世界チャンピオンのアレックス・ヴァノーバー、マルチGPインターナショナルオープンで2度優勝したトーマス・ビットマッタ、スイスナショナルチャンピオンで3度優勝したマーヴィン・シェッパーといった世界チャンピオンの人間プレイヤーを破りました。

下の図 1a はこの競技のコースです。スウィフトは人間のチャンピオンとの競争に勝利しただけでなく、最速のレース記録も樹立しました。この研究は、移動ロボットと機械知能の分野における画期的な成果です。

図1

次に、自律型ドローン Swift の技術的アプローチについて見ていきます。

Swift テクノロジーの紹介

Swift は、搭載センサーと計算のみを使用して自らを制御するクアッドローターです。2 つの主要モジュールで構成されています。

  1. 知覚システムは、高次元の視覚情報と慣性情報を低次元の表現に変換します。
  2. 制御戦略は、知覚システムによって生成された低次元表現を取り込み、制御コマンドを生成します。

制御ポリシーはフィードフォワード ニューラル ネットワークによって表現され、モデルフリーのポリシーオン深層強化学習 (RL) を使用してトレーニングされます。

シミュレーションと現実世界では感知と動力学に違いがあるため、シミュレーションのみで戦略を最適化すると、ドローンの現実世界でのパフォーマンスが低下します。そのため、研究チームは物理システムから収集したデータを使用して、ノンパラメトリックな経験的ノイズモデルを推定しました。実験により、これらの経験的ノイズ モデルが、制御戦略をシミュレーションから現実にうまく移行するのに役立つことが示されています。

具体的には、Swift は搭載センサーからの読み取り値を制御コマンドにマッピングします。このマッピングは、(1) 高次元の視覚情報と慣性情報をタスク固有の低次元エンコーディングに精製する観測戦略と、(2) エンコーディングをドローン コマンドに変換する制御戦略の 2 つの部分で構成されます。 Swift システムの全体概要を以下の図 2 に示します。

図2

図 1 に示すシナリオでは、Swift の観測戦略で視覚慣性推定器とドア検出器を実行する必要があります。ゲート検出器は、空中画像内のレースゲートを検出し、検出されたゲートを使用してトラック上のドローンのグローバル位置と飛行方向を推定する畳み込みニューラル ネットワークです。これは、カメラ再断面アルゴリズムとトラックのマップを組み合わせて行われます。最後に、Swift は、カルマン フィルターを使用して、グローバル姿勢推定値 (ドア検出器から取得) と視覚慣性推定値を組み合わせて、ロボットの状態をより正確に特徴付けます。

制御戦略 (2 層パーセプトロンで表現) は、カルマン フィルターの出力をドローン制御コマンドにマッピングする役割を担います。制御ポリシーは、モデルフリーのオンポリシー深層強化学習 (RL) を使用してシミュレーションでトレーニングされます。トレーニング中、ポリシーはカメラの視野内にある次のレーシングゲートに関する情報を考慮し、報酬を最大化して姿勢推定の精度を向上させます。

実験と結果

Swift のパフォーマンスを評価するために、この研究では一連のレース実験を実施し、軌道計画とモデル予測制御 (MPC) と比較しました。

下の図 3b に示すように、Swift は A. Vanover に対して 9 試合中 5 試合に勝ち、T. Bitmatta に対して 7 試合中 4 試合に勝ち、M. Schaepper に対して 9 試合中 6 試合に勝ちました。スウィフトが記録した10回の敗北のうち、40%は対戦相手との衝突によるもの、40%は競技ゲートとの衝突によるもの、そして20%は人間が操縦するドローンよりも遅かったことによるものだった。全体として、スウィフトは人間が操縦するドローンとのレースで最も多くの勝利を収め、また、人間が操縦するドローン (A. ヴァノーバー) のベストタイムを 0.5 秒上回る最速タイムも記録しました。

図3

Swift のパフォーマンスをより詳細に分析するために、この研究では Swift と人間が操縦するドローンの最速の 1 周飛行速度を比較しました。結果は、以下の図 4 と表 1 に示されています。

図4

表1

Swift は全体的には人間が操縦するすべてのドローンよりも高速でしたが、表 1 に示すように、トラックのすべてのセグメントで高速だったわけではありません。

研究チームは注意深く分析し、離陸時のスウィフトの反応時間は人間のパイロットよりも短く、平均120ミリ秒早く離陸していること、またスウィフトはより速く加速し、より速い速度で最初の競技ゲートに進入していることを発見した。図 4cd に示すように、急旋回するとき、Swift の動きはよりコンパクトになります。

研究チームはまた、Swift は人間のオペレーターよりも長い時間スケールで軌道を最適化するという仮説を提唱しました。ご存知のとおり、モデルフリー RL は価値関数を通じて長期的な報酬を最適化できます。対照的に、人間のオペレーターはより短い時間スケールで動きを計画し、せいぜい将来のレースゲート 1 つ分しか予測できません。

<<: 

>>:  OpenAI の公式チュートリアル: GPT-4 で議事録生成 AI を作成する方法

ブログ    

推薦する

金融分野における機械学習の7つの主要な応用例をカウントダウン

[[269614]]ビッグデータダイジェスト制作編集者:劉兆娜機械学習は市場の新しいトレンドであり、...

年次レビュー:人工知能業界は2021年後半に突入

[[443324]] 2015年に人工知能が普及して以来、人工知能業界は7年間の発展を経て後半期に突...

...

...

OpenAI が深夜に 5 つのモデル アップデートを割引価格でリリースします。

編集者 | ヤン・ジェン現地時間1月25日、OpenAIは新モデルをリリースし、GPT-3.5 Tu...

Arthur Bench に基づいて LLM 評価を実施するにはどうすればよいでしょうか?

こんにちは、皆さん。私は Luga です。今日は、人工知能 (AI) エコシステムに関連するテクノロ...

PyTorch を使用したノイズ除去拡散モデルの実装

ノイズ除去拡散確率モデル (DDPM) の仕組みを詳しく検討する前に、生成 AI の進歩、具体的には...

雲智盛 梁 嘉恩: インテリジェントインタラクション技術とモノのインターネットアプリケーション

[51CTO.comより引用] 2017年7月21日から22日まで、51CTO主催の人工知能をテーマ...

デイリーアルゴリズム: 2 つのスタックを持つキューの実装

[[422522]]この記事はWeChatの公開アカウント「3分でフロントエンドを学ぶ」から転載した...

DeepMindの「フィッシングエンフォースメント」:AIに間違った発言をさせ、数万件の危険な発言を発見させる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

説明可能な不正防止AIについてお話しましょう

人工知能は近年急速に発展し、さまざまな業界の無数のユースケースで強力なイノベーションツールとして広く...

英国最高裁:AIは「発明者」として記載できない

英国最高裁判所は12月21日、特許出願において人工知能(AI)を発明者として記載することはできないと...

人工知能は科学研究に革命を起こす力を持っている

人工知能 (AI) は、コンピューター サイエンス、数学、心理学、言語学などの分野が関わる学際的な分...