ドローンレースが人間のトッププレイヤーを上回り、強化学習が再びネイチャーの表紙を飾る

ドローンレースが人間のトッププレイヤーを上回り、強化学習が再びネイチャーの表紙を飾る

最近、自律型ドローンがドローン競技会で人間のトッププレイヤーに勝利しました。

この自律型ドローンは、チューリッヒ大学の研究チームによって設計・開発されたSwiftシステムです。研究結果は、ネイチャー誌の最新号の表紙に掲載されています。

研究内容: https://www.nature.com/articles/s41586-023-06419-4

このドローンレースでは、人間のオペレーターがドローンに搭載されたカメラを使用して 3D トラック上でドローンを操縦し、オペレーターはドローンの視点から周囲の環境を観察することができます。自律型ドローンが人間が操縦するドローンのレベルを達成するのは非常に困難です。ドローンは搭載センサーのみを使用して速度と軌道上の位置を推定する必要があるためです。

スウィフトは、2019年ドローンレーシングリーグ世界チャンピオンのアレックス・ヴァノーバー、マルチGPインターナショナルオープンで2度優勝したトーマス・ビットマッタ、スイスナショナルチャンピオンで3度優勝したマーヴィン・シェッパーといった世界チャンピオンの人間プレイヤーを破りました。

下の図 1a はこの競技のコースです。スウィフトは人間のチャンピオンとの競争に勝利しただけでなく、最速のレース記録も樹立しました。この研究は、移動ロボットと機械知能の分野における画期的な成果です。

図1

次に、自律型ドローン Swift の技術的アプローチについて見ていきます。

Swift テクノロジーの紹介

Swift は、搭載センサーと計算のみを使用して自らを制御するクアッドローターです。2 つの主要モジュールで構成されています。

  1. 知覚システムは、高次元の視覚情報と慣性情報を低次元の表現に変換します。
  2. 制御戦略は、知覚システムによって生成された低次元表現を取り込み、制御コマンドを生成します。

制御ポリシーはフィードフォワード ニューラル ネットワークによって表現され、モデルフリーのポリシーオン深層強化学習 (RL) を使用してトレーニングされます。

シミュレーションと現実世界では感知と動力学に違いがあるため、シミュレーションのみで戦略を最適化すると、ドローンの現実世界でのパフォーマンスが低下します。そのため、研究チームは物理システムから収集したデータを使用して、ノンパラメトリックな経験的ノイズモデルを推定しました。実験により、これらの経験的ノイズ モデルが、制御戦略をシミュレーションから現実にうまく移行するのに役立つことが示されています。

具体的には、Swift は搭載センサーからの読み取り値を制御コマンドにマッピングします。このマッピングは、(1) 高次元の視覚情報と慣性情報をタスク固有の低次元エンコーディングに精製する観測戦略と、(2) エンコーディングをドローン コマンドに変換する制御戦略の 2 つの部分で構成されます。 Swift システムの全体概要を以下の図 2 に示します。

図2

図 1 に示すシナリオでは、Swift の観測戦略で視覚慣性推定器とドア検出器を実行する必要があります。ゲート検出器は、空中画像内のレースゲートを検出し、検出されたゲートを使用してトラック上のドローンのグローバル位置と飛行方向を推定する畳み込みニューラル ネットワークです。これは、カメラ再断面アルゴリズムとトラックのマップを組み合わせて行われます。最後に、Swift は、カルマン フィルターを使用して、グローバル姿勢推定値 (ドア検出器から取得) と視覚慣性推定値を組み合わせて、ロボットの状態をより正確に特徴付けます。

制御戦略 (2 層パーセプトロンで表現) は、カルマン フィルターの出力をドローン制御コマンドにマッピングする役割を担います。制御ポリシーは、モデルフリーのオンポリシー深層強化学習 (RL) を使用してシミュレーションでトレーニングされます。トレーニング中、ポリシーはカメラの視野内にある次のレーシングゲートに関する情報を考慮し、報酬を最大化して姿勢推定の精度を向上させます。

実験と結果

Swift のパフォーマンスを評価するために、この研究では一連のレース実験を実施し、軌道計画とモデル予測制御 (MPC) と比較しました。

下の図 3b に示すように、Swift は A. Vanover に対して 9 試合中 5 試合に勝ち、T. Bitmatta に対して 7 試合中 4 試合に勝ち、M. Schaepper に対して 9 試合中 6 試合に勝ちました。スウィフトが記録した10回の敗北のうち、40%は対戦相手との衝突によるもの、40%は競技ゲートとの衝突によるもの、そして20%は人間が操縦するドローンよりも遅かったことによるものだった。全体として、スウィフトは人間が操縦するドローンとのレースで最も多くの勝利を収め、また、人間が操縦するドローン (A. ヴァノーバー) のベストタイムを 0.5 秒上回る最速タイムも記録しました。

図3

Swift のパフォーマンスをより詳細に分析するために、この研究では Swift と人間が操縦するドローンの最速の 1 周飛行速度を比較しました。結果は、以下の図 4 と表 1 に示されています。

図4

表1

Swift は全体的には人間が操縦するすべてのドローンよりも高速でしたが、表 1 に示すように、トラックのすべてのセグメントで高速だったわけではありません。

研究チームは注意深く分析し、離陸時のスウィフトの反応時間は人間のパイロットよりも短く、平均120ミリ秒早く離陸していること、またスウィフトはより速く加速し、より速い速度で最初の競技ゲートに進入していることを発見した。図 4cd に示すように、急旋回するとき、Swift の動きはよりコンパクトになります。

研究チームはまた、Swift は人間のオペレーターよりも長い時間スケールで軌道を最適化するという仮説を提唱しました。ご存知のとおり、モデルフリー RL は価値関数を通じて長期的な報酬を最適化できます。対照的に、人間のオペレーターはより短い時間スケールで動きを計画し、せいぜい将来のレースゲート 1 つ分しか予測できません。

<<: 

>>:  OpenAI の公式チュートリアル: GPT-4 で議事録生成 AI を作成する方法

ブログ    
ブログ    

推薦する

FMI2017----人工知能とビッグデータが時代を力づける

2017年8月5日、ペガサスが主催する「FMI人工知能&ビッグデータサミットフォーラム」が北京国家会...

アンサンブル法からニューラルネットワークまで:自動運転技術で使用される機械学習アルゴリズムとは?

現在、機械学習アルゴリズムは、自動運転車業界で増加している問題を解決するために大規模に使用されていま...

教育におけるAIの役割: AIが学習方法をどのように変えるか

教育分野では、人工知能(AI)の適応性が大きな注目を集めています。学習者、教育者、政策立案者はいずれ...

なぜ記憶はAIの発展を妨げる問題となるのでしょうか?

エッジ コンピューティングのパフォーマンスの向上により、メモリの設計、タイプの選択、構成に課題が生じ...

テクノロジー大手は疑似環境の仮面を脱ぎ捨て、AIの積極的な開発によりエネルギー消費が増加している

9月4日のニュースによると、マイクロソフト、アマゾン、グーグル、フェイスブックの親会社であるMeta...

研究報告によると、GPT-4の「知能」は大幅に低下している

7月20日、スタンフォード大学とカリフォルニア大学バークレー校の研究チームが最近GPT-4の詳細な研...

AmazonがTitanシリーズのAIモデルを発売:画像やテキストを生成でき、価格と性能のバランスが取れていると主張

アマゾンは12月1日、昨日のre:Inventカンファレンスで、アマゾン初の画像生成モデル「Tita...

...

おそらく2030年までに、量子コンピューティングのChatGPTの瞬間が到来するだろう

2030 年までに RSA 暗号を解読できるマシンが登場するでしょうが、まずは量子センシングやその他...

VSCodeでChatGPTを実行すると、ファイルを直接生成できます。

人気の ChatGPT には、コード生成という非常に目を引く機能があります。多くの開発者はすでにプロ...

IoT、分析、AI – デジタル化の勝利のトリオ

デジタル化が進む世界では、すべてがスピードと個々の顧客ニーズの特定と対応を中心に展開されます。サービ...

...

AR技術が携帯電話業界のブレークスルーとなる

[51CTO.comからのオリジナル記事] スマートフォンの開発はハードウェアの革新においてボトルネ...

強力な人工知能まであとどれくらいでしょうか?まず、これらの5つの数学の問題を解くのに10年から20年かかります

[[272461]] 7月30日、成都ハイテクゾーンの景栄会で開催された2019年世界人工知能サミッ...