AIドローンレースが人間のチャンピオンに勝利、ネイチャー誌が表紙:AlphaGoの成果を現実世界にもたらす

AIドローンレースが人間のチャンピオンに勝利、ネイチャー誌が表紙:AlphaGoの成果を現実世界にもたらす

AIは再び人間の世界チャンピオンを破り、ネイチャー誌の表紙を飾りました。

AlphaGo が前回囲碁をプレイしたときとは異なり、今回は頭脳運動ではなく、実際の物理的な環境での競争スポーツ、「Air F1」ドローンレースでした。

AlphaGoとの類似点もあり、コア技術は深層強化学習です。

この研究結果はチューリッヒ大学から発表された。著者の一人であるダビデ・スカラムッツァ氏は、これはチェスのディープ・ブルーや囲碁のアルファ碁に続く、もう一つの大きな進歩だと考えている。

人間のために人間によって設計された身体的なスポーツで、自律移動ロボットが人間のチャンピオンに勝利したのはこれが初めてです。

マイクロソフトの上級研究エンジニアであるシタル・シャー氏は、これはAlphaGoよりも難しく、認められる可能性も低いと考えているが、それでも歴史的なマイルストーンだ。

深層強化学習、もう一つの勝利

まず最初に、FPV(一人称視点)ドローンレースというスポーツについて紹介します。

人間の参加者はドローンの視点から環境を観察し、搭載カメラから送信されるビデオを使用して障害物を回避します。

コースは 7 つの正方形のゲートで構成されており、各ラップごとに順番に通過する必要があります。レースに勝つためには、競技者は対戦相手より先に3周連続で完走しなければなりません。

2機のドローンは同時に出発し、正面から対峙し、最高時速100キロメートルで飛行し、同時に重力の数倍の加速度に耐えた。

今回 AI と共にステージに上がるのは、2019 年ドローン レーシング リーグ世界チャンピオンのアレックス ヴァノーバー、マルチ GP インターナショナル オープン ワールド カップ チャンピオンのトーマス ビットマッタ、そして 3 度のスイス ナショナル チャンピオンのマーヴィン シェッパーです。

ドローンは搭載センサーのみで速度と位置を推定しなが​​ら、物理的限界内で飛行する必要があるため、AIがプロの人間プレイヤーのレベルに到達することは非常に困難です。

これらの課題に対処するために、チューリッヒ大学は次の 2 つの主要モジュールで構成される Swift を設計しました。

  • 知覚システムは、高次元の視覚情報と慣性情報を低次元の表現に変換します。
  • 制御ポリシーは、システムによって生成された低次元表現を認識し、制御コマンドを生成します。

このうち、認識システムは主に VIO (Visual-Inertial Odometry) モジュールで構成され、視覚センサーと慣性センサーを使用して自身の位置を特定し、環境をモデル化します。

VIO 推定とニューラル ネットワークを組み合わせて、障害物ドアの 4 つのコーナー ポイントを検出します。

制御ポリシーは、モデルフリーのオンポリシー深層強化学習を使用してシミュレーションでトレーニングされたフィードフォワード ニューラル ネットワークであり、報酬目標は、隣のドアの中心に向かって移動することと、隣のドアをカメラの視野内に維持することを組み合わせたものです。

シミュレーションと物理世界の間の知覚とダイナミクスのギャップを埋めるために、物理システムから収集されたデータを使用して MLP 残差モデルを駆動します。

競技が始まる前に、人間の競技者は「スプリットS」などの難しい技を含む指定のトラックで1週間の練習時間を持つ。

具体的なルールとしては、競技は音響信号(スタート号砲)によって開始され、衝突が発生しても競技は続行され、両方のドローンが墜落した場合はより遠くまで飛んだ方が勝利する、などがあります。

最終的に、3 人の人間プレイヤーとの対戦では、Swift はそれぞれ 5 勝で 9 ゲーム、4 勝で 7 ゲーム、6 勝で 9 ゲームで勝利しました。

スウィフトが負けたレースのうち、40%は対戦相手との衝突によるもので、40%はドアとの衝突によるもので、20%は人間よりも遅かったことによるものでした。

スウィフト選手は、この競技で最速タイムも記録し、人間の競技者のベストタイムを0.5秒上回った。

300周の累積データでは、Swiftの方が平均タイムが短く、ばらつきも少ないことから、AIが周回ごとに着実に速いラップタイムを追求していることがわかります。

一方、人間は先頭にいるときは低速を維持し、衝突のリスクを減らし、より大きな変動を示します。

これは、現在の Swift システムが相手の状況を理解できないことも示しています。リードしているときは十分に安定しておらず、遅れているときは十分に大胆ではありません。

AIプレイヤーと人間のプレイヤーの違いは何ですか?

論文の中で、研究チームはAIと人間のプレイヤーのさらなる比較についても議論した。

まず、Swift は人間の前庭系に似たオンボード慣性センサーを活用します。

しかし、このプロジェクトでは人間はドローンと一緒に移動せず、加速を感じることができないため、前庭系を使用することができません。

さらに、Swift のセンサー遅延は 40 ミリ秒と短いのに対し、プロの人間プレイヤーは平均 220 ミリ秒を達成できます。

しかし、スウィフトのカメラのリフレッシュレートは30Hzに制限されており、人間が使用するカメラのリフレッシュレートは120Hzです。

最後に、人間はより大きな回復力を持っています。

例えば、飛行機が全速力で墜落したとしても、装備が無傷であれば飛行機はレースを続けることができるが、スイフトは墜落後の回復のための訓練を受けていない。

競技会場の照明環境が変化すると、スウィフトの認識システムは機能しなくなります。

著者らは、この研究が、自動運転車、航空機、ロボットなど、他の物理システムの幅広いアプリケーションにわたるハイブリッド学習ベースのソリューションの展開につながる可能性があると考えています。

論文アドレス: https://www.nature.com/articles/s41586-023-06419-4.

参考リンク: [1] https://x.com/davsca1/status/1696938013421429111.

<<:  信頼できるAIの基礎は、適切なタイミングで適切なデータを得ることです

>>:  AI人工知能の今後の発展方向と展望

推薦する

機械学習でデータを実用的な洞察に変換する

ビジネスが今やデータ主導型になっていることは誰もが知っています。データ収集の増加に伴い、分析はビジネ...

...

AI スペクトルをめぐる戦いは 5G にとって何を意味するのでしょうか?

インテリジェントな都市変革の活発なトレンドの中で、AI を使用して交通渋滞を管理することは、誰もが多...

...

Google AIが新世代の「物体検出」システムをリリース

[[319182]] 3月19日、Google BrainとAIチームは今週、EfficientDe...

仮想誘拐:人工知能がランサムウェア詐欺を助長

もしあなたの配偶者や子供があなたに泣きながら電話をかけてきて、誘拐されたと告げたら、あなたは冷静で慎...

テクノロジーの発展により、人工知能はどれほど恐ろしいものなのでしょうか?

有名な科学者ホーキング博士の存命中、人工知能の発展は阻止されました。ホーキング博士はかつて、人工知能...

国内の音声対話モデルはこちら:Kai-Fu LeeとZero One Everythingが参加、中国語と英語のバイリンガルマルチモーダル、オープンソースで市販されている

中国語と英語のバイリンガル音声対話の最初のオープンソース モデルが登場しました。最近、arXivに音...

ニューヨーク州が顔認識を「禁止」する法律を制定。なぜキャンパス内で AI が頻繁に「失敗」するのか?

アメリカは顔認識技術と全面的に戦っている。米ニューヨーク州は最近、2022年まで学校での顔認識やその...

人生の意味とは何でしょうか?ステーションBのUP司会者がAIに「究極の質問」を投げかけた

人生の意味とは何でしょうか?人はなぜ生きるのか?これらの「宇宙の究極の疑問」は、歴史を通じて数え切れ...

世界的な人口高齢化と労働力不足:ロボットとAIによる解決策

人工知能は近年、産業を変革する可能性を秘めていることから、幅広い注目を集めています。 AI が大きな...

AIとRPA:両者の連携方法と、ビジネスに両方が必要な理由

ゴールドマン・サックスのレポートによると、AI は世界の労働生産性を年間 1% 以上向上させ、202...

...

このアルゴリズムはアーキテクチャを自動的に最適化し、エンジニアがニューラルネットワークを設計するのに役立ちます。

最近、カナダのバンクーバーで NeurIPS 2019 が開催されました。テンセントAIラボからは合...

人工知能は理想的なサイバー防御手段か?

企業や政府がサイバーセキュリティに対する意識を高め、毎年数十億ドルがこの分野に投資されるようになると...