中国の博士が強化学習を使ってSpaceXのロケットを回収

中国の博士が強化学習を使ってSpaceXのロケットを回収

[[435329]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

マスク氏のスペースXは「ロケット回収」という話題を広めたと言える。

今では、ファンたちも準備を整え、独自の方法でこの技術的な難しさに挑戦し始めています。

たとえば、ミシガン大学の中国人博士は、強化学習を使用してロケットの回収を試みました。

実物のスターシップ10号をベースにシミュレーションし、実際に仮想環境で安定してホバリング・着陸を成功させました!

このプロジェクトはすぐにReddit上の多数のネットユーザーの注目を集めました。

それで、彼はどうやってそれを達成したのでしょうか?

ロケット回収のための「報酬制度」を確立

シミュレーション環境でロケットを回収するには、このような大型で複雑なロケットを直接持ち上げて使用することは絶対にできません。

そこで、この熱狂的な SpaceX ファンは、まず、シリンダー力学に基づいてロケットを 2 次元平面上の剛体に簡略化しました。

このロケットの底部には推力偏向エンジンが装備されており、さまざまな方向に調整可能な推力値(0.2g、1.0g、2.0g)を提供できます。同時に、ロケットノズルに角速度制約が追加され、最大回転速度は30°/秒です。

ロケットモデルが受ける空気抵抗は、その速度に比例するように設定されています。

さて、このモデルのいくつかの基本的な特性は、次の 2 つのセットとして表現できます。

  • アクション空間: 推力加速度やノズル角速度など、エンジンの離散制御信号のセット
  • 状態空間: ロケットの位置、速度、角度、角速度、ノズル角度、シミュレーション時間の集合

「ロケット回復」プロセスは、ホバリング着陸の2 つのタスクに分かれています。

ホバリングミッションでは、ロケットモデルは次のような報酬メカニズムに従う必要があります。

  1. ロケットと所定の目標地点間の距離:距離が近いほど、報酬が大きくなります。
  2. ロケット本体の角度:ロケットは可能な限り垂直に保つ必要があります

着陸ミッションは、Starship 10 の基本パラメータに基づいています。ロケット モデルの初期速度は -50 メートル/秒に設定され、方向は 90° (水平) に設定され、着陸燃焼高度は地面から 500 メートルに設定されています。

△スターシップ10号の打ち上げと着陸の合成画像

ロケットモデルは、着陸時に次のような「報酬メカニズム」に従う必要があります。

着陸速度が安全しきい値未満で、角度が垂直 0° に近い場合、最大の「報酬」が得られ、着陸が成功したとみなされます。

全体として、これは戦略ベースの俳優-審査員モデルです。

次のステップはトレーニングです。

最終的に、 20,000 回のトレーニングを経て、ロケット モデルはホバリングと着陸の両方のタスクで良好な結果を達成しました。

最終的に、モデルはうまく収束しました。

そして、シミュレーション環境内のこの疑似スターシップ10号は、冒頭に示したアニメーション画像のように、腹ばいで着陸することを学習し、安定して着陸しました。

次のステップ: 燃料変数の追加

このプロジェクトはリリースされるとすぐに、多くのRedditネットユーザーの注目と賞賛を集めました。

強化学習は堅牢性に優れているため、従来のタスクを解決するために強化学習を使用することに興味を持つ人もいます。

著者は以下のようにも答えています。「現実には、厳しい環境条件が環境制約となる可能性があり、強化学習は統一されたフレームワーク内でこれらの問題を解決することができます。」

しかし、賞賛するだけでなく、一部のネットユーザーは最も直接的な疑問も提起した。

すでに古典的な制御方法を使用してこれらのタスクの最適なソリューションを見つけることができるのに、なぜ SpaceX 以前に誰もそれを実行しなかったのでしょうか?

以下に回答した人がいます: これは、以前のデジタル制御システム、センサー、その他の技術が成熟しておらず、新しい方法を採用するにはロケットの主要部分を再設計する必要があるためと考えられます。

これらは制御システムレベルを超えた「エンジニアリング上の問題」であり、SpaceX はこれらの関連領域で改善を行ってきました。

より伝統的で保守的な航空宇宙産業では、ロケット着陸の問題を解決するために凸最適化を使用しています。

それは、コメントセクションに投稿されたこの論文で言及されている方法です。

また、多くのコメントは、開発者に次の開発ステップに向けた新たなアイデアを提供しました。たとえば、このコメントでは、「残りの燃料」も変数として含めるべきであると示唆されていました。モデル燃料の減少や枯渇も、現実には重要な影響要因です。

作者はこの提案をすぐに受け入れました。これは追加やアレンジが簡単な興味深い設定です。

ミシガン大学で中国語博士号を取得

開発者はプロジェクトのウェブサイトを立ち上げており、ホームページでは次のように紹介しています。

これは私の最初の強化学習プロジェクトなので、環境、ロケットダイナミクス、強化学習エージェントなど、できる限りすべてをこれらの「低レベルコード」でゼロから実装したいと考えました。

著者はミシガン大学の博士課程の学生である Zhengxia Zou 氏で、主にコンピューター ビジョン、リモート センシング、自動運転を研究しています。

[[435330]]

彼の論文は、ICCV 2021 や CVPR 2021 などの多くのトップカンファレンスで発表されています。

ダウンロードリンク:
https://github.com/jiupinjia/rocket-recycling

プロジェクトのホームページ:
https://jiupinjia.github.io/rocket-recycling/

<<:  地球全体をシミュレート: Nvidia の Earth-2 スーパーコンピューターが間もなくオンラインになります

>>:  今年のAI論文は8つの分野でブレークスルーを達成。ビデオブロガーが最も好まれ、国境を越えた出力が非常に流行している。

ブログ    
ブログ    

推薦する

AIの未来はブロックチェーンの未来とつながっているのでしょうか?

近代以降、ほぼすべての産業革命はさまざまな程度の自動化によって推進されてきました。これまでの産業革命...

クラウドコンピューティングは AI を民主化するための鍵となるのでしょうか?

日本の収穫期には、農家の中には毎日多くの時間を費やして、農場で収穫したキュウリを種類ごとに仕分けする...

シンプルで効果的な新しい敵対的攻撃手法により、人気の Android アプリの DL モデルが破られることに成功

現在、多くのディープラーニング モデルがモバイル アプリに組み込まれています。デバイス上で機械学習を...

7nmプロセス限界を突破した世界初の3DウェーハレベルパッケージングプロセッサIPUがリリース

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

アメリカはAIイノベーションをリードしているのか?フォーブス誌のグローバルAIスタートアップトップ50

NetEase Intelligence News: 人工知能はまもなく私たちの世界を変えるでしょ...

2017 年のトップデータサイエンスと機械学習手法

[51CTO.com クイック翻訳] 統計によると、回答者が現在選択している最も一般的に使用されてい...

NASA、狭い場所でも移動できる折り紙ロボットを開発

将来のある時点で、人類は火星探査の旅に出る可能性が高いでしょう。最近、NASAの研究者らが、コンパク...

アシモフのロボット工学三原則とモービルアイの自動運転五原則

テクノロジー・トラベラーは11月20日、北京から報道した(執筆者:ガオ・フェイ):多くのSF作家の想...

もう在宅勤務​​はしないのですか? GANの父イアン・グッドフェローは怒りのあまりアップルを辞職した

アップルに3年間在籍した後、同社の機械学習担当ディレクターのイアン・グッドフェロー氏が突然辞任を発表...

イスラエルの企業が従業員の病気偽装を見分けるAIツールを開発

[[417923]]イギリスのデイリーメール紙によると、イスラエルのテクノロジー企業ビナーは最近、企...

...

自動運転車は未来の社会で老後の暮らしをどう変えるのか?

フロリダ州中部にある、約12万5000人の住民を抱えるザ・ビレッジの退職者コミュニティには、約750...

人工知能によりデータセンターのコストと制御ニーズが増加

人工知能 (AI) はコンピューティングとデータ分析の世界を変えています。機械学習、自然言語処理、コ...

トランスフォーマーに挑むマンバの起源とは?著者の博士論文はSSMの進化の道筋を明らかにしている

大型模型の分野では、トランスフォーマーが全容を一手に引き受けています。しかし、モデルのサイズが拡大し...

...