この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 世界モデルとは何ですか?世界モデルとは何ですか? Yann LeCun の PPT 説明を参照できます。 つまり、時刻 1 から時刻 t までの履歴状態情報を入力し、それを現在のアクションと組み合わせることで、次の状態を予測することができます。 平たく言えば、世界モデルは世界の動的な進化として理解できると思います。 世界モデルの研究活動の紹介世界モデル論文リンク: https://arxiv.org/abs/1803.10122 この論文と「Recurrent World Models Facilitate Policy Evolution」は同じ論文です。 この作品は非常に重要であり、その後の多くの作品のアイデアの源となっています。 作業ガイド本論文では、周囲の時空間の表現を教師なしで学習し、この時空間表現に基づいて単純なポリシー モジュールで特定のタスクを解決できる生成世界モデルを構築します。 インスピレーション人間は限られた感覚に基づいて世界を認識し、理解します。私たちが下す決定や行動は、実際には私たち自身の内部モデルに基づいています。 方法上記の簡単な例から、脳は実際に将来の感覚データを予測している、つまり将来の可能性のあるシナリオを想像していることがわかります。この発見に基づいて、著者はフレームワークを設計しました。フレームワーク図は次のとおりです。 フレームワーク図は、ビジョン モデル (V)、メモリ RNN (M)、コントローラー (C) という 3 つの主要モジュールで構成されています。 まず、ビジョン モデル (V) です。このモジュールの主な機能は、観測の表現を学習することです。ここで使用される方法は、VAE (変分オートエンコーダ) です。その主な機能は、画像などの入力観測を特徴に変換することです。 VAE のネットワーク構造図は次のとおりです。 簡単に説明すると、観測画像が入力されると、まずエンコーダーを通過して特徴が抽出され、次にデコーダーを通過して画像が復元されます。プロセス全体ではラベル付けは必要なく、自己教師ありで行われます。 VAE を使用する理由について私が個人的に理解しているのは、デザイン全体が生成的であるということです。 2番目はメモリRNN(M)で、そのネットワーク構造は次のとおりです。 このモジュールの主な機能は、世界モデルと見なすことができる状態の進化を学習することです。 最後に、コントローラー (C) があります。この部分の役割は、明らかに次のアクションを予測することです。ここでの設計は非常にシンプルで、目的は、データに基づいて学習できる前のモジュールに焦点を移すことです。式は次のとおりです。 履歴を使用した状態の蓄積 そして現在の観察 、次のアクションを予測します。 全体的な推論プロセスは次のとおりです。 つまり、最初に観測が V に渡されて特徴が取得され、次に M に渡され、最後に観測と履歴情報が一緒に C に送信されてアクションが取得されます。アクションに基づいて、環境との相互作用によって新しい観測が生成され、これが継続されます。 PlaNet: ピクセルから計画のための潜在ダイナミクスを学習する論文リンク: https://arxiv.org/abs/1811.04551 ブログ: https://planetrl.github.io/ 作業ガイド本稿では、画像ピクセルから環境のダイナミクスを学習し、コンパクトな潜在空間でアクションを計画および予測するモデルベースのエージェントである Deep Planning Network (PlaNet) を提案します。環境の動的な変化を学習するために、確率的要素と決定論的要素を備えた遷移モデルが提案されています。さらに、多段階の予測も可能です。 筆者は本研究の最大の貢献はRSSM(再帰型状態空間モデル)の導入であると考えているので、以下では主にRSSMについて紹介する。 RSSMこの図は、本論文で提案されたRSSMと他の2つの方法を比較したものです。図に示すように、四角は決定論的変数を表し、円はランダム変数を表します。図aは決定論的モデル、つまりRNNの暗黙の状態を通じて 継続的に情報を伝達する 行動と報酬は予測可能であり、つまり 予測される行動と報酬は確実でなければならない。図bはランダムだが、状態は これはランダムです。たとえば、特定の分布に従う場合、サンプリングは異なり、生成されるアクションと報酬もそれに応じて変化するため、ランダムです。図 c からわかるように、アクションと報酬を予測するための入力は 2 つの部分で構成され、1 つは決定論的であり、もう 1 つはランダムです。 3 つの方法の利点と欠点を比較すると、次のようになります。 a. 決定論的アプローチは、モデルが複数の未来を恣意的に予測することを防ぐことができます。ご想像のとおり、モデルの精度が十分でない場合、予測される未来は不正確になり、その後の計画で誤った結果につながる可能性があります。 b. ランダムアプローチの問題点は、ランダムな蓄積を複数回行った後、最初の入力とは何の関係もなくなる可能性があり、情報を記憶するのが難しいことです。 c. 決定論的方法とランダムな方法の組み合わせ。決定論的部分によってモデルがランダムに実行されるのを防ぎ、ランダム部分によってフォールト トレランスを向上させます。 Dreamer-V1: 夢をコントロールする: 潜在的想像力による行動の学習論文リンク: https://arxiv.org/abs/1912.01603 導入タイトルからわかるように、Dreamer-V1 は潜在的な想像力、つまり夢から制御する行動を学習します。これは、チャウ・シンチーの映画「蘇娥娥伝」の眠れる羅漢拳に少し似ています。その方法は、想像した絵に基づいて学習することです。 方法次の図は、DreamerV1 の 3 つのコンポーネントを示しています。 a. 過去の観察と行動に基づいて環境のダイナミクスを学習し、主に観察と行動をコンパクトな潜在状態空間に抽出することを学習します。 b. バックプロパゲーションを通じて、DreamerV1 は想像力を訓練することができます。 c. 過去の状態と現在の観察に基づいて、次の状態とアクションを予測します。 次回は主に潜在想像力を通して行動を学習する方法を紹介します。 潜在的想像力による行動の学習アルゴリズムのフローは次のとおりです。 最初から始めると、まず各 、次の式に従って、次の式を得ることができます。 : だから 次の式に従って対応する報酬を予測します。 価値関数の推定値を取得します。 DreamerV2: 離散世界モデルで Atari をマスターする論文リンク: https://arxiv.org/abs/2010.02193 導入DreamerV1は潜在想像力の学習を重視し、DreamerV2は予測の学習を重視しており、両者の学習方法に違いはない、と筆者は考えている。違いは、DreamerV2はDreamerV1に比べて前述のRSSMを使用していることである。論文タイトルにあるAtariはゲームの名前であり、このゲームの解は離散世界モデルである。ここでの離散性は、観測された入力が離散形式で表現できるためである。DreamerV2は、Atariゲームにおいて非モデル方式を超えた最初のモデルベース方式である。 方法ネットワーク構造は次のとおりです。 全体的な構造は DreamerV1 とあまり変わりません。どちらも画像を再構築するタスクを持っています。唯一の違いは、事前分布と事後分布に関する KL 損失、つまりこれら 2 つの分布の KL 損失があることです。 TransitionモデルもDreamerV1とは異なります。V1ではこのようになっています。 つまり、過去の状態と行動に基づいて次の状態を予測するのであり、V2では次のようになる。 つまり、RNN の決定論的な暗黙の状態に基づいて次の観測分布を予測します。ここでの違いは主に RSSM の導入によるものです。 Actor Critic 学習段階の構造は次のとおりです。 このプロセスは非常に明確です。つまり、後続の観測がない場合、サンプリングは事前分布から直接実行されるため、トレーニング中は事前分布が事後分布に近くなるはずです。 SEM2: セマンティックマスクワールドモデルによるエンドツーエンドの都市型自動運転のサンプル効率と堅牢性の向上論文リンク: https://arxiv.org/abs/2210.04017 導入タイトルからわかるように、エンドツーエンドの自動運転のサンプリング効率と堅牢性を向上させる主な目的は、セマンティックマスクワールドモデルを使用することです。ここで、セマンティックマスクはセマンティックセグメンテーションヘッドの出力を指し、入力端にはライダーも追加されます。 出発点著者は、以前の研究で埋め込まれた世界モデルの潜在状態には、タスクに関係のない情報が大量に含まれており、その結果、サンプリング効率が低く、堅牢性が低いと考えています。また、以前の方法では、トレーニングデータの分布が不均一であるため、以前の方法で学習した運転ポリシーでは、コーナーケースに対処することが困難です。 方法の概要前述の情報の冗長性に対応するために、ここではセマンティックマスクワールドモデル(SEM2)を提案します。つまり、セマンティックマスクの予測がデコーダー部分に追加され、モデルが運転タスクに関連性の高いよりコンパクトな特徴を学習できるようになります。ネットワーク構造は次のとおりです。 各パーツのパラメータは以下のとおりです。 構造はDreamerV2に似ており、入力にLIDARが追加され、デコーダーに車両のセマンティックマスクを予測するフィルターが追加されています。右下隅はセマンティックマスクの内容で、主に地図情報、ルート情報、障害物情報、車両情報などが含まれています。 マルチソースサンプラー前述の著者は、以前のトレーニング セットのデータが不均衡で、たとえば直線道路が多すぎると述べました。ここでは、サンプリング方式が使用されています。簡単に言えば、トレーニングの各バッチで、さまざまなシーンのサンプルが均等に追加されるため、トレーニング サンプルのバランスの取れた分散の効果が得られます。 上図に示すように、通常のデータ、道路からの流出データ、衝突データが各バッチで混合されてトレーニングされます。これにより、モデルはさまざまなケースのデータを確認でき、一般化とコーナーケースの解決に役立ちます。 Wayve-MILE: 都市部での運転のためのモデルベースの模倣学習コード: https://github.com/wayveai/mile. 論文: https://arxiv.org/abs/2210.07729 ブログ: https://wayve.ai/thinking/learning-a-world-model-and-a-driving-policy/ 導入MILEはWayveの研究成果です。コードや詳細なブログの説明があり、良い研究成果と言えます。 SEM2のネットワーク構造では報酬予測も必要ですが、MILEでは報酬予測はありません。タイトルに模倣学習とありますが、ここでは同じ環境においてコーチの行動をターゲットとしてあり、モデルはコーチの行動を直接学習するため、模倣学習と呼ばれています。MILEの研究は非常に刺激的です。事前分布、事後分布、サンプリングのアイデアは、以前のいくつかの研究でも使用されていますが、これらの概念はMILEフレームワークでよりよく説明されていると感じています。 ネットワーク構造関連するパラメータは次のとおりです。
長期予測効果図は次のとおりです。 世界モデルの今後の展開筆者は、上記で紹介した世界モデル関連の研究のいくつかは、強化学習や模倣学習などと密接に関係していると考えています。世界モデルは未来を予測するための基礎となっていることがわかります。筆者は、世界モデルを考える上でいくつかの主要な方向性があると考えています。
オリジナルリンク: https://mp.weixin.qq.com/s/VYdMVBpxRd1ETfGf6djK8w |
この本の最初の 2 章では、進化アルゴリズムをやや抽象的な意味で定義しています。スコアリング、選択、...
近年の科学技術の発展に伴い、企業サービスと企業は多くの反復的な労働と投資に直面していると思います。現...
大規模なマルチモーダルモデルを自動運転の意思決定者として使用すると、驚くほど効果的ですか? Sens...
IDCは2019年9月の時点で、2023年までに人工知能技術への支出が3倍以上の979億ドルに達する...
予期せぬことに、オープンソースのビッグモデル ファミリーに特別なプレーヤーが登場しました。国営企業か...
ディープラーニングに関する理論コースを受講した後、多くの人が独自のプロジェクトを構築してみることに興...
今日は、世界的に人気のAIツール「ChatGPT+Midjourney」を使った絵本の制作過程をご紹...
人間の知性は広大かつ複雑です。人間の成果の中には、今日の機械では到底達成できないものもあり、機械がこ...
データ サイエンスは幅広い分野であるため、まずはあらゆるビジネスで遭遇する可能性のあるデータ サイエ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...