Google と他のチームは、遺伝的プログラミングの最新の成果である AutoRobotics-Zero (ARZ) を発表しました。最新の論文がIROS 2023に採択されました。 論文アドレス: https://arxiv.org/pdf/2307.16890.pdf これは、環境の急激な変化に迅速に適応できるコンパクトで解釈可能なロボットポリシーを構築できる、AutoML-Zero を使用した検索方法です。 ランダムに選択された脚が骨折した後でも、ARZ 戦略により歩行を制御し、歩行を継続することができます。 しかし、この困難なタスクは、2 つの一般的なニューラル ネットワーク ベースラインである MLP + LSTM では失敗しました。 さらに、ARZ はベースラインよりもはるかに少ないパラメータと FLOPS を使用します。 NVIDIA の上級研究科学者であるジム・ファン氏は、これは斬新なロボット工学技術だと述べています。 LLM やニューラル ネットワークも必要ありません。進化的検索を使用してロボットを制御する Python コードだけが必要です。解釈可能かつ適応性があります。 新しいARZフレームワーク現実世界のロボットは、物理的な摩耗や地形の障害など、さまざまな課題に直面します。 現時点では、同じ状態を同じアクションにマッピングする静的コントローラーのみに依存する場合にのみ、これを回避できます。 しかし、すべてをマッピングすることは不可能であり、ロボットは変化する環境に応じて制御戦略を継続的に調整できる必要があります。 この機能を実現するには、外部からの手がかりなしに、時間の経過とともにアクションがシステムの状態をどのように変化させるかを観察することで環境の変化を認識し、それに応じて制御を更新する必要があります。 現在、リカレントディープニューラルネットワークは、高速適応をサポートする一般的なポリシー表現です。しかし、問題は、それが単一であり、パラメータが多すぎて、解釈が難しいことです。 そのため、Google などの研究者は、四足ロボットの適応タスクにおける動的な自己修正制御戦略の進化をサポートするために、AMLZ ベースの AutoRobotics-Zero (ARZ) メソッドを提案しました。 研究者たちはこれらの戦略をニューラルネットワークではなくプログラムとして表現した。 彼らは、基本的な数学演算のみを構成要素として使用して、適応型ポリシーとその初期パラメータをゼロから進化させる方法を実証しました。 四足ロボットシミュレータの適応ポリシーを表す Python コードの自動検出 進化により、感覚運動経験を利用して戦略パラメータを微調整したり、環境との相互作用中に制御ロジックをその場で変更したりする制御プログラムを発見できます。 これにより、変化する環境条件下でほぼ最適なパフォーマンスを維持するために必要な適応動作が可能になります。 AMLZとは異なり、研究者らはLaikagoロボット用のシミュレーターを設計し、倒立振り子タスク(Cataclysmic Cartpole)で優れたパフォーマンスを達成しました。この目的のために、チームはAMLZの教師あり学習パラダイムも放棄しました。 この研究は、進化したプログラムは報酬信号などの監督入力を明示的に受け取らなくても、その存続期間中に適応できることを示しています。 さらに、AMLZ は発見された 3 つの関数の人工的な適用に依存していますが、ARZ では進化プログラムで使用される関数の数を進化プロセス自体によって決定できます。 これを実現するために、研究者らは条件付き自動定義関数 (CADF) を使用し、その影響を実証しました。 このアプローチでは、進化的探索は最小限のプログラムから始まり、タスク領域との相互作用を通じて徐々に複雑さが増していくため、進化した適応戦略を発見することは最先端のソリューションよりもはるかに簡単です。 したがって、彼らの行動は高度に解釈可能です。 四足歩行ロボットでは、ARZ は、ランダムに選択された脚のすべてのモーターがトルクを生成できない場合でも、前進を維持し、転倒を回避する適応戦略を進化させることができます。 対照的に、最先端の強化学習手法による包括的なハイパーパラメータ調整とトレーニングにもかかわらず、MLP および LSTM ベースラインは、このような困難な条件下で堅牢な動作を学習できません。 実際のロボットをシミュレートするのは非常に時間がかかり、適応制御のための効率的で挑戦的なベンチマークが不足しているため、研究者は「倒立振り子」と呼ばれる単純な適応タスクも作成しました。 倒立振り子課題における軌道角度の変化の模式図 要約すると、この論文では、適応型ロボット ポリシーをゼロから自動的に発見するための進化的アプローチを開発しています。各タスクで生成されるポリシーには、次の特性があります。 • 慎重にトレーニングされた MLP および LSTM ベースラインよりも優れたパフォーマンスを発揮します。 • 解釈可能なシンボリックプログラムとして表現される • ベースラインよりも少ないパラメータと操作を使用します。 2つの検索アルゴリズム: 自然選択の第一原理このアルゴリズムは、StartEpisode() と GetAction() という 2 つのコア関数で構成されています。 StartEpisode() は、環境とのやり取りの各エピソードの開始時に 1 回実行されます。その唯一の目的は、進化定数を使用して仮想メモリの内容を初期化することです。 これらのメモリの内容は、いつでも制御プログラムの状態として記述できます。研究者の目標は、環境と対話しながらメモリ状態を調整したり、制御コードを変更したりすることで環境に適応できるアルゴリズムを発見することです。 この適応性とアルゴリズムの意思決定戦略は、GetAction() 関数によって実装され、各命令は「0=s7*s1 または s3=v1[i2]」などの操作を実行します。 同時に、研究者らは、プログラムの複雑さに制限を設けない、より大規模な操作ライブラリを定義しました。 進化的検索は、GetAction() 関数で発生する操作のシーケンスと関連するメモリ アドレスを検出するために使用されます。 この論文では、2つの進化アルゴリズムが使用されています。(a) NSGA-IIは多目的探索に使用され、(b) RegEvoは単一目的探索に使用されます。 どちらの検索アルゴリズムも、ダーウィンの自然選択原理のアルゴリズム モデルを使用して、候補制御プログラムの集団を反復的に更新します。 進化的探索の一般的な手順は次のとおりです。 1. ランダム制御プログラムのセットを初期化する 2. タスク内の各プログラムを評価する 進化制御アルゴリズムの評価プロセス: 単一目的進化探索では平均エピソード報酬をアルゴリズムの適応度として使用しますが、多目的探索では平均報酬 (最初の戻り値) と各エピソードの平均ステップ サイズ (2 番目の戻り値) の 2 つの適応度指標を最適化します。 3. タスク固有のフィットネス指標を使用して有望なプログラムを選択する 4. 交叉と突然変異を通じて選択された個体を変化させる アルゴリズムの集団の簡略化された例。交差と突然変異を通じて新しいアルゴリズムの集団を生成します。 5. 既存の個体の一定割合を置き換えて、新しい個体を集団に追加する 6. 手順2に戻る この研究の目的において、NSGA-II と RegEvo の最大の違いは選択方法です。 NSGA-II は、前進運動や安定性などの複数の適応度指標を使用して、有望な個体を識別します。 一方、RegEvo は、前進という単一の指標に基づいて選択を行います。 両方の検索方法は同時に進化します: (1) StartEpisode() によって設定される初期アルゴリズムパラメータ (つまり、浮動小数点メモリ内の初期値 sX、vX、mX)、および (2) GetAction() 関数と CADF のプログラム内容。 テスト環境 研究者たちは、ARZ を 2 つの異なる環境でテストすることを検討しました。1 つは四足歩行ロボットの現実的なシミュレーター、もう 1 つは新しい倒立振り子です。 どちらの場合も、ARZ 戦略は遷移関数の変化に対処する必要があり、それが正常な機能の妨げになることがよくあります。 これらの変化は突然起こることもあれば、徐々に起こることもあり、変化がいつ起こったか、環境がどのように変化したかを示すセンサー入力はありません。 結果足の骨折 ARS + MLP および ARS + LSTM ベースラインと比較すると、ARZ (CADF を含む) は、四足ロボットの脚のブレーキングタスクに対して実行可能な制御ポリシーを生成する唯一の方法です。 実際、この問題は非常に難しいため、スムーズな移動を維持し、脚の破損に対して堅牢な戦略を見つけるには、進化実験を 20 回繰り返す必要があります。 CADFは進化を加速し、最良の結果を生み出します 5 つのテスト シナリオの軌道の視覚化から、ARZ ポリシーは、左前脚が折れたときに前進を維持するのが多少困難であるものの、すべてのケースで転倒を回避できる唯一のコントローラーであることがわかります。 ARZは、どんな骨折した足の状況にも適応できる唯一の戦略を見つけました 対照的に、MLP ポリシーは、右後ろ足を骨折しても前進し続けることができますが、他の動的タスクでは転倒します。 LSTM 戦略では、すべての脚が無傷の場合にのみ、静止タスクでの転倒を回避できます。 ARZは転倒を一貫して防ぐ唯一の戦略を発見した シンプルさと解釈のしやすさ 研究者らが提案した進化アルゴリズムは、608 個のパラメータと 40 行のコードのみを使用し、ステップごとに最大 2080 回の浮動小数点演算 (FLOP) を実行します。 これは、各ステップで 2.5k/9k 以上のパラメータと 5k/18k FLOP を使用するベースライン MLP/LSTM モデルと比較すると、はるかにコンパクトです。 下の図からわかるように、ARZ 戦略は複数の固有の障害条件を迅速に識別して適応することができます。 たとえば、足が折れると、コントローラーの動作が瞬時に変化し、ポリシーは変化の発生に迅速に適応できます。 途中で左前脚が折れたとき、ARZ戦略はどうなったのか 倒立振り子 研究者らは、倒立振り子において、ARZ は ARS + LSTM ベースラインと比較して、突然の劇的な変化を伴うタスクでより優れた制御効果を生み出すことを実証しました。 以下に示すように、ARZ と LSTM は両方とも適応タスクを解決し、静的タスクから動的タスクへの直接的な転送は観察されません。 倒立振子連続変化課題の進化後テスト結果 さらに、突然変異タスクにおいて、ARZ はすべての突然変異に対する倒立振り子タスクに適用できる独自の戦略を発見しました。 倒立振り子突然変異課題の進化後テスト結果 シンプルさと説明可能性 ここで、研究者らは ARZ 戦略を分析し、変化する環境において状態観察を統合して最適なアクションを計算する方法を詳しく説明します。 下の図は、ARZ 設定で見つかったアルゴリズムの例を示しています。 このタスクを解決するために CADF は必要ないため、プログラム分析を簡素化するために検索空間から省略されていることに注意してください。 研究者が発見したのは、現在の行動を推測できる観察と行動の値の履歴を収集する 3 つのアキュムレータです。 すべてのパラメータが常に変化するタスクでステートフルアクション関数を進化させる例 このアルゴリズムは 11 個の変数を使用し、ステップごとに 25 FLOP を実行します。 同時に、MLP アルゴリズムと LSTM アルゴリズムはそれぞれ 1k 個と 4.5k 個を超えるパラメータを使用し、ステップごとにそれぞれ 2k 個と 9k 個を超える FLOP を消費します。 話し合うARZ を使用してプログラム空間とパラメータ空間を同時に検索すると、巧妙でシンプルかつ解釈可能な制御アルゴリズムを作成できます。 これらのアルゴリズムはゼロショット適応を実行できます。つまり、環境が急激に変化したときに動作を迅速に変更し、ほぼ最適な制御機能を維持します。 CADF と注意散漫のジレンマ 四足ロボットの分野では、検索空間に自動定義関数 (CADF) への条件付き呼び出しを含めることで、進化制御アルゴリズムの表現力を向上させることができます。 単一の最適ポリシーでは、CADF を使用して観測空間を 4 つの状態に分割します。アクションは、システムの内部状態とこの離散化された観測によって完全に決定されます。その中で、離散化は、注意散漫のジレンマを克服するための切り替え動作を定義する戦略に役立ちます。 対照的に、手動で設計された MLP または LSTM ネットワークのパラメーター空間のみを検索しても、複数の変化するイベント (たとえば、1 本の脚が折れる) に適応できるポリシーは生成されません。 目に見えないタスクのダイナミクスに適応する そこで疑問になるのは、将来どのような環境変化が起こるかわからない場合に、どのように適応制御戦略を構築すればよいのかということです。 倒立振り子タスクでは、ARZ の予備結果から、進化 (トレーニング) 中に部分的な可観測性と動的アクチュエータ ノイズを注入すると、非定常タスク ダイナミクスの一般的なプロキシとして機能できることが示唆されています。 この結論がさらに証明されれば、タスク環境のダイナミクスに関する知識がなくても熟練した制御戦略を開発できることを意味し、正確な物理シミュレータの必要性が軽減されます。 |
<<: LK-99「早納品、遅案内」?インドの科学者は、新しいメロンを生産するために原作者から指導を受ける:新しいサンプルは量子ロックと良好な伝導性を示す
[[284089]] AI囲碁プログラム「アルファ碁」を破った唯一の人間である韓国の九段、イ・セドル...
ハイパースケーラーとクラウド プロバイダーがインフラストラクチャの計画を検討する場合、まず全体的な動...
ワインとチーズの組み合わせを識別するのに役立つアプリケーションを構築したいとします。最も優れたパフォ...
2月7日、横浜港で今年10月から1年間にわたり、歩行ガンダムロボットの大規模競技会が開催されることが...
ICML 2023 の賞品が発表されました!今年は32件の候補論文の中から6件が優秀論文賞を受賞しま...
胸部X線(CXR)検査は、さまざまな病気のスクリーニングや診断に広く使用されている臨床画像診断法です...
Google や Facebook のアルゴリズムを理解しなければ、面接に合格することはできません。...
こんにちは、教師向けに特別に設計された ChatGPT 教室チートの登場です! OpenAIの公式製...
今日、人々は仮想世界で触れることができるほぼすべてのものを作成し、さらに構築してきました。人工知能は...
3D 形状、2D 画像、および対応する言語記述を整合させることにより、マルチモーダル事前トレーニング...
この記事では、TensorFlow、CNTK、MXNet、Theano など、Keras でサポート...
デジタル時代の到来により、顔認識技術の開発は大きく進歩しました。顔認識技術は普及し、多くの分野で広く...