LLM は必要ありません。遺伝的プログラミングで Python コードを制御できます。 Google DeepMindらが新しいARZフレームワークを提案

Google と他のチームは、遺伝的プログラミングの最新の成果である AutoRobotics-Zero (ARZ) を発表しました。最新の論文がIROS 2023に採択されました。

論文アドレス: https://arxiv.org/pdf/2307.16890.pdf

これは、環境の急激な変化に迅速に適応できるコンパクトで解釈可能なロボットポリシーを構築できる、AutoML-Zero を使用した検索方法です。

ランダムに選択された脚が骨折した後でも、ARZ 戦略により歩行を制御し、歩行を継続することができます。

しかし、この困難なタスクは、2 つの一般的なニューラルネットワークベースラインである MLP + LSTM では失敗しました。

さらに、ARZ はベースラインよりもはるかに少ないパラメータと FLOPS を使用します。

NVIDIA の上級研究科学者であるジム・ファン氏は、これは斬新なロボット工学技術だと述べています。 LLM やニューラルネットワークも必要ありません。進化的検索を使用してロボットを制御する Python コードだけが必要です。解釈可能かつ適応性があります。

新しいARZフレームワーク

現実世界のロボットは、物理的な摩耗や地形の障害など、さまざまな課題に直面します。

現時点では、同じ状態を同じアクションにマッピングする静的コントローラーのみに依存する場合にのみ、これを回避できます。

しかし、すべてをマッピングすることは不可能であり、ロボットは変化する環境に応じて制御戦略を継続的に調整できる必要があります。

この機能を実現するには、外部からの手がかりなしに、時間の経過とともにアクションがシステムの状態をどのように変化させるかを観察することで環境の変化を認識し、それに応じて制御を更新する必要があります。

現在、リカレントディープニューラルネットワークは、高速適応をサポートする一般的なポリシー表現です。しかし、問題は、それが単一であり、パラメータが多すぎて、解釈が難しいことです。

そのため、Google などの研究者は、四足ロボットの適応タスクにおける動的な自己修正制御戦略の進化をサポートするために、AMLZ ベースの AutoRobotics-Zero (ARZ) メソッドを提案しました。

研究者たちはこれらの戦略をニューラルネットワークではなくプログラムとして表現した。

彼らは、基本的な数学演算のみを構成要素として使用して、適応型ポリシーとその初期パラメータをゼロから進化させる方法を実証しました。

四足ロボットシミュレータの適応ポリシーを表す Python コードの自動検出

進化により、感覚運動経験を利用して戦略パラメータを微調整したり、環境との相互作用中に制御ロジックをその場で変更したりする制御プログラムを発見できます。

これにより、変化する環境条件下でほぼ最適なパフォーマンスを維持するために必要な適応動作が可能になります。

AMLZとは異なり、研究者らはLaikagoロボット用のシミュレーターを設計し、倒立振り子タスク（Cataclysmic Cartpole）で優れたパフォーマンスを達成しました。この目的のために、チームはAMLZの教師あり学習パラダイムも放棄しました。

この研究は、進化したプログラムは報酬信号などの監督入力を明示的に受け取らなくても、その存続期間中に適応できることを示しています。

さらに、AMLZ は発見された 3 つの関数の人工的な適用に依存していますが、ARZ では進化プログラムで使用される関数の数を進化プロセス自体によって決定できます。

これを実現するために、研究者らは条件付き自動定義関数 (CADF) を使用し、その影響を実証しました。

このアプローチでは、進化的探索は最小限のプログラムから始まり、タスク領域との相互作用を通じて徐々に複雑さが増していくため、進化した適応戦略を発見することは最先端のソリューションよりもはるかに簡単です。

したがって、彼らの行動は高度に解釈可能です。

四足歩行ロボットでは、ARZ は、ランダムに選択された脚のすべてのモーターがトルクを生成できない場合でも、前進を維持し、転倒を回避する適応戦略を進化させることができます。

対照的に、最先端の強化学習手法による包括的なハイパーパラメータ調整とトレーニングにもかかわらず、MLP および LSTM ベースラインは、このような困難な条件下で堅牢な動作を学習できません。

実際のロボットをシミュレートするのは非常に時間がかかり、適応制御のための効率的で挑戦的なベンチマークが不足しているため、研究者は「倒立振り子」と呼ばれる単純な適応タスクも作成しました。

倒立振り子課題における軌道角度の変化の模式図

要約すると、この論文では、適応型ロボットポリシーをゼロから自動的に発見するための進化的アプローチを開発しています。各タスクで生成されるポリシーには、次の特性があります。

• 慎重にトレーニングされた MLP および LSTM ベースラインよりも優れたパフォーマンスを発揮します。

• 解釈可能なシンボリックプログラムとして表現される

• ベースラインよりも少ないパラメータと操作を使用します。

2つの検索アルゴリズム: 自然選択の第一原理

このアルゴリズムは、StartEpisode() と GetAction() という 2 つのコア関数で構成されています。

StartEpisode() は、環境とのやり取りの各エピソードの開始時に 1 回実行されます。その唯一の目的は、進化定数を使用して仮想メモリの内容を初期化することです。

これらのメモリの内容は、いつでも制御プログラムの状態として記述できます。研究者の目標は、環境と対話しながらメモリ状態を調整したり、制御コードを変更したりすることで環境に適応できるアルゴリズムを発見することです。

この適応性とアルゴリズムの意思決定戦略は、GetAction() 関数によって実装され、各命令は「0=s7*s1 または s3=v1[i2]」などの操作を実行します。

同時に、研究者らは、プログラムの複雑さに制限を設けない、より大規模な操作ライブラリを定義しました。

進化的検索は、GetAction() 関数で発生する操作のシーケンスと関連するメモリアドレスを検出するために使用されます。

この論文では、2つの進化アルゴリズムが使用されています。(a) NSGA-IIは多目的探索に使用され、(b) RegEvoは単一目的探索に使用されます。

どちらの検索アルゴリズムも、ダーウィンの自然選択原理のアルゴリズムモデルを使用して、候補制御プログラムの集団を反復的に更新します。

進化的探索の一般的な手順は次のとおりです。

1. ランダム制御プログラムのセットを初期化する

2. タスク内の各プログラムを評価する

進化制御アルゴリズムの評価プロセス: 単一目的進化探索では平均エピソード報酬をアルゴリズムの適応度として使用しますが、多目的探索では平均報酬 (最初の戻り値) と各エピソードの平均ステップサイズ (2 番目の戻り値) の 2 つの適応度指標を最適化します。

3. タスク固有のフィットネス指標を使用して有望なプログラムを選択する

4. 交叉と突然変異を通じて選択された個体を変化させる

アルゴリズムの集団の簡略化された例。交差と突然変異を通じて新しいアルゴリズムの集団を生成します。

5. 既存の個体の一定割合を置き換えて、新しい個体を集団に追加する

6. 手順2に戻る

この研究の目的において、NSGA-II と RegEvo の最大の違いは選択方法です。

NSGA-II は、前進運動や安定性などの複数の適応度指標を使用して、有望な個体を識別します。

一方、RegEvo は、前進という単一の指標に基づいて選択を行います。

両方の検索方法は同時に進化します: (1) StartEpisode() によって設定される初期アルゴリズムパラメータ (つまり、浮動小数点メモリ内の初期値 sX、vX、mX)、および (2) GetAction() 関数と CADF のプログラム内容。

テスト環境

研究者たちは、ARZ を 2 つの異なる環境でテストすることを検討しました。1 つは四足歩行ロボットの現実的なシミュレーター、もう 1 つは新しい倒立振り子です。

どちらの場合も、ARZ 戦略は遷移関数の変化に対処する必要があり、それが正常な機能の妨げになることがよくあります。

これらの変化は突然起こることもあれば、徐々に起こることもあり、変化がいつ起こったか、環境がどのように変化したかを示すセンサー入力はありません。

結果

足の骨折

ARS + MLP および ARS + LSTM ベースラインと比較すると、ARZ (CADF を含む) は、四足ロボットの脚のブレーキングタスクに対して実行可能な制御ポリシーを生成する唯一の方法です。

実際、この問題は非常に難しいため、スムーズな移動を維持し、脚の破損に対して堅牢な戦略を見つけるには、進化実験を 20 回繰り返す必要があります。

CADFは進化を加速し、最良の結果を生み出します

5 つのテストシナリオの軌道の視覚化から、ARZ ポリシーは、左前脚が折れたときに前進を維持するのが多少困難であるものの、すべてのケースで転倒を回避できる唯一のコントローラーであることがわかります。

ARZは、どんな骨折した足の状況にも適応できる唯一の戦略を見つけました

対照的に、MLP ポリシーは、右後ろ足を骨折しても前進し続けることができますが、他の動的タスクでは転倒します。 LSTM 戦略では、すべての脚が無傷の場合にのみ、静止タスクでの転倒を回避できます。

ARZは転倒を一貫して防ぐ唯一の戦略を発見した

シンプルさと解釈のしやすさ

研究者らが提案した進化アルゴリズムは、608 個のパラメータと 40 行のコードのみを使用し、ステップごとに最大 2080 回の浮動小数点演算 (FLOP) を実行します。

これは、各ステップで 2.5k/9k 以上のパラメータと 5k/18k FLOP を使用するベースライン MLP/LSTM モデルと比較すると、はるかにコンパクトです。

下の図からわかるように、ARZ 戦略は複数の固有の障害条件を迅速に識別して適応することができます。

たとえば、足が折れると、コントローラーの動作が瞬時に変化し、ポリシーは変化の発生に迅速に適応できます。

途中で左前脚が折れたとき、ARZ戦略はどうなったのか

倒立振り子

研究者らは、倒立振り子において、ARZ は ARS + LSTM ベースラインと比較して、突然の劇的な変化を伴うタスクでより優れた制御効果を生み出すことを実証しました。

以下に示すように、ARZ と LSTM は両方とも適応タスクを解決し、静的タスクから動的タスクへの直接的な転送は観察されません。

倒立振子連続変化課題の進化後テスト結果

さらに、突然変異タスクにおいて、ARZ はすべての突然変異に対する倒立振り子タスクに適用できる独自の戦略を発見しました。

倒立振り子突然変異課題の進化後テスト結果

シンプルさと説明可能性

ここで、研究者らは ARZ 戦略を分析し、変化する環境において状態観察を統合して最適なアクションを計算する方法を詳しく説明します。

下の図は、ARZ 設定で見つかったアルゴリズムの例を示しています。

このタスクを解決するために CADF は必要ないため、プログラム分析を簡素化するために検索空間から省略されていることに注意してください。

研究者が発見したのは、現在の行動を推測できる観察と行動の値の履歴を収集する 3 つのアキュムレータです。

すべてのパラメータが常に変化するタスクでステートフルアクション関数を進化させる例

このアルゴリズムは 11 個の変数を使用し、ステップごとに 25 FLOP を実行します。

同時に、MLP アルゴリズムと LSTM アルゴリズムはそれぞれ 1k 個と 4.5k 個を超えるパラメータを使用し、ステップごとにそれぞれ 2k 個と 9k 個を超える FLOP を消費します。

話し合う

ARZ を使用してプログラム空間とパラメータ空間を同時に検索すると、巧妙でシンプルかつ解釈可能な制御アルゴリズムを作成できます。

これらのアルゴリズムはゼロショット適応を実行できます。つまり、環境が急激に変化したときに動作を迅速に変更し、ほぼ最適な制御機能を維持します。

CADF と注意散漫のジレンマ

四足ロボットの分野では、検索空間に自動定義関数 (CADF) への条件付き呼び出しを含めることで、進化制御アルゴリズムの表現力を向上させることができます。

単一の最適ポリシーでは、CADF を使用して観測空間を 4 つの状態に分割します。アクションは、システムの内部状態とこの離散化された観測によって完全に決定されます。その中で、離散化は、注意散漫のジレンマを克服するための切り替え動作を定義する戦略に役立ちます。

対照的に、手動で設計された MLP または LSTM ネットワークのパラメーター空間のみを検索しても、複数の変化するイベント (たとえば、1 本の脚が折れる) に適応できるポリシーは生成されません。

目に見えないタスクのダイナミクスに適応する

そこで疑問になるのは、将来どのような環境変化が起こるかわからない場合に、どのように適応制御戦略を構築すればよいのかということです。

倒立振り子タスクでは、ARZ の予備結果から、進化 (トレーニング) 中に部分的な可観測性と動的アクチュエータノイズを注入すると、非定常タスクダイナミクスの一般的なプロキシとして機能できることが示唆されています。

この結論がさらに証明されれば、タスク環境のダイナミクスに関する知識がなくても熟練した制御戦略を開発できることを意味し、正確な物理シミュレータの必要性が軽減されます。

<<: LK-99「早納品、遅案内」？インドの科学者は、新しいメロンを生産するために原作者から指導を受ける：新しいサンプルは量子ロックと良好な伝導性を示す

>>: エネルギー業界における AI 成長の 5 つの要因

ブログ

最強のLLaMAが突如降臨！ハイパーパラメータを 1 つだけ変更するだけで、32,000 個のコンテキストトークンを達成し、複数のタスクで ChatGPT と Claude 2 を上回ることができます。

LLM は必要ありません。遺伝的プログラミングで Python コードを制御できます。 Google DeepMindらが新しいARZフレームワークを提案

新しいARZフレームワーク

2つの検索アルゴリズム: 自然選択の第一原理

結果

話し合う

最強のLLaMAが突如降臨！ハイパーパラメータを 1 つだけ変更するだけで、32,000 個のコンテキストトークンを達成し、複数のタスクで ChatGPT と Claude 2 を上回ることができます。

ニューラルネットワーク「錬金術炉」の内部構造はどのようになっているのでしょうか？オックスフォード大学の博士課程学生による論文の解釈

マイクロソフトがML.NETクロスプラットフォーム機械学習フレームワークをオープンソース化し、AIをさらに一歩前進させる

Python の高レベル自然言語処理ライブラリである SpaCy は、世界最速の構文解析ツールとして知られています。

XML 圧縮アルゴリズムについての簡単な説明

2018 年の 15 大テクノロジートレンド、テクノロジーに関して正しい方向に進んでいますか?

JavaScript アルゴリズムを使用するための 6 つの実用的なヒント

第 1 回 51CTO 開発者コンペティションの作品がいくつか公開され、皆さんの参加を待っています。

推薦する

AIがCIOの役割をどう変えるのか

Boyaのディープラーニング製品がHuman Horizonsの自動運転実現に貢献

人工知能はディープラーニング技術を使用して先進運転支援システム（ADAS）を強化します

Ctrip の AI 推論パフォーマンスの自動最適化プラクティス

EUはAI法に加えて、GPT-4などの高機能モデルにも追加の規則と制約を追加する予定である。

CMU、NUS、Fudanが共同でDataLabを立ち上げ：テキストフィールドでのデータ分析と処理のためのMatlabを作成

救世主か、それとも公敵か？人工知能の現在と未来を説明する記事

米国、政府による顔認識技術の使用禁止を再法制化へ

人工知能に関する12の有名な引用

百度のCTO王海鋒が百度ブレイン7.0をリリース: イノベーションを統合し障壁を下げる

2020 年に台頭する AI と機械学習の 6 つのトレンド

2030 年までに人工知能はどのようになるでしょうか?

人民日報：アルゴリズム推奨技術標準の健全な発展を促進

ChatGPTはPyTorchなしでは構築できません。LeCunの発言は白熱した議論を引き起こしました。モデルメーカーが重量を公開しない理由は、