AI は独自のコードを記述して、インテリジェントエージェントの進化を可能にします。 OpenAIの大規模モデルには「人間の思考」の風味がある

トラブルを起こせ！

AI は、人間が GitHub で更新 (コミット) を送信する方法を「見て」、人間のプログラマーを模倣してコードを変更しました...

最終的に、この AI はインテリジェントロボットを「トレーニング」することに成功しました。

冗談ではなく、このような恐ろしいことが、OpenAI が最近発表した研究で実際に起こったのです...

当初、研究者たちは、知能ロボットに動き方を教えるという遺伝的プログラミング（GP）の問題を解決したいと考えていました。

(GP は進化計算の特殊な領域であり、問題を独立して解決するプログラムを自動的に構築することに重点が置かれています。)

しかし、OpenAIは異なるアプローチを採用し、独自の大規模言語モデル（LLM）を組み込んだ結果、予想外の大きな成果が生まれました。

これまで、インテリジェントエージェントの進化の過程では、インテリジェントエージェントが良い方向に発展できるように、人間の研究者が関与して細かい調整を行ったり、進化の方向を決定したりする必要がありました。

現在、これらすべてのタスクは大きなモデルによって処理されます。自分で学習し、コードを記述し、「調整」することができます。

論文の第一著者であるジョエル・レーマン氏がこれをインターネット上で公開すると、すぐにネットユーザーから大きな注目を集めた。

これを読んで、あるプログラマーのネットユーザーは「（技術）開発のペースについていけない」と述べた。

OpenAI自身も研究の中で次のように述べています。

進化アルゴリズムが人間の思考レベルで機能するギャップを埋めます。

では、AI はどのようにしてこの「魔法のような」ことを実現するのでしょうか?

GitHubを見てください。AIが自分でコードを書きます

仮想環境での移動ロボットの設計は、遺伝的アルゴリズムの研究において非常に人気のあるプロジェクトです。

特に、Sodarace コンテストは、計算量が少なく、プロセスを視覚化しやすいため、非常に人気があります。

ルールは簡単で、「関節」と「筋肉」で構成されたロボットがさまざまな地形でレースをします。

OpenAIはまた、現代のプログラミング言語に対する新しい方法の汎用性を実証するために、競技プログラム全体を専用の遺伝子コーディングからPythonバージョンに意図的に書き直した。

たとえば、次のような Python コードを初期シードロボットとして使用できます。

正方形の4つの頂点ジョイントと終点ジョイントを定義して「筋肉」で接続すると、次のようになります。

ただし、この正方形の構造はまったく動かすことができないため、コードを変更するには遺伝的アルゴリズムに頼る必要があります。

研究チームは、従来の遺伝的アルゴリズムを使用してコードを変更する場合と、人間のプログラマーが自分で変更する場合との間に、効率性の点で 2 つの違いがあると考えています。

1つは、ソフトウェアはますます複雑になってきており、人間はモジュールコードの再利用を使用してこれに対処できますが、最も高度な遺伝的アルゴリズムは現在、人間が使用するプログラミング言語ではこれを行うことができません。

もう 1 つは、ほぼすべての遺伝的アルゴリズムがランダムな突然変異に依存しているのに対し、人間のプログラマーは、機能の追加、効率性の向上、バグの修正など、コードを変更するたびに目的を持っていることです。

では、AI が人間がコードを変更する方法を学習する方法はあるのでしょうか?

はい、あります。必要なトレーニングデータは GitHub で入手できます。

優秀なプログラマーは、コードを送信するたびにコミットの説明を記述し、このコミットで変更されたコンテンツを明確に示します。

コミットの説明と、送信前後のコードを比較した差分データを組み合わせると、AI にとって優れた学習教材になります。

研究者たちは、明確な記述意図と少量の修正コードを含む提出データをいくつか選択し、GPT-3 アーキテクチャを使用して AI モデルをトレーニングしました。

これは、AI が人間のプログラマーから意図的にコードを変更する方法を学習するのと同じです。

この論文で使用されているモデルは、GPT-3 のフルバージョンの 1,750 億のパラメータほど大きくする必要はなく、最大 7 億 5,000 万のパラメータで十分です。

このようにして、遺伝的アルゴリズムにおける突然変異演算子の役割を果たす基本的な AI モデルが得られます。

次のステップは、AIに新しいロボットを自ら設計させることです。このプロセスは3つのステップに分かれています。

最初のステップは、従来の MAP-Elites アルゴリズムを使用して初期ロボットのグループを生成することです。

これは、ロボットが異なった動作をし、高品質であることを保証する QD (Quality Diversity) アルゴリズムです。

2 番目のステップでは、最初のステップで生成された初期データを事前トレーニングに使用して、AI が最初にトレーニングデータの分布内でロボットの設計を学習できるようにします。

これは、インターネット上のすべての人を驚かせた冒頭のアニメーション画像であり、AI が動かない「ブロック」を、交互に足を跳ねる移動ロボットに徐々に変化させていく様子を示しています。

3 番目のステップは、強化学習アルゴリズムを微調整して、AI がさまざまな地形条件に基づいて環境に適応できるロボットを生成できるようにすることです。

最終的に、研究者たちはその効果を実証するために、元の3つの種子から進化したロボットを選択しました。

構造や動き方が全く異なっていることがわかります。

ネットユーザー「ユニークな考え方」

この研究が発表されると、大きな騒動が起こりました。

多くのネットユーザーは、この「ビッグモデル + 進化的アルゴリズム」の斬新な組み合わせに驚きました。

関連研究を行った研究者らも、大規模なモデルを使用して diff の形で変異を学習することは考えたこともなかったと述べています。

研究フォームとそれ自体についての議論に加えて、一部のネットユーザーは次の写真も投稿しました。

うーん...確かにその味がしますね。

チームについて

この研究のチームメンバーは全員 OpenAI 出身です。

この論文の第一著者は機械学習科学者のジョエル・レーマン氏です。重点分野には、AI の安全性、強化学習、オープン検索アルゴリズムなどがあります。

同時に、ジョエル・レーマンは以前、人工知能の開発に関する自身の考えに基づいた科学書「偉大さはなぜ計画できないのか：客観性の秘密」を共同執筆しました。

この研究の次のステップについては、ジョエル・レーマン自身が次のように述べています。

もう 1 つの重要な問題は、モデルを他の状況にどの程度適用できるかということです。

GP における変異の有効性は ELM によって大幅に改善されるようになり、幅広い新しいアプリケーションと研究の方向性が刺激されるでしょう。

では、この研究はあなたに新たなインスピレーションも与えたのでしょうか?

参考リンク:

[1] https://arxiv.org/abs/2206.08896

[2] https://twitter.com/joelbot3000/status/1538770905119150080?s=21&t=l8AASYjgC6RAEEimcQaFog

>>: AIは新たな科学革命を先導している

AI は独自のコードを記述して、インテリジェントエージェントの進化を可能にします。 OpenAIの大規模モデルには「人間の思考」の風味がある

GitHubを見てください。AIが自分でコードを書きます

ネットユーザー「ユニークな考え方」

チームについて

人工知能はどのように農業の発展を促進できるのでしょうか?

Ruan Yifeng: ガウスぼかしアルゴリズム

簡単な議論: モノのインターネット、クラウドコンピューティング、ビッグデータ、人工知能をどのように区別し、関連付けるか?

青春が戻ってきた！ AIが『スラムダンク』の登場人物を実在の人物に変身させたら、一番イケメンは流川楓じゃないのか？

安全なパスワード保存の業界標準: bcrypt アルゴリズム

Apple Watchも新型コロナウイルスを検知可能：症状が出る7日前に検知可能

FudanNLPチームの最新の成果、RLHFと人間のアラインメントのためのMOSS-RLHFがここにあります

推薦する

人工知能によるデータ管理の変革

大規模マルチビューガウスモデル（LGM）：5秒で高品質の3Dオブジェクトを生成、試用可能

PyTorch はメジャーアップデートされ、再び TensorFlow と競合しています。AWS もディープラーニングフレームワークの泥沼に足を踏み入れようとしているのでしょうか?

ChatGPTが話せるようになりました！ Siriなどのスマートアシスタントへの直接的な脅威

日本政府は国民が人生のパートナーを見つけるのを支援するためにAI技術を活用することを計画している

KuaishouとNVIDIAが提携し、業界最先端のGPUコンピューティングインフラストラクチャを展開

モデルデータに偏りがある場合はどうすればいいですか?機械学習における 7 種類のデータバイアスについて 1 つの記事で学ぶ

「顔認識」に反対する教授：最大の受益者がリスクの責任を負う

2021 年と自動化: 完璧な組み合わせ?

OpenAI CEO が自ら実演します!カスタムコマンドを使用して独自のカスタマイズされた AI アシスタントをトレーニングするためのガイド