トラブルを起こせ! AI は、人間が GitHub で更新 (コミット) を送信する方法を「見て」、人間のプログラマーを模倣してコードを変更しました... 最終的に、この AI はインテリジェント ロボットを「トレーニング」することに成功しました。 冗談ではなく、このような恐ろしいことが、OpenAI が最近発表した研究で実際に起こったのです... 当初、研究者たちは、知能ロボットに動き方を教えるという遺伝的プログラミング(GP)の問題を解決したいと考えていました。 (GP は進化計算の特殊な領域であり、問題を独立して解決するプログラムを自動的に構築することに重点が置かれています。) しかし、OpenAIは異なるアプローチを採用し、独自の大規模言語モデル(LLM)を組み込んだ結果、予想外の大きな成果が生まれました。 これまで、インテリジェントエージェントの進化の過程では、インテリジェントエージェントが良い方向に発展できるように、人間の研究者が関与して細かい調整を行ったり、進化の方向を決定したりする必要がありました。 現在、これらすべてのタスクは大きなモデルによって処理されます。自分で学習し、コードを記述し、「調整」することができます。 論文の第一著者であるジョエル・レーマン氏がこれをインターネット上で公開すると、すぐにネットユーザーから大きな注目を集めた。 これを読んで、あるプログラマーのネットユーザーは「(技術)開発のペースについていけない」と述べた。 OpenAI自身も研究の中で次のように述べています。 進化アルゴリズムが人間の思考レベルで機能するギャップを埋めます。 では、AI はどのようにしてこの「魔法のような」ことを実現するのでしょうか? GitHubを見てください。AIが自分でコードを書きます仮想環境での移動ロボットの設計は、遺伝的アルゴリズムの研究において非常に人気のあるプロジェクトです。 特に、Sodarace コンテストは、計算量が少なく、プロセスを視覚化しやすいため、非常に人気があります。 ルールは簡単で、「関節」と「筋肉」で構成されたロボットがさまざまな地形でレースをします。 OpenAIはまた、現代のプログラミング言語に対する新しい方法の汎用性を実証するために、競技プログラム全体を専用の遺伝子コーディングからPythonバージョンに意図的に書き直した。 たとえば、次のような Python コードを初期シード ロボットとして使用できます。 正方形の4つの頂点ジョイントと終点ジョイントを定義して「筋肉」で接続すると、次のようになります。 ただし、この正方形の構造はまったく動かすことができないため、コードを変更するには遺伝的アルゴリズムに頼る必要があります。 研究チームは、従来の遺伝的アルゴリズムを使用してコードを変更する場合と、人間のプログラマーが自分で変更する場合との間に、効率性の点で 2 つの違いがあると考えています。 1つは、ソフトウェアはますます複雑になってきており、人間はモジュールコードの再利用を使用してこれに対処できますが、最も高度な遺伝的アルゴリズムは現在、人間が使用するプログラミング言語ではこれを行うことができません。 もう 1 つは、ほぼすべての遺伝的アルゴリズムがランダムな突然変異に依存しているのに対し、人間のプログラマーは、機能の追加、効率性の向上、バグの修正など、コードを変更するたびに目的を持っていることです。 では、AI が人間がコードを変更する方法を学習する方法はあるのでしょうか? はい、あります。必要なトレーニング データは GitHub で入手できます。 優秀なプログラマーは、コードを送信するたびにコミットの説明を記述し、このコミットで変更されたコンテンツを明確に示します。 コミットの説明と、送信前後のコードを比較した差分データを組み合わせると、AI にとって優れた学習教材になります。 研究者たちは、明確な記述意図と少量の修正コードを含む提出データをいくつか選択し、GPT-3 アーキテクチャを使用して AI モデルをトレーニングしました。 これは、AI が人間のプログラマーから意図的にコードを変更する方法を学習するのと同じです。 この論文で使用されているモデルは、GPT-3 のフルバージョンの 1,750 億のパラメータほど大きくする必要はなく、最大 7 億 5,000 万のパラメータで十分です。 このようにして、遺伝的アルゴリズムにおける突然変異演算子の役割を果たす基本的な AI モデルが得られます。 次のステップは、AIに新しいロボットを自ら設計させることです。このプロセスは3つのステップに分かれています。 最初のステップは、従来の MAP-Elites アルゴリズムを使用して初期ロボットのグループを生成することです。 これは、ロボットが異なった動作をし、高品質であることを保証する QD (Quality Diversity) アルゴリズムです。 2 番目のステップでは、最初のステップで生成された初期データを事前トレーニングに使用して、AI が最初にトレーニング データの分布内でロボットの設計を学習できるようにします。 これは、インターネット上のすべての人を驚かせた冒頭のアニメーション画像であり、AI が動かない「ブロック」を、交互に足を跳ねる移動ロボットに徐々に変化させていく様子を示しています。 3 番目のステップは、強化学習アルゴリズムを微調整して、AI がさまざまな地形条件に基づいて環境に適応できるロボットを生成できるようにすることです。 最終的に、研究者たちはその効果を実証するために、元の3つの種子から進化したロボットを選択しました。 構造や動き方が全く異なっていることがわかります。 ネットユーザー「ユニークな考え方」この研究が発表されると、大きな騒動が起こりました。 多くのネットユーザーは、この「ビッグモデル + 進化的アルゴリズム」の斬新な組み合わせに驚きました。 関連研究を行った研究者らも、大規模なモデルを使用して diff の形で変異を学習することは考えたこともなかったと述べています。 研究フォームとそれ自体についての議論に加えて、一部のネットユーザーは次の写真も投稿しました。 うーん...確かにその味がしますね。 チームについてこの研究のチームメンバーは全員 OpenAI 出身です。 この論文の第一著者は機械学習科学者のジョエル・レーマン氏です。重点分野には、AI の安全性、強化学習、オープン検索アルゴリズムなどがあります。 同時に、ジョエル・レーマンは以前、人工知能の開発に関する自身の考えに基づいた科学書「偉大さはなぜ計画できないのか:客観性の秘密」を共同執筆しました。 この研究の次のステップについては、ジョエル・レーマン自身が次のように述べています。 もう 1 つの重要な問題は、モデルを他の状況にどの程度適用できるかということです。 GP における変異の有効性は ELM によって大幅に改善されるようになり、幅広い新しいアプリケーションと研究の方向性が刺激されるでしょう。 では、この研究はあなたに新たなインスピレーションも与えたのでしょうか? 参考リンク: [1] https://arxiv.org/abs/2206.08896 [2] https://twitter.com/joelbot3000/status/1538770905119150080?s=21&t=l8AASYjgC6RAEEimcQaFog |
<<: ザッカーバーグの最新VRプロトタイプが登場。仮想と現実を混同させるようなものだ
悪意のある「バックドア」が埋め込まれたモデルが、何百万、何十億ものパラメータを持つモデルの中に、何者...
世界中の科学者の中には、ロボットの歩行能力を強化するために取り組んでいる者もいれば、異なる視点からロ...
AR、VR、3Dプリント、シーン構築、映画制作など多くの分野において、衣服を着た人体の高品質な3Dモ...
ChatGPT の最大のライバルである Anthropic が新製品を発売しました。ちょうど今、An...
「医者はいつも正しい」という考えが何十年も続いた後、伝統的な医師と患者の関係は重大な岐路に立たされて...
自動車の電動化や知能化が進む中、自動運転は人々の日常生活にますます近づきつつあります。現在、市場に出...
[[428056]]この記事はLeiphone.comから転載したものです。転載する場合は、Lei...
2020CVPR 受理論文「Deep Face Super-Resolution with Iter...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
OpenAI は、人工知能 (AI) の作成と推進を専門とする非営利団体です。そのビジョンは、人間...
19 世紀頃、イギリスの実証主義哲学者で社会学者の H. スペンサーは、「教育論」の中で、イギリスの...
[51CTO.com クイック翻訳] Facebookの機械学習フレームワークPyTorchは、20...