トラブルを起こせ! AI は、人間が GitHub で更新 (コミット) を送信する方法を「見て」、人間のプログラマーを模倣してコードを変更しました... 最終的に、この AI はインテリジェント ロボットを「トレーニング」することに成功しました。 冗談ではなく、このような恐ろしいことが、OpenAI が最近発表した研究で実際に起こったのです... 当初、研究者たちは、知能ロボットに動き方を教えるという遺伝的プログラミング(GP)の問題を解決したいと考えていました。 (GP は進化計算の特殊な領域であり、問題を独立して解決するプログラムを自動的に構築することに重点が置かれています。) しかし、OpenAIは異なるアプローチを採用し、独自の大規模言語モデル(LLM)を組み込んだ結果、予想外の大きな成果が生まれました。 これまで、インテリジェントエージェントの進化の過程では、インテリジェントエージェントが良い方向に発展できるように、人間の研究者が関与して細かい調整を行ったり、進化の方向を決定したりする必要がありました。 現在、これらすべてのタスクは大きなモデルによって処理されます。自分で学習し、コードを記述し、「調整」することができます。 論文の第一著者であるジョエル・レーマン氏がこれをインターネット上で公開すると、すぐにネットユーザーから大きな注目を集めた。 これを読んで、あるプログラマーのネットユーザーは「(技術)開発のペースについていけない」と述べた。 OpenAI自身も研究の中で次のように述べています。 進化アルゴリズムが人間の思考レベルで機能するギャップを埋めます。 では、AI はどのようにしてこの「魔法のような」ことを実現するのでしょうか? GitHubを見てください。AIが自分でコードを書きます仮想環境での移動ロボットの設計は、遺伝的アルゴリズムの研究において非常に人気のあるプロジェクトです。 特に、Sodarace コンテストは、計算量が少なく、プロセスを視覚化しやすいため、非常に人気があります。 ルールは簡単で、「関節」と「筋肉」で構成されたロボットがさまざまな地形でレースをします。 OpenAIはまた、現代のプログラミング言語に対する新しい方法の汎用性を実証するために、競技プログラム全体を専用の遺伝子コーディングからPythonバージョンに意図的に書き直した。 たとえば、次のような Python コードを初期シード ロボットとして使用できます。 正方形の4つの頂点ジョイントと終点ジョイントを定義して「筋肉」で接続すると、次のようになります。 ただし、この正方形の構造はまったく動かすことができないため、コードを変更するには遺伝的アルゴリズムに頼る必要があります。 研究チームは、従来の遺伝的アルゴリズムを使用してコードを変更する場合と、人間のプログラマーが自分で変更する場合との間に、効率性の点で 2 つの違いがあると考えています。 1つは、ソフトウェアはますます複雑になってきており、人間はモジュールコードの再利用を使用してこれに対処できますが、最も高度な遺伝的アルゴリズムは現在、人間が使用するプログラミング言語ではこれを行うことができません。 もう 1 つは、ほぼすべての遺伝的アルゴリズムがランダムな突然変異に依存しているのに対し、人間のプログラマーは、機能の追加、効率性の向上、バグの修正など、コードを変更するたびに目的を持っていることです。 では、AI が人間がコードを変更する方法を学習する方法はあるのでしょうか? はい、あります。必要なトレーニング データは GitHub で入手できます。 優秀なプログラマーは、コードを送信するたびにコミットの説明を記述し、このコミットで変更されたコンテンツを明確に示します。 コミットの説明と、送信前後のコードを比較した差分データを組み合わせると、AI にとって優れた学習教材になります。 研究者たちは、明確な記述意図と少量の修正コードを含む提出データをいくつか選択し、GPT-3 アーキテクチャを使用して AI モデルをトレーニングしました。 これは、AI が人間のプログラマーから意図的にコードを変更する方法を学習するのと同じです。 この論文で使用されているモデルは、GPT-3 のフルバージョンの 1,750 億のパラメータほど大きくする必要はなく、最大 7 億 5,000 万のパラメータで十分です。 このようにして、遺伝的アルゴリズムにおける突然変異演算子の役割を果たす基本的な AI モデルが得られます。 次のステップは、AIに新しいロボットを自ら設計させることです。このプロセスは3つのステップに分かれています。 最初のステップは、従来の MAP-Elites アルゴリズムを使用して初期ロボットのグループを生成することです。 これは、ロボットが異なった動作をし、高品質であることを保証する QD (Quality Diversity) アルゴリズムです。 2 番目のステップでは、最初のステップで生成された初期データを事前トレーニングに使用して、AI が最初にトレーニング データの分布内でロボットの設計を学習できるようにします。 これは、インターネット上のすべての人を驚かせた冒頭のアニメーション画像であり、AI が動かない「ブロック」を、交互に足を跳ねる移動ロボットに徐々に変化させていく様子を示しています。 3 番目のステップは、強化学習アルゴリズムを微調整して、AI がさまざまな地形条件に基づいて環境に適応できるロボットを生成できるようにすることです。 最終的に、研究者たちはその効果を実証するために、元の3つの種子から進化したロボットを選択しました。 構造や動き方が全く異なっていることがわかります。 ネットユーザー「ユニークな考え方」この研究が発表されると、大きな騒動が起こりました。 多くのネットユーザーは、この「ビッグモデル + 進化的アルゴリズム」の斬新な組み合わせに驚きました。 関連研究を行った研究者らも、大規模なモデルを使用して diff の形で変異を学習することは考えたこともなかったと述べています。 研究フォームとそれ自体についての議論に加えて、一部のネットユーザーは次の写真も投稿しました。 うーん...確かにその味がしますね。 チームについてこの研究のチームメンバーは全員 OpenAI 出身です。 この論文の第一著者は機械学習科学者のジョエル・レーマン氏です。重点分野には、AI の安全性、強化学習、オープン検索アルゴリズムなどがあります。 同時に、ジョエル・レーマンは以前、人工知能の開発に関する自身の考えに基づいた科学書「偉大さはなぜ計画できないのか:客観性の秘密」を共同執筆しました。 この研究の次のステップについては、ジョエル・レーマン自身が次のように述べています。 もう 1 つの重要な問題は、モデルを他の状況にどの程度適用できるかということです。 GP における変異の有効性は ELM によって大幅に改善されるようになり、幅広い新しいアプリケーションと研究の方向性が刺激されるでしょう。 では、この研究はあなたに新たなインスピレーションも与えたのでしょうか? 参考リンク: [1] https://arxiv.org/abs/2206.08896 [2] https://twitter.com/joelbot3000/status/1538770905119150080?s=21&t=l8AASYjgC6RAEEimcQaFog |
<<: ザッカーバーグの最新VRプロトタイプが登場。仮想と現実を混同させるようなものだ
昨日、国内のAIスタートアップ企業Rokidは杭州で新製品発表会を開催し、Meスマートポータブルスピ...
Microsoft は最近、顧客がローカル ERP および CRM アプリケーションをクラウドに移行...
近年、顔認証が話題になっていますが、現実には、通知なく顔認証データを取得したり、強制的に顔認証させら...
目の前を飛んでいる蚊を手を振って追い払っても、また戻ってきて、とてもイライラします。しかし、蚊が飛び...
2016年3月以来、AlphaGoと呼ばれるロボットが、有名な囲碁プレイヤーであるイ・セドルと柯潔...
【51CTO.comオリジナル記事】 2017年12月1日から2日まで、51CTO主催のWOTDグロ...
報道によると、APICloudが主催するAI時代のモバイル技術変革カンファレンスが2018年1月5日...
あらゆる誇大宣伝と主流の採用率の高さにもかかわらず、生成 AI は生産性のピークに到達する前に、幻滅...
新型コロナウイルスによる肺炎の流行は依然として続いており、中国のさまざまな省や市では2月10日に大規...
これまで、AI への投資のほとんどは、大規模なデータセンター内でテクノロジーを実行することに重点を置...
人工知能研究企業OpenAIは8月29日、ChatGPTのメジャーアップグレードとなるChatGPT...
コンピューターに頼って悪者を即座に見つけることができれば素晴らしいのですが、問題は AI システムが...