マイクロソフトとスタンフォード大学の新アルゴリズムがAIによる人類絶滅のリスクを排除！ GPT-4の自己反復、プロセスは制御可能かつ説明可能

「再帰的に自己進化する AI が人間を支配する」という問題に対する解決策はあるのでしょうか? ！

多くの AI 専門家は、自己反復が可能な大規模モデルの開発は人類が自滅の道を歩み出すための「近道」であると考えています。

ディープマインドの共同創設者はかつてこう言った。「自律的に進化できるAIには大きな潜在的リスクがある」

なぜなら、大規模モデルが重みとフレームワークを自律的に改善することで継続的にその機能を向上させることができる場合、モデルの解釈可能性は問題外になるだけでなく、人間はモデルの出力を予測して制御することも完全にできなくなるからです。

大規模モデルが「自律的に進化」することを許すと、有害なコンテンツを出力し続ける可能性があり、将来その機能が強力になりすぎると、今度は人間を支配する可能性があります。

最近、マイクロソフトとスタンフォード大学の研究者らは、重みやフレームワークを変更することなくモデルがターゲットタスクを反復して自ら改善し、出力品質も向上できる新しいシステムを開発しました。

さらに重要なのは、このシステムにより、モデルの「自己改善」プロセスの透明性と説明可能性が大幅に向上し、研究者がモデルの自己改善プロセスを理解して制御できるようになり、「人間が制御できない」AIの出現を防ぐことができることです。

論文アドレス: https://arxiv.org/abs/2310.02304

「再帰的自己改善」（RSI）は、人工知能における最も古いアイデアの 1 つです。言語モデルは再帰的に自己改善するコードを書くことができますか?

研究者らは、コード生成を再帰的に自己改善できる Self-Taught Optimizer (STOP) を提案しました。

彼らは、コードと目的関数を受け取り、言語モデルを使用してコードを改善する（k 個の最適化の中で最良の改善を返す）単純なシード「オプティマイザー」プログラムから始めます。

「コードを改善する」ことはタスクなので、研究者は「オプティマイザー」を自分自身に渡すことができます。次に、このプロセスを何度も繰り返します。

このプロセスが十分な回数繰り返される限り、GPT-4 は遺伝的アルゴリズム、シミュレーテッドアニーリング、マルチアームスロットマシンなど、非常に創造的なコード自己改善戦略を数多く考案します。

GPT-4 のトレーニングデータは 2021 年にのみ適用され、これは発見された改善戦略の多くが提案された時期よりも前のものであることを考慮すると、このような結果は実に驚くべきものです。

さらに、研究者は改良されたオプティマイザーを評価する何らかの方法を必要としていたため、「メタユーティリティ」目標を定義しました。これは、ランダムなダウンストリームプログラムとタスクに適用された場合のオプティマイザーの期待される目標です。

オプティマイザーが改良されるにつれて、研究者はこの目的関数をアルゴリズムに割り当てます。

研究者が発見した主な結果は次のとおりです。まず、自己改善型オプティマイザーの予想される下流のパフォーマンスは、自己改善の反復回数に応じて一貫して増加します。

第二に、これらの改良されたオプティマイザーは、トレーニング中には見られなかったタスクに対するソリューションの改善にも優れたパフォーマンスを発揮します。

多くの研究者が「再帰的自己改善」モデルについて懸念を表明しているが、彼らはこのモデルが人間が制御できない人工知能システムを開発する可能性があると考えている。しかし、モデル自体を最適化せず、対象タスクを自動的に最適化すれば、最適化プロセスの説明が容易になります。

さらに、このプロセスは、有害な「再帰的な自己改善」戦略を検出するためのテストベッドとして使用できます。

研究者らはまた、GPT-4が「効率を追求するために」反復プロセス中に「サンドボックスフラグを無効にする」ことを積極的に削除する可能性があることを発見した。

ネットユーザーは、この論文で提案された方法には大きな可能性があると信じている。なぜなら、将来の AGI は単一の大きなモデルではなく、割り当てられた膨大なタスクを成功させるために連携して動作できる無数の効率的なエージェントのクラスターになる可能性が高いからです。

企業が個々の従業員よりも強力な知性を持っているのと同じです。

おそらくこのアプローチは、たとえ AGI にはつながらなくても、特別に最適化されたモデルが限られた範囲のタスクで元のパフォーマンスよりもはるかに高いパフォーマンスを達成できるようになるかもしれません。

論文の核となる枠組み

この研究で研究者らは、言語モデルを適用して任意のソリューションを再帰的にコードに改善する方法である Self-Taught Optimizer (STOP) を提案しました。

研究者のアプローチは、言語モデルを使用して下流のタスクに対するソリューションを改善する、最初のシード「オプティマイザー」スキャフォールディングプログラムから始まります。

システムが反復されるにつれて、モデルはこの最適化プロセスを改良します。研究者らは、一連の下流アルゴリズムタスクを使用して、自己最適化フレームワークのパフォーマンスを定量化しました。

研究者らの結果によると、モデルが自己改善戦略を反復回数を増やしながら適用すると、結果が大幅に改善されることがわかりました。

STOP は、言語モデルが独自のメタ最適化装置として機能する方法を示しています。研究者らはまた、モデルによって提案された自己改善戦略の種類（下の図1を参照）、提案された戦略の下流タスクへの移転可能性を研究し、安全でない自己改善戦略に対するモデルの感度を調査しました。

上の図は、GPT-4 を使用する際に STOP によって提案された多くの機能的で興味深いスキャフォールドを示しています。これは、ほとんどのスキャフォールドが提案されるずっと前の 2021 年時点のデータを使用して GPT-4 がトレーニングされたためです。

これは、システムが自己最適化のための有用な最適化戦略を創造的に生成できることを示しています。

この研究の主な貢献は次のとおりです。

1. 自身の出力を再帰的に改善する構築的なプログラムを生成する「メタオプティマイザー」手法が提案されています。

2. 最新の言語モデル（具体的には GPT-4）を使用するシステムは、再帰的に自己改善できることを実証しました。

3. モデルがサンドボックスなどのセキュリティ対策を回避する方法やその可能性など、モデルによって提案され実装された自己改善手法を調査します。

自己学習最適化システムを停止する (STOP)

図3はシステムの自己反復最適化パイプラインを示している。

以下は Self-Taught Optimizer (STOP) のアルゴリズム図です。最も重要な問題は、I システムの設計自体が最適化分割であり、再帰アルゴリズムを適用することで改善できることです。

まず、STOPアルゴリズムはシードI0を初期化し、次にt回目の反復改善後の出力式を定義します。

1. 直感

STOP は、反復プロセス中に反復バージョンをより適切に選択するために、下流のタスクに応じて u を選択できます。一般的に、下流のタスクを実行できるソリューションの反復バージョンは、より優れた建設的なプログラムである可能性が高く、したがって、より優れた自己改善機能を備えているというのが直観です。

同時に、研究者たちは、単一ラウンドの改善アプローチを選択すると、複数ラウンドの改善がより良くなると考えています。

最大化公式では、自己最適化と下流最適化をカバーする「メタ効用」について論じた。しかし、評価コストの関係で、実際には言語モデルに予算制約（実行時間制限、関数呼び出し回数制限など）を課し、初期解は人間やモデルによって生成した。

予算コストは次の式で表すことができます。

このうち、budget は各予算項目を表し、システムが各反復で関数を呼び出すことができる回数に対応します。

2. 初期システムの設定

上の図 2 では、初期シードを選択するときにプロンプトを表示するだけで済みます。

「あなたはコンピュータサイエンスの研究者およびプログラマーであり、特にアルゴリズムの最適化に長けています。次のソリューションを改善してください。」

システムモデルは初期ソリューションを生成し、次の内容を入力します。

「改善されたソリューションを返す必要があります。制約の範囲内でできる限り創造的になりましょう。主な改善は斬新で、自明ではないものでなければなりません。まずアイデアを提案し、次にそれを実装します。」

呼び出し関数に基づいて最適なソリューションを返します。著者らがこの単純な形式を選択したのは、一般的な下流タスクに対して非対称の改善を容易に提供できるためです。

さらに、反復プロセス中に注意すべき点がいくつかあります。

（１）言語モデルが可能な限り創造的となるよう奨励する。

（２）プロンプト内のコード文字列参照により自己反復によって追加の複雑さが導入されるため、初期プロンプトの複雑さを最小限に抑える。

（３）プロンプトの数を最小限に抑えて言語モデルの呼び出しコストを削減する。研究者らはこのシードプロンプトの他のバリエーションも検討しましたが、経験的にこのバージョンが GPT-4 言語モデルによって提案された改善を最大化することを発見しました。

著者はまた、プロンプトの他のバリエーションを使用すると GPT-4 言語モデルの機能を最大限に引き出せることを予期せず発見しました。

3. ユーティリティの説明

ユーティリティの詳細を言語モデルに効果的に伝えるために、著者は 2 つの形式のユーティリティを提供します。1 つは呼び出し可能な関数であり、もう 1 つはユーティリティソースコードの必須要素を含むユーティリティ記述文字列です。

このアプローチを採用する理由は、記述を通じて、研究者が実行時間や関数呼び出し回数などのユーティリティの予算制約を言語モデルに明確に伝えることができるためです。

当初、研究者は種子改良プログラムのプロンプトに予算の指示を記述しようとしましたが、その後の反復でそのような指示が削除され、「報酬窃盗」の試みにつながりました。

このアプローチの欠点は、言語モデルが最適化しているコードから制約が分離されるため、言語モデルがそれらの制約を使用する可能性が低くなる可能性があることです。

最後に、経験的観察に基づいて、著者らは、ソースコードを純粋に実用的な英語の記述に置き換えると、実質的でない改善の頻度が減少することを発見しました。

実験と結果

1. 固定された下流タスクのパフォーマンス

著者らは、固定されたダウンストリームタスクで GPT-4 モデルと GPT-3.5 モデルのパフォーマンスを比較し、選択されたタスクはノイズパリティ (LPN) を学習することです。LPN は、テストが簡単で迅速ですが、難しいアルゴリズムタスクです。そのタスクは、ビットストリングに、その上の未知のビットのパリティでラベルを付けることです。ノイズラベルが付いたビットストリングのトレーニングセットが与えられた場合、目標は、新しいビットストリングの真のラベルを予測することです。ノイズのない LPN はガウス消去法で簡単に解くことができますが、ノイズのある LPN は計算上扱いにくいです。

下流ユーティリティ u を定義するために、例ごとに 10 ビットの処理可能な入力次元を使用し、M = 20 個の独立した LPN タスクインスタンスをランダムにサンプリングし、短い時間制限を設定しました。

T 回の自己改善後のノイズパリティを持つ下流タスクで保持されたテストインスタンスに対する STOP のメタユーティリティ。

興味深いことに、GPT-4 (左) のような強力な言語モデルのサポートにより、STOP の平均ダウンストリームパフォーマンスは単調に向上します。対照的に、より弱い GPT-3.5 言語モデル (右) の場合、平均パフォーマンスは低下します。

2. システム移行機能の向上

著者らは、自己改善プロセス中に生成された改善者がさまざまな下流タスクで優れたパフォーマンスを発揮できるかどうかをテストするために設計された一連の転移実験を実施しました。

実験結果によると、これらの改良版は、さらなる最適化を必要とせずに、新しい下流タスクで初期バージョンを上回るパフォーマンスを発揮できることが示されています。これは、これらの改善策にはある程度の一般性があり、さまざまなタスクに適用できることを示している可能性があります。

3. より小さなモデルにおける自己最適化システムの表現力

次に、プログラム構築能力を向上させるために、より小さな言語モデル GPT-3.5-turbo を検討します。

著者らは、実験を 25 回独立して実行し、GPT-3.5 はより優れた構築手順を提案して実装できることがあることを発見しましたが、GPT-3.5 の実行のうち 3% 以上の改善を達成したのはわずか 12% でした。

さらに、GPT-3.5 には、GPT-4 では見られない独特の障害ケースがいくつかあります。

まず、GPT03.5 は、下流のタスクに対する初期ソリューションには悪影響を与えないが、改善コードには悪影響を与える改善戦略を提案する可能性が高くなります (たとえば、各行の文字列を置換確率の低いランダムに置き換えることで、短いソリューションへの影響が少なくなります)。

第二に、提案された改善がパフォーマンスに悪影響を与える場合、最適ではないビルド手順が選択され、誤って元のソリューションに戻ってしまう可能性があります。

一般に、改善提案の背後にある「アイデア」は健全かつ革新的です (遺伝的アルゴリズムやローカル検索など) が、実装は過度に単純化されていたり、不正確であったりすることがよくあります。最初に GPT-3.5 を使用した種子改良者は、GPT-4 を使用した種子改良者よりもメタ効用が高かったことが観察されています (65% 対 61%)。

結論は

この研究では、研究者らは STOP を基に、GPT-4 のような大規模言語モデルが自己改善し、下流のコードタスクのパフォーマンスを向上できることを実証しました。

これはさらに、自己最適化言語モデルが自身の重みや基礎となるアーキテクチャを最適化する必要がないことを実証しており、将来的に人間によって制御されない AI システムの可能性を回避します。

<<: GPT-4V は驚くべきマルチモーダル機能を備えています。数式のスクリーンショットが直接コードを出力、「ドラゴンと魔法の世界」が瞬時に生成され、OpenAI社長が興奮して転送

>>:

マイクロソフトとスタンフォード大学の新アルゴリズムがAIによる人類絶滅のリスクを排除！ GPT-4の自己反復、プロセスは制御可能かつ説明可能

論文の核となる枠組み

結論は

2018 年のエンタープライズ AI の良い点と悪い点

6つの主要な人工知能アプリケーションの主要技術の詳細な説明

GCN グラフ畳み込みネットワークの紹介

疑わないでください、それはあなたです！あなたの信頼が自動運転の運命を決める

Androidスマートフォンを使用してターゲット検出モデルYOLOv5のロックを解除すると、認識速度はわずか数十ミリ秒です

人工知能の活発な発展は、ホストのような人々が将来的に職を失うことを意味する。

アメリカがスーパーコンピューティングで世界トップの座を奪還！人類はエクサスケールのスーパーコンピューティングを実現、フロンティアが世界トップ500リストのトップに

Google の研究者が GPT-4 を使用してレビューシステムを破る AI-Guardian

2022 年のヘルスケアと医薬品における AI の予測

推薦する

子どもたちがロボットに出会うと、彼らの社会的交流はどのように変化するのでしょうか?

ビッグデータ、クラウドコンピューティング、人工知能が統合され、セキュリティ分野に応用されている

コードを書くのは効率的ではないですか? Ctrl + C + V を忘れて、AI にコード作成を手伝ってもらいましょう

マイクロソフトが Project Brainwave リアルタイム AI プラットフォームの詳細を公開

科学者らがドローンを使って南極のペンギンの「国勢調査」を実施

美容業界に参入しよう！ AIはフェイスリフト手術も可能

アメリカは最強のAIを開発するために1億ドルを投資しています。あなたを狙っているわけではありませんが、ここにいる全員が職を失う可能性があります。

1 つの記事で理解する: 「コンピュータービジョン」とは一体何でしょうか?

2023年の7つの主要なAI技術トレンド

医療診断AIプロジェクトを実施するための10のステップ

ソフトウェア開発者ガイド: 独自のデータで ChatGPT をトレーニングする

2017年データサイエンスおよび機械学習業界現状調査：Pythonが最も人気のある言語

あなたはまだこれらの仕事をしていますか？マシンビジョンと人工知能により、今後10年間で失業することになるかもしれません

再び攻撃！ AI+教育に注力する学百軍は、年間10億元という小さな目標を設定

中国の顔認識技術が世界を震撼させている！（顔認証調査報告書を添付します）