GPT-2はGPT-4を監督できる、イリヤがOpenAI初のスーパーアライメント論文を主導:AIアライメントAIは実証的な結果を達成

GPT-2はGPT-4を監督できる、イリヤがOpenAI初のスーパーアライメント論文を主導:AIアライメントAIは実証的な結果を達成

過去1年間、「次のトークンを予測する」ことを本質とする大規模なモデルが人間の世界の多くのタスクに浸透し、人工知能の大きな可能性を実証してきました。

最近のインタビューで、OpenAIの主任科学者イリヤ・スツケバー氏は、モデルが次の単語をうまく予測できれば、その単語の生成につながった深遠な現実を理解できることになる、と大胆に予測した。つまり、AIが現在の軌道に沿って発展し続ければ、近い将来、人間を超える人工知能システムが誕生する可能性があるということです。

しかし、さらに心配なのは、「スーパー人工知能」が予期せぬ悪影響をもたらすかもしれないということだ。これは「アライメント」の意味でもあります。

これまでのアライメント方法は、ChatGPT トレーニングで重要な役割を果たす、人間によるフィードバックによる強化学習 (RLHF) などの人間の監督に依存しています。しかし、将来の AI システムは非常に複雑かつ創造的な動作が可能になる可能性があり、人間が確実に監視することが困難になる可能性があります。たとえば、超人的なモデルは、人間の専門家でも理解するのが難しい、何百万行もの斬新で潜在的に危険なコンピュータ コードを書く可能性があります。

人工知能のレベルが人間のレベルを超えたら、人間よりもはるかに賢い人工知能システムをどのように監視できるのでしょうか?人類の文明は最終的に転覆され、あるいは破壊されてしまうのでしょうか?

ヒントン氏のような学界の巨匠ですらこの問題については悲観的だ。同氏は「より高度な知能を持つものが、はるかに低い知能を持つものに制御されるという事例を見たことがない」と述べている。

ちょうど今、OpenAIの「スーパーアライメント」チームは設立以来初の論文を発表し、超人モデルの経験的アライメントに向けた新たな研究方向を開拓したと主張している。

論文リンク: https://cdn.openai.com/papers/weak-to-strong-generalization.pdf

OpenAIの「スーパーアライメント」チームは今年7月に設立され、4年以内に超知能AIのアライメント問題を解決すること、つまり信頼できる人間レベルの研究者を構築し、それを使ってアライメント問題を解決することを目標としている。このチームは同社の計算能力の20%を投入したと言われている。

この論文では、OpenAI は「スーパー人工知能の人間による監督」という問題について、小さなモデルで大きなモデルを監督するという単純な類推をしました。

研究によると、15億のパラメータを持つGPT-2モデルはGPT-4のほとんどの機能を刺激するために使用でき、GPT-3.5に近いパフォーマンスを実現し、より小さなモデルでは失敗する難しい問題にも正しく一般化できることがわかっています。

OpenAI はこの現象を「弱から強への一般化」と呼んでいます。これは、強力なモデルはタスクの実行方法に関する暗黙の知識を持っており、粗雑な指示を与えられた場合でもその知識を自ら見つけることができることを示唆しています。

しかし、この研究では、弱い監督で訓練された強力なモデルと実際のラベルで訓練された強力なモデルの間には依然として大きなギャップがあることも指摘されています。これは、追加の作業がなければ、人間によるフィードバックによる強化学習 (RLHF) などの手法が超人モデルにうまく拡張できない可能性があることを示唆しています。 ChatGPT 報酬モデリング タスクではパフォーマンスのギャップが特に大きくなります。

ガイド付き監督に中間モデル サイズを使用する、微調整時に補助的な信頼度損失を追加して弱いラベルによって矛盾が生じてもモデルが自信を持ち続けるように促す、追加の監督なし事前トレーニングを通じて表現学習を改善するなど、いくつかの単純なアプローチによって、弱から強への一般化を大幅に改善できます。

他の研究者がこうした問題に取り組むことを奨励するため、OpenAI は本日、さまざまなアライメント手法の研究に 1,000 万ドルの資金を提供する予定であることも発表しました。

論文の詳細は以下の通りです。

研究方法

この論文では、主に強化学習と人間のフィードバック (RLHF) を通じてモデルを誘導または調整しており、評価者によって高く評価された動作を強化し、評価者によって低く評価された動作にペナルティを課すことでこれを実現しています。これは、人間の評価者がモデルの動作が良いか悪いかを正確に判断できる場合に非常にうまく機能し、ChatGPT などの大規模な言語モデルのトレーニングの中心的な部分となります。

しかし問題は、スーパーモデルが人間が完全に理解できない複雑で創造的な行動をとる可能性があることです。たとえば、スーパーアシスタントモデルが 100 万行のコードを生成する場合、コードがユーザーの意図に従っているかどうか、アシスタントモデルがコードに関する質問に正直に答えているかどうか、コードを実行しても安全か危険かなど、主要なアライメント関連のタスクについて人間は信頼できる監視を提供できなくなります。

したがって、人間の監督下でスーパーモデルを微調整した場合、人間自身が確実に監督することが難しい複雑な動作に対してこのモデルがどの程度一般化されるかはわかりません。言い換えれば、これは、人間の指導があっても、これらのスーパーモデルが複雑な状況や未知の状況に対処する際のパフォーマンスが不確実なままであることを意味します。

これにより、スーパーモデルの調整に課題が生じます。つまり、知能の低いスーパーバイザーが、自分よりもはるかに賢いモデルをどのように制御できるのでしょうか?この質問の重要性にもかかわらず、現時点では経験的に研究することは困難です。

一般的に言えば、スーパーアライメントの中心的な課題は、人間が自分よりも賢いモデルを監督する必要があることです。これは弱から強への学習問題です。つまり、弱い監督者は、自分よりもはるかに賢いモデルをどのように監督できるのでしょうか?この問題に対処するために、本論文では、弱い人間の監督者を弱いモデルに置き換えるという単純な類推を提案します。

一般的に、従来の機械学習は、人間が監督するモデルが人間よりも弱い設定に重点を置いています。しかし、最終的なスーパーアライメント問題に関しては、人間が監督するモデルがそれを上回ります。したがって、この論文では、弱いモデルを使用して強いモデルを監督するという同様の問題を研究します。

特定のタスクに対してこれを実装する方法は次のとおりです。

  1. 弱い監督者の構築。この論文では、真値ラベルに基づいて事前学習済みの小規模モデルを微調整することで、弱い教師を構築します。この弱い教師のパフォーマンスを「弱い表現」と呼び、弱いモデルの予測を通じて弱いラベルを生成します。
  2. 弱い監督で強い学生モデルをトレーニングする。生成された弱いラベルを使用して強いモデルを微調整し、このモデルを強い学生モデルと呼び、結果として得られるパフォーマンスを弱から強いパフォーマンスと呼びます。
  3. 真のラベルによって上限が制限される強力なモデルをトレーニングします。比較のために、グラウンドトゥルースラベルを使用して強力なモデルを微調整します。このモデルの最終的なパフォーマンスは、強い上限パフォーマンスと呼ばれます。

通常、弱いパフォーマンスから強いパフォーマンスへの変化は、弱いパフォーマンスと強い天井パフォーマンスの間のどこかに当てはまります。本稿では、下図に示すように、上記の 3 つのパフォーマンス (弱い、弱いから強い、強い上限) の関数として PGR (パフォーマンス ギャップ回復) を定義します。

完全な弱から強への一般化が達成された場合、PGR は 1 になります。弱から強へのモデルのパフォーマンスが弱スーパーバイザよりも優れていない場合、PGR は 0 になります。

実験結果

この論文では、NLP タスク、チェス、報酬モデリング タスクにおいて、強力な学生モデルのパフォーマンスを評価し、その結果を次に示します。全体的に、すべての設定において、弱いものから強いものへの一般化が見られます。つまり、強い学生モデルは一貫して弱い監督者モデルよりも優れています。

図 4 に示すように、単純なアプローチを使用すると、弱から強への一般化を大幅に改善できることがわかります。

図 5 は、より小さな強力な生徒の場合、パフォーマンスは単純なベースラインよりもわずかに劣るものの、一般化能力の向上が依然として明らかであることを示しています。

図7(a)は、ChatGPT RMタスクのトレーニングプロセス中の真値テスト精度曲線を示しており、図7(b)と(c)は、最高および最終的な真値テスト精度を比較しています。

図 9a は、7 つの代表的な NLP タスクを考慮し、微調整、ゼロ ショット プロンプト、および 5 ショット プロンプトを比較しています。ゼロ ショットと 5 ショットのベースラインでは、表 2 にまとめられているタスク固有のプロンプトを使用します。

詳細については、原文論文を参照してください。

<<:  DeepMindの論文がNatureに掲載されました。大規模なモデルが、数学者を何十年も悩ませてきた問題に新たな解決策を発見しました。

>>:  2024年に人工知能はどこへ向かうのでしょうか?

ブログ    
ブログ    

推薦する

ユニバーサルミッション!清華大学、線形複雑性を実現するバックボーンネットワークFlowformerを提案|ICML2022

タスクの一般性は、基本モデル研究の中心的な目標の 1 つであり、ディープラーニング研究が高度なインテ...

2024年に向けて誰もが準備すべきAIトレンドトップ10

2024年には、AI技術を取り巻くより困難な問題のいくつかを解決するための進歩が見られることを期待...

AIは寒さに晒されているのか?スタンフォード大学の年次AIレポートが秘密を明らかにする

2019年へのカウントダウンが始まり、今年はAIの発展に関する議論がたびたび取り上げられています。 ...

GoogleはAIチップに出産を学習させ、次世代のTPUはAI自身によって設計される

[[405016]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

ヘルスケアにおける人工知能の新たなフロンティア

[[262099]]医療機関が AI の導入を競う中、プロセス中心のアプローチを AI 戦略に組み込...

本当に良いものです!機械学習技術と市場の最強評価ガイド

【51CTO.comオリジナル記事】機械学習の特許は、2013 年から 2017 年の間に 34% ...

...

もし人工知能が人類をリードし、他の惑星で発展したら、その人工知能は人類を支配することになるのでしょうか?

科学者たちは長期にわたる調査により、人類文明の進歩が指数関数的な上昇傾向を示していることを発見した。...

AIと機械学習でデータセンターを強化

AIと機械学習はデータセンターをよりスマートにする上でますます重要な役割を果たしている今日の企業では...

市場規模は100億を超え、マシンビジョンはブルーオーシャンの傾向を示す

マシンビジョンとは、人間の目の代わりに機械を使って物事を測定・判断し、その判断結果に基づいて現場の設...

...

ステップバイステップガイド: FastAPI を使用して YOLO モデルをデプロイする手順

コンピューター ビジョンの分野では、You Only Look Once (YOLO) アルゴリズム...

スタートアップがAIを活用している3つの分野

[[311550]] [51CTO.com クイック翻訳] 人工知能は最新の開発トレンドであり、その...