GPT-2はGPT-4を監督できる、イリヤがOpenAI初のスーパーアライメント論文を主導：AIアライメントAIは実証的な結果を達成

過去1年間、「次のトークンを予測する」ことを本質とする大規模なモデルが人間の世界の多くのタスクに浸透し、人工知能の大きな可能性を実証してきました。

最近のインタビューで、OpenAIの主任科学者イリヤ・スツケバー氏は、モデルが次の単語をうまく予測できれば、その単語の生成につながった深遠な現実を理解できることになる、と大胆に予測した。つまり、AIが現在の軌道に沿って発展し続ければ、近い将来、人間を超える人工知能システムが誕生する可能性があるということです。

しかし、さらに心配なのは、「スーパー人工知能」が予期せぬ悪影響をもたらすかもしれないということだ。これは「アライメント」の意味でもあります。

これまでのアライメント方法は、ChatGPT トレーニングで重要な役割を果たす、人間によるフィードバックによる強化学習 (RLHF) などの人間の監督に依存しています。しかし、将来の AI システムは非常に複雑かつ創造的な動作が可能になる可能性があり、人間が確実に監視することが困難になる可能性があります。たとえば、超人的なモデルは、人間の専門家でも理解するのが難しい、何百万行もの斬新で潜在的に危険なコンピュータコードを書く可能性があります。

人工知能のレベルが人間のレベルを超えたら、人間よりもはるかに賢い人工知能システムをどのように監視できるのでしょうか?人類の文明は最終的に転覆され、あるいは破壊されてしまうのでしょうか?

ヒントン氏のような学界の巨匠ですらこの問題については悲観的だ。同氏は「より高度な知能を持つものが、はるかに低い知能を持つものに制御されるという事例を見たことがない」と述べている。

ちょうど今、OpenAIの「スーパーアライメント」チームは設立以来初の論文を発表し、超人モデルの経験的アライメントに向けた新たな研究方向を開拓したと主張している。

論文リンク: https://cdn.openai.com/papers/weak-to-strong-generalization.pdf

OpenAIの「スーパーアライメント」チームは今年7月に設立され、4年以内に超知能AIのアライメント問題を解決すること、つまり信頼できる人間レベルの研究者を構築し、それを使ってアライメント問題を解決することを目標としている。このチームは同社の計算能力の20％を投入したと言われている。

この論文では、OpenAI は「スーパー人工知能の人間による監督」という問題について、小さなモデルで大きなモデルを監督するという単純な類推をしました。

研究によると、15億のパラメータを持つGPT-2モデルはGPT-4のほとんどの機能を刺激するために使用でき、GPT-3.5に近いパフォーマンスを実現し、より小さなモデルでは失敗する難しい問題にも正しく一般化できることがわかっています。

OpenAI はこの現象を「弱から強への一般化」と呼んでいます。これは、強力なモデルはタスクの実行方法に関する暗黙の知識を持っており、粗雑な指示を与えられた場合でもその知識を自ら見つけることができることを示唆しています。

しかし、この研究では、弱い監督で訓練された強力なモデルと実際のラベルで訓練された強力なモデルの間には依然として大きなギャップがあることも指摘されています。これは、追加の作業がなければ、人間によるフィードバックによる強化学習 (RLHF) などの手法が超人モデルにうまく拡張できない可能性があることを示唆しています。 ChatGPT 報酬モデリングタスクではパフォーマンスのギャップが特に大きくなります。

ガイド付き監督に中間モデルサイズを使用する、微調整時に補助的な信頼度損失を追加して弱いラベルによって矛盾が生じてもモデルが自信を持ち続けるように促す、追加の監督なし事前トレーニングを通じて表現学習を改善するなど、いくつかの単純なアプローチによって、弱から強への一般化を大幅に改善できます。

他の研究者がこうした問題に取り組むことを奨励するため、OpenAI は本日、さまざまなアライメント手法の研究に 1,000 万ドルの資金を提供する予定であることも発表しました。

論文の詳細は以下の通りです。

研究方法

この論文では、主に強化学習と人間のフィードバック (RLHF) を通じてモデルを誘導または調整しており、評価者によって高く評価された動作を強化し、評価者によって低く評価された動作にペナルティを課すことでこれを実現しています。これは、人間の評価者がモデルの動作が良いか悪いかを正確に判断できる場合に非常にうまく機能し、ChatGPT などの大規模な言語モデルのトレーニングの中心的な部分となります。

しかし問題は、スーパーモデルが人間が完全に理解できない複雑で創造的な行動をとる可能性があることです。たとえば、スーパーアシスタントモデルが 100 万行のコードを生成する場合、コードがユーザーの意図に従っているかどうか、アシスタントモデルがコードに関する質問に正直に答えているかどうか、コードを実行しても安全か危険かなど、主要なアライメント関連のタスクについて人間は信頼できる監視を提供できなくなります。

したがって、人間の監督下でスーパーモデルを微調整した場合、人間自身が確実に監督することが難しい複雑な動作に対してこのモデルがどの程度一般化されるかはわかりません。言い換えれば、これは、人間の指導があっても、これらのスーパーモデルが複雑な状況や未知の状況に対処する際のパフォーマンスが不確実なままであることを意味します。

これにより、スーパーモデルの調整に課題が生じます。つまり、知能の低いスーパーバイザーが、自分よりもはるかに賢いモデルをどのように制御できるのでしょうか?この質問の重要性にもかかわらず、現時点では経験的に研究することは困難です。

一般的に言えば、スーパーアライメントの中心的な課題は、人間が自分よりも賢いモデルを監督する必要があることです。これは弱から強への学習問題です。つまり、弱い監督者は、自分よりもはるかに賢いモデルをどのように監督できるのでしょうか?この問題に対処するために、本論文では、弱い人間の監督者を弱いモデルに置き換えるという単純な類推を提案します。

一般的に、従来の機械学習は、人間が監督するモデルが人間よりも弱い設定に重点を置いています。しかし、最終的なスーパーアライメント問題に関しては、人間が監督するモデルがそれを上回ります。したがって、この論文では、弱いモデルを使用して強いモデルを監督するという同様の問題を研究します。

特定のタスクに対してこれを実装する方法は次のとおりです。

弱い監督者の構築。この論文では、真値ラベルに基づいて事前学習済みの小規模モデルを微調整することで、弱い教師を構築します。この弱い教師のパフォーマンスを「弱い表現」と呼び、弱いモデルの予測を通じて弱いラベルを生成します。
弱い監督で強い学生モデルをトレーニングする。生成された弱いラベルを使用して強いモデルを微調整し、このモデルを強い学生モデルと呼び、結果として得られるパフォーマンスを弱から強いパフォーマンスと呼びます。
真のラベルによって上限が制限される強力なモデルをトレーニングします。比較のために、グラウンドトゥルースラベルを使用して強力なモデルを微調整します。このモデルの最終的なパフォーマンスは、強い上限パフォーマンスと呼ばれます。

通常、弱いパフォーマンスから強いパフォーマンスへの変化は、弱いパフォーマンスと強い天井パフォーマンスの間のどこかに当てはまります。本稿では、下図に示すように、上記の 3 つのパフォーマンス (弱い、弱いから強い、強い上限) の関数として PGR (パフォーマンスギャップ回復) を定義します。

完全な弱から強への一般化が達成された場合、PGR は 1 になります。弱から強へのモデルのパフォーマンスが弱スーパーバイザよりも優れていない場合、PGR は 0 になります。

実験結果

この論文では、NLP タスク、チェス、報酬モデリングタスクにおいて、強力な学生モデルのパフォーマンスを評価し、その結果を次に示します。全体的に、すべての設定において、弱いものから強いものへの一般化が見られます。つまり、強い学生モデルは一貫して弱い監督者モデルよりも優れています。

図 4 に示すように、単純なアプローチを使用すると、弱から強への一般化を大幅に改善できることがわかります。

図 5 は、より小さな強力な生徒の場合、パフォーマンスは単純なベースラインよりもわずかに劣るものの、一般化能力の向上が依然として明らかであることを示しています。

図7(a)は、ChatGPT RMタスクのトレーニングプロセス中の真値テスト精度曲線を示しており、図7(b)と(c)は、最高および最終的な真値テスト精度を比較しています。

図 9a は、7 つの代表的な NLP タスクを考慮し、微調整、ゼロショットプロンプト、および 5 ショットプロンプトを比較しています。ゼロショットと 5 ショットのベースラインでは、表 2 にまとめられているタスク固有のプロンプトを使用します。

詳細については、原文論文を参照してください。

<<: DeepMindの論文がNatureに掲載されました。大規模なモデルが、数学者を何十年も悩ませてきた問題に新たな解決策を発見しました。

>>: 2024年に人工知能はどこへ向かうのでしょうか?

ブログ

GPT-5は来年登場？内部告発者は、マルチモーダルゴビはGPT-5であり、自己認識能力を示していることを明らかにした。

GPT-2はGPT-4を監督できる、イリヤがOpenAI初のスーパーアライメント論文を主導：AIアライメントAIは実証的な結果を達成

研究方法

実験結果

GPT-5は来年登場？内部告発者は、マルチモーダルゴビはGPT-5であり、自己認識能力を示していることを明らかにした。

TPCアライアンス設立：科学的発見の推進に向け、1兆以上のパラメータを持つAIモデルを目指す

ディープラーニングニューラルネットワークによる予測区間

今のところ人工知能があなたの仕事を奪うことはないが、すでにあなたの履歴書に載っている

IEEEの論文では、画像強調を実現するための放射状変換を提案している

最高データおよび分析責任者は、AI 投資の収益をどのように見ているのでしょうか?

推薦する

人工知能を迷わせない

脳も学習を強化しています！「価値判断」は脳によって効率的にコード化され、ニューロンに公開される

速報：バイトダンスAIの馬衛英最高責任者が辞任し、清華大学の張亜琴チームに加わる

IoT/AIプロジェクトへの投資家を見つけるのに最適な方法

合意アルゴリズムRaftの簡単な紹介

AIが農業用水効率の課題をどう解決するか

人工知能の 10 大トレンドのうち、予想もしなかったものはどれですか?

ChatGPTはプログラミングの楽しさを殺している

カメラの前で指をタップすることでパーキンソン病の症状を遠隔で評価するAIツールが開発される

ITBハードドライブがあなたを待っています | 人工知能+ブロックチェーンの開発動向と応用に関する研究

AI人材の確保をめぐる秘密の戦い：中国が勝利する可能性は？