GPT-2を使ってGPT-4を監督し、AIが人類を滅ぼすのを防ぐ？OpenAI Ilya Super Alignmentチームの最初の論文が発表される

たった今、OpenAI のチーフサイエンティスト Ilya が率いるスーパーアライメントチームが設立以来初の論文を発表しました!

研究チームは、超人モデルを経験的に整合させるための新たな研究の方向性を発見したと主張している。

将来のスーパー AI システムを調整する上での中心的な課題は、人間が自分よりも賢い AI システムを監督する必要があることです。

OpenAI の最新の研究では、単純な類推が示されています。小さなモデルが大きなモデルを監督できるでしょうか?

論文アドレス: https://cdn.openai.com/papers/weak-to-strong-generalization.pdf

GPT-2 は GPT-4 のほとんどの機能をシミュレートでき (GPT-3.5 のパフォーマンスに近い)、小さなモデルでは失敗する難しい問題にも正しく一般化できることが証明されています。

OpenAI によるこの動きは、反復的な実証実験を進めながら将来のスーパー AI モデルを調整するという中核的な課題に直接取り組むことを可能にする新しい研究の方向性を切り開きます。

誰もが理解しやすいように、スーパーアライメントの共同リーダーであるヤン・ライケ氏も研究の簡単な概要を発表しました。

人間は自分たちよりも賢い AI をどうやって制御できるのでしょうか?

OpenAIは、スーパーインテリジェンス（人間よりもはるかに賢い人工知能）が今後10年以内に出現する可能性が高いと考えています。

しかし、人間は超人的な AI システムを確実に誘導し、制御する方法をまだ知りません。

この質問は、将来の最も先進的な AI システムが安全であり、人類にとって有益であることを保証するために非常に重要です。

この問題に対処することは、将来の最先端の AI システムが安全であり、人類に利益をもたらすことを保証するために重要です。

このため、OpenAIは今年7月にこの種のスーパーインテリジェンスのアライメント問題を解決するために「スーパーアライメントチーム」を設立した。

5か月後、研究チームは最初の論文を発表し、経験的に整合された超人モデルに関する新たな研究の方向性を紹介した。

人間によるフィードバックによる強化学習 (RLHF) などの現在のアライメント方法は、人間の監督に大きく依存しています。

しかし、将来の AI システムは明らかに極めて複雑かつ創造的な動作が可能になるため、人間が確実に監視することが難しくなるでしょう。

たとえば、超人的なモデルが、専門家でも完全に理解するのが難しい、何百万行もの斬新で潜在的に危険なコンピュータコードを書いたとしたら、人間はどうするでしょうか。

超人的なAIモデルと比較すると、人間は「弱い監督者」になることがわかります。

これが AGI アライメントの中心的な課題です。つまり、「弱い」人間が自分たちよりも賢い AI システムを信頼し、制御するにはどうすればいいのでしょうか。

スーパーアライメント: 小さなモデルを使用して大きなモデルを監督しますか?

この中核的な課題を前進させるために、OpenAI は経験的に研究できる類推を提案しています。より小さな (能力の低い) モデルがより大きな (能力の高い) モデルを監督できるでしょうか?

スーパーアライメントの簡単な例え: 従来の ML では、人間が監督する AI システムは、それ自体よりも弱いです (左)。超知能を連携させるには、人間は自分よりも賢い AI システムを監督する必要がある (中央)。今日、この問題を直接研究することはできませんが、簡単な類推を研究することはできます。小さなモデルは大きなモデルを監督できるでしょうか (右の図)?

単純に考えると、強力なモデルは、トレーニング信号を提供する弱い監督よりもパフォーマンスが良くなることはないだろうと思うかもしれません。監督が不十分な場合に起こる間違いをすべて真似することを学ぶだけかもしれません。

一方、強力な事前トレーニング済みモデルは優れた生の機能を備えているため、新しいタスクを一から教える必要はなく、潜在的な知識を引き出すだけで済みます。

重要な疑問は、強いモデルが弱い監督の根本的な意図に従って一般化し、弱い監督では不完全または欠陥のあるトレーニングラベルしか提供できない困難な問題でも、その能力を最大限に活用してタスクを解決できるかどうかです。

研究チームは最初の成果を発表した。GPT-2を使ってGPT-4を監督する

この目的のために、チームは、NLP ベンチマークの典型的な弱から強への一般化、つまり GPT-2 レベルのモデルを弱い監督として使用して GPT-4 を微調整しました。

多くの場合、このアプローチにより一般化が大幅に改善されます。

シンプルなアプローチを使用すると、必要に応じて弱く監視された意見とは異なる意見を自信を持って述べるなど、より強力なモデルに自信を持たせることができます。

GPT-4 を監督する GPT-2 レベルのモデルを使用して NLP タスクにこのアプローチを使用すると、結果のモデルは通常、GPT-3 と GPT-3.5 の間になります。

監視を弱めれば、GPT-4 の機能のほとんどを復元できます。

もちろん、このアプローチは概念実証のようなもので、ChatGPT の設定データには適用されないなど、多くの制限があります。

しかし、チームは、最適な早期停止や、小規模モデルから中規模モデル、大規模モデルへとブートストラップするといった他のアプローチも発見しました。

全体的に、結果は（1）単純な人間による監督（RLHFなど）は、さらなる作業なしで達成できることを示しています。超人的なモデルにまで拡張可能であるが、（2）弱から強への一般化を大幅に改善することは可能である。

オープンソースコード、コミュニティの共創

OpenAI の現在の経験的設定とスーパーモデルを調整するという究極の問題との間には、依然として重要な違いがあります。

たとえば、将来のモデルは現在の強いモデルよりも現在の弱いモデルのエラーをより簡単に模倣できる可能性があり、将来の一般化がより困難になる可能性があります。

それでも、OpenAI チームは、この実験設定によって将来のスーパーモデルを調整する上での主要な困難の一部が捉えられ、OpenAI がこの問題に関して検証可能な進歩を遂げることができると考えています。

同時に、彼らは設定の見直し、よりスケーラブルな方法の開発、そして「弱から強」への優れた一般化をいつどのように得るかについての科学的理解の深化など、今後の研究の方向性も明らかにした。

OpenAIは、機械学習コミュニティの研究者が弱い一般化から強い一般化までの実験をすぐに簡単に開始できるように、コードをオープンソース化していると述べた。

スーパーアライメント問題を解決するために1000万ドルの資金提供

今回、OpenAI はエリック・シュミット氏と提携し、超人的な AI システムの整合性と安全性を確保するための技術研究を支援する 1,000 万ドルの助成金プログラムを立ち上げました。

OpenAI は、学術研究室、非営利団体、個人の研究者に 10 万ドルから 200 万ドルの範囲の助成金を提供しています。

- 大学院生向けに、OpenAI は 1 年間で 150,000 ドルの OpenAI Superalignment 奨学金を設立しました。これには 75,000 ドルの奨学金と 75,000 ドルのコンピューティングおよび研究資金が含まれます。

- 応募者は以前にアライメント作業の経験を持っている必要はありません。OpenAI は特に、初めてアライメント研究を行う研究者をサポートします。

- 申請手続きは簡単かつ効率的であり、申請期限後 4 週間以内に具体的な回答が提供されます。

OpenAI は特に以下の研究方向に興味を持っています。

- 弱い一般化から強い一般化: 人間は、超人的なモデルに対しては比較的弱い監督者となります。人間は、強力なモデルが弱い監督からどのように学習し、一般化するかを理解し、制御できるでしょうか?

- 解釈可能性: 人間はモデルの内部の仕組みをどのように理解できるでしょうか?人間はこの理解を利用して、人間を助ける AI 嘘発見器のようなツールを開発できるでしょうか?

- スケーラブルな監視: 人間は AI システムをどのように使用して、複雑なタスクにおける他の AI システムのパフォーマンスを人間が評価できるように支援できるでしょうか?

- 研究分野も複数あり、その中には、誠実さ、思考連鎖の誠実さ、敵対的堅牢性、評価およびテストプラットフォームなどがあります (ただし、これらに限定されません)。

<<: カリフォルニア大学バークレー校のDeepMindと他の企業が共同で、仮想と現実の境界を打ち破る現実世界シミュレーターをリリースした。

>>:

GPT-2を使ってGPT-4を監督し、AIが人類を滅ぼすのを防ぐ？OpenAI Ilya Super Alignmentチームの最初の論文が発表される

人間は自分たちよりも賢い AI をどうやって制御できるのでしょうか?

スーパーアライメント: 小さなモデルを使用して大きなモデルを監督しますか?

研究チームは最初の成果を発表した。GPT-2を使ってGPT-4を監督する

オープンソースコード、コミュニティの共創

スーパーアライメント問題を解決するために1000万ドルの資金提供

C# アルゴリズムアプリケーションでのガウス消去法の実装

ディープラーニングモデルは「大きいほど良い」というわけではなく、気候変動問題を引き起こす可能性がある

OpenAI は Google のトップエンジニアを引き抜くために年間 1,000 万ドルという高額な給与を提示している?北京大学のAI博士課程の学生が卒業前に100万ドルのオファーを受ける

ディープラーニングの限界を理解していますか?

AI の創造性を解き放つ: Replicate プラットフォーム上のトップ AI プロジェクト!

【ビッグネームがやってくる、エピソード10】柔軟なビッグデータクラウド分析プラットフォームを構築するためのハードルはゼロ

データ時代の金採掘者になりましょう。Analysysアルゴリズムコンペティションがあなたの実力を披露するのを待っています。

高齢者が松葉杖を捨てるのも夢ではない、新たなウェアラブルデバイス「スーパースーツ」をSeismicが開発

自動運転は安全試験に合格するのが難しい。自動車メーカー、サプライヤー、規制当局は協力を強化すべき

推薦する

5分間の技術講演 | GET3D生成モデルの簡単な分析

Nvidia に挑戦する Groq の起源は何ですか?新しいAIチップLPUの簡単な紹介

Testin Cloud Testingは、ビッグモデル+ソフトウェアテストの業界リーダーの技術革新の道を模索し始めました。

科学者たちは一連のAI映画評価ツールを開発しました。撮影が始まる前に評価を与えることができます。

AI および機械学習プロジェクトはどの程度安全ですか?

わずか6ステップで機械学習アルゴリズムをゼロから実装

NLP における新たなマイルストーン!清華大学ヤオクラスの卒業生がKEARをリリース：人間を超える初の常識質問応答システム

Google Brain のディープラーニングと TensorFlow の過去と現在を分析

オペレーティングシステムのプロセススケジューリングアルゴリズム (CPU 仮想化)

これら4つの業界は今後5年間で大きな利益を得るだろう

最初のライブ放送ではメリットが伝えられ、スマートハードウェアについての話を聞くことができます

データ + 進化的アルゴリズム = データ駆動型進化的最適化?進化的アルゴリズムと数学的最適化

AI産業化が深海域に入る中、コンピューティングパワーのボトルネックをどうやって打破するのか？

単語ベクトル計算とテキスト分類ツール fastText の応用原理と実践