GPT-2を使ってGPT-4を監督し、AIが人類を滅ぼすのを防ぐ?OpenAI Ilya Super Alignmentチームの最初の論文が発表される

GPT-2を使ってGPT-4を監督し、AIが人類を滅ぼすのを防ぐ?OpenAI Ilya Super Alignmentチームの最初の論文が発表される

たった今、OpenAI のチーフサイエンティスト Ilya が率いるスーパーアライメントチームが設立以来初の論文を発表しました!

研究チームは、超人モデルを経験的に整合させるための新たな研究の方向性を発見したと主張している。

将来のスーパー AI システムを調整する上での中心的な課題は、人間が自分よりも賢い AI システムを監督する必要があることです。

OpenAI の最新の研究では、単純な類推が示されています。小さなモデルが大きなモデルを監督できるでしょうか?

論文アドレス: https://cdn.openai.com/papers/weak-to-strong-generalization.pdf

GPT-2 は GPT-4 のほとんどの機能をシミュレートでき (GPT-3.5 のパフォーマンスに近い)、小さなモデルでは失敗する難しい問題にも正しく一般化できることが証明されています。

OpenAI によるこの動きは、反復的な実証実験を進めながら将来のスーパー AI モデルを調整するという中核的な課題に直接取り組むことを可能にする新しい研究の方向性を切り開きます。

誰もが理解しやすいように、スーパーアライメントの共同リーダーであるヤン・ライケ氏も研究の簡単な概要を発表しました。

人間は自分たちよりも賢い AI をどうやって制御できるのでしょうか?

OpenAIは、スーパーインテリジェンス(人間よりもはるかに賢い人工知能)が今後10年以内に出現する可能性が高いと考えています。

しかし、人間は超人的な AI システムを確実に誘導し、制御する方法をまだ知りません。

この質問は、将来の最も先進的な AI システムが安全であり、人類にとって有益であることを保証するために非常に重要です。

この問題に対処することは、将来の最先端の AI システムが安全であり、人類に利益をもたらすことを保証するために重要です。

このため、OpenAIは今年7月にこの種のスーパーインテリジェンスのアライメント問題を解決するために「スーパーアライメントチーム」を設立した。

5か月後、研究チームは最初の論文を発表し、経験的に整合された超人モデルに関する新たな研究の方向性を紹介した。

人間によるフィードバックによる強化学習 (RLHF) などの現在のアライメント方法は、人間の監督に大きく依存しています。

しかし、将来の AI システムは明らかに極めて複雑かつ創造的な動作が可能になるため、人間が確実に監視することが難しくなるでしょう。

たとえば、超人的なモデルが、専門家でも完全に理解するのが難しい、何百万行もの斬新で潜在的に危険なコンピュータ コードを書いたとしたら、人間はどうするでしょうか。

超人的なAIモデルと比較すると、人間は「弱い監督者」になることがわかります。

これが AGI アライメントの中心的な課題です。つまり、「弱い」人間が自分たちよりも賢い AI システムを信頼し、制御するにはどうすればいいのでしょうか。

スーパーアライメント: 小さなモデルを使用して大きなモデルを監督しますか?

この中核的な課題を前進させるために、OpenAI は経験的に研究できる類推を提案しています。より小さな (能力の低い) モデルがより大きな (能力の高い) モデルを監督できるでしょうか?

スーパーアライメントの簡単な例え: 従来の ML では、人間が監督する AI システムは、それ自体よりも弱いです (左)。超知能を連携させるには、人間は自分よりも賢い AI システムを監督する必要がある (中央)。今日、この問題を直接研究することはできませんが、簡単な類推を研究することはできます。小さなモデルは大きなモデルを監督できるでしょうか (右の図)?

単純に考えると、強力なモデルは、トレーニング信号を提供する弱い監督よりもパフォーマンスが良くなることはないだろうと思うかもしれません。監督が不十分な場合に起こる間違いをすべて真似することを学ぶだけかもしれません。

一方、強力な事前トレーニング済みモデルは優れた生の機能を備えているため、新しいタスクを一から教える必要はなく、潜在的な知識を引き出すだけで済みます。

重要な疑問は、強いモデルが弱い監督の根本的な意図に従って一般化し、弱い監督では不完全または欠陥のあるトレーニング ラベルしか提供できない困難な問題でも、その能力を最大限に活用してタスクを解決できるかどうかです。

研究チームは最初の成果を発表した。GPT-2を使ってGPT-4を監督する

この目的のために、チームは、NLP ベンチマークの典型的な弱から強への一般化、つまり GPT-2 レベルのモデルを弱い監督として使用して GPT-4 を微調整しました。

多くの場合、このアプローチにより一般化が大幅に改善されます。

シンプルなアプローチを使用すると、必要に応じて弱く監視された意見とは異なる意見を自信を持って述べるなど、より強力なモデルに自信を持たせることができます。

GPT-4 を監督する GPT-2 レベルのモデルを使用して NLP タスクにこのアプローチを使用すると、結果のモデルは通常、GPT-3 と GPT-3.5 の間になります。

監視を弱めれば、GPT-4 の機能のほとんどを復元できます。

もちろん、このアプローチは概念実証のようなもので、ChatGPT の設定データには適用されないなど、多くの制限があります。

しかし、チームは、最適な早期停止や、小規模モデルから中規模モデル、大規模モデルへとブートストラップするといった他のアプローチも発見しました。

全体的に、結果は(1)単純な人間による監督(RLHFなど)は、さらなる作業なしで達成できることを示しています。超人的なモデルにまで拡張可能であるが、(2)弱から強への一般化を大幅に改善することは可能である。

オープンソースコード、コミュニティの共創

OpenAI の現在の経験的設定とスーパーモデルを調整するという究極の問題との間には、依然として重要な違いがあります。

たとえば、将来のモデルは現在の強いモデルよりも現在の弱いモデルのエラーをより簡単に模倣できる可能性があり、将来の一般化がより困難になる可能性があります。

それでも、OpenAI チームは、この実験設定によって将来のスーパーモデルを調整する上での主要な困難の一部が捉えられ、OpenAI がこの問題に関して検証可能な進歩を遂げることができると考えています。

同時に、彼らは設定の見直し、よりスケーラブルな方法の開発、そして「弱から強」への優れた一般化をいつどのように得るかについての科学的理解の深化など、今後の研究の方向性も明らかにした。

OpenAIは、機械学習コミュニティの研究者が弱い一般化から強い一般化までの実験をすぐに簡単に開始できるように、コードをオープンソース化していると述べた。

スーパーアライメント問題を解決するために1000万ドルの資金提供

今回、OpenAI はエリック・シュミット氏と提携し、超人的な AI システムの整合性と安全性を確保するための技術研究を支援する 1,000 万ドルの助成金プログラムを立ち上げました。

OpenAI は、学術研究室、非営利団体、個人の研究者に 10 万ドルから 200 万ドルの範囲の助成金を提供しています。

- 大学院生向けに、OpenAI は 1 年間で 150,000 ドルの OpenAI Superalignment 奨学金を設立しました。これには 75,000 ドルの奨学金と 75,000 ドルのコンピューティングおよび研究資金が含まれます。

- 応募者は以前にアライメント作業の経験を持っている必要はありません。OpenAI は特に、初めてアライメント研究を行う研究者をサポートします。

- 申請手続きは簡単かつ効率的であり、申請期限後 4 週間以内に具体的な回答が提供されます。

OpenAI は特に以下の研究方向に興味を持っています。

- 弱い一般化から強い一般化: 人間は、超人的なモデルに対しては比較的弱い監督者となります。人間は、強力なモデルが弱い監督からどのように学習し、一般化するかを理解し、制御できるでしょうか?

- 解釈可能性: 人間はモデルの内部の仕組みをどのように理解できるでしょうか?人間はこの理解を利用して、人間を助ける AI 嘘発見器のようなツールを開発できるでしょうか?

- スケーラブルな監視: 人間は AI システムをどのように使用して、複雑なタスクにおける他の A​​I システムのパフォーマンスを人間が評価できるように支援できるでしょうか?

- 研究分野も複数あり、その中には、誠実さ、思考連鎖の誠実さ、敵対的堅牢性、評価およびテスト プラットフォームなどがあります (ただし、これらに限定されません)。

<<:  カリフォルニア大学バークレー校のDeepMindと他の企業が共同で、仮想と現実の境界を打ち破る現実世界シミュレーターをリリースした。

>>: 

ブログ    
ブログ    
ブログ    

推薦する

ナレッジグラフと AIGC を組み合わせるにはどうすればよいでしょうか? JD.comがやっていること

I.はじめにまず、JD.com による電子商取引シナリオにおける AIGC の調査について紹介します...

機械学習ソートLTR:線形モデルを簡単に始める

[[207297]] LTR のエントリーレベルのモデルは線形モデルです。この記事では線形モデルを例...

顔認識は道徳的および倫理的な懸念を引き起こします。あなたの顔は監視されていますか?

顔認識システムは私たちの都市に多くの利便性をもたらしました。しかし、多くの国では顔認識に対する抵抗が...

日本政府はAI規制に対して緩やかなアプローチを好んでいるが、日本企業は厳格なEU規則に従う可能性がある

日本は、急速に減少する日本の人口によって引き起こされる問題のいくつかに対処するために、人工知能(AI...

...

人工知能が高等教育を支援する:変化と持続

[[434825]]人工知能が教育に浸透する中で、我々は「静をもって動を制御する」という決意を持ち、...

...

...

Java 配列から HashMap へのアルゴリズムの説明

1. 配列とは何ですか?どの本にこのような文章があったか忘れましたが、「すべてのデータ構造は配列の進...

国内大学がSORA型VDTを開発、汎用ビデオ拡散トランスフォーマーがICLR2024に採択

2月16日のOpenAI Soraのリリースは、間違いなくビデオ生成の分野における大きな進歩を示しま...

この記事では、さまざまな教師なしクラスタリングアルゴリズムのPython実装について簡単に説明します。

教師なし学習は、データ内のパターンを見つけるために使用される機械学習技術の一種です。教師なし学習アル...

...