200以上の大規模モデル論文の調査と分析、数十人の研究者が1つの論文でRLHFの課題と限界をレビュー

200以上の大規模モデル論文の調査と分析、数十人の研究者が1つの論文でRLHFの課題と限界をレビュー

ChatGPTの登場以来、OpenAIが使用するトレーニング方法である人間によるフィードバックによる強化学習(RLHF)は大きな注目を集め、大規模言語モデル(LLM)を微調整するための中核的な方法となっています。 RLHF アプローチでは、トレーニング中に人間からのフィードバックを使用して、役に立たない、歪んだ、または偏った出力を最小限に抑え、AI モデルを人間の価値観に合わせます。

しかし、RLHF法にも欠陥がある。最近、MIT CSAIL、ハーバード大学、コロンビア大学などの研究者数十人が共同でレビュー論文を発表し、この分野の200以上の研究論文を分析・議論し、RLHF法の欠陥を体系的に研究した。

論文アドレス: https://huggingface.co/papers/2307.15217

全体として、この論文は RLHF の限界を強調し、より安全な AI システムを開発するには多面的なアプローチが必要であることを示しています。研究チームは次のことを行いました。

  • RLHF および関連方法の未解決の問題と基本的な限界が調査されます。
  • RLHF を実際に理解し、改善し、補完するための方法が概説されています。
  • RLHF システムに対するコミュニティの監視を改善するための監査および開示基準を提案します。

具体的には、論文の中心となる内容は次の 3 つの部分から構成されます。

1. RLHF が直面している特定の課題。研究チームは、RLHF 関連の問題を分類して調査し、RLHF が直面している課題と RLHF の根本的な限界を区別しました。前者は解決が容易で、RLHF フレームワーク内で改善された方法を使用して対処できますが、後者は、整合の問題に対処するために他の方法で解決する必要があります。

2. RLHF をより広範な技術安全フレームワークに統合します。この論文では、RLHF は安全な AI を開発するための完全なフレームワークではないことを示し、問題を軽減するための複数の冗長戦略の重要性を強調しながら、RLHF をよりよく理解、改善、補完するのに役立ついくつかの方法について説明しています。

3. ガバナンスと透明性。この論文では、業界規範の改善における課題を分析します。例えば、研究者らは、RLHF を使用して AI システムをトレーニングする企業に、そのトレーニングの詳細を開示してもらうことが有益かどうかについて議論しました。

論文の核心部分の構成と基本的な内容を見てみましょう。

下の図 1 に示すように、この研究では、RLHF に関連する 3 つのプロセス (人間のフィードバックの収集、報酬のモデリング、戦略の最適化) を分析しました。その中で、フィードバック プロセスはモデル出力の人間による評価を促し、報酬モデリング プロセスは教師あり学習を使用して人間の評価を模倣する報酬モデルをトレーニングし、戦略最適化プロセスは人工知能システムを最適化して、報酬モデルによってより適切に評価される出力を生成します。論文の第 3 章では、これら 3 つのプロセスと共同トレーニング報酬モデルおよび戦略という 4 つの側面から RLHF 法の問題点と課題について説明します。

論文の第 3 章でまとめられている問題は、AI システムの開発に RLHF に大きく依存すると安全上のリスクが生じることを示しています。 RLHF は有用ですが、人間のような AI を開発するという根本的な課題には対処していません。

研究チームは、単一の戦略が包括的な解決策であるとみなされるべきではないと考えています。より良いアプローチは、複数のセキュリティ方法を備えた「ディープ ディフェンス」を採用することです。論文の第 4 章では、RLHF の理解、改善、補完の観点から AI セキュリティを向上させる方法について詳しく説明しています。

この論文の第 5 章では、RLHF ガバナンスが直面するリスク要因と監査対策について概説しています。

要約する

研究では、実際の多くの問題は RLHF の基本的な限界に起因しており、RLHF 以外の方法で回避または補償する必要があることが判明しました。したがって、この論文では、(1)RLHFやその他の方法の根本的な限界に照らして技術の進歩を評価すること、(2)多層防御のセキュリティ対策を採用し、研究結果を科学コミュニティとオープンに共有することでAIの整合問題に対処すること、という2つの戦略の重要性を強調しています。

さらに、この研究では、RL ポリシーの難しさなど、いくつかの課題や問題は RLHF に固有のものではなく、AI アライメントの基本的な問題であることが明らかになっています。

興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。

<<:  AIにとって合成データが必須である理由

>>:  OpenAIの仮説が覆される!計算量を考慮すると、小さいモデルの方が大きいモデルよりも優れています。Llama 2 のトレーニングは GPU コンピューティングに関連しています。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

2021 年の人工知能のトップ 10 トレンド

コロナウイルスのパンデミック以前、AI業界は2020年に大きな成長を遂げると予想されていました。 2...

人工知能はデータの管理と処理を改善する素晴らしい方法です

初期の AI マシンは不完全であり、明確に定義された指示に従ってのみ動作できました。しかし、コンピュ...

UiPath: 自動化とは、退化を拒否し、価値の高い仕事の創出に専念することです

【51CTO.comオリジナル記事】近年、RPAの開発はかつてないほど注目を集めています。 Mark...

ディープラーニングでは複素数を使うべきでしょうか?

マンデルブロ複素集合: https://en.wikipedia.org/wiki/Mandelbr...

貪欲アルゴリズムについて質問するのはやめてください。

[[323204]]序文三角形の最短経路と和を求めるとき、貪欲アルゴリズムを使用して解決できますか...

画像認識のためのトップ 5 プログラミング言語

この間、ゴミの分別に関するミニプログラムやアプリの登場により、画像認識が再び人々の注目を集めています...

...

研究によると、AppleのCSAMスキャンアルゴリズムは簡単に騙される可能性がある

最近、インペリアル・カレッジ・ロンドンの研究チームは、画像の内容を変えずに画像内容をスキャンするアル...

人工知能が製造業を改善する3つの方法

製造業者は、AI を、適切に機能するために会社全体にわたるエンドツーエンドのシステムを必要とする、非...

清華大学の孫茂松教授は、新しい微調整フレームワークCPTを提案し、精度を17.3%向上させた。

[[428133]]事前トレーニング済みモデルは、コンピューター ビジョンと言語の両方で顕著な結果...

Google VideoPoet の責任者 Jiang Lu が TikTok に参入しました! AIビデオモデル戦争が迫る

OpenAIを去った技術の第一人者、カルパシー氏はついにオンラインで2時間のAI講座を開始した。 —...

Google は、フルスタックプログラミング言語をサポートし、すぐに使用でき、ワンクリックでデプロイできるブラウザ AI 開発環境 IDX をリリースしました。

アプリケーションをゼロから開発するというコンセプトは何ですか?これをルーブ・ゴールドバーグ・マシンの...

モデル、データ、フレームワークの観点から、効率的な大規模言語モデルに関する54ページのレビューを紹介します。

大規模言語モデル (LLM) は、自然言語理解、言語生成、複雑な推論など、多くの重要なタスクにおいて...

...

高齢化社会に積極的に対応、サービスロボットがトレンドを活用

統計によると、2021年には65歳以上の高齢者人口が2億人を超え、総人口の14.2%を占める。家庭用...