ChatGPTの登場以来、OpenAIが使用するトレーニング方法である人間によるフィードバックによる強化学習(RLHF)は大きな注目を集め、大規模言語モデル(LLM)を微調整するための中核的な方法となっています。 RLHF アプローチでは、トレーニング中に人間からのフィードバックを使用して、役に立たない、歪んだ、または偏った出力を最小限に抑え、AI モデルを人間の価値観に合わせます。 しかし、RLHF法にも欠陥がある。最近、MIT CSAIL、ハーバード大学、コロンビア大学などの研究者数十人が共同でレビュー論文を発表し、この分野の200以上の研究論文を分析・議論し、RLHF法の欠陥を体系的に研究した。 論文アドレス: https://huggingface.co/papers/2307.15217 全体として、この論文は RLHF の限界を強調し、より安全な AI システムを開発するには多面的なアプローチが必要であることを示しています。研究チームは次のことを行いました。
具体的には、論文の中心となる内容は次の 3 つの部分から構成されます。 1. RLHF が直面している特定の課題。研究チームは、RLHF 関連の問題を分類して調査し、RLHF が直面している課題と RLHF の根本的な限界を区別しました。前者は解決が容易で、RLHF フレームワーク内で改善された方法を使用して対処できますが、後者は、整合の問題に対処するために他の方法で解決する必要があります。 2. RLHF をより広範な技術安全フレームワークに統合します。この論文では、RLHF は安全な AI を開発するための完全なフレームワークではないことを示し、問題を軽減するための複数の冗長戦略の重要性を強調しながら、RLHF をよりよく理解、改善、補完するのに役立ついくつかの方法について説明しています。 3. ガバナンスと透明性。この論文では、業界規範の改善における課題を分析します。例えば、研究者らは、RLHF を使用して AI システムをトレーニングする企業に、そのトレーニングの詳細を開示してもらうことが有益かどうかについて議論しました。 論文の核心部分の構成と基本的な内容を見てみましょう。 下の図 1 に示すように、この研究では、RLHF に関連する 3 つのプロセス (人間のフィードバックの収集、報酬のモデリング、戦略の最適化) を分析しました。その中で、フィードバック プロセスはモデル出力の人間による評価を促し、報酬モデリング プロセスは教師あり学習を使用して人間の評価を模倣する報酬モデルをトレーニングし、戦略最適化プロセスは人工知能システムを最適化して、報酬モデルによってより適切に評価される出力を生成します。論文の第 3 章では、これら 3 つのプロセスと共同トレーニング報酬モデルおよび戦略という 4 つの側面から RLHF 法の問題点と課題について説明します。 論文の第 3 章でまとめられている問題は、AI システムの開発に RLHF に大きく依存すると安全上のリスクが生じることを示しています。 RLHF は有用ですが、人間のような AI を開発するという根本的な課題には対処していません。 研究チームは、単一の戦略が包括的な解決策であるとみなされるべきではないと考えています。より良いアプローチは、複数のセキュリティ方法を備えた「ディープ ディフェンス」を採用することです。論文の第 4 章では、RLHF の理解、改善、補完の観点から AI セキュリティを向上させる方法について詳しく説明しています。 この論文の第 5 章では、RLHF ガバナンスが直面するリスク要因と監査対策について概説しています。 要約する研究では、実際の多くの問題は RLHF の基本的な限界に起因しており、RLHF 以外の方法で回避または補償する必要があることが判明しました。したがって、この論文では、(1)RLHFやその他の方法の根本的な限界に照らして技術の進歩を評価すること、(2)多層防御のセキュリティ対策を採用し、研究結果を科学コミュニティとオープンに共有することでAIの整合問題に対処すること、という2つの戦略の重要性を強調しています。 さらに、この研究では、RL ポリシーの難しさなど、いくつかの課題や問題は RLHF に固有のものではなく、AI アライメントの基本的な問題であることが明らかになっています。 興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。 |
>>: OpenAIの仮説が覆される!計算量を考慮すると、小さいモデルの方が大きいモデルよりも優れています。Llama 2 のトレーニングは GPU コンピューティングに関連しています。
[[328993]] 【51CTO.com クイック翻訳】 AI 市場のトレンドはどのくらいの速さで...
Mozilla の調査により、YouTube の推奨アルゴリズムは、ヘイトスピーチ、政治的および科学...
機械学習とディープラーニングの違いは何でしょうか?この記事から答えを見つけてみましょう。ターゲットこ...
予測分析モデルが改良されるにつれ、この分野のイノベーターたちは、これまで断片化されていて使用コストが...
[51CTO.comからのオリジナル記事] 高速かつ高性能なコンピュータの登場により、顔画像技術は大...
GPT-4 が最近少し「怠惰」になっていることにお気づきでしょうか。現在、GPT-4 は常に特定のタ...
IT は、世界で最も人気のあるスポーツであるサッカーをスペインで発展させ、体験する上で重要な役割を果...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
ロボットは大学のキャンパスに食べ物を配達したり、ゴルフコースでホールインワンを達成したりすることがで...
適切なコンサルタント チームが、優れたアプリケーションを選択して AI のメリットを発見できるようお...
[[319957]] Alimeiの紹介:2020年に突然発生したCOVID-19パンデミックに直...