ChatGPTの登場以来、OpenAIが使用するトレーニング方法である人間によるフィードバックによる強化学習(RLHF)は大きな注目を集め、大規模言語モデル(LLM)を微調整するための中核的な方法となっています。 RLHF アプローチでは、トレーニング中に人間からのフィードバックを使用して、役に立たない、歪んだ、または偏った出力を最小限に抑え、AI モデルを人間の価値観に合わせます。 しかし、RLHF法にも欠陥がある。最近、MIT CSAIL、ハーバード大学、コロンビア大学などの研究者数十人が共同でレビュー論文を発表し、この分野の200以上の研究論文を分析・議論し、RLHF法の欠陥を体系的に研究した。 論文アドレス: https://huggingface.co/papers/2307.15217 全体として、この論文は RLHF の限界を強調し、より安全な AI システムを開発するには多面的なアプローチが必要であることを示しています。研究チームは次のことを行いました。
具体的には、論文の中心となる内容は次の 3 つの部分から構成されます。 1. RLHF が直面している特定の課題。研究チームは、RLHF 関連の問題を分類して調査し、RLHF が直面している課題と RLHF の根本的な限界を区別しました。前者は解決が容易で、RLHF フレームワーク内で改善された方法を使用して対処できますが、後者は、整合の問題に対処するために他の方法で解決する必要があります。 2. RLHF をより広範な技術安全フレームワークに統合します。この論文では、RLHF は安全な AI を開発するための完全なフレームワークではないことを示し、問題を軽減するための複数の冗長戦略の重要性を強調しながら、RLHF をよりよく理解、改善、補完するのに役立ついくつかの方法について説明しています。 3. ガバナンスと透明性。この論文では、業界規範の改善における課題を分析します。例えば、研究者らは、RLHF を使用して AI システムをトレーニングする企業に、そのトレーニングの詳細を開示してもらうことが有益かどうかについて議論しました。 論文の核心部分の構成と基本的な内容を見てみましょう。 下の図 1 に示すように、この研究では、RLHF に関連する 3 つのプロセス (人間のフィードバックの収集、報酬のモデリング、戦略の最適化) を分析しました。その中で、フィードバック プロセスはモデル出力の人間による評価を促し、報酬モデリング プロセスは教師あり学習を使用して人間の評価を模倣する報酬モデルをトレーニングし、戦略最適化プロセスは人工知能システムを最適化して、報酬モデルによってより適切に評価される出力を生成します。論文の第 3 章では、これら 3 つのプロセスと共同トレーニング報酬モデルおよび戦略という 4 つの側面から RLHF 法の問題点と課題について説明します。 論文の第 3 章でまとめられている問題は、AI システムの開発に RLHF に大きく依存すると安全上のリスクが生じることを示しています。 RLHF は有用ですが、人間のような AI を開発するという根本的な課題には対処していません。 研究チームは、単一の戦略が包括的な解決策であるとみなされるべきではないと考えています。より良いアプローチは、複数のセキュリティ方法を備えた「ディープ ディフェンス」を採用することです。論文の第 4 章では、RLHF の理解、改善、補完の観点から AI セキュリティを向上させる方法について詳しく説明しています。 この論文の第 5 章では、RLHF ガバナンスが直面するリスク要因と監査対策について概説しています。 要約する研究では、実際の多くの問題は RLHF の基本的な限界に起因しており、RLHF 以外の方法で回避または補償する必要があることが判明しました。したがって、この論文では、(1)RLHFやその他の方法の根本的な限界に照らして技術の進歩を評価すること、(2)多層防御のセキュリティ対策を採用し、研究結果を科学コミュニティとオープンに共有することでAIの整合問題に対処すること、という2つの戦略の重要性を強調しています。 さらに、この研究では、RL ポリシーの難しさなど、いくつかの課題や問題は RLHF に固有のものではなく、AI アライメントの基本的な問題であることが明らかになっています。 興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。 |
>>: OpenAIの仮説が覆される!計算量を考慮すると、小さいモデルの方が大きいモデルよりも優れています。Llama 2 のトレーニングは GPU コンピューティングに関連しています。
平均と分散のマップ削減一連の数値の平均と分散の式は誰にとっても明らかだと思います。マップ関数とリデュ...
[[252365]]日経新聞によると、日本の世論調査会社が、人工知能(AI)と恋に落ちたり友達になっ...
AI が行き詰まった場合、サイバーセキュリティ業界は従来の方法、特に人間主導の方法に大きく依存し続...
[[381201]]新しいデータセット用のニューラル ネットワーク予測モデルの開発は困難な場合があり...
[[327238]] Twitter社が永久に在宅勤務を行うと発表した後、ザッカーバーグ氏は今後5年...
人工知能が再び人気を集めていることは間違いありません。第14次5カ年計画では、国家発展の戦略的支えと...
[[349273]] AI は情報を活用して、プロジェクトの初期段階で建築家にとって重要な決定を下し...
モノのインターネットは私たちの日常生活を再構築するのに役立つテクノロジーですが、IoT がその可能性...
編纂者 | Yan Zheng制作:51CTO テクノロジースタック(WeChat ID:blog)...
画像ソース: unsplash 30秒で読める1.複数の人工知能技術サービスプロバイダーがIT Ti...
著者 | 魏耀成魏ナレッジ グラフの視覚化により、ナレッジ グラフ データをより直感的に表示および分...
最近、人工知能の開発はますます激しくなってきています。ますます多くの新製品が私たちの生活に入ってきて...
[[395305]]最近、Ant Security Tianzhu Labのセキュリティ専門家である...