ChatGPTの登場以来、OpenAIが使用するトレーニング方法である人間によるフィードバックによる強化学習(RLHF)は大きな注目を集め、大規模言語モデル(LLM)を微調整するための中核的な方法となっています。 RLHF アプローチでは、トレーニング中に人間からのフィードバックを使用して、役に立たない、歪んだ、または偏った出力を最小限に抑え、AI モデルを人間の価値観に合わせます。 しかし、RLHF法にも欠陥がある。最近、MIT CSAIL、ハーバード大学、コロンビア大学などの研究者数十人が共同でレビュー論文を発表し、この分野の200以上の研究論文を分析・議論し、RLHF法の欠陥を体系的に研究した。 論文アドレス: https://huggingface.co/papers/2307.15217 全体として、この論文は RLHF の限界を強調し、より安全な AI システムを開発するには多面的なアプローチが必要であることを示しています。研究チームは次のことを行いました。
具体的には、論文の中心となる内容は次の 3 つの部分から構成されます。 1. RLHF が直面している特定の課題。研究チームは、RLHF 関連の問題を分類して調査し、RLHF が直面している課題と RLHF の根本的な限界を区別しました。前者は解決が容易で、RLHF フレームワーク内で改善された方法を使用して対処できますが、後者は、整合の問題に対処するために他の方法で解決する必要があります。 2. RLHF をより広範な技術安全フレームワークに統合します。この論文では、RLHF は安全な AI を開発するための完全なフレームワークではないことを示し、問題を軽減するための複数の冗長戦略の重要性を強調しながら、RLHF をよりよく理解、改善、補完するのに役立ついくつかの方法について説明しています。 3. ガバナンスと透明性。この論文では、業界規範の改善における課題を分析します。例えば、研究者らは、RLHF を使用して AI システムをトレーニングする企業に、そのトレーニングの詳細を開示してもらうことが有益かどうかについて議論しました。 論文の核心部分の構成と基本的な内容を見てみましょう。 下の図 1 に示すように、この研究では、RLHF に関連する 3 つのプロセス (人間のフィードバックの収集、報酬のモデリング、戦略の最適化) を分析しました。その中で、フィードバック プロセスはモデル出力の人間による評価を促し、報酬モデリング プロセスは教師あり学習を使用して人間の評価を模倣する報酬モデルをトレーニングし、戦略最適化プロセスは人工知能システムを最適化して、報酬モデルによってより適切に評価される出力を生成します。論文の第 3 章では、これら 3 つのプロセスと共同トレーニング報酬モデルおよび戦略という 4 つの側面から RLHF 法の問題点と課題について説明します。 論文の第 3 章でまとめられている問題は、AI システムの開発に RLHF に大きく依存すると安全上のリスクが生じることを示しています。 RLHF は有用ですが、人間のような AI を開発するという根本的な課題には対処していません。 研究チームは、単一の戦略が包括的な解決策であるとみなされるべきではないと考えています。より良いアプローチは、複数のセキュリティ方法を備えた「ディープ ディフェンス」を採用することです。論文の第 4 章では、RLHF の理解、改善、補完の観点から AI セキュリティを向上させる方法について詳しく説明しています。 この論文の第 5 章では、RLHF ガバナンスが直面するリスク要因と監査対策について概説しています。 要約する研究では、実際の多くの問題は RLHF の基本的な限界に起因しており、RLHF 以外の方法で回避または補償する必要があることが判明しました。したがって、この論文では、(1)RLHFやその他の方法の根本的な限界に照らして技術の進歩を評価すること、(2)多層防御のセキュリティ対策を採用し、研究結果を科学コミュニティとオープンに共有することでAIの整合問題に対処すること、という2つの戦略の重要性を強調しています。 さらに、この研究では、RL ポリシーの難しさなど、いくつかの課題や問題は RLHF に固有のものではなく、AI アライメントの基本的な問題であることが明らかになっています。 興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。 |
>>: OpenAIの仮説が覆される!計算量を考慮すると、小さいモデルの方が大きいモデルよりも優れています。Llama 2 のトレーニングは GPU コンピューティングに関連しています。
海外メディアの報道によると、マイクロソフトは10月20日、アプリケーションやサービス内の有害な人工知...
翻訳者 |ブガッティレビュー | Chonglou ChatGPTは2020年6月にリリースされ、 ...
[[356811]]顔認識は人工知能の画期的な技術として、大規模に導入され始めています。顔認証ロッ...
AIGC アルゴリズムがあらゆるスタイルの素晴らしいアートワークを生成し、素晴らしい文法で長い記事を...
海外メディアの報道によると、人工知能はここ数年、着実な成長曲線を保っている。しかし、COVID-19...
電子ファンネットワークが報じた(文/李婉婉)近年、技術の継続的な進歩に伴い、人工知能産業は急速に発展...
[[213294]]写真はインターネットからアルゴリズム関連人材の市場では、需要と供給の不均衡が深...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
人工知能業界では、今年多くの出来事がありましたが、その中には慎重に検討する価値のあるものもありました...
ドローンの市場、入手可能性、需要が長年にわたってどのように増加してきたかを学びます。映画の架空の世界...
ビッグデータ、分析、AI に関しては、価値はデータの収集から(あるいはそこから何らかの洞察を引き出す...
スティーブ・ジョブズの「電話の再発明」は携帯電話を再定義しただけでなく、世界を変え、人類をモバイルイ...
推薦システムは早くから誕生していたが、本格的に注目されるようになったのは、「Facebook」に代表...
5月20日、中国国家深層学習技術応用工程研究室と百度が共催する「WAVE SUMMIT 2021 ...