RLHF の欠陥が完全に明らかに! MIT、ハーバード大学、その他32名の学者が共同で発表

RLHF の欠陥が完全に明らかに! MIT、ハーバード大学、その他32名の学者が共同で発表

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

MIT、ハーバード、スタンフォードなどの研究機関の32人の科学者が共同で指摘した。

ChatGPT 成功の鍵とされる RLHF には欠陥があり、それがさまざまなリンクに分散しています。

彼らは250件の関連論文を調査・検討したが、研究本文だけで18ページあり、そのうち7ページで具体的な欠陥について説明されていた。

この研究は発表されるとすぐに大きな注目を集めました。

一部のネットユーザーは「これは素晴らしい試みだ」とコメントした。これらすべては、RLHF の学術的課題を開始するために役立ちます。

第一著者のキャスパー氏は、RLHF に「新たな説明」も与えた。

歴史的失敗から教訓を再考する
歴史の失敗から学ぶ

問題を指摘するだけでなく、解決策も提供する

著者らは論文の中で、この研究には主に3つの貢献があると述べています。

1 つ目は、人間のフィードバック、報酬モデル、意思決定という 3 つの主要な側面における RLHF の欠陥を指摘することです。

2 番目のポイントでは、これらの問題に対する具体的な解決策を示します。

3つ目は、RLHF によって訓練されたモデルの透明性を高めることを求め、訓練情報の公開が企業責任の向上に役立つだろうと述べた。

まずは各リンクで著者が指摘している具体的な欠陥を見てみましょう。

人間によるフィードバックの限界

RLHF と他の強化学習方法の主な違いは、人間からのフィードバックです。

しかし、著者らは、人間によるフィードバックは不正確になりやすく、重大な欠陥の原因となると主張している。

人間からのフィードバックのセクションで、著者はまず、人間は誤解を招くような評価をする可能性があると述べました。

大規模なモデルの場合、関係する専門分野はあらゆる側面をカバーしており、誰もすべてに精通することはできません。

そのため、さまざまな分野の代表者を選出し、質の高いフィードバックをもらうことが必要です。

しかし、実際にはこの作業は非常に困難です。

さらに、人間は完全に合理的ではないため、個々の評価者の意見は必然的に偏り、有害となる可能性もあります。

概念上の問題によって引き起こされる「意図的な」逸脱に加えて、いくつかの逸脱は「偶発的」です。

時間と注意力が不足しているため、人為的なミスを避けることは困難です。

混乱を招く情報も人間を誤解させる可能性があります。

ある程度難しいタスクの場合、人間が評価することさえ困難です。

この論文では、バイアスは評価を行うときにのみ生じるのではなく、評価を収集するプロセスもバイアスの大きな原因となることを紹介しています。

評価の有用性は収集プロセス中に評価する必要があるため、評価者の主観的な意見も影響を与える可能性があります。

このプロセスでは、コストと品質の間で必然的にトレードオフが発生し、精度の度合いに影響します。

フィードバックの内容に加えて、フィードバックの形式にも一定の制限があり、これもコスト上の考慮によるものです。

報酬モデルと戦略も改善する必要がある

そして著者らは、人間からのフィードバックに加えて、RLHF 自身の報酬モデルと意思決定方法も改善する必要があると指摘した。

報酬関数は価値判断を正確に記述することが難しい場合があり、単一の関数で人間社会全体の価値観を表すことはできません

報酬モデルには一般化能力が低いという問題もあり、報酬メカニズムが悪用される危険性もあります。

さらに、報酬モデルの品質を評価することは難しく、たとえ達成できたとしてもコストがかかります。

なぜなら、真の報酬関数は通常は不明であり、ポリシーの最適化を通じて間接的にしか評価できないからです。

戦略面では、戦略を効率的に最適化することが難しく、戦略の堅牢性を確保することが難しいと指摘しています。

戦略実行フェーズでは、報酬フェーズと異なり、これまではうまく対応できていたコンテンツが突然問題になることがあります。

戦略段階では、事前にトレーニングされたモデルがいくつか使用される場合があり、その中に偏った情報も含まれる可能性があります。

さらに、報酬モデルと意思決定方法を共同でトレーニングするとドリフト問題が発生し、効率性と過剰適合の回避のバランスを取ることも困難になります。

解決方法

論文の内容を見ると、人間からのフィードバックからRLHF独自の報酬モデルや意思決定方法に至るまで、程度の差はあるものの問題があることがわかります。

それで、どうやって解決するのでしょうか?著者は私たちにいくつかのアイデアを提供しています。

たとえば、人間によるフィードバックの限界に対処するために、著者の戦略は、フィードバックを評価する別の AI システムまたは報酬モデルを導入することです。

プロセスを監督・指導し、より洗練されたフィードバックを求めるなどの対策もあります。

著者は他の 2 つの側面についても解決策を示しています。

報酬を与えられるモデルの場合、AI が人間にフィードバックを提供するのを支援するというアイデアを、人間がモデルのパフォーマンスを直接監督するというアイデアに変更することができます。

意思決定の方法としては、事前トレーニングの段階でモデルを調整し、トレーニング中にガイダンスを追加することができます。

著者は、RLHFだけでなく、他のAI分野におけるセキュリティ問題も深刻に受け止める必要があると指摘し、それに応じた対策を提案した。

RLHF だけでは十分ではない

著者について

主著者は、MIT CSAIL の Stephen Casper 氏とハーバード大学の Xander Davies 氏です。

Casper 氏の主な研究分野はアライメント アルゴリズムです。同氏はこれまでに拡散モデルの評価に関する論文を発表し、ICML から Spotlight Paper Award を受賞しています。

デイヴィス氏の主な研究分野は AI セキュリティであり、今年の ICML ワークショップには彼の論文 2 本が収録されました。

他の著者の中にも、中国人の名前が多く見られます。

論文アドレス: https://arxiv.org/pdf/2307.15217.pdf

<<:  MuskxAIの創設メンバーが中国で最初の声明を発表: ChatGPTの時代では「困難な時代に英雄が現れる」、次のステップはより多くの数理科学データトレーニングを使用することです

>>: 

ブログ    
ブログ    

推薦する

...

Baidu AI開発者会議が進行中、重要なニュースが次々と発表されている

百度AI開発者会議は予定通り7月4日から5日まで北京国家会議センターで開催されました。百度の創業者、...

Google、機械学習を使用して医療イベントを予測するFHIRプロトコルバッファツールをオープンソース化

先月26日、GoogleはarXivに「電子健康記録のためのスケーラブルで正確なディープラーニング」...

末期の病気を患う58歳の女性が、メタバースで死に際の願いを叶えた。VRグランドキャニオンツアーだ。

慢性閉塞性肺疾患を患っている女性は長い間病気で寝たきりの状態です。しかし、彼女の最後の願いは、アメリ...

製造業で「ロボット」が増加中

1997年、IBMが開発したディープ・ブルーがロシアのチェス名人ガルリ・カスパロフに勝利し、人工知能...

アプリランキング操作の水軍が復活:Appleのアルゴリズムを破るために5倍のコストを費やす

[「今回の調整は、主にユーザーのアクティベーション率、アプリの使用頻度、評価など総合的に考慮して行う...

GPTベースの開発者ツール

localGPT - GPT モデル ツールのローカル展開localGPT を使用すると、GPT モ...

...

Kuaishou Agents システム、モデル、データはすべてオープンソースです。

7BサイズのモデルはAIエージェントも処理できますか?最近、Kuaishouは「KwaiAgent...

普及モデルはどのようにして新しい世代の意思決定エージェントを構築するのでしょうか?自己回帰を超えて長いシーケンス計画軌道を生成する

部屋の中に立っていて、ドアに向かって歩こうとしていると想像してください。自己回帰を使用して、一歩ずつ...

AI とクラウド コンピューティングが出会うとき、サービスとしての AI は神でしょうか、それとも悪魔でしょうか?

最先端技術の継続的な発展とクラウドコンピューティングサービスの普及により、AI as a servi...

...

...

教科書では学べない機械学習に関する12の「民間伝承」

[[264978]]ビッグデータダイジェスト制作出典: towardml編纂者:劉嘉偉、王元元、ウ...

ディープラーニングはフロントエンド開発ツールになりました:UI設計図に基づいてコードを自動生成します

UI デザイナーとフロントエンド エンジニアの間にニューラル ネットワークが必要になる場合があります...