RLHF の欠陥が完全に明らかに！ MIT、ハーバード大学、その他32名の学者が共同で発表

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

MIT、ハーバード、スタンフォードなどの研究機関の32人の科学者が共同で指摘した。

ChatGPT 成功の鍵とされる RLHF には欠陥があり、それがさまざまなリンクに分散しています。

彼らは250件の関連論文を調査・検討したが、研究本文だけで18ページあり、そのうち7ページで具体的な欠陥について説明されていた。

この研究は発表されるとすぐに大きな注目を集めました。

一部のネットユーザーは「これは素晴らしい試みだ」とコメントした。これらすべては、RLHF の学術的課題を開始するために役立ちます。

第一著者のキャスパー氏は、RLHF に「新たな説明」も与えた。

歴史的失敗から教訓を再考する
歴史の失敗から学ぶ

問題を指摘するだけでなく、解決策も提供する

著者らは論文の中で、この研究には主に3つの貢献があると述べています。

1 つ目は、人間のフィードバック、報酬モデル、意思決定という 3 つの主要な側面における RLHF の欠陥を指摘することです。

2 番目のポイントでは、これらの問題に対する具体的な解決策を示します。

3つ目は、RLHF によって訓練されたモデルの透明性を高めることを求め、訓練情報の公開が企業責任の向上に役立つだろうと述べた。

まずは各リンクで著者が指摘している具体的な欠陥を見てみましょう。

人間によるフィードバックの限界

RLHF と他の強化学習方法の主な違いは、人間からのフィードバックです。

しかし、著者らは、人間によるフィードバックは不正確になりやすく、重大な欠陥の原因となると主張している。

人間からのフィードバックのセクションで、著者はまず、人間は誤解を招くような評価をする可能性があると述べました。

大規模なモデルの場合、関係する専門分野はあらゆる側面をカバーしており、誰もすべてに精通することはできません。

そのため、さまざまな分野の代表者を選出し、質の高いフィードバックをもらうことが必要です。

しかし、実際にはこの作業は非常に困難です。

さらに、人間は完全に合理的ではないため、個々の評価者の意見は必然的に偏り、有害となる可能性もあります。

概念上の問題によって引き起こされる「意図的な」逸脱に加えて、いくつかの逸脱は「偶発的」です。

時間と注意力が不足しているため、人為的なミスを避けることは困難です。

混乱を招く情報も人間を誤解させる可能性があります。

ある程度難しいタスクの場合、人間が評価することさえ困難です。

この論文では、バイアスは評価を行うときにのみ生じるのではなく、評価を収集するプロセスもバイアスの大きな原因となることを紹介しています。

評価の有用性は収集プロセス中に評価する必要があるため、評価者の主観的な意見も影響を与える可能性があります。

このプロセスでは、コストと品質の間で必然的にトレードオフが発生し、精度の度合いに影響します。

フィードバックの内容に加えて、フィードバックの形式にも一定の制限があり、これもコスト上の考慮によるものです。

報酬モデルと戦略も改善する必要がある

そして著者らは、人間からのフィードバックに加えて、RLHF 自身の報酬モデルと意思決定方法も改善する必要があると指摘した。

報酬関数は価値判断を正確に記述することが難しい場合があり、単一の関数で人間社会全体の価値観を表すことはできません。

報酬モデルには一般化能力が低いという問題もあり、報酬メカニズムが悪用される危険性もあります。

さらに、報酬モデルの品質を評価することは難しく、たとえ達成できたとしてもコストがかかります。

なぜなら、真の報酬関数は通常は不明であり、ポリシーの最適化を通じて間接的にしか評価できないからです。

戦略面では、戦略を効率的に最適化することが難しく、戦略の堅牢性を確保することが難しいと指摘しています。

戦略実行フェーズでは、報酬フェーズと異なり、これまではうまく対応できていたコンテンツが突然問題になることがあります。

戦略段階では、事前にトレーニングされたモデルがいくつか使用される場合があり、その中に偏った情報も含まれる可能性があります。

さらに、報酬モデルと意思決定方法を共同でトレーニングするとドリフト問題が発生し、効率性と過剰適合の回避のバランスを取ることも困難になります。

解決方法

論文の内容を見ると、人間からのフィードバックからRLHF独自の報酬モデルや意思決定方法に至るまで、程度の差はあるものの問題があることがわかります。

それで、どうやって解決するのでしょうか?著者は私たちにいくつかのアイデアを提供しています。

たとえば、人間によるフィードバックの限界に対処するために、著者の戦略は、フィードバックを評価する別の AI システムまたは報酬モデルを導入することです。

プロセスを監督・指導し、より洗練されたフィードバックを求めるなどの対策もあります。

著者は他の 2 つの側面についても解決策を示しています。

報酬を与えられるモデルの場合、AI が人間にフィードバックを提供するのを支援するというアイデアを、人間がモデルのパフォーマンスを直接監督するというアイデアに変更することができます。

意思決定の方法としては、事前トレーニングの段階でモデルを調整し、トレーニング中にガイダンスを追加することができます。

著者は、RLHFだけでなく、他のAI分野におけるセキュリティ問題も深刻に受け止める必要があると指摘し、それに応じた対策を提案した。

RLHF だけでは十分ではない

著者について

主著者は、MIT CSAIL の Stephen Casper 氏とハーバード大学の Xander Davies 氏です。

Casper 氏の主な研究分野はアライメントアルゴリズムです。同氏はこれまでに拡散モデルの評価に関する論文を発表し、ICML から Spotlight Paper Award を受賞しています。

デイヴィス氏の主な研究分野は AI セキュリティであり、今年の ICML ワークショップには彼の論文 2 本が収録されました。

他の著者の中にも、中国人の名前が多く見られます。

論文アドレス: https://arxiv.org/pdf/2307.15217.pdf

<<: MuskxAIの創設メンバーが中国で最初の声明を発表: ChatGPTの時代では「困難な時代に英雄が現れる」、次のステップはより多くの数理科学データトレーニングを使用することです

>>:

スマートシティGPT?ジェネレーティブAIがスマートシティにどのように役立つか

ブログ

GPT-4V でさえ解明できない未来推論の解決策があります!華中科技大学と上海理工大学出身

ブログ

Microsoft が機械学習モデルを簡単に作成できる Lobe デスクトップアプリケーションをリリース

ブログ

650億のパラメータ、すべてのパラメータを8つのGPUで微調整可能：Qiu Xipengのチームは大規模モデルの閾値を下げました

ブログ

AIが髪の毛に至るまで肖像画を生成！北京大学卒業生の最新研究が2.8千個の星を獲得

ブログ

サプライチェーン管理における AI イノベーションを活用するために従業員を再教育する方法

ブログ

JD.com は今後 10 年間で従業員の 50% を解雇するでしょうか?ジャック・マー氏も人工知能が仕事を奪うことについて言及している

ブログ

コンピュータアーキテクチャにおける機械学習

ブログ

ガートナーレポート: 世界のカスタマーサービスセンターが会話型 AI を導入、今年の支出は 16.2% 増加

ブログ

RLHF の欠陥が完全に明らかに！ MIT、ハーバード大学、その他32名の学者が共同で発表

問題を指摘するだけでなく、解決策も提供する

人間によるフィードバックの限界

報酬モデルと戦略も改善する必要がある

解決方法

著者について

スマートシティGPT?ジェネレーティブAIがスマートシティにどのように役立つか

GPT-4V でさえ解明できない未来推論の解決策があります!華中科技大学と上海理工大学出身

Microsoft が機械学習モデルを簡単に作成できる Lobe デスクトップアプリケーションをリリース

650億のパラメータ、すべてのパラメータを8つのGPUで微調整可能：Qiu Xipengのチームは大規模モデルの閾値を下げました

AIが髪の毛に至るまで肖像画を生成！北京大学卒業生の最新研究が2.8千個の星を獲得

サプライチェーン管理における AI イノベーションを活用するために従業員を再教育する方法

JD.com は今後 10 年間で従業員の 50% を解雇するでしょうか?ジャック・マー氏も人工知能が仕事を奪うことについて言及している

コンピュータアーキテクチャにおける機械学習

ガートナーレポート: 世界のカスタマーサービスセンターが会話型 AI を導入、今年の支出は 16.2% 増加

推薦する

高校生のアルゴリズム「y-cruncher」が円周率の精度の世界記録を更新した

5G、人工知能、音声技術…2020年に注目すべき6つのテクノロジートレンド

オイラー誕生！中国初の産業グレードのグラフディープラーニングオープンソースフレームワーク

スマートホームテクノロジーを通じて AI があなたの家を乗っ取るでしょうか?

90%が赤字、中国の人工知能企業は破産の波に直面する可能性

自律走行レースのためのマルチモーダルセンサーフュージョンとターゲット追跡

GPT-4のAndroid版が無料でご利用いただけるようになり、音声から画像へのマルチモダリティを無料でご利用いただけます。ネットユーザー：公表しないで

人工知能によるモザイク除去ディープ CNN デノイザーと多層隣接コンポーネント埋め込みによるモザイク除去

2020年職場のAIスキルランキング：TensorFlowが人気上昇、Pythonが最も人気、マーケティング部門も学習中

浙江大学の呉飛氏とアリババの賈洋青氏が口論。AIの進化と年収100万ドルのどちらが本当なのか？