この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 MIT、ハーバード、スタンフォードなどの研究機関の32人の科学者が共同で指摘した。 ChatGPT 成功の鍵とされる RLHF には欠陥があり、それがさまざまなリンクに分散しています。 彼らは250件の関連論文を調査・検討したが、研究本文だけで18ページあり、そのうち7ページで具体的な欠陥について説明されていた。 この研究は発表されるとすぐに大きな注目を集めました。 一部のネットユーザーは「これは素晴らしい試みだ」とコメントした。これらすべては、RLHF の学術的課題を開始するために役立ちます。 第一著者のキャスパー氏は、RLHF に「新たな説明」も与えた。 歴史的失敗から教訓を再考する 問題を指摘するだけでなく、解決策も提供する著者らは論文の中で、この研究には主に3つの貢献があると述べています。 1 つ目は、人間のフィードバック、報酬モデル、意思決定という 3 つの主要な側面における RLHF の欠陥を指摘することです。 2 番目のポイントでは、これらの問題に対する具体的な解決策を示します。 3つ目は、RLHF によって訓練されたモデルの透明性を高めることを求め、訓練情報の公開が企業責任の向上に役立つだろうと述べた。 まずは各リンクで著者が指摘している具体的な欠陥を見てみましょう。 人間によるフィードバックの限界RLHF と他の強化学習方法の主な違いは、人間からのフィードバックです。 しかし、著者らは、人間によるフィードバックは不正確になりやすく、重大な欠陥の原因となると主張している。 人間からのフィードバックのセクションで、著者はまず、人間は誤解を招くような評価をする可能性があると述べました。 大規模なモデルの場合、関係する専門分野はあらゆる側面をカバーしており、誰もすべてに精通することはできません。 そのため、さまざまな分野の代表者を選出し、質の高いフィードバックをもらうことが必要です。 しかし、実際にはこの作業は非常に困難です。 さらに、人間は完全に合理的ではないため、個々の評価者の意見は必然的に偏り、有害となる可能性もあります。 概念上の問題によって引き起こされる「意図的な」逸脱に加えて、いくつかの逸脱は「偶発的」です。 時間と注意力が不足しているため、人為的なミスを避けることは困難です。 混乱を招く情報も人間を誤解させる可能性があります。 ある程度難しいタスクの場合、人間が評価することさえ困難です。 この論文では、バイアスは評価を行うときにのみ生じるのではなく、評価を収集するプロセスもバイアスの大きな原因となることを紹介しています。 評価の有用性は収集プロセス中に評価する必要があるため、評価者の主観的な意見も影響を与える可能性があります。 このプロセスでは、コストと品質の間で必然的にトレードオフが発生し、精度の度合いに影響します。 フィードバックの内容に加えて、フィードバックの形式にも一定の制限があり、これもコスト上の考慮によるものです。 報酬モデルと戦略も改善する必要があるそして著者らは、人間からのフィードバックに加えて、RLHF 自身の報酬モデルと意思決定方法も改善する必要があると指摘した。 報酬関数は価値判断を正確に記述することが難しい場合があり、単一の関数で人間社会全体の価値観を表すことはできません。 報酬モデルには一般化能力が低いという問題もあり、報酬メカニズムが悪用される危険性もあります。 さらに、報酬モデルの品質を評価することは難しく、たとえ達成できたとしてもコストがかかります。 なぜなら、真の報酬関数は通常は不明であり、ポリシーの最適化を通じて間接的にしか評価できないからです。 戦略面では、戦略を効率的に最適化することが難しく、戦略の堅牢性を確保することが難しいと指摘しています。 戦略実行フェーズでは、報酬フェーズと異なり、これまではうまく対応できていたコンテンツが突然問題になることがあります。 戦略段階では、事前にトレーニングされたモデルがいくつか使用される場合があり、その中に偏った情報も含まれる可能性があります。 さらに、報酬モデルと意思決定方法を共同でトレーニングするとドリフト問題が発生し、効率性と過剰適合の回避のバランスを取ることも困難になります。 解決方法論文の内容を見ると、人間からのフィードバックからRLHF独自の報酬モデルや意思決定方法に至るまで、程度の差はあるものの問題があることがわかります。 それで、どうやって解決するのでしょうか?著者は私たちにいくつかのアイデアを提供しています。 たとえば、人間によるフィードバックの限界に対処するために、著者の戦略は、フィードバックを評価する別の AI システムまたは報酬モデルを導入することです。 プロセスを監督・指導し、より洗練されたフィードバックを求めるなどの対策もあります。 著者は他の 2 つの側面についても解決策を示しています。 報酬を与えられるモデルの場合、AI が人間にフィードバックを提供するのを支援するというアイデアを、人間がモデルのパフォーマンスを直接監督するというアイデアに変更することができます。 意思決定の方法としては、事前トレーニングの段階でモデルを調整し、トレーニング中にガイダンスを追加することができます。 著者は、RLHFだけでなく、他のAI分野におけるセキュリティ問題も深刻に受け止める必要があると指摘し、それに応じた対策を提案した。 RLHF だけでは十分ではない 著者について主著者は、MIT CSAIL の Stephen Casper 氏とハーバード大学の Xander Davies 氏です。 Casper 氏の主な研究分野はアライメント アルゴリズムです。同氏はこれまでに拡散モデルの評価に関する論文を発表し、ICML から Spotlight Paper Award を受賞しています。 デイヴィス氏の主な研究分野は AI セキュリティであり、今年の ICML ワークショップには彼の論文 2 本が収録されました。 他の著者の中にも、中国人の名前が多く見られます。 論文アドレス: https://arxiv.org/pdf/2307.15217.pdf |
<<: MuskxAIの創設メンバーが中国で最初の声明を発表: ChatGPTの時代では「困難な時代に英雄が現れる」、次のステップはより多くの数理科学データトレーニングを使用することです
産業用ロボットの雇用見通しはどうですか?近年、世界の産業用ロボット産業と市場は急速に発展しています。...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[202011]]クレタ島を海賊や侵略者から守るために、人々は巨大な青銅の戦士タロスを創造しました...
[[275552]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...
2018CES Asiaが今朝上海で開幕しました。アジアの消費者向けテクノロジー業界の年次イベントで...
人工知能は万能のように思えますが、実際には人工知能に代替できない職業も数多くあります。 HSBCは銀...
人工知能は複雑な囲碁のゲームでは簡単に人間に勝つことができますが、科学的な発見に役立つのでしょうか?...
テクノロジーは、絶え間ない進歩と常に変化する可能性により、私たちの日常生活に組み込まれるようになりま...
ビジュアルサーボシステムは、視覚情報をフィードバック信号として使用し、ロボットの位置と姿勢を制御およ...
情報セキュリティの専門家は、「生成的敵対ネットワーク」(GAN)がオンラインセキュリティをどのように...