大規模モデルのRLHFは必ずしも人間に依存するものではなく、Google：AIフィードバックも同様に効果的

今日の大規模モデルをトレーニングするための中核的な方法となると、RLHF は避けられないトピックです。

RLHF、つまり人間のフィードバックに基づく強化学習は、ChatGPT とオープンソースの LLaMA の両方に不可欠です。

しかし、「H」は、質の高い人間からのフィードバックを収集することが非常に難しいため、大きなボトルネックとなっています。

では、AI にそれを任せることはできるのでしょうか?実際にこれを行った人もいますが、RLHF に代わるものかどうかは、Google がこの調査を実施するまでわかりませんでした。

写真

新しく公開された arXiv 論文で、Google はテキスト要約に関して RLAIF と RLHF でトレーニングされたモデルのパフォーマンスを比較しました。

RLAIF は、RLHF で人間に代わって AI を使用してフィードバック生成タスクを完了し、大規模なモデルのトレーニングが人間の制限を受けないようにします。

トレーニング後の人間による評価では、RLHF と RLAIF でトレーニングされたモデルによって生成された回答に対する人々の好みにほとんど違いはありませんでした。

いくつかの詳細においても、RLAIF は RLHF よりも優れたパフォーマンスを発揮します。

AI エンジニアがこの論文を転送し、GPT-5 が登場する頃には人間のデータラベラーは必要なくなるかもしれないとコメントしました。

写真

詳細な評価結果を紹介する前に、RLAIF ワークフローを見てみましょう。

LLM を使用したフィードバックデータの生成

実際、RLAIF と RLHF は、文字通りの意味からわかるように、人間が AI に置き換えられていることを除けば似ています。

写真

したがって、焦点は自然にフィードバックコンテンツの生成に移ります。

研究者たちはまず、フィードバックを得るために AI に 2 つの答えの中から選択するように依頼しました。

ランダム性の問題を回避するために、複数の選択が行われ、その間にオプションの順序が入れ替わります。

より良い回答を得るために、思考の連鎖 (CoT) 推論モデルも使用されます。

さらに、LLM の自己一貫性を向上させるために、このプロセスでは 2 つのオプションを直接選択するのではなく、2 つの回答が個別に採点され、合計が 1 になります。

このプロセスのプロンプトと出力はおそらく次のようになります。

写真

例えば：

写真

このデータを使用して報酬モデルをトレーニングし、好みのスコアを予測できます。

次に、研究者らは、訓練された報酬モデルを使用して、ターゲットモデルに強化学習を実行させました。

他のモデルで一般的に使用されている PPO (Proximal Policy Optimization) アルゴリズムとは異なり、RLAIF は A2C (Advantage Actor Critic) アルゴリズムのよりシンプルで効果的な修正バージョンを採用しています。

もちろん、報酬モデルをトレーニングせずに、AI によって生成されたラベル付きデータを強化学習に使用することもできます。

実際、チームが取得したラベル付きデータセットは報酬モデルよりも大きく有用でしたが、計算コストが高すぎることを考慮して、報酬モデルを選択しました。

この時点で、大型モデルの「コース」は完了していますが、「卒業」したい場合は、さらに別の「試験」を受ける必要があります。

「試験」には以下の3つの項目が含まれます。

AIラベラーのアライメント：AIの好みが人間の好みと比べてどの程度正確か
ペアワイズ精度: 訓練された報酬モデルが人間の嗜好データセットとどれだけ一致するか
勝率: RLAIF と RLHF 生成結果の人間の好み

このようなテストを経て、強化学習はついに成功しました。

では、「AIに指導を受けた生徒」の成績はどうでしょうか？

テスト結果はRLHFと同等である

研究チームは 1,200 人を募集し、SFT (ベースライン教師あり微調整)、RLHF、RLAIF、および実際の人々による回答を良い回答から悪い回答までランク付けしました。

写真

SFT 方式を基準とすると、RLHF と RLAIF の勝率はどちらも 70% を超えており、人間がこれら 2 つの方式を好む傾向は SFT のほぼ 3 倍であることがわかります。

RLHF のパフォーマンスは RLAIF よりもわずかに優れていましたが、両者の差は有意ではありませんでした。

RLHF を基準とした場合、RLAIF の勝率は 50% となり、人間は 2 つに対して同じ傾向があることがわかります。

写真

興味深いことに、RL トレーニングを受けた両方のモデルは、実際の人間が直接答えた回答をはるかに上回る結果を出しました。

RLAIF の実際の人に対する勝率は 79% と高く、RLHF は 80% であり、実際の人の回答の傾向の 4 倍であることを意味します。

さらに、研究者らは出力内容を慎重に評価した結果、RLAIF でトレーニングされたモデルは RLHF よりも幻覚を起こす可能性が低く、論理的および文法的な誤りも少ないことも発見しました。

もう一つ

しかし、一部のネットユーザーはRLAIFに関するいくつかのハイライトも発見しました。

フィードバックを生成するために使用されるモデルも RLHF を使用してトレーニングされるのではないですか?

写真

一方、RLHF プロセス中、一部の人々が AI の使用に「怠惰」になっている可能性を排除することはできません。

写真

おそらく、「私はあなたの中におり、あなたは私の中にいる」というのが、2 つの方法のテスト結果が非常に近い理由なのでしょうか?

論文アドレス: https://www.arxiv.org/abs/2309.00267

<<: AI企業がソフトウェアサプライチェーンの脆弱性の犠牲になると何が起こるか

>>: テレンス・タオは数学の問題を解くために大規模なモデルを使用しています。コードの生成とLaTeXの数式の編集は非常に便利です。

産業用 IoT を実装するための 3 つの重要なステップ

ブログ

このクラウドは、AIが後半にどのように発展するかを知っている

ブログ

VRシルキーパノラマはもうすぐそこ？ Googleの360°NeRFは人々に未来を垣間見せる

ブログ

GPT ストアは来週開始され、OpenAI アプリケーションの爆発的な増加が目前に迫っています。最も完全なGPTビルダーユーザーガイドはここにあります

ブログ

Java プログラミングスキル - データ構造とアルゴリズム「マージソート」

ブログ

115,000 個のスターを持つ GitHub オープンソースプロジェクトを推奨します。アルゴリズムを取得することは問題ありません。

ブログ

人工知能システムが薬剤耐性菌を殺す新しい抗生物質を発見

ブログ

大規模モデルのRLHFは必ずしも人間に依存するものではなく、Google：AIフィードバックも同様に効果的

LLM を使用したフィードバックデータの生成

テスト結果はRLHFと同等である

もう一つ

産業用 IoT を実装するための 3 つの重要なステップ

このクラウドは、AIが後半にどのように発展するかを知っている

VRシルキーパノラマはもうすぐそこ？ Googleの360°NeRFは人々に未来を垣間見せる

GPT ストアは来週開始され、OpenAI アプリケーションの爆発的な増加が目前に迫っています。最も完全なGPTビルダーユーザーガイドはここにあります

Java プログラミングスキル - データ構造とアルゴリズム「マージソート」

115,000 個のスターを持つ GitHub オープンソースプロジェクトを推奨します。アルゴリズムを取得することは問題ありません。

人工知能システムが薬剤耐性菌を殺す新しい抗生物質を発見

推薦する

ビッグデータと人工知能のために生まれた新しい職業：アルゴリズム専門家

実践的な NLP 問題: LSTM (RNN) と Transformer モデルに基づく

2024年に誰もが備えるべき5つのテクノロジートレンド

大規模モデルによって NLP エンジニアは時代遅れになったのでしょうか?

ケンブリッジ 2020 人工知能パノラマレポート、将来予測される 8 つの AI トレンド

シェフとAIが協力してあなたの味覚を刺激します

USTC 統合入力フィルタリングフレームワーク: すべてのデータモダリティをサポートするフィルタリング可能性の最初の理論的分析

インテリジェントビル通信ネットワークシステムのセキュリティ管理

Google Research の最新の発見: トレーニング結果が不正確になるのは、データ規模が巨大すぎることが原因です。

モノのインターネットのためのデータ分析とモデリング

信じられない！ XiaoIceのデジタルツイン仮想人物は70日間ライブ放送されましたが、誰もそれが本物の人間ではないことに気づきませんでした

GPT-4 コードインタープリターのベンチマーク！ CUHKはモデルに数学の問題を解くコードを書かせ、そのスコアはGPT-4を上回る

「無人運転」について、投資界の大物が4つの大きな予測を示した

LLM を使用したフィードバック データの生成

テスト結果はRLHFと同等である

もう一つ

推薦する

LLM を使用したフィードバックデータの生成