OpenAIは人間の参照要約よりも優れており、人間のフィードバックを利用して要約生成の品質を向上させています。

言語モデルがより強力になるにつれて、特定のタスクのデータとメトリックがトレーニングと評価のボトルネックになりやすくなります。たとえば、要約モデルは、人間の参照要約を予測するようにトレーニングされ、ROUGE を使用して評価されることがよくありますが、これらのメトリックのいずれも、実際の焦点である要約の品質には影響しません。

最近、OpenAI の研究では、人間の好みを最適化するようにモデルをトレーニングすることで、要約の品質を大幅に向上できることが示されました。具体的には、人間による要約の比較に関する大規模で高品質なデータセットを収集し、人間が好む要約を予測するモデルをトレーニングし、このモデルを報酬関数として使用して、強化学習によって要約ポリシーを微調整しました。

論文リンク: https://arxiv.org/pdf/2009.01325.pdf

プロジェクトアドレス: https://github.com/openai/summarize-from-feedback

研究者らはこの手法をRedditの投稿の要約生成に適用し、そのモデルが人間による参照要約や教師あり学習のみで微調整されたより大規模なモデルを大幅に上回る性能を示した。

この研究で使用されたモデルは、CNN/DM のニュース記事にも応用でき、ニュース特有の微調整をすることなく、人間による参考要約とほぼ同等の結果を生成できます。

最後に、人間のフィードバックデータセットを理解し、モデルを微調整するために拡張分析を実行します。この研究により、報酬モデルが新しいデータセットに一般化され、報酬モデルの最適化の結果が人間の要件に基づいて最適化された ROUGE よりも優れていることが保証されます。

この研究の主な貢献は次のとおりです。

研究によると、英語の要約生成において、人間によるフィードバックによるトレーニングは強力なベースライントレーニングよりも大幅に優れていることが示されています。

人間のフィードバックモデルは、教師ありモデルよりも新しいドメインに一般化できます。

その戦略と報酬モデルの拡張実験分析が行われます。

次に、OpenAI が採用した研究手法とそれに伴う実験内容および結果について詳しく説明します。

方法と実験の詳細

高水準メソッド

研究者が採用したアプローチはバッチ処理設定に適しています。目的のデータセット (Reddit TL;DR サマリーデータセットが例として使用されます) で教師あり学習によって微調整された初期ポリシーから開始します。全体のプロセス (下の図 2 を参照) は、繰り返し実行できる 3 つのステップで構成されます。

既存の戦略に基づいてサンプルを収集し、比較結果を人間に送信します。

人間との比較から報酬モデルを学習する。

報酬モデルの戦略を最適化します。

人間によるフィードバック、報酬モデルのトレーニング、ポリシーのトレーニングの全体的なフローチャート。

データセットとタスク

研究者らは、さまざまなトピック (サブレディット) を網羅した reddit.com の約 300 万件の投稿と、元の投稿者によって書かれた投稿の要約 (TL;DR) を含む TL;DR 要約データセットを使用しました。

さらに、データセットは、一般の人々が理解できるサブレディットのホワイトリストを使用するなど、データセットの品質を確保するためにフィルタリングされました (付録 A を参照)。

研究者たちは、グラウンドトゥルースタスクを、長さが 48 トークン未満で、可能な限り優れた要約を生成するモデルを生成することと定義しています。また、抄録の質は、論文を読まずに抄録だけを読む読者に、原文をどれだけ忠実に伝えているかによって判断されます。

人間のフィードバックを収集する

人間のフィードバックに基づいて言語モデルを微調整するこれまでの研究では、[66]モデルが学習すると期待される品質と人間のラベル付け者によって実際に評価された品質の間に不一致があることが示されています。この結果、モデルは、ラベル付け者にとっては高品質であるが、研究者にとっては低品質であると思われる要約を生成します。

[66]と比較して、研究者らは人間のデータの品質を向上させるために2つの改善を実施した。まず、完全にオフライン環境に移行し、大量の比較データを交互に人間のラベル付け担当者に送信し、累積的に収集されたデータに基づいてモデルを再トレーニングします。次に、ラベル付け担当者との親密な関係を維持し、詳細な指示を与え、共有チャットルームで質問に答え、パフォーマンスに関するフィードバックを定期的に提供します。

モデル

研究者が使用したモデルはすべてGPT-3スタイルのTransformerデコーダーであり、13億（1.3B）と67億（6.7B）のパラメータを持つモデルで人間によるフィードバック実験が行われた。 [12、44]と同様に、研究者は事前トレーニング済みのモデルから始めて、大規模なテキストコーパス内の次のトークンを自動的に回帰して予測します。

これらのモデルは、教師あり学習によって微調整され、フィルタリングされた TL;DR データセットの要約を予測します (詳細については付録 B を参照)。これらの教師ありモデルを使用して初期サマリーがサンプリングされ、比較結果が収集され、ポリシーと報酬モデルが初期化され、評価ベースラインとして機能します。

最後に、報酬モデルをトレーニングするために、教師ありベースラインから開始し、スカラー値を出力するランダムに初期化された線形ヘッドを追加します。

研究者たちは、訓練された報酬モデルを使用して、人間の判断に基づいて高品質の出力を生成できるポリシーを訓練したいと考えています。

実験

人間のフィードバックに基づいてRedditの投稿の要約を生成する

人間からのフィードバックでトレーニングされた戦略は、より大規模な教師あり戦略よりも優先されます。 TL;DR データセットでの手動フィードバック戦略の評価の主な結果を、以下の図 1 に示します。

研究者が戦略の品質を測定するために使用する指標は、データセット内の参照要約のうち、人々に好まれ、戦略によって生成されたものの割合です。図からわかるように、人間のフィードバックでトレーニングされた戦略は、教師ありベースライン戦略よりも大幅に優れており、13 億人の人間のフィードバックモデルも、その 10 倍スケールの教師ありモデルよりも大幅に優れています (参照サマリーに対する両方の生の選好スコアは 61% 対 43%)。

コントロールサマリーの長さ

要約の長さは要約の質を判断する際の交絡因子となります。要約の目標長さは要約生成タスクの暗黙的な部分であり、長い要約を生成するか短い要約を生成するかの決定は、簡潔さと包括性の間の予想されるトレードオフに基づいて行われます。

この研究のモデルはより長い要約を生成することを学習したため、長さが品質向上に大きな役割を果たしました。

戦略はベースラインと比べてどのように改善されますか?

モデルによって生成された要約の品質が、参照要約や教師ありベースライン要約とどのように比較されるかをよりよく理解するために、研究者は補足分析を実施しました。この分析では、人間のラベル付け担当者が、4 つの指標 (全体的なパフォーマンス、包括性、一貫性、正確性) に基づいて 7 段階のリッカート尺度を使用して要約の品質を評価しました。評価結果は下の図 3 に示されており、人間のフィードバックモデルが、特にカバレッジの点で、すべての指標において教師ありベースラインモデルよりも優れていることがわかります。

ニュース記事の要約を生成するための移植性

下の図 4 に示すように、人間のフィードバックモデルは、追加のトレーニングなしで CNN/DM ニュース記事の優れた要約を生成することもできます。

具体的には、人間のフィードバックモデルは、教師あり学習でトレーニングされたモデルや、TL;DR データセットの事前トレーニングコーパスのみでトレーニングされたモデルよりも大幅に優れています。より短い要約を生成しているにもかかわらず、67 億人の人間によるフィードバックモデルのパフォーマンスは、CNN/DM 参照要約で微調整された 67 億人のモデルとほぼ同等です。

報酬モデルを理解する

報酬モデルの最適化

研究の報酬モデルに基づいて最適化することで、研究の戦略を人間の好みに合わせる必要があります。しかし、報酬モデルはラベルの好みを完全には表しません。報酬モデルがトレーニング中に見られなかった要約に一般化されることが期待されているが、役に立たない評価を始める前に報酬モデルがどの程度最適化できるかは不明である。

この質問に答えるために、私たちは、さまざまな最適化の強度で報酬モデルの初期バージョンを最適化する一連のポリシーを作成し、ラベラーにサンプルを参照サマリーと比較するように依頼しました。

モデルとデータのサイズが大きくなるにつれて、報酬モデルはどのように拡張されますか?

研究者らは、データ量とモデルサイズが報酬モデルのパフォーマンスにどのように影響するかを調べるために、制御変数実験を実施しました。研究者らは、1億6000万から130億のパラメータと8,000から64,000の人間との比較データにわたる7つの報酬モデルをトレーニングしました。

調査の結果、トレーニングデータの量を 2 倍にすると報酬モデルの検証セットの精度が約 1.1% 向上し、モデルサイズを 2 倍にすると約 1.8% 向上することがわかりました。詳細は以下の図 6 に示されています。

報酬モデルは何を学習しましたか?

研究者らは、いくつかの検証セットで報酬モデルを評価し、以下の表 17 に完全な結果を示します。

研究者らは、表 18 に示すように、報酬モデルが CNN/DM 要約の評価に一般化されることを発見しました。

要約のための自動メトリックを分析する

研究者たちは、さまざまな自動測定基準が人間の好みをどの程度正確に予測できるかを研究し、それを RM と比較しました。具体的には、研究者らは、ベースラインの教師ありモデルの下で、ROUGE、要約の長さ、投稿からのコピー数、および対数確率を調査しました。

下の図 7 に示すように、単純な最適化スキームを使用して ROGUE を最適化しても、品質は一貫して向上しません。報酬モデルの最適化と比較すると、ROGUE の最適化はピークに早く到達するだけでなく、品質比も大幅に低くなります。

<<: マイクロサービスにおける電流制限ロジックとアルゴリズム

>>: ゴースト吹き替えチームにとって朗報です！ AIがあらゆる言語のリップシンクを自動生成

ブログ

OpenAIは人間の参照要約よりも優れており、人間のフィードバックを利用して要約生成の品質を向上させています。

ディープラーニングを理解するための鍵 - パラメータ

新しい検索エンジンのスキル: アリババの新しい研究では、2D 画像を使用して 3D モデルを検索します

人工知能がサイバー防御を強化

DeepMindがAIツールGNoMEをリリース、220万個の新しい結晶材料を発見したと主張

ゼロサンプルに主眼が置かれています！ ReSimAD: 自動運転で 3D ドメイン適応を実現するには?

古代から皇帝の寿命は短かった。皇帝も負荷分散アルゴリズムを理解していたら...

人工知能が他に何ができるか知りたいですか?明確な「ベイジアン意識」を持たなければならない

Testin Cloud Testingは、ビッグモデル+ソフトウェアテストの業界リーダーの技術革新の道を模索し始めました。

推薦する

アメリカのプログラマーたちは必死に仕事を探しており、250通もの履歴書を送っている！隠されたルールを発見: オンラインアプリケーションに記入することで、対戦相手の 92% を倒すことができます

パフォーマンス最適化技術: アルゴリズム

ビッグニュース！人工知能における新たなブレークスルー！ Google ストリートビューを使って住民の投票傾向を調べてみましょう。

TensorFlow が NSL ニューラル構造学習フレームワークをオープンソース化

音声認識の専門家が奇妙な学生事件によりジョンズ・ホプキンス大学から解雇され、怒ってFacebookを拒否し、中国に移住した

人間を脅かしていると疑われますか? OpenAI の謎の Q* プロジェクトに関する詳細情報が明らかになり、マスク氏とルカン氏が議論を交わしている...

GoogleのAIオープンソース成果物は3年前に誕生し、想像もつかないような多くの場所で使用されている。

AIが初めて量子レベルで物質を記述！自然：化学分野で最も価値のある技術の一つ

RWKV の紹介: リニアトランスフォーマーの台頭と代替案の検討

モノのインターネット（IoT）がビジネスに活力を与える：5つのビジネス事例が示すもの

実用的なヒント | 機械学習における不均衡な分類問題にどう対処するか?

基本的なアルゴリズムの学習ルートとランダムな考え

自動運転の4つの主要技術の簡単な分析

ドローンは5G開発をフィードバックし、インテリジェントな運用と保守の新たなアップグレードを促進する