言語モデルがより強力になるにつれて、特定のタスクのデータとメトリックがトレーニングと評価のボトルネックになりやすくなります。たとえば、要約モデルは、人間の参照要約を予測するようにトレーニングされ、ROUGE を使用して評価されることがよくありますが、これらのメトリックのいずれも、実際の焦点である要約の品質には影響しません。 最近、OpenAI の研究では、人間の好みを最適化するようにモデルをトレーニングすることで、要約の品質を大幅に向上できることが示されました。具体的には、人間による要約の比較に関する大規模で高品質なデータセットを収集し、人間が好む要約を予測するモデルをトレーニングし、このモデルを報酬関数として使用して、強化学習によって要約ポリシーを微調整しました。 論文リンク: https://arxiv.org/pdf/2009.01325.pdf プロジェクトアドレス: https://github.com/openai/summarize-from-feedback 研究者らはこの手法をRedditの投稿の要約生成に適用し、そのモデルが人間による参照要約や教師あり学習のみで微調整されたより大規模なモデルを大幅に上回る性能を示した。 この研究で使用されたモデルは、CNN/DM のニュース記事にも応用でき、ニュース特有の微調整をすることなく、人間による参考要約とほぼ同等の結果を生成できます。 最後に、人間のフィードバック データセットを理解し、モデルを微調整するために拡張分析を実行します。この研究により、報酬モデルが新しいデータセットに一般化され、報酬モデルの最適化の結果が人間の要件に基づいて最適化された ROUGE よりも優れていることが保証されます。 この研究の主な貢献は次のとおりです。 研究によると、英語の要約生成において、人間によるフィードバックによるトレーニングは強力なベースライントレーニングよりも大幅に優れていることが示されています。 人間のフィードバック モデルは、教師ありモデルよりも新しいドメインに一般化できます。 その戦略と報酬モデルの拡張実験分析が行われます。 次に、OpenAI が採用した研究手法とそれに伴う実験内容および結果について詳しく説明します。 方法と実験の詳細 高水準メソッド 研究者が採用したアプローチはバッチ処理設定に適しています。目的のデータセット (Reddit TL;DR サマリー データセットが例として使用されます) で教師あり学習によって微調整された初期ポリシーから開始します。全体のプロセス (下の図 2 を参照) は、繰り返し実行できる 3 つのステップで構成されます。 既存の戦略に基づいてサンプルを収集し、比較結果を人間に送信します。 人間との比較から報酬モデルを学習する。 報酬モデルの戦略を最適化します。 人間によるフィードバック、報酬モデルのトレーニング、ポリシーのトレーニングの全体的なフローチャート。 データセットとタスク 研究者らは、さまざまなトピック (サブレディット) を網羅した reddit.com の約 300 万件の投稿と、元の投稿者によって書かれた投稿の要約 (TL;DR) を含む TL;DR 要約データセットを使用しました。 さらに、データセットは、一般の人々が理解できるサブレディットのホワイトリストを使用するなど、データセットの品質を確保するためにフィルタリングされました (付録 A を参照)。 研究者たちは、グラウンドトゥルースタスクを、長さが 48 トークン未満で、可能な限り優れた要約を生成するモデルを生成することと定義しています。また、抄録の質は、論文を読まずに抄録だけを読む読者に、原文をどれだけ忠実に伝えているかによって判断されます。 人間のフィードバックを収集する 人間のフィードバックに基づいて言語モデルを微調整するこれまでの研究では、[66]モデルが学習すると期待される品質と人間のラベル付け者によって実際に評価された品質の間に不一致があることが示されています。この結果、モデルは、ラベル付け者にとっては高品質であるが、研究者にとっては低品質であると思われる要約を生成します。 [66]と比較して、研究者らは人間のデータの品質を向上させるために2つの改善を実施した。まず、完全にオフライン環境に移行し、大量の比較データを交互に人間のラベル付け担当者に送信し、累積的に収集されたデータに基づいてモデルを再トレーニングします。次に、ラベル付け担当者との親密な関係を維持し、詳細な指示を与え、共有チャットルームで質問に答え、パフォーマンスに関するフィードバックを定期的に提供します。 モデル 研究者が使用したモデルはすべてGPT-3スタイルのTransformerデコーダーであり、13億(1.3B)と67億(6.7B)のパラメータを持つモデルで人間によるフィードバック実験が行われた。 [12、44]と同様に、研究者は事前トレーニング済みのモデルから始めて、大規模なテキストコーパス内の次のトークンを自動的に回帰して予測します。 これらのモデルは、教師あり学習によって微調整され、フィルタリングされた TL;DR データセットの要約を予測します (詳細については付録 B を参照)。これらの教師ありモデルを使用して初期サマリーがサンプリングされ、比較結果が収集され、ポリシーと報酬モデルが初期化され、評価ベースラインとして機能します。 最後に、報酬モデルをトレーニングするために、教師ありベースラインから開始し、スカラー値を出力するランダムに初期化された線形ヘッドを追加します。 研究者たちは、訓練された報酬モデルを使用して、人間の判断に基づいて高品質の出力を生成できるポリシーを訓練したいと考えています。 実験 人間のフィードバックに基づいてRedditの投稿の要約を生成する 人間からのフィードバックでトレーニングされた戦略は、より大規模な教師あり戦略よりも優先されます。 TL;DR データセットでの手動フィードバック戦略の評価の主な結果を、以下の図 1 に示します。 研究者が戦略の品質を測定するために使用する指標は、データセット内の参照要約のうち、人々に好まれ、戦略によって生成されたものの割合です。図からわかるように、人間のフィードバックでトレーニングされた戦略は、教師ありベースライン戦略よりも大幅に優れており、13 億人の人間のフィードバック モデルも、その 10 倍スケールの教師ありモデルよりも大幅に優れています (参照サマリーに対する両方の生の選好スコアは 61% 対 43%)。 コントロールサマリーの長さ 要約の長さは要約の質を判断する際の交絡因子となります。要約の目標長さは要約生成タスクの暗黙的な部分であり、長い要約を生成するか短い要約を生成するかの決定は、簡潔さと包括性の間の予想されるトレードオフに基づいて行われます。 この研究のモデルはより長い要約を生成することを学習したため、長さが品質向上に大きな役割を果たしました。 戦略はベースラインと比べてどのように改善されますか? モデルによって生成された要約の品質が、参照要約や教師ありベースライン要約とどのように比較されるかをよりよく理解するために、研究者は補足分析を実施しました。この分析では、人間のラベル付け担当者が、4 つの指標 (全体的なパフォーマンス、包括性、一貫性、正確性) に基づいて 7 段階のリッカート尺度を使用して要約の品質を評価しました。評価結果は下の図 3 に示されており、人間のフィードバック モデルが、特にカバレッジの点で、すべての指標において教師ありベースライン モデルよりも優れていることがわかります。 ニュース記事の要約を生成するための移植性 下の図 4 に示すように、人間のフィードバック モデルは、追加のトレーニングなしで CNN/DM ニュース記事の優れた要約を生成することもできます。 具体的には、人間のフィードバック モデルは、教師あり学習でトレーニングされたモデルや、TL;DR データセットの事前トレーニング コーパスのみでトレーニングされたモデルよりも大幅に優れています。より短い要約を生成しているにもかかわらず、67 億人の人間によるフィードバック モデルのパフォーマンスは、CNN/DM 参照要約で微調整された 67 億人のモデルとほぼ同等です。 報酬モデルを理解する 報酬モデルの最適化 研究の報酬モデルに基づいて最適化することで、研究の戦略を人間の好みに合わせる必要があります。しかし、報酬モデルはラベルの好みを完全には表しません。報酬モデルがトレーニング中に見られなかった要約に一般化されることが期待されているが、役に立たない評価を始める前に報酬モデルがどの程度最適化できるかは不明である。 この質問に答えるために、私たちは、さまざまな最適化の強度で報酬モデルの初期バージョンを最適化する一連のポリシーを作成し、ラベラーにサンプルを参照サマリーと比較するように依頼しました。 モデルとデータのサイズが大きくなるにつれて、報酬モデルはどのように拡張されますか? 研究者らは、データ量とモデルサイズが報酬モデルのパフォーマンスにどのように影響するかを調べるために、制御変数実験を実施しました。研究者らは、1億6000万から130億のパラメータと8,000から64,000の人間との比較データにわたる7つの報酬モデルをトレーニングしました。 調査の結果、トレーニング データの量を 2 倍にすると報酬モデルの検証セットの精度が約 1.1% 向上し、モデル サイズを 2 倍にすると約 1.8% 向上することがわかりました。詳細は以下の図 6 に示されています。 報酬モデルは何を学習しましたか? 研究者らは、いくつかの検証セットで報酬モデルを評価し、以下の表 17 に完全な結果を示します。 研究者らは、表 18 に示すように、報酬モデルが CNN/DM 要約の評価に一般化されることを発見しました。 要約のための自動メトリックを分析する 研究者たちは、さまざまな自動測定基準が人間の好みをどの程度正確に予測できるかを研究し、それを RM と比較しました。具体的には、研究者らは、ベースラインの教師ありモデルの下で、ROUGE、要約の長さ、投稿からのコピー数、および対数確率を調査しました。 下の図 7 に示すように、単純な最適化スキームを使用して ROGUE を最適化しても、品質は一貫して向上しません。報酬モデルの最適化と比較すると、ROGUE の最適化はピークに早く到達するだけでなく、品質比も大幅に低くなります。 |
<<: マイクロサービスにおける電流制限ロジックとアルゴリズム
>>: ゴースト吹き替えチームにとって朗報です! AIがあらゆる言語のリップシンクを自動生成
人工知能の影響はビジネス界のほぼすべての側面に広がっており、金融業界も例外ではありません。金融業界の...
7月18日、DescriptとIpsosがポッドキャストや動画の制作者1,004人を対象に実施した調...
生成モデルとシーケンス モデルは、常に私を魅了してきました。これらのモデルは、機械学習を初めて学ぶと...
彼はかつてアマゾンの中国トップレベルの科学者であり、1年前に世界の小売業界にセンセーションを巻き起こ...
[[358972]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...
[[396563]] 2021年4月27日IBM Cloud Paks コミュニティ リリースここに...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
スマートカーからスマート道路、スマートシティまで、「複雑な世界をよりシンプルに」という百度の使命によ...
ジェイソン・ウェイを覚えていますか?思考連鎖の創始者は、命令チューニングに関する初期の研究を共同で主...
[[415590]]ボストン・ダイナミクス社が開発したヒューマノイドロボット「アトラス」、ロボット...
市場調査会社リサーチ・アンド・マーケッツが最近発表したレポートによると、人工知能の世界のヘルスケア市...