「幻想」を消し去れ！ Google の新しい ASPIRE メソッドにより、LLM は自己採点が可能になり、その効果はボリュームモデルよりも 10 倍優れています。

大規模モデルの「幻覚」問題は解決されつつあるのでしょうか?

ウィスコンシン大学マディソン校とグーグルの研究者らは最近、大規模なモデルが自らの出力を評価できる「ASPIRE」と呼ばれるシステムを開発した。

モデルによって生成された結果が高く評価されていないことに気づいたユーザーは、その反応が錯覚である可能性があることに気付くでしょう。

システムがスコアリング結果をさらにフィルタリングして出力できれば、例えばスコアが低すぎる場合、大規模モデルは「この質問には答えられません」と生成する可能性があり、幻覚問題の改善が最大化されると期待されます。

論文アドレス: https://aclanthology.org/2023.findings-emnlp.345.pdf

ASPIRE を使用すると、LLM は回答とその回答の信頼スコアを出力できます。

研究者の実験結果によると、ASPIRE は CoQA ベンチマークなどのさまざまな QA データセットにおいて従来の選択性予測方法を大幅に上回っています。

LLM では、質問に答えるだけでなく、その回答を評価することも求められます。

選択性予測のベンチマークテストでは、研究者らは ASPIRE システムを使用して 10 倍の規模のモデルを上回る結果を達成しました。

これは、教科書の後ろにある自分の答えを生徒に確認させるようなものです。少し信頼性が低いように聞こえますが、よく考えてみると、問題を解いた後は誰もが答えに対する満足度をスコア付けするはずです。

これが ASPIRE の本質であり、次の 3 つのフェーズで構成されます。

（１）特定のタスクに合わせたチューニング

（２）回答サンプリング、

（３）自己評価学習

研究者の見解では、ASPIRE は単なる別のフレームワークではなく、LLM の信頼性を総合的に向上させ、幻覚を軽減する明るい未来を表しています。

LLM が意思決定プロセスにおいて信頼できるパートナーになれるかどうか。

選択的予測を行う能力を最適化し続ける限り、大規模モデルの潜在能力を完全に実現することに一歩近づくことになります。

研究者たちは、ASPIRE によって次世代の LLM の進化を開始し、より信頼性が高く自己認識力のある人工知能を生み出すことを期待しています。

ASPIREの仕組み

タスク固有の微調整

ASPIRE は、LLM を固定しながら、タスク固有の微調整を実行して適応性パラメータをトレーニングします。

生成タスクのトレーニングデータセットが与えられると、事前トレーニング済みの LLM を微調整して予測パフォーマンスを向上させます。

このため、パラメータ効率の高い微調整技術（ソフトキューワード微調整や LoRA など）を採用して、タスクの事前トレーニング済み LLM を微調整することができます。これらの技術により、少量の客観的データで強力な一般化タスクデータを効果的に取得できるためです。

具体的には、LLMパラメータ（θ）を固定し、微調整のために適応パラメータを追加します。

標準的なLLMトレーニング損失（クロスエントロピーなど）を最小化するために、θ(p)のみが更新されます。

この微調整により、予測精度が向上するだけでなく、正しい出力シーケンスの可能性も高まるため、選択的予測のパフォーマンスが向上します。

回答サンプル

ASPIRE は、特定のタスクに合わせて調整された後、LLM と学習した CNN を使用して、トレーニングの質問ごとに異なる回答を生成し、自己評価学習用のデータセットを作成します。

研究者の目標は、高い確率で出力シーケンスを生成することです。彼らは、ビームサーチをデコードアルゴリズムとして使用して、高尤度の出力シーケンスを生成し、生成された出力シーケンスが正しいかどうかを判断するために Rouge-L メトリックを使用しました。

自己評価学習

ASPIRE は、各クエリに対して可能性の高い出力をサンプリングした後、適応型パラメータを追加し、微調整のみを行って自己評価を学習します。

出力シーケンスの生成は θ とのみに依存するため、 θ と学習した θ を固定すると、自己評価を学習するときに LLM の予測動作が変更されるのを回避できます。

研究者らは、適応した LLM が正解と不正解を独自に区別できるように最適化しました。

このフレームワークでは、パラメータ効率の高い微調整方法を使用してトレーニングおよびを行うことができます。

この研究では、研究者らは、従来の個別のテキストキューよりも効果的に特定の下流タスクを実行できるように固定言語モデルを調整するための「ソフトキュー」を学習するためのシンプルでありながら効果的なメカニズムであるソフトキュー微調整を使用しました。

このアプローチの中心となるのは、自己評価を効果的に引き出す手がかりが開発できれば、ソフトな手がかりの微調整とターゲットを絞ったトレーニング目標を組み合わせることで、その手がかりを発見できるはずだという認識です。

トレーニングとデコードの後、研究者はビームサーチデコードを通じてクエリの予測を取得しました。

次に研究者らは、回答を生成する可能性と学習した自己評価スコア（つまり、クエリに対する予測が正しい可能性）を組み合わせた選択性スコアを定義し、選択的予測を行いました。

結果

ASPIRE の有効性を実証するために、研究者らは、さまざまなオープンな事前トレーニング済み Transformer (OPT) モデルを使用して、3 つの質問応答データセット (CoQA、TriviaQA、SQuAD) で ASPIRE を評価しました。

研究者たちは、ソフトキューを使用してトレーニングを調整することで、 LLM の精度が大幅に向上したことを観察しました。

たとえば、ASPIRE を使用した OPT-2.7B モデルは、CoQA および SQuAD データセットを使用した、より大規模な事前トレーニング済み OPT-30B モデルと比較して、優れたパフォーマンスを示します。

これらの結果は、適切な調整を行うことで、より小さな LLM でも、場合によってはより大きなモデルの精度に匹敵するか、それを上回る可能性があることを示唆しています。

固定モデル予測の選択スコア計算をさらに詳しく調べると、ASPIRE はすべてのデータセットに対してベースラインメソッドよりも高い AUROC スコア (ランダムに選択された正しい出力シーケンスが、ランダムに選択された誤った出力シーケンスよりも高い選択スコアを持つ確率) を達成します。

たとえば、CoQA ベンチマークでは、ASPIRE はベースラインと比較して AUROC を 51.3% から 80.3% に向上させます。

TriviaQA データセットの評価では興味深いパターンが浮かび上がります。

事前トレーニング済みの OPT-30B モデルはベースライン精度が高くなっていますが、従来の自己評価方法 (Self-eval および P(True)) を適用した場合、選択性予測のパフォーマンスは大幅に向上しません。

対照的に、はるかに小さい OPT-2.7B モデルは、ASPIRE で拡張された後、この点で他のモデルよりも優れたパフォーマンスを発揮しました。

この違いは重要な点を反映しています。つまり、従来の自己評価手法を利用する大規模な LLM は、小規模な ASPIRE 拡張モデルほど選択性を予測するのに効果的ではない可能性があるということです。

ASPIRE を使用した研究者の実験の旅は、LLM 環境における重要な変化を浮き彫りにしています。言語モデルの能力は、そのパフォーマンスのすべてではないということです。

代わりに、戦略の調整によってモデルの有効性が大幅に向上し、より小さなモデルでもより正確で信頼性の高い予測が可能になります。

このように、ASPIRE は、独自の回答の確実性をインテリジェントに判断し、選択的予測タスクにおいて 10 倍の規模を持つ他のモデルを大幅に上回るパフォーマンスを発揮することで、LLM の可能性を実証しています。

<<: エンドツーエンドの自動運転に向けて、Horizon Robotics が Sparse4D アルゴリズムを正式にオープンソース化

>>:

「幻想」を消し去れ！ Google の新しい ASPIRE メソッドにより、LLM は自己採点が可能になり、その効果はボリュームモデルよりも 10 倍優れています。

タスク固有の微調整

回答サンプル

自己評価学習

AIは細胞構造の識別において人間にはできないことができる

C# 暗号化アルゴリズムの簡単な紹介

注目の話題レビュー：自動運転タクシーは商用化まであと一歩

OpenAIはDALL-E 3モデルをテストしていると報じられており、AI画像生成を新たな段階に押し上げると期待されている。

機械学習パイプラインのデータをオーケストレーションする方法

炭素クレジット監査における人工知能の応用

スマートシティAIソフトウェア市場は2025年までに700%成長

大規模マルチビューガウスモデル（LGM）：5秒で高品質の3Dオブジェクトを生成、試用可能

推薦する

SFが現実になる？偉大な劉慈欣がAI企業に入社

アルゴリズミア：人工知能は2021年に主流になる

機械学習の新しいお気に入り：対照学習論文の大規模なコレクション、60以上の論文が分類され、これまでにないほど包括的

「概念のドリフト」問題と闘おう！ Google が新しい時間認識フレームワークをリリース: 画像認識精度が 15% 向上

大学を解雇され、Facebookも拒否した大物音声エンジニアのダニエル・ポーヴィー氏が、中国のXiaomiに入社する

95 年以降の DAMO アカデミーのインターン生がマイクロソフトに勝ち、最も難しい NLP タスクの世界記録を更新

UCenter パスワードアルゴリズムのルールと生成方法

フェイフェイ・リーがリストに載っています！バイデン氏、AI研究者にデータを公開するため12人からなるタスクフォースを設置

ヘルスケア市場における人工知能の急速な発展を理解する

人工知能、ディープラーニング、マシンビジョン、理解すべき概念