大規模モデルの「幻覚」問題は解決されつつあるのでしょうか? ウィスコンシン大学マディソン校とグーグルの研究者らは最近、大規模なモデルが自らの出力を評価できる「ASPIRE」と呼ばれるシステムを開発した。 モデルによって生成された結果が高く評価されていないことに気づいたユーザーは、その反応が錯覚である可能性があることに気付くでしょう。 システムがスコアリング結果をさらにフィルタリングして出力できれば、例えばスコアが低すぎる場合、大規模モデルは「この質問には答えられません」と生成する可能性があり、幻覚問題の改善が最大化されると期待されます。 論文アドレス: https://aclanthology.org/2023.findings-emnlp.345.pdf ASPIRE を使用すると、LLM は回答とその回答の信頼スコアを出力できます。 研究者の実験結果によると、ASPIRE は CoQA ベンチマークなどのさまざまな QA データセットにおいて従来の選択性予測方法を大幅に上回っています。 LLM では、質問に答えるだけでなく、その回答を評価することも求められます。 選択性予測のベンチマークテストでは、研究者らは ASPIRE システムを使用して 10 倍の規模のモデルを上回る結果を達成しました。 これは、教科書の後ろにある自分の答えを生徒に確認させるようなものです。少し信頼性が低いように聞こえますが、よく考えてみると、問題を解いた後は誰もが答えに対する満足度をスコア付けするはずです。 これが ASPIRE の本質であり、次の 3 つのフェーズで構成されます。 (1)特定のタスクに合わせたチューニング (2)回答サンプリング、 (3)自己評価学習 研究者の見解では、ASPIRE は単なる別のフレームワークではなく、LLM の信頼性を総合的に向上させ、幻覚を軽減する明るい未来を表しています。 LLM が意思決定プロセスにおいて信頼できるパートナーになれるかどうか。 選択的予測を行う能力を最適化し続ける限り、大規模モデルの潜在能力を完全に実現することに一歩近づくことになります。 研究者たちは、ASPIRE によって次世代の LLM の進化を開始し、より信頼性が高く自己認識力のある人工知能を生み出すことを期待しています。 ASPIREの仕組み タスク固有の微調整ASPIRE は、LLM を固定しながら、タスク固有の微調整を実行して適応性パラメータをトレーニングします。 生成タスクのトレーニング データセットが与えられると、事前トレーニング済みの LLM を微調整して予測パフォーマンスを向上させます。 このため、パラメータ効率の高い微調整技術(ソフトキューワード微調整や LoRA など)を採用して、タスクの事前トレーニング済み LLM を微調整することができます。これらの技術により、少量の客観的データで強力な一般化タスク データを効果的に取得できるためです。 具体的には、LLMパラメータ(θ)を固定し、微調整のために適応パラメータを追加します。 標準的なLLMトレーニング損失(クロスエントロピーなど)を最小化するために、θ(p)のみが更新されます。 この微調整により、予測精度が向上するだけでなく、正しい出力シーケンスの可能性も高まるため、選択的予測のパフォーマンスが向上します。 回答サンプルASPIRE は、特定のタスクに合わせて調整された後、LLM と学習した CNN を使用して、トレーニングの質問ごとに異なる回答を生成し、自己評価学習用のデータセットを作成します。 研究者の目標は、高い確率で出力シーケンスを生成することです。彼らは、ビームサーチをデコードアルゴリズムとして使用して、高尤度の出力シーケンスを生成し、生成された出力シーケンスが正しいかどうかを判断するために Rouge-L メトリックを使用しました。 自己評価学習ASPIRE は、各クエリに対して可能性の高い出力をサンプリングした後、適応型パラメータを追加し、微調整のみを行って自己評価を学習します。 出力シーケンスの生成は θ と のみに依存するため、 θ と学習した θ を固定すると、自己評価を学習するときに LLM の予測動作が変更されるのを回避できます。 研究者らは、適応した LLM が正解と不正解を独自に区別できるように最適化しました。 このフレームワークでは、パラメータ効率の高い微調整方法を使用してトレーニングおよびを行うことができます。 この研究では、研究者らは、従来の個別のテキストキューよりも効果的に特定の下流タスクを実行できるように固定言語モデルを調整するための「ソフトキュー」を学習するためのシンプルでありながら効果的なメカニズムであるソフトキュー微調整を使用しました。 このアプローチの中心となるのは、自己評価を効果的に引き出す手がかりが開発できれば、ソフトな手がかりの微調整とターゲットを絞ったトレーニング目標を組み合わせることで、その手がかりを発見できるはずだという認識です。 トレーニングとデコードの後、研究者はビームサーチデコードを通じてクエリの予測を取得しました。 次に研究者らは、回答を生成する可能性と学習した自己評価スコア(つまり、クエリに対する予測が正しい可能性)を組み合わせた選択性スコアを定義し、選択的予測を行いました。 結果 ASPIRE の有効性を実証するために、研究者らは、さまざまなオープンな事前トレーニング済み Transformer (OPT) モデルを使用して、3 つの質問応答データセット (CoQA、TriviaQA、SQuAD) で ASPIRE を評価しました。 研究者たちは、ソフトキューを使用してトレーニングを調整することで、 LLM の精度が大幅に向上したことを観察しました。 たとえば、ASPIRE を使用した OPT-2.7B モデルは、CoQA および SQuAD データセットを使用した、より大規模な事前トレーニング済み OPT-30B モデルと比較して、優れたパフォーマンスを示します。 これらの結果は、適切な調整を行うことで、より小さな LLM でも、場合によってはより大きなモデルの精度に匹敵するか、それを上回る可能性があることを示唆しています。 固定モデル予測の選択スコア計算をさらに詳しく調べると、ASPIRE はすべてのデータセットに対してベースライン メソッドよりも高い AUROC スコア (ランダムに選択された正しい出力シーケンスが、ランダムに選択された誤った出力シーケンスよりも高い選択スコアを持つ確率) を達成します。 たとえば、CoQA ベンチマークでは、ASPIRE はベースラインと比較して AUROC を 51.3% から 80.3% に向上させます。 TriviaQA データセットの評価では興味深いパターンが浮かび上がります。 事前トレーニング済みの OPT-30B モデルはベースライン精度が高くなっていますが、従来の自己評価方法 (Self-eval および P(True)) を適用した場合、選択性予測のパフォーマンスは大幅に向上しません。 対照的に、はるかに小さい OPT-2.7B モデルは、ASPIRE で拡張された後、この点で他のモデルよりも優れたパフォーマンスを発揮しました。 この違いは重要な点を反映しています。つまり、従来の自己評価手法を利用する大規模な LLM は、小規模な ASPIRE 拡張モデルほど選択性を予測するのに効果的ではない可能性があるということです。 ASPIRE を使用した研究者の実験の旅は、LLM 環境における重要な変化を浮き彫りにしています。言語モデルの能力は、そのパフォーマンスのすべてではないということです。 代わりに、戦略の調整によってモデルの有効性が大幅に向上し、より小さなモデルでもより正確で信頼性の高い予測が可能になります。 このように、ASPIRE は、独自の回答の確実性をインテリジェントに判断し、選択的予測タスクにおいて 10 倍の規模を持つ他のモデルを大幅に上回るパフォーマンスを発揮することで、LLM の可能性を実証しています。 |
<<: エンドツーエンドの自動運転に向けて、Horizon Robotics が Sparse4D アルゴリズムを正式にオープンソース化
ディープラーニングが人気を集めている今、誰もが自分の研究分野でそれを活用できないか考えています。その...
【51CTO.comオリジナル記事】 1. はじめに上記の記事を通じて、レコメンデーション アルゴリ...
SF作家の劉慈欣はかつて、自身の小説の中でこのような天気予報を描写した。小説の主人公は気象大学を卒...
2022年も、疫病やサプライチェーン危機などの悪影響は続くとみられ、AIに対する消費者の信頼獲得や気...
組織は、全員を関与させれば、AI を活用してビジネスを成長させることができます。人工知能への投資は、...
表紙ニュース記者 孟美 張悦希休日明けの初日、北京冬季オリンピックも競技3日目に入った。スタジアム内...
AI プログラマーの平均給与は約 10 万ドルから 15 万ドルですが、大金を稼ぐには AI エン...
米国国土安全保障省および米国国税庁の元最高情報責任者であり、現在は Learning Tree In...
6月13日にリリースされたChatGPTの関数呼び出し機能は、自然言語の世界と既存のプログラミング言...
かつては、特に『スタートレック』や『2001年宇宙の旅』などのSF作品では未来の文明の進歩の象徴とみ...
海外メディアの報道によると、人工知能企業Kneronは特製の3Dマスクを使い、AlipayやWeCh...