LLM幻覚問題の徹底レビュー！ HITチームの50ページのレビューが公開された

幻覚だよ、古い友人よ。

LLM が私たちの視野に入って以来、錯覚の問題は常に無数の開発者を悩ませてきた障害となってきました。

もちろん、大規模言語モデル幻覚の問題に関する研究は数え切れないほど行われてきました。

最近、ハルビン工業大学とファーウェイのチームが、LLM幻覚問題に関する最新の進歩について包括的かつ詳細な概要を提供する50ページのレビューを発表しました。

このレビューでは、LLM 幻覚の革新的な分類方法から始めて、幻覚を引き起こす可能性のある要因を深く探究し、幻覚を検出するための方法とベンチマークの概要を示します。

その中で、幻覚を軽減するための業界で最も代表的な方法は、間違いなく不可欠です。

論文アドレス: https://arxiv.org/abs/2311.05232

次に、このレビューで主に議論されている内容を見てみましょう。

より深く学びたい方は、記事の下部にある参考リンクに移動して、原文を読んでください。

幻覚の分類

まず、幻覚にはどんな種類があるのか見てみましょう。

上の写真では、左側が実際の錯覚です。 LLM は、月面を歩いた最初の人物は誰かと尋ねられたとき、架空の人物像を作り出し、しかも説得力のある言い方をした。

右側は、テキスト要約モデルの忠実度の問題です。このニュースを見た後、LLM が年を誤って直接要約したことがわかります。

このレビューでは、研究者らは、データ、トレーニングから推論段階までの一連の要因を網羅して、LLM における幻覚の起源を深く分析しました。

この枠組みの中で、研究者たちはデータに関連する潜在的な理由を指摘しています。たとえば、欠陥のあるデータソースや最適化されていないデータ利用、事前トレーニングおよびアライメント中に幻覚を引き起こす可能性のあるトレーニング戦略、デコード戦略によるランダム性、推論中の不完全な表現などです。

さらに、研究者らは、LLM における幻覚を検出するために設計されたさまざまな効果的な方法の包括的な概要、および LLM 幻覚に関連するベンチマークの徹底的な概要と、LLM 幻覚の範囲と検出方法の有効性を評価するためのテストベッドを提供します。

下の図は、このレビューに含まれる内容、過去の研究、論文を示しています。

下の図は、LLM 錯視の種類のより詳細な図です。

事実錯覚と忠実性錯覚の下には、さらに詳細な分類もあります。

事実に基づく幻覚:

a) 事実の矛盾

誰が最初に月面に着陸したかと尋ねられたとき、LLM はアームストロングではなくガガーリンであると答えました。このような答えは事実と矛盾しています。ガガーリンは実在した人物であり、捏造されたものではありません。

b) 事実の捏造

LLM はユニコーンの起源を紹介するよう求められたとき、世界にユニコーンのような生き物は存在しないことを指摘せず、代わりに長い文章を書きました。このような現実世界に存在しないものを捏造といいます。

忠実度の錯覚には、指示と回答の不一致、テキストの不一致、論理の不一致などがあります。

a) 指示と回答の不一致

LLM に質問を翻訳するように依頼すると、出力される回答は実際には翻訳なしで質問に答えるものです。そのため、指示と回答の間に矛盾が生じます。

b) テキストの不一致

この種の不一致は、一般化タスクでより一般的です。 LLM は与えられたテキストを無視し、間違った結論を導き出す可能性があります。

c) 論理的矛盾

2x+3=11 という方程式を解くように求められたとき、LLM はまず両辺から 3 を引くと 2x=8 になることを指摘しました。次に、両辺を 2 で割ると、LLM は答え 3 を出力します。

8 を 2 で割ると 3 になるのはなぜですか?

幻覚の仕組み

データ

次に、レビューでは幻覚の原理に関する内容を整理し始めます。

最初のカテゴリはデータの問題です。

誤報と偏見。大規模コーパスの需要が高まっていることから、大量のデータを効率的に収集するためにヒューリスティックなデータ収集方法が使用されます。

このアプローチでは大量のデータが提供されますが、誤って誤った情報が導入され、模倣エラーのリスクが高まる可能性があります。さらに、LLM の学習プロセスに社会的偏見が意図せず持ち込まれる可能性もあります。

これらのバイアスには、主に反復バイアスとさまざまな社会的バイアスが含まれます。

LLM 事前トレーニングの主な目的は、トレーニング分布を模倣することであることに注意してください。そのため、LLM が事実上不正確なデータでトレーニングされると、これらの不正確さをうっかり増幅し、事実上不正確なデータという錯覚につながる可能性があります。

ニューラルネットワーク、特に大規模な言語モデルには、トレーニングデータを記憶する固有の傾向があります。研究によれば、この記憶傾向はモデルのサイズが大きくなるにつれて増加することが分かっています。

しかし、事前トレーニングデータに重複した情報がある場合、固有の記憶能力が問題になります。この繰り返しにより、LLM は一般化から記憶へと移行し、最終的に繰り返しバイアスを生み出します。つまり、LLM は繰り返しデータの想起を過度に優先し、幻覚を引き起こし、最終的には望ましいコンテンツから逸脱することになります。

これらの偏りに加えて、データ分布の違いも幻覚の潜在的な原因となります。

次の状況は、LLM には知識の限界があることが多いということです。

大規模な事前トレーニングコーパスは JLM に広範な事実知識を提供しますが、それ自体には限界があります。この制限は、主に最新の事実知識と専門分野の知識の欠如という 2 つの側面に反映されています。

LLM は一般的なドメインのさまざまなダウンストリームタスクで優れたパフォーマンスを示していますが、これらの汎用 LLM は主に広範な公開データセットでトレーニングされているため、専門ドメインでの専門知識は関連するトレーニングデータが不足しているために本質的に制限されています。

その結果、医療や法律の問題など、ドメイン固有の知識を必要とする問題が提示されると、これらのモデルは、多くの場合、捏造された事実の形で、重大な幻覚を示す可能性があります。

さらに、事実に関する知識が古くなっていることもあります。ドメイン固有の知識の欠如に加えて、LLM の知識境界のもう 1 つの固有の制限は、最新の知識を習得する能力が限られていることです。

LLM に含まれる事実の知識には明確な期限があり、時間の経過とともに古くなる可能性があります。

これらのモデルは、一度トレーニングされると、内部の知識は更新されません。

そして、私たちの世界がダイナミックかつ常に変化していることを考えると、これは課題となります。 LLM は、自分の時間枠を超えたドメイン知識に直面した場合、事実をでっち上げたり、過去には正しかったかもしれないが今では時代遅れになっている答えを提供したりして、「なんとか切り抜ける」ことを試みることがよくあります。

下の図の上部では、LLM が特定の領域 (フェニルケトン尿症) に関する専門知識を欠いていることが示されています。

後半は、時代遅れの知識の最も単純な例です。冬季オリンピックは2018年に韓国の平昌で、2022年に北京で開催されます。 LLM には後者に関する知識ベースがありません。

LLM におけるデータ関連の錯覚は、主にデータソースの誤りとデータの不適切な利用から生じていることがわかります。データソース内の誤情報や固有の偏りは、模倣された偽情報を広めるだけでなく、偏った出力をもたらし、さまざまな形の幻覚を引き起こします。

特定の分野の知識を扱ったり、急速に更新される事実の知識に遭遇したりすると、LLM が持つ知識の限界が明らかになります。

データの利用という点では、LLM はしばしば誤った相関関係を捉え、知識 (特にロングテール情報) や複雑な推論シナリオを思い出すのが困難であり、錯覚をさらに悪化させます。

これらの課題は、データの品質を改善し、モデルが事実の知識をより効果的に学習して思い出す能力を強化する緊急の必要性を浮き彫りにしています。

電車

さて、このレビューでは、LLM のトレーニング段階に注目します。

LLM トレーニングプロセスは、主に次の 2 つの段階で構成されます。

事前トレーニング段階では、LLM は一般的な表現を学習し、広範な知識を獲得します。

アライメントフェーズでは、LLM を調整して、ユーザーの指示を基本的な人間の価値観とよりよく一致させます。このプロセスにより LLM は適切なパフォーマンスを発揮しますが、これらの段階で何らかの欠陥があると、意図せず幻覚が発生する可能性があります。

事前トレーニングは LLM の基本的な段階であり、通常はトランスフォーマーベースのアーキテクチャを採用して、大規模なコーパスに対して因果言語モデリングを実行します。

しかし、固有のアーキテクチャ設計と研究者が採用する特定のトレーニング戦略により、幻覚に関連する問題が発生する可能性があります。前述のように、LLM は通常、トランスフォーマーベースのアーキテクチャを採用し、GPT によって確立されたパラダイムに従います。因果言語モデリングの目的を通じて表現を取得します。OPT や Llama-2 などのモデルはこのフレームワークの例です。

構造上の欠陥に加えて、トレーニング戦略も重要な役割を果たします。自己回帰生成モデルのトレーニングと推論の違いが、露出バイアスの現象につながることは注目に値します。

アライメント段階は、通常、教師あり微調整と人間からのフィードバックによる強化学習 (RLHF) という 2 つの主なプロセスで構成され、LLM の機能を解き放ち、人間の好みと一致させるための重要なステップです。

アライメントにより LLM 応答の品質が大幅に向上する可能性がありますが、錯覚を生み出すリスクも伴います。

それは主に、能力の不一致と信念の不一致という 2 つの側面に分けられます。