ビッグモデルは事実の知識を習得する上で優れた能力と可能性を示していますが、ドメイン知識の欠如、リアルタイム知識の欠如、幻覚の可能性など、ビッグモデルの応用と信頼性を大きく制限するいくつかの問題がまだ残っています。ビッグモデルの事実性に関する最近の研究はいくつかありますが、ビッグモデルの事実性の定義、影響、評価、分析、強化について十分に検討した論文はまだありません。 ウェストレイク大学は、国内外の10の科学研究機関と共同で、大規模モデルの事実性に関するレビュー「大規模言語モデルの事実性に関する調査:知識、検索、ドメイン特異性」を発表しました。レビューでは、300以上の論文を調査し、事実性の定義と影響、大規模モデルの事実性の評価、大規模モデルの事実性のメカニズムとエラー生成の原理、大規模モデルの事実性の強化に焦点を当て、大規模モデルの事実性の詳細なレビューと概要を提供しました。このレビューの目的は、学界や産業界の研究者や開発者が大規模モデルの現実をより深く理解し、知識と信頼性を高めることです。
1. はじめに知識の習得は常に人工知能システムの開発における基本的な追求でした。歴史的に、McCarthy (1963) と Newell (1976) の独創的な研究は、AI システムにおける知識表現と推論の重要性を強調しました。たとえば、Cyc プロジェクトは、AI システムに世界についての包括的な理解を提供することを目的に、常識的な知識をエンコードするという野心的な旅に乗り出しました。同時に、ミラー (1990) の WordNet プロジェクトなどの取り組みでは、単語間の意味関係を捉えた語彙データベースを作成し、AI システムが人間の言語のニュアンスを理解できるようにしようとしました。 GPT-4 などの大規模言語モデル (LLM) の出現は、特に知識の習得と応用において驚異的な能力と可能性を示したことから、学界と産業界における大きな進歩と見なされています。 LLM を知識の担い手として活用する利点は多岐にわたります。まず、専門的な知識ベースの構築と維持に必要なオーバーヘッドとコストを削減します。さらに、LLM は知識の処理と活用に対してより柔軟なアプローチを提供し、文脈を考慮した推論と新しい情報やプロンプトへの適応能力を可能にします。 しかし、LLM の比類のない力にもかかわらず、虚偽または誤解を招くコンテンツを生み出す可能性があるという懸念があります。さらに、特定のドメイン知識やリアルタイムの事実知識の欠如も、大規模モデルの使用を大幅に制限します。よくある例としては、LLM に有名人について質問すると、LLM が持っている情報に基づいて回答が生成されることがありますが、その情報は古くなっていたり間違っていたりする可能性があります。もしその人が最近、転職や賞の受賞など、キャリアに重要な変化を経験していて、その情報が LLM のトレーニング データに含まれていない場合、生成される回答は現実に遅れをとることになります。同様に、トレーニング データに不正確な情報 (誕生日の誤りや死亡日の誤報告など) が含まれている場合、それらのエラーも再現される可能性があります。 著者らは、LLM における事実性に関する研究の包括的な概要を提供することを目的とし、1) 事実性の問題の定義とその影響、2) 事実性を評価する手法とその定量的評価、3) LLM における事実性の基本的なメカニズムの分析と事実上の誤りの根本原因の特定、および 4) LLM の事実性を高める方法という 4 つの主要な側面を掘り下げています。 著者らは、LLM の使用を、ChatGPT などの外部知識のない LLM と、BingChat などの検索強化 LLM の 2 つの主な設定に分類しています。 この調査の完全な構造を下の図に示します。 II. 事実上の問題著者が大規模モデルの事実性について語るとき、彼らは大規模言語モデルが常識、世界知識、ドメイン事実知識を含む事実情報と一致するコンテンツを生成する能力について言及しています。この事実情報のソースは、辞書、Wikipedia、またはさまざまな分野の教科書である可能性があります。著者は上記の表で、LLM における事実に関する質問のさまざまな例を示しています。たとえば、LLM では、医学や法律などの特定の分野における事実に関する知識が不足している可能性があります。さらに、LLM は、最終更新後に発生した事実を認識していない可能性があります。 LLM が関連事実を把握しているにもかかわらず、正しい答えを推論できないケースもあります。場合によっては、以前に学習した事実を忘れたり、思い出せなくなったりすることもあります。 事実性の問題は、幻覚、古い情報、ドメイン特異性など、大規模言語モデルの分野におけるいくつかのホットなトピックと密接に関連しています。本質的に、これらのトピックはすべて同じ問題に対処しています。それは、LLM が、空想から作成されたコンテンツ、古い情報、またはドメイン固有の知識が不足しているコンテンツを生成する可能性があるということです。したがって、著者はこれら 3 つのトピックすべてが事実の問題の範疇に入ると考えています。 ただし、これらのトピックは関連しているものの、それぞれに独自の焦点があることに注意することが重要です。 幻覚と LLM の両方における事実性の問題は、生成されたコンテンツの正確性と信頼性に関係していますが、それらは異なる側面を扱っています。幻覚は主に、根拠のない、または不合理な内容を生成する LLM を中心に発生します。 GPT4 技術レポートの定義と幻覚関連の研究から、著者は幻覚を「何らかのソースに対応しない無意味または非現実的なコンテンツを生成する」モデルの傾向として理解しています。これは、モデル学習、事実知識の獲得と活用を重視する事実問題とは異なります。具体的な比較は次の表に示されています。 一方、古い情報は、以前は正確だった情報が最近の知識に置き換えられた状況、または新しい、存在しない出来事が発生した状況に焦点を当てています。最後に、ドメイン特異性は、特定の専門知識を必要とするコンテンツの生成を重視します。これらの違いにもかかわらず、3 つのトピックはすべて、LLM におけるより広範な事実上の課題に対するより深い理解に貢献します。 このレビューでは、次の 2 つの設定に焦点を当てます。
3. 事実評価この章では、大規模モデルの事実性、ベンチマーク、評価方法、およびドメイン固有の事実評価の評価メトリックに焦点を当てます。 事実評価指標: 著者らは、NLG で一般的に使用されるいくつかの自動評価メトリックを紹介し、特に事実に基づくメトリックを検討します。 この記事では、これらの指標を次のカテゴリに分類します。
事実に基づくベンチマーク: 著者は、大規模モデルの実際の評価のためのベンチマークと、そのタスクの種類、データセット、評価指標、およびそれに対する現在の代表的な大規模モデルのパフォーマンスを紹介します。具体的な内容は次の表のとおりです。 事実に基づく評価方法: 著者らは、新しい評価ベンチマークを導入せずに大規模モデルの事実性を評価する研究を紹介し、代わりに評価手法や測定基準を開拓した研究、または LLM の事実性の評価に独自の洞察を提供した研究に焦点を当てています。 著者は、次の図に示すように、タスク、データセット、指標、人間による評価の有無、評価対象の大規模モデル、および各作業の粒度を紹介しています。 同時に、モデルの事実性を高めるためのいくつかの研究でも、従来のタスク データセットが使用されています。著者は、次の表に示すように、これらの研究の評価方法とデータセットも含めます。 特定の分野における事実の評価: 特定の分野における事実評価のベンチマーク。表には、対応する研究で評価されたドメイン、タスク、データセット、および LLM が示されています。 4. 事実分析この章では、大規模モデルの事実性の内部メカニズムと、大規模モデルが事実上の誤りを生み出す理由に焦点を当てます。 具体的には、大規模モデルの事実性の内部メカニズムの分析には、大規模モデルが事実知識を保存、処理し、事実コンテンツを生成するメカニズム、特に知識の保存、知識の整合性と認識、文脈の影響と知識の衝突の分析が含まれます。事実エラーの原因は、ドメイン知識の欠如、古い情報、不完全な記憶、忘却、推論エラーを含むモデルレベル、不十分な情報、破壊的な情報、モデルが受け入れない情報、関連情報の誤解を含む検索レベル、スノーボール効果、誤ったデコード、表示エラーを含む推論レベルの3つのレベルに分けられます。 5. 事実性の強化この章では、スタンドアロン大規模モデル (LLM) や検索拡張大規模モデル (検索拡張 LLM) への応用を含む大規模モデルの事実性を強化する方法に焦点を当て、ドメイン知識強化大規模モデル (ドメイン事実性強化 LLM) についても詳細に説明します。 独立した大規模モデルの生成に焦点を当てる場合、拡張戦略はおおよそ 3 つのカテゴリに分けられます。
検索強化のための大規模モデル生成に焦点を当てる場合、強化戦略はおおまかに次の 3 つのカテゴリに分けられます。
著者は、次の図に示すように、評価データセット、指標、ベースライン効果、およびその方法を使用した後の効果など、効果を実証するためにいくつかの事実に基づく強化方法を選択しました。 ドメインの事実性が強化された大規模モデル: 著者らは、特定のドメインについて事実性が強化された LLM をリストアップしています。医療・健康(H)、金融(F)、法律・法務(L)、地球科学・環境(G)、教育(E)、食品検査(FT)、住宅改修(HR)など、さまざまな分野をカバーしています。特定の分野における LLM の実際の適用シナリオと著者による以前の拡張方法の分類に基づいて、一般的に使用されるいくつかの拡張手法をまとめました。
ドメイン固有の大規模モデルごとに、著者はドメイン、モデル名、評価タスク、データセット、およびそれぞれの拡張方法を次の表に示すようにリストします。 VI. 結論この調査では、大規模言語モデル (LLM) における事実性の問題の複雑な状況を体系的に調査します。まず、著者は事実性の概念を定義し、次にそのより広範な意味合いについて説明します。その後、著者らは、ベンチマーク、評価指標、特定の評価研究、およびドメイン固有の評価を含む事実に基づく評価のセクションに進みます。次に著者は、大規模モデルの事実性の内部メカニズムを詳細に調査しました。著者らは、純粋なビッグモデルと検索強化型ビッグモデルの両方に対する事実拡張手法について説明し、ドメイン固有の知識で拡張されたビッグモデルに焦点を当てています。 このレビューで詳述されている多くの進歩にもかかわらず、いくつかの困難な課題が残っています。自然言語の本質的な複雑さのため、事実性の評価は依然として複雑な問題です。さらに、大規模なモデルが事実の知識を保存、更新し、事実のコンテンツを生成するコアプロセスはまだ完全には明らかにされていません。継続的なトレーニングや検索などの事実拡張技術には将来性があるものの、依然として限界があります。 将来的には、現実に忠実な大規模モデルの探求は、課題と機会の両方をもたらします。今後の研究では、大規模モデルのニューラル アーキテクチャに関する理解が深まり、より堅牢な評価指標が開発され、拡張技術が革新される可能性があります。大規模モデルがデジタル エコシステムにますます統合されるようになるにつれて、その事実上の信頼性を確保することが引き続き重要になり、AI コミュニティだけでなくそれ以外の分野にも影響を及ぼします。 |
Insilico Medicine は、人工知能を使用して特発性肺線維症治療薬の新しいメカニズムを世...
[[408210]]今では「顔認証で出勤、顔認証で支払い、顔認証でドアを開ける」といったハイテクノ...
長い間、CV トレーニングは 2 次元データに限定されてきました。3 次元データのラベル付けにはコス...
簡単な紹介ユーザーは、認識する必要のある写真を一括でアップロードします。アップロードが成功すると、シ...
6月30日のニュースによると、今週、完全に人工知能によって設計された世界初の医薬品が人間の臨床試験段...
皆さんもご存知のとおり、大規模言語モデル (LLM) はディープラーニングの状況を変えつつあり、人間...
最近、第51回国際コンシューマー・エレクトロニクス・ショーが米国ラスベガスで開催され、世界中の人工知...
序文最近、突然素晴らしいアイデアが浮かびました。コンピューターの画面に顔を向けると、コンピューターは...
ダイクストラアルゴリズム (Dijkstra アルゴリズムとも呼ばれます) は、有向グラフ内の単一の...
この記事では、自然言語処理タスクに最適な 6 つの Python ライブラリを紹介します。初心者でも...
最近、ある問題を発見しました:映画でも現実でも、人工知能AIは人間を圧倒するような形で世間の前に現れ...
最近、2022年のナスダック上位10社の研究開発費のグラフが突然人気を集めました。ご覧のとおり、Am...
ERNIE は、Baidu のディープラーニング プラットフォーム PaddlePaddle 上に構...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
世界中の企業がモノのインターネット (IoT) を急速に活用して新しい製品やサービスを生み出し、新た...