LLM評価レビュー論文が出版され、3つの側面から包括的にまとめられ、データベースも掲載されている

大規模言語モデル (LLM) は、学界や産業界から幅広い注目を集めています。有用な LLM を開発するには、適切な評価方法が不可欠です。ついに、LLM 評価に関するレビュー論文が完成しました! LLM 評価に関する関連研究は 3 つの側面から包括的に要約されており、関連研究者が索引付けして参照するのに役立ちます。

それだけでなく、論文の著者は、ユーザーが関連する新しい研究を簡単に追加して共有できるように、オープンソースリポジトリも作成しました: https://github.com/MLGroupJLU/LLM-eval-survey

知性の本質を理解し、機械が知能を持つことができるかどうかを判断することは、科学者にとって非常に興味深いテーマです。推論を実行し、仮説を検証し、将来に備える能力は、私たちの真の知性によるものだと広く信じられています。人工知能の研究者は、機械ベースの知能の開発に取り組んでいます。適切な指標はインテリジェンスを理解するのに役立ちます。たとえば、IQ テストは人間の知能レベル/知能をテストするためによく使用されます。

AI の分野において、AI 開発の長期的な目標は、AI がチューリングテストに合格できるようにすることです。チューリングテストでは、AI とそれに対する人間の反応を区別して AI の知能レベルを評価する、広く認知されたテストセットが必要です。研究者は一般的に、コンピューターがチューリングテストに合格できれば、そのコンピューターは知的であるとみなせると考えています。したがって、より広い視点から見ると、AI の記録は、インテリジェントなモデルとアルゴリズムの作成と評価のタイムラインとして説明できます。新しい AI モデルやアルゴリズムが登場するたびに、研究者は特定の困難なタスクを使用して、現実のシナリオでその機能を慎重に評価します。

たとえば、1950 年代に汎用人工知能 (AGI) への道として宣伝されたパーセプトロンアルゴリズムは、XOR 問題を解決するのが困難であったため、後にその評判に値しないことが判明しました。その後のサポートベクターマシン（SVM）とディープラーニングの登場と応用は、どちらも AI 開発における大きなマイルストーンですが、それぞれに欠点もあります。

過去の研究により、評価の重要性が明らかになりました。評価は、現在のシステムの限界を特定し、より強力なモデルを設計するための情報を提供する重要なツールです。

現在、学界と産業界が最も関心を寄せている技術的手法は、大規模言語モデル（LLM）です。既存の研究では、LLM のパフォーマンスが優れており、AGI の有力な候補となっていることが示されています。特定のタスクに限定されていた以前のモデルと比較して、LLM はさまざまなタスクを解決することができます。 LLM は一般的な自然言語タスクとドメイン固有のタスクの両方を処理できるため、学生や患者など、特定の情報ニーズを持つ人々の間でますます人気が高まっています。

以下の理由により、評価は LLM の成功にとって非常に重要です。

まず、LLM を評価することで、LLM の長所と短所をより深く理解できるようになります。たとえば、PromptBench ベンチマークでは、現在の LLM が敵対的なプロンプトに敏感であることが示されており、パフォーマンスを向上させるにはプロンプトを慎重に設計する必要があります。

第二に、より優れた評価により、LLM と人間のインタラクションに関するより優れたガイダンスが提供され、将来のインタラクションの設計と実装に関するアイデアを提供できるようになります。

第三に、LLM はさまざまなタスクに広く適用できるため、特に金融やヘルスケアなどの業界では、そのセキュリティと信頼性を確保することが重要です。

最後に、LLM の能力が増すにつれて、その規模も大きくなるため、既存の評価方法では、その能力と潜在的なリスクを評価するのに十分ではない可能性があります。これが、このレビュー論文の目標である、AI コミュニティに LLM 評価の重要性を認識させ、LLM 評価プロトコルに関する将来の新しい研究を導くことにつながります。

ChatGPT と GPT-4 の発売に伴い、自然言語タスク、推論、堅牢性、信頼性、医療アプリケーション、倫理的配慮など、多くの要素を網羅したさまざまな側面 (図 2) から ChatGPT やその他の LLM を評価することを目的としたいくつかの研究成果が登場しました。しかしながら、評価の全領域を網羅した包括的なレビューはまだ不足しています。さらに、LLM の継続的な進化により、評価が必要な新しい側面も導入され、既存の評価に困難が生じ、徹底的かつ多面的な評価手法の必要性が高まります。 GPT-4 は AGI のきっかけとなる可能性があると主張する研究もありますが、GPT-4 の評価方法は依然としてヒューリスティックな性質を持っているため、この主張に反対する研究もあります。

吉林大学、マイクロソフトリサーチアジア、カーネギーメロン大学などの研究機関によるこの論文は、大規模言語モデルの評価に関する包括的なレビューを提供します。図 1 に示すように、著者らは既存の研究を 1) 何を評価するか、2) どこで評価するか、3) どのように評価するかという 3 つの側面から調査しました。

論文アドレス: https://arxiv.org/pdf/2307.03109.pdf

具体的には、「何を評価するか」では LLM の既存の評価タスクをカバーし、「どこで評価するか」では使用するデータセットとベンチマークの適切な選択を扱い、「どのように評価するか」では特定のタスクとデータセットでの評価プロセスに焦点を当てます。これら 3 つの側面は LLM 評価の不可欠な部分です。その後、著者らは、LLM 評価の分野における将来の潜在的な課題について議論します。

図2: 2020年から2023年6月までのLLM評価論文の推移（6月のデータには7月の論文も一部含まれています）

この論文の主な貢献は次のとおりです。

この記事では、何を評価するか、どこで評価するか、どのように評価するかという 3 つの側面から、LLM 評価の包括的な概要を説明します。採用された分類アプローチは普遍的であり、LLM 評価のライフサイクル全体をカバーします。
本稿では、「何を評価するか」という観点から、複数の分野における既存の課題をまとめ、LLM の成功事例と失敗事例について洞察に満ちた結論を導き出します。
この記事では、「どこで評価するか」という観点から、読者が LLM 評価の現状を徹底的に理解できるように、評価指標、データセット、ベンチマークをまとめています。この論文では、「評価方法」という観点から、現在のプロトコルを調査し、新しい評価方法をまとめています。
この論文では、LLM の評価における将来の課題についてもさらに議論しています。 LLM 評価に関する共同コミュニティを育成するために、著者らは LLM 評価関連資料のリポジトリも維持し、オープンソース化しました: https://github.com/MLGroupJLU/LLM-eval-survey

背景

大規模言語モデル (LLM)

GPT-3、InstructGPT、GPT-4 などの多くの LLM の背後にあるコアモジュールは、Transformer の自己注意モジュールであり、言語モデリングタスクの基本的な構成要素です。トランスフォーマーは、シーケンスデータを効率的に処理し、並列化をサポートし、テキスト内の長距離依存関係をキャプチャする機能を備えているため、NLP 分野に革命をもたらしました。

LLM の主な特徴はコンテキスト学習です。つまり、モデルは特定のコンテキストまたはプロンプトに基づいてテキストを生成するようにトレーニングできます。これにより、LLM はより一貫性があり、より長いコンテキスト依存の応答を生成できるようになり、対話型および会話型のアプリケーションに適したものになります。

人間からのフィードバックによる強化学習 (RLHF) は、LLM のもう 1 つの重要な側面です。この技術は、人間が生成した応答を報酬として使用してモデルを微調整し、モデルが間違いから学習して時間の経過とともにパフォーマンスを向上させることを可能にします。

表1: 従来の機械学習、ディープラーニング、LLMの比較

AIモデル評価

AI モデルの評価は、モデルのパフォーマンスを評価する上で重要なステップです。 K 分割交差検証、ホールドアウト検証、Leave One Out 交差検証 (LOOCV)、ブートストラップ、縮小セットなど、いくつかの標準的なモデル評価プロトコルがあります。

図3: AIモデルの評価プロセス

LLM のアプリケーションが増えるにつれて、その解釈可能性はますます悪化するため、既存の評価プロトコルでは LLM の真の機能を徹底的に評価するには不十分な可能性があります。

評価するもの

言語モデル（特に大規模言語モデル）を開発する本来の目的は、理解タスクと生成タスクの両方を含む自然言語処理タスクにおける AI のパフォーマンスを向上させることです。このため、ほとんどの評価研究は自然言語タスクに焦点を当てています。

自然言語処理タスク

表 2: 自然言語処理タスクに基づく評価の概要: NLU (自然言語理解、SA (感情分析)、TC (テキスト分類)、NLI (自然言語推論) およびその他の NLU タスクを含む)、Rng. (推論)、NLG (自然言語生成、Summ. (要約)、Dlg. (対話)、Tran. (翻訳)、QA (質問応答) およびその他の NLG タスクを含む)、および Mul. (多言語タスク)

堅牢性、倫理、偏見、信頼性

LLM の評価には、堅牢性、倫理、偏見、信頼性などの重要な側面が含まれます。 LLM のパフォーマンスを総合的に評価するために、これらの要素の重要性が高まっています。

表3: 堅牢性、倫理性、偏見、信頼性の観点から見た法学修士課程の評価研究の概要

社会科学

社会科学は人間社会と個人の行動を研究するもので、経済学、社会学、政治学、法学などの分野が含まれます。社会科学における LLM のパフォーマンスを評価することは、学術研究、政策立案、社会問題の解決にとって非常に重要です。これらの評価は、社会科学におけるモデルの応用を促進し、モデルの品質を向上させ、人間社会への理解を深め、社会の進歩を促進するのに役立ちます。

自然科学と工学

自然科学と工学における LLM のパフォーマンスを評価することは、科学研究、技術開発、工学研究の応用と開発を導くのに役立ちます。

表4: 数学、科学、工学の3つの分野を網羅した自然科学と工学の課題における評価研究の概要

医療用途

医療分野におけるLLMの応用は最近大きな注目を集めています。ここでは、医学的質疑応答、医学的検査、医学的評価、医学教育の4つの側面から、医療分野におけるLLMの応用を紹介します。

表5: LLMの医療への応用に関する評価研究の概要。これには、Med. Exam. (医療検査)、Med. Ass. (医療評価)、Med. QA (医療に関する質疑応答)、Med. Edu. (医療教育) の4つの側面が含まれます。

インテリジェントエージェントアプリケーション

LLM は一般的な言語タスクに焦点を当てるだけでなく、さまざまな分野のタスクに取り組むための強力なツールとして使用できます。 LLM に外部ツールを装備することで、モデル機能を大幅に拡張できます。

その他のアプリケーション

上記のカテゴリに加えて、LLM は、教育、検索と推奨、性格テスト、分野固有のアプリケーションなど、さまざまな分野でも使用できます。

表6: LLMの他の応用に関する評価研究の概要。これには、Edu. (教育)、Sea. & Rec. (検索と推奨)、Pers. Test. (性格テスト)、およびSpecific applications (特定のアプリケーション)の4つの側面が含まれます。

評価する場所: データセットとベンチマーク

LLM 評価データセットの目的は、さまざまなタスクにおけるさまざまな言語モデルのパフォーマンスをテストし、比較することです。 GLUE や SuperGLUE などのデータセットは、テキスト分類、機械翻訳、読解、対話生成など、さまざまなタスクを網羅し、現実世界の言語処理シナリオをシミュレートすることを目的としています。私たちが興味を持っているのは、言語モデルの単一の評価データセットではなく、LLM を評価するためのベンチマークです。

LLM が進化し続けると、ベンチマークも変化します。ここでは、よく使用される 13 のベンチマークを紹介します。各ベンチマークは異なる側面と評価基準に焦点を当てており、それぞれの分野に貴重な貢献を提供します。わかりやすくまとめると、ベンチマークは、一般的な言語タスクベンチマークと特定のダウンストリームタスクベンチマークの 2 つのカテゴリに分類されます。

表7: LLM評価ベンチマークの概要

評価方法

一般的に使用される評価方法は、自動評価と人間による評価の 2 つのカテゴリに分けられます。名前の通り、ここでは詳しく紹介しません。

要約する

ミッション: LLMの成功事例と失敗事例

それでは、さまざまなタスクにおける LLM の成功事例と失敗事例をまとめてみましょう。以下の結論は既存の評価作業に基づいており、結果は特定のデータセットによって異なる可能性があることに注意してください。

LLM は何に優れていますか?

LLM はテキスト生成を習得しており、流暢かつ正確な言語表現を作成できます。
LLM は、感情分析やテキスト分類などの言語理解を伴うタスクで優れたパフォーマンスを発揮します。
LLM は強力なコンテキスト理解機能を備えており、与えられた入力と一致する首尾一貫した応答を生成することができます。
LLM は、機械翻訳、テキスト生成、質問応答など、さまざまな自然言語処理タスクで賞賛に値する成果を達成しています。

LLM が得意ではないことは何ですか?

LLM は生成プロセスでバイアスや不正確さを示す可能性があり、その結果、偏った出力が生成されます。
LLM は複雑な論理や推論のタスクを理解する能力が限られており、複雑な状況では混乱したり間違いを犯したりすることがよくあります。
LLM は大規模なデータセットや長期記憶を処理する能力が限られているため、非常に長いテキストや長期的な依存関係を伴うタスクを処理することが難しい場合があります。
LLM はリアルタイムかつ動的な情報を統合する能力が限られているため、最新の知識や変化する状況への迅速な適応を必要とするタスクには適していません。
LLM はプロンプト、特に敵対的なプロンプトに敏感であるため、研究者は LLM の堅牢性を向上させるための新しい評価方法とアルゴリズムを開発する動機付けになります。
テキスト要約の分野では、大規模なモデルでは特定の評価メトリックのパフォーマンスが低下する可能性があることが観察されています。これは、特定のメトリックの固有の制限と不十分さが原因である可能性があります。

ベンチマークと評価プロトコル

LLM の急速な発展と広範な使用により、実際のアプリケーションと研究におけるその重要性を評価することが重要になります。この評価プロセスには、タスクレベルの評価だけでなく、潜在的な社会的リスクも含める必要があります。表 8 は既存のベンチマークと評価プロトコルをまとめたものです。

表8: 新しいLLM評価プロトコルの概要

大きな課題

最後に、LLM評価研究が直面する課題を見てみましょう。著者らは、LLM やその他の AI モデルの開発を成功させるためには、評価を重要な分野として扱うべきだと主張しています。既存のプロトコルは LLM を徹底的に評価するには不十分であり、克服すべき多くの課題が残っています。以下に簡単に列挙しますが、それらは LLM 評価における将来の研究の新たな機会でもあります。