大規模言語モデルの新しいレビューが発表されました。51ページの論文では、LLM分野の専門技術について説明しています。

大規模言語モデルの新しいレビューが発表されました。51ページの論文では、LLM分野の専門技術について説明しています。

大規模言語モデル (LLM) は、自然言語処理 (NLP) の分野で目覚ましい進歩を可能にし、幅広いアプリケーションに非常に有用でタスクに依存しない基盤を提供します。しかし、LLM を直接適用して特定のドメインの複雑な問題を解決すると、ドメイン データの異質性、ドメイン知識の複雑さ、ドメイン目標の一意性、制約の多様性 (さまざまな社会規範、倫理基準、宗教的信念など) に起因する多くの障害が発生します。ドメインの専門化は、LLM を多くのアプリケーションで実際に役立つものにするための鍵、あるいは前提条件です。したがって、LLM がますます多くの分野に適用され始めているため、ドメイン特化技術は近年急速に発展し、注目を集めており、包括的かつ体系的なレビューにより、この分野で進行中の研究をより適切に要約し、導くことができます。

本稿では、大規模言語モデルのアプリケーションにおける重要な新たな方向性である、大規模言語モデルにおけるドメイン特化の技術について包括的な概要を説明します。

  • まず、LLM へのアクセス可能性に応じて LLM のドメイン特化技術を分類するための体系的な分類法を提案し、すべてのサブカテゴリのフレームワークとそれらの間の関係および相違点を要約します。
  • 次に、LLM の専門化によって大きなメリットが得られるさまざまな主要な応用分野について説明し、その実際的な意味と未解決の課題について説明します。
  • 最後に、この分野の研究の現状と将来の動向についての洞察を提供します。詳しい内容については原文をご参照ください。

写真

論文アドレス: https://arxiv.org/abs/2305.18703

大規模言語モデルの背景と課題

自己注意メカニズムとTransformerフレームワークに基づく事前トレーニング済み言語モデル(PLM)が登場し、ここ数年で急速に人気を博しました。 PLM は、大規模なデータから教師なしで普遍的な言語表現を学習できるため、新しいモデルを再トレーニングすることなく、多くの下流の NLP タスクに役立ちます。ハードウェア機能が急速に向上するにつれ、研究者は PLM のパラメータとトレーニング データのサイズを増やすことでパフォーマンスが大幅に向上することを発見しました。このような大規模な事前トレーニング済み言語モデルは、GPT-3 (1,750 億)、LLaMA (650 億)、PaLM (5,400 億) などの大規模言語モデル (LLM) と呼ばれます。 LLM は、自然言語の理解と生成の非常に高いレベルを実証し、多くの特定の分野 (法律、教育、公衆衛生など) の基本的なタスクに対するソリューションを提供します。

しかし、多くの分野の特定のタスクや問題では、事前トレーニング済みの LLM を直接使用すると多くの困難が生じます。まず、医療処方箋から法律上の請求書まで、分野によってタスクと言語スタイルに大きな違いがあります。これらの能力と経験を獲得するには、人間の場合、何年もの訓練が必要になることもあり、そのほとんどは専門的な実践的な操作です。さらに、さまざまな分野、機関、チームには独自の「ビジネス モデル」があり、カスタマイズのない一般的な LLM ではドメイン エキスパートを直接置き換えることはできません。さらに重要なのは、プロフェッショナルレベルの使用には、非常に深く、リアルタイムで正確なドメイン知識も必要であり、これは事前にトレーニングされた LLM では簡単には達成できないということです。多くのドメイン知識リソースは、組織の独自の資産およびコアコンピテンシーであり、一般的な LLM に漏洩することは決してありません。最後に、言語は社会規範、宗教的信念、法的要件、道徳的慣行によって支配されており、これらはすべて地域、人口統計、民族などによって異なるパラメーターであるため、ユニバーサル LLM は万能のソリューションとなります。上記の困難により、「LLMをさまざまな分野に特化」するという強い需要と必然的な傾向が生まれました。

一般的な LLM をさまざまなドメインに特化するには、コンテキスト セマンティクスを理解するためにドメイン知識を組み込み、ドメイン固有のタスク目標を通じて最適化し、ドメイン制約によって調整される必要があります。具体的には、一般的な LLM を専門化する場合、次のような課題に直面します。

LLM を最新の知識と同期させる: LLM の威力は主に、大規模なトレーニング コーパスにあります。しかし、これはまた、LLM が知識のギャップに悩まされることが多いことも示唆しています (つまり、LLM は最新の情報、イベント、または発見にアクセスできません)。多くの専門分野では、新たな発見、規制、ベストプラクティスの結果が次々と生まれており、通常はオフラインである LLM では、独自のコーパスに含まれていないこうした情報を処理することが困難です。

1 つの LLM でさまざまな分野の専門知識を適用する: LLM はデフォルトで幅広いトピックに関する一般的な知識を持ち、分野固有の知識のほとんどを把握して習得している可能性があります。ただし、より人気のあるトピックは過剰に表現される可能性がある一方で、一部のドメイン固有のトピックは過小評価される可能性があり、ドメイン固有のタスクに対してそれらを効果的に抽出することが困難になります。さらに、ドメイン固有のタスクには、複雑な概念、専門用語、さまざまなエンティティ間の複雑な関係が含まれることがよくあります。適切なガイダンスがなければ、LLM は、合理的に聞こえるが実際には間違っている応答 (幻覚) を生成する可能性があります。

モデルの複雑さと微調整に必要な大量の計算リソース: 微調整は、歴史的に、特定のドメインのアプリケーションにより適合するように言語モデルを特化するための一般的なアプローチでした。ただし、LLM を微調整するには、効果的な微調整のために、大量の高品質でドメイン固有のデータが必要です。さらに、LLM を微調整するための膨大なコンピューティング リソースも無視できない大きな課題です。

分野別専門技術

図 1: LLM をさまざまなドメインのタスクに特化するための方法の分類。

主な技術の概要と関係

上記のドメイン特化の課題 1、2、3 に対処するために、LLM ドメイン特化手法は、図 1 に示すように、外部拡張、プロンプト作成、モデルの微調整という 3 つの対応する手法に分類できます。これらのカテゴリは、LLM へのさまざまなアクセス レベル、つまりアクセスなし (ブラック ボックス)、部分的なアクセス (グレー ボックス)、および完全なアクセス (ホワイト ボックス) に対応しています。さらに、図 2 では各カテゴリの方法の概要を示します。まず、ブラック ボックス クラス メソッドは通常、LLM の API にのみアクセスでき、モデルやトレーニングの情報は一切認識せず、生成された出力のみを認識します。このような方法では、LLM の内部パラメータ空間へのアクセスが必ずしも必要ではないため、リソースが限られているユーザー (コンピューティング リソース、ドメイン固有のデータなど) にとって非常に使いやすいものになります。図 2(b) に示すように、LLM のパフォーマンスは、外部リソースまたはツールを使用してドメイン固有の知識を LLM の入力、生成された出力、またはその両方に組み込むことで、内部構造を変更せずに効果的に調整できます。グレーボックスは、情報が限られていること(例:GPT-3 API でトークンが生成される確率)を示しており、これにより、ドメイン知識をより適切に引き出すための適切なプロンプトを設計できます(図 2.c)。一方、ホワイトボックスは、パラメータ設定、トレーニング データ、完全なモデル アーキテクチャなど、LLM(完全にオープン ソースの大規模言語モデル LLaMA とそのバリアントなど)に完全にアクセスできることを示しています。このタイプのアプローチでは、LLM のパラメータを更新し、ドメイン固有の知識をモデルに直接組み込む必要があるため、最も多くのアクセスとリソースが必要になります (図 2.d)。

図 2: ドメイン固有のタスクに合わせて LLM をカスタマイズするさまざまなアプローチ。

異なるカテゴリのメソッド間の関係

  • 異なるレベルの専門化: 各メソッドは、異なるレベルの専門化 (ブラック ボックス、グレー ボックス、ホワイト ボックス) に基づいて動作します。たとえば、外部拡張はドメイン固有の情報を集中的に注入しますが、プロンプト クラフティングは LLM 入力レベルで動作してモデルの推論プロセスを形成します。モデルの微調整により、LLM の内部パラメータが変更され、モデルの動作に大きな変化が生じます。
  • トレードオフ: これらの方法は、計算コスト、実装の容易さ、一般化能力が異なります。外部拡張とプロンプト作成を使用すると、通常、LLM を使用したモデルの微調整よりも計算コストが低くなりますが、同じレベルのパフォーマンス向上が得られない可能性があります。モデルの微調整によりパフォーマンスが大幅に向上しますが、実装が難しくなり、過剰適合が発生した場合に一般化能力が低下する可能性があります。
  • 相補性: これら 3 つの方法は、ドメイン固有のタスクでより優れたパフォーマンスを実現するために、個別に、または組み合わせて使用​​できます。たとえば、外部拡張を LLM モデルの微調整と統合して、専門知識を活用してパラメータを最適化することができます。同様に、慎重に設計されたプロンプトをモデルの微調整と組み合わせて使用​​することで、新たに学習したドメイン固有の知識を活用しながらモデルの出力をガイドできます。

主な技術的詳細

外部増強

外部拡張は、モデルパラメータを微調整せずに、外部ソースからドメイン固有の情報を取得または呼び出すことで、LLM を強化することを目的としています。主なカテゴリは 2 つあります: (1) ドメイン知識拡張 (LLM が外部の知識ソースからドメイン固有のコンテキストを取得する)、および (2) ドメインツール拡張 (通常は API を介して LLM を外部のシステムまたはツールと統合する)。

ドメイン知識拡張はモデルの応答を外部情報で補足し、ドメイン ツール拡張はモデルが実行できないタスクの機能を拡張します。ドメイン知識は特定のドメイン内の深さと精度を高め、ドメイン ツールはモデルが本来の機能を超えたタスクを実行できるようにします。このセクションでは、両方のアプローチ、その制限、および利点について説明します。

ドメイン知識の拡張: ドメイン知識は、特定のドメインまたは主題領域に関する包括的な理解として広く定義されます。特定の分野に特有の概念、原則、事実、パターンを理解することが含まれます。知識は、ドキュメントのセット、ドメイン固有の知識グラフ、またはパラメーター化されたドメイン知識を含むニューラル ネットワークなど、さまざまな形式で表現できます。 LLM 専門分野におけるドメイン知識拡張とは、ドメイン知識からの追加情報を組み込むことで、特定のドメインにおける LLM のパフォーマンスを強化するプロセスを指します。図 3 に示すように、質問応答タスクでは、外部データベースまたはナレッジ グラフで質問に関連するドメイン知識を取得し、この知識を元の質問に組み合わせて、LLM が関連する質問をより認識できるようにします。一般的に、LLM が専門分野を習得するのに役立つ外部知識には 2 つの種類があります。明示的知識とは、明確に定義され、簡単に表現され、直接理解して利用できるように構造化された知識を指します。一方、暗黙的知識とは、直接述べられたり簡単に表現されたりはしないものの、通常は潜在的で明白でない形でデータやシステムに埋め込まれている知識を指します。

図 3: 質問に関連するドメイン情報を取得することで、LLM はドメイン関連の知識を取得し、質問に適切に回答できます。

ドメイン ツールの拡張: ドメイン ツールとは、特定のドメイン専用に開発された特殊なソフトウェア、ライブラリ、またはフレームワークを指します。たとえば、ゲノムの質問に回答するための API、数学的な証明のための自動形式定理証明器、社会的行動シミュレーションのためのサンドボックス環境などです。これらのツールは、ドメイン固有のタスク、データ、または知識を効率的に処理するように設計されており、多くの場合、ドメインの固有の要件に合わせて調整されたアルゴリズム、テクニック、またはデータ構造を組み合わせています。ただし、これらのドメイン ツールを使用するには、入力形式を厳密に遵守したり、広範囲にわたるトレーニングを受ける必要がある場合が多く、一般ユーザーにとっては使いにくくなります。一方、LLM は、幅広いタスクおよびドメインの知能と認知能力において、人工汎用知能モデルを示します。汎用性があるにもかかわらず、現在の LLM はドメインの専門性を必要とするタスクには制限があります。これらの制限には、(1)ランダムシード、生成ハイパーパラメータ、入力内容に応じて結果の形式が不安定になる可能性があること、(2)LLMはトレーニングデータからのみ情報を取得できるため、最新の情報を取得できないこと、(3)研究者は事実を捏造する傾向があることを観察していること、(4)算術などの特定のタスクの精度が不足していることなどが含まれます。そのため、研究者は、複雑なドメイン固有のタスクを処理するためにドメイン ツールまたは LLM のみを使用することの制限を克服するための共同統合アプローチを提案しました。このアプローチは、ドメイン固有の知識、アルゴリズム、ツールの機能を活用しながら、LLM を通じてユーザーフレンドリーなインターフェースを提供し、両方の利点を組み合わせます。このコラボレーションにより、ドメイン固有のリソースの使用が最適化され、LLM が外部ツールを直接ガイドできるようになるため、ユーザー エンゲージメントが簡素化されます (図 4 を参照)。

図 4: LLM はユーザーの質問に直接答えるのではなく、質問を Python コードに変換し、外部プログラムを呼び出して質問を解決します。

プロンプト作成

大規模なコーパスでトレーニングされた LLM は強力ですが、Prompt でさらに事前トレーニングを行うことで、ユーザーの意図を追跡し、より正確な応答を生成する能力を高めることができます。プロンプト、つまり特定のモデル応答を引き出すように設計されたタスク固有の入力テキストは、LLM のコンテンツ生成プロセスをガイドし、目的の出力を設定するのに役立ちます。

方法は一般的に2つのカテゴリに分類されます: (1) 離散プロンプトでは、タスク固有の自然言語指示を作成してLLMにプロンプ​​トを出し、パラメータ空間からドメイン固有の知識を引き出します。(2) 連続プロンプトでは、学習可能なベクトルを使用してLLMにプロンプ​​トを出すため、テキスト指示を手動で設計する必要がなくなります。このセクションでは、これら 2 つのアプローチについて詳しく説明し、ドメイン特化の利点と制限についても説明します。

Discrete Prompt: Discrete Prompt を通じて、LLM が未知のドメインに素早く適応できるようにします。GPT-3 は、LLM の内部パラメータを更新せずに、Discrete Prompt を通じて LLM を使用して未知のタスクを実行する方法を紹介した最初の研究です。以下に、Discrete Prompt フレームワークの正式な定義を示します。事前トレーニング済みのモデルパラメータを表すLLM が与えられた場合タスクは、離散プロンプトとテストクエリを通じて、つまり凍結状態でLLM から予想される出力を引き出すことです。 𝑝と𝒄は両方とも表現のシーケンス(つまり、自然言語の文)であることに注目する価値があります。離散プロンプトを使用する理由は、それが LLM の推論能力を引き出すための指示として機能するためです。このような指示に従うことで、LLM は特別なトレーニングを受けていないドメイン固有のタスクを実行できます。このアプローチにより、LLM は以前に学習した知識を新しい多様な状況に適用する能力を実証することができ、全体的な有効性と有用性が向上します。離散プロンプトはさらに 2 つのブランチに分けられることに注意してください。ゼロショット プロンプトではプロンプトにタスク情報のみを含めることができますが、少数ショット プロンプトではプロンプトにタスクの説明といくつかの説明例を含めることができます。オリジナルの論文では、ドメイン特化に対するこれら 2 つのアプローチの利点と限界について詳しく説明します。

継続プロンプト: 継続プロンプトは、入力文と連結して LLM に追加の知識を導くことを目的としたトークン シーケンスですが、継続プロンプトの調整を通じて下流のデータセットから学習することもできます。この場合、継続的なプロンプトは、個別の言語フレーズとしてハードコードされた命令ではなく、ソフトパラメータ化されたプロンプトとして機能します。継続的なプロンプト チューニングは、LLM の一般的な言語理解機能を維持しながら、プロンプトを最適化し、カスタマイズされたタスクまたはドメインに LLM を適応させることです。図 5 は、継続的プロンプト チューニングの一般的なフレームワークをまとめたものです。ここでは、LLM パラメータの総数の約 0.01% を占める Prompt に関連するパラメータのみを更新し、微調整段階では LLM 自体を凍結することができます。継続的なプロンプトチューニングは、さらに(1)タスク依存のプロンプトチューニングと(2)インスタンス依存のプロンプトチューニングの2つのカテゴリに分類できます。継続的なプロンプトチューニングは、パラメータ効率が高く、完全に制御可能なチューニング方法を提供し、大規模な事前トレーニング済み言語モデルのよりカスタマイズされた適応を可能にします。

図5:継続的なプロンプトチューニングの一般的なフレームワーク:火のアイコンモジュールは調整可能、氷のアイコン

モデルの微調整

LLM は広範囲の一般的なテキスト データでトレーニングされますが、タスクまたはドメイン固有の知識を適切にエンコードできない場合があります。この場合、より小さなドメイン固有のデータセットでモデルを微調整すると、特定の領域でのパフォーマンスが向上します。この微調整は、(1)アダプタベースの微調整と(2)タスク指向の微調整という2つの主なアプローチに分けられます。これら 2 つの方法は、特定のタスクまたはドメインに適応するために LLM モデル パラメータをさまざまな程度に更新することにより、特殊なアプリケーションを処理する際の柔軟性と効率性を実現します。

図 6: ドメイン固有の知識に基づいて LLM を微調整する 2 つのアプローチ。青い四角形は LLM のパラメーター セットを表します。 (a) アダプタベースの微調整は、少数の追加パラメータ(アダプタ)を追加することで、特定のドメインの LLM を微調整することを目的としています。(b) タスク指向の微調整は、特定のタスクに応じて LLM の全体的なパラメータを微調整することを目的としています。

アダプタベースの微調整: 図 6 (a) に示すように、この方法では、ニューラル アダプタまたはモジュール コンポーネントを使用して、LLM の内部パラメータに大きな変更を加えることなく、ドメイン固有のタスクにおける LLM のパフォーマンスを向上させます。これらのアダプターは既存の LLM アーキテクチャに統合されることが多く、タスク固有の学習によって、元のモデルの整合性を維持しながら言語モデルをターゲット ドメインまたはタスクに適応させることができます。モデルに追加のモジュールを追加する利点としては、(1)パラメータ数が少なくシンプルであること、(2)元の言語モデルへの拡張性があること、(3)特定のドメインごとに順次トレーニングを行う柔軟性があることなどが挙げられます。上記の利点を持つ戦略のほとんどは、アダプタに基づいており、効率的なパラメータの微調整のカテゴリに属します。一般的に使用されるアダプタの種類には、パラメータ化された通常のアダプタ、ニューラル ネットワーク構造を持つアダプタ、低ランク アダプタ、アダプタ フレームワークのコレクションなどがあります。

タスク指向の微調整: 少量のタスク情報と補助アダプターを超えてモデルのパフォーマンスを根本的に向上させるには、大量の高品質のドメイン固有のデータセットで LLM の内部パラメータを更新する必要があります。しかし、特定のタスクに合わせて LLM を微調整するには、2 つの課題があります。1) LLM のグローバル知識を更新すると、過剰適合、壊滅的な忘却、タスク固有のバイアスにより、文脈学習能力が損なわれる可能性があります。 2) LLM モデルの微調整は、パラメータ空間が大きく、モデルアーキテクチャが深いため、計算コストが高くなります。現在、LLM の内部パラメータの更新は、主に命令ベースの微調整と部分的な知識更新の 2 つの領域に分けられ、それぞれこの 2 つの課題に対処します。図6(b)に示すように、この方法は、LLMの内部パラメータを変更して特定のタスクとの整合性を改善することに重点を置いています。ただし、ハードウェアの制限と潜在的なパフォーマンスの低下により、LLM のすべてのパラメータを完全に更新することは非現実的である可能性があります。したがって、研究者にとっての課題は、広大なパラメータ空間内でどのパラメータを変更する必要があるかを判断すること、またはこれらのパラメータのサブセットを効率的に更新することです。

分野固有のアプリケーション、課題、および将来の研究の方向性

このレビュー記事では、社会科学(教育、金融、法律など)、自然科学(生物医学、地球科学など)、形式科学(人間とコンピュータの相互作用、ソフトウェア工学、サイバーセキュリティなど)におけるさまざまなドメイン固有のタスクへの LLM の応用を検討します。これらの多様な領域で LLM のドメイン特化を実現するために、読者は外部強化、ガイド付き定式化、モデルの微調整などのさまざまな手法を採用できます。これらのアプローチは、LLM を各ドメインの特定のタスクや課題に合わせて調整するのに役立ち、より正確で関連性が高く効果的なアプリケーションにつながります。各ドメインには独自の課題と要件がありますが、これらのドメインはすべて、(1) 生物医学文献の遺伝子の特定や契約書の法的条項の検出など、ドメイン固有のテキストからエンティティ、関係、イベントを識別する、(2) 高品質のドメイン固有のコンテンツを生成し、複雑なドメイン固有のテキストの正確な要約を作成する、(3) ドメイン固有のデータを分析して予測を行い、財務動向の予測や個別の治療計画の提案など、推奨事項を提供する、(4) 自然言語の記述に基づいてコードを生成または分析し、エラーを特定したり、改善を提案したりするなど、いくつかの専門的な LLM の共通アプリケーションを共有しています。

ドメイン特化の特別な課題

大規模言語モデルの分野における特化への現在のアプローチを検討した結果、この分野で大きな進歩が遂げられている一方で、いくつかの未解決の課題が残っていることを認識することが重要です。これらの課題は、アクセシビリティや特殊化に使用される特定のテクノロジに関係なく、すべてのカテゴリのモデルに当てはまります。ドメイン固有のコンテンツを効果的に理解し、生成できる LLM の作成に努める中で、この分野の研究の将来の方向性を決定するのはこれらの課題です。

  • ドメインの複雑さ: 各ドメインには、専門用語、用語、知識構造など、独自の複雑な特性があります。法律や医学などの分野では、言語と用語は非常に特殊であり、特定の文法規則に従います。この複雑さは、ドメイン内のさまざまなエンティティと概念間の関係にも及びます。この複雑なドメイン知識を正確に理解し、モデル化することは、あらゆる種類のモデルにとって大きな課題です。
  • 一般知識とドメイン知識のバランス: LLM は、状況に応じて適切な応答を提供するために、一般知識を維持しながら、特定のドメインの特殊性を理解する必要があります。モデルが過度に特化されている場合、対象ドメイン内では適切に機能するかもしれませんが、そのドメイン外の手がかりに関連する一貫した応答を理解したり生成したりできない可能性があります。逆に、一般的な知識を多く保持しすぎると、ドメイン固有の応答が薄れる可能性があります。一般知識とドメイン知識のバランスを見つけることは複雑な作業です。
  • ドメインの進化に適応する: ドメインは静的なものではなく、新しい用語、概念、トレンドが出現するにつれて時間の経過とともに進化します。たとえば、現在も続いている COVID-19 パンデミックにより、数多くの新しい医学用語や概念が生まれました。したがって、特定の分野に特化した LLM は、関連性と有効性を維持するために、これらの変化に継続的に適応する必要があります。専門分野の進化に対応できるモデルを設計することは、困難な作業です。
  • 拡張性: ドメインの専門化には通常、ドメイン固有のデータを使用した LLM のトレーニングまたは微調整、固有のプロンプトのプログラミング、またはその他のドメイン固有のリソースの使用が含まれます。これは一部のドメインでは実行可能かもしれませんが、このプロセスを拡張して広範囲のドメインをカバーしたり、大規模で複雑なドメインを処理したりすることは、大きな課題です。これには、コンピューティング リソースだけでなく、ドメイン固有のデータと専門知識の可用性も含まれます。課題は、さまざまな専門分野をカバーできるように拡張できる、効率的で効果的な方法を作成することです。

今後の研究の方向性

大規模言語モデルの特殊化のフロンティアを切り開くには、既存のブラックボックス、グレーボックス、ホワイトボックスのアプローチを基にして改善するだけでなく、これらの従来のアプローチを上回る可能性のある革新的で画期的な手法を予測して探求する必要があります。 AI テクノロジーの急速な発展と LLM へのより深い理解を活用することで、将来的には、ドメイン特化の可能性の限界を押し広げ、より高いパフォーマンス、より大きな柔軟性、より効率的なリソースの使用を実現する新しいテクノロジーが登場すると予想されます。重要な指示は次のとおりです。

  • ハイブリッド アプローチ: 段階や特定のニーズに応じて、複数のアプローチを組み合わせる場合があります。たとえば、モデルはブラックボックス アプローチから開始し、外部リソースを使用して入力プロンプトを強化し、次にグレーボックス アプローチを使用して勾配または損失値を使用してプロンプトを改善し、最後にホワイトボックス アプローチを使用して学習したポリシーとフィードバックに基づいてモデルを微調整する場合があります。このハイブリッド アプローチは、リソース要件とモデル パフォーマンスのバランスをとることができ、希少なドメイン固有のデータを処理する場合に特に効果的です。
  • メタ学習または AutoML 技術: AutoML またはメタ学習戦略を使用して、ドメイン特化に最適な戦略を選択するプロセスを自動化できます。たとえば、メタ学習法では、類似のドメインでの過去の経験に基づいて、特定のドメインに対して微調整に最適なデータ、最適なヒントエンジニアリング手法、または最適な微調整の階層を選択する戦略を学習する場合があります。これにより、ドメイン特化に必要なリソースと専門知識が大幅に削減され、より効率的なアプローチが可能になります。
  • より明示的な世界知識の組み込み: 将来の LLM は、テキストベースの事前トレーニングに依存するだけでなく、知識グラフなどの構造化された知識ソースを活用してドメイン理解を強化する可能性があります。これには、グラフ構造データで動作するグラフ ニューラル ネットワークや注意メカニズムなどの技術が含まれる場合があります。たとえば、医療法学修士課程では、医療オントロジー グラフから知識を得て、さまざまな医療用語と概念の関係をより深く理解することができます。明示的に構造化された知識が利用できる分野では、より正確で有益な出力が得られる可能性があります。
  • ヒューマンインザループ学習: モデルの学習プロセスをガイドするために、人間のユーザーまたは専門家からの継続的な対話とフィードバックが含まれます。たとえば、法律 LLM は、モデルを使用する法律専門家からのフィードバックに基づいて継続的に更新できます。このフィードバックは、追加のトレーニング データの形で追加することも、強化学習フレームワークのモデルの報酬関数の変更として追加することも、モデルのプロンプトの変更として追加することもできます。これにより、ユーザーのニーズや知識の進歩に応じて進化できる、より動的で適応性の高いモデルが実現する可能性があります。

まとめ

LLM の急速な発展により、さまざまな自然科学や社会科学における分野固有の課題を解決するための LLM の可能性を活用することへの大きな関心が高まっています。しかし、ドメイン固有の専門知識の限界、知識の誘導、モデルの複雑さなど、いくつかの課題により、これらの分野での LLM の直接的な適用が妨げられています。このレビューでは、LLM へのアクセス レベルに基づいて既存のドメイン特化手法を体系的に分類して要約し、特化された LLM からメリットを得られるアプリケーション ドメインの包括的な概要を示します。このレビューは、さまざまな技術とドメインの利点、欠点、関係性を詳細に分析することにより、ドメインの専門家が対象の問題設定に適した技術を特定し、さまざまなアプリケーション領域における実用的な重要性と未解決の課題を明確に理解できるようにすることを目指しています。さらに、この記事ではこの分野の研究の現状に焦点を当て、将来の傾向と学際的なコラボレーションの可能性のある道筋を明らかにしています。

<<:  AIの文章検出ツールは信頼性が低く、米国憲法は実際にはロボットによって書かれたと考えられている

>>:  ChatGPTのトラフィックが減少しており、学生が夏休みに入っているためだと推測する人もいる

ブログ    
ブログ    
ブログ    

推薦する

...

ターゲット検出アルゴリズムにおける正長方形と不規則四辺形 IOU の Python 実装

交差対結合 (IoU) は、ターゲット検出で使用される概念です。ターゲット検出アルゴリズムをテストす...

...

「顔認識」は諸刃の剣です。どうすればそれを利用して被害を回避できるのでしょうか?

[[356811]]顔認識は人工知能の画期的な技術として、大規模に導入され始めています。顔認証ロッ...

Amazon クラウド テクノロジーにより、Yidiantianxia は AIGC の波の中で新しいマーケティング パラダイムを構築できるようになりました。

生成的 人工知能 それがもたらす熱狂は継続し、すべての人の思考を刺激し続けます。今日の「百モデル戦争...

ブロックチェーン、人工知能…革新的なコンセプトを利用して投資家を混乱させる違法金融にご注意

[[337468]]最近、上海検察院は2019年金融検察白書を発表し、現在の金融犯罪事件を整理・分析...

...

2020年グローバルNLP業界レポート:NLPテクノロジー予算が30%増加

2020 年は、公衆衛生、職業生活、経済、そして日常生活のほぼすべての側面にとって特別な年となりまし...

COVID-19パンデミックは顔認識技術の導入を促進している

COVID-19は顔認識技術の使用にどのような影響を与えるでしょうか? [[374366]] #p#...

ドローンの交通管制はますます標準化されつつあります。副作用を避けるためにこれらのことを行ってください

今日、都市化の加速と都市人口の増加により、都市ガバナンスはますます困難になっています。例えば、都市統...

ドローンの将来の用途

ドローンは、1960年代以降、政府と軍隊によるインテリジェントな戦闘装備の需要から生まれました。米軍...

機械学習アルゴリズムと機械学習モデルの開発方法について知っておくべきことは何ですか?

[[201235]]概念とそれがビジネス目標に与える影響を学ぶことは非常に重要です。アルゴリズムの...

...