エンタープライズデータ開発のための大規模言語モデル: 概念、懸念事項、ホットトピック

翻訳者|朱仙中

レビュー | Chonglou

導入

GPT-4 は、韻を踏んだプロンプトを出しながら素数が無限に存在することを証明するように求められた場合、それを実行できます。しかし、GPT-4 に「あなたの会社の前四半期の業績はどうでしたか?」と尋ねると、結果は間違いなく惨敗となるでしょう!これは、現在の大規模言語モデル（LLM）が一般的に直面している根本的な課題を示しています。LLMは一般公開されている知識をうまく捉えることができますが、独自の非公開情報についてはまったく認識していません（脚注[1]を参照）。一方、独自の情報は、ほとんどのエンタープライズアプリケーションワークフローにとって重要です。パブリックインターネットを理解するモデルは便利ですが、そのままの形ではほとんど組織にとってあまり役に立ちません。

過去 1 年間、私は LLM をエンタープライズユースケースに適用している多くの組織と協力する機会に恵まれました。この記事では、この旅に乗り出すすべての人が知っておくべき重要な概念と懸念事項、そして LLM がどのように進化していくのか、そしてそれが ML 製品戦略にどのような影響を与えるのかについて詳しく説明します。この記事は、プロダクトマネージャー、デザイナー、エンジニア、その他の読者を対象としており、LLM が内部でどのように機能するかについてはほとんどまたはまったく知らないが、技術的な詳細に立ち入ることなく、その背後にある概念を学習することに興味があることを前提としています。

4つのコンセプト

ヒントエンジニアリング、コンテキストウィンドウ、埋め込み

LLM に独自のデータに対して推論を実行させる最も簡単な方法は、モデルのヒントに独自のデータを提供することです。ほとんどの LLM は、次の質問に正しく答えます。「A と B という 2 人の顧客がいて、それぞれ 10 万ドルと 20 万ドルを費やしています。最大の顧客は誰で、その顧客はいくら費やしていますか?」クエリ (2 番目の文) の前にコンテキスト (最初の文) を付けるという、次のような基本的なヒントエンジニアリングのテストが終了しました。

埋め込みにより、コンテキスト内で質問に答えるために必要な情報が取得されます。埋め込みはテキストをデジタルベクトルに変換する方法であり、類似したテキストは類似したベクトル（N次元空間で「密接に保存された」ベクトル）を生成します（脚注[ 2 ]を参照）。 SharePoint、Google Docs、Notion から Web サイトのテキスト、ドキュメント、さらにはコーパス全体を埋め込むこともできます。次に、各ユーザープロンプトを埋め込み、プロンプトベクトルとベクトル化されたテキストコーパス間の類似性検索を実行します。たとえば、Wikipedia に動物に関するページを埋め込み、ユーザーが狩猟について質問した場合、類似性検索ではライオン、シマウマ、キリンに関する Wikipedia の記事が上位にランク付けされます。これにより、プロンプトに最も類似したテキストのチャンクを特定し、最も回答の可能性が高いテキストを特定することができます（補足[ 3 ]を参照）。最も類似したテキストのチャンクをプロンプトの前のコンテキストに含めることで、プロンプトには LLM が質問に答えるために必要なすべての情報が含まれるようになります。

微調整

埋め込みの欠点の 1 つは、LLM へのすべての呼び出しで、ヒントとともにすべてのコンテキストを渡す必要があることです。 LLM には、最も基本的な企業固有の概念さえも「記憶」されていません。ほとんどのクラウドベースのLLMプロバイダーは通知トークンごとに料金を請求するため、すぐに高額になる可能性があります（脚注[ 4 ]を参照）。

微調整により、LLM はすべてのプロンプトにビジネス固有の概念を含めなくても、ビジネス固有の概念を理解できるようになります。私たちは、数十億の学習パラメータに一般的な知識をエンコードしたベースモデルを採用し、基礎となる一般的な知識を維持しながら、特定の企業知識を反映するようにこれらのパラメータを調整します（補足[ 5 ]を参照）。新しく微調整されたモデルを使用して推論を生成すると、企業の知識を「無料で」得ることができます。

埋め込み/ヒントエンジニアリング (基礎となるモデルがサードパーティのブラックボックスである場合) と比較すると、微調整は従来の機械学習に近いものであり、ML チームは独自のモデルをゼロから作成できます。微調整には、ラベル付けされた観測値を含むトレーニングデータセットが必要です。微調整されたモデルは、トレーニングデータの品質と量に非常に敏感です。また、構成の決定（反復回数、学習率など）を行い、長期トレーニングジョブをスケジュールし、モデルのバージョンを追跡する必要もあります。現在、一部の基本モデルプロバイダーは、この複雑さを抽象化する API を提供していますが、提供していないプロバイダーもあります。

微調整されたモデルの推論は安価かもしれませんが、高価なトレーニングの労力がこれを上回る可能性があります（脚注[ 6 ]を参照）。一部のベースモデルプロバイダー (OpenAI など) は、遅延エッジモデルの微調整のみをサポートしています (したがって、ChatGPT または GPT-4 はサポートされていません: https://platform.openai.com/docs/guides/fine-tuning)。

評価フレームワーク

LLM によってもたらされる新しい重要な課題は、複雑な出力の品質を測定することです。従来の ML チームは、数値予測や分類などの単純な出力の精度を測定するために現実的な方法を試してきました。しかし、LLM のほとんどの企業ユースケースでは、数十から数千語の応答を生成する必要があります。 12 語以上の単語を必要とするほど複雑な概念は、多くの場合、複数の方法で表現できます。したがって、たとえ人間が検証した「専門家」の回答があったとしても、モデル回答と専門家の回答の正確な文字列一致を行うのは厳しすぎるテストであり、モデル回答の品質を過小評価することになります。

幸いなことに、 OpenAI によってオープンソース化されたEvals フレームワークは、この問題を解決する方法を提供します。このフレームワークでは、ラベル付けされたテストセット (プロンプトが「専門家」の応答と一致するもの) が必要ですが、モデルと専門家の応答の間でさまざまな種類の比較が可能になります。たとえば、モデルによって生成された回答（専門家の回答のサブセットまたはスーパーセット、実際には専門家の回答に匹敵するもの）は、専門家の回答よりもどれだけ簡潔でしょうか。 Evals は LLM を使用してこれらのチェックを実行することに注意してください。「チェッカー」LLM に欠陥がある場合、Evals 自体の返される結果が不正確になる可能性があります。

敵対的例

LLM を本番環境で使用する場合は、誤ったユーザー入力や悪意のあるユーザー入力を安全に処理できるという確信が必要です。ほとんどの企業にとって、出発点はモデルがフェイクニュースを拡散しないようにすることです。これは、限界を認識し、「わかりません」と言うべきタイミングを知っているシステムを意味します。ここでは多くの戦術的なアプローチがあります。これはプロンプトエンジニアリングを通じて実行でき、「上記のコンテキストで質問に答えられない場合は、「わかりません」と答えてください」などのプロンプト言語を使用します。範囲外のトレーニング例を提供することで微調整でき、専門家は「わかりません」と応答します。

企業は、リアルタイムのハッキング攻撃などの悪意のあるユーザー入力からも保護する必要があります。システムが受け入れる入力と出力の形式と長さを制限することは、シンプルかつ効果的なスタートとなります。内部ユーザーのみにサービスを提供する場合は予防措置を講じることが賢明ですが、外部ユーザーにサービスを提供する場合は必須です。

3つの焦点

偏見を永続させる

最も人気のある LLM (OpenAI/GPT-4、Google/Bard) の開発者は、モデルを人間の偏見と一致させるために懸命に取り組んでおり、複雑な規制の層を展開しています。 GPT-4やバードに人種差別的または女性蔑視的なジョークを言うように頼むと、彼らは丁寧に拒否します（脚注[ 7 ]を参照）。

これは良いニュースです。残念なことに、社会的偏見に対するこの抑制は、必ずしも制度的偏見から保護するわけではない。私たちのカスタマーサポートチームが、特定のタイプの顧客に対して失礼な態度をとってきた経歴があると想像してください。過去の顧客サポートの会話を単純に使用して新しい AI システムを構築すると (たとえば、微調整によって)、システムはこのバイアスを再現する可能性があります。

過去のデータを使用して AI モデル (古典的または生成的) をトレーニングする場合は、どの過去の状況を将来に引き継ぐか、どの過去の状況を引き継がないか、慎重に検討してください。場合によっては、過去のデータを直接使用せずに原則を設定し、それに従って作業する方が簡単なこともあります (プロンプトエンジニアリングなど)。

モデルロック

孤立して生活していない限り、生成 AI モデルが非常に急速に進歩していることはご存知でしょう。企業のユースケースを考えると、今日の最高の LLM は 6 か月後には最高のソリューションではなくなる可能性があり、6 年後も間違いなく最高のソリューションではなくなるでしょう。スマート ML チームは、ある時点でモデルを切り替える必要があることを認識しています。

ただし、単純な LLM「スワップ」を構築する主な理由は他に 2 つあります。まず、多くのベースモデルプロバイダーは指数関数的に増加するユーザー数をサポートするのに苦労しており、その結果、サービスの停止や品質低下が発生しています。システムにフォールバックベースモデルを組み込むことをお勧めします。 2 番目に、システム内の複数の基本モデルをテストして (競馬に似ています)、どのモデルが最もパフォーマンスが良いかを確認することは非常に便利です。 Evals フレームワークに関する上記の知識に基づくと、モデルの品質を分析的に測定することは難しい場合が多く、2 つのモデルを実行して応答を定性的に比較したい場合があります。

データ侵害

使用を検討している基本モデルの利用規約を必ずお読みになることをお勧めします。モデルプロバイダーが将来のモデルトレーニングでユーザー入力を使用する権利を持っているとしたら心配です。 LLM は非常に大きいため、特定のユーザークエリ/応答がモデルの将来のバージョンに直接エンコードされ、そのバージョンのすべてのユーザーがアクセスできるようになります。組織内のユーザーが「XYZ を実行するコードをクリーンアップするにはどうすればよいですか? [ここには独自の機密コードを入力してください]」と尋ねたとします。モデルプロバイダーがこのクエリを使用して LLM を再トレーニングすると、新しいバージョンの LLM は、独自のコードがユースケース XYZ を解決するのに適した方法であると学習する可能性があります。競合他社が XYZ の実行方法を尋ねた場合、LLM はソースコードなどを「漏洩」する可能性があります。

OpenAI は現在、ユーザーが自分のデータをモデルのトレーニングに使用しないことを選択できるようにしており、これは良い前例となっているが、すべてのモデルプロバイダーがそれに従っているわけではない。一部の組織では、独自の仮想プライベートクラウドで LLM を実行することも検討しています。これが、オープンソース LLM が注目される主な理由です。

2つのホットな話題

ヒントエンジニアリングが微調整をリードします

私が初めてLLMをビジネスに応用し始めたとき、先端エンジニアリングよりも微調整に興味がありました。微調整を使用すると、データのラングリング、トレーニング/テストデータセットの生成、トレーニングジョブの開始、しばらくの待機、何らかのメトリックに基づく結果の評価など、私が慣れ親しんでいる従来の ML システムの原則に準拠しているように感じられます。

しかし、ほとんどのエンタープライズユースケースでは、プロンプトエンジニアリング (埋め込みを使用) の方が優れたアプローチであると信じるようになりました。まず、ヒントエンジニアリングの反復サイクルは、数時間または数日かかるモデルのトレーニングがないため、微調整よりもはるかに高速です。プロンプトの変更と新しい応答の生成は、ほんの数分で行うことができます。対照的に、微調整はモデルトレーニングの不可逆的なプロセスです。誤ったトレーニングデータを使用した場合や、より優れたベースモデルが利用可能になった場合は、微調整作業を再開する必要があります。第二に、プロンプトエンジニアリングでは、ニューラルネットワークのハイパーパラメータの最適化、トレーニングジョブのオーケストレーション、データラングリングなどの ML 概念に関する知識があまり必要ありません。微調整には通常、経験豊富な ML エンジニアが必要ですが、ヒントエンジニアリングは通常、ML 経験のないソフトウェアエンジニアでも実行できます。 3 番目に、ヒントエンジニアリングは、複雑なリクエストをより小さな構成リクエストに分解し、それぞれを異なる LLM に割り当てることができる、急速に成長するモデルリンク戦略に適しています。場合によっては、最良の「構成モデル」は微調整されたモデルである（脚注[ 8 ]を参照）。しかし、企業にとって付加価値の高い作業のほとんどは、(i) 問題を分解する方法を考え出すこと、(ii) 各コンポーネントのプロンプトを作成すること、(iii) 各コンポーネントに最適な既製モデルを特定することであり、独自の微調整されたモデルを作成することではありません。

Tip Engineering の利点は、時間の経過とともに拡大する可能性があります。現在、プロンプトエンジニアリングには、長くてコストのかかるプロンプトが必要です (各プロンプトにコンテキストを含める必要があるため)。しかし、モデルプロバイダーの競争が激化し、プロバイダーが LLM をより安価にトレーニングする方法を見つけ出すにつれて、トークンあたりのコストは急速に低下するはずです。現在、ヒントエンジニアリングは最大ヒントサイズによっても制限されています。現在、OpenAI は GPT-4 のプロンプトごとに最大 32K トークン (平均で約 40 ページの英語テキスト) を受け入れます。近い将来、より大きなコンテキストウィンドウが提供されるはずです。

データはもはやかつての堀ではない

LLMが人間が解釈可能な推論を生成する能力がますます向上するにつれて、人間がどのようにデータを用いて推論するのか、そしてそれがLLMにとって何を意味するのかを考えることは有益である（脚注[ 9 ]を参照）。人間は実際にはそれほど多くのデータを使用していません。ほとんどの場合、私たちは「ゼロショット学習」を行います。これは、一連の例の質問と回答なしで質問に答えることを意味します。質問者は単に質問を提示し、私たちは論理、原則、ヒューリスティック、偏見などに基づいてそれに答えます。

これは、プロンプトにいくつかのサンプルの質問と回答を含める必要があった、数回の試行の学習にしか適していなかった数年前の LLM とは異なります。これは、数百、数千、または数百万の質問と回答でモデルをトレーニングする必要がある従来の ML とは大きく異なります。

私は、LLM ユースケースのシェアがますます増加し、その大半は「ゼロサンプル」になると強く信じています。 LLM は、ユーザーが提供する例がなくてもほとんどの質問に答えることができます。指令、戦略、仮説などの形でジャストインタイムエンジニアリングが必要です。たとえば、この投稿では、GPT-4 を使用してコードのセキュリティ脆弱性をレビューします。このアプローチでは、脆弱なコードの過去のインスタンスに関するデータは必要ありません。明確な指示、ポリシー、および前提を持つことはますます重要になりますが、大量の高品質でラベル付けされた独自のデータを持つことの重要性は低下します。

企業データに LLM を積極的に適用している場合は、何が効果的で何が効果的でないかについてぜひお聞かせください。コメントを残していただければ幸いです！

注記

[1] 最近まで、LLMは最近の公開知識を認識していませんでした。たとえば、GPT-4は2021年9月時点で収集された情報に基づいてトレーニングされていました。しかし、GPT-4 と Bard の消費者インターフェースは、オープンインターネットを照会し、最近のイベントに関する情報を収集できるようになりました。したがって、LLM の知識制約としての最新性は急速に消滅しつつあります。

【2】埋め込みはテキストだけでなく、あらゆるタイプのデータ構造で機能します。

【3】埋め込みワークフロー全体は、LLMを呼び出す前に実行されます。たとえば、OpenAI は埋め込みに ada-002 モデルを使用することを推奨しています。これは主要な GPT モデルよりも安価で高速です。

【4】トークンとは単語または単語の構成要素です。 https://blog.quickchat.ai/post/tokens-entropy-question/#:~:text=Why%20tokens%3F,up%20on%20features%20that%20matter. で提供されている記事では、言語モデルが単語ではなくトークンを使用する理由について詳しく説明されています。

[5] 学習パラメータの数は数百万から数兆に及ぶことがあります。現在、最も広く使用されている大規模データモデルには、通常、数十億の学習済みパラメータが含まれています。

【6】安価な推論サービスは必然ではない。たとえば、8K コンテキストウィンドウの GPT-4 の場合、 OpenAI は1k トークンあたり 0.03～0.06 ドルを請求します (トークンが入力か出力かによって異なります)。 Davinci の微調整バージョン (ヒステリシスモデル) は、1,000 トークンあたり 0.12 ドルの料金がかかります。

[7] もちろん、これらはOpenAIとGoogleに雇用されている人々です。多くの人々がこれらの組織の価値観に同意していないため、節度政策にも同意していません。

【8】例えば、 GOATはオープンソースモデルLLaMAを算術向けに微調整したバージョンです。多くの算術ベンチマークで GPT-4 を上回ります。ほとんどのエンタープライズワークフローでは算術演算が必要です。連鎖アプローチでは、算術演算を含むワークフローの部分が識別され、GOAT にルーティングされます。このようなビジネスでは、優れたルーティングと GOAT との統合に多額の投資をすることは理にかなっています。しかし、独自の算術 LLM を微調整することは理にかなっているとは思えません。

[9]今日の法学修士課程が実際に推論できるかどうか、また実際の推論が何を意味するのか（意識が必要か？自己認識が必要か？主体性が必要か？）については、まだ多くの議論があります。経験的というよりは哲学的なこの議論はさておき、LLM が、一般的に受け入れられている良い推論の概念に適合する説明を生み出すのが明らかに上手くなってきていることは注目に値します。https://arxiv.org/pdf/2303.12712.pdf の論文には、多くの良い例が示されています。