翻訳者|朱 仙中 レビュー | Chonglou 導入GPT-4 は、韻を踏んだプロンプトを出しながら素数が無限に存在することを証明するように求められた場合、それを実行できます。しかし、GPT-4 に「あなたの会社の前四半期の業績はどうでしたか?」と尋ねると、結果は間違いなく惨敗となるでしょう!これは、現在の大規模言語モデル(LLM)が一般的に直面している根本的な課題を示しています。LLMは一般公開されている知識をうまく捉えることができますが、独自の非公開情報についてはまったく認識していません(脚注[1]を参照)。一方、独自の情報は、ほとんどのエンタープライズ アプリケーション ワークフローにとって重要です。パブリック インターネットを理解するモデルは便利ですが、そのままの形ではほとんど組織にとってあまり役に立ちません。 過去 1 年間、私は LLM をエンタープライズ ユース ケースに適用している多くの組織と協力する機会に恵まれました。この記事では、この旅に乗り出すすべての人が知っておくべき重要な概念と懸念事項、そして LLM がどのように進化していくのか、そしてそれが ML 製品戦略にどのような影響を与えるのかについて詳しく説明します。この記事は、プロダクト マネージャー、デザイナー、エンジニア、その他の読者を対象としており、LLM が内部でどのように機能するかについてはほとんどまたはまったく知らないが、技術的な詳細に立ち入ることなく、その背後にある概念を学習することに興味があることを前提としています。 4つのコンセプトヒントエンジニアリング、コンテキストウィンドウ、埋め込みLLM に独自のデータに対して推論を実行させる最も簡単な方法は、モデルのヒントに独自のデータを提供することです。ほとんどの LLM は、次の質問に正しく答えます。「A と B という 2 人の顧客がいて、それぞれ 10 万ドルと 20 万ドルを費やしています。最大の顧客は誰で、その顧客はいくら費やしていますか?」クエリ (2 番目の文) の前にコンテキスト (最初の文) を付けるという、次のような基本的なヒント エンジニアリングのテストが終了しました。 埋め込みにより、コンテキスト内で質問に答えるために必要な情報が取得されます。埋め込みはテキストをデジタルベクトルに変換する方法であり、類似したテキストは類似したベクトル(N次元空間で「密接に保存された」ベクトル)を生成します(脚注[ 2 ]を参照)。 SharePoint、Google Docs、Notion から Web サイトのテキスト、ドキュメント、さらにはコーパス全体を埋め込むこともできます。次に、各ユーザープロンプトを埋め込み、プロンプトベクトルとベクトル化されたテキストコーパス間の類似性検索を実行します。たとえば、Wikipedia に動物に関するページを埋め込み、ユーザーが狩猟について質問した場合、類似性検索ではライオン、シマウマ、キリンに関する Wikipedia の記事が上位にランク付けされます。これにより、プロンプトに最も類似したテキストのチャンクを特定し、最も回答の可能性が高いテキストを特定することができます(補足[ 3 ]を参照)。最も類似したテキストのチャンクをプロンプトの前のコンテキストに含めることで、プロンプトには LLM が質問に答えるために必要なすべての情報が含まれるようになります。 微調整埋め込みの欠点の 1 つは、LLM へのすべての呼び出しで、ヒントとともにすべてのコンテキストを渡す必要があることです。 LLM には、最も基本的な企業固有の概念さえも「記憶」されていません。ほとんどのクラウドベースのLLMプロバイダーは通知トークンごとに料金を請求するため、すぐに高額になる可能性があります(脚注[ 4 ]を参照)。 微調整により、LLM はすべてのプロンプトにビジネス固有の概念を含めなくても、ビジネス固有の概念を理解できるようになります。私たちは、数十億の学習パラメータに一般的な知識をエンコードしたベースモデルを採用し、基礎となる一般的な知識を維持しながら、特定の企業知識を反映するようにこれらのパラメータを調整します(補足[ 5 ]を参照)。新しく微調整されたモデルを使用して推論を生成すると、企業の知識を「無料で」得ることができます。 埋め込み/ヒント エンジニアリング (基礎となるモデルがサードパーティのブラック ボックスである場合) と比較すると、微調整は従来の機械学習に近いものであり、ML チームは独自のモデルをゼロから作成できます。微調整には、ラベル付けされた観測値を含むトレーニング データセットが必要です。微調整されたモデルは、トレーニング データの品質と量に非常に敏感です。また、構成の決定(反復回数、学習率など)を行い、長期トレーニング ジョブをスケジュールし、モデルのバージョンを追跡する必要もあります。現在、一部の基本モデル プロバイダーは、この複雑さを抽象化する API を提供していますが、提供していないプロバイダーもあります。 微調整されたモデルの推論は安価かもしれませんが、高価なトレーニングの労力がこれを上回る可能性があります(脚注[ 6 ]を参照)。一部のベースモデルプロバイダー (OpenAI など) は、遅延エッジモデルの微調整のみをサポートしています (したがって、ChatGPT または GPT-4 はサポートされていません: https://platform.openai.com/docs/guides/fine-tuning)。 評価フレームワークLLM によってもたらされる新しい重要な課題は、複雑な出力の品質を測定することです。従来の ML チームは、数値予測や分類などの単純な出力の精度を測定するために現実的な方法を試してきました。しかし、LLM のほとんどの企業ユースケースでは、数十から数千語の応答を生成する必要があります。 12 語以上の単語を必要とするほど複雑な概念は、多くの場合、複数の方法で表現できます。したがって、たとえ人間が検証した「専門家」の回答があったとしても、モデル回答と専門家の回答の正確な文字列一致を行うのは厳しすぎるテストであり、モデル回答の品質を過小評価することになります。 幸いなことに、 OpenAI によってオープンソース化されたEvals フレームワークは、この問題を解決する方法を提供します。このフレームワークでは、ラベル付けされたテスト セット (プロンプトが「専門家」の応答と一致するもの) が必要ですが、モデルと専門家の応答の間でさまざまな種類の比較が可能になります。たとえば、モデルによって生成された回答(専門家の回答のサブセットまたはスーパーセット、実際には専門家の回答に匹敵するもの)は、専門家の回答よりもどれだけ簡潔でしょうか。 Evals は LLM を使用してこれらのチェックを実行することに注意してください。 「チェッカー」LLM に欠陥がある場合、Evals 自体の返される結果が不正確になる可能性があります。 敵対的例LLM を本番環境で使用する場合は、誤ったユーザー入力や悪意のあるユーザー入力を安全に処理できるという確信が必要です。ほとんどの企業にとって、出発点はモデルがフェイクニュースを拡散しないようにすることです。これは、限界を認識し、「わかりません」と言うべきタイミングを知っているシステムを意味します。ここでは多くの戦術的なアプローチがあります。これはプロンプトエンジニアリングを通じて実行でき、「上記のコンテキストで質問に答えられない場合は、「わかりません」と答えてください」などのプロンプト言語を使用します。範囲外のトレーニング例を提供することで微調整でき、専門家は「わかりません」と応答します。 企業は、リアルタイムのハッキング攻撃などの悪意のあるユーザー入力からも保護する必要があります。システムが受け入れる入力と出力の形式と長さを制限することは、シンプルかつ効果的なスタートとなります。内部ユーザーのみにサービスを提供する場合は予防措置を講じることが賢明ですが、外部ユーザーにサービスを提供する場合は必須です。 3つの焦点偏見を永続させる最も人気のある LLM (OpenAI/GPT-4、Google/Bard) の開発者は、モデルを人間の偏見と一致させるために懸命に取り組んでおり、複雑な規制の層を展開しています。 GPT-4やバードに人種差別的または女性蔑視的なジョークを言うように頼むと、彼らは丁寧に拒否します(脚注[ 7 ]を参照)。 これは良いニュースです。残念なことに、社会的偏見に対するこの抑制は、必ずしも制度的偏見から保護するわけではない。私たちのカスタマー サポート チームが、特定のタイプの顧客に対して失礼な態度をとってきた経歴があると想像してください。過去の顧客サポートの会話を単純に使用して新しい AI システムを構築すると (たとえば、微調整によって)、システムはこのバイアスを再現する可能性があります。 過去のデータを使用して AI モデル (古典的または生成的) をトレーニングする場合は、どの過去の状況を将来に引き継ぐか、どの過去の状況を引き継がないか、慎重に検討してください。場合によっては、過去のデータを直接使用せずに原則を設定し、それに従って作業する方が簡単なこともあります (プロンプト エンジニアリングなど)。 モデルロック孤立して生活していない限り、生成 AI モデルが非常に急速に進歩していることはご存知でしょう。企業のユースケースを考えると、今日の最高の LLM は 6 か月後には最高のソリューションではなくなる可能性があり、6 年後も間違いなく最高のソリューションではなくなるでしょう。スマート ML チームは、ある時点でモデルを切り替える必要があることを認識しています。 ただし、単純な LLM「スワップ」を構築する主な理由は他に 2 つあります。まず、多くのベースモデルプロバイダーは指数関数的に増加するユーザー数をサポートするのに苦労しており、その結果、サービスの停止や品質低下が発生しています。システムにフォールバック ベース モデルを組み込むことをお勧めします。 2 番目に、システム内の複数の基本モデルをテストして (競馬に似ています)、どのモデルが最もパフォーマンスが良いかを確認することは非常に便利です。 Evals フレームワークに関する上記の知識に基づくと、モデルの品質を分析的に測定することは難しい場合が多く、2 つのモデルを実行して応答を定性的に比較したい場合があります。 データ侵害使用を検討している基本モデルの利用規約を必ずお読みになることをお勧めします。モデルプロバイダーが将来のモデルトレーニングでユーザー入力を使用する権利を持っているとしたら心配です。 LLM は非常に大きいため、特定のユーザー クエリ/応答がモデルの将来のバージョンに直接エンコードされ、そのバージョンのすべてのユーザーがアクセスできるようになります。組織内のユーザーが「XYZ を実行するコードをクリーンアップするにはどうすればよいですか? [ここには独自の機密コードを入力してください]」と尋ねたとします。モデル プロバイダーがこのクエリを使用して LLM を再トレーニングすると、新しいバージョンの LLM は、独自のコードがユース ケース XYZ を解決するのに適した方法であると学習する可能性があります。競合他社が XYZ の実行方法を尋ねた場合、LLM はソース コードなどを「漏洩」する可能性があります。 OpenAI は現在、ユーザーが自分のデータをモデルのトレーニングに使用しないことを選択できるようにしており、これは良い前例となっているが、すべてのモデルプロバイダーがそれに従っているわけではない。一部の組織では、独自の仮想プライベート クラウドで LLM を実行することも検討しています。これが、オープン ソース LLM が注目される主な理由です。 2つのホットな話題ヒントエンジニアリングが微調整をリードします私が初めてLLMをビジネスに応用し始めたとき、先端エンジニアリングよりも微調整に興味がありました。微調整を使用すると、データのラングリング、トレーニング/テスト データセットの生成、トレーニング ジョブの開始、しばらくの待機、何らかのメトリックに基づく結果の評価など、私が慣れ親しんでいる従来の ML システムの原則に準拠しているように感じられます。 しかし、ほとんどのエンタープライズユースケースでは、プロンプトエンジニアリング (埋め込みを使用) の方が優れたアプローチであると信じるようになりました。まず、ヒント エンジニアリングの反復サイクルは、数時間または数日かかるモデルのトレーニングがないため、微調整よりもはるかに高速です。プロンプトの変更と新しい応答の生成は、ほんの数分で行うことができます。対照的に、微調整はモデルトレーニングの不可逆的なプロセスです。誤ったトレーニングデータを使用した場合や、より優れたベースモデルが利用可能になった場合は、微調整作業を再開する必要があります。第二に、プロンプト エンジニアリングでは、ニューラル ネットワークのハイパーパラメータの最適化、トレーニング ジョブのオーケストレーション、データ ラングリングなどの ML 概念に関する知識があまり必要ありません。微調整には通常、経験豊富な ML エンジニアが必要ですが、ヒント エンジニアリングは通常、ML 経験のないソフトウェア エンジニアでも実行できます。 3 番目に、ヒント エンジニアリングは、複雑なリクエストをより小さな構成リクエストに分解し、それぞれを異なる LLM に割り当てることができる、急速に成長するモデル リンク戦略に適しています。場合によっては、最良の「構成モデル」は微調整されたモデルである(脚注[ 8 ]を参照) 。しかし、企業にとって付加価値の高い作業のほとんどは、(i) 問題を分解する方法を考え出すこと、(ii) 各コンポーネントのプロンプトを作成すること、(iii) 各コンポーネントに最適な既製モデルを特定することであり、独自の微調整されたモデルを作成することではありません。 Tip Engineering の利点は、時間の経過とともに拡大する可能性があります。現在、プロンプト エンジニアリングには、長くてコストのかかるプロンプトが必要です (各プロンプトにコンテキストを含める必要があるため)。しかし、モデルプロバイダーの競争が激化し、プロバイダーが LLM をより安価にトレーニングする方法を見つけ出すにつれて、トークンあたりのコストは急速に低下するはずです。現在、ヒント エンジニアリングは最大ヒント サイズによっても制限されています。現在、OpenAI は GPT-4 のプロンプトごとに最大 32K トークン (平均で約 40 ページの英語テキスト) を受け入れます。近い将来、より大きなコンテキスト ウィンドウが提供されるはずです。 データはもはやかつての堀ではないLLMが人間が解釈可能な推論を生成する能力がますます向上するにつれて、人間がどのようにデータを用いて推論するのか、そしてそれがLLMにとって何を意味するのかを考えることは有益である(脚注[ 9 ]を参照)。人間は実際にはそれほど多くのデータを使用していません。ほとんどの場合、私たちは「ゼロショット学習」を行います。これは、一連の例の質問と回答なしで質問に答えることを意味します。質問者は単に質問を提示し、私たちは論理、原則、ヒューリスティック、偏見などに基づいてそれに答えます。 これは、プロンプトにいくつかのサンプルの質問と回答を含める必要があった、数回の試行の学習にしか適していなかった数年前の LLM とは異なります。これは、数百、数千、または数百万の質問と回答でモデルをトレーニングする必要がある従来の ML とは大きく異なります。 私は、LLM ユースケースのシェアがますます増加し、その大半は「ゼロ サンプル」になると強く信じています。 LLM は、ユーザーが提供する例がなくてもほとんどの質問に答えることができます。指令、戦略、仮説などの形でジャストインタイムエンジニアリングが必要です。たとえば、この投稿では、GPT-4 を使用してコードのセキュリティ脆弱性をレビューします。このアプローチでは、脆弱なコードの過去のインスタンスに関するデータは必要ありません。明確な指示、ポリシー、および前提を持つことはますます重要になりますが、大量の高品質でラベル付けされた独自のデータを持つことの重要性は低下します。 企業データに LLM を積極的に適用している場合は、何が効果的で何が効果的でないかについてぜひお聞かせください。コメントを残していただければ幸いです! 注記[1] 最近まで、LLMは最近の公開知識を認識していませんでした。たとえば、GPT-4は2021年9月時点で収集された情報に基づいてトレーニングされていました。しかし、GPT-4 と Bard の消費者インターフェースは、オープン インターネットを照会し、最近のイベントに関する情報を収集できるようになりました。したがって、LLM の知識制約としての最新性は急速に消滅しつつあります。 【2】埋め込みはテキストだけでなく、あらゆるタイプのデータ構造で機能します。 【3】埋め込みワークフロー全体は、LLMを呼び出す前に実行されます。たとえば、OpenAI は埋め込みに ada-002 モデルを使用することを推奨しています。これは主要な GPT モデルよりも安価で高速です。 【4】トークンとは単語または単語の構成要素です。 https://blog.quickchat.ai/post/tokens-entropy-question/#:~:text=Why%20tokens%3F,up%20on%20features%20that%20matter. で提供されている記事では、言語モデルが単語ではなくトークンを使用する理由について詳しく説明されています。 [5] 学習パラメータの数は数百万から数兆に及ぶことがあります。現在、最も広く使用されている大規模データ モデルには、通常、数十億の学習済みパラメータが含まれています。 【6】安価な推論サービスは必然ではない。たとえば、8K コンテキスト ウィンドウの GPT-4 の場合、 OpenAI は1k トークンあたり 0.03~0.06 ドルを請求します (トークンが入力か出力かによって異なります)。 Davinci の微調整バージョン (ヒステリシス モデル) は、1,000 トークンあたり 0.12 ドルの料金がかかります。 [7] もちろん、これらはOpenAIとGoogleに雇用されている人々です。多くの人々がこれらの組織の価値観に同意していないため、節度政策にも同意していません。 【8】例えば、 GOATはオープンソースモデルLLaMAを算術向けに微調整したバージョンです。多くの算術ベンチマークで GPT-4 を上回ります。ほとんどのエンタープライズ ワークフローでは算術演算が必要です。連鎖アプローチでは、算術演算を含むワークフローの部分が識別され、GOAT にルーティングされます。このようなビジネスでは、優れたルーティングと GOAT との統合に多額の投資をすることは理にかなっています。しかし、独自の算術 LLM を微調整することは理にかなっているとは思えません。 [9]今日の法学修士課程が実際に推論できるかどうか、また実際の推論が何を意味するのか(意識が必要か?自己認識が必要か?主体性が必要か?)については、まだ多くの議論があります。経験的というよりは哲学的なこの議論はさておき、LLM が、一般的に受け入れられている良い推論の概念に適合する説明を生み出すのが明らかに上手くなってきていることは注目に値します。https://arxiv.org/pdf/2303.12712.pdf の論文には、多くの良い例が示されています。 翻訳者紹介Zhu Xianzhong 氏は、51CTO のコミュニティ エディターであり、51CTO の専門ブロガー兼講師であり、濰坊の大学のコンピューター教師であり、フリーランス プログラミング コミュニティのベテランです。 原題:エンタープライズ データへの LLM の適用: 概念、懸念事項、ホット テイク、著者: Sam Stone |
<<: Juli プロジェクト第 21 号 - AntRay: 大規模モデル時代の AI コンピューティング インフラストラクチャ
>>: 大規模モデル開発の中核: データエンジニアリング、自動評価、ナレッジグラフとの統合
「一つの夢」から「共に未来へ」へ2つのオリンピック開催都市、北京オリンピック聖火は今冬も歓迎される...
この記事では、「アルゴリズム」という単語を非常に簡略化して使用し、単一のアルゴリズム、モデル、または...
またタトゥー?興味深いのは、この取引の解約手数料の詳細がまだ発表されていないことです。現時点では、独...
2022年1月25日、人工知能分野で世界で最も影響力のある学者の2022年リスト「AI 2000」...
IDC の最新の世界人工知能支出ガイドによると、アジア太平洋地域 (日本を除く) の AI システム...
[[321813]]この記事の内容の一部はブログリンク[1]からのものであり、私が読んだいくつかの論...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
最近、アマゾンの顔認識ツールが米国議会議員28名を犯罪者と誤って照合し、注目を集めた。顔認識ツールは...
[[314283]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
このチュートリアルでは、OpenAI の Whisper と GPT-4 モデルを使用して自動会議議...
[[388162]]画像ソース: https://pixabay.com/images/id-158...