1. 大規模モデル開発におけるデータエンジニアリング1. 大規模モデル向けのデータエンジニアリングとは - データ中心の AI
大規模モデルのデータエンジニアリングとは何ですか?現在、GPT モデルや BERT モデルなどのモデルに取り組む場合、2 つの方向があります。 1つ目はモデル中心で、データにあまり注意を払わず、モデル構造を常に最適化します。2つ目はデータ中心(データ駆動型)で、これも現在アルゴリズム開発におけるコンセンサスです。アルゴリズムは基本的にデータに対して機能します。その核心は、モデルは変更されず、データ品質の向上によってモデル効果が向上し、それによってトレーニングデータの品質が継続的に向上することです。 データ中心の AI の中核は、トレーニング データの開発、推論データの開発、およびデータの保守にあります。 トレーニング データの開発には、データの収集方法、データ ソースの決定方法、高品質のデータ ラベル付けの方法、データの前処理方法、データの削減または拡張方法など、多くのパイプラインが関係します。たとえば、ドメイン内のデータを微調整する場合、業界データが数万件しかない場合、ドメインまたは業界データを実際に追加するには、数十万または数百万のデータに拡張する必要があります。 推論データの開発は、以前のトレーニング サンプルを評価し、テスト セット外のデータをより適切に評価する方法に関するものです。 データのメンテナンスやデータ関連事項は、データの理解を含めてクローズドループとして実装する必要があります。トレーニング中にデータに問題が見つかった場合は、問題の原因となっているデータセットを特定し、対象を絞った追跡と最適化を実行できる必要があります。 ビッグモデル データ エンジニアリングが解決する主な問題は次のとおりです。
上記の問題を解決することで、比較的完全なパイプラインを構築できます。 2. 見直し:既存大型モデルの基本状況ここでは、既存の大型モデルの基本的な状況を4枚の写真に基づいて説明します。 左上の図は、2023 年 3 月時点の言語モデルのモデルサイズを反映しています。円グラフが大きいほど、対応するパラメータが大きくなります。海外のMT-NLG、PaLM、OPTのパラメータスケールは比較的大きく、国内のGLM-130Bのパラメータは比較的大きく、数千億のレベルに達していることがわかります。 右上の画像は、さまざまなレベルでの大型モデルのゲームプレイを示しています。
さて、大きなモデルを作る場合、基本的に全員がこの 3 つのレベル内に分散します。 左下の写真は、2022年12月時点のDeepMindのモデルを説明しています。DeepMindはいくつかのモデルを絶えず更新しており、Gopher-280B、Chinchilla-70B、Flamingo-80Bなど、異なるコード名のモデルを提案しています。大きなモデルを作るときは、動物にちなんで名前を付けることを好むため、動物園の名前も非常に複雑になる可能性があることがわかります。 右下の図はコード生成モデルの規模を表しています。現在、より大きなものとしては、16B のパラメータを持つ CodeGen や、13B のパラメータを持つ Tsinghua の CodeGeeX などがあります。現在はテキストとコードを混ぜてトレーニングするというトレンドもあり、トレーニング後のCOT能力はある程度向上しています。 3. レビュー: 既存の大規模モデルアプリケーションシナリオ上の図は、大規模モデルの適用シナリオを示しています。私たちは大規模モデルの境界を常に探求しており、それをいくつかのレベルに分割しています。
4. 結論: GPTの背後にある事前トレーニングデータこれらのモデルの背後ではどのようなデータが使用されていますか? まずはChatGPTの変化を見てみましょう。2018年6月のGPT-1では、事前学習に使用したデータはわずか5GBで、パラメータ数は1億1,700万でした。半年後の2019年2月のGPT-2では、事前学習に使用したデータは40GBで、パラメータ数は15億でした。2020年5月のGPT-3では、パラメータ数は1,750億、事前学習に使用したデータは45TBですが、実際に使用したのが45TBというわけではありません。合計45TBで、事前学習用に750GBのデータがふるいにかけられました。 右上の図でGPT-3の具体的なデータの分布を見ると、データの60%はCommon Crawlで低品質のウェブページ、22%を占めるWebText2はキャプチャされた高品質のウェブページ、Books1とBooks2は比較的高品質の書籍でそれぞれ8%、Wikipediaは3%を占めています。 次のことがわかります。
5. 主流の英語モデルの事前学習データの構成 - 多言語機能多言語能力の観点から、主流の英語モデルを見てみましょう。たとえば、BLOOM には 46 の言語があり、英語が最も一般的です。そのため、人々が分野を微調整してテクノロジーを選択する場合、BLOOM はより優れた基盤となります。LLaMA と比較すると、BLOOM はより強力な多言語機能を備えています。 GPT-3 には 90 の言語があり、もちろん大部分 (92.7%) は英語で、中国語は約 0.1% を占めています。 PaLM には 122 の言語があり、そのうち 74.1% は英語で、いくつかのコードが追加されています。 6. 主流の英語モデルの事前学習データの構成主流の大規模モデルトレーニングデータの構成を分析してみましょう。まず、基本的に Wikipedia、書籍、ジャーナル、Reddit リンク (WebText)、Common Crawl などが含まれるディメンションを抽出しましょう。
大規模な Common Crawl モデルが比較的大きな割合を占めていることがわかります。 テキスト大規模モデルに加えて、マルチモーダル大規模モデルもあります。 OpenAI には Conceptual Captions などのデータセットを持つ DALL-E があり、Google のマルチモーダル モデルも同様です。ただし、大規模なテキスト モデルと比較すると、データセットは比較的小さく、マルチモーダル パラメータの数も純粋なテキストよりも桁違いに少ないです。 GPT-3にはCommon Crawlという非常に重要なデータセットがあります。Common CrawlからクリーニングすることでC4などの英語コーパスが得られます。C4の多くのデータは特許データ(patents.google.com)です。 Wikipedia、Google、Libgen などを含む GPT-3 TOP10 データセットのいくつかを見てみましょう。 上の図には、事前トレーニング データの内部構造がいくつか示されています。
7. 公開: 主流の英語モデルでよく使用される事前トレーニングデータ英語でよく使われる事前トレーニングデータ - Wikipedia、書籍は上記にリストされています。 英語の紙ジャーナルでよく使用される事前トレーニング データは上記にリストされています。 ArXiv には 2,000 万件以上の記事があり、すべてダウンロードできます。 英語でよく使用される事前トレーニング データは、上記の WebText、Conmmon Crawl です。ダウンロードも可能です。 上記には、一般的に使用される事前トレーニング データ The Pile (英語) と、コードおよびフォーラムがリストされています。左下はPileデータセットの内部分布です。公開されているコードデータセットは多数あり、その中にはテラバイトレベルのものもあり、ダウンロード可能です。 8. 中国の主流モデルの事前学習データの構成以下は、主流の中国語モデルの事前トレーニング データの構成の紹介です。現在、中国語のオープンソース データセットと英語のオープンソース データセットの間には依然として大きなギャップがあります。 たとえば、Huawei の Pangu ビッグモデルは合計 1.1 TB の中国語テキストコーパスを使用します。
Alibaba の M6 大規模モデルは、百科事典、コミュニティ QA、フォーラムディスカッション、Common Crawl などのほか、ビジネスに統合された一部の電子商取引データを使用します。 WeLM のデータ構造は、Common Crawl、書籍、ニュース、フォーラム、学術作品などを含み、GPT に似ています。 InternVideo は、オンライン ビデオ、YouTube ビデオ、映画などを使用するマルチモーダル モデルです。 ご覧のとおり、英語と比較すると多様性に著しい欠陥があります。 事前トレーニングデータの構成を詳しく見てみましょう。 左は PanGu Alpha で、そのうち 47.16% が Common Crawl、29.65% が Public Datasets (前述の各種公開テスト セット) です。このような高品質の評価データの場合、トレーニング時のエポック数は多くてもかまいませんが、CommonCrawl のエポック数は少なく、ダウンサンプリングが行われます。 右はWudao2.0です。Wudaoも誰でもアクセスできるオープンデータです。 Wudao には、Zhihu、Baidu Encyclopedia などが含まれており、もちろん Tencent や Sohu のデータを含む他の Web サイトも含まれています。生のサイズの観点から見ると、Zhihu データはわずか 131 GB です。 上の図は、主に大規模モデルの事前トレーニングデータの構成における中国語と英語の比較を示しています。右の図は、色による差別化の度合いを示しています。英語の異なるソース間の区別は非常に細かいですが、中国語のソース間の区別は比較的粗く、明らかな違いがあります。 GPT-4 や GPT-3 などのモデルを再現する場合、通常はコーパス内の中国語と英語のデータセット間のマッピング関係を探す必要があります。 ご覧のとおり、中国語のZhihuは英語のQuoraに相当し、Baidu Encyclopediaは英語のWikipediaに相当しますが、中国語の百科事典のトレーニングデータの品質が英語のWikipediaほど良くないという大きな問題があります。英語のWikipediaにはさまざまな参考文献が含まれており、特に豊富で権威があります。ソースに注釈が付けられ、複数のバージョンが含まれるため、百科事典のこの側面には一定のギャップがあります。Sohu NewsはNBCに相当し、Tencent QQはICQに相当し、17ok.com(金融ディスカッション)がYahoo Financeに相当するなど、より垂直的なものもいくつかあります。 9. 質問: どのような事前トレーニング データが必要ですか?中国語と英語の対応関係を議論し、ギャップを見つけた後、良いモデルを作りたい場合、どのような事前トレーニングデータを用意する必要があるかについて議論を続けましょう。ソースによると、言語モデルの品質要件は次のとおりです。
品質要件を取得した後、大規模なモデルには高品質、大規模、多様なデータが必要であると結論付けることができます。 (1)高品質
(2)大規模事前学習済みのデータが多いほど、大規模モデルのフィッティング能力が高まり、効果も高まります。データ サイズが小さすぎると、モデルはあまり学習せず、十分に深く記憶しません。 (3)多様性データの豊富さは、大規模モデルの一般化能力を向上させることができます。モデルの事前トレーニング データが十分であれば、その生成コンテンツもより多様化できます。事前トレーニング データを準備するときは、できるだけ多くのデータを用意するようにしてください。データが多いほど、モデルの一般化能力が強くなります。また、データが十分に豊富であれば、トレーニング中に 1 つのカテゴリに偏ることがなくなり、オーバーフィットの問題が発生することはありません。したがって、事前トレーニング データを厳密に重複排除する必要があり、これを行うにはさまざまな方法があります。 10. 問題提起: データ中心の事前トレーニングモデルデータを見つけた後、最も必要な処理は重複排除です。たとえば、GPT-1 にはフィルタリングされていないデータが 4.8 GB、GPT-2 には人間がフィルタリングしたデータが 40 GB、GPT-3 にはフィルタリングされたデータが 570 GB (元のデータ 45 TB) あります。データのフィルタリングは非常に重要です。 11. 解決策: ドメイン事前トレーニングモデルのトレーニングリンク - CaMA を例にここでは、浙江大学の CaMA モデルを例に、データ側からドメイン モデルを完成させる方法を説明します。 浙江大学は、LLaMA に基づいて 2 つのことを行いました。1 つ目は、事前トレーニングを継続し、事前トレーニング後に微調整を行うことです (Instruction Dataset)。 LLaMA の中国語機能を強化するために、データの取得方法など、多くのデータ処理が行われました。コードは主に GitHub と Leetcode からデータを収集します。英語は主に ArXiv、Book、Wikipedia などからデータを収集します。中国語は主に Baidu Encyclopedia、Wudao、中国語版 Wikipedia などからデータを収集します。 多様性を確保する必要があります。言語に関しては、中国語と英語、タイプに関しては、コードとテキスト、分野に関しては、百科事典、ウィキなどがある必要があります。 データを取得したら、次の 2 つのことを行います。
微調整フェーズ中に高品質の微調整データを構築するにはどうすればよいでしょうか?たとえば、General は Alpaca からの 52K データを使用してさまざまな変換などを実行します。また、gsm8K、aqua、Alpaca、その他の COT データなどの COT 関連の処理も実行します。このデータを取得したら、一般化のために ChatGPT を使用できます。 CaMa は KG と関連しているため、多くのタスクデータや固有表現認識データ、関係抽出データ、イベント抽出データを使用し、一般化データと組み合わせてチューニングすることで、より良い効果が得られます。 上記の説明から、事前トレーニング段階と SFT 段階の両方でデータが非常に重要であり、データは可能な限り多様でクリーンである必要があり、それがモデルの改善に有意義であることがわかります。 12. ソリューション: データ中心の大規模モデル事前トレーニングデータエンジニアリング上図は、前述のトレーニングデータ開発、推論データ開発、データ保守などを含むデータセントリックエンジニアリングフレームワークを示しています。 データ中心の大規模モデル事前トレーニング データ エンジニアリングのワークフローは、ラベル付け、クリーニング、機能の削減、ソース データに対する基本的な操作の実行方法、エンジニアリング チームに入力を調整して評価を実行する方法の指示、データのメンテナンスなど、多くのリンクに分解できます。データの視覚化後、データの現在の状態、データ価値評価指標、リソース割り当てなどを真に理解できます。 テキスト注釈、音声注釈、画像注釈など、さまざまなデータに対して適切な注釈標準を策定する必要があります。 ラベル付けされたデータセットの品質をどのように測定するかが重要です。現在、画像注釈の品質評価のための MV アルゴリズム、テキスト品質評価のための BLEU アルゴリズムなど、多くのアルゴリズムが存在します。さまざまな音声テキストやビデオに基づいたさまざまな測定アルゴリズムがあり、誰もがデータ注釈の品質を測定できるようにしています。 上の図は、具体的な実装中にデータを処理する一般的なプロセスを示しています。 当社のデータには、主にウェブサイトのデータ、専門文献、さまざまな業界のデータが含まれます。
大規模で多様かつ高品質なデータを実現するための一般的なプロセスには、次の手順が含まれます。 1. サイトフィルタリング。サイトフィルタリングには、グラフベースのフィルタリング方法、シングルポイントベースのフィルタリング方法、ルールベースのフィルタリング方法など、さまざまな方法があります。 2. 機密およびプライバシーフィルタリング、言語またはノイズフィルタリングなど。 3. 異なる粒度で重複する記事を削除します。 4. Web ページのトピック モデリング。多様性を向上させるにはトピックが優れている必要があるため、多くのトピック マイニング作業が行われ、検索はここで自然に有利になります。 5. データ品質バージョン管理などを含むデータ品質スコアリング データ ソースを選択する理由は多数あり、たとえば次のようになります。
一般的なウェブページデータ、検索データ、質疑応答データ、ナレッジグラフ百科事典、コード推論データなどを含むウェブサイトデータ。 研究報告書、学術論文、ジャーナル、書籍、文学作品などの専門文献。 タスク評価データセット、多言語データセット、金融、法律、不動産、スポーツ、医療、映画、テレビの分野のコーパスなどの業界データ。 サイトフィルタリングやノイズ情報のクリーニングにはさまざまな方法があります。 品質分類モデルは、FastText 分類器を使用してデータを 4 つのレベル (0、1、2、3) に分割します。レベル 2 と 3 は高品質のデータです。トレーニング中、正のサンプルは手動で注釈が付けられた優れたサンプルであり、負のサンプルは比較的ゴミのテキストです。使用される機能には、タイトルと CEloss が含まれます。 余白テキスト除去モデルでは、広告スペースのテキストとその他のプロモーション テキストを識別する必要があります。 多数のパターンを使用して高品質のコーパスを抽出したり、カスタマイズされた余白テキストを削除したりするなど、垂直方向の Web ページ処理。 スペースや特殊記号の処理、言語検出、機密情報の検出、プライバシー データの識別と処理などを含むルールベースのノイズ除去。 PPL 判断モデルを使用して支離滅裂なテキストなどを削除するなど、モデルベースのノイズ除去。 Web ページ分類モデリングの目的は、さまざまなカテゴリのデータのニーズを満たすために、きめ細かい Web ページ データをマイニングすることです。 分類やクラスタリングなど、Web ページに適切なタグを付ける方法は多数あります。たとえば、LDA キーワード抽出、テキスト キーワード抽出、手動レビュー ラベル、下流のスキル反復フィードバック ラベルなどを使用します。 Web ページのトピック分類、スポーツ、歴史、金融、医学など数十のカテゴリを含む Web ページ カテゴリ システムを事前設定し、フィールド ラベルを細分化してから、BERT に基づいてコーパス ラベル分類を完了するためのコーパス分類子を構築します。
DoReMi の作業を例に、事前トレーニングのデータ サンプリングについて説明しましょう。 まず、データ分布を初期化し、小さなパラメータ モデルをトレーニングします。たとえば、The Pile の元の分布を使用して、小さなモデルをトレーニングします。小さなモデルをトレーニングした後、Group Distribution Robust Optimization (GroupDRO) を使用してドメインをトレーニングし、ドメインの重みを更新します。最後に、反復されたドメインの重みを使用してデータセットを再サンプリングし、より大きなフルサイズのモデルをトレーニングします。 データ生成方法を微調整する: (1)広く使われている人工的な基準に基づく
(2)大規模モデルに基づくデータ蒸留
上右の写真は人民大学の取り組みを示したものです。収集されたオープンソースの命令セットに対して、まず重複を削除し、次にトピックごとに配布し、最後に多様性を整理して制御します。 ルールの明確さに基づいて、次のルールを適用できます。
モデルベースのダイバーシティ制御には以下が含まれます。
13. オープンデータの問題: 事前トレーニングデータは不十分でしょうか?現在、事前トレーニングデータが十分にあるかどうかという疑問に関して、「データは枯渇するのか?機械学習におけるデータセットのスケーリングの限界の分析」というレポートでは、言語データは2030年から2040年の間に枯渇し、より良いパフォーマンスをトレーニングできる高品質の言語データは2026年に枯渇するという興味深い視点を提示しています。さらに、視覚データは2030年から2060年の間に枯渇するでしょう。このレポートを注意深く研究することができます。 2. 大規模モデル開発における自動評価1. 質問: モデルのパフォーマンスを自動的にスコアリングするにはどうすればよいですか?モデルのパフォーマンスの評価を自動化する方法は基本的に 3 つあります。
2. GPTベースの自動評価今では多くの人がChatGPTを使ってスコアを付けるでしょう。質問と回答を提示し、ChatGPT に「ここにはこのような質問と回答があり、採点範囲は 1 から 0 です。回答が何点取れるかを尋ね、採点の根拠を示してください。」と伝えます。 Vicuna はこの評価アプローチを採用しました。 3. クラウドソーシングによる投票による評価もう一つの方法はクラウドソーシングです。クラウドソーシングを使用する理由は、GPT を使用した自動評価方法は非常に主観的であり、データセットが十分に大きくないため、全員でスコアをつけて Langya リストを作成する必要があるためです。 Arena の Langya Bang では、まず質問が出され、各モデルが答えます。その後、Elo 評価システムを使用して全員の投票によって回答が採点されます。 実は中国語版もあるんです。英語版をベースにして『Nirvana in Fire』という中国語版が制作されています。 4. 下流の評価タスクに基づいて評価する現在、下流の評価タスクに基づいて評価を実施する傾向があり、これは、Google BIG-bench、MMLU、C-EVAL、M3KEなどの評価データを含む専門的なテスト問題を使用したり、専門的なテストを受けたりすることです。 このアプローチは合理的です。垂直ドメイン モデルを構築する場合、垂直ドメインでのモデルの機能をどのように検証すればよいでしょうか?例えば、法律には弁護士資格試験があり、特許にもそれに相当する資格試験があり、それによってモデルとビジネスをうまく融合させることもできます。 3. ビッグモデルとナレッジグラフの組み合わせビッグモデルとナレッジグラフの組み合わせについて説明しましょう。 1. ナレッジグラフまず、ナレッジグラフについて見てみましょう。ビッグモデル以降、ナレッジグラフの重要性は著しく低下し、ナレッジグラフの位置づけが明確ではなくなったという見方があります。 私の個人的な意見では、ナレッジグラフの最大の利点は、上の左側の 2 つの図にあります。 最初のグラフは、ナレッジグラフのグラフ構造です。ナレッジグラフは知識をグラフの形で表現するため、グラフ埋め込みやパス検索などのアルゴリズムを完了できます。この点で、大規模モデルには一定の欠陥があります。 2 番目の図は、一部の組織におけるナレッジ グラフの利点を示しています。たとえば、ナレッジ グラフはスキーマを使用して構造化データの表現を標準化します。ナレッジ グラフは、垂直ビジネス ドメインにおける知識の編成と管理の問題を解決するために提案されています。大規模なモデルはエンドツーエンドで知識を生成できますが、この知識は体系的ではありません。体系的なナレッジ グラフは、ビッグ モデルと組み合わせることができます。ビッグ モデルはデータを生成し、ナレッジ グラフはデータを整理して、目標をより適切に達成します。さらに、ナレッジ グラフには垂直データもいくつか含まれており、これを使用して大規模モデルの実際のエラーを検証できます。 2. ナレッジグラフと大規模言語モデルナレッジグラフと大規模言語モデルの共通点:
ナレッジグラフと大規模言語モデルの違い:
3. ナレッジグラフのビッグモデル: ナレッジグラフの構築からビジネス需要の適用までナレッジグラフで使用される大きなモデルは、データ構造、データ融合、拡張データモデル、または業界のインテリジェントな質問と回答など、上記の図の全体を再構築できます。 4。知識グラフ構造のための大規模モデル:スキーマ生成とデータアノテーション大規模なモデルは、知識グラフ構造におけるスキーマ生成およびデータアノテーションに使用できます。 大きなモデルは、スキーマの生成を完了します。 Esherは、中国科学アカデミーのソフトウェア研究所の仕事であり、イベントのスキーマを生成し、クラスタリングコミュニティの発見を通じて対応するイベントと対応するスロットを実装しています。 大規模なモデルは、データ強化のソートされたデータを生成できます。大きなモデルの前に、通常、データの強化にEDAを使用して、ChatGptを使用して、ラベル付けされたデータを大量に生成し、知識のグラフアノテーションのコストを削減できます。 5。知識グラフを構築するために大規模なモデルが使用されます:知識抽出、推論、知識の質問への回答また、大きなモデルは、知識の抽出、推論、知識の質問、知識グラフの構築における回答にも役割を果たすことができます。 左上図に示すように、トリプル抽出のために、最初にNER抽出が実行され、次に関係抽出が実行されます。 右上の画像の作業は、以前のUIEに基づいています。この方法は統合され、出力形式は合意されており、LLMはトリプルを抽出できます。 左下の画像は、知識グラフを完成させるための大きなモデルを示しています。たとえば、360がOGBに挑戦する場合、新しいスコア機能を革新できます。 右下の画像は、知識グラフの質問に答えるために使用されている大きなモデルを示していますが、いくつかのエンティティリンクが追加された場合、グラフのサブグラフがリコールされ、コンテキストにスプライスされ、ビッグモデルが推測を行うことができます。 6.大規模なモデル開発で知識グラフを使用するいくつかの段階大きなモデル開発に知識グラフを使用できる3つの段階について説明しましょう。 (1)トレーニング前の段階
(2)トレーニング中
(3)トレーニング後の段階
7。知識グラフは、大規模なモデルのトレーニング前の段階で使用されます:トレーニング前のデータの構築と微調整データトレーニング前の段階では、テンプレートを使用して事実の記述テキストを生成できます。 微調整段階では、自己インストールカットアプローチ(多様性に重点を置いて)を使用して、テンプレートに基づいて質問を生成できます。たとえば、左下の中央の単語の場合、テンプレートを使用して右下にQAペアを生成できます。たとえば、弁護士ラマなどの法的分野の業界モデルの場合、人々はこの方法で知識グラフを組み合わせて、大量のSFTデータを生成します。 8。知識グラフは、大規模なモデルトレーニングの中間段階で使用されます:知識を統合する事前に訓練されたモデルここでは、知識融合の事前トレーニングモデルについて説明します。これは、特徴融合、埋め込み融合、データ構造の統一、知識監督、または検索ベースの方法を通じて達成できます。 2つのコアポイントがあります。1つは、単語とエンティティをマスキングするか、外部融合を追加することにより、モデルに埋め込まれています。 9。知識グラフは、大規模なモデルのトレーニング後の段階で使用されます:生成された結果の知識ベースの介入左上の写真には良い例があります。AIは老婦人と妻のケーキのより良い説明を得ることができます。 右上の画像は、自己認識の知識の説明を説明します。質問と回答をするために、質問に基づいてより良い説明が生成され、その後、いくつかの問題を解決することができます。 左下の画像は、数学的な計算の観点から、たとえば、東京からの距離を尋ねると、この問題を解決するために、Wolframalphaなどの外部ツールを使用することができます。最初の方法は、その結果に介入するためにプラグインを直接導入することです。プロンプトを介してChatGptの結果。通常、より良い結果が得られます。 右下の画像は、外部の検索エンジンの統合を説明しています。検索エンジンは、インデックスの関連性を呼び出し、最上部の結果を取得し、プロンプトでそれらをカプセル化できます。さらに、Fusion Search Engineは、大規模なモデルからの信頼性の低い結果の問題を解決することができます。「詳細情報を学ぶ」ことを介して、大規模なモデルによる結果出力の信頼性が高まります。ただし、新たなリンクとChatGptで引用されたリンクの多くが空または偽物であることがわかる場合があるため、生成されたリンクの精度を後で改善する方法を検討する必要があります。 10。知識グラフは、大規模なモデルのトレーニング後の段階で使用されます:外部の専門知識ベース最後に、現在、主なプロセスで最も使用されているトレーニング後の段階で現在使用されているプラグインナレッジベースを紹介します。 現在の難易度は、最近人気のあるM3E、SIMCSE、TEXT2VECなどの優れたテキストベクトル化モデルを取得する方法の1つです。 IV. 結論最後に、大きなモデルの将来の開発方向を要約しましょう。 ビッグモデルの将来の発展の主な発見は次のとおりです。
5。質問に答えますQ1:テキストデータに加えて、テーブルデータまたは画像データもあります。A1:画像データには、マルチモーダルデータの処理が含まれます。グラフィックとテキストの形で処理されない限り、画像データをテキストデータに変換することは不可能です。 たとえば、いくつかの調査レポートを分析する場合、この時点でいくつかのテキストが散在する場合、写真の情報またはテーブルの情報をある程度保持し、全体的なセマンティックコヒーレンスを確保することができます。別のタイプのテーブルデータは、PP構造やその他の方法でテーブルを解析し、ラテックスでテーブルデータを再編成するなど、テーブルデータを取得する方法です。 考慮すべき最も重要なことは、さまざまなモードと形式のデータを元の形式で保証する必要があることです。これは非常に厄介です。 Q2:大きなモデルの幻想を解決するための業界での実用的で実用的な業界の経験は何ですか?A2:幻覚の基本的な理由は次のとおりです。1つ目は、指示を理解できませんが、できません。これら2つの問題を個別に解決します。 大きなモデルを理解する方法では、大きなモデルが複雑な指示を理解するか、これがSFT段階で必要なことを理解できるように、SFTの強化を行う必要があります。 大きなモデルを注入する必要はありません。 SFT段階では、SFTが知識ではなくパラダイムを学ぶという見解もあります。 上記の拡張で十分でない場合、または特定のフィールドのデータをプレレインステージに注入できない場合は、Langchainのプラグインナレッジベースメソッドの使用を検討できます。プラグインのコアは、より良いトレーニングデータを構築して、より良いベクトル化スキームを取得し、埋め込みを最適化し、ベクトル検索を介してより良い相関テキストを取得した後、プロンプトにスプライスする方法です。また、ここで知識グラフを使用して、それらをリンクしてサブグラフを思い出すこともできます。 |
<<: エンタープライズデータ開発のための大規模言語モデル: 概念、懸念事項、ホットトピック
>>: GPT-2からGPT-4まで、大規模言語モデルの革新を探る
[[400401]]現在、脳コンピューターインターフェースの急速な発展により、人々はパニックに陥って...
基本的なルーティング アルゴリズムの設計目標とタイプは、基本的なルーティング アルゴリズムに関する知...
海外メディアの報道によると、機械翻訳技術は誕生以来長い道のりを歩んできた。 Google のような翻...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
自動化はテクノロジーを利用して、人間がより多くのタスクを完了できるようにします。物流の自動化をあらゆ...
序文音声認識の現在の開発状況をまとめると、DNN、RNN/LSTM、CNN が音声認識における主流の...
最近、Meta は Llama シリーズのモデルやすべてを分割する SAM モデルなど、複数の AI...
研究によると、人工知能は強力に聞こえますが、現在の高度な人工知能は、人間の 4 歳児が簡単に解決でき...
[[428632]]温室効果ガス削減目標と規制要件を満たすには、企業は施設をエネルギー効率の高いスマ...
[[284994]]データシャーディングまずは例を見てみましょう。多くの場合、キャッシュには Re...
10月12日、ブラウン大学のコンピューターサイエンス研究者は、OpenAIのGPT-4セキュリティ設...
Leifeng.com によると、「部屋の中の象」という外国の慣用句は、「ワニの涙」と同じくらい有...