大規模モデル開発の中核: データエンジニアリング、自動評価、ナレッジグラフとの統合

1. 大規模モデル開発におけるデータエンジニアリング

1. 大規模モデル向けのデータエンジニアリングとは - データ中心の AI

写真

大規模モデルのデータエンジニアリングとは何ですか?現在、GPT モデルや BERT モデルなどのモデルに取り組む場合、2 つの方向があります。 1つ目はモデル中心で、データにあまり注意を払わず、モデル構造を常に最適化します。2つ目はデータ中心（データ駆動型）で、これも現在アルゴリズム開発におけるコンセンサスです。アルゴリズムは基本的にデータに対して機能します。その核心は、モデルは変更されず、データ品質の向上によってモデル効果が向上し、それによってトレーニングデータの品質が継続的に向上することです。

データ中心の AI の中核は、トレーニングデータの開発、推論データの開発、およびデータの保守にあります。

トレーニングデータの開発には、データの収集方法、データソースの決定方法、高品質のデータラベル付けの方法、データの前処理方法、データの削減または拡張方法など、多くのパイプラインが関係します。たとえば、ドメイン内のデータを微調整する場合、業界データが数万件しかない場合、ドメインまたは業界データを実際に追加するには、数十万または数百万のデータに拡張する必要があります。

推論データの開発は、以前のトレーニングサンプルを評価し、テストセット外のデータをより適切に評価する方法に関するものです。

データのメンテナンスやデータ関連事項は、データの理解を含めてクローズドループとして実装する必要があります。トレーニング中にデータに問題が見つかった場合は、問題の原因となっているデータセットを特定し、対象を絞った追跡と最適化を実行できる必要があります。

ビッグモデルデータエンジニアリングが解決する主な問題は次のとおりです。

どのようなデータが必要ですか?
データはどこから来るのでしょうか?
データをどのように処理しますか?
データをどのように評価しますか?
データを管理し、バージョンを反復する方法は?

上記の問題を解決することで、比較的完全なパイプラインを構築できます。

2. 見直し：既存大型モデルの基本状況

ここでは、既存の大型モデルの基本的な状況を4枚の写真に基づいて説明します。

左上の図は、2023 年 3 月時点の言語モデルのモデルサイズを反映しています。円グラフが大きいほど、対応するパラメータが大きくなります。海外のMT-NLG、PaLM、OPTのパラメータスケールは比較的大きく、国内のGLM-130Bのパラメータは比較的大きく、数千億のレベルに達していることがわかります。

右上の画像は、さまざまなレベルでの大型モデルのゲームプレイを示しています。

ボーイング 787 は誰でもチケットを購入して乗ることができ、GPT-4、PaLM などが含まれ、API 呼び出しが提供されます。
小型の民間航空機については、Flan-T5、Pythia など、一部の中小企業が民間展開を展開できます。
民間のゲームプレイである Paper Airplane では、フィールド調整を行って、Alpaka、Koala などの民間展開モデルを取得できます。

さて、大きなモデルを作る場合、基本的に全員がこの 3 つのレベル内に分散します。

左下の写真は、2022年12月時点のDeepMindのモデルを説明しています。DeepMindはいくつかのモデルを絶えず更新しており、Gopher-280B、Chinchilla-70B、Flamingo-80Bなど、異なるコード名のモデルを提案しています。大きなモデルを作るときは、動物にちなんで名前を付けることを好むため、動物園の名前も非常に複雑になる可能性があることがわかります。

右下の図はコード生成モデルの規模を表しています。現在、より大きなものとしては、16B のパラメータを持つ CodeGen や、13B のパラメータを持つ Tsinghua の CodeGeeX などがあります。現在はテキストとコードを混ぜてトレーニングするというトレンドもあり、トレーニング後のCOT能力はある程度向上しています。

3. レビュー: 既存の大規模モデルアプリケーションシナリオ

上の図は、大規模モデルの適用シナリオを示しています。私たちは大規模モデルの境界を常に探求しており、それをいくつかのレベルに分割しています。

S、例えばGPT-3 13Bは主にデバッグや読解を行います。
M、例えばGPT-3 175B。パラメータの数が増えていき、175Bに達すると、言語の問題や感情分析、GRE試験を解くことができます。
PaLM-540B などの L は、一部のスピーチまたは推論タスクを完了できます。
GPT-4 などの XL は、大学入試問題やその他のより高度な課題を解くことができます。
次に...、より長いテキストの処理などの問題を実装して解決する傾向があります。

4. 結論: GPTの背後にある事前トレーニングデータ

これらのモデルの背後ではどのようなデータが使用されていますか?

まずはChatGPTの変化を見てみましょう。2018年6月のGPT-1では、事前学習に使用したデータはわずか5GBで、パラメータ数は1億1,700万でした。半年後の2019年2月のGPT-2では、事前学習に使用したデータは40GBで、パラメータ数は15億でした。2020年5月のGPT-3では、パラメータ数は1,750億、事前学習に使用したデータは45TBですが、実際に使用したのが45TBというわけではありません。合計45TBで、事前学習用に750GBのデータがふるいにかけられました。

右上の図でGPT-3の具体的なデータの分布を見ると、データの60%はCommon Crawlで低品質のウェブページ、22%を占めるWebText2はキャプチャされた高品質のウェブページ、Books1とBooks2は比較的高品質の書籍でそれぞれ8%、Wikipediaは3%を占めています。

次のことがわかります。

まず、データは主に大規模なランダムウェブページによってサポートされており、主な焦点は多様性です。ウェブページにはあらゆるものが含まれているため、多様性は非常に優れています。
2 つ目は、高品質です。書籍の品質は特に高いです。次に、Wikipedia があります。Wikipedia の非常に重要な点は、多言語対応であることです。バージョンは 100 以上あります。後でわかるように、中国語は GPT の 0.1% しか占めていませんが、中国語の機能はまだあります。

5. 主流の英語モデルの事前学習データの構成 - 多言語機能

多言語能力の観点から、主流の英語モデルを見てみましょう。たとえば、BLOOM には 46 の言語があり、英語が最も一般的です。そのため、人々が分野を微調整してテクノロジーを選択する場合、BLOOM はより優れた基盤となります。LLaMA と比較すると、BLOOM はより強力な多言語機能を備えています。 GPT-3 には 90 の言語があり、もちろん大部分 (92.7%) は英語で、中国語は約 0.1% を占めています。 PaLM には 122 の言語があり、そのうち 74.1% は英語で、いくつかのコードが追加されています。

6. 主流の英語モデルの事前学習データの構成

主流の大規模モデルトレーニングデータの構成を分析してみましょう。まず、基本的に Wikipedia、書籍、ジャーナル、Reddit リンク (WebText)、Common Crawl などが含まれるディメンションを抽出しましょう。

GPT-1 は基本的に書籍を使用してトレーニングされました。
GPT-2 は主に Reddit リンクを使用します。
GPT-3 は、Wikipedia、書籍、ジャーナル、Reddit リンク (WebText)、Common Crawl を使用します。
Pileデータは解凍後1.2Tとなり、基本的に誰でも使用可能です。このデータセットの特徴の 1 つは、多様性の高さです。私の記憶が正しければ、Github、書籍などを含む 22 の異なるソースからのデータが含まれています。
LLaMA のポイントの 1 つは、数千億のパラメータを持ちながら、できるだけ多くのトレーニングデータを使用することです。1.4T トークンを使用し、Wikipedia、書籍、ジャーナル、Common Crawl など、多くのデータソースがあります。

大規模な Common Crawl モデルが比較的大きな割合を占めていることがわかります。

テキスト大規模モデルに加えて、マルチモーダル大規模モデルもあります。

OpenAI には Conceptual Captions などのデータセットを持つ DALL-E があり、Google のマルチモーダルモデルも同様です。ただし、大規模なテキストモデルと比較すると、データセットは比較的小さく、マルチモーダルパラメータの数も純粋なテキストよりも桁違いに少ないです。

GPT-3にはCommon Crawlという非常に重要なデータセットがあります。Common CrawlからクリーニングすることでC4などの英語コーパスが得られます。C4の多くのデータは特許データ（patents.google.com）です。 Wikipedia、Google、Libgen などを含む GPT-3 TOP10 データセットのいくつかを見てみましょう。

上の図には、事前トレーニングデータの内部構造がいくつか示されています。

Pile v1 バージョンには PubMed Central が含まれているため、Pile はバイオメディカルの分野で一定の利点があります。また、ArXiv (論文)、法律関連の FreeLaw、数学関連の DM Mathematics、Ubuntu ユーザーログ、多言語 EuroParl データセットなども含まれています。多言語翻訳を行う必要がある場合や、多言語機能を強化する必要がある場合は、Pile データセットを使用できます。
WebText には、Google、Archive、GitHub などが含まれます。
C4 には 0.48% の特許データ (特許の背景のみ使用) が含まれているため、GPT-3 は特許指向のやり取りを実行し、適切な回答を得ることができます。特許に興味のある学生は、C4 データセットに注目して、より良い移行を行うことができます。

7. 公開: 主流の英語モデルでよく使用される事前トレーニングデータ

英語でよく使われる事前トレーニングデータ - Wikipedia、書籍は上記にリストされています。

英語の紙ジャーナルでよく使用される事前トレーニングデータは上記にリストされています。 ArXiv には 2,000 万件以上の記事があり、すべてダウンロードできます。

英語でよく使用される事前トレーニングデータは、上記の WebText、Conmmon Crawl です。ダウンロードも可能です。

上記には、一般的に使用される事前トレーニングデータ The Pile (英語) と、コードおよびフォーラムがリストされています。左下はPileデータセットの内部分布です。公開されているコードデータセットは多数あり、その中にはテラバイトレベルのものもあり、ダウンロード可能です。

8. 中国の主流モデルの事前学習データの構成

以下は、主流の中国語モデルの事前トレーニングデータの構成の紹介です。現在、中国語のオープンソースデータセットと英語のオープンソースデータセットの間には依然として大きなギャップがあります。

たとえば、Huawei の Pangu ビッグモデルは合計 1.1 TB の中国語テキストコーパスを使用します。

オープンソースデータセットは27.9GBのみを使用し、データソースは基本的にBaidu QA、DuReader、CAIL2018法律テキスト（数百万の法律文書データ）、Sogou CA（Sogouのテキスト分類データセット）などのオープンソース評価データです。
百科事典データには、百度百科事典、捜狗百科事典などのほか、以前みんながナレッジグラフをまとめたときに開かれた百科事典のトリプルと内部情報も含まれています。
電子書籍はアプリもありますが、海外ではzlibaryなど比較的書籍のコレクションが多いです。
Common Crawl、2018年1月から2020年12月までのCommon Crawlネットワークデータを使用

Alibaba の M6 大規模モデルは、百科事典、コミュニティ QA、フォーラムディスカッション、Common Crawl などのほか、ビジネスに統合された一部の電子商取引データを使用します。

WeLM のデータ構造は、Common Crawl、書籍、ニュース、フォーラム、学術作品などを含み、GPT に似ています。

InternVideo は、オンラインビデオ、YouTube ビデオ、映画などを使用するマルチモーダルモデルです。

ご覧のとおり、英語と比較すると多様性に著しい欠陥があります。

事前トレーニングデータの構成を詳しく見てみましょう。

左は PanGu Alpha で、そのうち 47.16% が Common Crawl、29.65% が Public Datasets (前述の各種公開テストセット) です。このような高品質の評価データの場合、トレーニング時のエポック数は多くてもかまいませんが、CommonCrawl のエポック数は少なく、ダウンサンプリングが行われます。

右はWudao2.0です。Wudaoも誰でもアクセスできるオープンデータです。 Wudao には、Zhihu、Baidu Encyclopedia などが含まれており、もちろん Tencent や Sohu のデータを含む他の Web サイトも含まれています。生のサイズの観点から見ると、Zhihu データはわずか 131 GB です。

上の図は、主に大規模モデルの事前トレーニングデータの構成における中国語と英語の比較を示しています。右の図は、色による差別化の度合いを示しています。英語の異なるソース間の区別は非常に細かいですが、中国語のソース間の区別は比較的粗く、明らかな違いがあります。

GPT-4 や GPT-3 などのモデルを再現する場合、通常はコーパス内の中国語と英語のデータセット間のマッピング関係を探す必要があります。

ご覧のとおり、中国語のZhihuは英語のQuoraに相当し、Baidu Encyclopediaは英語のWikipediaに相当しますが、中国語の百科事典のトレーニングデータの品質が英語のWikipediaほど良くないという大きな問題があります。英語のWikipediaにはさまざまな参考文献が含まれており、特に豊富で権威があります。ソースに注釈が付けられ、複数のバージョンが含まれるため、百科事典のこの側面には一定のギャップがあります。Sohu NewsはNBCに相当し、Tencent QQはICQに相当し、17ok.com（金融ディスカッション）がYahoo Financeに相当するなど、より垂直的なものもいくつかあります。

9. 質問: どのような事前トレーニングデータが必要ですか?

中国語と英語の対応関係を議論し、ギャップを見つけた後、良いモデルを作りたい場合、どのような事前トレーニングデータを用意する必要があるかについて議論を続けましょう。ソースによると、言語モデルの品質要件は次のとおりです。

関連性: 回答は質問に関連していますか? 無関係な質問には答えないでください。これは、問題を理解する能力を反映します。
正確性と事実性を保つには、回答が完全に一貫していること、また間違った回答が出されてはならないことが求められます。自由回答には意味的な類似性が求められます。
完全性、つまりすべての重要なポイントが網羅されているかどうか。
一貫性、言語が流暢に表現されているかどうか。
安全性、現地の規制および人々の価値観への準拠。
プロフェッショナル、無駄なし、冗長なし。正直に言うと、ChatGPT はかなり冗長です。
機密性: 政治的思想、ポルノ、デリケートな出来事などの否定的な情報が含まれているかどうか。

品質要件を取得した後、大規模なモデルには高品質、大規模、多様なデータが必要であると結論付けることができます。

（１）高品質

高品質のデータセットを使用すると、モデルの精度と解釈可能性が向上し、最適なソリューションに収束するまでの時間が短縮され、トレーニング時間が短縮されます。
高品質なデータの選択は、情報源の権威と信頼性、コンテンツの価値の一致、専門的な分野知識に基づいています。質の低いサイトや誰でも書いた記事からのデータを選択することはありません。
高品質なデータは標準化され、完全で、正確で、一貫性があり、タイムリーです。たとえば、GPT は 2021 年までしか有効ではないため、タイムリーさの点で高品質を実現するには、2022 年と 2023 年のデータも収集する必要があります。

（２）大規模

事前学習済みのデータが多いほど、大規模モデルのフィッティング能力が高まり、効果も高まります。データサイズが小さすぎると、モデルはあまり学習せず、十分に深く記憶しません。

（３）多様性

データの豊富さは、大規模モデルの一般化能力を向上させることができます。モデルの事前トレーニングデータが十分であれば、その生成コンテンツもより多様化できます。事前トレーニングデータを準備するときは、できるだけ多くのデータを用意するようにしてください。データが多いほど、モデルの一般化能力が強くなります。また、データが十分に豊富であれば、トレーニング中に 1 つのカテゴリに偏ることがなくなり、オーバーフィットの問題が発生することはありません。したがって、事前トレーニングデータを厳密に重複排除する必要があり、これを行うにはさまざまな方法があります。

10. 問題提起: データ中心の事前トレーニングモデル

データを見つけた後、最も必要な処理は重複排除です。たとえば、GPT-1 にはフィルタリングされていないデータが 4.8 GB、GPT-2 には人間がフィルタリングしたデータが 40 GB、GPT-3 にはフィルタリングされたデータが 570 GB (元のデータ 45 TB) あります。データのフィルタリングは非常に重要です。

11. 解決策: ドメイン事前トレーニングモデルのトレーニングリンク - CaMA を例に

ここでは、浙江大学の CaMA モデルを例に、データ側からドメインモデルを完成させる方法を説明します。

浙江大学は、LLaMA に基づいて 2 つのことを行いました。1 つ目は、事前トレーニングを継続し、事前トレーニング後に微調整を行うことです (Instruction Dataset)。

LLaMA の中国語機能を強化するために、データの取得方法など、多くのデータ処理が行われました。コードは主に GitHub と Leetcode からデータを収集します。英語は主に ArXiv、Book、Wikipedia などからデータを収集します。中国語は主に Baidu Encyclopedia、Wudao、中国語版 Wikipedia などからデータを収集します。

多様性を確保する必要があります。言語に関しては、中国語と英語、タイプに関しては、コードとテキスト、分野に関しては、百科事典、ウィキなどがある必要があります。

データを取得したら、次の 2 つのことを行います。

1 つ目は Clean です。Clean には重複を削除する Duplicate が含まれており、機密情報を削除する detoxification もあります。
2 番目は Tokenize で、データをトークン化し、サンプルの最大長を 1024 に設定します。

微調整フェーズ中に高品質の微調整データを構築するにはどうすればよいでしょうか?たとえば、General は Alpaca からの 52K データを使用してさまざまな変換などを実行します。また、gsm8K、aqua、Alpaca、その他の COT データなどの COT 関連の処理も実行します。このデータを取得したら、一般化のために ChatGPT を使用できます。 CaMa は KG と関連しているため、多くのタスクデータや固有表現認識データ、関係抽出データ、イベント抽出データを使用し、一般化データと組み合わせてチューニングすることで、より良い効果が得られます。

上記の説明から、事前トレーニング段階と SFT 段階の両方でデータが非常に重要であり、データは可能な限り多様でクリーンである必要があり、それがモデルの改善に有意義であることがわかります。

12. ソリューション: データ中心の大規模モデル事前トレーニングデータエンジニアリング

上図は、前述のトレーニングデータ開発、推論データ開発、データ保守などを含むデータセントリックエンジニアリングフレームワークを示しています。

データ中心の大規模モデル事前トレーニングデータエンジニアリングのワークフローは、ラベル付け、クリーニング、機能の削減、ソースデータに対する基本的な操作の実行方法、エンジニアリングチームに入力を調整して評価を実行する方法の指示、データのメンテナンスなど、多くのリンクに分解できます。データの視覚化後、データの現在の状態、データ価値評価指標、リソース割り当てなどを真に理解できます。

テキスト注釈、音声注釈、画像注釈など、さまざまなデータに対して適切な注釈標準を策定する必要があります。

ラベル付けされたデータセットの品質をどのように測定するかが重要です。現在、画像注釈の品質評価のための MV アルゴリズム、テキスト品質評価のための BLEU アルゴリズムなど、多くのアルゴリズムが存在します。さまざまな音声テキストやビデオに基づいたさまざまな測定アルゴリズムがあり、誰もがデータ注釈の品質を測定できるようにしています。

上の図は、具体的な実装中にデータを処理する一般的なプロセスを示しています。

当社のデータには、主にウェブサイトのデータ、専門文献、さまざまな業界のデータが含まれます。

ウェブサイトデータには、検索データ、コード推論データ、一般的なウェブページデータなどが含まれます。
専門文献には、研究報告書、学術論文、各種文書などが含まれます。
業界データには、金融、法律、不動産、特定の多言語データセット、タスク評価セットなど、さまざまな垂直 Web ページが含まれます。

大規模で多様かつ高品質なデータを実現するための一般的なプロセスには、次の手順が含まれます。

1. サイトフィルタリング。サイトフィルタリングには、グラフベースのフィルタリング方法、シングルポイントベースのフィルタリング方法、ルールベースのフィルタリング方法など、さまざまな方法があります。

2. 機密およびプライバシーフィルタリング、言語またはノイズフィルタリングなど。

3. 異なる粒度で重複する記事を削除します。

4. Web ページのトピックモデリング。多様性を向上させるにはトピックが優れている必要があるため、多くのトピックマイニング作業が行われ、検索はここで自然に有利になります。

5. データ品質バージョン管理などを含むデータ品質スコアリング

データソースを選択する理由は多数あり、たとえば次のようになります。

システムは完成しましたか?
サイトのソースは信頼できるものですか?
データサイズは大きいですか?
データは十分にリアルタイムですか?
下流タスクの需要はありますか?
どのダウンストリームスキルのパフォーマンスが低いですか?

一般的なウェブページデータ、検索データ、質疑応答データ、ナレッジグラフ百科事典、コード推論データなどを含むウェブサイトデータ。

研究報告書、学術論文、ジャーナル、書籍、文学作品などの専門文献。

タスク評価データセット、多言語データセット、金融、法律、不動産、スポーツ、医療、映画、テレビの分野のコーパスなどの業界データ。

サイトフィルタリングやノイズ情報のクリーニングにはさまざまな方法があります。

品質分類モデルは、FastText 分類器を使用してデータを 4 つのレベル (0、1、2、3) に分割します。レベル 2 と 3 は高品質のデータです。トレーニング中、正のサンプルは手動で注釈が付けられた優れたサンプルであり、負のサンプルは比較的ゴミのテキストです。使用される機能には、タイトルと CEloss が含まれます。

余白テキスト除去モデルでは、広告スペースのテキストとその他のプロモーションテキストを識別する必要があります。

多数のパターンを使用して高品質のコーパスを抽出したり、カスタマイズされた余白テキストを削除したりするなど、垂直方向の Web ページ処理。

スペースや特殊記号の処理、言語検出、機密情報の検出、プライバシーデータの識別と処理などを含むルールベースのノイズ除去。

PPL 判断モデルを使用して支離滅裂なテキストなどを削除するなど、モデルベースのノイズ除去。

Web ページ分類モデリングの目的は、さまざまなカテゴリのデータのニーズを満たすために、きめ細かい Web ページデータをマイニングすることです。

分類やクラスタリングなど、Web ページに適切なタグを付ける方法は多数あります。たとえば、LDA キーワード抽出、テキストキーワード抽出、手動レビューラベル、下流のスキル反復フィードバックラベルなどを使用します。

Web ページのトピック分類、スポーツ、歴史、金融、医学など数十のカテゴリを含む Web ページカテゴリシステムを事前設定し、フィールドラベルを細分化してから、BERT に基づいてコーパスラベル分類を完了するためのコーパス分類子を構築します。

モデルによる特定のグレーディングではデータの定性的な分析しかできないため、データの品質管理は手動で行うのが最適です。実際にサンプリングする場合は、90 点、80 点、70 点、60 点などの定量的なスコアリング基準が必要です。より高品質なデータをサンプリングします。そのため、手動で採点基準を策定し、スコアを計算する必要があります。
データバージョン管理: 各製造プロセスでは、各段階でバックアップ管理が必要です。どのステップでも問題が見つかった場合は、その問題の原因をすぐに特定できます。
事前トレーニングデータインデックス管理には、全員のフィードバックを収集し、データの問題を特定するための管理プラットフォームが必要です。
データはランダムにサンプリングされます。データの偏りを防ぐために、特定の評価時に大量のシャッフルが必要となり、手動の品質スコアに基づいてソートが実行されます。

DoReMi の作業を例に、事前トレーニングのデータサンプリングについて説明しましょう。

まず、データ分布を初期化し、小さなパラメータモデルをトレーニングします。たとえば、The Pile の元の分布を使用して、小さなモデルをトレーニングします。小さなモデルをトレーニングした後、Group Distribution Robust Optimization (GroupDRO) を使用してドメインをトレーニングし、ドメインの重みを更新します。最後に、反復されたドメインの重みを使用してデータセットを再サンプリングし、より大きなフルサイズのモデルをトレーニングします。

データ生成方法を微調整する:

（１）広く使われている人工的な基準に基づく

SFT データラベリングシステムを構築し、ラベリングシステムの主要なカテゴリとサブカテゴリを確立する必要があります。
SFT タスクの場合、いくつかのプロンプトを作成して記述し、対応する結果を記述します。
特定のプロンプトとモデルによって提供された複数の結果に対して、結果にラベルを付けてランク付けします (報酬モデルの場合)。

（２）大規模モデルに基づくデータ蒸留

自己命令データ生成に基づき、多様性を確保するために、既存の命令とのROUGE-Lの重複が0.7未満の場合にのみ新しい命令が保持されます。ただし、これだけでは十分ではありません。この方法を使用すると、長さや主題が特に多様ではないAlpacaデータも含めます。
チャットGPTに基づいて、結果は良いか悪いかがマークされ、手動レビューされます

上右の写真は人民大学の取り組みを示したものです。収集されたオープンソースの命令セットに対して、まず重複を削除し、次にトピックごとに配布し、最後に多様性を整理して制御します。

ルールの明確さに基づいて、次のルールを適用できます。

フィルタリングのセンシティブな単語のルール
無効な入力と出力をフィルタリングする
キーワード置換ルール
特別なロジックルール

モデルベースのダイバーシティ制御には以下が含まれます。

意味的類似性モデルに基づく命令重複排除
テーマ制御に基づく指示の多様化
命令データは複雑です。GPT-4などの大規模モデルを使用して命令を書き換え、より複雑にすることができます。命令の長さはある程度制御できます。

13. オープンデータの問題: 事前トレーニングデータは不十分でしょうか?

現在、事前トレーニングデータが十分にあるかどうかという疑問に関して、「データは枯渇するのか？機械学習におけるデータセットのスケーリングの限界の分析」というレポートでは、言語データは2030年から2040年の間に枯渇し、より良いパフォーマンスをトレーニングできる高品質の言語データは2026年に枯渇するという興味深い視点を提示しています。さらに、視覚データは2030年から2060年の間に枯渇するでしょう。このレポートを注意深く研究することができます。

2. 大規模モデル開発における自動評価

1. 質問: モデルのパフォーマンスを自動的にスコアリングするにはどうすればよいですか?

モデルのパフォーマンスの評価を自動化する方法は基本的に 3 つあります。

まず、手動のビジネス評価に基づいて、特定のビジネスシナリオに応じて評価する必要がある機能（要約機能、生成機能など）を手動で見つけ、関連するテストサンプルをリストアップして評価次元を確立し、多次元スコアリングを完了します。
次に、下流タスク評価に基づいて、下流評価リストとタスクデータセットを使用してパフォーマンス評価を実施します。客観的な質問は下流のタスクを使用した評価に適していますが、生成の品質を評価するなど、主観的な質問は特に適していません。
3 つ目は、ChatGPT のスコアリングに基づいて、ChatGPT の専門的な機能を利用して審判として機能し、スコアリング評価を完了することで、誰もが ChatGPT を使用してスコアリングを行うという傾向が現在あります。

2. GPTベースの自動評価

今では多くの人がChatGPTを使ってスコアを付けるでしょう。質問と回答を提示し、ChatGPT に「ここにはこのような質問と回答があり、採点範囲は 1 から 0 です。回答が何点取れるかを尋ね、採点の根拠を示してください。」と伝えます。 Vicuna はこの評価アプローチを採用しました。

3. クラウドソーシングによる投票による評価

もう一つの方法はクラウドソーシングです。クラウドソーシングを使用する理由は、GPT を使用した自動評価方法は非常に主観的であり、データセットが十分に大きくないため、全員でスコアをつけて Langya リストを作成する必要があるためです。 Arena の Langya Bang では、まず質問が出され、各モデルが答えます。その後、Elo 評価システムを使用して全員の投票によって回答が採点されます。

実は中国語版もあるんです。英語版をベースにして『Nirvana in Fire』という中国語版が制作されています。

4. 下流の評価タスクに基づいて評価する

現在、下流の評価タスクに基づいて評価を実施する傾向があり、これは、Google BIG-bench、MMLU、C-EVAL、M3KEなどの評価データを含む専門的なテスト問題を使用したり、専門的なテストを受けたりすることです。

このアプローチは合理的です。垂直ドメインモデルを構築する場合、垂直ドメインでのモデルの機能をどのように検証すればよいでしょうか?例えば、法律には弁護士資格試験があり、特許にもそれに相当する資格試験があり、それによってモデルとビジネスをうまく融合させることもできます。

3. ビッグモデルとナレッジグラフの組み合わせ

ビッグモデルとナレッジグラフの組み合わせについて説明しましょう。

1. ナレッジグラフ

まず、ナレッジグラフについて見てみましょう。ビッグモデル以降、ナレッジグラフの重要性は著しく低下し、ナレッジグラフの位置づけが明確ではなくなったという見方があります。

私の個人的な意見では、ナレッジグラフの最大の利点は、上の左側の 2 つの図にあります。

最初のグラフは、ナレッジグラフのグラフ構造です。ナレッジグラフは知識をグラフの形で表現するため、グラフ埋め込みやパス検索などのアルゴリズムを完了できます。この点で、大規模モデルには一定の欠陥があります。

2 番目の図は、一部の組織におけるナレッジグラフの利点を示しています。たとえば、ナレッジグラフはスキーマを使用して構造化データの表現を標準化します。ナレッジグラフは、垂直ビジネスドメインにおける知識の編成と管理の問題を解決するために提案されています。大規模なモデルはエンドツーエンドで知識を生成できますが、この知識は体系的ではありません。体系的なナレッジグラフは、ビッグモデルと組み合わせることができます。ビッグモデルはデータを生成し、ナレッジグラフはデータを整理して、目標をより適切に達成します。さらに、ナレッジグラフには垂直データもいくつか含まれており、これを使用して大規模モデルの実際のエラーを検証できます。

2. ナレッジグラフと大規模言語モデル

ナレッジグラフと大規模言語モデルの共通点:

それは本質的には知識ベースです。大規模言語モデルも知識ベースですが、パラメータ化されています。
リアルタイム性と適時性において直面する課題は同じです。ナレッジグラフを更新しないと、その適時性に問題が生じるため、ナレッジグラフを使用して大規模モデルの適時性を解決するという考え方は疑問です。

ナレッジグラフと大規模言語モデルの違い:

ナレッジグラフは知識の形式的な表現であり、大規模言語モデルは知識のパラメータ化された表現です。
ナレッジグラフはデバッグを容易にし、強力な解釈可能性と強力なグラフ構造表現機能を備えていますが、大規模な言語モデルはあらゆるデータとあらゆるタスクを処理できますが、十分に単純ではありません。
ナレッジグラフは構築が難しいですが、構造化された知識については推論が容易です。また、構築は簡単ですが、非構造化知識については推論が困難です。大規模な言語モデルは構築も推論も簡単ですが、アーキテクチャがありません。

3. ナレッジグラフのビッグモデル: ナレッジグラフの構築からビジネス需要の適用まで

ナレッジグラフで使用される大きなモデルは、データ構造、データ融合、拡張データモデル、または業界のインテリジェントな質問と回答など、上記の図の全体を再構築できます。

4。知識グラフ構造のための大規模モデル：スキーマ生成とデータアノテーション

大規模なモデルは、知識グラフ構造におけるスキーマ生成およびデータアノテーションに使用できます。

大きなモデルは、スキーマの生成を完了します。 Esherは、中国科学アカデミーのソフトウェア研究所の仕事であり、イベントのスキーマを生成し、クラスタリングコミュニティの発見を通じて対応するイベントと対応するスロットを実装しています。

大規模なモデルは、データ強化のソートされたデータを生成できます。大きなモデルの前に、通常、データの強化にEDAを使用して、ChatGptを使用して、ラベル付けされたデータを大量に生成し、知識のグラフアノテーションのコストを削減できます。

5。知識グラフを構築するために大規模なモデルが使用されます：知識抽出、推論、知識の質問への回答

また、大きなモデルは、知識の抽出、推論、知識の質問、知識グラフの構築における回答にも役割を果たすことができます。

左上図に示すように、トリプル抽出のために、最初にNER抽出が実行され、次に関係抽出が実行されます。

右上の画像の作業は、以前のUIEに基づいています。この方法は統合され、出力形式は合意されており、LLMはトリプルを抽出できます。

左下の画像は、知識グラフを完成させるための大きなモデルを示しています。たとえば、360がOGBに挑戦する場合、新しいスコア機能を革新できます。

右下の画像は、知識グラフの質問に答えるために使用されている大きなモデルを示していますが、いくつかのエンティティリンクが追加された場合、グラフのサブグラフがリコールされ、コンテキストにスプライスされ、ビッグモデルが推測を行うことができます。

6.大規模なモデル開発で知識グラフを使用するいくつかの段階

大きなモデル開発に知識グラフを使用できる3つの段階について説明しましょう。

（1）トレーニング前の段階

データクリーニングとクリーニングルールを構築するために大きなモデルを使用します。これは、特定のコーパスのエラーを検出またはフィルタリングするドメインエクスペリエンスの知識として機能します。
知識グラフを使用して、正式なスプライシングを実施し、トレーニング前のコーパスを導入し、S+P+Oにスプライスします。

（2）トレーニング中

ナレッジグラフは、モデルトレーニングに暗黙的に追加され、埋め込みにより注入が完了します。
モデルトレーニング評価としてドメインナレッジグラフを中心とした下流の評価タスクを構築します。

（3）トレーニング後の段階

濃縮のためのエンティティを含むコンテキストを導入し、知識グラフをプロンプトに注入し、結果の使いやすさを高める
モデル生成後の結果に関する知識の確認を実行して、モデルの事実上の誤りを減らす
クエリエンティティの曖昧性とエンティティリンクを使用することにより、リアルタイムの検索結果が注入され、リアルタイムのパフォーマンスが向上します。
Langchainの実装など、生成的介入のための外部知識ベースを組み合わせます

7。知識グラフは、大規模なモデルのトレーニング前の段階で使用されます：トレーニング前のデータの構築と微調整データ

トレーニング前の段階では、テンプレートを使用して事実の記述テキストを生成できます。

微調整段階では、自己インストールカットアプローチ（多様性に重点を置いて）を使用して、テンプレートに基づいて質問を生成できます。たとえば、左下の中央の単語の場合、テンプレートを使用して右下にQAペアを生成できます。たとえば、弁護士ラマなどの法的分野の業界モデルの場合、人々はこの方法で知識グラフを組み合わせて、大量のSFTデータを生成します。

8。知識グラフは、大規模なモデルトレーニングの中間段階で使用されます：知識を統合する事前に訓練されたモデル

ここでは、知識融合の事前トレーニングモデルについて説明します。これは、特徴融合、埋め込み融合、データ構造の統一、知識監督、または検索ベースの方法を通じて達成できます。

2つのコアポイントがあります。1つは、単語とエンティティをマスキングするか、外部融合を追加することにより、モデルに埋め込まれています。

9。知識グラフは、大規模なモデルのトレーニング後の段階で使用されます：生成された結果の知識ベースの介入

左上の写真には良い例があります。AIは老婦人と妻のケーキのより良い説明を得ることができます。

右上の画像は、自己認識の知識の説明を説明します。質問と回答をするために、質問に基づいてより良い説明が生成され、その後、いくつかの問題を解決することができます。

左下の画像は、数学的な計算の観点から、たとえば、東京からの距離を尋ねると、この問題を解決するために、Wolframalphaなどの外部ツールを使用することができます。最初の方法は、その結果に介入するためにプラグインを直接導入することです。プロンプトを介してChatGptの結果。通常、より良い結果が得られます。

右下の画像は、外部の検索エンジンの統合を説明しています。検索エンジンは、インデックスの関連性を呼び出し、最上部の結果を取得し、プロンプトでそれらをカプセル化できます。さらに、Fusion Search Engineは、大規模なモデルからの信頼性の低い結果の問題を解決することができます。「詳細情報を学ぶ」ことを介して、大規模なモデルによる結果出力の信頼性が高まります。ただし、新たなリンクとChatGptで引用されたリンクの多くが空または偽物であることがわかる場合があるため、生成されたリンクの精度を後で改善する方法を検討する必要があります。

10。知識グラフは、大規模なモデルのトレーニング後の段階で使用されます：外部の専門知識ベース

最後に、現在、主なプロセスで最も使用されているトレーニング後の段階で現在使用されているプラグインナレッジベースを紹介します。

現在の難易度は、最近人気のあるM3E、SIMCSE、TEXT2VECなどの優れたテキストベクトル化モデルを取得する方法の1つです。

IV. 結論

最後に、大きなモデルの将来の開発方向を要約しましょう。

ビッグモデルの将来の発展の主な発見は次のとおりです。

大きなモデルのアプリケーションの境界はまだ調査中です。私たちはまだ理解と理解していないことの間であり、誰もがそのメカニズムを常に調査しています。
垂直ドメイン微調整モデルは避けられないため、低コストで効率的にドメインの知識を注入することが重要です。
大きなモデルの研究開発と実装の中核は、データ +シナリオ +トレーニング方法です。データが実行された場合にのみ、アルゴリズムの天井が高いことがあります。
現在のシナリオでは、知識グラフは独自の立場を見つけ、共生を統合する必要があります。
データエンジニアリングは、大規模なモデルの研究開発において最優先事項であり、データが王様です。

5。質問に答えます

Q1：テキストデータに加えて、テーブルデータまたは画像データもあります。

A1：画像データには、マルチモーダルデータの処理が含まれます。グラフィックとテキストの形で処理されない限り、画像データをテキストデータに変換することは不可能です。

たとえば、いくつかの調査レポートを分析する場合、この時点でいくつかのテキストが散在する場合、写真の情報またはテーブルの情報をある程度保持し、全体的なセマンティックコヒーレンスを確保することができます。別のタイプのテーブルデータは、PP構造やその他の方法でテーブルを解析し、ラテックスでテーブルデータを再編成するなど、テーブルデータを取得する方法です。

考慮すべき最も重要なことは、さまざまなモードと形式のデータを元の形式で保証する必要があることです。これは非常に厄介です。

Q2：大きなモデルの幻想を解決するための業界での実用的で実用的な業界の経験は何ですか？

A2：幻覚の基本的な理由は次のとおりです。1つ目は、指示を理解できませんが、できません。これら2つの問題を個別に解決します。

大きなモデルを理解する方法では、大きなモデルが複雑な指示を理解するか、これがSFT段階で必要なことを理解できるように、SFTの強化を行う必要があります。

大きなモデルを注入する必要はありません。 SFT段階では、SFTが知識ではなくパラダイムを学ぶという見解もあります。

上記の拡張で十分でない場合、または特定のフィールドのデータをプレレインステージに注入できない場合は、Langchainのプラグインナレッジベースメソッドの使用を検討できます。プラグインのコアは、より良いトレーニングデータを構築して、より良いベクトル化スキームを取得し、埋め込みを最適化し、ベクトル検索を介してより良い相関テキストを取得した後、プロンプトにスプライスする方法です。また、ここで知識グラフを使用して、それらをリンクしてサブグラフを思い出すこともできます。

<<: エンタープライズデータ開発のための大規模言語モデル: 概念、懸念事項、ホットトピック

>>: GPT-2からGPT-4まで、大規模言語モデルの革新を探る