未来はここにある: データが大規模 AI モデルにおける競争をどう促進するか

未来はここにある: データが大規模 AI モデルにおける競争をどう促進するか

人工知能の急速な発展に伴い、高品質なデータの重要性がますます明らかになっています。大規模言語モデルを例にとると、近年の急速な進歩は、高品質で豊富なトレーニング データセットに大きく依存しています。 GPT-2 と比較して、GPT-3 ではモデル アーキテクチャの変更が最小限に抑えられており、トレーニング用に大規模で高品質のデータ セットを収集することに多くの労力が費やされています。たとえば、ChatGPT は GPT-3 と同様のモデル アーキテクチャを備えていますが、RLHF (人間のフィードバック プロセスからの強化学習) を使用して、微調整用の高品質のラベル付きデータを生成します。

この現象を認識し、人工知能分野の権威ある学者である呉成根氏は、モデルアーキテクチャを比較的固定したまま、データの質と量を改善することでモデル全体のトレーニング効果を向上させることを提唱する新しい概念である「データ中心のAI」運動を立ち上げました。これには、データ タグの追加、データのクリーニングと変換、データの削減、データの多様性の向上、データの継続的な監視と保守が含まれます。そのため、今後の大規模モデルの開発においては、データコスト(データの収集、クリーニング、ラベル付けなどを含む)の割合が徐々に増加する可能性があります。

AIビッグモデルに必要なデータセットには、次のような特性が必要です。

(1)高品質:高品質のデータセットは、モデルの精度と解釈可能性を向上させると同時に、モデルが最適解に収束するまでの時間、つまりトレーニング時間を短縮することができます。

(2)大規模:OpenAIは論文「ニューラル言語モデルのスケーリング法則」の中で、LLMモデルの「スケーリング法則」を提案した。つまり、トレーニングデータの量、モデルパラメータの規模を独立して増やしたり、モデルのトレーニング時間を延長したりすることで、事前トレーニング済みモデルの効果が継続的に向上するというものである。

(3)多様性:データの多様性はモデルの一般化能力を向上させるのに役立ちます。単一データが多すぎると、モデルがトレーニングデータに過剰適合する可能性があります。

データセットの生成と処理

データセットを確立するプロセスには、主に次の手順が含まれます。

  • データ収集: データ収集の対象には、さまざまな種類と形式のビデオ、画像、音声、テキストが含まれる場合があります。データ収集の一般的な方法には、システムログ収集方法、ネットワークデータ収集方法、ETL などがあります。
  • データ クリーニング: 収集されたデータには、欠損値、ノイズの多いデータ、重複データなどの品質上の問題がある可能性があるため、データ クリーニングは特に重要です。データクリーニングは、データ前処理における重要なステップです。クリーニングされたデータの品質によって、AI アルゴリズムの有効性が大きく左右されます。
  • データのラベル付け: これはプロセスの中で最も重要な部分です。管理者は、さまざまなラベル付け要件に応じて、ラベル付けするデータをさまざまなラベル付けタスクに分割します。各ラベリング タスクには異なる仕様とラベリング ポイントの要件があり、ラベリング タスクは複数のラベラーに割り当てられて完了します。
  • モデルトレーニング: モデル トレーナーはラベル付けされたデータを使用して、必要なアルゴリズム モデルをトレーニングします。
  • モデル テスト: テスターがモデル テストを実施し、テスト結果をモデル トレーナーにフィードバックします。モデル トレーナーは、パラメーターを継続的に調整して、パフォーマンスの優れたアルゴリズム モデルを取得します。
  • 製品評価: 製品評価者は、モデルのラベリング効果を繰り返し検証し、モデルが発売目標を満たしているかどうかを評価する必要があります。製品評価フェーズに合格したデータのみが、真に合格したものとみなされます。

しかし、中国のデータ資源は豊富であるにもかかわらず、データマイニングが不十分であることや、データが市場で自由に流通できないことなどの要因により、高品質の中国のデータセットは依然として不足しています。統計によると、ChatGPTのトレーニングデータでは、中国語の素材の割合は1000分の1未満であるのに対し、英語の素材の割合は92.6%を超えています。さらに、カリフォルニア大学と Google Research の調査によると、現在機械学習や自然言語処理モデルで使用されているデータセットの 50% は、12 のトップ機関によって提供されており、そのうち 10 は米国、1 はドイツ、そして中国からは香港中文大学のみであることがわかりました。

中国で高品質のデータセットが不足している主な理由は次の通りであると考えられます。

  • 高品質のデータセットには莫大な資金投資が必要ですが、現在、データマイニングとデータガバナンスへの国内投資は不十分です。
  • 国内関連企業ではオープンソースに対する意識が不足していることが多く、データが市場で自由に流通できない状況になっています。
  • 国内関連企業は設立が比較的遅く、海外企業に比べるとデータの蓄積が少ない。
  • 学術分野では、中国のデータセットはあまり注目されていません。
  • 国内のデータセットの市場影響力と人気は比較的低いです。

現在、中国の大手テクノロジー企業やインターネット企業は、主に公開データと自社独自データを通じて大規模モデルのトレーニングを行っています。例えば、百度の「文心」モデルが使用する固有データには、主に数兆のウェブページデータ、数十億の検索データや画像データなどが含まれています。 Alibabaの「Tongyi」大規模モデルのトレーニングデータは主にAlibaba DAMO Academyから提供されています。テンセントの「Hunyuan」モデルの独自のトレーニングデータは、主にWeChatパブリックアカウントやWeChat検索などの高品質データから取得されます。 Huaweiの「Pangu」ビッグモデルのトレーニングデータは、公開データに加えて、気象、鉱業、鉄道などの業界データを含むBサイドの業界データによってもサポートされています。 SenseTime の「Daily Update」モデルのトレーニング データには、自己生成された Omni Objects 3D マルチモーダル データセットが含まれています。

中国のデータ環境と将来

現状はまだ不十分ではあるものの、中国のデータ環境は依然として大きな可能性を秘めています。まず、中国は世界最大のインターネットユーザーグループを擁しており、毎日生成されるデータの量も膨大であるため、大規模で高品質なデータセットを構築するための基盤を提供しています。第二に、中国政府は政策支援と財政投資の両面でAIとデータガバナンスを重視しており、データ環境の改善と発展に好ましい条件を提供している。

今後、中国は以下の分野で努力する必要がある。

  1. データ収集およびクリーニング システムを確立する: データの品質と有効性を確保し、後続のモデル トレーニングのための信頼できるデータ基盤を提供するために、完全なデータ収集およびクリーニング システムを確立します。
  2. 公共データのアクセシビリティとユーザビリティの向上:企業や研究機関等によるデータ公開を奨励し、データが市場で自由に流通できるようにすることで、データのアクセシビリティとユーザビリティを向上させます。
  3. データ ラベリングへの投資を増やす: ラベリングの効率と品質を向上させ、ラベリング コストを削減し、より多くの高品質のラベル付きデータを取得します。
  4. より多くのデータ サイエンティストと AI エンジニアを育成: 教育とトレーニングを通じてデータ サイエンティストと AI エンジニアの数と質を高め、中国における AI の研究と応用を促進します。
  5. 国内外のデータ協力を強化する:データ協力を通じて、海外の成功例を学び、データの収集、処理、利用における技術と方法を改善し、中国のデータの品質と価値を高める。

データは AI モデルの「燃料」です。将来、大規模な AI モデル間の競争は、間違いなく高品質のデータにさらに依存するようになります。したがって、データへの投資と活用が、世界の AI 競争における中国の地位とパフォーマンスを決定することになるでしょう。

<<: 

>>:  日本はAIと無人機械を使って月面基地を建設する計画で、2030年代までに完成することを目指している。

ブログ    
ブログ    
ブログ    

推薦する

Nvidia テルアビブ AI サミットが中止に!黄氏の社内メールが明らかに:Nvidiaの従業員も誘拐された

少し前、25歳の中国系イスラエル人少女、ノア・アルガマニの誘拐事件がネットユーザーの間で白熱した議論...

人工知能と自然言語処理の概要: AI の 3 つの主要段階と NLP の主な応用分野

最近、Xenonstack は Jagreet Kaur 氏による「人工知能の概要とビッグデータにお...

転換点までのカウントダウン:AI サーバーが市場を完全に支配するにはどれくらいの時間がかかるのでしょうか?

ハイパースケーラーとクラウド プロバイダーがインフラストラクチャの計画を検討する場合、まず全体的な動...

百度研究所が新しいAIツールを発表:10分以内に記事を自動的に動画に変換可能

[[322859]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

...

ニューラルネットワーク関係抽出のための構文的に敏感なエンティティ表現

ニューラル関係抽出のための構文的に敏感なエンティティ表現。関係抽出タスクの大規模な適用における大きな...

ベイジアンディープラーニング: ディープラーニングと確率的グラフィカルモデルを統合するフレームワーク

人工知能 (AI) の進歩により、多層のディープ ネットワークを構築し、大量のデータを学習に活用する...

AIチップと人工知能産業は密接に連携している

[[355495]]人類社会は情報化から知能化へと移行しています。人工知能は知能化を実現するための重...

人工知能がサービスと運用管理を改善する10の方法

ヨーロッパの多国籍通信会社は、BMC の Helix Chatbot を標準化して、全部門の 120...

大規模モデルの観点から見た因果推論

1. 因果推論と大規模モデル近年、因果推論は研究のホットスポットとなり、多くのシナリオに適用されてき...

IoTの未来が機械学習に依存する理由

モノのインターネットは膨大な量のデータを生成します。そのデータは、都市が事故や犯罪を予測するのに役立...

AIとCVで「Jump Jump」をプレイし、張小龍の最高スコア6000以上を上回った

WeChatミニプログラムにゲーム「Jump Jump」が登場して以来、多くのWeChatユーザーが...

...

...

清華大学、マイクロソフトなど大学がリマインダーエンジニアを排除? LLMと進化的アルゴリズムを組み合わせて強力なプロンプト最適化ツールを作成する

LLM の機能と従来のアルゴリズムを組み合わせることで、どのような火花が生まれるのでしょうか?清華大...