人工知能の急速な発展に伴い、高品質なデータの重要性がますます明らかになっています。大規模言語モデルを例にとると、近年の急速な進歩は、高品質で豊富なトレーニング データセットに大きく依存しています。 GPT-2 と比較して、GPT-3 ではモデル アーキテクチャの変更が最小限に抑えられており、トレーニング用に大規模で高品質のデータ セットを収集することに多くの労力が費やされています。たとえば、ChatGPT は GPT-3 と同様のモデル アーキテクチャを備えていますが、RLHF (人間のフィードバック プロセスからの強化学習) を使用して、微調整用の高品質のラベル付きデータを生成します。 この現象を認識し、人工知能分野の権威ある学者である呉成根氏は、モデルアーキテクチャを比較的固定したまま、データの質と量を改善することでモデル全体のトレーニング効果を向上させることを提唱する新しい概念である「データ中心のAI」運動を立ち上げました。これには、データ タグの追加、データのクリーニングと変換、データの削減、データの多様性の向上、データの継続的な監視と保守が含まれます。そのため、今後の大規模モデルの開発においては、データコスト(データの収集、クリーニング、ラベル付けなどを含む)の割合が徐々に増加する可能性があります。 AIビッグモデルに必要なデータセットには、次のような特性が必要です。 (1)高品質:高品質のデータセットは、モデルの精度と解釈可能性を向上させると同時に、モデルが最適解に収束するまでの時間、つまりトレーニング時間を短縮することができます。 (2)大規模:OpenAIは論文「ニューラル言語モデルのスケーリング法則」の中で、LLMモデルの「スケーリング法則」を提案した。つまり、トレーニングデータの量、モデルパラメータの規模を独立して増やしたり、モデルのトレーニング時間を延長したりすることで、事前トレーニング済みモデルの効果が継続的に向上するというものである。 (3)多様性:データの多様性はモデルの一般化能力を向上させるのに役立ちます。単一データが多すぎると、モデルがトレーニングデータに過剰適合する可能性があります。 データセットの生成と処理データセットを確立するプロセスには、主に次の手順が含まれます。
しかし、中国のデータ資源は豊富であるにもかかわらず、データマイニングが不十分であることや、データが市場で自由に流通できないことなどの要因により、高品質の中国のデータセットは依然として不足しています。統計によると、ChatGPTのトレーニングデータでは、中国語の素材の割合は1000分の1未満であるのに対し、英語の素材の割合は92.6%を超えています。さらに、カリフォルニア大学と Google Research の調査によると、現在機械学習や自然言語処理モデルで使用されているデータセットの 50% は、12 のトップ機関によって提供されており、そのうち 10 は米国、1 はドイツ、そして中国からは香港中文大学のみであることがわかりました。 中国で高品質のデータセットが不足している主な理由は次の通りであると考えられます。
現在、中国の大手テクノロジー企業やインターネット企業は、主に公開データと自社独自データを通じて大規模モデルのトレーニングを行っています。例えば、百度の「文心」モデルが使用する固有データには、主に数兆のウェブページデータ、数十億の検索データや画像データなどが含まれています。 Alibabaの「Tongyi」大規模モデルのトレーニングデータは主にAlibaba DAMO Academyから提供されています。テンセントの「Hunyuan」モデルの独自のトレーニングデータは、主にWeChatパブリックアカウントやWeChat検索などの高品質データから取得されます。 Huaweiの「Pangu」ビッグモデルのトレーニングデータは、公開データに加えて、気象、鉱業、鉄道などの業界データを含むBサイドの業界データによってもサポートされています。 SenseTime の「Daily Update」モデルのトレーニング データには、自己生成された Omni Objects 3D マルチモーダル データセットが含まれています。 中国のデータ環境と将来現状はまだ不十分ではあるものの、中国のデータ環境は依然として大きな可能性を秘めています。まず、中国は世界最大のインターネットユーザーグループを擁しており、毎日生成されるデータの量も膨大であるため、大規模で高品質なデータセットを構築するための基盤を提供しています。第二に、中国政府は政策支援と財政投資の両面でAIとデータガバナンスを重視しており、データ環境の改善と発展に好ましい条件を提供している。 今後、中国は以下の分野で努力する必要がある。
データは AI モデルの「燃料」です。将来、大規模な AI モデル間の競争は、間違いなく高品質のデータにさらに依存するようになります。したがって、データへの投資と活用が、世界の AI 競争における中国の地位とパフォーマンスを決定することになるでしょう。 |
>>: 日本はAIと無人機械を使って月面基地を建設する計画で、2030年代までに完成することを目指している。
[[419666]]序文みなさんこんにちは、パンパンです!これまでは rand と srand を使...
マスク氏はついに我慢できなくなり、X のデータを AI に入力し始めました。過去 2 日間で、X が...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
ここ数年、世界的な自動運転はまだ発展途上であったとすれば、各国の政策の推進により、自動運転に関する最...
AI界の巨人ジェフリー・ヒントン氏は「テクノロジー企業は今後18カ月で、現在のGPT-4の100倍の...
描くだけでWebページが作れます! GPT-4V の新しいゲームプレイは、3,000 を超える 🌟 ...
英国人映画監督が人工知能(AI)を使って外国映画の鑑賞方法に革命をもたらそうとしている。俳優の顔をデ...
世界は、スーパーヒーローのマントを身につけていない強力な世界的勢力のような人工知能 (AI) が支配...
2017年4月11日、米国のロバーツ最高裁判所長官は、ニューヨークのレンセラー工科大学の学長との会...
[[228274]]交換室の電話が鳴り、看護師が手際よく緊急電話に出た。その後すぐに病院は救急車を派...
自動車市場の発展に伴い、さまざまないわゆる「ブラックテクノロジー」が自動車所有者の敏感な神経をますま...
[[151327]]決定木分類アルゴリズム決定木誘導は古典的な分類アルゴリズムです。これは、トップダ...