現在、ビッグモデルは産業実装の初期段階にあり、高品質のデータはビッグモデルの産業化における重要な要素です。 最近、Epoch AI Research チームの調査により、モデルは成長し続ける必要があるが、データが十分ではないという残酷な事実が明らかになりました。 研究者らは、2022年から2100年の間に利用可能な画像データと言語データの総量を予測し、これに基づいて、将来の大規模モデルトレーニングデータセットのサイズの成長傾向を推定した。 結果によると、高品質の言語データのストックは2026年に枯渇し、低品質の言語データと画像データのストックはそれぞれ2030年から2050年と2030年から2060年の間に枯渇することがわかりました。 つまり、データ効率が大幅に向上したり、新しいデータ ソースが利用できなくなったりしない限り、モデル サイズの成長は 2040 年まで鈍化することになります。 データエンドの構築に注目してみましょう。 1. 高品質なデータが人気商品になる新たな世界的な AI ブームの到来により、大量のトレーニング データが AI アルゴリズム モデルの開発と進化の「燃料」となっています。 GPT 実験から、モデル パラメータの数が増えるにつれて、モデルのパフォーマンスがさまざまな程度に向上することがわかりました。 しかし、人間のフィードバックからの強化学習 (RLHF) によって生成された InstructGPT モデルは、パラメータ スケールが 100 倍の教師なし GPT-3 モデルよりもパフォーマンスが優れていることは注目に値します。これは、教師ありラベル付きデータが大規模モデルの適用を成功させる鍵の 1 つであることも示しています。 上記の予測が正しければ、データがモデルの継続的な拡張に対する主な制約となり、データの量が枯渇するにつれて AI の進歩が鈍化することは間違いありません。 Alibaba DAMO Academy の基本ビジョンチームの責任者である Zhao Deli 博士は、かつてのインタビューで、データ側の構築は、大規模モデルに取り組むすべての組織が考慮しなければならない問題になるだろうと述べました。大規模モデルの機能は、多くの場合、利用可能なデータの種類によって異なります。 趙徳博士によると、テキストとビデオの大規模モデルを構築するのは、テキストと画像の大規模モデルを構築するよりもはるかに難しいとのことです。その理由は、ビデオデータの量がテキストや画像よりもはるかに少ないこと、そしてデータの品質も低いことです。したがって、既存の Vincent ビデオ モデルの効果は満足できるものではありません。 上記の研究結果と合わせると、現在の傾向が続けば、人類の既存のデータ在庫は確実に枯渇し、高品質なデータはさらに少なくなるでしょう。 このため、データ争奪戦が始まろうとしています。 Adobe は、数億枚のストック写真のデータベースを使用して、Firefly と呼ばれる独自の AI ツール スイートを構築しました。 3月のリリース以来、Fireflyは10億枚以上の画像の作成に使用され、その結果Adobeの株価は36%上昇した。 いくつかのスタートアップ企業もこの新しい分野に参入している。今年4月、人工知能に特化したデータベース企業Weaviateは、5,000万ドルの資金を調達し、評価額は2億ドルに達した。 わずか1週間後、競合企業のPineConeが評価額7億5000万ドルで1億ドルを調達した。 今月初めには、別のデータベーススタートアップ企業であるNeonも4,600万ドルの資金を調達した。 中国では、Baidu Smart Cloud が最近、大規模モデルデータ サービス機能をアップグレードし、中国初の専門的な大規模モデルデータ注釈ベースを構築しました。百度スマートクラウドは、全国の地方政府と協力して10以上のデータラベリング拠点を構築したと発表した。 明らかに、データ獲得競争は始まったばかりです。 2. データアノテーションが再びブームにAIビッグモデルは、中国のデータラベリング産業の急速な発展に伴い、大きな需要を生み出しています。 招商証券は、一方ではビッグデータ時代に入ってから、人々のさまざまな行動の電子化とネットワーク化により膨大な量のデータがもたらされたが、生成されたデータのわずか1%しか収集・保存できず、収集されたデータの90%は非構造化データであると考えている。他方では、人工知能の台頭により、モデルのトレーニングに使用される構造化データに対する大きな需要がもたらされ、データラベリングの重要性が徐々に顕著になってきた。 一部の業界関係者は、今年10月に中国でchatGPTのような大規模モデルに対するデータ需要の大きな波が到来すると予想しており、これは膨大な需要だと考えている。中国の大手データラベリング企業数社の現在の生産能力から判断すると、需要を満たすには不十分だ。 iResearch Consultingのデータによると、データ収集、データ処理(ラベリング)、データストレージ、データマイニングなどのモジュールを含むAI基本データサービス市場は、今後数年間成長を続けると予想されています。 2025年までに、国内AI基本データサービス市場全体の規模は101.1億元に達し、市場全体の成長率は31.8%(2024~2025年)に達すると予想されています。 iResearchのデータによると、中国のデータアノテーション市場の規模は2019年に30.9億元で、2025年には市場規模が100億元を超え、年平均成長率は14.6%になると予想されています。 データ量の継続的な増加とデータ構造の継続的な変化により、データラベリング業界に関わる分野はますます広範囲になっています。特に、自動運転、AIGCなどの分野では、データラベリングの需要が非常に大きくなっています。 AI大規模言語モデルからの高品質な回答の基礎として、データラベリングの制作プロセスには、主に設計(トレーニングデータセット構造の設計)、収集(原材料データの取得)、処理(データラベリング)、品質検査(各リンクのデータ品質、処理品質検査)の4つのリンクが含まれます。 その中で、データ注釈には、画像、テキスト、ビデオなどの生データを識別し、機械学習モデルが正確な予測を行えるようにコンテキストを指定するための 1 つ以上のラベルを追加する必要があります。 現在、ほとんどのデータラベリングタスクは依然として手動で完了する必要があり、さまざまなデータタイプとアプリケーション分野では、ラベリングタスクを完了するために、対応する分野の専門のラベラーが必要です。 技術の発展に伴い、データ標準化業界は半人工知能、半手動の業界になりつつあります。 数百億のパラメータを持つ大規模言語モデルのデータ品質を制御するには、ラベリング プラットフォームを使用して複雑な RLHF 要件を多くの単純なワークフローに分解し、機械が前処理を行い、人が詳細な理解に基づくフィードバックを提供できるようにする必要があります。これにより、単純な問題に対する人のエネルギー消費が削減され、専門的な問題のラベリングに集中できるようになります。 業界では一般的に、能動的品質検査と受動的品質検査という方法を採用しています。前者は手動の品質検査に依存し、後者はアルゴリズムを使用して事前識別を行います。 ただし、一部のデータ ラベリング ツールの精度はわずか数パーセントであるのに対し、他のツールの精度は 80% または 90% に達することもあります。機械によるラベリングの認識率が高ければ高いほど、必要な人手が少なくなり、コスト、利益、速度、品質をより制御しやすくなります。 技術の継続的な発展により、データラベリング業界は将来的に高度な自動化を実現する可能性がありますが、応用分野が異なるため、ラベリングタスクを実行するには一定数のラベラーが依然として必要です。 3. 従来のデータアノテーションをアップグレードする必要がある今日の大規模モデルトレーニングのホットな波の中で、従来のデータラベリングの需要は減少する可能性が高いことは注目に値します。 ChatGPT をより「人間的」にするための鍵である強力な人間によるフィードバック RLHF は、さらに厳しいデータ ラベル付け要件をもたらします。 関連する分析によると、RLHF ステージでは、まずモデルが大規模なデータセットで事前トレーニングされ、その後プロの AI トレーナーと対話します。プロのラベラーは、ChatGPT によって生成された回答にラベルを付け、評価してフィードバックを提供し、回答にスコアまたはラベルを付けます。 これらのラベル付きデータは、強化学習プロセスにおける「報酬関数」として使用して、ChatGPT のパラメータ調整をガイドし、最終的にはモデルが強化学習と継続的な最適化を実行するのに役立ちます。 つまり、ChatGPT を「より人間的」にする微妙な点は、手動注釈のフィードバック結果を使用して独自のモデルを継続的に最適化し、より人間の思考ロジックに沿った表現を実現できることでしょう。 しかし、従来のデータ注釈モデルでは、RLHF のニーズを満たすのは困難です。 これまで、データラベリング企業の主流のビジネスモデルは、ツールシステムとラベリングサービスの販売に基づいていました。一方で、独自のデータが不足しているため、正確なデータセットを販売するサービスはほとんどありません。一方、体系的なプロジェクトとしての人材のアップグレードは、データラベリング企業にとってより大きな課題となります。 このステップを完了すると、RLHF トレーニングには多くの事実と価値の判断も含まれます。このうち価値判断は、一般的に認知されている「公序良俗」に関わる部分であり、理論的にはAIの認知に合わせやすい部分である一方、事実判断は各業界のノウハウが絡んでくる。 多くの場合、これには、品詞や画像の詳細にラベルを付けるだけの従来のデータ ラベラーではなく、業界の専門家の介入が必要になります。 つまり、データラベリング企業が新世代の AI に対応するには、データレベルでのアップグレードだけでなく、人材の刷新も同様に重要です。 現在、一部のラベル会社は実際に社内で「スタッフ改善チュートリアル」を作成し始めており、将来的にはラベル担当者に「アップグレードされた」ラベル要件と回答方法のコンプライアンスを理解させるためのトレーニングに重点を置く予定です。 しかし、医療など専門職の障壁が非常に高い分野では、データラベリングは依然として人材不足に直面しています。 あるデータラベリング会社の運営責任者は、「特に医療分野では、訓練を積めば一般の人でも収集できるラベルもあれば、医療従事者が必要なラベルもある。その裏で人材を集めるのがいかに難しいかは想像がつくだろう」と語った。 しかし、多くの困難があるとしても、データラベリング企業が直ちに再編されるということではありません。少なくとも、大規模モデルトレーニングのいくつかの段階のうち、半教師あり学習の初期段階では、従来のデータラベリングも必要になります。 大規模モデルやRLHFの機会を前に、大規模な投資を再現することは避けられないように思われます。 業界関係者の中には、データラベリング企業が垂直分野でより高度なデータサービスを提供したいと考える場合、まったく新しい製品ラインを確立する必要があるかもしれないと考える人もいる。実際、AI 研究開発の経験を持つ創業者の方が、データラベリングの起業家には適しているでしょう。 新世代の AI の波に直面して、何もせずにお金を稼ぐことは誰にもできません。これが、テクノロジーの反復によるあらゆる影響の背後にひそかに刻まれた「代償」なのです。 |
ご存知のとおり、機械学習フレームワークの分野では、PyTorch と TensorFlow がそれぞ...
2 人のトップ学部生。1 人は北京大学、もう 1 人は浙江大学出身です。インターンシップ中に、彼らは...
人工知能 (AI) は、世界中の業界関係者のビジネスのやり方を急速に変えています。 AI がビジネス...
新型コロナウイルスによる肺炎の発生以来、全国の人々が不安に思っています。世界をリードするスケーラブル...
[[336395]]海外メディアの報道によると、8月4日、サイバーセキュリティの専門家は、イーロン・...
TensorFlow は長い間、使いにくいと批判されてきました。 TensorFlow 2.0 のリ...
現在、外国の科学技術チームがAI技術を利用して、唯一の子供を亡くした母親の長年の願いを叶えた。彼らは...
[[434146]]ビジネス インテリジェンス テクノロジーが推進する市場において、人工知能は企業に...
インテリジェント化は将来の自動車発展の基本的な方向であり、自動運転技術は将来の自動車発展の重要な最先...
Sitechi は、通信業界に特化したソフトウェア開発およびサービス プロバイダーです。業界で最も早...
AIは2016年以来最もホットなキーワードであり、それについてはさまざまな意見があります。バブルがは...