データが人工知能の基盤となる理由

データが人工知能の基盤となる理由

データ注釈とは何ですか?

ほとんどのデータはラベル付けされておらず、非構造化データですが、人工知能のトレーニングにはコンピューターが理解できる構造化データが必要です。ラベル付きデータとは、トレーニングや予測ができるように、ターゲット モデルでラベル付けまたは注釈付けされたデータを意味します。通常、データのラベル付けには、データのタグ付け、注釈、レビュー、分類、転記、および処理が含まれます。データにはラベルが付けられ、特定の特徴が強調表示され、その特徴に基づいて分類されます。モデルはパターンを分析して新しいターゲットを予測します。

AI プロジェクトではデータにどのくらいの時間がかかりますか?

機械学習およびディープラーニング モデルのトレーニングには、モデルの展開、トレーニング、調整に使用できる豊富なデータが必要です。機械学習およびディープラーニング モデルのトレーニングには、慎重にラベル付けされた大量のデータが必要です。生データにラベルを付け、機械学習モデルやその他の AI ワークフローで使用できるように準備することをデータ アノテーションと呼びます。関連する統計によると、AI プロジェクトではデータの整理に 80% 以上の時間が費やされています。通常、人工知能プロジェクトでは、データの需要は3回程度に分かれています。1回目はプロジェクト開始時の検証段階です。需要は比較的少なく、実現可能性とルールを決定する必要があります。2回目はプロジェクトが正式に開始され、モデルのトレーニングに大量のデータが必要になるときです。3回目はトレーニングと検証が完了した後、目的の目標を達成するために、不十分な領域についてトレーニングセットを補充します。次の図は、人工知能機械学習プロジェクトにおける各タスクの時間の割合を示しています。

人工知能におけるデータ注釈のコストはいくらですか?

データ関連の機械学習コストは、データセットの収集、クリーニング、データのラベル付けなど、主にデータセットに反映されます。 Alegion の依頼で Dimensional Research が実施した新しい調査によると、全組織の 96% がトレーニング データの品質と量に関連する問題を経験しています。同じ調査では、ほとんどのプロジェクトでは、良好なパフォーマンスを得るために 100,000 を超えるデータ サンプルが必要であることが示されました。

Dimensional Research のこのグラフは、企業がデータに関して直面する最も一般的な問題のいくつかを示しています。

まだデータがない場合は、約 1 時間で 5 ~ 10 個のサンプルを収集して注釈を付けることができると想定できます。 Amazon の Mechanical Turk のようなサービスを使用してプロジェクトプロセス全体を検証すると、100,000 件の適格な例のデータセットを生成するのに約 70,000 ドルのコストがかかります。

すでに大量のデータを収集している場合は、専門的なデータ注釈サービス会社を利用して注釈を付けることができます。この場合、100,000 個のラベル付きデータ サンプルを取得するには、注釈の複雑さに応じて 8,000 ~ 80,000 ドルのコストがかかる可能性があります。

さらに、データ サンプルの確認と修正には、データ サンプルの生成と注釈付けと同じくらい時間がかかります。 Dimensional Research の調査によると、66% の企業がデータ セットに偏りやエラーを経験していることがわかりました。完全に社内で行うアプローチ(注釈付けをすべて自社で行う)を選択する企業もあれば、アウトソーシングと社内の組み合わせを選択する企業もあります。 2 番目によくあるシナリオは、作業の大部分を外部委託し、社内の個々の担当者に検証とクリーンアップの責任を負わせることです。 100,000 のデータ サンプルをアウトソーシングする場合の初期コストは、約 2,500 ~ 5,000 ドル追加される可能性があります。

データコストに加えて、アルゴリズムの人件費、コンピューティング機器のコスト、プロジェクト実装コストもあります。アドオンのコストとさまざまな電力消費量を除くと、機械学習プロジェクトには企業あたり 51,750 ~ 136,750 ドルのコストがかかる可能性があります (判断が難しいその他のコストは含みません)。価格差は主にデータによって決まります。これは非常に楽観的な見積もりです。企業が米国に拠点を置き、高品質のデータを使用している場合(フリーランサーはそうしません)、人材関連のコストが急騰し、AI 機械学習プロジェクトのコストは 108,500 ドルを超えます。

この高価格により、新たな問題を解決したりプロセスを自動化したりすることが困難になります。個人、小規模チーム、スタートアップには意思決定を行う余裕がありません。

データ処理で最も難しい部分は何ですか?

最も難しいステップは最初のステップ、つまりデータの取得です。データがなければ、研究段階で機械学習ソリューションを検証することはほぼ不可能であり、プロジェクトの進行はほぼ不可能になります。

工業、医療、セキュリティ、教育、金融などの業界は、将来の業界の変化に対する人工知能の重要性を認識し、それぞれが市場に参入して独自の人工知能アプリケーションを開発しています。しかし、これらの分野ではデータの機密性とデータセキュリティにますます注意が払われているため、これらの要因により人工知能研究の民営化が進む可能性があります。人工知能が徐々に民営化されつつあるのは事実です。こうした環境の中で、データラベリングサービス、トレーニングモデルプラットフォーム、コンピューティングパワー機器などはすべて、民間展開のための独自のソリューションを開発してきました。

<<:  深層学習におけるチューリング賞受賞後のベンジオ氏の研究の核心は何ですか?因果表現学習

>>:  100万個のニューロンをリアルタイムでスキャンできるようになりました。脳細胞活動の画像化における新たなブレークスルーです。

ブログ    
ブログ    

推薦する

産業用人工知能の未来について語る

AI はこれらの分野で大きな進歩を遂げており、世界がネットゼロの未来を目指す中でのエネルギー効率と持...

5 分で機械学習モデルのハイパーパラメータを最適化するマスターマニュアル

[[396168]]機械学習アルゴリズムには、特定のデータセットに合わせて調整できるハイパーパラメー...

ネットで熱い議論:感染拡大から半年でディープラーニングの求人数が激減

[[340795]]ビッグデータダイジェスト制作近年、ディープラーニング エンジニアは市場で最も人気...

「機械」が他より賢く、「技術」が他より劣っているという観察と思考

[[277716]] 9月21日、CCTV-1の「スーパースマート」番組では、杭州の霊隠寺に毎日訪れ...

...

完全なグラフが利用できない場合にグラフディープラーニングを使用するにはどうすればよいでしょうか?

多様体学習は、2000 年に有名な科学雑誌 Science で初めて提案されて以来、情報科学の分野に...

...

...

IoT、AI、デジタルツインを建物に統合する方法

モノのインターネット、人工知能、デジタルツインをどのように統合するのか?デジタル ツインは、物理世界...

パフォーマンスは 5000 個の H100 でトレーニングされた GPT-4 に近いです。 DeepMindが新世代の大規模モデルを共同開発

最近、InflectionAI は新しい AI モデルをリリースしました。さらに衝撃的なのは、Inf...

...

次世代モバイルコンピューティングの予測

テクノロジーは前例のない速度で進歩しており、モバイル コンピューティングの将来は変革的な進歩を約束し...

フォレスター:生成型AIと会話型AIが2023年のトップ10新興テクノロジーを独占

分析会社フォレスターは7月24日、2023年のトップ10新興テクノロジーレポートを発表しました。生成...

...