データ注釈とは何ですか? ほとんどのデータはラベル付けされておらず、非構造化データですが、人工知能のトレーニングにはコンピューターが理解できる構造化データが必要です。ラベル付きデータとは、トレーニングや予測ができるように、ターゲット モデルでラベル付けまたは注釈付けされたデータを意味します。通常、データのラベル付けには、データのタグ付け、注釈、レビュー、分類、転記、および処理が含まれます。データにはラベルが付けられ、特定の特徴が強調表示され、その特徴に基づいて分類されます。モデルはパターンを分析して新しいターゲットを予測します。 AI プロジェクトではデータにどのくらいの時間がかかりますか? 機械学習およびディープラーニング モデルのトレーニングには、モデルの展開、トレーニング、調整に使用できる豊富なデータが必要です。機械学習およびディープラーニング モデルのトレーニングには、慎重にラベル付けされた大量のデータが必要です。生データにラベルを付け、機械学習モデルやその他の AI ワークフローで使用できるように準備することをデータ アノテーションと呼びます。関連する統計によると、AI プロジェクトではデータの整理に 80% 以上の時間が費やされています。通常、人工知能プロジェクトでは、データの需要は3回程度に分かれています。1回目はプロジェクト開始時の検証段階です。需要は比較的少なく、実現可能性とルールを決定する必要があります。2回目はプロジェクトが正式に開始され、モデルのトレーニングに大量のデータが必要になるときです。3回目はトレーニングと検証が完了した後、目的の目標を達成するために、不十分な領域についてトレーニングセットを補充します。次の図は、人工知能機械学習プロジェクトにおける各タスクの時間の割合を示しています。 人工知能におけるデータ注釈のコストはいくらですか? データ関連の機械学習コストは、データセットの収集、クリーニング、データのラベル付けなど、主にデータセットに反映されます。 Alegion の依頼で Dimensional Research が実施した新しい調査によると、全組織の 96% がトレーニング データの品質と量に関連する問題を経験しています。同じ調査では、ほとんどのプロジェクトでは、良好なパフォーマンスを得るために 100,000 を超えるデータ サンプルが必要であることが示されました。 Dimensional Research のこのグラフは、企業がデータに関して直面する最も一般的な問題のいくつかを示しています。 まだデータがない場合は、約 1 時間で 5 ~ 10 個のサンプルを収集して注釈を付けることができると想定できます。 Amazon の Mechanical Turk のようなサービスを使用してプロジェクトプロセス全体を検証すると、100,000 件の適格な例のデータセットを生成するのに約 70,000 ドルのコストがかかります。 すでに大量のデータを収集している場合は、専門的なデータ注釈サービス会社を利用して注釈を付けることができます。この場合、100,000 個のラベル付きデータ サンプルを取得するには、注釈の複雑さに応じて 8,000 ~ 80,000 ドルのコストがかかる可能性があります。 さらに、データ サンプルの確認と修正には、データ サンプルの生成と注釈付けと同じくらい時間がかかります。 Dimensional Research の調査によると、66% の企業がデータ セットに偏りやエラーを経験していることがわかりました。完全に社内で行うアプローチ(注釈付けをすべて自社で行う)を選択する企業もあれば、アウトソーシングと社内の組み合わせを選択する企業もあります。 2 番目によくあるシナリオは、作業の大部分を外部委託し、社内の個々の担当者に検証とクリーンアップの責任を負わせることです。 100,000 のデータ サンプルをアウトソーシングする場合の初期コストは、約 2,500 ~ 5,000 ドル追加される可能性があります。 データコストに加えて、アルゴリズムの人件費、コンピューティング機器のコスト、プロジェクト実装コストもあります。アドオンのコストとさまざまな電力消費量を除くと、機械学習プロジェクトには企業あたり 51,750 ~ 136,750 ドルのコストがかかる可能性があります (判断が難しいその他のコストは含みません)。価格差は主にデータによって決まります。これは非常に楽観的な見積もりです。企業が米国に拠点を置き、高品質のデータを使用している場合(フリーランサーはそうしません)、人材関連のコストが急騰し、AI 機械学習プロジェクトのコストは 108,500 ドルを超えます。 この高価格により、新たな問題を解決したりプロセスを自動化したりすることが困難になります。個人、小規模チーム、スタートアップには意思決定を行う余裕がありません。 データ処理で最も難しい部分は何ですか? 最も難しいステップは最初のステップ、つまりデータの取得です。データがなければ、研究段階で機械学習ソリューションを検証することはほぼ不可能であり、プロジェクトの進行はほぼ不可能になります。 工業、医療、セキュリティ、教育、金融などの業界は、将来の業界の変化に対する人工知能の重要性を認識し、それぞれが市場に参入して独自の人工知能アプリケーションを開発しています。しかし、これらの分野ではデータの機密性とデータセキュリティにますます注意が払われているため、これらの要因により人工知能研究の民営化が進む可能性があります。人工知能が徐々に民営化されつつあるのは事実です。こうした環境の中で、データラベリングサービス、トレーニングモデルプラットフォーム、コンピューティングパワー機器などはすべて、民間展開のための独自のソリューションを開発してきました。 |
<<: 深層学習におけるチューリング賞受賞後のベンジオ氏の研究の核心は何ですか?因果表現学習
>>: 100万個のニューロンをリアルタイムでスキャンできるようになりました。脳細胞活動の画像化における新たなブレークスルーです。
米国道路交通安全局(NHTSA)は、SAEレベル2の先進運転支援システム(ADAS)またはSAEレベ...
人工知能と機械学習はユーザーからますます注目を集めており、AIの応用は徐々に世間の注目を集め始めてい...
オレンジ色の猫を想像してください。次に、その猫の毛が黒だけであることを想像してください。そして、万里...
技術が急速に進歩する時代において、私たちと建築との関係は大きな変化を遂げています。もはやレンガやモル...
ウェアラブル人工知能がモノのインターネット (IoT) の発展に与える影響を探ります。デジタル時代の...
近年、科学技術の発展に伴い、顔認識技術は人々の日常生活で頻繁に使用されるようになりました。たとえば、...
悪意のある「バックドア」が埋め込まれたモデルが、何百万、何十億ものパラメータを持つモデルの中に、何者...
この学習ロードマップは、人工知能分野のほぼすべてのコンテンツを網羅しています。マウスをクリックするだ...
テスラは、元エンジニアのアレクサンダー・ヤツコフ氏を提訴した。同氏は、同社内部のスーパーコンピュータ...
ガベージ コレクション アルゴリズムは、さまざまな観点から分類できます。基本的なリサイクル戦略によれ...
[[210849]]データサイエンスが人工知能の発展において輝くにつれ、データマイニングと機械学習が...
AIは自慢するだけでなく、実践を通じて達成されます。コンセプトがどんなに優れていても、結果が重要です...