機械学習トレーニングデータ戦略を開発するための 6 つのヒント

機械学習トレーニングデータ戦略を開発するための 6 つのヒント

人工知能 (AI) と機械学習 (ML) は今や当たり前のものとなっています。 AI は人間の認知を模倣する機械の概念を指し、ML は AI を構築するために使用される方法です。 AI が指示に基づいて一連のタスクを実行するコンピュータの能力を指すのに対し、ML はタスクをより正確に完了するためにデータを取り込んで解釈し、データから学習する機械の能力を指します。

自動車、金融、政府、医療、小売、テクノロジーなどの業界のほとんどのマネージャーは、すでに ML と AI に関する基本的な理解を持っています。しかし、トレーニング データ戦略の開発は、ML で高い投資収益率を達成するために必要な最初のステップであることが多いため、誰もがその専門家であるわけではありません。

AI システムは例によって学習し、高品質の例データが多いほど、学習効果も高まります。トレーニング データが不足しているか、品質が低いと、信頼性の低いシステムが生まれ、誤った結論が導かれ、適切な決定が下されず、現実世界の変動に対処できず、バイアスなどの問題が生じたり、問題が継続したりする可能性があります。

AI システムのトレーニング、テスト、最適化に必要なデータを収集および整理するための明確な戦略がなければ、プロジェクトが遅れたり、適切なスケーリングができなかったり、競合他社に追い抜かれたりするリスクがあります。成功するトレーニング データ戦略を構築するための 6 つのヒントを紹介します。

[[275795]]

Pixabay による写真(Pexels)

1. トレーニングデータ予算を作成する

新しい ML プロジェクトを開始するときに最初に定義するのは、達成する目標です。これにより、システムに必要なデータの種類と、必要な「トレーニング項目」(分類されたデータ ポイント)の数がわかります。

たとえば、コンピューター ビジョンまたは画像認識プロジェクトのトレーニング プロジェクトでは、人間の注釈でラベル付けされた画像データを使用して、画像の内容 (木、一時停止の標識、人物、車など) を識別します。さらに、構築しているソリューションの種類によっては、モデルを継続的に再トレーニングまたは更新する必要がある場合があります。ソリューションは四半期ごと、毎月、あるいは毎週更新する必要がある場合があります。

トレーニングの目標と更新頻度を決定したら、データの取得オプションを評価し、予算を計算できます。

ソリューションが顧客にとって関連性と価値あるものであり続けるためには、プログラムを開始し、長期にわたって維持し、ビジネスの成長に合わせて機能や機能性を改善するために必要な時間と費用を明確に理解することが重要です。 ML イニシアチブの立ち上げは長期的な投資です。高い収益を達成するには長期的な戦略が必要です。

2. 適切なデータを収集する

必要なデータの種類は、構築するソリューションの種類によって異なります。データ ソースには、実際の使用状況データ、調査データ、公開データセット、合成データなどが含まれます。たとえば、人間の音声コマンドを理解できる音声認識ソリューションは、テキストに変換された高品質の音声データ (実際のデータ) でトレーニングする必要があります。検索ソリューションでは、どの結果が最も関連しているかを判断するために、人間が注釈を付けたテキスト データが必要です。

ML で最も一般的に使用されるデータ タイプは、画像、ビデオ、音声、オーディオ、テキストです。トレーニング データは、ML で使用する前に、その内容を識別するために注釈を付けたりラベルを付けたりする必要があります。注釈は、各データの処理方法をモデルに指示します。たとえば、仮想アシスタントのトレーニング データの一部が「単三電池を追加注文してください」という発言の録音である場合、注釈は、システムが「注文」と聞いたらオンライン小売業者に注文し、「単三電池」と聞いたら「単三電池」を検索するように指示する可能性があります。

3. データの品質を確保する

タスクによっては、データ注釈付けは比較的単純な作業になることもありますが、反復的で時間がかかり、常に正しく実行することが難しい作業でもあります。人間の介入が必要です。

不正確なデータでモデルをトレーニングすると、モデルが間違った動作をするため、データ品質が低いことに関連するリスクは高くなります。たとえば、自動運転車用のコンピューター ビジョン システムをトレーニングし、歩道の画像を誤って道路と認識した場合、結果は悲惨なものになる可能性があります。実際、データ品質の低さは、ML の広範囲かつ効果的な使用を妨げる最大の敵です。

データの品質について議論する場合、ラベルの正確性と一貫性について話していることになります。精度はラベルが真実にどれだけ近いかであり、一貫性は異なるトレーニング項目の複数の注釈が互いにどれだけ一致しているかです。

4. データの偏りに注意し、それを減らす

データ品質を重視することで、企業は AI ベースのソリューションが市場に出るまでは隠れたままになる可能性のある AI プロジェクトにおけるバイアスを軽減できます。この時点では、偏見を修正することは困難です。

バイアスは、多くの場合、プロジェクト チーム内の盲点や無意識の好み、またはプロジェクト開始時のトレーニング データから生じます。 AI の偏りは、性別、アクセント、民族による音声認識や顔認識のパフォーマンスの不均一性として現れることがあります。 AI が私たちの文化に浸透するにつれて、今こそ固有の偏見に対処するときです。

プロジェクト レベルでの偏りを避けるには、目標、ロードマップ、指標、アルゴリズムを定義するチームを構築するときに、積極的に多様性を追求します。多様なデータ人材のチームを構築することは、言うほど簡単ではありませんが、リスクは大きいです。チームの内部構成が潜在顧客の外部構成を反映していない場合、最終製品が少数の人々にしか受け入れられず、大衆市場の機会を逃すリスクがあります。さらに悪いことに、偏見によって AI が現実世界で差別化してしまう可能性もあります。

5. 必要に応じてデータセキュリティを実装する

すべてのデータ プロジェクトが個人を特定できる情報 (PII) や機密データを使用するわけではありません。この種の情報を活用するソリューションでは、特に顧客の個人情報、財務または政府の記録、またはユーザーが作成したコンテンツを扱う場合、データ セキュリティがこれまで以上に重要になります。企業が顧客情報をどのように取り扱うべきかを規定する政府の規制が増えています。

この機密データを保護することで、あなたと顧客の情報が保護されます。業務の透明性と倫理性を保ち、利用規約を遵守することで、競争上の優位性が得られます。そうしないと、スキャンダルやブランドへの悪影響のリスクにさらされることになります。

6. 適切なテクノロジーを選択する

トレーニング データが複雑または微妙であればあるほど、結果は良くなります。ほとんどの組織では、大量の高品質なトレーニング データを迅速かつ大規模に必要としています。これを実現するには、モデルの更新に必要な速度で十分なデータを提供するデータ パイプラインを構築する必要があります。そのため、適切なデータ注釈技術を採用することが重要です。

選択するツールは、プロジェクトに適切なデータ タイプを処理し、柔軟なラベル付けワークフロー設計を可能にし、個々のアノテーターの品質とスループットを管理し、人間のアノテーターのパフォーマンスを強化するために ML 支援のデータ ラベル付けを提供できる必要があります。

AIプロジェクトの成功を確実にする戦略を策定する

IHS Markit による最近の調査によると、87% の組織が人工知能などの変革的テクノロジーを少なくとも 1 つ導入していますが、これらのテクノロジーから最大限の価値を引き出すための適切なビジネス モデルを導入していると考えているのは 26% にすぎません。

堅実なトレーニング データ戦略を作成することは、AI から価値を引き出すための第一歩です。これには、予算の設定、データ ソースの特定、品質の確保、セキュリティの確保が含まれます。明確なデータ戦略は、ほとんどの ML モデルを定期的に更新するために必要な安定したデータ パイプラインの提供にも役立ちます。トレーニング データ戦略だけでは AI の成功を保証することはできませんが、企業が AI のメリットをより有効に活用するのに役立ちます。

<<:  建設業界はAIとIoTの次の大きなターゲット

>>:  IoT 革命の基盤を築く: 手遅れになる前に企業がデータ戦略を完成させる方法

ブログ    
ブログ    

推薦する

あなたは本当に3Dプリントを理解していますか?

3D プリントビジネスは近年継続的に発展しており、一般の人々の間でますます人気が高まっています。最...

疫病との戦いに人工知能とビッグデータが爆発的に役立つでしょうか?

[[315014]]新型コロナウイルス感染症の発生と蔓延は、全国の人々の心を動かしました。社会のあ...

...

AI搭載マシンが製造業の産業自動化を加速させる方法

今日、人工知能と機械学習は製造業界における変化の重要な原動力となっています。人工知能と機械学習により...

...

識別的か生成的か: どちらが視覚的理解の未来を表すのでしょうか?

これまで、視覚システムに関する基本的な研究の多くは、動物に画像を見せ、そのニューロンの反応を測定し、...

Pythonの神のようなアルゴリズム

今日は、非常に有名な Python の簡潔で効率的かつ便利なコードを見てみましょう。そのスタイルを見...

この記事を読んで人工知能を始めましょう!

今、テクノロジーの世界で最もホットなものは何ですか?答えはおそらく人工知能、機械学習、ディープラーニ...

...

...

AIはCOVID-19検査の欠陥を明らかにし、647のAIツールが臨床使用に適していないことが研究で判明

COVID-19パンデミックの発生以来、世界中の研究チームがコロナウイルスの検出や感染の予測に役立つ...

ディープラーニング戦争: Facebook が支援する PyTorch 対 Google の TensorFlow

[[225687]]近年、人工知能と機械学習のツールと技術が急速に進歩していることは驚くべきことで...

現在最も興味深い AI は、実は系図会社から生まれたものなのでしょうか?

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

全国大学ブロックチェーン競技会の一連の活動の一つである中国大学ブロックチェーン技術サミットが北京で開催された。

2018年5月6日、清華大学で清華大学-アルシャンブロックチェーン共同研究センターと清華大学学生ブ...