機械学習トレーニングデータ戦略を開発するための 6 つのヒント

機械学習トレーニングデータ戦略を開発するための 6 つのヒント

人工知能 (AI) と機械学習 (ML) は今や当たり前のものとなっています。 AI は人間の認知を模倣する機械の概念を指し、ML は AI を構築するために使用される方法です。 AI が指示に基づいて一連のタスクを実行するコンピュータの能力を指すのに対し、ML はタスクをより正確に完了するためにデータを取り込んで解釈し、データから学習する機械の能力を指します。

自動車、金融、政府、医療、小売、テクノロジーなどの業界のほとんどのマネージャーは、すでに ML と AI に関する基本的な理解を持っています。しかし、トレーニング データ戦略の開発は、ML で高い投資収益率を達成するために必要な最初のステップであることが多いため、誰もがその専門家であるわけではありません。

AI システムは例によって学習し、高品質の例データが多いほど、学習効果も高まります。トレーニング データが不足しているか、品質が低いと、信頼性の低いシステムが生まれ、誤った結論が導かれ、適切な決定が下されず、現実世界の変動に対処できず、バイアスなどの問題が生じたり、問題が継続したりする可能性があります。

AI システムのトレーニング、テスト、最適化に必要なデータを収集および整理するための明確な戦略がなければ、プロジェクトが遅れたり、適切なスケーリングができなかったり、競合他社に追い抜かれたりするリスクがあります。成功するトレーニング データ戦略を構築するための 6 つのヒントを紹介します。

[[275795]]

Pixabay による写真(Pexels)

1. トレーニングデータ予算を作成する

新しい ML プロジェクトを開始するときに最初に定義するのは、達成する目標です。これにより、システムに必要なデータの種類と、必要な「トレーニング項目」(分類されたデータ ポイント)の数がわかります。

たとえば、コンピューター ビジョンまたは画像認識プロジェクトのトレーニング プロジェクトでは、人間の注釈でラベル付けされた画像データを使用して、画像の内容 (木、一時停止の標識、人物、車など) を識別します。さらに、構築しているソリューションの種類によっては、モデルを継続的に再トレーニングまたは更新する必要がある場合があります。ソリューションは四半期ごと、毎月、あるいは毎週更新する必要がある場合があります。

トレーニングの目標と更新頻度を決定したら、データの取得オプションを評価し、予算を計算できます。

ソリューションが顧客にとって関連性と価値あるものであり続けるためには、プログラムを開始し、長期にわたって維持し、ビジネスの成長に合わせて機能や機能性を改善するために必要な時間と費用を明確に理解することが重要です。 ML イニシアチブの立ち上げは長期的な投資です。高い収益を達成するには長期的な戦略が必要です。

2. 適切なデータを収集する

必要なデータの種類は、構築するソリューションの種類によって異なります。データ ソースには、実際の使用状況データ、調査データ、公開データセット、合成データなどが含まれます。たとえば、人間の音声コマンドを理解できる音声認識ソリューションは、テキストに変換された高品質の音声データ (実際のデータ) でトレーニングする必要があります。検索ソリューションでは、どの結果が最も関連しているかを判断するために、人間が注釈を付けたテキスト データが必要です。

ML で最も一般的に使用されるデータ タイプは、画像、ビデオ、音声、オーディオ、テキストです。トレーニング データは、ML で使用する前に、その内容を識別するために注釈を付けたりラベルを付けたりする必要があります。注釈は、各データの処理方法をモデルに指示します。たとえば、仮想アシスタントのトレーニング データの一部が「単三電池を追加注文してください」という発言の録音である場合、注釈は、システムが「注文」と聞いたらオンライン小売業者に注文し、「単三電池」と聞いたら「単三電池」を検索するように指示する可能性があります。

3. データの品質を確保する

タスクによっては、データ注釈付けは比較的単純な作業になることもありますが、反復的で時間がかかり、常に正しく実行することが難しい作業でもあります。人間の介入が必要です。

不正確なデータでモデルをトレーニングすると、モデルが間違った動作をするため、データ品質が低いことに関連するリスクは高くなります。たとえば、自動運転車用のコンピューター ビジョン システムをトレーニングし、歩道の画像を誤って道路と認識した場合、結果は悲惨なものになる可能性があります。実際、データ品質の低さは、ML の広範囲かつ効果的な使用を妨げる最大の敵です。

データの品質について議論する場合、ラベルの正確性と一貫性について話していることになります。精度はラベルが真実にどれだけ近いかであり、一貫性は異なるトレーニング項目の複数の注釈が互いにどれだけ一致しているかです。

4. データの偏りに注意し、それを減らす

データ品質を重視することで、企業は AI ベースのソリューションが市場に出るまでは隠れたままになる可能性のある AI プロジェクトにおけるバイアスを軽減できます。この時点では、偏見を修正することは困難です。

バイアスは、多くの場合、プロジェクト チーム内の盲点や無意識の好み、またはプロジェクト開始時のトレーニング データから生じます。 AI の偏りは、性別、アクセント、民族による音声認識や顔認識のパフォーマンスの不均一性として現れることがあります。 AI が私たちの文化に浸透するにつれて、今こそ固有の偏見に対処するときです。

プロジェクト レベルでの偏りを避けるには、目標、ロードマップ、指標、アルゴリズムを定義するチームを構築するときに、積極的に多様性を追求します。多様なデータ人材のチームを構築することは、言うほど簡単ではありませんが、リスクは大きいです。チームの内部構成が潜在顧客の外部構成を反映していない場合、最終製品が少数の人々にしか受け入れられず、大衆市場の機会を逃すリスクがあります。さらに悪いことに、偏見によって AI が現実世界で差別化してしまう可能性もあります。

5. 必要に応じてデータセキュリティを実装する

すべてのデータ プロジェクトが個人を特定できる情報 (PII) や機密データを使用するわけではありません。この種の情報を活用するソリューションでは、特に顧客の個人情報、財務または政府の記録、またはユーザーが作成したコンテンツを扱う場合、データ セキュリティがこれまで以上に重要になります。企業が顧客情報をどのように取り扱うべきかを規定する政府の規制が増えています。

この機密データを保護することで、あなたと顧客の情報が保護されます。業務の透明性と倫理性を保ち、利用規約を遵守することで、競争上の優位性が得られます。そうしないと、スキャンダルやブランドへの悪影響のリスクにさらされることになります。

6. 適切なテクノロジーを選択する

トレーニング データが複雑または微妙であればあるほど、結果は良くなります。ほとんどの組織では、大量の高品質なトレーニング データを迅速かつ大規模に必要としています。これを実現するには、モデルの更新に必要な速度で十分なデータを提供するデータ パイプラインを構築する必要があります。そのため、適切なデータ注釈技術を採用することが重要です。

選択するツールは、プロジェクトに適切なデータ タイプを処理し、柔軟なラベル付けワークフロー設計を可能にし、個々のアノテーターの品質とスループットを管理し、人間のアノテーターのパフォーマンスを強化するために ML 支援のデータ ラベル付けを提供できる必要があります。

AIプロジェクトの成功を確実にする戦略を策定する

IHS Markit による最近の調査によると、87% の組織が人工知能などの変革的テクノロジーを少なくとも 1 つ導入していますが、これらのテクノロジーから最大限の価値を引き出すための適切なビジネス モデルを導入していると考えているのは 26% にすぎません。

堅実なトレーニング データ戦略を作成することは、AI から価値を引き出すための第一歩です。これには、予算の設定、データ ソースの特定、品質の確保、セキュリティの確保が含まれます。明確なデータ戦略は、ほとんどの ML モデルを定期的に更新するために必要な安定したデータ パイプラインの提供にも役立ちます。トレーニング データ戦略だけでは AI の成功を保証することはできませんが、企業が AI のメリットをより有効に活用するのに役立ちます。

<<:  建設業界はAIとIoTの次の大きなターゲット

>>:  IoT 革命の基盤を築く: 手遅れになる前に企業がデータ戦略を完成させる方法

ブログ    
ブログ    

推薦する

...

人工知能に関する詳細な調査:AIツールを使ったことがある人は思っているほど考えていない

6月27日、有名なテクノロジーメディアVergeは調査会社と協力し、人工知能の使用状況、期待、懸念を...

Llama 2 第 2 波のハイライト: 慎重すぎるため、コード生成には改善の余地が大いにある

有用か無害かLlama-2-chat は、セキュリティ フィルターに関して過度に敏感な動作を示すこと...

2021年の機械学習ライフサイクル

機械学習プロジェクトを実際に完了するにはどうすればよいでしょうか? 各ステップを支援するツールにはど...

...

AIと天気予報が出会うとどんな火花が散るのでしょうか?

SF作家の劉慈欣はかつて、自身の小説の中でこのような天気予報を描写した。小説の主人公は気象大学を卒...

...

450、バックトラッキング アルゴリズムとは何ですか? 一度見れば理解できますが、実際に書いてみると失敗します。

バックトラッキングアルゴリズムとは何ですか? Baidu 百科事典では、バックトラッキング アルゴリ...

ドローンは農業にも活用されており、植物保護ドローンは侵入の防止と制御に非常に効果的です。

今日のドローンは、ビデオ録画だけでなく、害虫や病気の問題を防ぐための農業での使用など、幅広い用途に使...

クォンタムAIパーク、リアルタイム翻訳、Googleが革新的なAI製品を展示

[[434605]] Googleは11日、「発明家」をテーマにしたイベントを開催し、AI技術をベー...

ASP.NET データ暗号化を実現する対称暗号化アルゴリズム

対称暗号化アルゴリズムはどのようにして ASP.NET データ暗号化を実装するのでしょうか?それでは...

ChatGPTはついにウェブを検索できるようになり、コンテンツは2021年9月以前のものに限定されなくなりました

米国時間9月28日水曜日、人工知能研究企業OpenAIは、同社のチャットボットChatGPTがMic...

曹永寿:ビッグデータとAI技術がアーティストの商業的価値を測る基準を構築

[元記事は51CTO.comより]最近、エンターテインメントビッグデータアプリケーションサービスプロ...

私が人工知能に興味がない理由

私がビジネスを始めたいと思っていると聞いて、いくつかの「馬鹿げた」アイデアをくれた人もいました。彼ら...