アルゴリズムのパフォーマンスを最適化するためにデータ品質を確保するための 6 つのヒント

アルゴリズムのパフォーマンスを最適化するためにデータ品質を確保するための 6 つのヒント

今日、企業は、分析アルゴリズムの良し悪しは、そのアルゴリズムをトレーニングするデータの良し悪しによって決まるということに気づき始めています。より深い洞察を得るためにデータ品質を向上させる方法をいくつか紹介します。

キャシー・オニールの著書『Weapons of Math Destruction』では、ビッグデータ アルゴリズムは高品質で実行されなければ誤った結果を生成する可能性があると説明されています。

オニール氏は、最も成績の悪い教師200人を特定するためにアルゴリズムを実行したある学区の例を挙げている。選ばれた教師の一人は実は成績優秀者だったが、彼女のクラスの生徒の多くは成績の低い学校の出身だった。その結果、その教師が教えた生徒たちのテストの成績は悪かったため、その教師に低い評価を与えた。

オニール氏は、管理者、生徒、同僚教師からの好意的なレビューなど、他の形式の入力もアルゴリズムに関連するデータ処理に組み込むべきであり、そうすれば今回のような事件を防ぐことができるかもしれないと考えている。これは、ビッグデータ実践者全員にとって、分析アルゴリズムの良し悪しは、それが実行されるデータの良し悪しによって決まるということを思い出させるものです。

[[231290]]

企業は、データの品質によってアルゴリズムのパフォーマンスが最適化され、最終的にデータから洞察が得られることをどのように保証できるでしょうか?

重要なのは、データの準備と、企業がアルゴリズムを適用したいビジネスユースケースとの一致です。

質の高いデータとアルゴリズムを開発するための 6 つのベスト プラクティスを以下に示します。

1. 「本当の」アルゴリズム

企業は、アルゴリズムを自社のビジネスに適合させるビジネスケースを慎重に構築する必要があります。あなたが医療提供者であり、サービス提供エリア内で心臓疾患のリスクが高い人々を特定したい場合、「65 歳以上の人は誰ですか?」と尋ねるのではなく、「65 歳以上の人はすでに心臓手術を受けましたか?」と尋ねるアルゴリズムを構築することをお勧めします。

2. データを標準化する

重複したデータを取得して分析結果に影響を与える可能性を回避するには、重複したレコードを単一のデータ イベントに正規化する必要があります。

3. 破損したデータを修復する

場合によっては、アルゴリズムでチェックする前に、破損したデータを手動で修正するために人間が関与する必要があります。壊れたデータにはスペルミス(例:メイン州在住者なのに ME ではなく MN)が含まれている可能性があり、また誰かの姓のスペルミスにより、データセットに含めるべきではない余分なレコードが作成される可能性もあります。データの精度が高ければ高いほど、分析結果も正確になります。

4. 無関係なデータを排除する

企業がデータの範囲を、調査している特定のユースケースの境界に絞り込めば絞り込むほど、アルゴリズムによるデータ処理速度が上がり、企業が求めている洞察をアルゴリズムが提供できる可能性が高まります。

5. ユーザーの合意を得る

ユーザーが知らない情報を知っている可能性があるため、事前にユーザーに確認せずに、除外するデータについて一方的に決定しないでください。

6. 結果を確認する

ビッグデータのアルゴリズムとクエリの傾向としては、必要に応じて変更して再実行しますが、必ずしも結果を記録するわけではありません。代わりに、常に結果のベンチマークを設定し、それを測定します。たとえば、最初のデータ アルゴリズムで製品の潜在的購入者からの応答率が 3% しか得られず (そのうち 1% が最終的に製品を購入した場合)、変更したクエリがこれを上回るパフォーマンスを発揮するかどうかを知る必要があります。

<<:  AIの冬が来ます!ディープラーニングはスケールしません...

>>:  AIが皮膚がんの診断で17カ国の皮膚科医58人に勝利

ブログ    
ブログ    
ブログ    

推薦する

ニューラルネットワークはどのように学習するのでしょうか?

坂を下るのと同じように、損失関数の最低点を見つけます。 [[336501]]ニューラル ネットワーク...

...

18年経った今、マイクロソフトの自然言語処理技術はどうなっているのでしょうか?

[51CTO.com からのオリジナル記事] 自然言語処理は、人工知能の開発において常に克服しなけ...

10年前、古典的なword2vec論文が今日のNeurIPSタイムテスト賞を受賞しました

NeurIPS は世界で最も権威のある AI 学術会議の 1 つです。正式名称は Neural In...

AIGC: 将来は誰が支払うのでしょうか?

情報獲得に対する私たちの執着は、初期の人類が生き残り、繁殖するための適応特性を発達させたことにまで遡...

産業用ロボットの開発状況と技術動向を明らかにする

近年、人件費の継続的な上昇に伴い、産業分野では「機械が人に取って代わる」という現象が一般的になり、産...

人工知能が学習と発達に及ぼす7つの影響

急速に進化する今日のテクノロジー環境において、人工知能 (AI) はあらゆる業界に革命を起こす可能性...

...

700億Llama2が即完売!申請不要で商用利用も無料という国産最新大型モデルが発表された。その背後にあるのはプライベートエクイティ大手企業

国内の大型モデルに新たなプレーヤーが登場しました。 670億のパラメータを持つDeepSeek。中国...

...

人工知能の7つの応用シナリオ

人工知能とは、人間の行動や思考をシミュレートし、トレーニングを通じて特定の問題を解決できる機械によっ...

Apple、Googleなど大企業のAI面接の質問を入手しました。あなたは挑戦してみますか?

何?大手テクノロジー企業の面接の質問が漏洩した?そんなわけないですよね~。海外の有名なブログプラット...

ブリッジで人間の世界チャンピオン8人が全員AIに負ける

最近、人工知能(AI)が再び人間に勝利しました。今回、人工知能はチェッカーやチェス、囲碁をプレイせず...

...

ニューラルネットワークにおけるさまざまな損失関数の紹介

目的に応じて異なる損失関数を使用できます。この記事では、いくつかの例を挙げながら、非常によく使用され...