この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)から転載したものです。 「AI」や「機械学習」が新しいホットワードとして登場したため、ビジネスリーダー、起業家、エンジェル投資家、中間管理職、ハッカソン審査員、または「テクノロジー」関連の人であっても、誰かが「AI製品」、「機械学習ソフトウェア」、またはその他の流行語の派手な組み合わせを「販売」しようとするという状況に直面する可能性があります。 このような状況に陥った場合、正しい判断を下すための専門知識が足りないと感じることがあるかもしれません。 自分の立場を守り、恐れないでください。次の 7 つの常識的なヒントは、シグナルをキャッチし、レトリックを見抜き、詐欺や嘘を見抜くのに役立ちます。
1. 「私たちは AI を使って…」 アインシュタインは「何かを簡単に説明できないなら、十分に理解していないということだ」と言いました。 誰かが「AI」という包括的な概念について話す場合は注意してください。それは派手な売り込みである可能性があります。もちろん、顧客を怒らせないように、苦痛で複雑な詳細を省略した可能性もあります。 疑わしい点はそのまま受け入れて、さらに深く掘り下げて、どの機械学習モデルが使用されたのかを詳しく知り、類推しながら説明してもらいます。 次のような質問をすることができます。
最初からすべての答えを知る必要はありませんが、できるだけ明確にするために質問する必要があります。類推で説明できない機械学習の概念にはまだ出会ったことがありません。したがって、あまりにも多くの技術的な詳細について話すのが難しすぎると思われる場合は、さらに説明を求めてください。このような注意深いレビューは、理解を深めるだけでなく、プログラムの背後にある考え方を示すことにもなります。 2. ゴミを入れればゴミが出る 画像出典: https://media.tenor.com 「神以外では、私は(良い)データだけを信頼します。」 — エドワーズ・デミング 高品質のデータがあればこそ、優れたモデルが得られます。したがって、機械学習モデルのトレーニングに使用するデータの品質を検証する必要があります。 「品質」を定義するのは難しいですが、トレーニング データの品質を把握する簡単な方法は、次の質問をすることです。トレーニング データは、モデルが「現実世界」で処理するデータとどの程度類似し、代表的であるか。 機械学習モデルがいかに優れていて最先端のものであっても、トレーニングに使用されるデータの質が低ければ、結果は非常に悪いものになります。 3. 適者生存 1990 年代から 2000 年代初頭にかけて、電子メールの受信トレイのスパム フィルターは、スペルの誤りやその他の兆候を探し、迷惑メールを自動的にスパム フォルダーに振り分けていました。 最近、スパマーはより賢くなり、スパムを検出することがより困難になっています。今日の電子メール サービス プロバイダーは、この傾向に適応し、スパムを正確に識別するために、より高度な機械学習モデルを採用する必要があります。
画像ソース: unsplash 私たちが理解しなければならないことの 1 つは、時代が変わり、入力データが反復されるときに、機械学習モデルを新しいデータで再トレーニングしたり、障害なくより優れたモデルに置き換えたりできるかどうかです。顧客が購入したプランに「有効期限」があるかどうかを知ることは重要です。 4. 正しい基準で正しいものを測定する 画像ソース: unsplash 精度は、機械学習モデルの分類パフォーマンスを測定するための非常に一般的な指標です。たとえば、猫と犬の写真を分類する機械学習モデルの場合、96% の精度は優れています。これは、猫と犬の写真 100 枚のうち、モデルが 96 枚を正しく推測できたことを意味します。 ここで、銀行が不正取引の特定に同じ基準を適用するとします。不正取引は非常にまれであるため、不正検出機能は簡単に 96% の精度を達成できます。しかし、不正取引を特定するには、96%を正しく特定するだけでは不十分です。むしろ、誤り率を減らす必要があります。不正取引の4%を誤認すると、大きな損害が発生します。 銀行詐欺の例では、偽陰性率の方が精度率よりもモデルのパフォーマンスを示す指標として優れています。さまざまな問題の要件に応じて、精度の代わりに、精度、再現率、特異度、F1 値などの他の基準を使用できます。適切な指標を使用しているか注意し、可能であれば複数の指標を使用する必要があります。 5. もっと、もっと、もっと! 一般的に言えば、他の条件が同じであれば、トレーニングに利用できるデータが多いほど、特にディープラーニング モデルの場合、モデルのパフォーマンスは向上します。それは、SAT の準備をしている高校生のようなものです。たくさん練習し、さまざまな問題を練習すれば、SAT で良い成績を収められる可能性が高くなります。
画像ソース: unsplash (十分な)データを得る前に理論を立てるのは大きな間違いです。あらゆる機械学習モデルにトレーニングに十分なデータがあることを確認することが重要です。どのくらいのデータがあれば十分でしょうか? 多ければ多いほど良いです! 理想的には、データは信頼できるソースから取得し、最大限に活用する必要があります。 6. 説明可能性 機械学習では、優れたモデルパフォーマンスを目指すことと、特にパフォーマンスの低いモデルの場合、モデル操作を簡潔に説明できることの間でバランスを取ることがよくあります。一般的に言えば、複雑なデータの場合、モデルが洗練され複雑であればあるほど、より良い結果が得られます。ただし、これらのモデルはより複雑であるため、入力データが出力結果に与える影響を説明することはより困難です。 たとえば、非常に複雑な機械学習モデルを使用して製品の販売量を予測するとします。モデルに入力されるデータは、テレビ、新聞、ラジオの広告費です。この複雑なモデルは非常に正確な売上予測を提供できますが、テレビ、ラジオ、新聞の 3 つのプロモーション チャネルのうちどれが売上に最も大きな影響を与えるか、またどれに投資する価値があるかを説明することはできません。 一方、より単純なモデルはそれほど正確ではないかもしれませんが、どのチャネルに投資する価値があるかを説明できる可能性があります。顧客は、モデルのパフォーマンスと解釈可能性のバランスに注意する必要があります。これは、解釈可能性とパフォーマンスのバランスをどのように取るかは目的によって異なるため、モデルを使用する人がその決定を下す必要があるため重要です。 7. それで…あなたの長所と短所は何ですか? 画像出典: https://i2.wp.com これは企業の面接でよく聞かれる質問です。長所と短所に関する質問は、機械学習ソリューションを評価する際に非常に役立ちます。誰かが機械学習ソリューションを推奨した場合は、その制限について必ず尋ねてください。
成功の鍵は、自分の弱点を理解し、それをうまく解決することです。この能力が欠けている人は必ず失敗します。効率的で持続可能な機械学習ソリューションを採用するという観点から、その限界を理解することが成功の鍵となります。 さらに、推薦者に提案の限界を明記するよう要求すると、透明性の問題が生じます。これは、この計画を推奨した人がどれだけ慎重に検討したか、また信頼できるかどうかを反映しています。 ご覧のとおり、嘘を見破る鍵は、慌てずに質問することです。不明な点があれば、質問し、明確にし、再確認してください。これら 7 つのヒントを活用することで、機械学習ソリューションに対する理解を深め、十分に評価できるようになります。これらの質問に答えられない営業マンは、今すぐ来てください! |
<<: 5G の出現は AI 連合学習にどのような影響を与えるでしょうか?
>>: 開発者にとって朗報:中国初の AI 自動脆弱性マイニング システムが公開テストを開始
[[426823]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...
1物語はAI熱狂の3つの波から始まる2017年、誰もが人工知能について語っていました。しかし、2度...
人工知能技術の発展により、GPT-4に代表される大規模言語モデルはその強力な機能で社会に大きな影響を...
MIT の調査によると、ディープラーニングは計算能力の限界に近づいているようです。 [[334431...
[51CTO.com クイック翻訳] 機械学習は、機械が直接プログラムされることなく学習できるように...
顔認証機能の利用にあたり、利用者の同意を得ていない企業が半数近くあるというデータもある。ビッグデータ...
世界の建設業界の現状人口ボーナスの消滅により、中国の建設業界は人件費への大きな圧力に直面しているほか...
新しいインフラストラクチャの配置が加速するにつれて、5G、モノのインターネット、クラウドコンピューテ...
今日は、実際の戦闘でよく使われる26のヒントを紹介します。これにより、出力がより効果的になります。見...
カスタマイズされた医療機器から手頃な価格の住宅まで、あらゆるものを作成するために使用される 3D プ...