AIと機械学習の詐欺を見抜くための7つの原則

この記事は、公開アカウント「Reading the Core」（ID: AI_Discovery）から転載したものです。

「AI」や「機械学習」が新しいホットワードとして登場したため、ビジネスリーダー、起業家、エンジェル投資家、中間管理職、ハッカソン審査員、または「テクノロジー」関連の人であっても、誰かが「AI製品」、「機械学習ソフトウェア」、またはその他の流行語の派手な組み合わせを「販売」しようとするという状況に直面する可能性があります。

このような状況に陥った場合、正しい判断を下すための専門知識が足りないと感じることがあるかもしれません。

自分の立場を守り、恐れないでください。次の 7 つの常識的なヒントは、シグナルをキャッチし、レトリックを見抜き、詐欺や嘘を見抜くのに役立ちます。

[[330730]]

1. 「私たちは AI を使って…」

アインシュタインは「何かを簡単に説明できないなら、十分に理解していないということだ」と言いました。

誰かが「AI」という包括的な概念について話す場合は注意してください。それは派手な売り込みである可能性があります。もちろん、顧客を怒らせないように、苦痛で複雑な詳細を省略した可能性もあります。

疑わしい点はそのまま受け入れて、さらに深く掘り下げて、どの機械学習モデルが使用されたのかを詳しく知り、類推しながら説明してもらいます。

次のような質問をすることができます。

他のオプションではなくこのオプションを選択する理由は何ですか?
このデータに対してこのソリューションが他のソリューションよりも優れているのはなぜですか?
同様の問題を解決した人はいますか? もしそうなら、どのようなアプローチをとりましたか?
他のアプローチ（モデル/アルゴリズム/テクニック）を試しましたか？結果は現在のソリューションとどう違うのですか？（可能であれば、証拠としてチャートを提供してください）

最初からすべての答えを知る必要はありませんが、できるだけ明確にするために質問する必要があります。類推で説明できない機械学習の概念にはまだ出会ったことがありません。したがって、あまりにも多くの技術的な詳細について話すのが難しすぎると思われる場合は、さらに説明を求めてください。このような注意深いレビューは、理解を深めるだけでなく、プログラムの背後にある考え方を示すことにもなります。

2. ゴミを入れればゴミが出る

[[330731]]

画像出典: https://media.tenor.com

「神以外では、私は（良い）データだけを信頼します。」 — エドワーズ・デミング

高品質のデータがあればこそ、優れたモデルが得られます。したがって、機械学習モデルのトレーニングに使用するデータの品質を検証する必要があります。「品質」を定義するのは難しいですが、トレーニングデータの品質を把握する簡単な方法は、次の質問をすることです。トレーニングデータは、モデルが「現実世界」で処理するデータとどの程度類似し、代表的であるか。

機械学習モデルがいかに優れていて最先端のものであっても、トレーニングに使用されるデータの質が低ければ、結果は非常に悪いものになります。

3. 適者生存

1990 年代から 2000 年代初頭にかけて、電子メールの受信トレイのスパムフィルターは、スペルの誤りやその他の兆候を探し、迷惑メールを自動的にスパムフォルダーに振り分けていました。

最近、スパマーはより賢くなり、スパムを検出することがより困難になっています。今日の電子メールサービスプロバイダーは、この傾向に適応し、スパムを正確に識別するために、より高度な機械学習モデルを採用する必要があります。

[[330732]]

画像ソース: unsplash

私たちが理解しなければならないことの 1 つは、時代が変わり、入力データが反復されるときに、機械学習モデルを新しいデータで再トレーニングしたり、障害なくより優れたモデルに置き換えたりできるかどうかです。顧客が購入したプランに「有効期限」があるかどうかを知ることは重要です。

4. 正しい基準で正しいものを測定する

[[330733]]

画像ソース: unsplash

精度は、機械学習モデルの分類パフォーマンスを測定するための非常に一般的な指標です。たとえば、猫と犬の写真を分類する機械学習モデルの場合、96% の精度は優れています。これは、猫と犬の写真 100 枚のうち、モデルが 96 枚を正しく推測できたことを意味します。

ここで、銀行が不正取引の特定に同じ基準を適用するとします。不正取引は非常にまれであるため、不正検出機能は簡単に 96% の精度を達成できます。しかし、不正取引を特定するには、96%を正しく特定するだけでは不十分です。むしろ、誤り率を減らす必要があります。不正取引の4%を誤認すると、大きな損害が発生します。

銀行詐欺の例では、偽陰性率の方が精度率よりもモデルのパフォーマンスを示す指標として優れています。さまざまな問題の要件に応じて、精度の代わりに、精度、再現率、特異度、F1 値などの他の基準を使用できます。適切な指標を使用しているか注意し、可能であれば複数の指標を使用する必要があります。

5. もっと、もっと、もっと！

一般的に言えば、他の条件が同じであれば、トレーニングに利用できるデータが多いほど、特にディープラーニングモデルの場合、モデルのパフォーマンスは向上します。それは、SAT の準備をしている高校生のようなものです。たくさん練習し、さまざまな問題を練習すれば、SAT で良い成績を収められる可能性が高くなります。

[[330734]]

画像ソース: unsplash

（十分な）データを得る前に理論を立てるのは大きな間違いです。あらゆる機械学習モデルにトレーニングに十分なデータがあることを確認することが重要です。どのくらいのデータがあれば十分でしょうか? 多ければ多いほど良いです! 理想的には、データは信頼できるソースから取得し、最大限に活用する必要があります。

6. 説明可能性

機械学習では、優れたモデルパフォーマンスを目指すことと、特にパフォーマンスの低いモデルの場合、モデル操作を簡潔に説明できることの間でバランスを取ることがよくあります。一般的に言えば、複雑なデータの場合、モデルが洗練され複雑であればあるほど、より良い結果が得られます。ただし、これらのモデルはより複雑であるため、入力データが出力結果に与える影響を説明することはより困難です。

たとえば、非常に複雑な機械学習モデルを使用して製品の販売量を予測するとします。モデルに入力されるデータは、テレビ、新聞、ラジオの広告費です。この複雑なモデルは非常に正確な売上予測を提供できますが、テレビ、ラジオ、新聞の 3 つのプロモーションチャネルのうちどれが売上に最も大きな影響を与えるか、またどれに投資する価値があるかを説明することはできません。

一方、より単純なモデルはそれほど正確ではないかもしれませんが、どのチャネルに投資する価値があるかを説明できる可能性があります。顧客は、モデルのパフォーマンスと解釈可能性のバランスに注意する必要があります。これは、解釈可能性とパフォーマンスのバランスをどのように取るかは目的によって異なるため、モデルを使用する人がその決定を下す必要があるため重要です。

7. それで…あなたの長所と短所は何ですか?

画像出典: https://i2.wp.com

これは企業の面接でよく聞かれる質問です。長所と短所に関する質問は、機械学習ソリューションを評価する際に非常に役立ちます。誰かが機械学習ソリューションを推奨した場合は、その制限について必ず尋ねてください。

このアプローチを採用することの利点は欠点を上回りますか?
このソリューションの制限は将来のパフォーマンスに影響しますか?

成功の鍵は、自分の弱点を理解し、それをうまく解決することです。この能力が欠けている人は必ず失敗します。効率的で持続可能な機械学習ソリューションを採用するという観点から、その限界を理解することが成功の鍵となります。

さらに、推薦者に提案の限界を明記するよう要求すると、透明性の問題が生じます。これは、この計画を推奨した人がどれだけ慎重に検討したか、また信頼できるかどうかを反映しています。

ご覧のとおり、嘘を見破る鍵は、慌てずに質問することです。不明な点があれば、質問し、明確にし、再確認してください。これら 7 つのヒントを活用することで、機械学習ソリューションに対する理解を深め、十分に評価できるようになります。これらの質問に答えられない営業マンは、今すぐ来てください!

<<: 5G の出現は AI 連合学習にどのような影響を与えるでしょうか?

>>: 開発者にとって朗報：中国初の AI 自動脆弱性マイニングシステムが公開テストを開始

ブログ

AIと機械学習の詐欺を見抜くための7つの原則

AIコピーライティングの11のメリット

ファーウェイ、データインフラを再定義するAIネイティブデータベースを世界規模で展開

敵対的 AI とは何ですか?なぜそれが重要なのでしょうか?

2024 年の IT 管理トレンド: ジェネレーティブ AI など

AIの「不確実な時代」にどう向き合うか

200語あれば本一冊分は読める。GPT-3はすでに小説の要約を書くことができる

推薦する

不意を突かれたGoogleの「人間の創造」の成功は恐ろしい！人類は歴史上最悪の失業の波に直面しています...

TensorFlow を使用して Android デバイスでディープラーニング推論を実装する方法

アリインデックスシステムの設計と実践

【ディープラーニング連載】畳み込みニューラルネットワークの徹底解説（第2回）～畳み込みニューラルネットワークを手書きで書いてみる～

説明可能なAI: 4つの主要産業

機械学習ガバナンスの5つの課題

自動運転は安全試験に合格するのが難しい。自動車メーカー、サプライヤー、規制当局は協力を強化すべき

宮崎駿アニメの世界を一筆でスケッチしよう！スタンフォード大学の大型模型「𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩」、スケッチが数秒で傑作に変身

ディープラーニングの深層: モデリング知識とオープンソースツールのオプション

Googleが複数の機能を発表：皮膚疾患の特定、衣服の試着シミュレーション

OpenAI が GPT-5 の商標登録を申請: すでに開発計画に入っているのか?