AIプロジェクト開発における10の最も一般的な間違い

AIプロジェクト開発における10の最も一般的な間違い

人工知能 (AI) モデルのトレーニングは単純に思えるかもしれませんが、そうではありません。 AI モデルを安全かつ効果的に活用するのは簡単ではありません。それは、誤った出力、リソースの非効率的な使用、さらには重大なセキュリティ インシデントにつながる可能性のある、不確実性と潜在的な落とし穴に満ちた旅です。

セキュリティ研究者は、細部にまで目を配り、倫理的な実践に取り組み、先進技術をしっかりと理解することによってのみ、安全で効率的、かつ倫理的な AI ソリューションを生み出すことができると述べています。企業は、AI プロジェクトの開発と実装中に、次の 10 種類のミスを回避する必要があります。

1. 不十分なデータ前処理

AIモデルの開発には、トレーニング用の高品質なデータが必要です。データの品質が保証できない場合、AIモデルが間違っている可能性が高くなります。不完全なユーザーデータ、誤って入力されたデータ、更新されていない期限切れのデータにより、AI モデルが誤った結果を生成し、データの深い理解を達成することが困難になり、データの潜在的な属性をキャプチャできなくなる可能性があります。その結果、ユーザーエクスペリエンスが低下し、潜在的なアプリケーションリスクが発生します。

2. 不正確なモデル評価

高品質なデータに加えて、適切な開発モデルを選択することも重要です。 AI プロジェクト開発者は、適切なモデルを使用し、どのモデルがどのような問題に最適かを理解する必要があります。たとえば、銀行が AI モデルを使用して顧客ローンの債務不履行の可能性を予測する場合、アプリケーションは多くの場合、過去の顧客に対する精度に基づいて AI モデルをトレーニングします。しかし、銀行が正確さを唯一の業績評価基準とするのは十分ではありません。モデルは、精度再現率や F1 スコア、クロス検証、AUC-ROC 分析などの他のパフォーマンス メトリックと組み合わせて、モデル評価結果 (デフォルトと非デフォルト) の信頼性を判断する必要があります。

3. モデルの配置が不正確

開発者は、精度、適合度、再現率、F1 スコアなどの主要な技術指標に基づいてモデルを最適化することがよくありますが、これらの指標の多くは、収益の創出、コストの削減、顧客満足度、リスクの軽減などのビジネス指標とは直接関係がありません。しかし、多くの実践例から、期待されるビジネス成果を達成するには、技術的な AI 指標とビジネス AI 指標を一致させることが重要であることがわかっています。

クレジットカード詐欺検出モデルを例にとると、モデルの精度や F1 スコアを単純に強調するだけで、警告トランザクションが増える可能性があります。これにより、多数の誤検知が発生し、多くの正当な取引が誤って不正取引としてマークされる可能性があります。これはビジネスに重大な影響を及ぼし、AI アプリケーション システムの実際の可用性を低下させます。

4. データのプライバシーを無視する

AI プロジェクトの開発中、データのプライバシー保護は非常にデリケートな問題であり、特別な注意と配慮が必要です。特に AI モデルに未成年者のデータが含まれている場合、問題はさらに複雑になります。たとえば、10代の若者を対象とした一部のデビット カード オプションについては、銀行はセキュリティ標準が規制コンプライアンス要件を満たしていることを確認する必要があります。あらゆる形式や手段で顧客情報を収集するすべての企業は、データ保護ポリシーを策定する必要があります。これにより、顧客は組織がデータをどのように処理するかを知ることができます。しかし、ユーザーは自分のデータが人工知能アルゴリズムのアプリケーションに流れ込んでいるかどうかをどうやって知るのでしょうか? この情報に注意を払う開発者はほとんどいません (ほとんどいません)。

AI 主導の時代を迎えるにあたり、企業が AI をどのように活用しているか、その機能、データへの影響などを個人が理解することが重要になります。組織は、AI 開発のすべての段階で定期的なセキュリティ監査を実施し、強力なデータ保護プラクティスを実装する必要があります。プライバシーリスクはデータライフサイクルのどの段階でも発生する可能性があるため、すべての関係者に対して統一されたプライバシーセキュリティ戦略を策定することが重要です。

5. 拡張機能が不十分

ChatGPT が今年初めに初めてリリースされたとき、わずか 2 か月で 1 億人のユーザーを獲得しました。しかし、OpenAIはユーザー数の急増を予測していなかったため、多くのユーザーがサービスに正常にアクセスできないという事態に陥った。 AI モデルの応用は多くの場合非常に刺激的で、システムがオンラインになった後、数千人または数百万のユーザーが同時にシステムにアクセスし、一夜にして急速に普及する可能性があります。このような急速なアプリケーションのスケーリングを計画しないと、AI モデルが追いつかなくなり、リソースに過負荷がかかります。したがって、最初から AI モデルのリアルタイム スケーリングを計画することが非常に重要です。モデルが多数のユーザーを処理する方法、インフラストラクチャがデータ処理の急増に対応できるかどうか、および増加するストレージ要件を管理する方法を検討します。

6. モデルの過剰トレーニング

ご存知のとおり、AI モデルは大量のデータを使用してトレーニングする必要があります。ただし、AI アプリケーション モデルをトレーニングする場合、データ トレーニングが多すぎると、過剰適合につながる可能性もあります。オーバーフィッティングとは、トレーニング セットでは比較的高い精度を達成できるものの、実際のテストでは非常に低い精度、つまり一般化能力が欠如している (トレーニング データ以外のデータを正確に分析することが困難である) ことを意味します。 AI モデルが導入されると、データの量が急速に変化し、モデルの再トレーニングにかかる​​時間と費用が許容できないものになります。 AI モデルの場合、大量の繰り返しトレーニングを避け、変化するデータ分布に適応するためにモデル パラメータを継続的に更新し、モデルの使いやすさを継続的に向上させる必要があります。

7. 非実データによるトレーニング

研究者が AI モデルをトレーニングおよびテストする場合、多くの場合、実際のデータの分布を反映していない、クリーンかつ適切にラベル付けされたデータセットを使用します。したがって、モデルはトレーニング データと同じ分布を共有するテスト データに対して優れたパフォーマンスを発揮するため、結果は表面的には印象的に見えます。これは「インディストリビューション」パフォーマンスと呼ばれます。しかし、現実のシナリオでは、AI モデルによって取得されたデータは、トレーニングに使用されたデータとは大きく異なります。これらのデータにはノイズが多く含まれており、明確なラベルや特徴が欠けている可能性があります。そのため、AI モデルを実際のアプリケーション展開に展開すると、パフォーマンスが大幅に低下することがよくあります。これは「配布外」パフォーマンスと呼ばれます。現実には、企業には「分布外」データを扱う場合でも高いパフォーマンスを維持できる AI モデルが必要です。

8. アルゴリズムの偏り

アルゴリズムのバイアスは、AI モデルの適用において直面する大きな問題です。 AI モデル アルゴリズムと機械学習プログラムは客観的かつ公平であるべきですが、実際はそうではありません。 AI モデルは人間によってトレーニングされるため、人間の偏見を継承します。バイアスは、トレーニング データまたはモデルの設計方法に内在するバイアスが原因で、アルゴリズムが体系的に間違った決定や不公平な決定を下すときに発生します。 AI モデルの偏りがチェックされない場合、特定のデータ ポイントが体系的に不利になる可能性があります。偏見に対抗する効果的な方法は、ガイドラインとルールを策定し、アルゴリズムの偏見の影響を把握して管理するために継続的な監視とレビューを実施することです。

9. モデルの理解可能性を無視する

AI モデルが完全に信頼されるためには、その決定の根拠が透明でなければなりません。したがって、AI モデルが倫理的であるためには、理解可能で説明可能である必要があります。科学者たちは、ディープニューラルネットワークなどの複雑な AI モデルをより透明かつ理解しやすいものにする取り組みを行っています。彼らは、これらのモデルが特定の決定を下す理由を説明するのに役立つ手法を提案しています。実際、透明性を維持し、AI モデルを理解しやすくするための最善の方法は、徹底した開発ドキュメントを維持することです。ドキュメントには、AI モデルのトレーニングに使用されるデータに関する詳細な情報が含まれている必要があります。これにより、ユーザーは AI モデルをより明確に理解し、意思決定プロセスに自信を持つことができます。

10. 継続的な監視を怠る

日々のデータと基礎となるパターンが変化すると、AI モデルのアルゴリズムが古くなったり、精度が低下したりする可能性があります。これらの変化は、消費者行動の変化、市場動向の進化、競争環境の変化、規制やポリシーの変更などの要因によって生じる可能性があります。この現象は「コンセプトドリフト」とも呼ばれます。したがって、AI モデルのパフォーマンスと精度を継続的に監視することが重要です。モデルは最初は正確な予測を提供するかもしれませんが、時間の経過とともに、上記のように実際のデータの変化によりその精度が大幅に低下する可能性があります。

このような問題を解決するには、企業は実際のニーズに基づいてモデルの出力を継続的に追跡し、パフォーマンス指標をリアルタイムで監視する必要があります。さらに、増分学習手法を適用することも重要です。このアプローチにより、モデルは以前に観測されたデータから得られた貴重な知識を保持しながら、新しいデータから学習できるようになります。これらの戦略を採用することで、企業はコンセプトドリフトに効果的に適応し、AI モデルのアプリケーション要件を正確に把握できるようになります。

参考リンク:

https://dzone.com/articles/dont-make-these-mistakes-in-ai-development.

<<:  Microsoft Office Family Bucket Edition GPT-4 の価格は月額 30 ドル、Azure は Llama 2 と提携

>>:  AIと建物の運用: 人、データ、信頼の基盤の構築

ブログ    

推薦する

...

マッキンゼーのレポート: 2030 年までに 8 億人が機械に置き換えられ、約 1 億人の中国人が転職を余儀なくされる!

マッキンゼー・グローバル・インスティテュートは最近の報告書で、テクノロジーの進歩により、将来世界で約...

2020年のコロナウイルスがロボット経済をいかに後押ししたか

致命的なコロナウイルスによって引き起こされた経済不況は、さまざまな業界に大きな混乱を引き起こしました...

CommScope Insights: データセンターが AI をより迅速かつコスト効率よく活用する方法

人気のSF小説で「機械知能の台頭」が描かれる場合、通常はレーザーや爆発などのシーンが伴います。それほ...

マイクロソフト、Windows 10を開発者向けAIプラットフォームに

人工知能の人気が高まるにつれ、あらゆるテクノロジーメーカーが自社の製品やサービスに人工知能というラベ...

AIの過去と現在を理解するのに役立つ、60年間の技術の簡単な歴史

[[269852]]人類の進化の歴史は、人類が道具を作り、使用してきた歴史です。さまざまな道具は人類...

ディープラーニングは廃れつつあるのでしょうか?ベンジオ氏と他の専門家がNeurlPS2019でアドバイスを行う

状況はますます明らかになりつつあります。 AIが直面している課題は、計算能力を高めたり、より多くのデ...

ロボティック プロセス オートメーションについて知っておくべき 10 のこと

[[381496]]ロボティック プロセス オートメーションにより、ワークフローが合理化され、レガシ...

オープンソースの機械学習プロジェクトのトップ 5。TensorFlow だけを考えるのはやめましょう。

人類社会はこれまで、大小さまざまな技術的変化や革命を経験してきましたが、機械学習が現在の技術分野で最...

C# DES アルゴリズムの例の分析

C# DES アルゴリズムの復号化を実装する前に、DES の基本原理を見てみましょう。その入力パラメ...

GenAI の成功への道における 10 の「落とし穴」

生成型人工知能 (GenAI) を実装したいですか? 朗報です! ほとんどの IT 意思決定者は、こ...

復旦大学の邱希鵬さんへの10の質問:大手モデルはAndroidの時代に入り、国産モデルがLIamaに取って代わることを望みます

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

...

ビッグデータの発展は、ソフトウェアエンジニアの漸進的な衰退とアルゴリズムエンジニアの台頭を伴うことになる。

[[190402]]ビッグデータは人類の歴史のどの時代にも存在していましたが、テクノロジーが一定の...