人工知能プロジェクトのための 10 のヒント - ガイド

人工知能プロジェクトのための 10 のヒント - ガイド

昨日の人工知能プロジェクトに関する 10 の提案 - 理論に続き、今日は人工知能プロジェクトの 10 の指針についてお話します。

AI プロジェクトを計画する際には、モデル構築の目標を特定することが重要ですが、この理解があって初めて成功するソリューションが得られます。適切な推奨事項を真に実現するには、AI プロジェクト チームはプロジェクトを実行する際にベスト プラクティスの実装パスに従う必要があります。正しい道をたどるために、先ほど示した 10 の提案の実行パスについて説明しましょう。

1. 問題を理解する

あらゆる問題を解決する上で最も基本的な部分は、解決しようとしている問題が何であるかを正確に知ることです。何を期待しているのか、制限事項はあるのか、そしてプロジェクトの最終的な目的は何なのかを必ず理解してください。早めに質問し、同僚、ビジネス エキスパート、エンド ユーザーと理解を検証します。答えがあなたの理解と一致していれば、あなたは正しい方向に進んでいると分かります。

2. データを知る

データの意味を理解することで、どのモデルが適切に機能し、どの機能を使用すればよいかを理解できるようになります。データの背後にある問題はどのモデルが最も成功するかに影響し、計算時間はプロジェクトのコストに影響します。意味のある機能を使用および作成することで、人間の意思決定を模倣したり改善したりすることができます。各フィールドの意味を知ることは、特にデータを匿名化する必要があり、したがって明確さが劣る可能性がある規制産業においては、問題解決にとって重要です。機能の意味がわからない場合は、ビジネスの専門家に相談してください。

3. データを分割またはクリーンアップする

モデルは未知のデータに対してどのように機能するでしょうか? 新しいデータに一般化できない場合、特定のデータに対するパフォーマンスは最も重要なことではありません。トレーニング中はモデルにデータの一部を見せないようにするため、未知の状況でモデルがどのように機能するかを検証できます。このアプローチは、適切なモデル アーキテクチャを選択し、最適なパフォーマンスを得るためにパラメータを調整するために重要です。

教師あり学習の問題の場合、データを 2 つまたは 3 つの部分に分割する必要があります。

トレーニング データ (モデルの学習元となるデータ) は通常、元のデータの 75 ~ 80% がランダムに選択されます。

テスト データ (モデルを評価するデータ) が残りのデータです。

構築するモデルの種類によっては、検証セットと呼ばれる 3 番目のホールドアウト データ セットも必要になる場合があります。これは、テスト データで調整された複数の教師あり学習モデルを比較するために使用されます。この場合、非トレーニング データをテストと検証の 2 つのデータセットに分割する必要があります。テスト データを使用して同じモデルの反復を比較し、検証データを使用して異なるモデルの最終バージョンを比較します。

Python でデータを正しく分割する最も簡単な方法は、Scikit-learn の train_test_split 関数を使用することです。

4. テストデータを漏らさない

テスト データの情報をモデルに入力しないことが重要です。これは、データセット全体のトレーニングに悪影響を及ぼす可能性があります。また、分割する前に変換 (スケーリングなど) を実行するのと同じくらい微妙な影響を与える可能性があります。たとえば、分割する前にデータを正規化する場合、グローバル最小値または最大値が保持されたデータ内に存在する可能性があるため、モデルはテスト データセットに関する情報を取得します。

5. 適切な評価指標を使用する

問題はそれぞれ異なるため、状況に応じて適切な評価方法を選択する必要があります。最も単純な、そして潜在的に最も危険な分類基準は、精度です。がんの検出の問題について考えてみましょう。適度に正確なモデルが必要な場合は、常に「がんではない」と予測することになります。なぜなら、99% 以上の確率で正しいからです。しかし、実際に癌を検出したい場合、これはあまり有用なモデルではありません。分類と回帰の問題にどの評価メトリックを使用するかを慎重に検討してください。

6. シンプルに

問題に取り組むときは、最も複雑なモデルではなく、仕事に適したソリューションを選択することが重要です。経営陣、顧客、そしてあなた自身も、「最新かつ最高」のものを使いたいと思うかもしれません。ニーズを満たす最も単純な(最も高度なものではない)モデル、つまりオッカムの剃刀の原理を使用する必要があります。これにより、可視性が向上し、トレーニング時間が短縮されるだけでなく、実際にパフォーマンスが向上します。つまり、バズーカ砲でハエを撃ったり、ハエたたきでゴジラを殺そうとしたりしないでください。

7. モデルを過剰適合(または不足適合)させない

過剰適合 (または不足分散) により、モデルは目に見えないデータに対してパフォーマンスが低下します。モデルはトレーニング データを単純に記憶します。アンダーフィッティング (バイアスとも呼ばれる) とは、モデルに与えられる情報が少なすぎて、問題の正しい表現を学習できない状態を指します。この 2 つのバランスを取ること (「バイアスと分散のトレードオフ」と呼ばれることが多い) は AI プロセスの重要な部分であり、問​​題が異なれば必要なバランスも異なります。

簡単な画像分類器を例に挙げてみましょう。そのタスクは、画像内に犬がいるかどうかを分類することです。このモデルを過剰適合すると、その画像を以前に見たことがない限り、その画像を犬として認識できなくなります。モデルの適合度が低すぎると、以前に特定の画像を見たことがある場合でも、その画像を犬として認識できない可能性があります。

8. さまざまなモデルアーキテクチャを試す

ほとんどの場合、問題に対してさまざまなモデル アーキテクチャを検討することが有益です。ある問題に対して最も効果的な方法が、別の問題に対しては必ずしも最適とは限りません。単純なアルゴリズムと複雑なアルゴリズムを組み合わせて使用​​してみてください。たとえば、分類モデルを実行する場合は、ランダム フォレストのような単純なものからニューラル ネットワークのような複雑なものまで試してください。興味深いことに、Extreme Gradient Boosting (XGBoost) は、ニューラル ネットワーク分類器よりも大幅に優れたパフォーマンスを発揮することがよくあります。単純な問題は、単純なモデルで解決するのが最も効果的であることが多いです。

9. ハイパーパラメータを調整する

ハイパーパラメータは、モデルの計算に使用される値です。たとえば、決定木のハイパーパラメータの 1 つは、ツリーの深さ、つまり答えを決定する前に何回質問するかです。モデルのデフォルトのハイパーパラメータは、平均して最高のパフォーマンスを提供するものです。しかし、あなたのモデルがまさにそのスイートスポットに当てはまる可能性は低いでしょう。異なるパラメータを選択すると、モデルのパフォーマンスが向上します。ハイパーパラメータを調整するための最も一般的な方法は、グリッド検索、ランダム検索、ベイズ最適化検索ですが、他にも多くの高度な手法があります。

10. モデルを正しく比較する

機械学習の最終的な目標は、適切に一般化できるモデルを開発することです。だからこそ、正しく比較して最適なモデルを選択することが非常に重要です。前述のように、評価にはハイパーパラメータのトレーニングに使用したホールドアウト セットとは異なるホールドアウト セットを使用する必要があります。さらに、結果を評価するには適切な統計テストを使用する必要があります。

AI プロジェクトを実行するための指針がわかったので、次の AI プロジェクトで試してみてください。

<<:  拡散モデルはオートエンコーダです。ディープマインドの研究者は新しいアイデアを提案し、

>>:  AI+サイエンス: PaddlePaddle をベースにした AlphaFold2 でタンパク質構造予測を実現

ブログ    
ブログ    

推薦する

最高裁判所も顔認識の乱用に対して行動を起こした。

生体認証技術である顔認証は、非接触、非強制、同時性などの特徴から、ますます広く利用され、人々の生活の...

...

C# 暗号化におけるハッシュ アルゴリズムの適用に関する簡単な分析

ハッシュ アルゴリズムは C# 暗号化でよく使用される方法ですが、ハッシュ アルゴリズムとは何でしょ...

バイナリ検索アルゴリズムと時間計算量について簡単に説明し、バイナリ検索アルゴリズムを実装する

[[432404]]バイナリ検索は、バイナリ検索アルゴリズムとも呼ばれ、シンプルで理解しやすい高速検...

人工知能技術はセキュリティ上の脅威を発見するための新たなツールとなる

1. サイバーセキュリティにおける人工知能の応用1. 応用人工知能は、ネットワーク セキュリティにお...

...

...

AIのための大規模ストレージインフラストラクチャの要件

大規模な人工知能 (AI) により、容量とパフォーマンスの面でストレージ インフラストラクチャの水準...

AI時代におけるコンピュータのマクロ的な意義について語る

実際、私たち人間は、そのようなことを心配する必要はありません。科学者は、人工知能が人間の脳のレベルに...

フェイフェイ・リーのチームの新しい作品: AI 透視眼、障害物を通して見る、そして人体のレンダリングと遮蔽における新たなブレークスルー

人物画像のビデオレンダリングは、AR/VR、映画、医療などの分野で広く使用されています。単眼カメラか...

...

AI は旅行体験をどのように向上させることができるのでしょうか?

AI を活用した休暇は旅行の未来であり、かつては考えられなかったパーソナライズされた没入型の体験を...

...

シテチがスマートシティ建設に新たな活力を注入

[51CTO.comからのオリジナル記事] モノのインターネットの台頭により、スマートハードウェアと...