人工知能プロジェクトのための 10 のヒント - ガイド

人工知能プロジェクトのための 10 のヒント - ガイド

昨日の人工知能プロジェクトに関する 10 の提案 - 理論に続き、今日は人工知能プロジェクトの 10 の指針についてお話します。

AI プロジェクトを計画する際には、モデル構築の目標を特定することが重要ですが、この理解があって初めて成功するソリューションが得られます。適切な推奨事項を真に実現するには、AI プロジェクト チームはプロジェクトを実行する際にベスト プラクティスの実装パスに従う必要があります。正しい道をたどるために、先ほど示した 10 の提案の実行パスについて説明しましょう。

1. 問題を理解する

あらゆる問題を解決する上で最も基本的な部分は、解決しようとしている問題が何であるかを正確に知ることです。何を期待しているのか、制限事項はあるのか、そしてプロジェクトの最終的な目的は何なのかを必ず理解してください。早めに質問し、同僚、ビジネス エキスパート、エンド ユーザーと理解を検証します。答えがあなたの理解と一致していれば、あなたは正しい方向に進んでいると分かります。

2. データを知る

データの意味を理解することで、どのモデルが適切に機能し、どの機能を使用すればよいかを理解できるようになります。データの背後にある問題はどのモデルが最も成功するかに影響し、計算時間はプロジェクトのコストに影響します。意味のある機能を使用および作成することで、人間の意思決定を模倣したり改善したりすることができます。各フィールドの意味を知ることは、特にデータを匿名化する必要があり、したがって明確さが劣る可能性がある規制産業においては、問題解決にとって重要です。機能の意味がわからない場合は、ビジネスの専門家に相談してください。

3. データを分割またはクリーンアップする

モデルは未知のデータに対してどのように機能するでしょうか? 新しいデータに一般化できない場合、特定のデータに対するパフォーマンスは最も重要なことではありません。トレーニング中はモデルにデータの一部を見せないようにするため、未知の状況でモデルがどのように機能するかを検証できます。このアプローチは、適切なモデル アーキテクチャを選択し、最適なパフォーマンスを得るためにパラメータを調整するために重要です。

教師あり学習の問題の場合、データを 2 つまたは 3 つの部分に分割する必要があります。

トレーニング データ (モデルの学習元となるデータ) は通常、元のデータの 75 ~ 80% がランダムに選択されます。

テスト データ (モデルを評価するデータ) が残りのデータです。

構築するモデルの種類によっては、検証セットと呼ばれる 3 番目のホールドアウト データ セットも必要になる場合があります。これは、テスト データで調整された複数の教師あり学習モデルを比較するために使用されます。この場合、非トレーニング データをテストと検証の 2 つのデータセットに分割する必要があります。テスト データを使用して同じモデルの反復を比較し、検証データを使用して異なるモデルの最終バージョンを比較します。

Python でデータを正しく分割する最も簡単な方法は、Scikit-learn の train_test_split 関数を使用することです。

4. テストデータを漏らさない

テスト データの情報をモデルに入力しないことが重要です。これは、データセット全体のトレーニングに悪影響を及ぼす可能性があります。また、分割する前に変換 (スケーリングなど) を実行するのと同じくらい微妙な影響を与える可能性があります。たとえば、分割する前にデータを正規化する場合、グローバル最小値または最大値が保持されたデータ内に存在する可能性があるため、モデルはテスト データセットに関する情報を取得します。

5. 適切な評価指標を使用する

問題はそれぞれ異なるため、状況に応じて適切な評価方法を選択する必要があります。最も単純な、そして潜在的に最も危険な分類基準は、精度です。がんの検出の問題について考えてみましょう。適度に正確なモデルが必要な場合は、常に「がんではない」と予測することになります。なぜなら、99% 以上の確率で正しいからです。しかし、実際に癌を検出したい場合、これはあまり有用なモデルではありません。分類と回帰の問題にどの評価メトリックを使用するかを慎重に検討してください。

6. シンプルに

問題に取り組むときは、最も複雑なモデルではなく、仕事に適したソリューションを選択することが重要です。経営陣、顧客、そしてあなた自身も、「最新かつ最高」のものを使いたいと思うかもしれません。ニーズを満たす最も単純な(最も高度なものではない)モデル、つまりオッカムの剃刀の原理を使用する必要があります。これにより、可視性が向上し、トレーニング時間が短縮されるだけでなく、実際にパフォーマンスが向上します。つまり、バズーカ砲でハエを撃ったり、ハエたたきでゴジラを殺そうとしたりしないでください。

7. モデルを過剰適合(または不足適合)させない

過剰適合 (または不足分散) により、モデルは目に見えないデータに対してパフォーマンスが低下します。モデルはトレーニング データを単純に記憶します。アンダーフィッティング (バイアスとも呼ばれる) とは、モデルに与えられる情報が少なすぎて、問題の正しい表現を学習できない状態を指します。この 2 つのバランスを取ること (「バイアスと分散のトレードオフ」と呼ばれることが多い) は AI プロセスの重要な部分であり、問​​題が異なれば必要なバランスも異なります。

簡単な画像分類器を例に挙げてみましょう。そのタスクは、画像内に犬がいるかどうかを分類することです。このモデルを過剰適合すると、その画像を以前に見たことがない限り、その画像を犬として認識できなくなります。モデルの適合度が低すぎると、以前に特定の画像を見たことがある場合でも、その画像を犬として認識できない可能性があります。

8. さまざまなモデルアーキテクチャを試す

ほとんどの場合、問題に対してさまざまなモデル アーキテクチャを検討することが有益です。ある問題に対して最も効果的な方法が、別の問題に対しては必ずしも最適とは限りません。単純なアルゴリズムと複雑なアルゴリズムを組み合わせて使用​​してみてください。たとえば、分類モデルを実行する場合は、ランダム フォレストのような単純なものからニューラル ネットワークのような複雑なものまで試してください。興味深いことに、Extreme Gradient Boosting (XGBoost) は、ニューラル ネットワーク分類器よりも大幅に優れたパフォーマンスを発揮することがよくあります。単純な問題は、単純なモデルで解決するのが最も効果的であることが多いです。

9. ハイパーパラメータを調整する

ハイパーパラメータは、モデルの計算に使用される値です。たとえば、決定木のハイパーパラメータの 1 つは、ツリーの深さ、つまり答えを決定する前に何回質問するかです。モデルのデフォルトのハイパーパラメータは、平均して最高のパフォーマンスを提供するものです。しかし、あなたのモデルがまさにそのスイートスポットに当てはまる可能性は低いでしょう。異なるパラメータを選択すると、モデルのパフォーマンスが向上します。ハイパーパラメータを調整するための最も一般的な方法は、グリッド検索、ランダム検索、ベイズ最適化検索ですが、他にも多くの高度な手法があります。

10. モデルを正しく比較する

機械学習の最終的な目標は、適切に一般化できるモデルを開発することです。だからこそ、正しく比較して最適なモデルを選択することが非常に重要です。前述のように、評価にはハイパーパラメータのトレーニングに使用したホールドアウト セットとは異なるホールドアウト セットを使用する必要があります。さらに、結果を評価するには適切な統計テストを使用する必要があります。

AI プロジェクトを実行するための指針がわかったので、次の AI プロジェクトで試してみてください。

<<:  拡散モデルはオートエンコーダです。ディープマインドの研究者は新しいアイデアを提案し、

>>:  AI+サイエンス: PaddlePaddle をベースにした AlphaFold2 でタンパク質構造予測を実現

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能はマーケティング業界に破壊的な影響を及ぼすだろう

ビッグデータと人工知能の市場は現在、活況を呈しています。調査会社の最近の予測によると、これら2つの技...

コロナウイルスを分類する機械学習はわずか数分で完了

物理学者協会のウェブサイトが28日に伝えたところによると、カナダのコンピューター科学者と生物学者は、...

人工知能はマーケティングをどのように変えるのでしょうか?

今日でも、私たちは人工知能 (AI) を未来のテクノロジーだと考えています。そのため、この分野で起こ...

清華大学、マイクロソフトなど大学がリマインダーエンジニアを排除? LLMと進化的アルゴリズムを組み合わせて強力なプロンプト最適化ツールを作成する

LLM の機能と従来のアルゴリズムを組み合わせることで、どのような火花が生まれるのでしょうか?清華大...

科学者たちは、人間の肌の感触を模倣し、さらには触覚の方向を感知して予測できる電子毛髪を備えたロボットを開発している。

ビッグデータダイジェスト制作著者: カレブ皆さんはたくさんのロボットを見たことがあると思いますが、こ...

AR技術が携帯電話業界のブレークスルーとなる

[51CTO.comからのオリジナル記事] スマートフォンの開発はハードウェアの革新においてボトルネ...

Baiduの李振宇氏:Apollo 3.0のリリースはApolloのオープン性の新たな出発点です

自動車業界から大きな注目を集めるアポロオープンプラットフォームは、新たな量産時代を迎えました。 7月...

人工知能が人々を生き返らせる

Google を含む多くの企業が、人間の寿命を延ばす方法を研究しています。たとえ何百年も長く生きられ...

AIが広告部門に侵入、Google社員は職を失うことを懸念

12月24日、グーグルが社内の効率化のために人工知能(AI)ツールの導入を検討していると報じられた。...

...

RealAIは、業界の信頼できる発展を促進するために人工知能セキュリティ技術ツールを作成します。

4月26日、中国サイバースペース管理局の主催で「人工知能-社会実験の観点から見た社会ガバナンス」を...

スーパーパートナー:IoT、AI、クラウドが強力な同盟を形成

大ヒット映画とモノのインターネット(IoT)にはどのような関係があるのでしょうか?あなたが思っている...

負荷分散スケジューリングアルゴリズムを見てみましょう

[[122758]]ロード ホストは、スケジューリング メソッドまたはアルゴリズムと呼ばれる多くの負...