機械学習を生産性に変えるには、よくある 4 つの落とし穴に注意してください。

[[279043]]

ビッグデータダイジェスト制作

出典: topbots

編纂者：呉帥

ある技術カンファレンスで、講演者が聴衆に「ビジネスのために機械学習や人工知能のモデルを開発した人はいますか？」と尋ねたところ、80～90パーセントの人が手を挙げました。

「それで、皆さんの中で誰がそれを生産に投入したのですか？」と講演者は続けた。ほぼ全員が手を下ろしました。ほぼすべての人がビジネスに機械学習を導入したいと考えていることは明らかですが、これらの人々は大きな問題にも直面しています。特にクラウドアーキテクチャでは、モデルを持続可能にすることが難しいのです。

Medium のブロガーもこの問題を指摘し、機械学習モデルを本番環境に導入する際によくある 4 つの落とし穴を提案しました。

車輪の再発明はしない

この言葉は長い間聞かれてきましたが、改善は見られませんでした。既存の解決策を拒否したために失敗するケースを私たちは数多く見てきました。

たとえば、Amazon Web Services (AWS) や Google Cloud には、使いやすい強力な機械学習スイートと製品があります。これらはすべてのケースに適しているわけではありませんが、特に企業の従業員に機械学習の経験があまりない場合は、間違いなく優れたエントリープラットフォームです。

Google Vision API を使用した感情検出。画像は TheNextWeb より

上記は、Google Cloud の Vision API を使用して抽出できる情報の例です。製品に対する顧客の反応の写真やビデオのデータがあり、顧客の表情に基づいて製品に対する態度を理解したいとします。次に、写真またはビデオをデータとして Google Vision に送信するだけで、処理が行われ、それぞれの顔が表す感情のおおよその把握が可能になります。

一般的に言えば、AWS と Google Cloud 上の製品の価格性能比はすでに良好です。さらに、バージョンアップデートや機能追加などもプラットフォーム側で処理されるため、メンテナンスも非常に簡単です。

解決策は決まっていない

小規模なプロジェクトの場合、このシンプルで簡単なアプローチで十分かもしれません。しかし、大規模なプロジェクトの場合、コストが高すぎるか、より多くのカスタマイズが必要になります。

このようなプロジェクトでは、多くの場合、カスタムソリューションが必要になります。前述のように、多くのプロジェクトがやりすぎたために失敗するのと同様に、多くのプロジェクトがやりすぎたために失敗します。私たちは「漸進的利益」の精神、つまり長期的な目標を犠牲にすることなく製品から可能な限り多くの短期的な価値を引き出すという精神を維持する必要がありますが、時にはこの行動が製品設計を損なうことがあります。

この問題は次のように解決できます。

問題と期待されるビジネス価値を十分に理解していることを確認する
必要な調査を行ってください。

最初のアプローチでは、チームが最初から技術的な詳細にこだわりすぎると、全体像を把握できない可能性が高くなります。「私は本当に何を達成したいのか？」を常に自分に思い出させる必要があります。

2 番目のアプローチは少し複雑です。まず、Google Scholar でリサーチし、関連する学術出版物やブログ投稿を精査して、自分が直面している問題を他の人がどのように解決したかを確認します。満足のいく結果が得られない場合は、良い手がかりが見つかるまで、同様の問題（異なる分野でも可能）を探してみてください。その時点で、既製のソリューションを探して、それがニーズを満たすかどうかを確認します。

満足すれば、計画は実行されます。そうでない場合は、さらにカスタマイズを構築する必要があります。

リスクを適切に特定していない

[[279044]]

優れたソリューションを開発した後、これらのモデルに内在するリスクを忘れてしまうことがよくあります。「モデルがどのように機能するかはよく分からない」と言う人がいるが、それはある程度は真実だ。説明可能な AI は、「なぜこのモデルはこのように動作するのか」といった質問に答えることに特化した、急速に成長している分野です。

しかし、モデルがどのように機能するかを正確に説明する前に、いくつかの必要な予防措置を講じる必要があります。

1. モデル間の特性と相関関係を理解する

通常、モデルが人種、性別、収入レベルなどに基づいて決定を下すことは望ましくないため、それらを入力として使用しません。それですべてうまくいくでしょうか? 必ずしもそうとは限りません。これらの要素が、使用している他の機能に影響を及ぼさないようにする必要があります。たとえば、郵便番号は、人がどこにいるかを示す強力な人口統計指標です。したがって、各プロジェクトを開始する前に、データの調査に多大な労力を費やす必要があります。

2. モデルを本番環境で進化させることができますか?

「機械学習」という言葉を聞くと、たいていの人は、それが人間と機械のやりとりの結果としてリアルタイムで変化するモデルを意味すると考えます。一部のモデルではこれを実行しますが (これについては別の投稿で詳しく説明します)、多くのモデルでは実行しません。それには十分な理由があります。必要なチェックや監視を行わなくても、入力データが大幅に変化してもモデルが制御不能になることはありません。

しかし、そうではありません。市場の動向に基づいて動的に更新される株式取引モデルがあるとします。通常の市場ではうまく機能しますが、予測できない事態が発生した場合 (通常は最悪のタイミングで発生します)、モデルは新しい環境に適応するために過剰に補正し、元々トレーニングされた戦略を完全に放棄する可能性があります。

3. モデルの再トレーニングまたは更新はどのくらいの頻度で行う予定ですか?

この質問に対する標準的な答えはありません。それは問題とモデリング手法によって完全に異なりますが、早い段階でそれを把握することが重要です。標準的な更新方法と戦略が必要な理由は単純です。モデルが改善されているか、劣化しているかをどうやって知るかということです。

75% の精度を持つモデルが本番環境にあるとします。精度が 75% であることをどうやって確認すればよいでしょうか? 通常、検証には履歴データの一部を検証セット (通常は 20%) として使用します。

さて、1 か月後にモデルを更新し、精度が 85% であることがわかったとします (すごいですね! 褒めてあげてください!)。そこで、喜んで更新をプラットフォームにプッシュします。しかし、突然、成果が急激に低下し、顧客が不満を言い続けていることに気づきました。何が起こっているのか？

理由は簡単です。検証セット (精度をテストするために使用する生データ) を保存しないと、同等のものを比較していないことになります。更新されたモデルのパフォーマンスが初期モデルよりも優れているかどうかはわかりませんが、それが大きな問題を引き起こします。

始めるのに機械学習は必要ありません

傷つくように聞こえるかもしれないが、これがおそらくこの記事を読んで得られる最大の教訓だろう。機械学習は今日のコンピュータサイエンスの最もクールな分野の 1 つと考えられていますが、機械学習はベルト自体ではなく、ベルトに取り付けられた単なるツールであるという事実を人々は見落としがちです。

釘を打つために削岩機を使う人はいないでしょうから、基本的な Python スクリプトでタスクを実行できる場合は機械学習を使用しないでください。最先端のテクノロジーにアクセスしたいというのは魅力的であり、私もそのことは理解していますが、必要な専門知識がなければ、不必要な失敗を招く可能性があります。

製品を設計する前に「チャットボットをどう活用できるだろうか？」「顔認識で何ができると思う？」などとブレインストーミングする例を私はたくさん見てきました。しかし、実際のところ、これらのアイデアは基本的に役に立たないのです。

リンク: https://www.topbots.com/pitfalls-in-putting-ml-model-in-production/

[この記事は51CTOコラムBig Data Digest、WeChatパブリックアカウント「Big Data Digest（id: BigDataDigest）」のオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<: 2019 年の Web 開発のトレンドトップ 10

>>: サンダーソフト、AIoT産業・大学・研究のボトルネックを打破するTurboX AI Kit教育実験プラットフォームをリリース

ブログ

PHP 5 におけるガベージコレクションアルゴリズムの進化についての簡単な説明

ブログ

シリコンバレーの天才たちの没落: 才能から始まり、利益に転落し、「賢さ」のせいで失敗した

ブログ

機械学習を生産性に変えるには、よくある 4 つの落とし穴に注意してください。

PHP 5 におけるガベージコレクションアルゴリズムの進化についての簡単な説明

シリコンバレーの天才たちの没落: 才能から始まり、利益に転落し、「賢さ」のせいで失敗した

NASAのジェット推進研究所が人工知能に取り組んでいる様子をご覧ください

1つの命令を使用してGPT-3.5またはLlama 2を微調整する方法

人工知能が人事を変える7つの方法

GoogleはBingの検索アルゴリズムを評価する研究開発チームを設立、創設者が戦いを監督

ワンジ自動車ミリ波レーダーポイントクラウド技術の分析

推薦する

巨大企業間の今後の AI 戦争: マイクロソフトは左に進んで 2B、グーグルは右に進んで 2C

オンラインゲームの依存症対策システムは「破られた」のか？記者調査：ネット上で「顔認証」サービスを提供、実名なしでゲームにログインできると主張

スマートドライビングに才能が注ぎ込む：合理性と狂気が共存

誰もが今から準備すべき、2020 年のキャリアを変える 6 つのテクノロジートレンド

今後10年間で、人工知能とロボットは雇用に7つの影響を与える

日常生活における人工知能の12の例

AIによる朗読がオーディオブック市場に影響、声優の仕事が脅かされる

[文字列処理アルゴリズム] 最長共通部分文字列を取得するためのアルゴリズム設計とCコード実装

海運業界は人工知能を活用して海賊行為と戦うことができる

5つのリソースカテゴリー：大規模言語モデルのリソース効率を向上させる方法、超詳細なレビューはこちら