機械学習を使うべきタイミング

機械学習を使うべきタイミング

著者 | 杜家平

なぜこのトピックを議論するのですか?

このトピックを議論する本質的な理由は、顧客にデータ戦略コンサルティングサービスを提供する際の考え方にあります。多くの顧客のペインポイントや要望は、機械学習によって解決できそうに見えますが、実際にはリスクに満ちています。そのため、機械学習をいつ使用すべきか、いつ使用すべきでないかが、考える対象になっています。

機械学習は学術界で生まれましたが、二度と学術的なものではなくなるでしょう。私たちは日常生活の中で機械学習のアプリケーションについてよく耳にし、多くの商用製品やビジネスプロセスでも機械学習が使用され始めています。機械学習は広く利用されてきましたが、機械学習で解決できそうなことが全て機械学習で解決できるわけではなく、また多くの場合、機械学習は最適な解決策ではありません。

問題解決の開始時に間違ったソリューションが選択されると、機械学習ソリューションの継続的な運用のための MLOps は無意味になります。機械学習プロジェクトを開始する前に、ビジネス価値、ビジネスプロセス、データの実現可能性、データの完全性など、いくつかの側面を繰り返し研究して、機械学習を使用する必要性を判断する必要があります。なぜなら、企業が機械学習の使用を決定したら、回収不能な初期投資コストは非常に大きくなり、投資収益は極めて小さくなるからです。

画像ソース: https://venturebeat.com/2018/11/24/before-you-launch-your-machine-learning-model-start-with-an-mvp/

機械学習はいつ使用すべきでしょうか?

機械学習の目的: 経験をより正確に置き換え、手作業を大規模に再利用すること。この記事では、機械学習をいつ使用すべきかという質問に答えるために、より根本的な「機械学習とは何か」という質問に答える必要があります。

ここで私は答えをいくつかの要素からなる文に分解します。

複雑な(4)履歴データの(5)規則的な特徴を(1)繰り返し(2)学習(3)し、学習結果(6)を(7)将来のデータに大規模に適用して(8)予測結果を得ることで、すべての要因が満たされる条件を逆算することができます。すべての要因が条件を満たしたら、機械学習を使用する番です。

1. 繰り返し: 比較的大量のトレーニングデータ

猫や犬を見たことがない子供に、猫と犬の区別を教えたい場合、猫と犬の写真を10枚程度与えるだけで、猫と犬の特徴をよく認識して区別できるようになると思います。しかし、機械学習モデルに学習のために 10 枚の画像しか提供されない場合、学習効果は間違いなく非常に低くなります。そのため、モデルのトレーニングには同じ特徴パターンを持つ繰り返しデータを使用する必要があり、機械学習の利用は大量のトレーニングセットデータを前提に行う必要があります。保有する履歴データがモデルの学習ニーズを満たすのに十分でない場合は、待機してさらにデータを蓄積する必要がある場合があります。

画像ソース: https://ypw.io/dogs-vs-cats/

2. 学習: 機械学習は学習できる必要がある

私がコンサルティングしているプロジェクトの中には、多くのビジネスマンが Excel を使用して、1 列または 2 列のデータ (時系列データではない場合) のルールに従って 3 列目のデータを計算しているところもあります。これは、プロセス全体にわたって強力な「学習」プロセスがないため、非常に一般的な Excel アプリケーション シナリオです。顧客が機械学習を通じてインテリジェントな結果を得たいという希望を表明した場合、私は絶対に機械学習を推奨しません。なぜなら、機械学習はそのような小さな問題には不十分だからです。

機械学習の学習プロセスでは、まずモデルが学習するのに十分な知識が必要であり、この知識がデータです。大量のデータから学習して対応する結果を生成することは、機械学習の一般的なプロセスです。たとえば、Airbnb の賃貸価格を予測する場合、モデルは大量の住宅特性、住宅の地理的属性、過去の賃貸価格などのデータを学習して、「データ -> 結果」の関係を学習する必要があります。新しいデータがモデルに入力されると、学習結果に基づいて対応する賃貸価格を予測できます。

もちろん、モデルは生徒のようなもので、良い生徒と悪い生徒がいます。生徒がうまく学習したか、うまく学習しなかったかを判断するには、目的関数を使用する必要があります。簡単な例として、MAE (平均絶対誤差) を見てみましょう。この関数は、検証中に検証方法を記述して、モデルの学習効果の最終的な客観的評価を生成します。

つまり、機械学習のリソースを無駄にしないことです。アプリケーション シナリオは、学習する能力、学習する可能性、学習するデータを備え、「学習」要素の要件を満たすものでなければなりません。

3. 複雑性: データの規則的な特性は複雑であるべきである

A、B、C

1、1、2;

2、2、4;

2、3、5;

上のデータを見ると、規則的な特徴が分かりますか?小学校2年生まで通っていた方なら、これがC=1A+1Bという単純な法則であることが一目で分かると思います。このようなデータは機械学習を使用して学習できますか? はい、それは最も単純な線形回帰モデルです。しかし、機械学習モデルは使用すべきでしょうか? もちろんそうではありません。別の例としては、電子メール コードを使用して地域を識別したり、ID 番号を使用して登録された居住地を識別したりすることが挙げられます。これらも単純なルールであり、ルール エンジンはこのような予測を実現できます。

しかし、住宅特性(床材、壁材、面積、築年数、住宅建築構造)と地理的属性(道路に面しているか、立地地域、地下鉄の有無、周辺の支援施設)に加え、過去の中古住宅取引価格を学習して得られる中古住宅取引価格予測モデルは、典型的な機械学習の応用シナリオです。なぜなら、住宅特性や地理的属性などの多次元変数と中古住宅の取引価格の間には規則的な特徴があることがわかっているものの、この規則的な特徴は非常に複雑であるため、規則的な特徴を探索するには機械学習を使用する必要があるからです。

4. 履歴データ: 収集できる履歴データが必要です

これを強調したい理由は、過去にいくつかのフォーチュン 500 企業に対してデジタル戦略コンサルティングを行った際、リーダーがいくつかの目標値を予測したいという非常に一般的な要求がいくつかあったためです。予測されたシナリオは確かに十分なビジネス価値がありましたが、問題はすべての履歴データが手動で収集され、Excel を通じて毎日手動で記録されていたことです。お客様は、リーダーの目標値予測のニーズを満たすために、インテリジェント モデルを使用できることを期待しています。

このような要求や質問を受けた場合、私はそれらを「インテリジェント」な要求ではなく「デジタルな要求」として自動的に識別します。このソリューションは、顧客がビジネス プロセスとシステムのタッチポイントを整理し、モデルがデータ資産を形成するために必要なデータを収集するのにも役立ちます。データのデジタル収集のみが、大量の履歴データを生成し、将来の MLOps で対応する運用基盤とモデル最適化条件を提供することができます。

したがって、この時点では、履歴データの存在と収集可能性が、機械学習アプリケーションの「履歴データ」要素を満たすための条件となります。

5. 規則性:規則性は学習可能

機械学習モデルの適用は、学習できる規則性がある場合に効果的であるはずです。普通の知能を持つ人であれば、サイコロの出目を予測する機械学習システムの構築に多額の資金を投資することはまずないでしょう。なぜなら、サイコロの出目には規則的なパターンがないからです。

もちろん、規則的な特徴が存在するかどうかは明らかではない場合もあるため、ML MVP の概念を導入する必要があります。経験を通じて規則的な特徴が存在するかどうかを判断できないプロジェクトでは、迅速な検証を実施し、モデルの結果を通じて規則的な特徴が存在するかどうか、またそれを学習できるかどうかを判断する、より合理的で客観的な結果を得る必要があります。

6. 大規模に使用できる

私の記事「モデリングは後から、戦略が先」では、機械学習の 2 つの主要な機能、1) 人間の経験を超える機能、2) 再利用して手作業を置き換える機能について説明しました。そのため、機械学習を再利用できる能力は非常に重要です。投資家はモデルを構築するために資金を投資しますが、そのモデルを一度か二度使用して廃棄することは望んでいません。そのため、機械学習を再利用できる応用シナリオが非常に重要です。

7. 将来のデータ: 将来のデータの特性は、モデルトレーニングデータの特性と一致している

機械学習の核となるのは経験の再利用です。したがって、機械学習モデルは、モデルをトレーニングするときに、将来のデータの特性がトレーニング セット データの特性と一致する場合にのみ経験を再利用できます。そうでない場合は役に立ちません。 2010 年の不動産データでトレーニングされた中古住宅取引価格予測モデルを使用して 2021 年の中古住宅取引価格を予測した場合、住宅と価格を記述したトレーニング セット データ全体が過去とはまったく異なるものと考えられるため、モデルが結果を正確に予測できないことは明らかです。

これは、機械学習モデルを更新することの重要性をさらに示しています。データは徐々に反復されるため、モデルのトレーニングも徐々に反復して、保存期間を延長する必要があります。

しかし、問題があります。将来のデータがモデルトレーニング中のデータの特徴と一致することをどうやって知るのでしょうか。良い質問です。知る方法がないので、仮定を立てる必要があります。一般的に、ビジネスに大きな変化がなく、期間が長くない場合は、新しいデータと古いデータの機能は一致すると考えています。もちろん、これについてあまり心配する必要はありません。MLOps のデータ監視とモデル監視はデータ機能の変化を非常にうまく識別できるからです。データ機能の変化が識別されると、システム全体がすぐにパイプライントリガーをトリガーして、モデルの再トレーニングメカニズムを開始します。パイプライン トリガーの詳細については、以前の記事「機械学習モデルを孤立させないでください」を参照してください。

8. 予測: 解決すべき問題は予測問題である

機械学習アルゴリズムは予測を行うために使用されるため、機械学習が解決できる問題は予測問題です。回帰アルゴリズムは数値を予測し、分類アルゴリズムはカテゴリ値を予測し、クラスタリング アルゴリズムはクラスタリング グループを予測します。予測結果の次元は異なりますが、最終的に得られる結果は、モデルを使用する前に取得したい予測結果です。

機械学習を使用すべきでないのはどのような場合ですか?

まず、上記8点が満たされない場合は、機械学習を実施するかどうか慎重になる必要があります。他には何がありますか? 簡単な回答形式で説明しましょう:

1. 機械学習を信じない(信仰がない)

クライアントの上司、リーダー、または機械学習のユーザーが機械学習を信頼していない場合、機械学習がどれだけ価値をもたらすとしても、それを推進して実装することは困難になります。

2. 簡単な問題を解決する

解決すべき問題が非常に単純で、いくつかのルールを通じて予測効果を達成できる場合は、それを使用しないでください。機械学習の代わりに、よりコスト効率の高い「ルール エンジン」を使用できます。

3. 小さな予測誤差が大きな災害につながる可能性がある

機械学習モデルの全体的な品質は展開前に保証されていますが、これはすべての個体に対して同じ予測効果を生み出すことができることを意味するものではなく、一部の個体の予測に大きな誤差が生じる可能性があります。この間違いが大きな損失や壊滅的な結果につながる場合は、使用しないでください。

4. 低コストパフォーマンス

機械学習の構築とその後の運用には、いずれもコストがかかります。この投資に見合った投資が得られない場合は、機械学習モデルを慎重に使用してください。

5. ビジネスプロセスにおける手作業の経験が多すぎる

機械学習モデル戦略を確立する本質は、予測的に定量化された人工的な経験を通じて、経験判断をモデル判断に置き換えることであると述べました。ただし、手動での判断に多次元の経験が大量に必要となる場合、これは適切なアプリケーション シナリオではありません。機械学習モデルを通じて経験に基づいた予測値を提供したとしても、最終的な決定は他の複数の手動経験によって考慮されるからです。

理想的な結果は、予測値が与えられたらすぐにアクションを実行できることです。これは 1 対 1 の結果です。つまり、多対 1 ではなく、1 つの経験または 1 つの指標が 1 つの動作を決定します。機械学習によって「多数」の経験のうち 1 つまたは 2 つの経験の予測が解決されたとしても、最終的な行動戦略の決定に影響を与える手動の経験はまだたくさんあります。そのため、人手による経験が多すぎると、機械学習がその経験の一つに対して予測結果を出したとしても、それをそのまま業務に実装して対応する判断をすることができない可能性があります。

最後に

以上が機械学習を利用するための条件について調査し、個人的なまとめとしてまとめたものです。機械学習の利用を検討する前に、これらの側面から機械学習の必要性についてよく考えてください。機械学習を不適切なシナリオで使用すると、後で多くのリスクに直面することになります。

<<:  2022 年に注目すべき主要なエッジ AI トレンド

>>:  機械学習をプログラマーにとってより身近なものにする方法

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

...

ChatGPTの医療版ライブレビュー!治療計画は実際の医師のものと96%一致しています

同国初の大規模医療モデルはすでに患者を「診察」している。最近、病院内の AI 医師の実際の監視データ...

機械学習に関して新人エンジニアが犯しがちな6つの間違い

[[206602]]デフォルトの損失関数は当然使用される始めたばかりのときは、損失関数として平均二乗...

人工知能の3つの段階:統計学習から文脈適応へ移行中

物事が急速に進んでいるときは、立ち止まって自分がどこにいるのかを振り返ることが必要になることがよくあ...

...

...

海外メディア:アップルは2025年までに完全自動運転車を発売する可能性

アップル社が2025年までに完全自動運転車を発売する計画だとブルームバーグが報じたことを受け、同社の...

AIが建物の運営に及ぼす影響

昨年、ChatGPT とその他の AI 搭載サービス エンジンがリリースされて以来、このテクノロジー...

Facebook の最新傑作 Pythia: モジュール式、プラグアンドプレイ、モデルの進行を大幅に簡素化

Facebook の人工知能研究部門は最近、モジュール式のプラグアンドプレイ フレームワークである ...

90 年代以降の技術オタクと彼の代替検索エンジン Magi

最近、Magiという検索エンジンが注目を集めています。この検索エンジンは、私たちが持っている一般的な...

アリババ機械知能チームの3年間の取り組みの概要

[[266129]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

詳細な分析: AI がイノベーションを容易にする方法

開発手段。イノベーションの結果は、企業が市場のニーズを満たす新製品を継続的に設計・生産することを奨励...

大規模言語モデルの新しいレビューが発表されました。51ページの論文では、LLM分野の専門技術について説明しています。

大規模言語モデル (LLM) は、自然言語処理 (NLP) の分野で目覚ましい進歩を可能にし、幅広い...

...