機械学習を使用すべきでないのはどのような場合ですか?

[[330426]]

ビッグデータダイジェスト制作

出典: towarddatascience

著者: リン、アンディ

機械学習/AIをいつ使うべきか、多くの人が躊躇したり不安を感じたりしています。著者はさまざまな不安を経験し、その経験をこの記事にまとめました。皆さんの不安を軽減し、機械学習やAIを使った学習の旅をより楽しんでいただければと願って、この記事をまとめました。

臨床試験データセットの分析を開始しようとしているところを想像してください。参加意識を持ってもらうために、私も同じようなデータを作成しました。

このデータには、60 日間の治療コース内で患者が受けた治療日数 (入力特徴) と特定の治療法の正しい投与量 (出力予測) との対応関係がリストされているとします。

では、患者を治療していて、2 日目だと想像してください。どのくらいの量の薬を勧めますか?

これはあまりにも単純で、白黒で書かれているので、間違いなく「17 mg」と答えるでしょう。 4日目はどうですか? 表を見てください、41 mg? その通りです!

さて、1 ～ 5 日間の正しい投薬量を出力するソフトウェアを作成するように求められたらどうしますか? 機械学習を使用しますか? つまり、まずこのデータ内のパターンを見つけてから、それを入力から出力までのモデルに変換しようとしますか?

いいえ、もちろんそうではありません。そんなことをするのは愚か者だけです。ソフトウェアに以前と同じことをさせるだけです。つまり、テーブル内の結果を直接調べるだけです。こうすることで、60 日間すべてで 100% の正解が得られます。パターンを見つけたり、機械学習を行う必要はありません。

機械学習はいつ必要になりますか?

例えば、今は61日目ですか？正解は何でしょうか？

まず、61 日目のデータを見たことがないので、答えを調べることができません。では、どうすればいいのでしょうか? 61 日目もデータがないのは不運のせいにすべきでしょうか? それとも、機械学習に目を向けるべきでしょうか? それは状況によって異なります。

入力と出力の間にパターンがない場合、機械学習は諦めてください。このような場合は、基本的に使用することは不可能です...機械学習で処理できると考えている場合は、できるだけ早くその考えをあきらめてください。

では、機械学習はいつ検討できるのでしょうか?

まず、有用なパターンを見つける必要があります。データにパターンがある場合（つまり、ある場合）、それを見つけることができれば、それを使用して 61 日目の結果を予測または推測することができます。ここで機械学習が役に立ちます。

2 番目に、パターンは一般化可能でなければなりません。ここでの問題は、データ内にパターンがあるだけでは十分ではなく、単純すぎるということです。また、このモデルが 60 日後も適用可能かどうかも知る必要があります。 61 日目の状態がまったく異なり、パターンが一般化されない場合はどうなるでしょうか? ご存知のように、61 日目にはすべての患者が治癒するか、死亡するか、または相容れない薬を服用し始める可能性があります。この時点では、以前のデータで発見されたパターンはあまり役に立ちません。

3 つ目は、非定常な世界です。データが将来を適切に反映していない場合 (パンデミックによって世界を支配するルールの一部が変わったためなど)、以前に取得したデータがどれだけ優れていても、ほとんど価値がありません。宇宙の不安定な一角に住んでいる場合、一般にエルゴード仮定や定常仮定として知られているもの、つまり「ルールは変わらないと信じている」という仮定を検証することは困難です。

ここで私が言う不安定性は、インフレによって商品の平均価格が時間とともに変動するなど、他人の目から見たいわゆる不安定性のことではありません。この単純な不安定性（予測可能な関数が時間の経過とともに変化する）は、時系列解析の分野で扱われる問題です。

私が本当に話したいのは、システムのルールが根本的に変わるため、あるサイクルから次のサイクルを予測することが不可能であり、皆さんがほとんど無力であるような極端な不安定性についてです。過去のデータが不確実な未来に突然当てはまらなくなった場合、昨日のデータを使って自信を持って明日を予測することは難しくなります。

[[330428]]

たぶんあなたは幸運です。

現時点でパターンがあり、それが新しい条件で機能する場合は、それを使用して作業を開始できます。まず、既存のデータからパターンを見つけてモデルを作成し、それを使用して 61 日目とそれ以降のすべての日のデータを取得します。

パターンを見つけてそれを使用することを機械学習と呼びます。

機械学習を使うべきタイミング

機械学習と AI を適用する場合、以前に見た例を単に繰り返すだけではいけません。機械学習はまったく必要ありません。表を調べるだけです。モデルに学習させるのが目的であることを忘れないでください。

ただ古い答えを繰り返しているだけですか? いいえ、ML はもっと良い結果を出すことができます! 新しいインスタンスについても予測を行うことができます。

あなたの使命は？うまく一般化できるソリューションを構築するか、それとも…諦めるか。

言い換えれば、ソリューションがこれまでに見たことのない新しい例を処理できない場合、それは良いソリューションではありません。もちろん、この新しい例は安定した宇宙のすべてのルールを完全に破るものではなく、関連する学習トピックにいくつかの小さな変更を加えるだけです。

私たちは聞いたことをそのまま繰り返すのではなく、新しい状況に一般化する必要があります。それが機械学習の力と美しさです。

特定のデータの組み合わせ (61 日目のデータなど) を見たことがない場合は、どうすれば答えが得られるのでしょうか。おそらく、古いパターンをモデルにまとめ、それを使用して予測を行う必要があるでしょう。たとえば、何千枚もの動物の写真から猫の分類器をトレーニングした場合、新しい写真に猫が写っているかどうかを判別するように要求することはできますが、絵画がキュビズム的かどうかを判別するように要求すべきではありません。

機械学習はあなたに適していますか?

機械学習を「ラベル付けツール」や「コードの書き方」と呼ぶのが嫌なら、別の呼び方をさせてください。

機械学習は、アルゴリズムを使用してデータ内のパターンを見つけ、そのパターンを使用して新しいデータを正しく処理する、反復的な意思決定を自動化する方法です。

機械学習があなたに適しているかどうかを知るために、次の 3 つのガイドが役立つかもしれません。

ML/AI プロジェクトを始めませんか? 22 の実用的なチェックリスト: http://bit.ly/quaesita_realitycheck
ML/AI ユースケースの提案については、http://bit.ly/quaesita_island をご覧ください。
ML/AI を始めてみませんか? ここから始めましょう: http://bit.ly/quaesita_dmguide

それで、役に立つパターンはあるのでしょうか?

61 日目の結果がまだ気になるでしょうか? サンプルデータにはパターンがあります。私がこれを設定したのは私だからだ。私は、それがあなたが考えつく最大の数字に 1 日を加えた数字に一般化されることを保証できます。なぜなら、この極度の不安定な時代に、変化するたびに定期的に変化する数字を使用できるのは本当に贅沢だと思うからです。ですから、皆さんにもその贅沢を味わっていただきたいと思います。

挑戦が好きな方は、お気に入りの機械学習アルゴリズムを試して、このデータ内のパターンを見つけてみませんか? 61 日目の答えが何だと思うか教えてください。約 1 週間後に、このデータを生成するために使用したコードをコメントに追加して、皆さんが正しいかどうかを確認できるようにします。

また、ほとんどの人は機械学習ではなく分析的な方法で解決するのではないかと思います。幸運を祈ります！最善のアプローチが勝利しますように！

本当に ML を試してみたい場合は、正しい順序で始めることを忘れないでください。適切な方法が役立ちます。