機械学習が価値を変革するための最も重要なステップは何ですか? ビジネス上の問題には無数の落とし穴があります。それを機械学習の問題に巧みに変換するにはどうすればよいでしょうか? 機械学習開発の人的コストと時間コストのバランスをとる最適な出力比率を見つけるにはどうすればよいでしょうか? パラダイム大学の最初の公開授業では、フォースパラダイムの共同創設者兼プロダクトマネージャーであるTian Feng氏が、豊富な専門経験に基づいて上記の問題に対する解決策を体系的に整理しました。 みなさんこんにちは。私は 4Paradigm の共同創設者、Tian Feng です。ここで機械学習の MVP モデルを皆さんと共有できることをとても嬉しく思います。 私たちはかつて、第四パラダイム知乎コラムに「年収100万の機械学習の専門家はなぜ価値を生み出せないのか?」という記事を掲載しました。記事に登場する機械学習の専門家たちは、プラットフォームの構築、データのクリーニング、処理、モデリングに多くの時間を費やしましたが、企業が期待した価値はもたらしませんでした。問題は何でしょうか? 4Paradigm の機械学習の産業応用における数多くの成功事例と経験に基づいて、プラットフォームの構築、データの処理、アルゴリズムのトレーニングの前に、機械学習を使用してビジネス価値を高めるための最初のステップは何かを分析しましょう。今日はテクノロジー、アルゴリズム、プラットフォームについて話すつもりはありませんが、今日話すことは、機械学習が価値を生み出すプロセスの中で最も重要なステップの 1 つです。 今回は、いくつかの側面からこの問題を分析します。 ***、機械学習は万能薬なのでしょうか?まず、特に強力なテクノロジーである機械学習がどのような問題を解決できるのか、明確に考える必要があります。 第二に、ビジネス上の問題にはさまざまな奇妙な落とし穴がある可能性があります。機械学習で解決できると事前に判断した場合、これらの落とし穴を回避してビジネス上の問題を機械学習の問題に変えるには、どのような変換を使用すればよいでしょうか。 第三に、機械学習に変換できる良い問題がある場合、機械学習の開発リズムをどのように設計し、その入出力比率を見積もり、段階的に問題のモデル化と適用をどのように推進するか。 本日ご紹介したいのは、機械学習のMVPです。 機械学習のための最小限の実行可能な製品 今日のインターネット技術では、MVP(Minimum Viable Product)という概念が受け入れられています。これは、開発チームと設計チームが最小限のコストで製品の実現可能性を最大限に検証することを意味します。この製品の実現可能性とは、需要が本当に存在するかどうか、そして製品が需要を満たす方法が正しいかどうかを指します。 機械学習についても同じことが言えます。機械学習への投資は長期的かつ継続的であり、それがもたらす収益とリターンも莫大です。始める前に、比較的低コストで、機械学習の導入が現在のビジネスに影響を与えるかどうか、価値を生み出す可能性はどれほど大きいかを知りたいと思うはずです。 したがって、実際に機械学習を使用してビジネスを運営する前に、次の 2 つの手順を実行して機械学習 MVP を作成できます。 最初のステップ: 適切なビジネス問題を選択する必要があります。すべての問題が機械学習のフレームワークに当てはまるわけではありません。機械学習に適した問題もあれば、そうでない問題もあります。どのような技術プロジェクト管理においても、良い問題を解決するのに悪い方法を使用する方が、間違った問題を解決するのに良い方法を使用するよりも確実に優れています。 ステップ 2: 機械学習で解決できる問題を見つけた場合、機械学習が最小限の時間と人的コストでその問題を解決し、満足のいく入出力比をもたらすことができることをどのように証明できるでしょうか。 適切な問題の選択: 分類器から始める まず、機械学習がどのような問題を解決するのが得意なのかを見てみましょう。周志華先生の著書『西瓜』から例を挙げましょう。古典的で、シンプルかつ奥深いものです。問題は、スイカが良いか悪いかを判断したいということです。 この質問のビジネス シナリオは何ですか? 取引したり開封したりせずに、スイカの良し悪しをどうやって知ることができますか?知っていれば、同じ価格でより良いスイカを買うことができます。また、私がスイカ商人であれば、一定の基準を持っていれば、商品をより良く管理することができます。 質問に戻りますが、スイカは良いものでしょうか、悪いものでしょうか? これは典型的な機械学習のバイナリ分類問題です。まず、このスイカが美味しいかどうかを判断するためにどのようなデータを使用できるかを調べる必要があります。スイカを買った後と売った後のデータを分析に使うことはできません。例えば、スイカを買った後、開けてみれば美味しいかどうかはわかるので、価値がありません。 だからスイカを壊さずにこれをやらないといけない。この時に使えるデータは、スイカの産地、スイカの食感、重さ、比重、スイカをたたいた時の音が濁っているかパリパリしているか、スイカの皮の食感など。これらのデータはスイカを開けなくても知ることができる。 私たちの目標は今非常に明確になりました。良いか悪いか、良い場合は 1、悪い場合は 0 です。0 から 1 までの数値であるスコアを定義することもできますが、全体として、ラベルと呼ばれる機械学習の目標を設定できます。 適切な問題の選択: 現実世界のモデル これは単純なシナリオのように思えますし、そのようなデータが得られれば、機械学習モデルの構築を試みることができるようです。しかし、現実には、機械学習を使って実用的な問題を解決したい場合、それはそんなに簡単なのでしょうか?現実の世界では多くの落とし穴があることがよくあります。これらの罠とは何でしょうか? ***、スイカの良し悪しをどう定義しますか?大きいですか?甘いですか?皮は厚いですか?果肉はパリパリしていますか?このモデルがスイカを販売する目的で構築されている場合、これらはすべて評価要素になる可能性があり、モデル学習用のサンプルもこの基準に基づいて構築する必要があります。スイカの大きさに基づいてサンプルを定義するだけで、実際の適用シナリオがスイカの良し悪しを総合的に判断することである場合、期待した良好な結果が得られない可能性があります。 第二に、スイカの良し悪しを判断する基準は何でしょうか。科学的な方法や機器を使って測定されているのでしょうか。それとも専門家によって評価されているのでしょうか。後者の場合、評価者は同じ人でしょうか。異なる人であれば、良いスイカを判断する基準は同じでしょうか。実際には異なる可能性が高いため、ラベルの偏りを排除する方法を見つける必要があります。 3 番目に、インターネットのシナリオでは、多くの場合、すべての人の個別のニーズを満たす必要があります。甘いスイカが好きな人もいれば、シャキシャキしたスイカが好きな人もいます。では、良いスイカを見分けるという問題を定義するのは適切でしょうか。良いスイカの定義は人それぞれ異なるため、この問題は、ユーザーにスイカを推奨するという問題に変換される可能性があります。彼 (彼女) はそれを気に入るでしょうか。 4 番目に、実際のアプリケーション環境はどのようなものでしょうか。スイカが手に入った瞬間に、そのスイカが美味しいかどうかを判断するオンラインリアルタイムスイカ分類器が必要だとします。その場合、その時点ですぐに取得できない特徴は使えないのでしょうか。良いスイカを判断する基準が常に変化したり、スイカ自体の特性が常に変化したりする場合、モデルも変化に対応し、新しいデータとフィードバックに基づいて反復処理できる必要があります。これが、モデルの更新を構築する方法です。 単純な問題であっても、ビジネスのあらゆる側面を考慮し、どの要素、マージン、パーソナライズされた要素、インフラストラクチャを考慮すべきかを整理する必要があることがわかります。 適切な質問を選択する: ビジネス上の問題の本質とは スイカのビジネスに戻りましょう。どのビジネスでも機械学習を行えるかどうかは、3 つの要素によって決まります。 ***、このビジネスの目標値は何ですか?ユニークではないかもしれませんが、優先順位があるはずです。この目標は定量化可能でしょうか、フィードバックを収集可能でしょうか、客観的に観察可能でしょうか?客観的な観察とは何でしょうか? 私が甘いと言い、あなたも甘いと言う場合、それは客観的ではないかもしれません。では、フィードバックを提供できる客観的なものはあるのでしょうか? 次に、サンプルはどのように構築すべきでしょうか? サンプルは因果関係 y=f(x) に違反してはならず、x はビジネス シナリオで知ることができる情報でなければなりません。スイカ問題では、スイカを開ける前にわかっている情報だけが x として使えます。同時に、サンプルはビジネス シナリオの実際の状況に適合する必要があります。暗闇の中でスイカを収穫するというビジネスを想定します。スイカの外観は見えず、叩くことしかできず、スイカの色を特徴として使用することはできません。 3 番目に、サンプルの各行は何を意味するのでしょうか。各行はスイカの各測定値を表す必要があります。次に、x として使用するデータを選択する必要があります。これらはすでに明確にしました。 スイカの問題について議論したので、実際のビジネス上の問題を見てみましょう。 1. クリックスルー率の推定 たとえば、私たちが目にする推奨システムの問題は、クリックスルー率の予測です。 レコメンデーション システムの目標は何でしょうか? 最終的な目標はユーザー エクスペリエンスであるはずですが、この目標は非常に幻想的です。これを定量化し、クリック、視聴時間、購入、肯定的なレビューなどの一連の測定可能なデータに変換する必要があります。 次に、どの x があるかを確認します。これらの x は、推奨ランキングを作成したときと顧客がそれを要求したときの時点で私が知っていることを表します。顧客の属性や特徴はわかるし、コンテンツの特徴やコンテキストの特徴もわかるのですが、最終的にそのコンテンツが表示されてクリックされるかどうかはわかりません。この瞬間までにコンテンツが何回クリックされたかはわかりますが、この瞬間以降に何回クリックされたかは絶対にわかりません。それはタイムトラベルになってしまうからです。 y と x を使用してサンプルを作成できます。たとえば、私のサンプルでは、ユーザーに 10 個のおすすめコンテンツを表示します。フィードバックはクリックやビューになる可能性があるため、各サンプル表示はサンプルです。 ここで、興味深い疑問について考えてみましょう。さまざまな機能が問題に与える影響について考えるとき、たとえばディスプレイを例にとると、避けられない疑問は、このコンテンツがユーザーに表示されているかどうかをどうやって知るかということです。 一つのアプローチとしては、この問題について考えないと、モデルが偏ってしまう可能性があります。例えば、このサンプルはクリックされていないと思うかもしれませんが、見られていないとも考えられます。しかし、理想的な状況は、ユーザーの携帯電話の画面に推奨されたサンプルをサンプルと見なすことです。 一歩引いて考えると、表示位置を機能として追加するという別の方法があります。この機能はリクエスト時には存在しませんが、表示とフィードバックにおける位置のずれを吸収します。 2. 履歴書のマッチング もう一つのシナリオ例として、履歴書のマッチングを見てみましょう。履歴書マッチングとはどういう意味でしょうか? 実際に予測したいのは、履歴書を企業に推薦した人がその企業に採用されたかどうかです。これは単純な機械学習の問題のようです。しかし、ビジネス シナリオに戻って考えてみると、この問題はそんなに単純なのでしょうか? コンテンツの推奨の場合、ユーザーがコンテンツをクリックするかどうか、クリック後にどのくらいの時間それを読むかは、すべてユーザーによる一方的な選択です。 しかし、履歴書には2つの選択肢があります。1つ目は、企業が面接と履歴書の選考を通じて、その人が自社に適しているかどうかを判断するというものです。 2番目の選択は応募者自身であり、面接のために会社に行くかどうか、そして会社からオファーを受けたとしても、その会社に入社する気があるかどうかです。 したがって、これは多点双方向の問題になります。この場合、問題を細分化する必要があります。企業が採用する個人と直接やり取りするのではなく、たとえば、企業がこの人を面接に招待するかどうか、この人が企業の面接招待を受け入れるかどうかなど、個別に対応することができます。この方法により、質問に適切に答えることができます。 適切な質問を選択する: 要約 今紹介した MVP ステップをまとめると、機械学習を行う際に最初に行うべきことは、機械学習モデルの構築を急ぐのではなく、この問題のビジネス シナリオが何であるかを真剣に考えることです。 まとめると、機械学習が解決できるビジネス上の問題については、いくつかのポイントがあります。 ***分類/回帰問題に変換できるかどうか。 2 番目の目標は、入手しやすく、客観的で偏りのないデータを取得することです。 3つ目は、問題の予測対象です。因果関係はどのようなものでしょうか。因果関係は単純であればあるほど良いです。原因が複数あり、結果が複数ある場合、または「原因」を説明する関連情報を簡単に入手できない場合は、複数のモデルに分割できますか?特徴は、多くの場合、因果関係を破壊しない限り、因果データ、または直接的な原因ではないデータです。 4 番目は、今詳しく説明しなかったことですが、この問題が実際のビジネス要件であるかどうかです。 実際のビジネスニーズとは、機械学習を使用して予測を行った後、予測結果がビジネスに影響を与えることができるかどうか、この影響ポイントは明確で十分に効果的かどうかということです。ビジネス担当者は、ビジネスへの影響の結果を使用してプロジェクトの有効性を評価するためです。予測結果がビジネスに効果的に影響を与えない場合、モデルが優れていても機能しません。 たとえば、レコメンデーション システムでは、新しいクリックスルー レートを予測した後、クリックスルー レートを逆転させることでビジネスの結果に影響を与えることができます。しかし、もしそれがゲームだったらどうなるでしょうか? この人が明日支払う可能性が 30% あると予測した場合、どうすれば彼に影響を与えることができるでしょうか? 彼に影響を与えることはできるでしょうか? したがって、予測結果をビジネスでどのように活用するか、またその活用によってビジネスが改善されるかどうかを考える必要があります。改善自体が難しいと感じたら、それは誤った要求です。次に、現在機械学習を使用していない企業、使用されている方法とデータ、現在の方法とデータの欠陥は何か、機械学習が何に役立つかについても考える必要があります。 上記の質問に対する明確な答えが得られたら、適切な質問をすることができます。この時点で 80% 成功しており、残りの問題は比較的簡単です。 機械学習への投資 これは、制御可能な人材と資金投資による効果的な機械学習モデルの構築という、MVP の 2 番目のステップです。 では、何が制御可能でしょうか? 1 ~ 3 人月の投資であり、それ以上はリスクが大きすぎます。どのような改善が期待できるでしょうか? ケースバイケースで、業種によって異なります。広告業など、収益の 1% が数百万ドルになる業種もあれば、商業的価値を持つまでに複数回の改善が必要な問題もあります。 機械学習のコスト配分において、最も大きな割合を占めるのは機械学習そのものに費やされています。パラメータ調整、特徴量エンジニアリング、モデル評価、モデル起動などのエンジニアリングタスクに多くの時間を費やす一方で、問題定義やデータ収集にはほとんど時間を費やしていません。これは問題があると考えています。私たちは、機械学習プロジェクトでは、コラボレーションによるものでもサードパーティのプラットフォームを使用するものでも、適切なデータの収集と適切な問題の定義に多額の費用をかける必要があり、これに時間の半分以上がかかる可能性があると考えています。残りの半分の時間は、実際に機械学習モデルの開発に費やされます。 データコストを削減 では、データのコストはどうやって削減できるのでしょうか? 考えるための材料をいくつか紹介します。 *** 必要がない限り、収集したデータのみを使用します。データ収集はコストがかかるものなので、企業のシステムが複雑になればなるほど、データ収集のコストは高くなります。そのため、収集しやすいデータやすでに存在するデータでない限り、検討するだけになります。 次に、新しいデータを開発したい場合、まず考慮すべきことはコストです。新しいデータソースを開発するのはリスクが伴います。機械学習の一番恐ろしいところは、それがアルゴリズムの問題なのか、データの問題なのか、問題定義の問題なのかが明確ではないところなので、MVPの段階で起こり得る問題は少ないほど良いということです。 先ほど、問題の定義で問題を回避する方法を紹介しました。アルゴリズムは、誤って使用されない限り、一般的に問題が発生する可能性は低いですが、データは実際には非常に問題が発生しやすいため、シンプルで信頼性が高く、成熟したデータを使用するようにしています。 3 番目に、モデリング プロセス中に、できるだけ成熟したツールを使用することについて話し合いました。データ処理、特徴計算、アルゴリズムトレーニングのプロセスでは、大量の作業を標準化し、アルゴリズムによって自動的に最適化することもできます。実際に、製品ガイダンス中に多数の落とし穴をまとめたり回避したりできます。私たちが開発を進めている第4のパラダイム プロフェット モデリング プラットフォームは、モデリング プロセスのノウハウを製品にカプセル化することで、ユーザーが操作しやすく、落とし穴を回避し、より効果的に優れたモデルを取得できるようにすることを目指しています。 要約すると、このステップの一般的な考え方は、可能であれば新しいリスクポイントの作成を避け、可能であれば不確実性を減らすことです。 機械学習モデルをレビューするには? さて、上で紹介した 2 つの手順を完了すると、機械学習の MVP がすでに完成しています。機械学習がビジネスに与える影響は、ひとまず結論付けられました。ビジネスが大幅に改善された場合は、おめでとうございます。新しい価値成長ポイントが見つかったことになります。最適化後には、間違いなく改善の可能性が高まります。効果が明らかでない場合は、MVP をレビューして確認する方法について、次の提案があります。 まず、問題の方向性が正しいかどうか、モデルの効果が期待どおりかどうか、モデルの最適化目標が大幅に変更されたかどうかを確認する必要があります。たとえば、最適化目標がスイカがおいしいかどうかである場合、最適化後、購入されるスイカは増えているでしょうか。 そうでなければ、問題は解決されていません。他にはどのような理由が考えられますか? 間違ったターゲットを指定したのか、間違った環境で使用したのか、それともデータに何か問題があったのでしょうか?実は、端的に言うと、ターゲットが間違っているか、モデルの使い方が間違っているか、データに問題があるかのいずれかです。この3点を踏まえてチェックしてください。 実際のビジネスでは、問題を解決すると新たな問題が生じることがあります。例えば、ニュースの推薦システムでは、クリックする人が増えています。推薦によってニュースはより面白くなったのでしょうか? ニュースのクリックはより集中するようになったのでしょうか? これはビジネスが望んでいることではない可能性があり、最適化する方法を継続的に模索する必要があります。 2 番目のステップは、データを確認して、どのデータが重要な役割を果たしているか、経験に基づいて有効であると考えられているが実際にはそうではないデータはどれかを確認することです。次に、これらのデータを再確認し、データが本来の役割を果たせていない原因がデータ品質の問題であるかどうかを確認します。次にどのような新しいデータを導入できるかもわかります。データはバッチで導入され、バッチを追加して、開発が一度に完了します。 3 番目のステップは、上記を確認した後、次の計画を策定することです。多くの場合、新しいデータやより多くのデータが得られます。目標を調整することもあります。目標が間違っている場合は変更する必要がありますが、目標を追加することもあります。目標が 1 つだけでは不十分なので、モデルのバランスをより良くするために、いくつかの新しい指標を追加する必要があります。また、エンジニアリングでは、パフォーマンスを最適化できるかどうかを確認します。 |
<<: DeepTraffic: MIT シミュレーション ゲームがディープラーニングを使用して交通渋滞を緩和
10月30日、主要7カ国(G7)が月曜日に高度な人工知能(AI)システムを開発する企業向けの行動規範...
AI ビデオ生成は、2024 年には次の最先端分野になる可能性があります。過去数ヶ月を振り返ると、R...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[345868]]私はAIニューロンです私はこの世界に生まれたばかりの AI ニューロンです。私...
2021 年 12 月 21 日に arXiv にアップロードされた自動運転のための説明可能な AI...
人工知能(AI)技術の発展により、いつか「超人」的なAIが出現する日は来るのでしょうか?もしそうなれ...
[[270924]]年次評価に基づいて従業員のパフォーマンスを評価する従来のアプローチは、かつては機...
マイクロソフトは現在、チャットボットを開発中との報道もある。将来的に実用化に成功すれば、デジタル技術...
人工知能(AI)はAIと略されます。 AI は、機械に知能を持たせ、人間のように特定の問題を解決する...
昨今、人工知能はますます話題になり、応用されていますが、人工知能、機械学習、マシンビジョンとは一体何...
セルフメディアの時代において、すべてのパブリックアカウントは、自分の記事をより多くの人に見てもらえる...
[[248365]] 7月4日に開催された百度AI開発者会議で、ロビン・リー氏は「以前自慢していた...