はじめに: 機械学習は学術界と産業界の両方でますます重要な役割を果たしていますが、学術界と産業界における機械学習の違いを体系的に説明する情報は現在ほとんどありません。この記事は、著者の 10 年を超える業界経験を組み合わせて、業界の観点からいくつかの考えと概要を提供することを目的としています。どなたでも批判や議論を歓迎します。 業界はまず問題を定義する必要があるこの業界では、私たちが行うすべてのことはビジネス指標に役立ちます。一般的なビジネス指標には、DAU、期間、クリック、エクスペリエンス、広告の改善などがあります。ただし、ここでのビジネス上の問題は、一般的に学術界における分類やクラスタリングの問題に直接変換することはできません。エンジニアは、ビジネスに対する理解に基づいて適切な変換を行う必要があります。たとえば、広告では、収益化の効率を最適化するために、CPM に対応し、CPM = BID * CTR * 1000 となります (これは概算であり、課金モデルが異なるため、一般化された第 2 の価格設定では課金に次の入札を使用するなど、若干の違いが生じる可能性があります)。 BID は一般的に広告主の主観的な行動です。機械学習アルゴリズムは最適化には適していませんが、一般的な CTR 推定である CTR の最適化には適しています。推定は、分類、回帰、またはソートのアイデアを使用して行うことができます。広告に対するユーザーの主観的なフィードバックはクリックするかどうかであることを考慮すると、モデルは回帰ではなく分類されます。ランキングがあまり使われないのは、CTR の絶対値も非常に重要であり、入札ランキングや課金に必要となるためです。 オンライン環境は常に変化している学術の世界では、機械学習は一度学習すれば次回からは心配する必要のない、一度限りのタスクです。産業界では、製品は常にオンラインであり、学習して機能する環境は常に変化しています。機械学習は継続的な最適化のプロセスであり、非常に興味深い疑問が浮かび上がります。学習の適時性を確保し、環境の変化に適応するために継続的に学習するにはどうすればよいでしょうか。短期的に観察される利益は、長期的に見て本当に効果的でしょうか?歴史上効果が実証されたものは、今でも効果があるのでしょうか?これまでは利益をもたらさなかったが、現在は機能する可能性のある最適化はありますか?現在のモデル A の影響を受けた動作に基づいて、新しいモデル B を学習しました。モデル B はうまく機能したため、モデル A に置き換えられました。しかし、モデル B が動作する環境が変化し (モデル A の影響を受けなくなった)、この変化はこれまでシミュレートできませんでした。どうすればよいでしょうか。 問題を解決するために使用できるアルゴリズムは複数あります学術界では、論文を発表する際の一般的な手順は、まず一連のアルゴリズムの欠点を分析し、次に特定の点の発見に基づいて新しいアルゴリズムを発明し、最後に実験を使用してこのアルゴリズムの有効性を検証することです。産業界では、問題解決へのアプローチがまったく異なります。どのアルゴリズムが優れているかを心配する必要はなく、問題を解決するために 1 つのアルゴリズムに限定する必要もありません。逆に、同じアルゴリズムの統合、異なるアルゴリズムの統合、さらにはアルゴリズムを連結するなど、多くのアルゴリズムを使用して同じ問題を解決できます。アルゴリズムの相互依存関係によって問題を解決できる場合は、すべて可能です。学術界におけるアンサンブル学習に関する関連研究でも、アンサンブル学習は特定の問題に対してより効果的であることが多いことが明らかになっています。私の観察では、優れたアルゴリズム エンジニアは通常、独自のアルゴリズム ライブラリを持っています。問題が発生すると、複数の異なるアルゴリズムを同時に試し、基本的なソリューションをすばやく組み立てることができます。 機械学習アプリケーションの効果を定量化する方法学術界では、アルゴリズムの有効性を評価するために、AUC、精度、再現率、F値などの指標がよく使用されます。これらの指標は、特定の次元でのモデルのゲインを反映できますが、業界では、これらの指標がビジネス指標への影響を直接反映できないことがよくあります。たとえば、CTR モデルの AUC が増加した場合、オンライン CTR と CPM がどの程度増加するかは不明です。さらに、AUC が増加すれば、オンラインビジネスの主要指標も確実に増加するのでしょうか?これは不確実な場合が多いです。全体的な AUC が増加しても、トップ ソート効果が向上したわけではありません。フィルタリングしきい値以下の部分のみが改善された可能性があり、これはオンライン プロセスにとって実用的な意味を持ちません。1 つの指標の増加が他の指標に予測できない影響を与える可能性があり、全体的なプロセスが依然としてオンラインにならない可能性があります。さらに、オンラインモデルと戦略は並行して開始されることが多く、異なるアルゴリズムエンジニアの作業が互いに影響を及ぼし合うことになります。このとき、互いの影響を最小限に抑え、自分の小さな部分の最適化によってもたらされる客観的な利益をより現実的に反映するために、優れた実験メカニズムを設計する必要があります。 1) より慎重なサンプルエンジニアリングが必要 業界では、Y ラベルの選択はビジネス指標に直接関連している必要があり、サンプルは機械学習の最適化の目標と方向を直接決定します。たとえば、クリックスルー率を最適化したい場合、Y ラベルは当然クリックまたはクリックなしになります。しかし、多くの場合、Y を学習するには、まだ何らかの必要な処理が必要です。たとえば、再生時間を最適化したい場合、ビデオによっては長いものもあれば短いものもあるため、Y ラベルを視聴時間として直接定義するのは適切ではない可能性があります。また、現在、ユーザーは基本的にモバイルで製品を使用しています。ユーザーが置かれている環境は非常に不確実であり、ユーザーの行動の信頼度も異なります。例えば、真剣にスマホを閲覧するときと、気軽に閲覧するときでは、興味のないスキップしたコンテンツの信頼度が明らかに異なります。見落とされがちなもう 1 つのポイントは、成功した製品には複数の関係者の利益が関係しており、多くの動作は通常のユーザーによって引き起こされるものではない可能性があるということです。これらの動作をどのように区別し、モデリング時にどのように扱うかは、非常に興味深い問題です。 2) より高度な機能エンジニアリングが必要 学術界では、評価アルゴリズムは一般的に標準データセットを使用します。これらのデータセットの特徴はすでに生成されており、独自のアルゴリズムモデリングに入力するだけで済みます。産業界では、特徴量はアルゴリズムエンジニア自身によって処理され、処理元は特定のデータソースに限定されず、ほぼオープンなデータシステムになります。これらのデータ ソースに基づいて、データの関連付け、データ マイニング、機能の組み合わせと選択を継続的に実行できます。アルゴリズム エンジニアは、独自の経験を活用して、新しい機能、機能の組み合わせを考え、新しいデータを導入する必要があります。実際、機械学習プロセスでは、特徴エンジニアリングがほとんどの時間を占めます。Andrew Ng 氏も最近の共有で同様の点を指摘しました。さらに、異なるシナリオ間でも大きな違いがあります。画像やテキストの分野では、入力は基本的に確実であり、私たちが目にするのは完全な入力である元の情報だけです。一方、レコメンデーションやマーケティングの分野では、入力は不確実です。理論的には、ユーザーの意思決定に影響を与えるすべての要素がモデリング効果に影響を与え、ここでの特徴エンジニアリングはより複雑になります。 異なる学習課題の結合は避けられない業界には、機械学習タスクの入力が別の機械学習タスクの出力になるという特殊なデータ結合現象があります。この結合は、次の理由によりほぼ避けられません。分業と協力により、アルゴリズム チームには多くのエンジニアがおり、全員が異なる問題を個別に解決します。単一タスクの学習可能性の観点から、その学習はタスク自体に集中する必要があり、他の目標と混在してはなりません。そうしないと、学習の複雑さが増します。アーキテクチャのシンプルさの観点から、階層化とモジュール化は非常に自然なアーキテクチャ設計であり、レイヤーとモジュール間の依存関係も自然です。しかし、機械学習では、このようなデータ結合は非常にリスクの高いものです(ソフトウェアエンジニアリングのコード結合とは異なります)。下流では上流に問題が発生しないことを保証できないためです(大きなバグではなく、データ分布の変更だけである可能性があります)。現時点では、このリスクをどのように軽減するかが非常に重要です。 最適化の目標は一つではない学術界では、問題が特定された後、最適化の目標は一意であることが多く、研究者はこの指標を最適化するだけで済みます。産業界では、ビジネスには、DAU、クリックスルー率、期間、完了率、多様性、コールドスタート率、トップVの安定率、広告効率など、多くの重要な指標があることがよくあります。これらの指標は個別に分類できますが、相互に影響し合うことがよくあります。この影響は非常に複雑な関係です。単純に関連しているわけではなく、独立しているわけでもなく、互いに結びついており、説明するのさえ困難です。機械学習を使用して各問題を個別に攻撃することはできますが、学習したモデルを適用する際には、それらを組み合わせなければなりません。これにより深刻な問題が発生します。つまり、1 つのポイントを非常によく学習できたとしても、組み合わせて使用すると、他の指標に予期しない悪影響を与える可能性があります。すると、当然次のような疑問が湧いてくるかもしれません。なぜ多目的の問題を解決し、機械学習を直接使用しないのか?もちろんできます。一緒にモデルを学び、互いに助け合うのは良いことですが、よく考えてみてください。これで本当に多目的結合や競合の根本的な問題が解決されるのでしょうか? 産業界における機械学習は制約がある機械学習システムが解決しなければならない中核的な問題は、どのようにモデル化して起動するかですが、その入力と出力は業務システムに依存します。それらと既存の業務システムとの相互作用がスムーズであるかどうかは、学習効果を直接決定する重要な要素です。この前提の下では、ビジネス システムの元々の制約の一部が機械学習システムに直接追加されます。たとえば、ビジネス バックエンドが C++ である場合、機械学習システムも C++ で記述する必要があります。これにより、多くの不要な互換性の問題が軽減されます。もう一つのポイントは、機械学習システムは業務システムの後に構築されることが多く、業務システムの変革が必要になることです。例えば、必要な動作の追跡ポイント、データ報告チャネル、ダウングレード処理など、すべて繰り返し検証する必要があります。最後に、ビジネスシステム自体のパフォーマンスは常に最優先であり、この前提の下では、モデルのパフォーマンスに対する要件は基本的に固定されています。この前提の下で特徴処理、モデル予測などの操作を完了するには、パフォーマンスとアプリケーション効果のバランスを取り、現在の状況に最も適したアルゴリズムを選択する必要があります。これが、LRが業界でかなり長い間主流のアルゴリズムとなっている理由です。 1、2 時間書き続けた後、まだ議論すべき新しい点がたくさんあることに気付きました。時間の都合上、本日はここまでとさせていただきます。これが前編となります。次回もどうぞお楽しみに。 |
>>: AI時代には、ナレッジグラフとナレッジマネジメントの二重の価値を活用する必要がある
1. JSP フォーラムのデモテーブルの構造: テーブル名: mybbslist フィールド データ...
[[415476]]この記事はWeChatの公開アカウント「Magic Programmer K」か...
産業用IoTにおける機械学習の応用産業用 IoT (IIoT) に機械学習を適用すると、企業の予測分...
人工知能の急速な発展を背景に、特定のタスクを実行するためのモデルのトレーニングは常に困難な作業となっ...
現在、企業は機械学習を使用することで、予測エラー率、需要計画の生産性、コスト削減、納期厳守において ...
老朽化するインフラ、コスト圧力、変動する利益率、規制の監視などにより、より効率的で強力なメンテナンス...
太陽光パネルには常に埃や汚れなどのゴミがたまります。また、高層ビルの屋上や遠隔地に設置されていること...
データ構造とアルゴリズムを学習していたとき、ソートアルゴリズムをアニメーションで表現して、理解しやす...
これは歴史上最も急速に成長している新技術です。生成 AI は世界を変え、画像、ビデオ、オーディオ、テ...
昨日12月8日、華為技術有限公司は「異常運転行動を識別する方法」の特許権を取得し、公開番号はCN11...
[[400873]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
最近では、セキュリティ業界のほぼあらゆるところで人工知能 (AI) の話題が取り上げられています。確...
6月6日、2021年世界人工知能技術大会の「発展と課題」特別フォーラムが杭州で開催された。快手テク...