機械学習はビジネスシナリオにどのように適用されますか? 3つの実際のビジネスプロジェクト

機械学習はビジネスシナリオにどのように適用されますか? 3つの実際のビジネスプロジェクト

国府如和の長年にわたる指導過程において、多くの学生が次のような質問をしました。

機械学習は実際のビジネスの世界でどのように応用されているのでしょうか?

つまり、今日ではさまざまなアルゴリズムの記事やチュートリアルが溢れていますが、企業における機械学習プロジェクトの「コンテキスト」が常に欠落しているのです。

本日、ヤン教授は、機械学習とデータサイエンスが実際にどのように機能するかを学生がよりよく理解できるように、最近収集した実際のエンタープライズ機械学習プロジェクト 3 つを学生に紹介します。

01. eBayで偽造品や盗難品をスキャンする

このプロジェクトは、米国部門からのフィードバックからヒントを得て生まれました。これはエンターテイメント業界の会社です。守秘義務契約により、講師は会社名を明かすことができません。同社には、eBay などのショッピング サイトを検索して、顧客のブランドが付いた盗難品や偽造品がないか調べる専任のアナリスト チームがあります。

[[424397]]

eBay に掲載されている何百万もの商品のうち、企業にとって興味深いのはほんの一部にすぎません。次に、分析チームは、関連するキーワードを含む Web ページをクロールし、Web ページの画像を特定のフォルダーに保存するクローラー アルゴリズムを起動しました。チームは毎日、関連ポータルにログインし、画像をクロールして確認し、会社の著作権を侵害していないかどうかを判断します。これは非常に高価ですが退屈なプロセスです。画像を確認するための人件費がかかるため高価であり、確認作業自体は技術的な内容はあまり必要ありませんが、非常に時間がかかるため退屈です。しかし、この問題は、少しの機械学習で大幅に改善することができます。

恥ずかしいことに、コンピューター ビジョンについて議論する非常に多くの記事が、猫と犬、車とバイク、手書きの数字など、いくつかの「無関係な」問題に焦点を当てています。しかし、このプロジェクトでは、画像内の著作権侵害を探す必要がありました。

問題を解決するためにどの機械学習アルゴリズムを使用するかを決定することは多くの場合複雑であり、このプロジェクトも例外ではありませんでした。一方では、侵害または非侵害としてラベル付けされた大量のデータがあり、その場合、これが教師あり分類問題であることが簡単にわかります。では、ニューラル ネットワーク アルゴリズムを試してみませんか?

一方、ポータルの設計上(画像ではなくリンクのみを保存)ネガティブな情報を取得するには時間がかかるため、データセットは限られています。さらに、企業ロゴは他の企業ロゴと一緒に画像に表示されることが多く (著作権侵害は微妙な場合が多い)、十分に深いニューラル ネットワークは、単一の企業のロゴではなく、類似の商標の存在を認識する可能性が高くなります (ニューラル ネットワークがジャーマン シェパードだけでなくすべての犬種を認識することが多いのと同じです)。この場合、重要なのは、分類ではなくオブジェクト検出のために、より浅い畳み込みニューラル ネットワークをトレーニングすることです。これにより、ネットワークはロゴ全般の特徴を学習できなくなり、ロゴ固有の特徴を学習するようになります。 (この2つの単語は明らかに英語でより正確に表現されるため、翻訳は提供していません)

CNN (畳み込みニューラル ネットワーク) アルゴリズム自体は成熟しているため、このプロジェクトの鍵となるのは、ターゲット検出をトレーニングするためのトレーニング セットを生成することです。元のトレーニング セットからのさまざまな角度と配置、さまざまな傾きと配置の多数の画像で構成する必要があり、各画像には検出するオブジェクト (ロゴ) の周囲に境界ボックスが含まれます。トレーニング セットの作業を完了するために多大な労力を費やした後、このプロジェクトのフォローアップ作業も正常に完了しました。

02. 小売店が強盗に遭うかどうかを予測する

このプロジェクトは、私たちが協力している多国籍小売チェーンの会社から始まりました(これも秘密保持契約に基づいており、ここでは会社名を明かすことはできません)。同社は、安全性の低い地域も含め、世界中に支店を持っています。したがって、過去の窃盗事件に基づいて窃盗リスクスコアを生成するアルゴリズムを構築する必要があります。

事業の性質上、店舗の特定の特徴(割れやすい窓など)ではなく、周辺地域の犯罪の増加により盗難のリスクが高まると事業者は考えています。

このアルゴリズム ツールは、盗難を直接防止するために設計されたものではなく、盗難による損失を減らすために固定予算を店舗ポートフォリオ全体にどのように割り当てることができるかを評価するために設計されています。したがって、アルゴリズムの出力は、各セキュリティ機能を更新することによる利点、または推奨エンジンのように、どのセキュリティ機能を更新するかに関する推奨事項である必要があります。

最後の例と同様に、問題を解決するための鍵を見つけることが最大の課題の 1 つです。分析チームはまず、複数のイベントに対応できるように Cox 比例ハザード モデルをカスタマイズして、生存分析を試みました。さまざまなセキュリティ施設の防御力に関する洞察を提供するという点では優れていますが、顧客が特定したい重要な要素である地理的要因を特定するという点では、非常に不十分です。

最終的に、分析チームは、より長い期間の予測では長期リスクを過大評価する可能性が高いという問題に対処するために、各期間のトレーニング セットの日付範囲を固定して、クライアントが識別したい要素ごとに個別の分類器 (XGBoost を使用) を構築することを決定しました。次に、これらの要因を回帰モデルに入力して各小売店の推定損失を計算し、この指標(地理的指標と組み合わせて)を使用して具体的な推奨事項を生成しました。

03. 1億5000万人の訪問者にコンテンツを推奨

無限スクロール (一般に無限スクロール モードと呼ばれる) では、無限ドロップダウン モードを使用して、表示する類似アイテムが多数あるページで、ユーザーが次のページをクリックしてさらにコンテンツを取得することを防ぐことができます。たとえば、Toutiao の Web サイトを開くと、ずっと下にスクロールできます。ページの一番下までスクロールすると、さらに多くのニュース項目が読み込まれます。

以前、弊社の米国部門と長期にわたって提携していたウェブサイトが無限スクロールモードに切り替えましたが、最後までスクロールした後に次にどの記事を表示するかが不安でした。当初、同社の分析チームは、強化学習に非常によく似たアプローチ、つまり最も人気のある 10 件の記事から 1 つを選択するか、ランダムに選択するアプローチを考案しました。

残念ながら、このアイデアでは期待していたコンバージョン率は得られず、無限スクロールによって広告のクリック数が大幅に減少しました (ユーザーにとってはより優れたエクスペリエンスであったにもかかわらず)。

その後、分析チームは単語埋め込みとユーザー埋め込みを使用して、最も人気のある記事だけでなく、ユーザーの興味に合った記事を提供する協調フィルタリング推奨エンジンを構築しました。

このプロジェクトの最大の課題は、どのアルゴリズムを使用するかを選択することではなく、膨大な量のデータを処理することでした。つまり、無限スクロール エクスペリエンスの本質である、システムが推奨事項を非常に迅速に返すようにする必要がありました。

もう 1 つの課題は、データの収集とバックアップです。各ユーザーの行動には抽出できる特徴が多数あるため、ストレージ コストが急激に増加することなくこの情報を保存する方法を見つける必要があります。

分析チームは、埋め込みマトリックスのサイズを縮小するために、モデルをサイト、カテゴリ、ユーザー情報ごとに分割することを決定しました。管理性を高めるためにさまざまな次元削減技術も導入されており、システムは厳密に監視され、バックアップの理想的な期限が決定されます。

要約する

上記の 3 つのプロジェクトを通じて、学生は多くの場合、アルゴリズムの選択とパラメータの調整が企業における機械学習プロジェクトの最も重要な段階ではないことがわかります。顧客のニーズ、データの種類、計算速度、予測される使用量、さらにはデータベースの最適化もプロジェクトの成功に影響を与える可能性があります。

<<:  産業オペレーションの深化が人工知能コンピューティングセンター構築の鍵

>>:  0からNまで、ハンワンテクノロジーが再び人工知能のトレンドに火をつける

ブログ    

推薦する

我が国は人工知能などの主要な技術標準に関する研究を強化します

標準は経済活動や社会の発展を技術的に支えるものであり、人々の生活に深く関わっています。最近、中国共産...

日常生活における生体認証技術の応用

デジタル時代では、ほとんどの人が生活の大部分をモバイル デバイスで過ごすため、セキュリティの必要性は...

人工知能が中小企業にもたらす5つのメリット

[[328993]] 【51CTO.com クイック翻訳】 AI 市場のトレンドはどのくらいの速さで...

生成型AIとデータが未来の産業をどう形作るか

私たちは、生成型 AI の出現によって推進される技術革命の真っ只中にいます。 これは単なる技術の漸進...

職場環境は依然として変化しているが、AIは「古いオフィス」を再現する以上の可能性を秘めている。

私たちは職場における技術革命の真っ只中にいます。 1か月ちょっと前に世界の人口の3分の1が隔離された...

効率的な整数計画法ソリューション、Kuaishouは多変量因果森林モデルを提案し、インテリジェントなマーケティング効果が顕著です

一定額以上の購入に対する Meituan のクーポンや Taobao のショッピング紅包などのスマー...

将来、自動運転車が世界をどのように変えるか

北京時間12月6日、海外メディアの報道によると、克服すべき障害はまだ多くあるものの、自動運転車の技術...

...

2018 年のビッグデータ、機械学習、人工知能の予測!

AI へのビッグデータ投資は減速の兆しを見せていません。今後 1 年間の予測をいくつかご紹介します...

AIがITサービス管理をどう変えるか

SF映画に登場する人工知能(AI)ロボットは、通常、非常に賢く器用です。 [[276115]]人工知...

AI+サイエンス: PaddlePaddle をベースにした AlphaFold2 でタンパク質構造予測を実現

1958 年、FHC クリックは、生物学における重要なセントラルドグマである DNA -> R...

...

相関関係は因果関係ではない。ディープラーニングによりAIは「10万のなぜ」を問うことができる

[[274938]]ビッグデータダイジェスト制作出典: searchenterpriseai編纂者:...

GenAIの変革力は職場に知識をもたらします

GenAI は破壊的な力を持っていますが、どの程度破壊的なのでしょうか? 「大きなものになる」ことは...