売上高2,684億元の背後にあるアリババのAI技術の全貌

売上高2,684億元の背後にあるアリババのAI技術の全貌

先日終了した双十一では、天猫の取引額は2,684億元に達し、前年比25.7%増加した。この成果の裏には、クラウドコンピューティングや人工知能などの技術と、アリババのエンジニアたちの努力が大きく貢献しています。現在開催中のAIConグローバル人工知能・機械学習技術カンファレンスで、アリババクラウドインテリジェントコンピューティングプラットフォーム部門の研究員であるリン・ウェイ氏が、飛天AIプラットフォームに基づくアリババの人工知能技術と機能を紹介し、ダブル11の大規模取引シナリオにおけるアリババの人工知能技術の謎を解き明かした。

人工知能エコシステムの開発動向

みなさんこんにちは。私の名前はリン・ウェイです。本日の講演のテーマは「AI が無限の可能性を突破 - 5 億人の消費者のためのクラウド上のダブル 11」です。私はシステム分野の出身ですが、最近のカンファレンスで、システム分野の出身者が AI を学び始めている人が増えていることに気づきました。 1990 年代後半の流行の時期に、私は学校の人工知能研究室で働く機会がありました。当時、私はまだモデル効果に苦戦していました。結局、考えすぎていたことに気づきました。私が作ったものは、使えるものとはほど遠いものでした。その後、AIはしばらく沈黙していましたが、近年になって再び人気が高まっています。私がいくつかの学校でコミュニケーションを取っていたとき、多くの学生がAIアルゴリズムを勉強していることに気づきました。しかし、実際には、ニューラルネットワーク、遺伝的アルゴリズム、シミュレーションアルゴリズムは何年も前から登場していました。近年の爆発的な成長の主な理由は、データとコンピューティングパワーの向上です。

クラウド コンピューティングも、この点で大きな役割を果たしています。コンピューティング能力が高まれば、より効果的なモデルを構築できます。これは、Alibaba が 2009 年にクラウド コンピューティングに積極的に投資した重要な理由でもあります。 Alibaba Cloud について言えば、実は Alibaba Cloud の最大の顧客の一つは Alibaba 自身の電子商取引事業であり、Alibaba の電子商取引の年間を通じて最も重要なイベントは Double 11 です。

ここ数年、アリババのダブル11の売上は徐々に増加しています。その背後にあるより深い理由は、私たちがコアシステムの100%クラウド移行を達成したことです。クラウドに移行した後、AIはコンピューティングと切り離せないことがわかりました。強力なコンピューティングパワーがあって初めて、AIテクノロジーを使用して効率を向上させることができます。Double 11は良い訓練の場です。この規模で、どのようにシステムを構築し、データを処理し、データの背後にある価値を迅速に掘り出すか、それが私たちが考えていることです。

全体的な傾向としては、次の 3 つの要因が見られます。

1つはリアルタイムです。 ダブル11は1日だけなので、データを理解し、タイムリーに商店主にフィードバックを提供する必要があります。リアルタイムのパフォーマンスは非常に重要です。ダブル11大画面の背後にあるサポートシステムは、Flinkを使用してリアルタイムコンピューティングを実現します。売上高だけでは意味がないかもしれません。ユーザーの購買意欲、製品カテゴリ、供給販売比率、チャネル、保管場所、商品の供給元など、より詳細な指標を取得するには、リアルタイム分析を行う必要があります。リアルタイム分析を通じて、小売業者、宅配会社などにタイムリーなフィードバックを提供し、関係者全員がダブル11の戦略を明確に調整できるようにする必要があります。今年のダブル11期間中、売買メッセージ、速達依頼など、1秒あたり25億5千万件のメッセージを処理することができました。

2つ目は規模です。 リアルタイムのフィードバックが必要なだけでなく、ダブル11後には銀行や加盟店との詳細な調整も行う必要があります。今年は、クラウド プラットフォームの柔軟性により、すべてのレポート作成をわずか 1 日 (11 月 12 日) で完了することができました。このような大規模になると、商店のサービス効率も問題になります。以前は、商店は電話やウェイターを使って人間が接客していました。現在、この規模では、商店に接客し、速達を支援するために AI 技術が必要です。たとえば、ロボットがユーザーに「家にいますか?」と尋ねるかもしれません。荷物をどこに置きますか?誰もがこれまで抱いてきた印象では、AIは生活から遠い存在でしたが、アシスト付き速達は、タオバオのホームページ上でのパーソナライズされたおすすめなど、ユーザーにより良い体験をもたらすことができる非常に特殊なシナリオです。

現在、Taobaoのおすすめにもダイナミックカバーがいくつかあります。これは、私たちが1日に2億5000万本の動画を分析したためです。Taobaoには、短い動画を使って商品を販売したり宣伝したりする人もたくさんいます。私たちは2億5000万本の動画を分析し、最終的に1日の平均商品分析は1億5000万本に達しました。その日に動画を通じて商品を購入した人の数を数えてみたところ、平均有効継続時間は120秒であることがわかりました。この新しいテクノロジーにより、新しいシナリオが実現可能になります。

3つ目はAIです。 これらすべての背後にはデータの力があります。ダブル 11 イベント全体は AI とデータによって推進されています。リアルタイム性、スケーラビリティ、AIが相互に補完し合い、ダブル11の効率とコンピューティング処理能力が大幅に向上しました。これが、2,684億円の売上高を支える技術力です。

クラウド上のDouble 11のAI機能

テクノロジーそのものに戻ります。 2017 年以前のシステムは比較的シンプルで、データ処理とレポート生成のタスクが多かったです。 1 年半前、私たちはより多くのリアルタイム機能を追加し、リアルタイム データを使用してビジネス上の意思決定をサポートし始め、MaxCompute が誕生しました。

現在、全体的な技術的背景は非常に複雑です。当社には、グローバルなデータ統合を実行できる非常に優れたコンピューティング エンジンがあり、ソース データ管理、タスク管理、インテリジェント データ開発、データ合成ガバナンスの機能を統合しています。

結局のところ、AIとコンピューティングは共生関係にあり、AIの繁栄はコンピューティングパワーの蓄積にかかっています。そのため、分析と抽出のための優れたデータ処理プラットフォームが必要であり、また、さまざまなモデルや機械学習の構築方法を試して人工知能の効率と精度を向上できるかどうかを確認するなど、アルゴリズムエンジニアの革新に役立つ必要があります。

企業はどのようにしてクラウド上に AI 機能を構築できるのでしょうか?

上記は主にAIのシナリオです。次に、これらのシナリオの背後にあるAIテクノロジー、主にFeiTian AIプラットフォームに焦点を当てます。上位層はPAIとオンライン推論サービスEASで、その後DSW開発プラットフォーム、PAI Studio、自動学習の3つの部分に分かれています。トレーニング最適化エンジンと推論最適化エンジンに基づいて、大規模な分散データ処理の問題を解決します。

さらに、ユーザー行動ログに対してリアルタイムおよびオフライン計算を実行し、特徴ライブラリを抽出し、バッチおよびストリーム統合サンプルを生成し、サンプルライブラリを入力し、最後にバッチおよびストリーム統合モデルトレーニングを実行できるオンライン機械学習システムも備えています。なぜこれをやるのでしょうか?理由の1つはリアルタイム性です。従来の検索は非常に鈍感ですが、ユーザーの興味の変化を追っています。2週間ごとにモデルを更新すると、売れ筋商品を数回見逃してしまう可能性があります。ディープラーニングに非常に近いオンライン機械学習を通じて、リアルタイムの判断を行う必要があります。非リアルタイム状態では、エンジニアは特徴エンジニアリングを非常に細かく実行し、データの理解に多くの時間を費やし、専門家の抽出に頼るのではなく、ディープラーニング自体の特性を利用してデータ間の関係性を捉えることができます。これはディープラーニングの利点ですが、完了するには膨大なコンピューティングが必要です。オンライン機械学習システムは、ダブル11のログを収集のためにリアルタイムコンピューティングプラットフォームに速やかに配信し、分析を通じてデータをIDごとに集約してサンプルを形成します。最後に、サンプルに基づいて増分学習、検証、展開を実行します。この方法でのみ、モデルを迅速に更新して、ユーザーやビジネスの変化に適応することができます。

このプロセスで私たちが直面した 2 番目の課題は、モデルが非常に大きいことでした。モデルは各個人に合わせて調整する必要があったため、スパース シナリオ用の非常に大規模な分散トレーニング セットが必要でした。現在のオープンソースの機械学習フレームワークは、スケール要件を満たすにはほど遠く、スパースなシナリオで大規模なデータをトレーニングするには、多くの最適化を行う必要があります。ディープラーニングについてある程度の知識があれば、ディープラーニングでは非常に大規模で細分化されたグラフを記述できることを知っているはずです。グラフの計算と通信のバランスをより良くするためにグラフをどのようにカットするかは、検討する必要がある問題です。

通信オペレータの融合と通信コストに基づくオペレータプッシュダウンにより、分散グラフ最適化技術を実装しました。実行中のフレームワークの最適化は、次の図に示すように、スレッド ライブラリや Share Nothing 実行フレームワークなどの効率的なメモリ割り当てライブラリ、Spares 機能を使用した通信、非同期トレーニング、通信と計算の完全なオーバーラップ、フォールト トレランス、部分的なチェックポイント、自動スケール、動的埋め込み、および大規模な勾配オプティマイザーのサポートによって実現されます。

最適化後、パフォーマンスは 7 倍向上しました。スパース特徴の規模は数十億から数百億に増加し、サンプル数は数百億から数千億に増加し、数千億のワーカーの分散増分トレーニングが行われます。

ダイナミックカバーレベルでは、大量のビデオファイルを分析しました。ビデオは多くのリンクを含むため、写真よりも複雑です。ビデオを前処理してビデオフレームを抽出する必要がありますが、すべてのフレームを抽出することは不可能です。そのためのコストが高すぎます。ビデオのキーフレームを抽出し、画像認識とターゲット検出を通じて抽出する必要があります。これは非常に複雑なタスクです。そこで、ビデオ分析およびアルゴリズムエンジニアが問題を解決できるように、ビデオプラットフォームを開発しました。具体的なアーキテクチャを下図に示します。

ビデオの場合、オンライン サービスは実際には分解と合成の両方を伴い、非常に複雑です。ビデオは最初に分解され、次に理解および抽出され、最後に合成されます。ビデオ PAI-EAS オンライン サービス プラットフォームを使用すると、アルゴリズム エンジニアは、インターフェイスを介して対応するサービスを呼び出すための簡単な Python コードを書くだけで済むため、イノベーションに費やす時間を増やすことができます。

上記のシナリオに加えて、プラットフォーム全体で最も重要なことは、アルゴリズムエンジニアによる大規模なイノベーションをサポートすることです。 5年前、アリババのアルゴリズムモデルは非常に価値がありましたが、アルゴリズムを書く人は多くありませんでした。ディープラーニングの進化に伴い、ますます多くのアルゴリズムエンジニアがモデルを構築するようになりました。これらのニーズをサポートするために、AI 自動化を実装し、アルゴリズム モデリング担当者がビジネス モデリング自体に集中できるようにし、システムがインフラストラクチャ (PAI) を使用して、ビジネス モデルの効率的で高性能な運用と実行を完了できるようにしました。

ディープラーニングに関しては、フロントエンドとバックエンドの最適化を個別に実行しました。私たちは、コンパイル技術とシステム技術サービスを通じてグラフ最適化、タスク分割、分散スケジューリング、データシャーディング、モデルシャーディングを実現し、システムモデルを通じて最適なソリューションを選択して実行したいと考えています。これが、PAI のプラットフォーム全体のコンセプトです。 PAI-Blade の一般推論最適化フレームワーク全体は、次の部分に分かれています。

一連の改善を通じて、いくつかの最適化の結果も達成されました。当社には非常に大規模なクラスターがあり、クラスターが十分に大きい場合、再利用を非常にうまく実現できます。リソース スケジューリングとエンジンの調整により、GPU クラスターの使用率を 30% 向上できます。

さらに、当社の AI サービスの多くには、PAI EAS と呼ばれるオンライン サービス フレームワークが搭載されています。このフレームワークはクラウド ネイティブであり、クラウド プラットフォーム自体のスケールとスケーラビリティをより有効に活用して、Double 11 の膨大な AI リクエストをサポートできます。なぜなら、ダブル11ではビジネスデータや購買データが急増するだけでなく、AIリクエストも急増するからです。例えば、当日のスマートカスタマーサービスやCainiao Voiceのサービス量は非常に多く、クラウドプラットフォームの機能を活用することで、より良い体験を提供することができます。

要約すると、これらのテクノロジーは Alibaba のすべての BU をサポートし、5,000 以上の単一タスク、数万台のマシン、数千の AI サービス、および 1 日平均 10 万件を超える通話量の分散トレーニングをサポートします。最後に、アリババのダブル11の成長は、AI技術の成長とデータの爆発的な増加と密接に関係しています。

ゲスト紹介:

Lin Wei 氏は Alibaba Cloud インテリジェント コンピューティング プラットフォーム部門の研究者です。ビッグ データと超大規模分散システムで 15 年の経験があります。Alibaba のビッグ データ MaxCompute と機械学習 PAI プラットフォームの全体的な設計とアーキテクチャを担当し、MaxCompute 2.0、PAI 2.0、PAI 3.0 の進化を推進しています。 Alibaba に入社する前は、Microsoft Big Data Cosmos/Scope のコアメンバーとして、Microsoft Research で分散システムの研究に従事し、分散 NoSQL ストレージシステム PacificA、分散大規模バッチ処理 Scope、スケジューリングシステム Apollo、ストリームコンピューティング StreamScope、分散機械学習 ScopeML に注力していました。彼は、ODSI、NSDI、SOSP、SIGMOD などのトップ システム カンファレンスで 10 件以上の論文を発表しています。

<<:  この世界的に有名な旅行ウェブサイトは、150の独自の機械学習モデルを分析し、6つの教訓を学びました。

>>:  Text2Image: NLP への新しいアプローチ

ブログ    
ブログ    

推薦する

...

...

日本の量子コンピューティング戦略:2030年までに量子技術ユーザー1000万人を目指す

量子時代が到来し、世界は安全・安心な暮らしとより良い社会の実現への期待が高まっています。 最近、日本...

最新の軌道予測の概要:基本的な定義からさまざまな方法と評価まで

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

強化学習と3Dビジョンを組み合わせた新たなブレークスルー:高性能オンラインパレタイジングロボット

国立防衛技術大学、クレムソン大学、Seebit Robotics の研究者らが協力し、深層強化学習を...

自動運転によって交通事故はどれくらい減らせるのでしょうか?

自動運転技術の発達により交通事故の発生率を減らすことができるのは確かです。しかし、交通事故を完全に避...

AIに感情を与えることは本当に重要なのでしょうか?

「合成感情」は人工知能の発展を妨げるのか?私たちは他の人とコミュニケーションをとるとき、通常は直接...

単語の段落により、モデルは「システムプロンプト単語」を明らかにすることができます。 ChatGPTとBingも例外ではなかった

リリースされるや否やネットワーク全体を驚かせたChatGPT音声ダイアログ——ガガは、その自然で流暢...

実験により、人工知能がパスワードを簡単に解読できることが証明された

[[204299]]先週、信用調査会社エキファックスは、同社のシステムに保存されていた1億4,300...

...

ランサムウェア対策における人工知能の重要な役割

人工知能技術は、企業が多くのビジネス課題を解決するために不可欠です。最も重要なアプリケーション領域の...

研究者は人工知能を使って、膨大なデータに隠された異常をリアルタイムで発見する

全国的な送電網の障害を特定することは、巨大な干し草の山から針を見つけるようなものです。米国全土に設置...

Googleの研究者が自撮りカメラ用の顔歪み防止アルゴリズムを開発

最近の調査によると、毎日 9,300 万枚の自撮り写真がソーシャル メディアに投稿されており、Ins...