機械学習を拡張するための5つのポイント

Facebook は効果的な人工知能について私たちに多くのことを教えてくれます。

最近のガートナー社の調査によると、多くの企業が機械学習の取り組みを始めたばかりである一方、37% の組織がすでに AI を実装していることがわかりました。機械学習を導入する準備ができている場合は、機械学習の概念実証を実行する前に、人工知能、機械学習、ディープラーニングを評価するための 10 の質問または完全なガイドを評価することから始めることをお勧めします。

[[265289]]

機械学習は絶えず進化しており、新たなビジネスのブレークスルー、科学の進歩、フレームワークの改善、実践がメディアに頻繁に登場しています。

大規模な機械学習イニシアチブを実装し、AI をビジネスの中核に据えている組織から多くのことを学ぶことができます。ニューヨークで開催されたオライリー人工知能カンファレンスで、私は Facebook の機械学習の取り組みに共通するいくつかの傾向を目にしました。

ビジネスニーズと競争要因を理解する

Facebook は多くの分野で機械学習を使用しています。 Facebookのホームページでは、機械学習によってコンテンツの検索、言語の翻訳、ニュースフィードのスキャン、ユーザーがアップロードした写真の顔の認識、表示される広告の内容の確認などが可能となっている。舞台裏では、機械学習がコンテンツの理解、音声認識、コンテンツの整合性、感情分析、不快なコンテンツや不正なアカウントの検出に使用されています。

同様に、ツイートのランキング、広告の選択、検索機能、ユーザーの推奨などのさまざまなアクティビティから、機械学習が機能していることが確認できます。機械学習は、仕事での使用に適さない卑猥な言葉を含むツイート、スパム、画像にフラグを立てるためにも使用されます。

あまり明らかでないのは、それぞれの機械学習事業がどれだけの規模なのか、そして両社が差別化機能にどのような投資を行っているのかということです。

Facebook は 26 億人のユーザーのために毎日 200 兆以上の予測を行っています。ユーザーは世界中に広がっており（帯域幅はある程度制限されています）、大量のやり取りは携帯電話で行われます。

これにはいくつかの課題があります。世界中のユーザーの 61% が、いまだに 6 年以上前の携帯電話を使用しており、高度なスマートフォンを使用しているユーザーは 10% 未満です。 Facebook の戦略の一部は、より多くのニューラルネットワークコンピューティングをエッジデバイスに移行して、規模を拡大し、レイテンシを削減し、よりパーソナライズされた機械学習モデルを提供することです。 Facebook の機械学習スタックは、大規模な推論結果を提供し、一部の計算をエッジデバイスにオフロードしながら、新しいモデルの研究を容易にするという目標を反映しています。

スケールとレイテンシの要件に基づいてモデルを最適化します。 1 秒あたり数千万件の予測を実行し、1 日あたり数十テラバイトのデータでモデルをトレーニングします。レイテンシ（モデルが応答するまでの時間）の最適化に重点を置き、予測レイテンシの予算を数十ミリ秒に指定します。

拡張性のためのプラットフォームの標準化

Facebook は早い段階から機械学習プログラムを開始しました。彼らは非構造化アプローチから始めましたが、現在はプラットフォーム、フレームワーク、パイプラインを標準化するための措置を講じています。 Facebook は、信頼性、スケーラビリティ、モデル実行の効率、科学者やエンジニアの開発エクスペリエンスなど、さまざまな問題点に取り組んでいます。

両社のプラットフォームは、データの処理、特徴の抽出、モデルのトレーニング、およびモデルの運用環境への展開を行うプラットフォームを備え、同様のデータパイプライン処理の原則に基づいて最適化されています。

2 つのソーシャルメディア大手は、選択した機械学習フレームワークを標準化するための措置を講じています。 Facebook は、研究を容易にするために PyTorch を使用し、大規模な実稼働推論モデルを実行するために Caffe2 を使用しています。 Caffe2 を PyTorch 1.0 に組み込み、2 つの機能を組み合わせ、Caffe2Go を使用してモバイルニューラルネットワークを実行します。

科学者、開発者、エンジニアが協力できるようにする

Facebook は、データサイエンティスト、開発者、エンジニア間の生産性、知識の共有、コードの再利用を可能にするためのさまざまな取り組みを概説しています。

多くのデータチームは、データガバナンスイニシアチブの一環として、データカタログと辞書を使用しています。これらのツールを使用すると、分析や機械学習の実験にデータを使用するときに、基礎となるデータモデル、フィールド定義、品質制約を誰もが簡単に理解できるようになります。

Facebook は、独自の機能をカタログ化して標準化し、トレーニングを自動化し、モデルを管理および展開するためのツールを開発しています。 FBLearner はこれらの機能をサポートする標準プラットフォームです。

さらに、Facebook は使用する機械学習の種類を標準化しています。たとえば、ニュースフィード、広告、検索、異常検出のランキングには多層パーセプトロンが使用されます。 Facebook は顔認識に畳み込みニューラルネットワークとサポートベクターマシンを使用し、言語翻訳には再帰型ニューラルネットワークも使用しています。

機械学習モデルの継続的なトレーニングの自動化

ソフトウェアアプリケーションと同様に、機械学習モデルも継続的にトレーニングおよび変更する必要があります。 Facebook はこのトレーニングを自動化し、モデルが新しいデータに基づいて再調整できるようにしました。

Facebookは自社の戦略に注力している。ニュースフィードなどの頻繁に変更されるモデルは 1 時間ごとに再トレーニングされますが、言語翻訳モデルや顔認識モデルは数週間から数か月のサイクルでトレーニングされます。

計算コストと計算リソースの可用性によっても、モデルを再トレーニングする必要がある頻度が決まります。 Facebook は、さまざまな機械学習ワークロードに最適化されたさまざまなハードウェアスタックを開発しているため、戦略的なコンピューティングの優位性を持っている可能性があります。世界のコンピューティングリソースが十分に活用されていないからです。

長期計画を立てる

小規模から始めて、モデルをトレーニングし、本番環境で実行してビジネス価値を証明し、その後、実践を拡大して成熟させます。実践を成熟させるには、フレームワークの標準化、アーキテクチャの定義、メンテナンスサイクルの選択、パフォーマンスの最適化、デプロイメントパイプラインの自動化など、アプリケーション開発と同様の規律が不可欠です。

機械学習は大きな価値をもたらしますが、改善するにはパフォーマンスと投資に基づいた継続的な研究も必要です。さまざまなモデルがトレーニングされ、展開され、最適化された後、より優れたモデルに置き換えられます。機械学習は新しいツールとスキルですが、ユーザーエクスペリエンスを向上させたり、データを通じて競争上の価値を高めたりする必要がある組織にとって、ますます重要になります。

<<: Baidu Brainのインテリジェント会話エンジンが9つのコア機能のリリースで「警笛を鳴らす」

>>: アマゾンが注文梱包ロボットを導入、数千人の従業員が職を失う可能性も