はじめに:AI(人工知能)技術は、Meituan AppからDianping App、フードデリバリーからタクシー旅行、旅行から結婚式や親子活動まで、Meituanの多くの事業で広く使用されています。Meituanの最高のアルゴリズムエンジニア数百人が、AI技術を検索、推奨、広告、リスク管理、インテリジェントスケジューリング、音声認識、ロボット、無人配達などの分野に応用することに尽力しており、Meituanの数億人の消費者と数百万の商人のサービスと体験を向上させ、誰もがより良く食べて、より良く暮らすのを支援しています。 美団はAI技術を基盤として、世界最大かつ最も複雑な多人数、多地点のリアルタイムインテリジェント配送・配車システムを構築しました。また、AI技術を基盤として、業界初の大規模エンタープライズアプリケーションレベルの音声インタラクション製品を発売し、50万人の乗客にインテリジェント音声システムを装備しました。さらに、AI技術を基盤として、世界最大の食品知識ベースを構築し、200万以上の商店と3億以上の商品のナレッジグラフを描き、数億人のユーザーに正確なユーザーポートレートを提供し、世界最大かつ最も複雑なO2Oインテリジェントレコメンデーションプラットフォームを構築しました。 世界最大の生活サービス向けインターネットプラットフォーム「Meituan」の「頭脳」はどのように構築されているのか?インターネット機械学習の実践を包括的に解説した業界初の書籍「Meituan Machine Learning Practice」がまもなく発売されます。どうぞお楽しみに。この記事は、同書籍の第 15 章から抜粋したものです。 背景Meituan では毎日何百万枚もの写真が生成されます。運営担当者は関連する写真の内容を審査し、法的リスクを伴う写真やプラットフォームの規制に準拠していない写真を削除する責任があります。画像数が膨大であるため、手動でのレビューには時間と労力がかかり、レビュー能力にも限界があります。さらに、異なる監査人が監査基準を統一し、リアルタイムに変更することは困難です。したがって、インテリジェントな監査を実現するには機械を使用する必要があります。 インテリジェント画像レビューとは、一般的に、画像処理や機械学習関連の技術を使用して画像の内容を識別し、その画像が違法かどうかを判断することを指します。インテリジェント画像レビューは、機械が規則に準拠していない画像の種類(否定例)を自動的に禁止し、規則に準拠している画像の種類(肯定例)を自動的に通過させる、自動画像レビューサービスの確立を目指しています。機械が確信を持てない画像は、手動レビューに送られます。したがって、インテリジェント監査システムのパフォーマンスを測定する指標は、主に精度と自動化率です。 自動レビューの通常の考え方は、規制に準拠していない画像の種類(透かし入り画像、ポルノ画像、暴力やテロリストの画像、有名人の顔、広告画像など)を網羅的に列挙し、残りの画像を自動的に肯定的な例として通過させることです。これの問題点は、新しい違法コンテンツを処理するのに十分な拡張性がなく、自動フィルタリングを有効にするにはすべてのモデルが構築されるまで待つ必要があることです。自動承認の要件を満たす画像(通常の人物画像、一貫したシーンの画像など)を積極的にマイニングし、肯定的な例のフィルタリングと否定的な例のフィルタリングを組み合わせることができれば、手動によるレビューをより迅速に省くことができます。そのため、当社のインテリジェント画像レビューシステムは、否定例フィルタリングモジュールと肯定例フィルタリングモジュールに分かれています。レビュー対象の画像は、まず否定例フィルタリングモジュールに入り、禁止されているかどうかが判断され、次に肯定例フィルタリングモジュールに入り、自動承認されます。機械が判断できない残りの画像は、手動レビューに送られます。全体的な技術的ソリューションを図 1 に示します。 図1 画像インテリジェントレビュー技術ソリューション 負の例のフィルタリング モジュールと正の例のフィルタリング モジュールの両方に、検出、分類、認識のテクノロジが含まれており、この分野ではディープラーニングが推奨されるテクノロジです。以下では、透かしフィルタリング、有名人の顔認識、ポルノ画像の検出、シーン分類を通じて、画像インテリジェントレビューにおけるディープラーニングの応用について紹介します。 ディープラーニングに基づく透かし検出 著作権を保護し、オリジナルコンテンツをサポートするためには、販売者またはユーザーがアップロードした画像に禁止されている透かし(競合他社の透かし、他の製品のロゴ)が含まれているかどうかを自動的に検出する必要があります。他の固定オブジェクトとは異なり、透かしには次の特性があります。
図2: 対象は変更可能
図3 複雑な背景 従来の透かし検出では、スライディング ウィンドウ方式を使用して固定サイズの画像ブロックを抽出し、それを事前トレーニング済みの識別モデルに入力して、ブロックのカテゴリを取得します。画像内のすべての候補位置を走査することで、画像の密なカテゴリ スコア マップを取得できます。一定の閾値を超えるスコアを持つブロックは透かし候補領域とみなされ、非最大抑制を通じて最終結果を得ることができます。 識別モデルの特徴は、テキスト認識の分野で一般的に使用されるエッジ方向の統計的特徴を採用することも、CNN を通じて学習して、切断、変形、複雑な背景に対する堅牢性を向上させることもできます。スコアの信頼性をさらに向上させるために、タイププロトタイプ情報を追加し、入力画像ブロック特徴とクラスター中心特徴間の類似度(角度のコサイン)を認識信頼性として使用することができます。しかし、上記の方法の検出効率は極めて低く、透かしの位置とサイズが固定されていないため、あらゆる位置で複数のスケールの画像を判別する必要があり、冗長なウィンドウが大量に生成されます。 1 つのアイデアは、サブウィンドウ方式を使用してスライディング ウィンドウの数を減らすことです。まず、教師なし学習/教師あり学習によって一連の候補領域が生成され、次に CNN 分類器を使用して、その領域にターゲットが含まれているかどうか、およびターゲットの種類が何であるかが判断されます。このタイプの最も代表的な方法は、R-CNN シリーズです。このタイプの方法で得られた候補ボックスは元の画像解像度にマッピングできるため、ボックスの配置精度は十分に高くなります。 もう 1 つの解決策は、特徴マップ上で直接回帰法を使用することです。 CNN ネットワークの畳み込み層では入力画像のサイズを柔軟にできますが、完全接続層以降では入力サイズを一定に保つ必要があることがわかっています。したがって、任意のサイズの画像を最初の完全接続層まで CNN に入力すると、すべての層の特徴マップを取得するのに必要な順方向操作は 1 回だけです。そして、回帰の対象は検出対象の位置情報とカテゴリ情報であり、対象のサイズに応じて異なるレベルの特徴マップ上で回帰することができます。このタイプの方法は、YoloとSSDによって代表されます。このタイプの方法の特徴は、高い検出精度を確保しながら優れたリアルタイム性能を実現することです。 図 4 は、上記の 2 つのフレームワークと、従来の最良の方法である DPM (Deformable Part Model) のパフォーマンス比較を示しています。 図4 ディープラーニングに基づく主流のターゲット検出手法の性能評価 透かし検出タスクでは、位置決めフレームの高精度は必要なく、1 日あたり数百万枚の画像のスループットを満たす必要があることを考慮して、SSD フレームワークと Resnet ネットワーク構造を借用しました。トレーニングデータに関しては、25のカテゴリで15,000枚の透かし入り画像を手動で収集し、被写体のランダムトリミングや前景と背景の合成などの方法を通じてデータを拡張しました。 トレーニングされたモデルに基づいて、オンライン データに対して関連テストが実行されました。 3197 枚のオンライン画像がテスト セットとしてランダムに選択され、そのうち 2795 枚には透かしが含まれていません。透かしが含まれている 402 枚の画像のうち、302 枚にはトレーニング セットに表示されている透かしが含まれており、残りの 100 枚にはトレーニング セットに表示されていないニッチな透かしが含まれています。このテスト セットに基づいて、従来の方法 (手動で設計された特徴 + スライディング ウィンドウ認識) と SSD フレームワークに基づく方法を評価しました。 図 5 からわかるように、従来の方法と比較すると、SSD フレームワークはリコールと精度の両方で明らかな利点があります。さらに分析を進めたところ、ディープラーニング手法によって 38 個のニッチな透かし入り画像が再現され、CNN によって学習された特徴の一般化能力がより強力であることが示されました。 図5 透かし検出性能評価 有名人の顔認識著名人の肖像権の侵害を避けるために、レビューのシナリオでは、ユーザー/販売者がアップロードした画像に著名人の肖像が含まれているかどうかを識別する必要があります。これは典型的な顔認識アプリケーションであり、具体的には 1:(N+1) の顔比較です。顔認識プロセス全体には、図 6 に示すように、顔検出、顔キーポイント検出、顔補正と正規化、顔特徴抽出、特徴比較が含まれます。深層畳み込みモデルは、トレーニングされ、特徴抽出に使用される認識モデルです。以下では、顔検出と顔認識の技術ソリューションをそれぞれ紹介します。 図6 有名人の顔認識プロセス 顔検出顔検出方法は、従来の検出器とディープラーニングベースの検出器の 2 つのカテゴリに分けられます。 従来の検出器は主に VJ フレームワークに基づいており、ブーストされたカスケード構造と人工的な特徴を設計することで検出を実現します。特徴には、Haar 特徴、HOG 特徴、ピクセル比較に基づく特徴 (Pico、NPD) などがあります。 このタイプの検出器は、制約のある環境下では優れた検出結果と実行速度を実現しますが、複雑なシーン (照明、表情、オクルージョン) の場合、手動で設計された機能によって検出能力が大幅に低下します。性能向上のため、関連研究では顔検出と顔キーポイント位置特定という2つのタスクを結合したジョイント最適化(JDA)を行い、キーポイント検出を顔検出の重要な評価基準としているが、その精度をさらに向上させる必要がある。 ディープラーニング検出器には 3 つのアプローチがあります。
Faster R-CNNフレームワークを採用し、判別困難なネガティブサンプルマイニング(彫像、肖像画、動物の頭などのネガティブサンプルの抑制)、多層特徴融合、マルチスケールトレーニングとテスト、コンテキスト情報融合などの面で改善を行い、複雑な背景、人間のような顔、遮蔽などによる干渉に耐性を高め、小さな顔や横顔の検出率を効果的に向上させました。 顔認識顔認識には主に 2 つのアプローチがあります。 1 つは、各カテゴリが人物の複数の写真に対応する画像分類タスクに直接変換することです。代表的な方法としては、DeepFace や DeepID などがあります。もう1つの方法は、認識をメトリック学習の問題に変換する方法です。特徴学習により、同じ人物の異なる写真はより近づけ、異なる人物の写真はより遠ざけます。代表的な方法としては、DeepID2やFaceNetなどがあります。 タスクで識別される ID は半閉じたセットであるため、モデル トレーニングに画像分類とメトリック学習のアイデアを統合できます。トリプレット損失は負の例のマイニング アルゴリズムに対して高い要件があり、実際のトレーニングでは非常にゆっくりと収束することを考慮して、クラス内分散を最小限に抑えるためにセンター損失を使用し、クラス間分散を最大化するためにソフトマックス損失と組み合わせます。これら 2 つの損失関数のバランスをとるには、実験を通じてハイパーパラメータを選択する必要があります。私たちが使用するネットワーク構造は Inception-v3 であり、実際のトレーニングでは 2 つの段階に分かれています。
パフォーマンスをさらに向上させるために、図 7 に示すように、Baidu が採用しているマルチモデル統合戦略を活用します。具体的には、顔のキーポイントの位置に応じて顔領域を複数の領域に分割し、領域ごとに特徴モデルを個別にトレーニングします。現在、顔領域は 9 つの領域に分割されており、顔全体の領域を加えた合計 10 個のモデルをトレーニングする必要があります。 図7 アンサンブル学習に基づく顔認識 テストフェーズでは、検証対象の顔領域と候補顔領域について、図7に示す10個の領域に基づいて特徴が抽出される。次に、各領域について、2 つの特徴ベクトル間の類似度 (コサイン距離) が計算されます。最後に、類似度加重法を使用して、2 つの顔が同一人物のものであるかどうかを判断します。表1は、LFWデータセットにおける主流の手法の評価結果を示しています。 Meituan モデルは、比較的限られたデータで高い精度を達成していることがわかります。 表1 公開データセットの評価結果 ポルノ画像の検出ポルノ画像の検出は、インテリジェントな画像レビューの重要な部分です。従来の検出方法では、肌の色や姿勢などの寸法に基づいて画像のコンプライアンスを識別します。ディープラーニングの進歩により、既存の Yahoo NSFW (職場閲覧禁止) モデルは、ポルノ画像の検出をバイナリ分類問題 (ポルノ、通常) として直接定義し、畳み込みニューラル ネットワークを通じて大量のデータに対してエンドツーエンドのトレーニングを実行します。 トレーニングされたモデルでは、異なるレイヤーが異なる特徴を学習します。一部のレイヤーは肌の色の特徴を学習し、他のレイヤーは部位の輪郭の特徴を学習し、他のレイヤーは姿勢の特徴を学習します。しかし、人間はポルノを非常に幅広く定義しているため、露出、性的ほのめかし、芸術などはすべてポルノに分類される可能性があり、さまざまなシナリオやさまざまなグループの人々に直面している場合、ポルノの定義を統一することはできません。したがって、最初に学習したモデルの一般化能力は限られています。機械の予測精度を向上させるには、誤分類されたサンプルを継続的に追加し、機械が増分学習を通じてより多くの特徴を学習してエラーを修正できるようにする必要があります。さらに、以下の点でも最適化を行いました。
表2 ポルノ画像の検出精度
シーン分類 美団は、食べる、飲む、遊ぶ、楽しむのあらゆる面をカバーするインターネットプラットフォームとして、表3に示すように、さまざまな垂直分野に事業を展開しています。販売者の事業範囲と一貫性を保つために、業務のカテゴリーやユーザーがアップロードした画像を識別する必要があります。さらに、表示効果をさらに向上させるためには、図 8 に示すように、販売者アルバム内の写真を分類して整理する必要があります。 表3 美団の第一階層のカテゴリーと画像の比率 図8 ビジネスアルバム画像分類 深層畳み込みニューラルネットワークは、画像分類関連のタスク(ILSVRCなど)において人間の目の認識率を超えていますが、典型的な教師あり学習法であるため、特定の分野ではラベル付けされたサンプルの量と質に対する要求が顕著です。画像のスクリーニングとクリーンアップをレビュー担当者に完全に依存した場合、シーン分類タスクは非常にコストがかかります。そのため、転移学習に基づいてモデルを微調整する必要があります。 転移学習は、1 つ以上の類似のタスク、ドメイン、または確率分布から学習した知識を保持および活用することで、対象タスクのパフォーマンスを迅速かつ効果的に向上させることを目的としています。モデル転送は、転移学習の分野でよく使用される転送手法であり、元のドメイン(ソースドメイン)モデルとターゲットドメイン(ターゲットドメイン)モデルの共通パラメータを学習することで転送を実現します。ディープニューラルネットワークは階層構造を持ち、その隠れ層は抽象的かつ不変の特徴を表現できるため、モデル転送に非常に適しています。 元のドメインでトレーニングされた深層畳み込みニューラルネットワークに関しては、どの層のパラメータを移行できるか、どのように移行するかに注意する必要があります。レベルによって転送可能性は異なり、ターゲット ドメインと元のドメインの類似性が高いレベルほど転送される可能性が高くなります。具体的には、浅い畳み込み層で学習された特徴はより一般的 (画像の色、エッジ、基本的なテクスチャなど) であるため転送に適していますが、深い畳み込み層で学習された特徴はよりタスク依存的 (画像の詳細など) であるため転送には適していません (図 9 を参照)。 図9 深層畳み込みニューラルネットワークの階層構造と特徴の説明 モデル転送は、ネットワークの特定のレイヤーのパラメータを固定し、ターゲット ドメインのデータを使用して他のレイヤーをトレーニングします。シーン分類タスクでは、まず分類カテゴリの数に応じてネットワーク出力層を変更し、次に浅い畳み込み層を修正して、ビジネス注釈データに基づいてネットワークの最後の数層のパラメータをトレーニングします。より多くのトレーニング データが利用できる場合は、図 10 に示すように、ネットワーク全体のパラメーターをさらに微調整して、パフォーマンスをさらに向上させることができます。 教師あり学習のために画像の高レベルの意味的特徴を直接抽出することと比較して、段階的なパラメータ転送は、元のドメインとターゲット ドメイン間の違いに対してより堅牢です。 図10 深層畳み込みニューラルネットワークに基づくモデル移行 上記の転移学習戦略に基づいて、食事シーンの写真とホテルの部屋の写真の分類に関する関連実験を実施しました。限られた数のラベル付きサンプル(数万枚の写真)に基づいて、高い認識精度を達成しました。テストセットでのパフォーマンスを表 4 に示します。 表4 食事シーンの分類 前述のように、ディープラーニングベースの画像分類および検出方法は、インテリジェントな画像レビューにおいて従来の機械学習方法に取って代わりました。公開モデルと転移学習に基づいて、膨大なデータからの継続的な学習を通じてビジネスシナリオを実現しました。 参考文献[1]H. Chen、SS Tsai、G. Schroth、DM Chen、R. Grzeszczuk、B. Girod。「エッジ強調された最大安定極値領域を持つ自然画像における堅牢なテキスト検出」ICIP 2011。 [2] Z Zhong、L Jin、S Zhang、Z Feng。「DeepText:自然画像におけるテキスト提案生成とテキスト検出のための統合フレームワーク」。アーキテクチャサイエンス2015。 [3]Minghui Liao、Baoguang Shi、Xiang Bai、Xinggang Wang、Wenyu Liu。「TextBoxes:単一のディープニューラルネットワークによる高速テキスト検出器」AAAI 2017。 [4] S. Ren、K. He、R. Girshick、J. Sun。より高速なr-cnn。「領域提案ネットワークによるリアルタイム物体検出に向けて」NIPS 2015。 [5]Graves, A.; Fernandez, S.; Gomez, F.; Schmidhuber, J.「コネクショニスト時間分類:リカレントニューラルネットワークによるセグメント化されていないシーケンスデータのラベル付け」ICML 2006。 [6] R Girshick、J Donahue、T Darrell、J Malik。「正確な物体検出とセマンティックセグメンテーションのための豊富な特徴階層」CVPR 2014。 [7]J. Redmon、S. Divvala、R. Girshick、A. Farhadi。「一度だけ見る:統合されたリアルタイムの物体検出」CVPR 2016。 [8]W. Liu、D. Anguelov、D. Erhan、C. Szegedy、S. Reed。「SSD:シングルショットマルチボックス検出器」ECCV 2016。 [9] 「識別的に訓練された部分ベースモデルによる物体検出」TPAMI 2010。 [10]堅牢なリアルタイム物体検出。ポール・ヴィオラ、マイケル・ジョーンズ。IJCV 2004。 [11] N. Markus、M. Frljak、IS Pandzic、J. Ahlberg、R. Forchheimer。「決定木で整理されたピクセル強度比較による物体検出」CoRR 2014。 [12] Shengcai Liao、Anil K. Jain、Stan Z. Li。「高速で正確な制約のない顔検出器」、TPAMI 2015。 [13] Dong Chen、ShaoQingRen、Jian Sun。「ジョイントカスケード顔検出およびアライメント」、ECCV 2014。 [14]Haoxiang Li、Zhe Lin、XiaohuiShen、Jonathan Brandt、Gang Hua。「顔検出のための畳み込みニューラルネットワークカスケード」、CVPR.2015。 [15] Lichao Huang、Yi Yang、Yafeng Deng、Yinan Yu。「DenseBox:ランドマークの位置特定とエンドツーエンドの物体検出の統合」CVPR 2015。 [16] Taigman Y、Yang M、Ranzato MA、他「Deepface:顔認証における人間レベルのパフォーマンスとのギャップを埋める」CVPR 2014。 [17] Sun Y、Wang X、Tang X。10,000クラスの予測からの深層学習による顔表現。CVPR 2014。 [18]Sun Y、Chen Y、Wang X、et al. 共同識別検証による深層学習による顔表現。NIPS。2014。 [19] FaceNet:顔認識とクラスタリングのための統合埋め込み。CVPR 2015。 [20]深層顔認識のための識別特徴学習アプローチ。ECCV 2016。 [21]コンピュータビジョンのためのインセプションアーキテクチャの再考。CVPR 2016。 [22]Alex Krizhevsky、IlyaSutskever、Geoffrey E. Hinton。「深層畳み込みニューラルネットワークによるImageNet分類」2014年。 [23] Murray, N., Marchesotti, L., Perronnin, F.「Ava: 美的視覚分析のための大規模データベース」CVPR 2012。 |
>>: 今後10年間で、人間の仕事の約50%が人工知能に置き換えられるでしょうか?
本発明は、Bzip2 アルゴリズムのハードウェア アクセラレーション実装方法を開示する。この方法は、...
どの時代にもメインテーマがあり、次の10年の主なテーマはAIです。 ChatGPTの登場以来、中国で...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
実際、AI はほとんどの人間同士のやり取りに取って代わっています。デジタルアシスタントや AI ベー...
1. プロジェクトの説明1.DEMOのアイデアはカード辞書です。 2. カードによって表示される内容...
基礎知識がない人でも機械学習に切り替えることは可能ですか?機械学習には一定の数学的基礎が必要であり、...
12月27日、テスラのCEOイーロン・マスク氏が新たに設立したAIスタートアップ企業xAIは、競合他...
人間の目には、以下の 3 つの画像はそれぞれ異なるもの、つまり鳥、犬、馬に見えます。しかし、機械学習...
OpenAIでの混乱はひとまず終息し、社員たちは忙しく「仕事」をしている。今年初めに OpenAI ...
顔認識技術は、複製不可能、非接触、高速などの利点により、インテリジェントな通過と迅速な本人確認に優れ...
[[387555]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...