史上最も包括的な解釈 | PaddlePaddleモデルライブラリが大幅にアップグレードされ、主流のアルゴリズムモデルをすべてカバーしています

11月5日、Wave Summit+2019 Deep Learning Developer Summitにおいて、PaddlePaddleは最新の21の進歩をリリースし、大幅にアップグレードし、ディープラーニング開発者コミュニティで大きな反響を呼びました。

参加できなかった多くの開発者は、PaddlePaddle ローンチカンファレンスの裏側にある技術的な詳細をもっと知りたいと残念に思っていました。そこで、コアフレームワーク、基本モデルライブラリ、エンドツーエンド開発キット、ツールコンポーネント、サービスプラットフォームの 5 つのレベルから、PaddlePaddle のコアテクノロジーと最新の開発状況を詳細に解説する一連の記事を特別に企画しました。どうぞお楽しみに。

今日は、PaddlePaddle の基本モデルライブラリの解釈に関する一連の記事をお届けします。

PaddlePaddle モデルライブラリは、インテリジェントビジョン (PaddleCV)、インテリジェントテキスト処理 (PaddleNLP)、インテリジェントスピーチ (PaddleSpeech)、インテリジェントレコメンデーション (PaddleRec) の 4 つの主要領域をカバーしています。PaddlePaddle は、国際大会で優勝したモデルなど、長期にわたる産業実践を通じて磨き上げられた 100 を超える主流モデルを公式にサポートしています。同時に、200 を超える事前トレーニング済みモデルがオープンソース化されており、迅速な産業アプリケーションを促進します。コアコンテンツは 1,562 語で、推定読了時間は 3 分です。全文は 7659 語あり、将来の参照用に保存することを強くお勧めします。

PaddlePaddle のパノラマビュー。この記事では主に、基本モデルライブラリの詳細な解説を提供します。

最初の部分では、まずモデルライブラリの最新バージョンの主な更新内容を見てみましょう。

主な更新ポイント

1.1. パドルCV

トレーニングとデプロイメントのためのエンドツーエンドの画像セグメンテーションライブラリである PaddleSeg をリリースし、画像分類用の EfficientNet などの 43 の事前トレーニング済みモデルを追加しました。 PaddleDetection には、2019 Objects365 Full Track チャンピオンモデル、BlazeFace およびその他の小さな顔検出モデル、歩行者検出および車両検出用の事前トレーニング済みモデルが追加されています。 PaddleVideo は、ActivityNet Challenge 2019 の優勝モデルを追加し、ビデオキャプション、ビデオグラウンディング、その他のモデルも含め拡張しました。

1.2. パドルNLP

新しい seq2seq 関連 API とテキスト生成モデルのサンプルをリリースしました。セマンティック表現ライブラリには、XLNet 事前トレーニング済みモデルが追加されています。EMNLP 2019 読解コンテスト優勝モデル D-NET はオープンソースであり、18 種類の抽出読解データセットでのランキングもサポートしています。マルチタスク機械学習研究をより便利にサポートするPaddlePaddleマルチタスク学習ライブラリPALM（PAddLeマルチタスク学習）をリリースしました。

1.3. パドルスピーチ

音声認識モデルDeepSpeech、音声合成モデルDeepVoice3をはじめとした新製品がリリースされました。

1.4. パドルレック

PaddleRec のモデルカバレッジをさらに追加しました。

上記のように、今回のアップグレードでは、PaddlePaddle はより多くの公式サポートモデルと事前トレーニング済みモデルを提供し、複数の国際チャンピオンモデルもオープンソース化しています。現在、PaddlePaddle は 100 を超えるモデルと 200 を超える事前トレーニング済みモデルを公式にサポートしており、開発者の迅速なアプリケーション実践を大幅に促進しています。

パドルパドルモデルライブラリが新しい完全な解釈をリリース

この新しいバージョンでは、PaddlePaddleモデルライブラリに 8種類のタスク 40 を超えるアルゴリズムモデルは、より包括的な範囲のタスクカテゴリをカバーし、より豊富なアルゴリズムモデルを備えているため、基本的に産業用アプリケーションのさまざまなビジネスニーズを満たし、開発者が実際のプロジェクトを迅速に実装するのに役立ちます。

▲ 100以上のアルゴリズムと200以上の事前学習済みモデルを公式にサポート

PaddlePaddle のモデルライブラリは、自然言語処理、コンピュータービジョン、推奨、音声という 4 つの主要領域をすでに完全にサポートしています。音声アルゴリズムの新しいサポートにより、公式にサポートされているモデルの数は 60 から 100 以上に拡大しました。現時点では、PaddlePaddle はすでに人工知能の分野で主流のアルゴリズムモデルの適用をサポートしています。開発者は、PaddlePaddle モデルライブラリを使用して、産業用アプリケーションプロジェクトを迅速に実装できます。

具体的には、コンピュータービジョンの分野では、PaddlePaddle は画像分類、生成、検出、ビデオ理解、画像セグメンテーションなどの分野で新しいモデルを追加しました。自然言語処理の分野では、PaddlePaddle は意味表現、読解、質疑応答の分野でアップグレードを行ってきました。同様に、レコメンデーションと音声についてもさらなる改善とアップグレードが行われています。

PaddlePaddle は、従来のモデルのサポートに加えて、コンピュータービジョンの分野でのビデオ理解やポートレートのセグメンテーション、自然言語処理の分野での読解など、Baidu が国際コンテストで優勝したアルゴリズムモデルも多数オープンソース化しています。

最近開催されたトップNLPカンファレンスEMNLPでは、PaddlePaddle D-NET モデルは、このコンテストで多くの有力な出場者を打ち負かし、読解力部門で 10 回の優勝を果たしました。この模型のフライングパドルは、開発者にも無条件で公開されます。

以下では、4 つの主流分野の開発者向けに、PaddlePaddle モデルライブラリのコアコンテンツの一部を紹介します。アルゴリズムモデルの数が多く、スペースが限られているため、アルゴリズムモデルの分類と名前、導入と適用のシナリオ、およびさまざまなデータセットの評価指標のみを整理します。

一方で、この記事は、初心者の開発者にモデルライブラリの全体的なマクロな視点を提供することができます。また、この記事はクイックリファレンスマニュアルとしても役立ちます。開発者が必要に応じてすぐに選択できるように、保存することを強くお勧めします。

特定のアルゴリズムの詳細をすぐに知りたい場合は、ポータルに直接アクセスしてください。

https://github.com/PaddlePaddle/models

インテリジェントビジョンパドルCV

画像分類

画像分類とは、意味情報に基づいてさまざまなカテゴリの画像を区別することです。これは、コンピュータービジョンにおける重要な基本問題であり、オブジェクト検出、画像セグメンテーション、オブジェクト追跡、動作分析、顔認識などの他の高度な視覚タスクの基礎となります。多くの分野で幅広く応用されています。例えば、セキュリティ分野での顔認識やインテリジェントビデオ分析、交通分野での交通シーン認識、インターネット分野でのコンテンツベースの画像検索や自動アルバム分類、医療分野での画像認識など。

その他の画像分類モデルについては、「画像分類」を参照してください。

https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/image_classification

3.2. 物体検出

オブジェクト検出タスクの目的は、コンピューターに画像またはビデオフレームを与えて、その中のすべてのオブジェクトの位置を見つけ、各オブジェクトの特定のカテゴリを提供することです。コンピュータにとって「見える」のは、画像がエンコードされた後の数字ですが、画像やビデオフレーム内の人物や物体の出現などの高レベルな意味概念を理解することは難しく、画像内でターゲットが出現する領域を見つけることはさらに困難になります。

ターゲット検出モデルについては、PaddleDetection を参照してください。

https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleDetection

画像セグメンテーション

画像セマンティックセグメンテーションは、その名前が示すように、画像ピクセルをそれらが表すさまざまな意味に応じてグループ化/セグメント化することです。画像セマンティクスとは、画像の内容を理解すること、たとえば、オブジェクトがどこで何をしているかなどを描写できることを指します。セグメンテーションとは、画像内の各ピクセルにラベルを付け、どのカテゴリに属するかをマークすることを指します。近年では、歩行者や車両を避けるために街の風景をセグメント化したり、医療画像分析で診断を支援したりする無人運転車の技術に使用されています。

3.4. キーポイント検出

人体骨格キーポイント検出（姿勢推定）は、主に関節や顔の特徴など人体のいくつかのキーポイントを検出し、キーポイントを通じて人体骨格情報を記述します。人間の骨格のキーポイント検出は、人間の姿勢を記述し、人間の行動を予測するために重要です。これは、アクション分類、異常動作検出、自動運転など、多くのコンピュータービジョンタスクの基礎となります。

3.5. 画像生成

画像生成とは、入力ベクトルに基づいてターゲット画像を生成することを指します。ここでの入力ベクトルは、ランダムノイズまたはユーザー指定の条件付きベクトルになります。具体的な応用シナリオとしては、手書き文字生成、顔合成、スタイル転送、画像復元などがあります。 PaddleGAN には、画像生成に関連する複数のモデルが含まれています。

3.6. シーンテキスト認識

シーンテキスト認識は、複雑な画像背景、低解像度、多様なフォント、ランダムな分布などの条件下で、画像情報をテキストシーケンスに変換するプロセスです。これは、画像入力を自然言語出力に変換する特殊な翻訳プロセスと考えることができます。

3.7. メトリック学習

メトリック学習は、距離メトリック学習または類似性学習とも呼ばれます。オブジェクト間の距離を学習することにより、メトリック学習を使用して、オブジェクト間の時間的関連性と比較関係を分析できます。実用的な問題で広く使用されており、補助的な分類やクラスタリングの問題に適用できます。また、画像検索、顔認識などの分野でも広く使用されています。

3.8. ビデオ分類とアクションローカリゼーション

ビデオの分類とアクションのローカリゼーションは、ビデオ理解タスクの基礎です。

ビデオデータには音声や画像などさまざまな情報が含まれています。そのため、ビデオを理解するには、音声や画像を処理するだけでなく、ビデオフレームの時系列からコンテキスト情報を抽出する必要があります。

ビデオ分類モデルは、グローバルな時間的特徴を抽出する方法を提供します。主な方法には、畳み込みニューラルネットワーク (C3D、I3D、C2D など)、ニューラルネットワークと従来の画像アルゴリズムの組み合わせ (VLAD など)、リカレントニューラルネットワーク、およびその他のモデリング方法が含まれます。

ビデオアクションローカリゼーションモデルでは、ビデオアクションのカテゴリと開始および終了時点を同時に識別する必要があり、通常は画像ターゲット検出で使用されるアルゴリズムと同様のアルゴリズムを使用して、時間次元でモデル化します。

インテリジェントテキスト処理 PaddleNLP

PaddleNLP は、PaddlePaddle ディープラーニングフレームワークに基づいて開発された自然言語処理 (NLP) ツール、アルゴリズム、モデル、およびデータのオープンソースプロジェクトです。 Baidu の NLP 分野における 10 年以上にわたる深い蓄積は、PaddleNLP の強力な中核的な原動力となっています。 PaddleNLP を使用すると、次のことが可能になります。

豊富で包括的な NLP タスクサポート: PaddleNLP は、複数の粒度と複数のシナリオのアプリケーションサポートを提供します。単語の分割、品詞のタグ付け、固有表現の認識などの基本的な NLP テクノロジに加え、テキスト分類、テキスト類似度の計算、意味表現、テキスト生成などのコア NLP テクノロジもカバーしています。同時に、PaddleNLP は、一般的な大規模 NLP アプリケーションシステム (読解、対話システム、機械翻訳システムなど) 向けの特定のコアテクノロジーとツールコンポーネント、モデル、事前トレーニング済みパラメーターも提供し、NLP 分野でのスムーズな進歩を可能にします。
安定した信頼性の高い NLP モデルと強力な事前トレーニングパラメータ: PaddleNLP は、Baidu 内で広く使用されている NLP ツールモデルを統合し、安定した信頼性の高い NLP アルゴリズムソリューションを提供します。事前トレーニング済みのパラメータと、数百億のデータに基づく豊富な事前トレーニング済みモデルにより、モデルの効果を簡単に改善し、NLP ビジネスに強力な推進力を注入することができます。
継続的な改善と技術サポート、NLP アプリケーションをゼロから構築: PaddleNLP は、NLP ビジネスを保護するために、継続的な技術サポートとモデルアルゴリズムの更新を提供します。

4.1. NLPの基本技術

4.1.1. LAC（中国語の語彙解析）

Baidu は、中国語の単語分割、品詞タグ付け、固有表現認識タスクを統合した中国語特有のモデル語彙解析タスクを独自に開発しました。入力は文字列で、出力は文中の単語の境界と品詞およびエンティティカテゴリです。

4.1.2. Word2vec

複数のカードを備えた単一のマシンや複数のマシンなど、分散方式で中国語の単語ベクトルをトレーニングする機能を提供します。主流の単語ベクトルモデル (skip-gram、cbow など) をサポートし、カスタムデータを使用して単語ベクトルモデルをすばやくトレーニングできます。

4.1.3. 言語モデル

入力単語シーケンス（中国語は最初にセグメント化され、英語は最初にトークン化される必要があります）が与えられた場合、その生成確率を計算します。言語モデルの評価指標である PPL (perplexity) は、モデルによって生成された文章の流暢さを示すために使用されます。

4.2. NLPコアテクノロジー

4.2.1. 意味表現

PaddleLARK (Paddle LAngauge Representation ToolKit) は、従来の言語モデルをさらに発展させたものです。これは、大規模なコーパスでのトレーニングによって得られる一般的な意味表現モデルであり、他の自然言語処理タスクに役立ちます。これは、一般的な事前トレーニング + 特定のタスクの微調整パラダイムの具体化です。 PaddleLARK は、ELMO、BERT、ERNIE 1.0、ERNIE 2.0、XLNet などの一般的な中国語と英語の事前トレーニング済みモデルを統合します。

4.2.2. テキスト類似度の計算

SimNet (Similarity Net) は、主に BOW、CNN、RNN、MMDNN などのコアネットワーク構造を含む、短いテキストの類似性を計算するフレームワークです。 SimNet フレームワークは Baidu 製品で広く使用されており、意味的類似性計算のトレーニングと予測フレームワークを提供します。情報検索、ニュース推奨、インテリジェントな顧客サービスなど、複数のアプリケーションシナリオに適しており、企業が意味的マッチングの問題を解決するのに役立ちます。

4.2.3. テキスト生成

PaddleTextGEN (Paddle Text Generation) は、PaddlePaddle をベースにしたテキスト生成フレームワークです。バニラ seq2seq、アテンション付き seq2seq、変分 seq2seq モデルなど、一連の古典的なテキスト生成モデルケースを提供します。

4.3. NLPシステムの応用

感情分析

4.3.2. 読解力

PaddleMRC (Paddle Machine Reading Comprehension) は、モデル、ツール、オープンソースデータセットなど、読解分野における Baidu の取り組みを統合したものです。

4.3.3. 機械翻訳

PaddleMT は、正式名称を Paddle Machine Translation といい、論文「Attention Is All You Need」に基づいた、Transformer に基づく古典的な機械翻訳モデルです: https://arxiv.org/abs/1706.03762

4.3.4. 対話システム

PaddleDialogue には、対話システム用のモデル、データセット、ツールが含まれています。

Baidu の最新の最先端の研究はオープンソースです。研究を参照してください。

https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/リサーチ

インテリジェントな推奨 PaddleRec

現在のインターネットサービスでは、パーソナライズされた推奨機能がますます重要な役割を果たしています。現在、ほとんどの電子商取引システム、ソーシャルネットワーク、広告推奨機能、検索エンジンでは、さまざまな形式のパーソナライズされた推奨テクノロジをさまざまな程度で使用して、ユーザーが必要な情報をすばやく見つけられるようにしています。 PaddleRecに含まれるモデルは以下の通りです。