11月5日、Wave Summit+2019 Deep Learning Developer Summitにおいて、PaddlePaddleは最新の21の進歩をリリースし、大幅にアップグレードし、ディープラーニング開発者コミュニティで大きな反響を呼びました。 参加できなかった多くの開発者は、PaddlePaddle ローンチカンファレンスの裏側にある技術的な詳細をもっと知りたいと残念に思っていました。そこで、コアフレームワーク、基本モデルライブラリ、エンドツーエンド開発キット、ツールコンポーネント、サービスプラットフォームの 5 つのレベルから、PaddlePaddle のコアテクノロジーと最新の開発状況を詳細に解説する一連の記事を特別に企画しました。どうぞお楽しみに。 今日は、PaddlePaddle の基本モデル ライブラリの解釈に関する一連の記事をお届けします。 PaddlePaddle モデル ライブラリは、インテリジェント ビジョン (PaddleCV)、インテリジェント テキスト処理 (PaddleNLP)、インテリジェント スピーチ (PaddleSpeech)、インテリジェント レコメンデーション (PaddleRec) の 4 つの主要領域をカバーしています。PaddlePaddle は、国際大会で優勝したモデルなど、長期にわたる産業実践を通じて磨き上げられた 100 を超える主流モデルを公式にサポートしています。同時に、200 を超える事前トレーニング済みモデルがオープンソース化されており、迅速な産業アプリケーションを促進します。コアコンテンツは 1,562 語で、推定読了時間は 3 分です。全文は 7659 語あり、将来の参照用に保存することを強くお勧めします。 PaddlePaddle のパノラマビュー。この記事では主に、基本モデル ライブラリの詳細な解説を提供します。 最初の部分では、まずモデル ライブラリの最新バージョンの主な更新内容を見てみましょう。 主な更新ポイント トレーニングとデプロイメントのためのエンドツーエンドの画像セグメンテーション ライブラリである PaddleSeg をリリースし、画像分類用の EfficientNet などの 43 の事前トレーニング済みモデルを追加しました。 PaddleDetection には、2019 Objects365 Full Track チャンピオン モデル、BlazeFace およびその他の小さな顔検出モデル、歩行者検出および車両検出用の事前トレーニング済みモデルが追加されています。 PaddleVideo は、ActivityNet Challenge 2019 の優勝モデルを追加し、ビデオ キャプション、ビデオ グラウンディング、その他のモデルも含め拡張しました。 新しい seq2seq 関連 API とテキスト生成モデルのサンプルをリリースしました。 セマンティック表現ライブラリには、XLNet 事前トレーニング済みモデルが追加されています。EMNLP 2019 読解コンテスト優勝モデル D-NET はオープンソースであり、18 種類の抽出読解データセットでのランキングもサポートしています。 マルチタスク機械学習研究をより便利にサポートするPaddlePaddleマルチタスク学習ライブラリPALM(PAddLeマルチタスク学習)をリリースしました。 音声認識モデルDeepSpeech、音声合成モデルDeepVoice3をはじめとした新製品がリリースされました。 PaddleRec のモデル カバレッジをさらに追加しました。 上記のように、今回のアップグレードでは、PaddlePaddle はより多くの公式サポートモデルと事前トレーニング済みモデルを提供し、複数の国際チャンピオンモデルもオープンソース化しています。現在、PaddlePaddle は 100 を超えるモデルと 200 を超える事前トレーニング済みモデルを公式にサポートしており、開発者の迅速なアプリケーション実践を大幅に促進しています。 パドルパドルモデルライブラリが新しい完全な解釈をリリース この新しいバージョンでは、PaddlePaddleモデルライブラリに 8種類のタスク 40 を超えるアルゴリズム モデルは、より包括的な範囲のタスク カテゴリをカバーし、より豊富なアルゴリズム モデルを備えているため、基本的に産業用アプリケーションのさまざまなビジネス ニーズを満たし、開発者が実際のプロジェクトを迅速に実装するのに役立ちます。 ▲ 100以上のアルゴリズムと200以上の事前学習済みモデルを公式にサポート PaddlePaddle のモデル ライブラリは、自然言語処理、コンピューター ビジョン、推奨、音声という 4 つの主要領域をすでに完全にサポートしています。音声アルゴリズムの新しいサポートにより、公式にサポートされているモデルの数は 60 から 100 以上に拡大しました。現時点では、PaddlePaddle はすでに人工知能の分野で主流のアルゴリズム モデルの適用をサポートしています。開発者は、PaddlePaddle モデル ライブラリを使用して、産業用アプリケーション プロジェクトを迅速に実装できます。 具体的には、コンピューター ビジョンの分野では、PaddlePaddle は画像分類、生成、検出、ビデオ理解、画像セグメンテーションなどの分野で新しいモデルを追加しました。自然言語処理の分野では、PaddlePaddle は意味表現、読解、質疑応答の分野でアップグレードを行ってきました。同様に、レコメンデーションと音声についてもさらなる改善とアップグレードが行われています。 PaddlePaddle は、従来のモデルのサポートに加えて、コンピューター ビジョンの分野でのビデオ理解やポートレートのセグメンテーション、自然言語処理の分野での読解など、Baidu が国際コンテストで優勝したアルゴリズム モデルも多数オープンソース化しています。 最近開催されたトップNLPカンファレンスEMNLPでは、PaddlePaddle D-NET モデルは、このコンテストで多くの有力な出場者を打ち負かし、読解力部門で 10 回の優勝を果たしました。この模型のフライングパドルは、開発者にも無条件で公開されます。 以下では、4 つの主流分野の開発者向けに、PaddlePaddle モデル ライブラリのコア コンテンツの一部を紹介します。アルゴリズム モデルの数が多く、スペースが限られているため、アルゴリズム モデルの分類と名前、導入と適用のシナリオ、およびさまざまなデータ セットの評価指標のみを整理します。 一方で、この記事は、初心者の開発者にモデル ライブラリの全体的なマクロな視点を提供することができます。また、この記事はクイック リファレンス マニュアルとしても役立ちます。開発者が必要に応じてすぐに選択できるように、保存することを強くお勧めします。 特定のアルゴリズムの詳細をすぐに知りたい場合は、ポータルに直接アクセスしてください。 https://github.com/PaddlePaddle/models インテリジェントビジョンパドルCV 画像分類とは、意味情報に基づいてさまざまなカテゴリの画像を区別することです。これは、コンピューター ビジョンにおける重要な基本問題であり、オブジェクト検出、画像セグメンテーション、オブジェクト追跡、動作分析、顔認識などの他の高度な視覚タスクの基礎となります。多くの分野で幅広く応用されています。例えば、セキュリティ分野での顔認識やインテリジェントビデオ分析、交通分野での交通シーン認識、インターネット分野でのコンテンツベースの画像検索や自動アルバム分類、医療分野での画像認識など。 その他の画像分類モデルについては、「画像分類」を参照してください。 https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/image_classification オブジェクト検出タスクの目的は、コンピューターに画像またはビデオ フレームを与えて、その中のすべてのオブジェクトの位置を見つけ、各オブジェクトの特定のカテゴリを提供することです。コンピュータにとって「見える」のは、画像がエンコードされた後の数字ですが、画像やビデオフレーム内の人物や物体の出現などの高レベルな意味概念を理解することは難しく、画像内でターゲットが出現する領域を見つけることはさらに困難になります。 ターゲット検出モデルについては、PaddleDetection を参照してください。 https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleDetection 画像セマンティックセグメンテーションは、その名前が示すように、画像ピクセルをそれらが表すさまざまな意味に応じてグループ化/セグメント化することです。画像セマンティクスとは、画像の内容を理解すること、たとえば、オブジェクトがどこで何をしているかなどを描写できることを指します。セグメンテーションとは、画像内の各ピクセルにラベルを付け、どのカテゴリに属するかをマークすることを指します。近年では、歩行者や車両を避けるために街の風景をセグメント化したり、医療画像分析で診断を支援したりする無人運転車の技術に使用されています。 人体骨格キーポイント検出(姿勢推定)は、主に関節や顔の特徴など人体のいくつかのキーポイントを検出し、キーポイントを通じて人体骨格情報を記述します。人間の骨格のキーポイント検出は、人間の姿勢を記述し、人間の行動を予測するために重要です。これは、アクション分類、異常動作検出、自動運転など、多くのコンピューター ビジョン タスクの基礎となります。 画像生成とは、入力ベクトルに基づいてターゲット画像を生成することを指します。ここでの入力ベクトルは、ランダム ノイズまたはユーザー指定の条件付きベクトルになります。具体的な応用シナリオとしては、手書き文字生成、顔合成、スタイル転送、画像復元などがあります。 PaddleGAN には、画像生成に関連する複数のモデルが含まれています。 シーンテキスト認識は、複雑な画像背景、低解像度、多様なフォント、ランダムな分布などの条件下で、画像情報をテキストシーケンスに変換するプロセスです。これは、画像入力を自然言語出力に変換する特殊な翻訳プロセスと考えることができます。 メトリック学習は、距離メトリック学習または類似性学習とも呼ばれます。オブジェクト間の距離を学習することにより、メトリック学習を使用して、オブジェクト間の時間的関連性と比較関係を分析できます。実用的な問題で広く使用されており、補助的な分類やクラスタリングの問題に適用できます。また、画像検索、顔認識などの分野でも広く使用されています。 3.8. ビデオ分類とアクションローカリゼーション ビデオの分類とアクションのローカリゼーションは、ビデオ理解タスクの基礎です。 ビデオデータには音声や画像などさまざまな情報が含まれています。そのため、ビデオを理解するには、音声や画像を処理するだけでなく、ビデオフレームの時系列からコンテキスト情報を抽出する必要があります。 ビデオ分類モデルは、グローバルな時間的特徴を抽出する方法を提供します。主な方法には、畳み込みニューラル ネットワーク (C3D、I3D、C2D など)、ニューラル ネットワークと従来の画像アルゴリズムの組み合わせ (VLAD など)、リカレント ニューラル ネットワーク、およびその他のモデリング方法が含まれます。 ビデオアクションローカリゼーションモデルでは、ビデオアクションのカテゴリと開始および終了時点を同時に識別する必要があり、通常は画像ターゲット検出で使用されるアルゴリズムと同様のアルゴリズムを使用して、時間次元でモデル化します。 インテリジェントテキスト処理 PaddleNLP PaddleNLP は、PaddlePaddle ディープラーニング フレームワークに基づいて開発された自然言語処理 (NLP) ツール、アルゴリズム、モデル、およびデータのオープン ソース プロジェクトです。 Baidu の NLP 分野における 10 年以上にわたる深い蓄積は、PaddleNLP の強力な中核的な原動力となっています。 PaddleNLP を使用すると、次のことが可能になります。 豊富で包括的な NLP タスク サポート: PaddleNLP は、複数の粒度と複数のシナリオのアプリケーション サポートを提供します。 単語の分割、品詞のタグ付け、固有表現の認識などの基本的な NLP テクノロジに加え、テキスト分類、テキスト類似度の計算、意味表現、テキスト生成などのコア NLP テクノロジもカバーしています。 同時に、PaddleNLP は、一般的な大規模 NLP アプリケーション システム (読解、対話システム、機械翻訳システムなど) 向けの特定のコア テクノロジーとツール コンポーネント、モデル、事前トレーニング済みパラメーターも提供し、NLP 分野でのスムーズな進歩を可能にします。 安定した信頼性の高い NLP モデルと強力な事前トレーニング パラメータ: PaddleNLP は、Baidu 内で広く使用されている NLP ツール モデルを統合し、安定した信頼性の高い NLP アルゴリズム ソリューションを提供します。 事前トレーニング済みのパラメータと、数百億のデータに基づく豊富な事前トレーニング済みモデルにより、モデルの効果を簡単に改善し、NLP ビジネスに強力な推進力を注入することができます。 継続的な改善と技術サポート、NLP アプリケーションをゼロから構築: PaddleNLP は、NLP ビジネスを保護するために、継続的な技術サポートとモデル アルゴリズムの更新を提供します。
Baidu は、中国語の単語分割、品詞タグ付け、固有表現認識タスクを統合した中国語特有のモデル語彙解析タスクを独自に開発しました。 入力は文字列で、出力は文中の単語の境界と品詞およびエンティティ カテゴリです。 複数のカードを備えた単一のマシンや複数のマシンなど、分散方式で中国語の単語ベクトルをトレーニングする機能を提供します。主流の単語ベクトル モデル (skip-gram、cbow など) をサポートし、カスタム データを使用して単語ベクトル モデルをすばやくトレーニングできます。 入力単語シーケンス(中国語は最初にセグメント化され、英語は最初にトークン化される必要があります)が与えられた場合、その生成確率を計算します。 言語モデルの評価指標である PPL (perplexity) は、モデルによって生成された文章の流暢さを示すために使用されます。 PaddleLARK (Paddle LAngauge Representation ToolKit) は、従来の言語モデルをさらに発展させたものです。これは、大規模なコーパスでのトレーニングによって得られる一般的な意味表現モデルであり、他の自然言語処理タスクに役立ちます。これは、一般的な事前トレーニング + 特定のタスクの微調整パラダイムの具体化です。 PaddleLARK は、ELMO、BERT、ERNIE 1.0、ERNIE 2.0、XLNet などの一般的な中国語と英語の事前トレーニング済みモデルを統合します。 SimNet (Similarity Net) は、主に BOW、CNN、RNN、MMDNN などのコア ネットワーク構造を含む、短いテキストの類似性を計算するフレームワークです。 SimNet フレームワークは Baidu 製品で広く使用されており、意味的類似性計算のトレーニングと予測フレームワークを提供します。情報検索、ニュース推奨、インテリジェントな顧客サービスなど、複数のアプリケーション シナリオに適しており、企業が意味的マッチングの問題を解決するのに役立ちます。 PaddleTextGEN (Paddle Text Generation) は、PaddlePaddle をベースにしたテキスト生成フレームワークです。バニラ seq2seq、アテンション付き seq2seq、変分 seq2seq モデルなど、一連の古典的なテキスト生成モデル ケースを提供します。 PaddleMRC (Paddle Machine Reading Comprehension) は、モデル、ツール、オープンソース データセットなど、読解分野における Baidu の取り組みを統合したものです。 PaddleMT は、正式名称を Paddle Machine Translation といい、論文「Attention Is All You Need」に基づいた、Transformer に基づく古典的な機械翻訳モデルです: https://arxiv.org/abs/1706.03762 PaddleDialogue には、対話システム用のモデル、データセット、ツールが含まれています。 Baidu の最新の最先端の研究はオープンソースです。研究を参照してください。 https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/リサーチ インテリジェントな推奨 PaddleRec 現在のインターネット サービスでは、パーソナライズされた推奨機能がますます重要な役割を果たしています。現在、ほとんどの電子商取引システム、ソーシャル ネットワーク、広告推奨機能、検索エンジンでは、さまざまな形式のパーソナライズされた推奨テクノロジをさまざまな程度で使用して、ユーザーが必要な情報をすばやく見つけられるようにしています。 PaddleRecに含まれるモデルは以下の通りです。 インテリジェント音声パドルスピーチ PaddleSpeech には、音声認識と音声合成に関連するモデルが含まれています。 より多くのディープラーニング開発者とコミュニケーションを取りたい場合は、PaddlePaddle の公式 QQ グループ ( 796771754) に参加してください。 PaddlePaddle について詳しく知りたい場合は、以下のドキュメントを参照してください。 公式サイト: https://www.paddlepaddle.org.cn/ プロジェクトアドレス: https://github.com/PaddlePaddle/models PaddlePaddle シリーズの記事のコア フレームワークの解釈: PaddlePaddleが新しくリリースされ、コアフレームワークが初めて完全に説明されました |