史上最も包括的な解釈 | PaddlePaddleモデルライブラリが大幅にアップグレードされ、主流のアルゴリズムモデルをすべてカバーしています

史上最も包括的な解釈 | PaddlePaddleモデルライブラリが大幅にアップグレードされ、主流のアルゴリズムモデルをすべてカバーしています

11月5日、Wave Summit+2019 Deep Learning Developer Summitにおいて、PaddlePaddleは最新の21の進歩をリリースし、大幅にアップグレードし、ディープラーニング開発者コミュニティで大きな反響を呼びました。

参加できなかった多くの開発者は、PaddlePaddle ローンチカンファレンスの裏側にある技術的な詳細をもっと知りたいと残念に思っていました。そこで、コアフレームワーク、基本モデルライブラリ、エンドツーエンド開発キット、ツールコンポーネント、サービスプラットフォームの 5 つのレベルから、PaddlePaddle のコアテクノロジーと最新の開発状況を詳細に解説する一連の記事を特別に企画しました。どうぞお楽しみに。

今日は、PaddlePaddle の基本モデル ライブラリの解釈に関する一連の記事をお届けします。

PaddlePaddle モデル ライブラリは、インテリジェント ビジョン (PaddleCV)、インテリジェント テキスト処理 (PaddleNLP)、インテリジェント スピーチ (PaddleSpeech)、インテリジェント レコメンデーション (PaddleRec) の 4 つの主要領域をカバーしています。PaddlePaddle は、国際大会で優勝したモデルなど、長期にわたる産業実践を通じて磨き上げられた 100 を超える主流モデルを公式にサポートしています。同時に、200 を超える事前トレーニング済みモデルがオープンソース化されており、迅速な産業アプリケーションを促進します。コアコンテンツは 1,562 語で、推定読了時間は 3 分です。全文は 7659 語あり、将来の参照用に保存することを強くお勧めします。

PaddlePaddle のパノラマビュー。この記事では主に、基本モデル ライブラリの詳細な解説を提供します。
最初の部分では、まずモデル ライブラリの最新バージョンの主な更新内容を見てみましょう。
 

主な更新ポイント

1.1. パドルCV
 
トレーニングとデプロイメントのためのエンドツーエンドの画像セグメンテーション ライブラリである PaddleSeg をリリースし、画像分類用の EfficientNet などの 43 の事前トレーニング済みモデルを追加しました。 PaddleDetection には、2019 Objects365 Full Track チャンピオン モデル、BlazeFace およびその他の小さな顔検出モデル、歩行者検出および車両検出用の事前トレーニング済みモデルが追加されています。 PaddleVideo は、ActivityNet Challenge 2019 の優勝モデルを追加し、ビデオ キャプション、ビデオ グラウンディング、その他のモデルも含め拡張しました。  
 
1.2. パドルNLP
 
新しい seq2seq 関連 API とテキスト生成モデルのサンプルをリリースしました。 セマンティック表現ライブラリには、XLNet 事前トレーニング済みモデルが追加されています。EMNLP 2019 読解コンテスト優勝モデル D-NET はオープンソースであり、18 種類の抽出読解データセットでのランキングもサポートしています。 マルチタスク機械学習研究をより便利にサポートするPaddlePaddleマルチタスク学習ライブラリPALM(PAddLeマルチタスク学習)をリリースしました。  
 
1.3. パドルスピーチ
 
音声認識モデルDeepSpeech、音声合成モデルDeepVoice3をはじめとした新製品がリリースされました。  
 
1.4. パドルレック
 
PaddleRec のモデル カバレッジをさらに追加しました。  
 
上記のように、今回のアップグレードでは、PaddlePaddle はより多くの公式サポートモデルと事前トレーニング済みモデルを提供し、複数の国際チャンピオンモデルもオープンソース化しています。現在、PaddlePaddle は 100 を超えるモデルと 200 を超える事前トレーニング済みモデルを公式にサポートしており、開発者の迅速なアプリケーション実践を大幅に促進しています。

 

パドルパドルモデルライブラリが新しい完全な解釈をリリース

この新しいバージョンでは、PaddlePaddleモデルライブラリに  8種類のタスク  40 を超えるアルゴリズム モデルは、より包括的な範囲のタスク カテゴリをカバーし、より豊富なアルゴリズム モデルを備えているため、基本的に産業用アプリケーションのさまざまなビジネス ニーズを満たし、開発者が実際のプロジェクトを迅速に実装するのに役立ちます。
 

100以上のアルゴリズムと200以上の事前学習済みモデルを公式にサポート
 
PaddlePaddle のモデル ライブラリは、自然言語処理、コンピューター ビジョン、推奨、音声という 4 つの主要領域をすでに完全にサポートしています。音声アルゴリズムの新しいサポートにより、公式にサポートされているモデルの数は 60 から 100 以上に拡大しました。現時点では、PaddlePaddle はすでに人工知能の分野で主流のアルゴリズム モデルの適用をサポートしています。開発者は、PaddlePaddle モデル ライブラリを使用して、産業用アプリケーション プロジェクトを迅速に実装できます。
 

具体的には、コンピューター ビジョンの分野では、PaddlePaddle は画像分類、生成、検出、ビデオ理解、画像セグメンテーションなどの分野で新しいモデルを追加しました。自然言語処理の分野では、PaddlePaddle は意味表現、読解、質疑応答の分野でアップグレードを行ってきました。同様に、レコメンデーションと音声についてもさらなる改善とアップグレードが行われています。

 
PaddlePaddle は、従来のモデルのサポートに加えて、コンピューター ビジョンの分野でのビデオ理解やポートレートのセグメンテーション、自然言語処理の分野での読解など、Baidu が国際コンテストで優勝したアルゴリズム モデルも多数オープンソース化しています。
 
最近開催されたトップNLPカンファレンスEMNLPでは、PaddlePaddle   D-NET モデルは、このコンテストで多くの有力な出場者を打ち負かし、読解力部門で 10 回の優勝を果たしました。この模型のフライングパドルは、開発者にも無条件で公開されます。
 
以下では、4 つの主流分野の開発者向けに、PaddlePaddle モデル ライブラリのコア コンテンツの一部を紹介します。アルゴリズム モデルの数が多く、スペースが限られているため、アルゴリズム モデルの分類と名前、導入と適用のシナリオ、およびさまざまなデータ セットの評価指標のみを整理します。
 
一方で、この記事は、初心者の開発者にモデル ライブラリの全体的なマクロな視点を提供することができます。また、この記事はクイック リファレンス マニュアルとしても役立ちます。開発者が必要に応じてすぐに選択できるように、保存することを強くお勧めします。
 
特定のアルゴリズムの詳細をすぐに知りたい場合は、ポータルに直接アクセスしてください。

 

https://github.com/PaddlePaddle/models

インテリジェントビジョンパドルCV

画像分類 
 
画像分類とは、意味情報に基づいてさまざまなカテゴリの画像を区別することです。これは、コンピューター ビジョンにおける重要な基本問題であり、オブジェクト検出、画像セグメンテーション、オブジェクト追跡、動作分析、顔認識などの他の高度な視覚タスクの基礎となります。多くの分野で幅広く応用されています。例えば、セキュリティ分野での顔認識やインテリジェントビデオ分析、交通分野での交通シーン認識、インターネット分野でのコンテンツベースの画像検索や自動アルバム分類、医療分野での画像認識など。
 

その他の画像分類モデルについては、「画像分類」を参照してください。

 

https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/image_classification

 

3.2. 物体検出
 
オブジェクト検出タスクの目的は、コンピューターに画像またはビデオ フレームを与えて、その中のすべてのオブジェクトの位置を見つけ、各オブジェクトの特定のカテゴリを提供することです。コンピュータにとって「見える」のは、画像がエンコードされた後の数字ですが、画像やビデオフレーム内の人物や物体の出現などの高レベルな意味概念を理解することは難しく、画像内でターゲットが出現する領域を見つけることはさらに困難になります。
 
ターゲット検出モデルについては、PaddleDetection を参照してください。

 

https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleDetection

 

画像セグメンテーション 
 
画像セマンティックセグメンテーションは、その名前が示すように、画像ピクセルをそれらが表すさまざまな意味に応じてグループ化/セグメント化することです。画像セマンティクスとは、画像の内容を理解すること、たとえば、オブジェクトがどこで何をしているかなどを描写できることを指します。セグメンテーションとは、画像内の各ピクセルにラベルを付け、どのカテゴリに属する​​かをマークすることを指します。近年では、歩行者や車両を避けるために街の風景をセグメント化したり、医療画像分析で診断を支援したりする無人運転車の技術に使用されています。
 

 
3.4. キーポイント検出 
 
人体骨格キーポイント検出(姿勢推定)は、主に関節や顔の特徴など人体のいくつかのキーポイントを検出し、キーポイントを通じて人体骨格情報を記述します。人間の骨格のキーポイント検出は、人間の姿勢を記述し、人間の行動を予測するために重要です。これは、アクション分類、異常動作検出、自動運転など、多くのコンピューター ビジョン タスクの基礎となります。
 

 
3.5. 画像生成 
 
画像生成とは、入力ベクトルに基づいてターゲット画像を生成することを指します。ここでの入力ベクトルは、ランダム ノイズまたはユーザー指定の条件付きベクトルになります。具体的な応用シナリオとしては、手書き文字生成、顔合成、スタイル転送、画像復元などがあります。 PaddleGAN には、画像生成に関連する複数のモデルが含まれています。
 

3.6. シーンテキスト認識
 
シーンテキスト認識は、複雑な画像背景、低解像度、多様なフォント、ランダムな分布などの条件下で、画像情報をテキストシーケンスに変換するプロセスです。これは、画像入力を自然言語出力に変換する特殊な翻訳プロセスと考えることができます。
 

3.7. メトリック学習 
 
メトリック学習は、距離メトリック学習または類似性学習とも呼ばれます。オブジェクト間の距離を学習することにより、メトリック学習を使用して、オブジェクト間の時間的関連性と比較関係を分析できます。実用的な問題で広く使用されており、補助的な分類やクラスタリングの問題に適用できます。また、画像検索、顔認識などの分野でも広く使用されています。
 

 
3.8. ビデオ分類とアクションローカリゼーション 
 
ビデオの分類とアクションのローカリゼーションは、ビデオ理解タスクの基礎です。
 
ビデオデータには音声や画像などさまざまな情報が含まれています。そのため、ビデオを理解するには、音声や画像を処理するだけでなく、ビデオフレームの時系列からコンテキスト情報を抽出する必要があります。
 
ビデオ分類モデルは、グローバルな時間的特徴を抽出する方法を提供します。主な方法には、畳み込みニューラル ネットワーク (C3D、I3D、C2D など)、ニューラル ネットワークと従来の画像アルゴリズムの組み合わせ (VLAD など)、リカレント ニューラル ネットワーク、およびその他のモデリング方法が含まれます。
 
ビデオアクションローカリゼーションモデルでは、ビデオアクションのカテゴリと開始および終了時点を同時に識別する必要があり、通常は画像ターゲット検出で使用されるアルゴリズムと同様のアルゴリズムを使用して、時間次元でモデル化します。
 

インテリジェントテキスト処理 PaddleNLP

PaddleNLP は、PaddlePaddle ディープラーニング フレームワークに基づいて開発された自然言語処理 (NLP) ツール、アルゴリズム、モデル、およびデータのオープン ソース プロジェクトです。 Baidu の NLP 分野における 10 年以上にわたる深い蓄積は、PaddleNLP の強力な中核的な原動力となっています。 PaddleNLP を使用すると、次のことが可能になります。
 

  • 豊富で包括的な NLP タスク サポート: PaddleNLP は、複数の粒度と複数のシナリオのアプリケーション サポートを提供します。 単語の分割、品詞のタグ付け、固有表現の認識などの基本的な NLP テクノロジに加え、テキスト分類、テキスト類似度の計算、意味表現、テキスト生成などのコア NLP テクノロジもカバーしています。 同時に、PaddleNLP は、一般的な大規模 NLP アプリケーション システム (読解、対話システム、機械翻訳システムなど) 向けの特定のコア テクノロジーとツール コンポーネント、モデル、事前トレーニング済みパラメーターも提供し、NLP 分野でのスムーズな進歩を可能にします。  

  • 安定した信頼性の高い NLP モデルと強力な事前トレーニング パラメータ: PaddleNLP は、Baidu 内で広く使用されている NLP ツール モデルを統合し、安定した信頼性の高い NLP アルゴリズム ソリューションを提供します。 事前トレーニング済みのパラメータと、数百億のデータに基づく豊富な事前トレーニング済みモデルにより、モデルの効果を簡単に改善し、NLP ビジネスに強力な推進力を注入することができます。  

  • 継続的な改善と技術サポート、NLP アプリケーションをゼロから構築: PaddleNLP は、NLP ビジネスを保護するために、継続的な技術サポートとモデル アルゴリズムの更新を提供します。  

 
4.1. NLPの基本技術
 
4.1.1. LAC(中国語の語彙解析)
 
Baidu は、中国語の単語分割、品詞タグ付け、固有表現認識タスクを統合した中国語特有のモデル語彙解析タスクを独自に開発しました。 入力は文字列で、出力は文中の単語の境界と品詞およびエンティティ カテゴリです。  
 
4.1.2. Word2vec  
 
複数のカードを備えた単一のマシンや複数のマシンなど、分散方式で中国語の単語ベクトルをトレーニングする機能を提供します。主流の単語ベクトル モデル (skip-gram、cbow など) をサポートし、カスタム データを使用して単語ベクトル モデルをすばやくトレーニングできます。  
 
4.1.3. 言語モデル
 
入力単語シーケンス(中国語は最初にセグメント化され、英語は最初にトークン化される必要があります)が与えられた場合、その生成確率を計算します。 言語モデルの評価指標である PPL (perplexity) は、モデルによって生成された文章の流暢さを示すために使用されます。  
 
4.2. NLPコアテクノロジー 
 
4.2.1. 意味表現 
 
PaddleLARK (Paddle LAngauge Representation ToolKit) は、従来の言語モデルをさらに発展させたものです。これは、大規模なコーパスでのトレーニングによって得られる一般的な意味表現モデルであり、他の自然言語処理タスクに役立ちます。これは、一般的な事前トレーニング + 特定のタスクの微調整パラダイムの具体化です。 PaddleLARK は、ELMO、BERT、ERNIE 1.0、ERNIE 2.0、XLNet などの一般的な中国語と英語の事前トレーニング済みモデルを統合します。
 

4.2.2. テキスト類似度の計算
SimNet (Similarity Net) は、主に BOW、CNN、RNN、MMDNN などのコア ネットワーク構造を含む、短いテキストの類似性を計算するフレームワークです。 SimNet フレームワークは Baidu 製品で広く使用されており、意味的類似性計算のトレーニングと予測フレームワークを提供します。情報検索、ニュース推奨、インテリジェントな顧客サービスなど、複数のアプリケーション シナリオに適しており、企業が意味的マッチングの問題を解決するのに役立ちます。
 
4.2.3. テキスト生成 
 
PaddleTextGEN (Paddle Text Generation) は、PaddlePaddle をベースにしたテキスト生成フレームワークです。バニラ seq2seq、アテンション付き seq2seq、変分 seq2seq モデルなど、一連の古典的なテキスト生成モデル ケースを提供します。
 
4.3. NLPシステムの応用 
 
感情分析
 

4.3.2. 読解力 
 
PaddleMRC (Paddle Machine Reading Comprehension) は、モデル、ツール、オープンソース データセットなど、読解分野における Baidu の取り組みを統合したものです。
 

 
4.3.3. 機械翻訳
 
PaddleMT は、正式名称を Paddle Machine Translation といい、論文「Attention Is All You Need」に基づいた、Transformer に基づく古典的な機械翻訳モデルです: https://arxiv.org/abs/1706.03762
 
4.3.4. 対話システム 
 
PaddleDialogue には、対話システム用のモデル、データセット、ツールが含まれています。
 

 
Baidu の最新の最先端の研究はオープンソースです。研究を参照してください。

 

https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/リサーチ

 

インテリジェントな推奨 PaddleRec

現在のインターネット サービスでは、パーソナライズされた推奨機能がますます重要な役割を果たしています。現在、ほとんどの電子商取引システム、ソーシャル ネットワーク、広告推奨機能、検索エンジンでは、さまざまな形式のパーソナライズされた推奨テクノロジをさまざまな程度で使用して、ユーザーが必要な情報をすばやく見つけられるようにしています。 PaddleRecに含まれるモデルは以下の通りです。
 

インテリジェント音声パドルスピーチ

PaddleSpeech には、音声認識と音声合成に関連するモデルが含まれています。
 

 
より多くのディープラーニング開発者とコミュニケーションを取りたい場合は、PaddlePaddle の公式 QQ グループ ( 796771754) に参加してください。
 
PaddlePaddle について詳しく知りたい場合は、以下のドキュメントを参照してください。
 
公式サイト: https://www.paddlepaddle.org.cn/
プロジェクトアドレス: https://github.com/PaddlePaddle/models
PaddlePaddle シリーズの記事のコア フレームワークの解釈:
PaddlePaddleが新しくリリースされ、コアフレームワークが初めて完全に説明されました

<<:  能力が高くても給料が高くならない?これらの考えはあなたに合うでしょう

>>:  20以上のモバイルハードウェア、Int8超高速推論、エンドサイド推論エンジンPaddle Lite 2.0が正式にリリースされました

ブログ    
ブログ    

推薦する

チャットボット構造のガイドライン

数日前、私は「チャットボットをよりエレガントに設計する方法」という記事を書きました。何人かの友人が私...

機械知能のための TensorFlow 実践: 製品環境へのモデルの導入

TesnsorFlow を使用して、基本的な機械学習モデルから複雑なディープラーニング ネットワーク...

人工知能は ICT 専門家にとって味方でしょうか、それとも敵でしょうか?

人工知能 (AI) とそのサブセットである機械学習 (ML) は、今日最も急速に成長しているテクノロ...

機械学習、ディープラーニング、強化学習の関係と違いは何ですか?

これには、機械学習のサブフィールドの分類が含まれます。すべての分類において、最初に尋ねるべき質問は、...

Appleは開発者がアプリのコードを書くのに役立つXcodeのアップデート版を開発中だ

2月18日、海外メディアの報道によると、AppleはXcodeプログラミングソフトウェアの新しい生成...

ハードコア! CES 2021 アワード: 労働者は仮想人間、口紅は AI アルゴリズムを追加、ロボットは毛皮で覆われる

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

1人当たり6万ドル:2024年NVIDIA奨学金リストが発表、中国人5名が選出

今週の金曜日、待望の NVIDIA 奨学金の受賞者リストが発表されました。 NVIDIA 大学院フェ...

ビッグデータと AI: 3 つの実際の使用例

ビッグデータと人工知能は、企業が新しい方法で顧客体験を向上させるのに役立ちます。 AIとビッグデータ...

...

...

AI の透明性とは何ですか? また、なぜそれが必要なのですか?

AI テクノロジーを利用する組織はますます増えていますが、多くの企業はまだ AI テクノロジーの仕...

アルゴリズムを超えて: 人工知能と機械学習が組織に与える影響

[[319769]]今日、デジタルサイエンスは企業にとってますます魅力的になっています。しかし、デジ...

...

企業チームのスキルは AI 導入の障壁となるのでしょうか?

人工知能は驚くべきことを実現できますが、いくつかの障害にも直面しています。 2021年に3,500人...