BaiduのNLP自然言語処理技術の最も包括的な分析

BaiduのNLP自然言語処理技術の最も包括的な分析

[[209979]]

AI時代には、コンピューターが視覚、聴覚、行動、言語の知能を持つようになることが期待されています。聴覚、視覚、行動と比較して、言語は私たち人間を他の動物と区別する最も重要な特性の1つです。言語は私たちの思考を運ぶものなので、言語の理解と処理が特に重要になります。コンピュータ分野における自然言語処理 (NLP) とは、コンピュータが人間の言語を理解し、生成して、人間と対等かつ流暢にコミュニケーションできるようにする方法を研究する分野です。自然言語処理技術は百度において長い歴史を持ち、百度の誕生当初から検索技術の重要な一部となり、百度の発展とともに進歩してきました。中国語の単語分割、品詞分析、書き直しから、機械翻訳、段落分析、意味理解、対話システムなどまで、NLP 技術はさまざまな Baidu 製品にうまく適用されています。

最近、Baidu Developer Center が主催し、Geekbang Technology が企画した第 75 回 Baidu Technology Salon では、Baidu NLP および AI Open Platform の多くの上級エンジニアと製品マネージャーが、開発者が Baidu NLP テクノロジーを使用して実際のアプリケーションの問題をより適切に解決する方法について意見を共有しました。 Baidu の AI テクノロジー エコロジー部門のシニア オペレーション コンサルタントである張洋氏は、具体的な応用事例を通じて、Baidu のオープン コア テクノロジーを参加者全員に理解してもらいました。自然言語処理部門のチーフ アーキテクトである孫宇氏は、NLP セマンティック コンピューティング テクノロジーの具体的な問題について詳細な分析を行いました。自然言語処理部門のシニア R&D エンジニアである何博雷氏は、多数のシナリオを使用して、感情分析分野における技術の応用について詳細に説明しました。自然言語処理部門のシニア R&D エンジニアである江迪氏は、確率的グラフィカル モデル テクノロジーの応用方法について詳しく説明しました。Baidu の AI テクノロジー エコロジー部門のシニア プロダクト マネージャーである張静静氏は、Baidu の AI オープン プラットフォームの使用方法について現場で指導を行いました。

NLPとは何ですか?

NLP は、コンピューター サイエンスと人工知能の分野における重要な方向性です。自然言語を用いて人間とコンピュータ間の効果的なコミュニケーションを可能にするさまざまな理論と方法を研究します。自然言語処理は、言語学、コンピューターサイエンス、数学を統合した分野です。 NLP は、自然言語理解と自然言語生成という 2 つの主要な技術分野で構成されています。

  • 自然言語理解の主な目標は、語彙や構文の理解などの基本的な意味理解だけでなく、要求、テキスト、感情レベルでの高レベルの理解も含め、機械が人間の言語をよりよく理解できるようにすることです。
  • 自然言語生成の主な目的は、テキスト生成、自動要約など、機械が人間が理解できる言語を生成できるようにすることです。

NLP技術は、ビッグデータ、ナレッジグラフ、機械学習、言語学などの技術とリソースを基盤とし、機械翻訳、深層質問応答、対話システムなどの具体的な応用システムを形成し、さまざまな実用的なビジネスや製品に貢献します。

NLP はなぜ必要なのでしょうか?

張楊氏は講演で、皆さんにもっと直感的に感じてもらうために、まず生活からの例を挙げました。百度を使って珍しい漢字を検索するとき、ピンインを知らない人は「4 again はどう発音しますか?」と検索します。検索結果は「4 again」という単語の表面的な一致結果ではなく、文字「叕」の発音を教えてくれるはずだとわかりました。これには自然言語理解の能力が使われており、検索エンジンはユーザーが検索する必要があるのは「4 again」という孤立した単語ではなく、「4 again」で構成された文字であることを理解できます。 NLP テクノロジーは、ユーザーの発言の深い意味を真に理解できることがわかります。また、このテクノロジーによって人工知能も新たなレベルに押し上げられました。

では、NLP は何ができるのでしょうか? 企業の目標達成にどのように役立つのでしょうか? Zhang Yang 氏は、Baidu NLP によって公開されたいくつかの代表的なテクノロジーを続けて紹介しました。

感情分析

主観的な記述を含む中国語テキストの場合、テキストの感情極性カテゴリを自動的に決定し、対応する信頼レベルを与えることができます。感情の極性は、ポジティブ、ネガティブ、ニュートラルに分けられます。感情分析は、企業がユーザーの消費習慣を理解し、ホットな話題を分析し、危機に関する世論を監視するのに役立ち、企業に強力な意思決定サポートを提供します。

コメント抽出

コメントの焦点とコメントの意見を自動で分析し、コメントの意見ラベルとコメントの意見極性を出力します。現在、食品、ホテル、車、アトラクションなど13種類の商品に関するユーザーレビューからの意見抽出をサポートしており、販売業者が商品分析を実施したり、ユーザーの消費決定を支援したりするのに役立ちます。

語義類似度の計算

これは、自然言語の分布仮説に基づいて、指定された 2 つの単語間の意味上の類似性を計算するために使用されます。つまり、共起する単語の頻度が高いほど、それらの類似性が高くなります。単語の意味の類似性は、自然言語処理における重要な基本技術であり、固有名詞マイニング、クエリ書き換え、品詞タグ付けなどの一般的な技術の基盤の 1 つです。

語彙解析

Baidu の語彙解析は、単語の分割、品詞のタグ付け、固有表現の認識という 3 つの主要機能をユーザーに提供します。このサービスは、テキスト文字列内の基本的な語彙の注釈と品詞を識別し、さらに名前付きエンティティを識別できます。Baidu の語彙解析アルゴリズムのパフォーマンスは、公開されている主流の中国語語彙解析モデルをはるかに上回っています。

短いテキストの類似性

異なる短いテキスト間の類似度を計算できます。出力される類似度は -1 から 1 までの実数値です。1 に近いほど類似度が高くなります。この類似度値は、結果の並べ替えに直接使用することも、より複雑なシステムの 1 次元の基本機能として使用することもできます。

DNN言語モデル

言語モデルは、与えられた単語で構成される文の確率を計算し、その文が客観的な言語表現習慣に準拠しているかどうかを判断します。機械翻訳、スペル修正、音声認識、質問応答システム、品詞タグ付け、構文解析、情報検索システムなどで広く使用されています。

単語ベクトル表現

単語ベクトル表現は、トレーニングを通じて言語語彙内の単語を固定長のベクトルにマッピングする方法です。語彙内のすべての単語ベクトルはベクトル空間を形成し、各単語はこの単語ベクトル空間内の点です。この方法を使用すると、テキストを計算可能にすることができます。

[[209980]]

依存関係の解析

文中の単語間の依存関係を利用して、単語の統語構造情報(主語と述語、動詞と目的語、形容詞など)を表します。

また、ツリー構造を使用して、文全体の構造(主語、述語、目的語、形容詞、副詞、補語など)を表します。

[[209981]]  

Baidu のセマンティック コンピューティング テクノロジーはどのように実装されていますか?

さまざまな NLP オープン インターフェースの中で、セマンティック コンピューティングは非常に基本的なテクノロジーです。 BaiduのNLP部門のチーフアーキテクトである孫宇氏は、主にNLPセマンティックコンピューティングの全体的な技術フレームワークを分析し、セマンティック表現技術とセマンティックマッチング技術を紹介しました。 Baidu の NLP セマンティック コンピューティングの全体的なフレームワークは、主に 3 つの部分に分かれています (下図を参照)。最上位層は、ビッグ データ、Web ページ データ、ユーザー行動データ、高性能クラスター (GPU、CPU、FPGA) を利用して、DNN と確率グラフ モデルに基づくセマンティック コンピューティング エンジンを作成します。セマンティック コンピューティング エンジンにテキストを入力すると、テキストの意味表現が得られ、この意味表現に基づいて、意味マッチング、意味検索、テキスト分類、シーケンス生成、シーケンス ラベル付けなどの意味レベルの計算を実行できます。

現在、百度はセマンティクス分野で4つの技術を公開しており、語彙レベルと文章レベルの両方でセマンティクス技術をカバーしています。語彙レベルには、単語の意味ベクトル表現と単語の意味の類似性計算が含まれ、文レベルには、短いテキストの意味の類似性計算と DNN 言語モデルが含まれます。 Sun Yu 氏は、これらのテクノロジーの背後にある原理について詳しく説明しました。

業界ではセマンティック表現技術の研究がかなり早い段階から始まっており、形式手法と統計手法という 2 つの主要な考え方があります。形式化に基づく方法については、1980 年代にプリンストン大学の科学者が、言語知識に基づいて単語グラフを構築し、単語間の関係を通じてこのグラフに知識を組み込むことを提案しました。 1990 年代には、自然言語をコンピュータの計算や実行に直接使用できる論理式として表現することを提案する人もいました。しかし、どちらの技術も自動化の度合いが低く、適用性が低いという問題があり、そのため、Baidu NLP では主に統計ベースの手法を採用しています。

短いテキストの意味的類似性の計算は彼らが注力している技術であり、幅広い用途があります。コアモデルは、2013 年に開発を開始した SimNet セマンティック マッチング フレームワークに基づいており、数千億の実際のクリック データでトレーニングされています。このフレームワークの基本的なマッチング アルゴリズムには、表現レイヤー モデリングに重点を置いたマッチング パラダイムと、マッチング レイヤー モデリングに重点を置いたマッチング パラダイムの 2 つが含まれます。どちらのモデルにもそれぞれの利点があり、異なる問題を解決できます。さらに、さまざまな応用シナリオ向けに、文字レベルのマッチングや多視点マッチング技術の研究開発も拡大しており、これらの技術は百度内のさまざまな製品に広く使用されています。

Baidu の自然言語処理は感情分析の分野でどのような技術とアプリケーションを持っていますか?

講演の中で、何博雷氏は主にユーザーの日常的な使用シナリオに基づいて感情分析技術の原理と実際の応用を分析しました。 Baidu の感情分析技術は、コメントビッグデータ、ディープラーニング、意味理解などの基本技術に依存しており、感情分類と意見マイニングのための完全なコア技術セットを確立しています。感情分類では、感情傾向分析、感情分析、感情オブジェクト認識、文章の主観的・客観的分析などを開発しました。意見マイニングでは、感情マッチング知識の自動構築と意見計算技術により、テキストデータから効果的に意見を抽出できます。 Baidu はこれらのコアテクノロジーを活用してユーザー製品を開発しています。

ここでは、次の 2 種類のコア テクノロジに焦点を当てます。

感情分析

感情分析の目的は、ユーザーのテキストが肯定的、否定的、または中立的な感情を持っているかどうかを判断することです。従来の方法には、感情辞書を使用してルールマッチングを実行して判断する方法と、感情辞書とテキストの特徴に基づいて 2 つの分類タスクを確立する方法の 2 種類があります。 Baidu の感情分析はディープラーニング手法に基づいており、文レベル、エンティティ レベル、段落レベルで完全な多粒度分析タスクを確立しています。文章レベルでは、システムは Bi-LSTM 分類法を通じて文脈で表現された感情の極性に関する情報をより適切に取得できるため、従来の方法と比較して効果が大幅に向上します。エンティティ レベルの粒度タスクの概念は少しわかりにくいです。たとえば、「ジャッキー チェンの『ウルフ 2』に対する見解」という記事には複数のトピックがある可能性があります。タスクは、「Wu Jing」に対する記事の態度を分析することです。本課題では、システム全体でより正確な分析・判断を行えるよう、階層的な意味表現方式を確立しました。

レビュー意見抽出技術

コメント意見抽出の目的は、テキストから意見を表現する情報を抽出することです。たとえば、ユーザーのコメント:「このホテルのサービスは良いですが、部屋はかなりシンプルです。」私たちの目標は、「良いサービス、シンプルな部屋」などの主要な意見情報を抽出することです。コメントと意見の抽出技術は、現在のインターネット製品に広く使用されていますが、再現率は常に低いものでした。Baiduのコメントと意見の抽出技術は、アプリケーション要件からタスクを注意深く分析および分解し、感情マッチングに基づく方法、意味計算に基づく方法、次元予測に基づく方法、次元予測と感情極性分類に基づく方法を通じて、アプリケーション内のさまざまな問題を解決します。これは、テクノロジーとアプリケーションの完璧な組み合わせの典型的な例でもあります。

確率的グラフィカルモデル技術をどのように適用するか?

Jiang Di 氏が共有したトピックは「Familia 構成可能なトピック モデル フレームワーク」でした。Familia は家族を意味します。名前が示すように、このフレームワークの特徴は、産業的価値の高いトピックモデルのファミリーをカバーしていることです。これにより、最前線のエンジニアは柔軟性が高く、特定のタスクに応じて適切なモデルを選択できます。

Baidu にはベイジアン テクノロジーのシステム フレームワークがあり、主に 3 つのカテゴリに分かれています。1 つ目のカテゴリはトピック モデルです。このフレームワークの特徴は、自己構成機能を備えていることです。2 つ目のカテゴリはクリック モデルです。これは主に検索エンジンの分野で使用され、ユーザーの検索行動や検索クエリと Web ページの関連性を定量的に分析します。3 つ目のカテゴリは分類モデルで、ベイジアン ネットワークに基づく最も一般的な分類器が含まれています。

トピックモデルフレームワークには、LDA モデル、文構造を導入する SentenceLDA モデル、監視信号を導入する SupervisedLDA モデル、その他の産業的価値のあるトピックモデルなど、10 種類を超える主流トピックモデルがあり、ユーザーが特定のタスクに応じて対応するモデルを設計することをサポートしています。

では、なぜ Familia トピック フレームワークを設計したのでしょうか。業界のほとんどのトピック モデル ツールは、PLSA と LDA の 2 つのモデルのみをサポートしています。これら 2 つのモデルは非常に類似しており、1 つのデータ仮説のみをサポートしています。つまり、さまざまなシナリオに適用できるのは 1 つのモデルのみであり、特定のタスクに基づいてユーザーがカスタマイズした拡張をサポートすることはできません。ユーザーのデータ自体がこれら 2 つのモデルの想定と大きく異なる場合、その影響は想像に難くありません。一方、現在のトピック モデル ツールは、下流のアプリケーションにはあまり適していません。これらの作業は、多くの場合、モデルのトレーニングのみに焦点を当てており、特定のタスクでモデルを適用する方法を無視しています。モデルのトレーニングとアプリケーションの間には大きな距離があり、この距離をどのように埋めるかが私たちの仕事の焦点です。実際、Familia は Baidu 内で多くの応用シナリオを持っており、Baidu Search、Baidu News、Nuomi、Tieba などの有名なプラットフォームも含まれています。また、Baidu の自然言語クラウド処理プラットフォームにも展開されています。このツールは現在、毎日 3,000 万件のリクエストに応答しています。

Familia フレームワークは産業シナリオにどのように適用されるのでしょうか? 最初のステップはデータの前処理です。一般的な Web ページ データ、ニュース データ、Nuomi データなど、複数の種類のデータをサポートできます。データの前処理ステップと Baidu の単語分割は、内部的に深く統合されています。単語の分割の前後にはさまざまなフィルターも用意されています。ユーザーは、必要に応じて、どの情報をフィルタリングし、どの情報を保持するかを選択できます。 2 番目のステップは、確率グラフ モデルの構成です。Familia はさまざまな主流の既存のトピック モデルをサポートしており、ユーザーは独自のトピック モデルをカスタマイズすることもできます。このプロセスは、データ編成を通じて複数のグラフ モデルの情報を抽象的に保存することによって実現されます。 3 番目のステップは、サンプリング式を自動的に導出することです。Familia のパラメータ導出エンジンは、サンプリング式を自動的に導出できるため、トピック モデルを適用するための数学的なしきい値が低くなります。 4 番目のステップは、モデルの後処理です。Familia は、トレーニングされたトピック モデルをさらに最適化して圧縮します。 5 番目のステップでは、Familia はセマンティック表現とセマンティック マッチングという 2 つのアプリケーション パラダイムを抽象化します。ユーザーは特定のタスクに応じて対応するパラダイムを使用できます。

現在、Familia は GitHub (https://github.com/baidu/familia) でオープンソース化されています。第 1 フェーズでは、Web ページ、ニュース、小説などの複数の垂直コーパスでトレーニングされた産業グレードのトピック モデルを提供し、セマンティック表現とセマンティック マッチングという 2 つのアプリケーション パラダイムに対して多数のアプリケーション シナリオ ガイダンスを提供します。

開発者にとって、Baidu AI Open Platform をより有効に活用するにはどうすればよいでしょうか?

張静静氏は主に自然言語の使用に関する問題と百度AIオープンプラットフォーム全体の使用方法について紹介しました。現在、百度の自然言語処理技術は、8つの基本的な言語処理技術を公開しています。これらの基本機能に基づいて、百度は多くの知覚および認知層技術を外部に公開し、その上にオープンプラットフォームを構築しました。このプラットフォームでは、百度は成熟したAI技術をすべて外部に公開し、音声認識、音声合成、テキスト認識、顔認識などのさまざまなテンプレートやポートなどのインターフェイスを通じて、誰もが直接呼び出して使用できるようにしています。さらに、百度は、主に語彙分析、コメント抽出、感情分析を含むパーソナライズおよびカスタマイズされたサービスも開始します。語彙分析の​​カスタマイズにより、業界のお客様は個別のニーズを満たすことができます。認識できない単語がある場合は、語彙リストをアップロードして、モデルをより適切なものにトレーニングすることができます。

Baidu AI プラットフォームは、開発プロセスをサポートする 3 つの側面を提供します。1 つ目は開発組織、2 つ目は管理機能とサポート リソースです。開発コンポーネントに関しては、各技術分野でAPIやSDKが標準的に提供されており、いくつかの方向ではリファレンスコードも提供されています。個別に構成する必要がある一部のモジュールには個別の構成システムがあるため、開発者は最初にプラットフォーム上で構成してから直接呼び出すことができます。バックグラウンド管理に関しては、基本的なアプリケーション管理があり、企業業務に関連する多くのパーソナライズされた構成もサポートしており、通話統計をいつでも表示できます。開発者は、Baidu の AI テクノロジーを識別するために、自社製品に Baidu のロゴを使用することもできます。開発者が百度のAI技術を利用して業界の典型的な問題を解決する場合、百度はメンターの役割も果たし、その事例を推進します。

<<:  ジャック・マー氏がまたもや的を射た発言:「将来、住宅はタマネギのように安くなる」のは固定資産税ではなく人工知能のせい?

>>:  データ構造とアルゴリズム - グラフ理論: 連結成分と強連結成分の検出

推薦する

...

AIによって殺された最初の人々を見てみましょう

過去2日間、「絵を当てようソング」がスクリーンのあちこちで流れていたその背後にあるAIブラックテクノ...

機械学習の落とし穴を避ける: データはアルゴリズムよりも重要

ユーザー行動分析とネットワーク脅威検出、新たな波が起こり続けています。セキュリティ データ分析は、状...

AI、機械学習、RPA業界への期待

毎年、IT 業界メディアの eWEEK では、新製品、革新的なサービス、開発動向など、IT 業界の今...

...

ポピュラーサイエンス | TensorFlow.js から機械学習について学ぶ

フロントエンド開発者にとって、機械学習を理解するのは難しい場合があります。私は機械学習を勉強し始めて...

5G技術と人工知能のインテリジェントな組み合わせ

5GとAIは未解決の問題に解決策を見つけることができる5G はエッジの究極の未来です。 5G は、普...

...

2019年には疑似AIはすべて排除されるのでしょうか?

2017年以降、ディープラーニングの概念が再び浮上し、AIは世界で最もホットな産業となりました。起...

130 億個のパラメータを持つモデルをトレーニングするには GPU がいくつ必要ですか?マイクロソフト: 1つで十分

今日のモデルには数千億、あるいは数兆ものパラメータがあります。一般の人がモデルをトレーニングできない...

人工知能を導入できるいくつかのアプリケーション

人工知能は長年にわたって世界を支配しており、さまざまな分野における主要な問題が AI を使用して解決...

2020 年に最も注目される人工知能 (AI) アプリケーション トップ 10

人工知能または機械知能は、学習アルゴリズムを通じて人間のような知能をシミュレートします。今日、人工知...

顔認識はより便利で安全になるべきだ

[[348313]]ノースウェスタン工科大学の学生は顔をスキャンして図書館に出入りします。新華社通信...

人工知能時代の倫理的枠組み

[[195229]]英国の国民保健サービス(NHS)は、健康・医療ビッグデータプラットフォームである...

...