1 つの記事で NLP 実装の難しさを理解する

1 つの記事で NLP 実装の難しさを理解する

[51CTO.comからのオリジナル記事] 近年、自然言語処理技術は徐々に最も広く使用されている人工知能技術の1つになってきました。特にディープラーニングの波に後押しされて、AI のこの分野は大きな進歩を遂げました。私たちの日常生活において、検索エンジン、パーソナライズされた推奨事項、スマートスピーカー、リアルタイムの機械翻訳など、私たちが頻繁に接触するシナリオには、すべて自然言語処理技術の応用が浸透しています。しかし、一般的にNLPは実用化にあたり多くの制約があり、関連製品は基本的に「使える」状態ですが、実用的な意味で「役に立つ」状態になるまでにはまだまだ長い道のりがあります。

市場を見ると、多くのインテリジェントインタラクティブシステムは、単一分野の単一タスクを対象としていることが多く、その用途は非常に限られています。爆発的な製品を生み出すには、技術的な障壁を突破する必要があります。また、自然言語処理技術の画期的な進歩を達成するには、モデルの反復とトレーニングに非常にコストがかかり、応用の初期段階では、基本的にトッププレーヤーのゲームであり、代表的なベンチマーク企業が出現することは困難です。この記事では、自然言語自体、マルチモーダル学習、トレーニングデータの取得、工業デザインの要件という 4 つの側面から NLP テクノロジの実装の難しさについて分析し、現在のボトルネックを打破するためのヒントを提供したいと思います。

[[319828]]

難しさ1: 自然言語は常に進化している

「自然言語処理」は、人間とコンピュータのコミュニケーションの問題を解決します。一般的に、自然言語処理には、自然言語理解 (NLU) と自然言語生成 (NLG) の 2 つの部分が含まれます。一般的に使用される自然言語処理方法には、単語の分割とタグ付け、テキスト分類、キーワード分析、機密用語の識別、単語の頻度統計、意見の要約、感情分析などがあります。本質的には、これらの方法はすべて、テキストの理解を深めるためにテキストマイニングで特徴抽出を実行します。

コンピュータが自然言語を理解できるように構築されたモデルは、言語モデルと呼ばれます。一般的な自然言語モデルには、バッグオブワードモデル、N-Gram モデル、ニューラル ネットワーク言語モデルなどがあります。 Bag of Wordsモデルは各単語を独立した記号として扱いますが、語順情報を無視するため、明らかに意味の理解が粗くなります。N-Gram言語モデルは語順を考慮していますが、データのスパース性の影響を受け、語彙外の単語を処理できません。ニューラルネットワーク言語モデルは分散表現に基づいており、モデルの一般化能力を向上させることができますが、モデルのトレーニング時間が長く、解釈可能性が不十分です。

ある程度、さまざまな自然言語モデルの限界は、自然言語自体のいくつかの特性によって引き起こされていると言えます。自然言語は人類がこれまでに使用した最も複雑な記号体系であると言えます。この体系は社会の進歩とともに進化を続け、非常に独特な個性を示してきました。

多様性:人間の創造性に基づき、オープンコレクションとしての言語は常に新しい表現を吸収し、導入します。人生においてよくある現象は、古い言葉に新しい意味が生まれるという現象です。たとえば、「ハードコア」はもともとパンク音楽の一分野を指していましたが、現在では基本的に「とてもクール、とてもタフ、とてもタフ」という意味だと考えられています。この種の創造性は、インターネットスラングで大いに発揮されています。 「本当の気持ち」のピンインは「zgsq」で、「それはあなたとは関係ありません」のピンインは「雨女无瓜」です。これらの単語は言語の表現空間を十分拡張しますが、非常に偶然性があり、恣意的です。パターンを見つけるのは難しく、十分なデータサポートが不足しており、自然言語理解の大きな困難となっています。

曖昧さ:言語では単語に複数の意味がある場合が多く、文脈が考慮されなかったり、2 人の話し手の文脈が考慮されなかったりすると、簡単に曖昧さが生じてしまいます。この文章を見てください。結婚とは、男性が学士号を失い、女性が修士号を取得する制度です。この文章の興味深い点は、その中の 3 つの単語に二重の意味があることです。機関は「大学」と「システム」の両方を意味し、学士は「独身」と「独身者」の両方を意味します。マスターは「マスター」と「マスター」の両方を意味します。このレベルでは、「大学、学士、修士」は 1 つのシステムで使用される用語であり、「機関、独身、修士」は別のシステムです。より流暢に翻訳すると、結婚は機関であり、男性はもはや独身ではなく、女性には「修士」がいる、となります。しかし、機械にとって、この多義性を理解することは実際には大きな課題です。

社会性:人間の社会的生産と生活は言語に深く反映されており、異なる地域の社会形態と地域的特徴によって、異なる形態の言語体系も生み出されています。したがって、異なる成長背景、社会的経験、知識体系を持つ人々が使用する言語は異なります。例えば、セブンイレブンですが、数字だと思う人もいれば、日付だと思う人もいれば、コンビニだと思う人もいます。言語の使い方は人によって異なるだけでなく、同じ人でも状況に応じて異なるスタイルを切り替えることがあります。たとえば、人前でスピーチをするときと、友達と会うときに使う言葉は間違いなく異なります。社会的側面を考慮しない自然言語理解は、大きなエラーにつながる間違いである可能性が高いです。

主観性:中国の伝統文化では、「意味は言葉を超える」や「隠された意味」も非常に一般的な表現です。言語は話し手にとって一つの意味を持つかもしれませんが、聞き手はそれをさまざまな角度やレベルで解釈することがあります。このような主観性は、人々の日常の会話やコミュニケーションのいたるところに存在しています。時には、違いを理解するために文脈を組み合わせる必要があります。そうしないと、「地雷原」を踏んでしまう可能性が高くなります。例えば、隣人が李叔母さんにこう言った。「あなたの小明はとても勤勉ですね。毎晩12時にピアノを練習しているのが聞こえます。」明らかに、小明のピアノの練習が隣人の休息に影響を与えているという意味です。

自然言語が複雑な図を描くのは、まさに自然言語の多様性、曖昧さ、社会性、主観性によるものです。現在、既存の意味表現スキームは、特定のタスクにおけるデータを通じてのみ学習可能であり、その汎用性と移転可能性は十分とは言えません。この問題に対処するには、強力な一般化機能を備えた比較的一般的なセマンティック モデルを研究する必要があります。このようなモデルを設計するための前提は、教師なしセマンティック学習の問題を解決することです。現在、NLP分野で比較的優れたパフォーマンスを発揮しているモデルとしては、GoogleのBERT、FacebookのRoBERTaなどが挙げられます。

難しさ2: マルチモーダルな意味理解

マルチモーダル情報融合に基づく自然言語処理は、NLP 分野の主要なトピックであり、多くの研究開発チームの主要な焦点でもあります。マルチモーダル性のより一般的な理解は、複数の感覚と複数の情報源の統合です。人間は「見る」「聞く」「嗅ぐ」「触る」などの知覚の組み合わせを通じて世界を理解するため、機械が人間のように多次元情報をより「インテリジェントに」使用し、画像、音声、ビデオを組み合わせてユーザーの意図を理解できれば、実際のシナリオでのニーズの解決にさらに役立つ可能性があります。

マルチモーダル自然言語処理技術の難しさは、主に次の 3 つの点に集中しています。1 つ目は、意味のギャップが遍在することです。これは単一モーダルの場合に当てはまりますが、マルチモーダルを統合することは間違いなくさらに困難です。2 つ目は、マルチモーダル データ間には特徴の異質性があり、クロスモーダル関連のアルゴリズムには質的な飛躍が必要です。3 つ目は、マルチモーダル データ セットを確立することが大きな課題に直面していることです。

現在、市場に出回っている「マルチモーダル AI インタラクション」を謳う製品のほとんどは、実際には真のマルチモーダル インタラクション製品ではありません。操作中、さまざまなソースからの情報は、機器処理センターに入力された後も別々に保持されます。本質的には、異なるアルゴリズムによって異なるスイッチがアクティブになります。この機械は「見る」ことと「聞く」ことはできますが、実際にはこの 2 つの機能は分離されており、情報は相互作用しません。

マルチモーダルコラボレーションを真に実現するために、「マルチモーダルディープラーニング」技術が近年業界で話題になっています。

マルチモーダル学習タスクを完了できるニューラル ネットワーク モデルを確立することを指します。この技術により、モーダル変換、モーダルアライメント、モーダルフュージョンなどを実現でき、インテリジェントエージェントがマルチモーダル信号を理解し、視覚、聴覚、感覚信号を統合して統一された「思考」を行うことが可能になります。

難しさ3: トレーニングデータの不足

データ自体の不足は、NLP の分野における永遠の問題です。ラベル付きデータの不足、サンプル内の大量のノイズ、データの偏りはすべて非常に一般的な現象です。 AIの研究開発においては、コンピューティングパワーが基盤となり、アルゴリズムは基本的にオープンソースとなり、データは当然ながらさまざまな研究機関や企業間の競争の中核となります。特に特定のデータが必要な場合は、データの収集にかかるコストが予想を上回る可能性があります。

さらに、自然言語処理の分野では、ラベル付けされたデータの規模がアプリケーションのニーズを満たすには程遠く、手動でラベル付けするコストは非常に高くなります。データ注釈とは、データセット内の対象データの類似点、相違点、またはカテゴリを、ラベル付け、マーキング、色付け、または強調表示によってマークすることです。ラベル付けされたデータがあれば、それを基にアルゴリズムをトレーニングすることができます。データのアノテーションの質が高ければ高いほど、学習結果の精度が高まり、NLP が実用段階に入る可能性が高まります。しかし、データのラベル付けは「コールドベンチ」の仕事であり、作業量が多く、非常に退屈なので、それをやりたいと思う人は多くありません。さらに、手動操作では注釈の品質を保証することができません。

このような状況では、既製のデータベースが多くの人や企業の選択肢になり始めます。既製のデータベースの利点は明らかです。低コストで効率が高いことです。データベースはカスタマイズされたコレクションではなく、完成後に繰り返し販売できるため、価格は決して高くなりません。さらに、データベースはすぐに使用できるため、研究開発サイクルが大幅に短縮され、人的資源と資金が節約されます。しかし、完成したデータベースには、適応性が低いという、より明らかな欠点もあります。既製のツールであるため、データベースを変更することはできません。アプリケーション シナリオが変更されたり、要件が厳しくなったりすると、完成したデータベースは確実に適切ではなくなります。そのため、立ち上げ段階の製品や企業にとっては、完成したデータベースは非常に実用的ですが、さらに前進したい場合には、カスタマイズされたデータ補足が必ず必要になります。

難しさ4:研究室と市場の間のギャップ

NLP テクノロジーは研究室から市場までどのくらいの距離を歩んでいるのでしょうか?学術界のトレーニング モデルと比較すると、商用モデルを実装する際に考慮される要素は通常より複雑であり、製品設計や製品エクスペリエンスの面でより多くの考慮が必要になります。

まず明確にしておきたいのは、製品モデルの最適化には終わりがないということです。トレーニング モデルのフォーカス インジケーターとユーザーが望む結果の間には、一定のギャップが生じる可能性があるためです。そのため、実際の運用においては、研究開発段階でどれだけ完璧な結果が得られたとしても、ユーザーからのフィードバックに基づいてパラメータを継続的に調整したり、トレーニングデータを補充したり、他のアルゴリズムと組み合わせたりして、モデルの使いやすさを向上させる必要があります。オンラインになった後も、運用データとユーザーの行動に基づいてモデルを調整し、反復する必要があります。

さらに、着陸シナリオを選択する際には、「突破」の可能性を見極める必要があります。 AI分野では急速に発展している顔認識技術を参考にすることができます。この分野の製品は、一定の精度をもって現在の市場で広く使用されており、カバーする業界も徐々に拡大しています。しかし、顔認証は当初、商品化にあたっては「セキュリティ」を突破口にしていた。この業界で製品が何度も磨き上げられ、徐々に成熟して初めて「新境地」を切り開き始めた。 NLP テクノロジーは、ハードスキルを磨き続けることに加えて、今回のような典型的なシナリオを見つけて、1 回のブレークスルーの後にさらに多くのブレークスルーを実現できるようにする必要があります。

さらに、製品の設計はユーザーのニーズにより近いものでなければなりません。この需要には実用的なニーズと美的ニーズが含まれます。 NLP 技術を大規模に導入するには、製品を人々の日常生活にもっと近づける必要があります。しかし、一般的に言えば、生活の中でのコミュニケーションは口語的になりがちで、論理の飛躍や意味の変化を伴うため、モデル化や分析が困難です。また、シナリオは非常にオープンで、理解を助けるために十分な常識的な背景が必要となるため、製品開発ではこの点に力を入れなければなりません。さらに、インターフェース設計も実装に影響を与える重要な要素です。機能性能が同等であっても、UIが優れ、ユーザーエクスペリエンスが優れていれば、自然に市場競争力を確立できます。

これからの道のりは長く困難ですが、私は引き続き探求していきます。

自然言語は一般に、人間の知恵と文明の統合であると考えられており、自然言語処理は最高の成果となっています。この真珠が埃を被らないようにするためには、意味の曖昧さ解消、転移学習、抽象抽出、ドメイン適応、タスク指向の人間とコンピュータの対話など、克服しなければならない問題がまだたくさんあります。テクノロジーの拡張には境界がありません。知覚知能と認知知能が前進し続け、画像、テキスト、音声、画像が相互に統合されるにつれて、人間と機械のバリアフリーコミュニケーションのイメージは自然にゆっくりと展開し、花と棘の無限の未来へと広がります。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  AIチップ畳み込みニューラルネットワークの原理

>>:  マイクロソフトの新しい研究:ドローンは推論能力を獲得し、画像を見るだけで判断できるようになる

ブログ    
ブログ    
ブログ    

推薦する

第16回(2017年)中国政府ウェブサイトパフォーマンス評価結果発表および経験交流会議が北京で成功裏に開催されました。

2017年11月17日、中国情報産業発展センターの指導の下、中国ソフトウェア評価センターが主催し、...

午後を費やしてラベルのない画像10万枚にラベルを付け、上司の費用を3万ドル節約しました

[51CTO.com オリジナル記事] 上司がラベルのない写真 10 万枚を渡して、サンダル、パンツ...

人工知能がサービスと運用管理を改善する10の方法

ヨーロッパの多国籍通信会社は、BMC の Helix Chatbot を標準化して、全部門の 120...

人工知能教育とは何ですか?将来の教育の顕著な特徴は何でしょうか?

グローバル情報化教育の時代において、教育モデル、教育内容、学習方法は大きな変化を遂げており、人工知能...

AIの実践、Pythonを使って自動運転を体験しよう!

設置環境Gym は、強化学習アルゴリズムの開発と比較のためのツールキットです。gym ライブラリとそ...

人工知能ロボットの開発にはどのプログラミング言語を選択すればよいでしょうか?

この記事では、ロボット開発で使用される最も人気のあるプログラミング言語のトップ10を見ていきます。そ...

...

フィードフォワードネットワーク + 線形相互作用層 = 残差 MLP、Facebook の純粋な MLP 画像分類アーキテクチャが市場に参入

[[398872]]最近では、多層パーセプトロン (MLP) が CV 分野の重要な研究テーマとなっ...

投資家心理は安定しており、人工知能への資金流入は続いている

[[274634]] 2019 年の秋が近づき、最初の 2 四半期が終了しようとしている今、今年前半...

誰でも使えるディープラーニング: 3 つの主要な自動化ディープラーニング プラットフォームの紹介

ディープラーニング技術は複雑で、ゼロから開発するのが難しい場合が多いですが、Microsoft の ...

...

農産物産業における人工知能の応用と影響

農産物における人工知能の応用人工知能は、次のような農産物のあらゆる段階と側面に適用できます。農業: ...

「現時点で最高のヴィンセント動画AI」が登場!広告や映画に使っても問題ない。ネットユーザー:とてもスムーズ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

強化学習アルゴリズムの分類をさまざまな観点から理解します

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

ファーウェイクラウドが年間人工知能リストで3つの賞を受賞

このほど、Synced Machine Intelligenceが主催する「AI China」Syn...