多言語自然言語処理 (NLP) で言語の壁を打ち破ります!

多言語自然言語処理 (NLP) で言語の壁を打ち破ります!

自然言語処理は言語の壁を打ち破り、人間と機械間の相互作用とコミュニケーションを強化します。

自然言語処理 (NLP) は、さまざまな業界に大規模な影響を与えるため、大きな注目を集めています。これにより、多くの革新的なアプリケーションが生まれ、コンピューターが人間の自然言語や書き言葉を理解することが可能になりました。 Siri や Alexa などのパーソナル AI アシスタントから、音声テキスト変換やテキスト音声変換などの支援ツールまで、NLP アプリケーションは人間とコンピューターのインタラクションの改善への道を開いています。ユーザーは、製品、サービス、その他質問したいことに関して日常的な言葉で質問できるようになります。しかし、世界には7,139の言語があり、そのうち6つが国連で公用語として認められています。

ここでの主な障害は、英語が世界中で学術的および商業的な目的で最も広く好まれ使用されている言語であるため、NLP の研究が英語に大きく偏っていることです。リソースの多い言語とリソースの少ない言語の間の障壁を打ち破るために、多言語 NLP が緊急に必要とされています。 NLP では、文脈上の単語や言語の曖昧さの理解も必要です。これらの課題を克服するために、研究者は多言語 NLP にますます関心を示しています。簡単に言えば、多言語 NLP は、機械学習を使用してさまざまな言語のコマンドを理解するタイプの NLP です。

多言語NLPが言語の壁を打ち破る方法

最近では、さまざまな言語に対応するモデルの構築が進み、研究者が言語の壁の最大の原因を克服するのに役立っています。

1. 複数の言語での検索クエリを理解する

Google は BERT アルゴリズムを発表し、クエリやコンテンツ内の文脈言語を理解する上での重要性を強調しました。その目的は会話型検索です。 BERT は 11 種類の異なる自然言語タスクを処理でき、テキスト分類や次の文の予測にも役立ちます。また、記事全体を自動的にスキャンし、記事に記載されている組織、場所、重要人物を分類することもできます。これは、固有表現認識とも呼ばれます。

BERT は、NLP 機械学習用のオープンソース フレームワークです。これは、コンピュータが文中の曖昧または隠された単語や言語の文脈を理解して認識できるように設計されています。次の文の予測とマスク言語モデリング (MLM) 用に事前トレーニングされています。 Multilingual BERT はこのモデルの拡張であり、104 の言語でトレーニングされています。質問に答えたり、自動応答を生成したり、要約したりするために使用されます。

2. 低リソース言語の通訳

AfriBERTa は、11 のアフリカ言語 (リソースの少ない言語) を分析および理解するようにトレーニングされた、多言語アプリケーション用の Transformer ベースのモデルです。これは、リソースの少ないアフリカ言語でのテキスト分類と質問への回答に使用されます。

3. 多言語翻訳

Facebookが発表したAI M2M-100(多対多)は、英語データに依存しない初の多言語機械翻訳モデルで、100言語のいずれかを切り替えて翻訳できる。 2,200 の言語指示と英語中心の多言語モデルに基づいてトレーニングされています。 M2M が登場する前は、データをスペイン語からドイツ語に翻訳するには、モデルをスペイン語、英語、ドイツ語の順にトレーニングする必要があり、英語でのトレーニングも大量に必要でした。 Facebook が導入した新しい AI は、スペイン語のデータをドイツ語のデータで直接トレーニングし、意味を強化します。

人工知能の重要な分野である NLP は、人間の自然言語処理能力を再現することで、コンピューターが読み取って応答できるようにします。文法チェックから音声テキスト認識、検索エンジンでの情報検索まで、NLP は多くの日常的なアプリケーションで非常に有用であることが証明されています。ますますグローバル化が進む世界では、多言語 NLP の応用がますます大きな影響力を持つようになります。

<<:  人工知能がまだできない5つのこと

>>:  オープンソース | AREX: Ctrip の次世代自動回帰テスト ツールの設計と実装

ブログ    
ブログ    

推薦する

ウェルズ・ファーゴ:人工知能と機械学習は「諸刃の剣」

ウェルズ・ファーゴの上級副社長兼エンタープライズ・アーキテクチャ責任者であるマイク・テラン氏は、過去...

レストランロボットの準備はできていますか?それが答えかもしれない

パンデミック中に本当に苦戦した業界の一つはレストランです。多くのレストランは社会的距離を保つ必要性か...

ヴェノムのように変形・修復可能なロボットが登場、1.5mmの亀裂も楽々通過

映画「ヴェノム」を見たことがある友人なら、「シンビオート」が液体の形で現れることを知っているでしょう...

...

通信産業の発展を後押しし、2つの主要ドローンの価値が強調される

最近、わが国の科学技術分野は新たな躍進を遂げました。ドローンによる「橋渡し」の力を借りて、量子ネット...

AI導入における主な障壁とその解決策

COVID-19 パンデミックにより、企業はデジタル変革の取り組みを数か月、場合によっては数年も加速...

無人バスに乗ってみませんか?テクノロジーは未来を変えることができるでしょうか?

無人運転車の概念は古くから存在し、無人運転車は時折ニュースの見出しにも登場します。しかし、無人運転車...

AIに関する4つの最も一般的な誤解

[[398369]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

レビュー: 8 月に Github で注目すべき 7 つのデータ サイエンス プロジェクト

[[279134]]機械学習の旅で次の大きな一歩を踏み出す準備はできていますか? 実験的なデータセッ...

...

自然言語処理がヒラリーとトランプの「話し方」を分析

[[173621]]編集者注:現地時間10月9日、米国大統領選挙の2人の候補者による第2回公開討論会...

中国聯通の専門家:5Gは5つの側面からAIを取り入れるべき

5Gは大規模なアンテナシステムと超高密度ネットワーク技術を採用し、スペクトル共有やD2Dなどの複雑な...

すべてのデータ サイエンティストが知っておくべき 19 の機械学習アルゴリズム

【51CTO.com 速訳】機械学習アルゴリズム入門機械学習アルゴリズムの分野では、分類には通常次の...

...

人間的な顧客サービスを必要とするのは高齢者だけではない

実名制やビッグデータ認識などの技術を利用することで、高齢者は北京電信のカスタマーサービスに電話する際...