18年経った今、マイクロソフトの自然言語処理技術はどうなっているのでしょうか?

18年経った今、マイクロソフトの自然言語処理技術はどうなっているのでしょうか?

[51CTO.com からのオリジナル記事] 自然言語処理は、人工知能の開発において常に克服しなければならない重要なハードルでした。簡単に言えば、機械に人間の言語を理解し、それを表現できるように教えることです。

XiaoIceとXiaonaについて

人工知能は、特に今年、常に人々の間で話題になっています。これが現時点での私の最も直感的な感覚です。これについて言えば、Microsoft Xiaoice と Microsoft Cortana という 2 つの製品についても触れなければなりません。これらも、人々の一般的な関心事です。現在、Cortana には 1 億 4,000 万人を超えるアクティブ ユーザーがおり、中国語を含む 12 を超える言語で数十億台のデバイス上の人々とコミュニケーションをとっています。

全体的に、Xiaona は主に携帯電話やスマートデバイスを使用して人々がコンピューターと通信できるようにし、「ユーザーがコマンドを発行し、Xiaona がそれを実行する」というモデルを採用しています。たとえば、以前牛乳を買うために店の前を通ったことがあるなら、次にそこを通ったときに彼女が思い出させて、牛乳を買いたいかどうか尋ねてきます。私の理解では、Microsoft Cortana の登場により、受動的な「服従」が能動的な「リマインダー」へと進化し、オリジナルの携帯電話から Xbox や Windows を含む Microsoft の現在のすべての製品に適用されているとのことです。これは実に驚くべき進歩です。

Microsoft XiaoIceとの対話

それに比べると、Xiaobing ははるかに「カジュアル」です。最初、人々はシャオナの出現とシャオビンの存在の意味を理解していませんでした。実際、私の意見では、チャットは簡単なことではありません。さまざまな言語習慣と知識モジュールを統合しようとすることでのみ、自由なチャット モードを実現できます。彼は問題の解決を手伝いたいわけではなく、できるだけ「人間らしく」あなたと話したいだけです。これも難しいイノベーションであると言わざるを得ません。現在、XiaoIce は中国語、日本語、英語の 3 つの言語をカバーしており、数億人のユーザーを獲得しており、その多くが XiaoIce とのチャットを楽しんでいます。

XiaoIce のカジュアル チャットであ​​れ、Cortana のタスク実行であれ、その背後には Microsoft の LUIS (Language Understanding Intelligent Service) と呼ばれるプラットフォームがあり、ユーザーの意図理解、エンティティ認識、会話管理機能など​​を提供しています。 2016年、マイクロソフトのCEOであるサティア・ナデラ氏は、会話がグラフィカルインターフェースの次の世代であり、人工知能とコンピューター機器に新たな革命をもたらすと信じ、マイクロソフト開発者会議でCaaP(「会話プラットフォーム」)の概念を提案しました。XiaoIceとXiaonaは、マイクロソフトのCaaPの主な具体化です。

マイクロソフトアジアリサーチの副社長である周明氏は、XiaonaとXiaoIceの技術的意味合いについて、第1層は一般的なチャットであ​​り、コミュニケーションスキル、一般的なチャットデータ、テーマ別チャットデータの習得、ユーザーポートレートの把握、ユーザーの好みへの対応が必要であると述べた。第2層は情報サービスとQ&Aであり、検索機能、Q&A機能、よくある質問の収集、整理、検索、ナレッジグラフ、ドキュメント、グラフからの関連情報の検索、質問への回答が必要である。私たちはこれらを総称してInfo Botと呼んでいる。第3層は、コーヒーや花の注文、電車の切符の購入など、特定のタスクのための会話機能である。タスクは固定されており、状態は固定されており、状態の遷移は明確なので、Botを使用して1つずつ実装できる。スケジューリング システムを通じて、ユーザーの意図は対応するボットを呼び出して対応するタスクを実行することです。使用されるテクノロジは、ユーザーの意図の理解、対話管理、ドメイン知識、対話マップなどです。

近年、マイクロソフトは

Microsoft によるこのテクノロジの探求は、1998 年の Microsoft Research Asia の設立にまで遡ります。では、Microsoft にとって自然言語処理はどれほど重要なのでしょうか?

マイクロソフトは、テクノロジーと製品を通じて、すべての個人が持つ大きな可能性を最大限に引き出すことを可能にします。これは、人工知能を中核とした生産性とビジネス プロセスの再構築、インテリジェント クラウド プラットフォームの構築、パーソナライズされたサービスの作成など、さまざまな側面に反映されています。結局のところ、壮大な目標を達成するには具体的な製品が必要であり、それに対応する機械翻訳、ナレッジグラフ、Bot Framework、インテリジェントな顧客サービスなどが登場しています。

同時に、よりパーソナライズされたコンピューティングを実現し、生産性を再構築するという観点から、Bing Search、Cortana、Microsoft XiaoIce などの製品の登場は、ビジネスやサービスの背後にある自然言語処理技術の重要性を確かに反映しています。 18年が経過した現在、Microsoft Research Asiaは人材育成や学校と企業の連携において大きな改善を果たしただけでなく、さらに重要なことに、科学研究と製品開発においても大きな進歩を遂げています。

[[194028]]

マイクロソフトリサーチアジア副社長 周明博士

自然言語処理技術はマイクロソフトの「メインイベント」であり、業界は必然的にそれに興味を抱いています。最近、筆者は Microsoft ビルに招待され、Microsoft Natural Language Frontier Technology Sharing Session に参加し、Microsoft Research Asia の副社長である Zhou Ming 博士や他の R&D 担当者とともに謎を探りました。

マイクロソフトは創業直後から機械翻訳の研究に力を入れ、その後ルールベース、事例ベース、統計ベースの翻訳に取り組み始めました。2007年には統計ベースの翻訳システムを立ち上げ、外部サービスを無償提供しました。 2012年、マイクロソフトアジア研究所は本社研究所と協力し、リアルタイム音声翻訳システムを完成させたとみられる。同年、天津で開催された21世紀コンピューティングカンファレンスでは、当時マイクロソフトリサーチのリーダーだったリック・ラシッド博士が3,000人の観客の前でこの最先端技術の実演に成功した。これは機械翻訳、特に音声翻訳の分野における重要なマイルストーンである。

3年後、マイクロソフトはSkype Translatorを一般公開しました。マイクロソフトの音声技術と翻訳技術を統合した製品として、現在10言語の音声翻訳を提供できます。今日、マイクロソフトは自然言語処理技術において新たな進歩を遂げました。周明氏は、まず音声翻訳にニューラルネットワーク機械翻訳を全面的に採用し、スピーチや会議中に携帯電話やデスクトップで話者の言葉をリアルタイムで複数の言語に自動翻訳できる「Microsoft Translator Live Feature」という新しい翻訳機能を拡張したと述べた。

私たちは、この正確なオンサイト翻訳機能を実現するために、異なる語彙の翻訳に対して異なる機能を備えた注意モデルを反映したソース言語のエンコードが最も重要な技術であると認識しています。周明氏は「我々は引き続き作業を進め、言語知識を導入した。エンコードはソース言語とターゲット言語を文字列としてのみ扱うため、内部の単語間の修飾関係を理解し​​ていない。我々は、従来の長短期記憶LSTMモデルであるニューラルネットワークエンコードとデコードに構文知識を導入し、より優れた翻訳を実現した」と述べた。マイクロソフトリサーチの関連R&D担当者は、この新システムは現在、複数人、複数言語、クロスプラットフォームのリアルタイム翻訳をサポートし、10の音声と60以上のテキストをストレスなく変換できると紹介した。

通常の状況では、国際会議では、講演者が母国語を話さないために聴衆のほとんどが出席したがらず、機会を失うか、講演者が聴衆の要求に応えるために母国語以外の言語を使用するので、スピーチの効果が大幅に低下すると想像してください。この問題を解決するために、Microsoft Speech Translator は実に現実的な製品であり、英語が苦手な私にとっては大変ありがたい存在です。

ここまで紹介してきましたが、マイクロソフトの自然言語処理技術は本当にそんなにすごいのでしょうか?具体的な数字が知りたいですよね?現在の手作業による読み取り精度はどのくらいでしょうか?答えは約82%です。現在、マイクロソフトリサーチアジアの結果は世界第1位で、約76%、人間のレベルより約5ポイント低いですが、これは確かに非常に高い数値です。マイクロソフトは、機械読み取りの発展を促進するために、Bing 検索の重要な部分の多くに貢献する MARCO という独自の新しいテスト問題も開始したと報じられています。このデータセットは開始されたばかりで、回答を提出するチームもそれほど多くないため、テスト問題に関してはマイクロソフトが依然としてトップの地位にあります。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  「回帰分析」は本当に「機械学習」なのでしょうか?

>>:  R言語におけるAprioriアルゴリズムの応用

ブログ    
ブログ    
ブログ    

推薦する

パンデミック後、AI教育はどのように存在していくのでしょうか?

現在の教育における人工知能の応用は、依然として「弱い人工知能」になりがちですが、教育の効率性を向上さ...

AIの第一人者ジェフ・ディーン氏がGoogleのAI事業を統括

Googleの人工知能事業のトップレベルで人事異動があった。19年間Googleに在籍してきた人工知...

顔認証決済の登場:「決済戦争」の次なる激戦点となるか?

[[280749]]最近、支払いをするために携帯電話を取り出すと、「顔支払い」を選択すると割引があ...

IBMは、人間の音声認識の実際の単語エラー率は5.1%であると主張している。

昨年 10 月、マイクロソフトの AI および研究部門の研究者およびエンジニアのチームは、自社の音声...

...

NIST: AIの偏りはデータだけにとどまらない

現時点では、ほとんどの AI がある程度問題のある偏見に基づいて構築され、現在もそれを使用しているこ...

ドローンは諸刃の剣でしょうか?それでは5Gを追加した後をご覧ください!

「ドローンは諸刃の剣だ」とよく言われます。なぜなら、一方ではドローンの大きな応用価値が私たちの生産...

...

...

アメリカは最強のAIを開発するために1億ドルを投資しています。あなたを狙っているわけではありませんが、ここにいる全員が職を失う可能性があります。

米企業が人工知能に1億ドルを投資人工知能といえば、誰もが知っているものでしょう。AppleファンのS...

LIDAR ポイント クラウドの自己教師あり事前トレーニング用 SOTA!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

人工知能を活用して室内装飾デザインを最適化する方法

インテリアデザインや装飾に AI を応用することで、エンジニアやインテリアデザイナーは、機械学習によ...

Microsoft が NaturalSpeech2 音声合成モデルを発表: 音声再構成は「より正確」になり、「行き詰まる」こともなくなる

マイクロソフトは7月27日、NaturalSpeech2という音声モデルを発表しました。このモデルは...

...