AIの次の大きな課題：言語のニュアンスを理解すること

それは非常に奥深く、微妙なことです。同じ文でも、文脈によって意味が変わることがよくあります。人間でさえ、微妙な違いを区別できないことがあります。機械でできるのでしょうか?そして、これが人工知能にとっての次の大きな課題です。言語のニュアンスを理解することです。

言語は人間特有の能力であり、私たちの知恵の現れです。しかし、人工知能（機械に言語機能を与えるNLP）を通じて、言語の使用方法に新たな可能性の領域が開かれます。

今日では、薄暗いリビングルームに入って、Alexa にスマートライトの明るさを最大 75% にするように頼むことができます。または、Alexa に地球の反対側の天気を尋ねることもできます。業界の最近の進歩は、Google の最近の Duplex デモで紹介され、AI エージェントがビジネス電話をかけたり、予約を取ったりしました。かつて SF に存在したものが今日では現実になっていますが、本当に満足のいく人間と機械の関係を維持するためには、機械がより直感的で文脈に沿った自然な会話を行えるようにする必要がありますが、これは依然として課題です。私は就職以来ずっとNLP技術を勉強してきました。 NLP の研究分野は AI 自体と同じくらい古く、私たちはまだこの旅の始まりにいるのです。

言語は情報を共有し、周囲の人々とつながるためのメカニズムですが、機械が言語を使用するには、言語の複雑さと、人間がどのようにコミュニケーションするかを理解する必要があります。感情分析、質問応答システム、共同マルチタスク学習の進歩により、AI は人間とそのコミュニケーション方法を真に理解できるようになりました。

感情分析

言語は本質的に難しいものです。言語は常に進化しており、非常に微妙です。平均的な人が言語を習得するには数年かかります。感情分析では、AI を使用して、ブランド紹介や映画レビューなどの特定の発言が肯定的か否定的か中立的かなど、特定の事柄を理解することができます。しかし、話者の態度や意図（怒っているのか？嬉しいのか？驚いているのか？買おうとしているのか？）も把握することができます。顧客サービスからオンラインコミュニティのモデレーション、アルゴリズム取引まで、何千ものツイートや何百もの製品レビューをタイムリーに分析してブランドに対する世間の認識を理解することは、企業にとって非常に価値があります。

感情分析は以前から行われてきましたが、必ずしも正確ではありませんでした。しかし、NLP テクノロジーの進歩により、この状況は変わりつつあります。私が Salesforce の主任科学者だったとき、当社の Einstein AI サービスにより、ブランドは電子メール、ソーシャルメディア、チャットのテキストからの感情をリアルタイムで分析し、より優れた顧客体験を提供できるようになりました。たとえば、正確な感情分析により、サービスエージェントは、どの不満のある顧客を優先すべきか、またはどの顧客にプロモーションオファーを提供すべきかを理解できます。また、製品の欠陥を特定したり、製品の全体的な満足度を測定したり、ソーシャルメディアチャネルを通じてブランドに対する世間の認識を監視したりするためにも使用できます。他のテクノロジー企業も同様のサービスを提供しています。

文脈を理解する能力も必要です。たとえば、あなたが石鹸会社を経営していて、誰かが「この石鹸は赤ちゃんに本当に良い」とツイートしたとします。そのツイートは、子供用石鹸を肯定的に推奨していると見なされる可能性もありますが、その石鹸は子供には良くないということを暗に示唆する皮肉な発言である可能性もあります。したがって、この文が正確に何を意味するかは文脈によって異なります。それでも、非常に単純な文です。人工知能に、文章のあらゆる意味を解析し、特定の文脈で誰かが表現したいことの本当の意味を理解することを教えることは、NLP 研究における大きな課題の 1 つです。モデルのトレーニングを改善するためのラベル付きデータと、コンテキストを学習し、さまざまなタスク間で同時に知識を共有できる新しいモデルの両方が必要です。

質問応答システム

NLP がテキストの意味を解析する能力が向上するにつれて、私たちの日常生活を管理するデジタルアシスタントはよりスマートになります。 Siri や Google アシスタントなどのアプリは、今では一般的な質問にかなりうまく答えることができ、かなり簡単なコマンドも実行できます。しかし理想的には、コンピューターに任意の質問をして、適切な答えを得ることができるはずです。

コンピュータがより良い回答を提供できるようにする 1 つの方法は、コンピュータが質問を理解するようにすることです。「飛行機はいつ到着しますか？」と尋ねる場合、フライトについて尋ねているのでしょうか、それとも Amazon で注文した木製飛行機について尋ねているのでしょうか？コンピューターはどのようにしてあなたが何を尋ねているのかを判断するのでしょうか?セマンティクスをより深く理解し、コンテキストデータをよりインテリジェントに使用することによってのみ、コンピューターは人間の意図を推測する能力をますます高めることができます。 NLP を使用すると、これらのコンテキストのレイヤーを学習する方法を理解して、AI が重要な情報を見逃すことなくすべてを同時に処理できるようになります。

たとえば、ダイナミックコテンションネットワーク (DCN) は、「スーパーボウル 50 で NFC を代表したのはどのチームですか?」や「第 4 クォーターでタッチダウンを決めたのは誰ですか?」などの質問に応じて、単一のドキュメントを異なる方法で解釈できます。この条件付き解釈により、複数の回答を繰り返し仮定して、最も正確で最適な結果を得ることができます。

共同マルチタスク学習

科学研究コミュニティは、単一のタスクを適切に実行できる AI モデルの構築に優れています。しかし、より直感的で会話的でコンテキストに応じたインターフェースには、新しいタスクを古いタスクと統合し、その過程でより複雑なタスクを実行することを学習する、継続的に学習できる AI モデルが必要になります。これは AI 全般に当てはまりますが、言語の柔軟性を考えると特に当てはまります。

「私の顧客は誰ですか？」という質問は、顧客リストを作成するという非常に単純なタスクを提示します。しかし、問題は「太平洋岸北西部で特定の製品に最適な顧客は誰か」ということです。ここで、私たちは「最適」をどのように定義するかなど、限定的な質問に答えるためにいくつかの統合タスクを必要とする複雑さの層を追加しました。各顧客はどこに住んでいますか?顧客が特定の製品に興味を持つ要因は何でしょうか?クエリに項目を 1 つ追加すると、問題の複雑さが大幅に増加します。

Saleforce Research は最近、自然言語デカスロンを作成しました。これは、質問応答機能を活用して、質問応答、機械翻訳、要約、自然言語推論、感情分析、意味的役割ラベル付け、関係抽出、目標指向の対話、データベースクエリ生成、代名詞解決など、NLP の最も困難な 10 のタスクを単一のモデルで解決するチャレンジです。マルチタスク質問応答モデルを使用すると、各タスクは質問応答の形式と見なされ、特定のパラメーターやモジュールなしで単一のモデルがさまざまなタスクを共同で学習して処理します。これは、データサイエンティストがタスクごとに個別のモデルを構築、トレーニング、最適化する必要がなくなることを意味するだけではありません。しかし、それはまた、モデルがゼロショット学習が可能になることも意味します。つまり、モデルはこれまで見たことのない、または特別に訓練されたことのないタスクを解決できるようになります。

研究者がこのようなモデルを改良し続けると、AI インターフェースはますます複雑化するタスクをよりスマートにこなせるようになるでしょう。

私たちは長い間 NLP の分野で活動してきましたが、まだ初期段階にあります。しかし、一般の人々は、NLP の進歩により、AI が機械とのやり取りのあり方をすべて変えることができるようになると期待しています。のように！

<<: 興味深く実用的なオープンソース人工知能プロジェクトトップ10