残念ながら、自然言語理解はAIがまだ克服していない分野である。

わずか数年で、ディープラーニングのアルゴリズムは大きな進歩を遂げました。チェスのゲームで世界最高のプレイヤーを打ち負かしただけでなく、人間と同等かそれ以上の精度で顔を認識できるようになりました。しかし、人間の言語は依然として非常に深刻な問題であり、AI テクノロジーが直面する最も困難な課題の 1 つであることが判明しました。

[[377044]]

しかし、予想通りの突破口が見つかるのでしょうか?

コンピューターが人間の言語コンテンツを効果的に理解できるようになれば、世界中のブランド、企業、組織が互いにやり取りする方法に完全な革命が起こるでしょう。現在、ほとんどの企業は、すべての顧客に対して個別に回答するサービスを提供するためのリソースを持っていません。しかし、言語 AI が真に成熟すると、企業はあらゆるチャネルを通じていつでもあらゆる質問を聞き、理解し、応答できるようになります。これは開発にとって刺激的なビジョンですが、実現するまでにはまだ長い道のりがあります。

他のアルゴリズムに匹敵するほどの精度を持つ顔認識アルゴリズムが構築されたのは 2015 年になってからでした。 Facebook の DeepFace の精度は 97.4% で、人間の 97.5% をわずかに下回っています。参考までに、FBI の以前の顔認識アルゴリズムの精度はわずか 85% でした。つまり、その判断が間違っている可能性は 7 分の 1 以上あるということです。

FBI のアルゴリズムはエンジニアのチームによって手作業で開発されました。鼻の大きさや目の相対的な位置など、それぞれの特徴は手動でプログラムされました。 Facebook アルゴリズムは、特徴学習を真に実現しています。畳み込みニューラルネットワークと呼ばれる特殊なディープラーニングアーキテクチャを使用して、人間の視覚皮質をシミュレートし、複雑な多層構造を通じて画像コンテンツを処理します。実際、これらの皮質がどのように接続されているかは不明であるため、すべての「謎」はアルゴリズムによって自律的に探索されます。

Facebook は、人間レベルの人工知能を実現するための 2 つの基本的なアイデアに頼ることでこれを実現しました。まず、特徴を学習できるアーキテクチャを確立し、次に何百万ものラベル付き高品質画像を学習のトレーニングマテリアルとして使用します。

言語の壁はすぐそこにある

視覚の誕生は困難ですが、何百万もの種が進化の過程でこの困難を克服してきました。それに比べると、言語はより複雑であるように思えます。私たちの知る限り、現在複雑な言語を使って考えを伝えることができる種は人間だけです。

10 年も経たないうちに、特定の単語の出現頻度のみに基づいて大まかに意味を推測できる AI アルゴリズムが登場しました。しかし、この方法では同義要素の存在が無視されていることは明らかであり、一部の表現が異なる文脈で異なる意味を持つという問題に対処することはできません。

2013年、トーマス・ミコロフ氏とGoogleのチームは、単語の意味を学習できるアーキテクチャを開発しました。彼らの word2vec アルゴリズムは、同義語を相互にマッピングして、サイズ、性別、速度などのセマンティクスをモデル化し、国と首都などの特徴を関連付けることさえできます。

しかし、まだ重要な部分が欠けています。それは、文脈を理解することです。言語理解における真のブレークスルーは、Google が BERT モデルを発表した 2018 年に起こりました。ジェイコブ・デブリン氏と彼のチームは、従来の機械翻訳のアーキテクチャを引き続き使用しながらも、文内の文脈情報を学習する機能を導入しました。

Wikipedia の記事で欠落している単語を補うようにモデルに教えることにより、チームは言語構造を BERT モデルに埋め込むことができました。限られた量の高品質のラベル付きデータのみを使用して、BERT を微調整し、質問に対する正しい答えを見つけることから文章の意味を真に理解することまで、さまざまなタスクを達成することができました。この偉業により、彼らは言語理解のパズルを解く先駆者となりました。つまり、適切なアーキテクチャと、学習するための大量の高品質データです。

2019年、Facebookの研究者たちはこれをさらに一歩進めました。彼らは、100の言語を同時に使用して同様のBERTモデルをトレーニングしました。このモデルは、1 つの言語 (英語など) の特徴を学習し、その結果を他の言語 (アラビア語、中国語、ヒンディー語など) に適用できます。この言語中立モデルは、実際のトレーニングに選択された言語で BERT とまったく同じパフォーマンスを実現しながら、別の言語に移行する際の影響を最小限に抑えることができます。

テクノロジー自体は確かに印象的です。しかし、2020年の初めに、Googleの研究者たちはついに、幅広い言語理解タスクにおいて人間のパフォーマンスを上回ることに成功しました。 Google は、より大規模なネットワークアーキテクチャとより多くのトレーニングデータを導入し、最終的に BERT アーキテクチャを限界まで押し上げました。現在、T5 と呼ばれるこのアーキテクチャは、文章のタグ付けと回答の検索において人間よりも優れたパフォーマンスを発揮します。昨年10月に発売された多言語対応モデル「mT5」は、バイリンガル翻訳において人間に近い性能を実現した。さらに恐ろしいのは、最大100言語に対応していることだ。 Google は今週、新たな兆パラメータモデルを発表しました。これにより、全体的なアーキテクチャの規模とパフォーマンスがさらに向上しました。

可能性

チャットボットがどんな言語で書かれた内容でも理解し、文脈を真に理解し、以前に話した内容を記憶できる未来を想像してみてください。つまり、私たちは、単純で粗雑な事前定義された応答ではなく、実際の懸念と回答を得られるようになったのです。

検索エンジンは、言葉遣いが厳密に正確かどうかを心配することなく、質問を理解して正しい回答を返すこともできます。また、ビジネスプロセスについてあらゆることを知っている AI の同僚を獲得できる可能性もあります。さらに重要なのは、適切な用語を使用すれば、簡単な Google 検索で顧客の特定の問題を解決できる可能性があることです。長い内部ドキュメントは最終的には過去のものとなり、AI モデルはざっと目を通すだけで済むようになります。

データベースの新しい時代が到来しました。データを構築する面倒な作業とは完全にお別れします。すべてのメモ、電子メール、レポートは AI モデルによって自動的に解釈、保存、インデックス付けされます。データベースは人間の表現を理解するため、IT 部門を介さずに直接クエリを実行し、レポートを作成できます。

これらはすべて氷山の一角にすぎません。人間の言語理解に依存する現在のすべてのプロセスは、自動化によって完全に混乱する可能性があります。

そんなに単純じゃない

しかし、ここでまだ問題が残っています。それほど優れているのなら、なぜこれらのアルゴリズムはまだ広く使用されていないのでしょうか? それは、Google がクラウドコンピューティングリソースのみを使用して T5 アルゴリズムをトレーニングするのに約 130 万ドルの費用がかかったためです。幸いなことに、Google の研究者はこれらのモデルを惜しみなく共有してくれました。ただし、現在のタスクを最適化する場合は、大量の追加リソースオーバーヘッドと長いトレーニングサイクルが必要になります。

しかし、時間が経ち、企業がチューニング作業を模索し続けるにつれて、将来的にはさらに多くのアプリケーションソリューションが登場すると信じています。さらに、誰もがムーアの法則を信じているなら、約 5 年でより複雑な言語の AI アプリケーションが登場し、その頃には T5 アルゴリズムを完全に凌駕する新しいモデルが登場するでしょう。

2021年現在、AI技術の転換点となるブレークスルーにはまだまだ程遠い状況です。しかし、この困難を克服できれば、AI テクノロジーはきっと無限の可能性を解き放つでしょう。

<<: トレンドマイクロ：2030年までにAIがサイバーセキュリティ担当者に取って代わる

>>: 製薬業界はAI医薬品製造の時代に突入。医薬機械企業にどのような影響を与えるのでしょうか？