人工知能のいくつかの重要な技術をご存知ですか?

今日は人工的にしか開発できない重要な技術をいくつか紹介します。音声認識からスマートホーム、人間と機械の戦争から無人運転まで、人工知能の「進化」は私たちの社会生活の細部に何度も驚きをもたらしてきました。より多くのスマート製品の基盤となる人工知能技術の発展はどのようなものになるのでしょうか。人工知能標準化に関する白書で、人工知能の重要なキーテクノロジーの定義を見てみましょう。

人工知能技術は、人工知能製品が私たちの生活シナリオにうまく適用できるかどうかに関係しています。人工知能の分野では、一般的に、機械学習、ナレッジグラフ、自然言語処理、人間とコンピュータの相互作用、コンピュータビジョン、生体認証、AR/VR という 7 つの重要な基幹技術が含まれます。

1. 機械学習

機械学習は、統計、システム識別、近似理論、ニューラルネットワーク、最適化理論、コンピュータサイエンス、脳科学など、多くの分野を含む学際的な科目です。コンピュータが人間の学習行動をシミュレートまたは実現して新しい知識やスキルを獲得し、既存の知識構造を再編成してパフォーマンスを継続的に向上させる方法を研究します。これは人工知能技術の中核です。データに基づく機械学習は、現代のインテリジェントテクノロジーにおける重要な手法の 1 つです。観測されたデータ (サンプル) からパターンを検索し、そのパターンを使用して将来のデータや観測できないデータを予測します。学習モード、学習方法、アルゴリズムの違いに応じて、機械学習にはさまざまな分類方法があります。

機械学習は、学習モードによって、教師あり学習、教師なし学習、強化学習に分類できます。

機械学習は学習方法によって、従来の機械学習とディープラーニングに分けられます。

2. ナレッジグラフ

ナレッジグラフは、本質的には構造化されたセマンティックナレッジベースであり、ノードとエッジで構成されるグラフデータ構造で、物理世界の概念とその関係を記号形式で記述します。その基本的なコンポーネントユニットは、「エンティティ - リレーションシップ - エンティティ」の 3 つと、エンティティとそれに関連する「属性 - 値」のペアです。さまざまなエンティティが関係性を通じて相互に接続され、ネットワークのような知識構造を形成します。ナレッジグラフでは、各ノードは現実世界の「エンティティ」を表し、各エッジはエンティティ間の「関係」を表します。簡単に言えば、ナレッジグラフとは、さまざまな種類の情報をすべて結び付けて、「関係」の観点から問題を分析する機能を提供するリレーショナルネットワークです。

ナレッジグラフは、不正行為防止、不整合検証、グループ不正などの公共セキュリティ分野で使用でき、異常分析、静的分析、動的分析などのデータマイニング手法が必要です。特に、ナレッジグラフは検索エンジン、視覚的なプレゼンテーション、精密マーケティングにおいて大きな利点があり、業界で人気のツールとなっています。しかし、データノイズ問題、つまりデータ自体が間違っていたり、データが冗長であったりするなど、ナレッジグラフの開発には依然として大きな課題が残っています。ナレッジグラフの応用が深まり続ける中、突破する必要がある重要なキーテクノロジーがまだいくつか存在します。

3. 自然言語処理

自然言語処理は、コンピュータサイエンスと人工知能の重要な分野です。自然言語を使用して人間とコンピュータの間で効果的なコミュニケーションを実現できるさまざまな理論と方法を研究します。主に機械翻訳、機械による閲覧と理解、質問応答システムなど、多くの分野が含まれます。

機械翻訳

機械翻訳技術とは、コンピューター技術を使用してある自然言語を別の自然言語に翻訳するプロセスを指します。統計ベースの機械翻訳方式は、従来のルールベースや例ベースの翻訳方式の限界を打ち破り、翻訳性能を大幅に向上させました。日常会話などのいくつかのシナリオにおいて、ディープニューラルネットワークに基づく機械翻訳の応用が成功し、大きな可能性が示されています。高コンテキストと低コンテキストのコンテキスト表現と知識論理推論機能の発展、および自然言語知識グラフの継続的な拡張により、機械翻訳は、マルチラウンドの対話翻訳やテキスト翻訳などの分野で大きな進歩を遂げるでしょう。

意味理解

意味理解技術とは、コンピューター技術を使用してテキスト文章を理解し、その文章に関連する質問に答えるプロセスを指します。意味理解は、コンテキストを理解し、回答の正確さを制御することに重点を置いています。 MCTest データセットのリリースにより、意味理解はより注目され、急速に進歩しました。関連するデータセットと対応するニューラルネットワークモデルが次々と登場しています。意味理解技術は、インテリジェントな顧客サービスや製品の自動質疑応答などの関連分野で重要な役割を果たし、質疑応答や対話システムの精度をさらに向上させます。

質問応答システム

質問応答システムは、オープンドメイン対話システムとドメイン固有の質問応答システムに分けられます。質問応答システム技術とは、コンピューターが人間のように自然言語を使用して人とコミュニケーションできるようにする技術を指します。人々は自然言語で表現された質問を質問応答システムに送信することができ、システムは最も関連性の高い回答を返します。質問応答システムの応用製品はすでに数多く存在しますが、そのほとんどは実世界の情報サービスシステムやスマートフォンアシスタントに利用されており、質問応答システムの堅牢性には依然として問題や課題が残っています。

自然言語処理には 4 つの大きな課題があります。

まず、形態論、統語論、意味論、語用論、音声論など、さまざまなレベルで不確実性があります。

第二に、新しい語彙、用語、意味論、文法は、未知の言語現象の予測不可能性につながります。

第三に、データリソースが不足しているため、複雑な言語現象をカバーすることが困難です。

4 番目に、意味的知識の曖昧さと複雑な関連性は単純な数学モデルで記述するのが難しく、意味的コンピューティングには複雑なパラメータによる非線形計算が必要です。

4. 人間とコンピュータの相互作用

ヒューマンコンピュータインタラクションは、主に人間とコンピュータ間の情報交換を研究するもので、主に人間対コンピュータとコンピュータ対人間の2つの情報交換部分を含みます。これは人工知能の分野における重要な周辺技術です。ヒューマンコンピュータインタラクションは、認知心理学、人間工学、マルチメディア技術、仮想現実技術などと密接に関連する学際的な分野です。従来、人間とコンピュータ間の情報交換は、主にキーボード、マウス、ジョイスティック、データクロージング、アイトラッカー、位置トラッカー、データグローブ、圧力ペンなどの入力デバイスと、プリンター、プロッター、ディスプレイ、ヘルメットマウントディスプレイ、スピーカーなどの出力デバイスを含むインタラクティブデバイスに依存しています。従来の基本的なインタラクションとグラフィックインタラクションに加えて、ヒューマンコンピュータインタラクションテクノロジーには、音声インタラクション、感情インタラクション、体性感覚インタラクション、脳コンピュータインタラクションも含まれます。

5. コンピュータービジョン

コンピュータービジョンは、コンピューターを使用して人間の視覚システムを模倣する科学であり、コンピューターに人間に似た画像や画像シーケンスを抽出、処理、理解、分析する機能を提供します。自動運転、ロボット工学、スマートヘルスケアなどの分野では、視覚信号から情報を抽出して処理するためにコンピュータービジョンテクノロジを使用する必要があります。最近では、ディープラーニングの発展に伴い、前処理、特徴抽出、アルゴリズム処理が徐々に融合し、エンドツーエンドの人工知能アルゴリズム技術が形成されています。解決すべき問題に基づいて、コンピュータービジョンは、計算イメージング、画像理解、3 次元ビジョン、動的ビジョン、ビデオコーディングとデコードの 5 つのカテゴリに分類できます。

現在、コンピュータービジョン技術は急速に発展しており、すでに予備的な産業規模を達成しています。コンピュータービジョンテクノロジの開発は、主に次の課題に直面しています。

まず、異なる応用分野の他の技術とどのようにうまく統合するか。コンピュータービジョンは、特定の問題を解決する際にビッグデータを広範に活用できます。徐々に成熟し、人間を超えることができますが、一部の問題では高い精度を達成できません。

第二に、コンピュータービジョンアルゴリズムの開発時間と人件費をどのように削減するか。現在、コンピュータービジョンアルゴリズムは、アプリケーション分野で要求される精度と時間を達成するために、大量のデータと手動の注釈、および長い研究開発サイクルを必要とします。

3つ目は、新しいアルゴリズムの設計と開発をいかにスピードアップするかです。新しい画像処理ハードウェアと人工知能チップの登場により、さまざまなチップやデータ収集デバイス向けのコンピュータービジョンアルゴリズムの設計と開発も課題となっています。

6. 生体認証

生体認証技術とは、個人の生理的特徴や行動的特徴を通じて個人の身元を識別し、認証する技術を指します。申請プロセスの観点から見ると、生体認証は通常、登録と識別の 2 つの段階に分かれています。登録フェーズでは、センサーを使用して人体の生体情報を収集します。たとえば、画像センサーを使用して指紋や顔などの光学情報を収集し、マイクを使用して音声などの音響情報を収集します。収集されたデータは、データ前処理および特徴抽出技術を使用して処理され、対応する特徴が取得されて保存されます。

識別プロセスでは、登録プロセスと同じ情報収集方法を使用して情報を収集し、データを前処理し、識別対象者から特徴を抽出します。次に、抽出された特徴を保存された特徴と比較および分析して、識別を完了します。アプリケーションタスクの観点から見ると、生体認証は一般に識別と確認の 2 つのタスクに分けられます。識別とは、リポジトリから識別対象者の身元を特定するプロセスを指し、これは 1 対多の問題です。確認とは、識別対象者の情報とリポジトリ内の特定の人物の情報を比較して身元を特定するプロセスを指し、これは 1 対 1 の問題です。

生体認証技術には、指紋、掌紋、顔、虹彩、指静脈、声紋、歩行などの生体認証特徴を含む幅広いコンテンツが含まれます。その認識プロセスには、画像処理、コンピュータービジョン、音声認識、機械学習などの技術が含まれます。現在、生体認証は重要なインテリジェントID認証技術として、金融、公安、教育、交通などの分野で広く使用されています。

7. VR/AR

仮想現実 (VR)/拡張現実 (AR) は、コンピューターを中核とする新しいオーディオビジュアル技術です。関連する科学技術手段を組み合わせることで、視覚、聴覚、触覚などの面で現実の環境に非常に類似したデジタル環境を一定の範囲内で生成することができます。必要な機器の助けを借りて、ユーザーはデジタル環境内のオブジェクトと対話し、互いに影響を与え、実際の環境に近い感覚と体験を得ることができます。これは、ディスプレイデバイス、追跡および位置決めデバイス、触覚インタラクションデバイス、データ取得デバイス、専用チップなどを通じて実現されます。

技術的特徴の観点から見ると、仮想現実/拡張現実は、処理段階に応じて、取得およびモデリング技術、分析および利用技術、置換および配布技術、プレゼンテーションおよびインタラクション技術、技術仕様および評価システムの5つの側面に分けられます。取得とモデリング技術は、物理世界や人間の創造性をどのようにデジタル化してモデル化するかについて研究しています。難しさは、3次元の物理世界のデジタル化とモデリング技術にあります。分析と応用技術は、デジタルコンテンツを分析、理解、検索、知識ベースの方法に重点を置いています。難しさは、コンテンツの意味表現と分析にあります。置き換えと配布技術は、主に、さまざまなネットワーク環境におけるデジタルコンテンツのさまざまな端末ユーザー向けの大規模な流通、変換、統合、パーソナライズされたサービスに重点を置いています。その中核は、オープンコンテンツの置き換えと著作権管理技術です。提示と置き換え技術は、複雑な情報に対する人々の認識能力を向上させるために、人間の習慣に適合するデジタルコンテンツのさまざまな表示技術とインタラクティブな方法に重点を置いています。難しさは、自然で調和のとれたヒューマンコンピューターインタラクション環境を構築することにあります。標準化と評価システムは、仮想現実/拡張現実の基本リソース、コンテンツのカタログ化、ソースコーディングなどの標準化と、対応する評価技術に重点を置いています。

仮想現実/拡張現実が現在直面している課題は、主にインテリジェンスの獲得、ユビキタスデバイス、自由なインタラクション、知覚の融合という 4 つの側面にあります。ハードウェアプラットフォームとデバイス、コアチップとデバイス、ソフトウェアプラットフォームとツール、および関連する仕様と規範には、一連の科学技術上の問題があります。一般的に、仮想現実/拡張現実は、インテリジェントな仮想現実システム、仮想環境と現実環境のオブジェクトのシームレスな統合、そして万能で快適な自然なインタラクションの開発傾向を示しています。

<<: 今後 30 年間、人工知能の時代において、どの職業が消滅し、あるいは存続するのでしょうか?

>>: Ant Group は、動画の著作権侵害検出用に 16 万本の動画ペアと 28 万本のクリップペアからなる大規模なデータセットを公開しました。