人工知能アプリケーションのための6つの主要技術、ついに誰かがわかりやすく説明

[[338620]]

画像はPexelsより

この記事はWeChatの公開アカウント「Big Data DT」から転載したもので、著者はDaguan Dataです。この記事を転載する場合は、Big Data DT パブリックアカウントにご連絡ください。

我が国の「人工知能標準化白書（2018年）」でも、人工知能の定義が示されています。「人工知能とは、デジタルコンピュータまたはデジタルコンピュータによって制御される機械を使用して、人間の知能をシミュレート、拡張、拡大し、環境を認識し、知識を獲得し、知識を使用して最良の結果を得るための理論、方法、技術、およびアプリケーションシステムです。」

人工知能の中心的な考え方は、知的な人工システムを構築することです。人工知能は、機械を使用して人間を模倣し、一連のアクションを完了する知識工学です。理解、思考、推論、問題解決などの高度な行動を達成できるかどうかを基準とします。

将来、人工知能のアプリケーションは主に以下のコア技術的特徴を反映するでしょう。

著者: Daguan Data

出典: ビッグデータ DT (ID: hzdashuju)

01 ロボティックプロセスオートメーション（RPA）

RPA (ロボティックプロセスオートメーション) の定義: コンピューターインターフェイス上で人間の操作をシミュレートできる特定のテクノロジーを通じて、対応するプロセスタスクがルールに従って自動的に実行され、関連するコンピューター操作の完了を人間に置き換えたり支援したりします。

RPAは、一般的に機械的な存在として考えられている「ロボット」とは異なり、基本的に特定の指示に従って作業を完了できるソフトウェアです。このソフトウェアは、個人のパソコンや大規模なサーバーにインストールされ、キーボードやマウスなどの手動操作をシミュレートすることでオフィス業務を自動化します。

▲図1-1 RPAは今後のオフィス革新と発展のトレンド

RPA は、ビッグデータ、人工知能、クラウドコンピューティングなどのテクノロジーを統合しているため、比喩的にデジタルレイバーとも呼ばれています。ユーザーグラフィカルインターフェイス (GUI) の要素を操作することで、人間とコンピューター間の対話プロセスをシミュレートして強化し、これまで人間のみが実行できた作業の実行を支援したり、高強度の人間の作業を補助する労働力として機能したりします。

2015年以降、人工知能技術とRPAは同時に大きく発展・進歩し、相互に補完し合いながら融合してきました。当然のことながら、RPA と AI の組み合わせは、インテリジェントアプリケーションの非常にユニークな開発トレンドをもたらしました。これをインテリジェント RPA テクノロジ、または IPA テクノロジ (Intelligent Processing Automation)、つまりインテリジェントプロセス自動化テクノロジと呼びます (図 1-2 を参照)。

▲図1-2 インテリジェントRPAの構成：RPA+AI=IPA

つまり、RPA は基盤であり、IPA とその利点を実現するには他の技術的手段と統合する必要があります。

プロセス自動化機能に対するビジネスコミュニティの期待は日々高まっています。機械学習などの AI 技術を RPA に適用し、人工知能機能を製品スイートに統合してより多くの種類の自動化機能を提供することが、今後の RPA 開発の主流のトレンドとなっています。

02 光学文字認識（OCR）

OCR 技術とは、電子デバイス (スキャナやデジタルカメラなど) を使用して紙の文書内のテキストを白黒のドットマトリックス画像ファイルに変換し、認識ソフトウェアを使用して画像内のテキストをテキスト形式に変換し、さらにワードプロセッサソフトウェアで編集および処理する技術を指します。簡単に言えば、テキスト素材をスキャンし、画像ファイルを分析・処理してテキストとレイアウトの情報を取得する技術です。

OCR 技術は、一般的に図 3-1 に示すように 5 つの段階に分けられます。

▲図3-1 OCR技術の5つの段階

OCR 認識プロセスについては、以下で詳しく説明します。

1. 画像処理

画像イメージの問題を修正します。一般的な画像前処理プロセスには、幾何学的変換（遠近法、歪み、回転など）、歪み補正、ぼかし除去、画像強調および光補正、2 値化などがあります。

2. テキスト検出

テキストの位置、範囲、レイアウトの検出には、通常、レイアウト分析とテキスト行の検出も含まれます。テキスト検出が解決する主な問題は、テキストがどこにあり、テキスト範囲がどのくらい大きいかということです。

テキスト検出に使用される処理アルゴリズムには、通常、Faster-RCNN、Mask-RCNN、FPN、PANet、Unet、IoUNet、YOLO、SSD などがあります。

3. テキスト認識

テキスト検出に基づいて、テキストの内容が認識され、画像内のテキスト情報がコンピューターで認識および処理できるテキスト情報に変換されます。テキスト認識が解決する主な問題は、各文字が何であるかということです。

テキスト認識に一般的に使用される処理アルゴリズムには、CRNN、Attention OCR、RNNLM、BERT などがあります。

4. テキスト抽出

テキスト認識結果から必要なフィールドまたは要素を抽出します。

テキスト抽出に一般的に使用される処理アルゴリズムには、CRF、HMM、HAN、DPCNN、BiLSTM+CRF、BERT+CRF、Regex などがあります。

5. 出力

最終的なテキスト認識結果またはテキスト抽出結果を出力します。

03 機械学習・ビッグデータ分析

機械学習/ビッグデータ分析は、予測機能を実現するために複雑なモデルとアルゴリズムを設計するために使用される方法です。つまり、コンピューターは事前に記述されたコードに依存するのではなく、学習する能力を備えています。既存の構造化データの観察に基づいて構造化データ内のパターンを識別し、これを使用して将来の結果に関する予測を出力することができます。

機械学習は、「教師あり」学習と「教師なし」学習の両方を通じて、日々のパフォーマンスデータなどの構造化データのパターンを識別するアルゴリズムの一種です。教師ありアルゴリズムとは、独自の入力に基づいて予測を行う前に、入力と出力の構造化されたデータセットから学習するアルゴリズムです。教師なしアルゴリズムは構造化されたデータを観察し、特定されたパターンに関する関連する洞察を提供します。

機械学習と高度な分析は、コンプライアンスの向上、コスト構造の削減、新たな洞察による競争上の優位性の獲得など、保険会社にとって大きな変革をもたらす可能性があります。高度な分析は、リーダーやマネージャーの中核となる資質を特定して評価し、行動をより正確に予測し、キャリアパスを計画し、次世代のリーダーのポジションを特定するために、主要な人事部門ですでに広く使用されています。

04 自然言語生成（NLG）

コンピュータは人間と同じ表現力と文章作成能力を持っています。コンピュータは特定のルールに従って、データから観察された情報を高品質の自然言語テキストに変換します。たとえば、会議メールの件名、デジタル地名、人物名、住所を自動的に識別してスケジュールメモを生成したり、契約条項の重要な内容を識別して要約の要点リストを生成したりします。

自然言語生成と自然言語処理の詳しい紹介については、「5つの主要な意味解析技術と自然言語処理の14の応用の詳細説明（推奨コレクション）」をお読みください。

05 スマートワークフロー

インテリジェントワークフローは、人間と機械の両方が実行する作業を統合するプロセス管理用のソフトウェアツールです。これにより、ユーザーはエンドツーエンドのプロセスをリアルタイムで開始および追跡して、ロボットと人間のユーザー間を含むさまざまなグループ間のハンドオフを管理できるほか、ボトルネックステージに関する統計も提供されます。

社会と技術の継続的な進歩に伴い、さまざまな分野が自動化と知能化の方向へ急速に発展し始めています。ワークフロー関連技術の研究も注目を集めており、製造、ソフトウェア開発、銀行・金融、バイオメディカルなどさまざまな分野で広く利用されています。

ワークフローは、関連するアクティビティとタスクの処理を自動化し、人間とコンピューターの相互作用によって発生する潜在的なエラーを削減するだけでなく、各処理ステップを正確に決定し、生成効率を最大化し、動的で可変的で柔軟なアプリケーションシナリオにワークフローを適用することもできます。

近年、ビッグデータや人工知能を背景に、ワークフローにおける業務プロセスはますます複雑化し、それらが向き合う環境やデータもますます複雑化しています。需要分析やプロセスモデルの変更による業務プロセスのリモデリングや、保守・バージョンアップによる改善も頻繁に行われるようになりました。

この動的で複雑な環境において、タスクを迅速に識別し、ワークフローの問題を迅速かつ効率的に、的を絞って処理する方法が、現在のワークフロータスク研究における重要な課題となっています。

RPA ソフトウェアロボットも、作業中に同様の状況に数多く遭遇します。ワークフローの複雑性と変動性は、RPA 運用プロセスの複雑性と変動性につながり、適応が不可能になり、RPA ソフトウェアロボットの運用効率に大きな影響を与えます。

したがって、インテリジェントワークフローテクノロジを使用して RPA 内のタスク設定を動的に調整し、RPA ビジネスプロセスを自動的に変更およびアップグレードして、インテリジェントワークフローのガイダンスの下で適応型の操作モードを実現する必要があります。

インテリジェントなワークフローを実現する方法は数多くあります。例えば、米国のJH Holland教授が提案した遺伝的アルゴリズムに基づくワークフロースケジューリングや、Pandey Sらが提案した粒子群最適化アルゴリズム（PSO）に基づくヒューリスティックアルゴリズムは、さまざまなリソースのインテリジェントなスケジューリングに使用できます。さらに、ハイブリッドカエル跳躍アルゴリズム、カッコウ検索アルゴリズム、コウモリアルゴリズム、人工蜂コロニーアルゴリズムなど、自然とバイオニクスに基づいたインテリジェントアルゴリズムが数多くあります。

現在、より一般的なアプローチは、インテリジェントな計画に基づくワークフロー処理モデルを実装することです。このモデルは、異なるアクティビティを互いに影響を及ぼさない個別のイベントとして扱うのではなく、複数のイベントの共通の影響を具体的に考慮します。

このモデルは、ワークフローとインテリジェントプランニングの類似点を十分に考慮し、インテリジェントプランニングを通じてさまざまなワークフロータスク間の固有の論理関係を導き出し、他のチャネルや外部情報からの潜在的な関係を十分に探索します。

従来のワークフローの問題を徐々に改善し、新しいインテリジェントな計画方法を使用して表面的なアクションから潜在的な情報をマイニングし、ノイズデータをフィルタリングして、プロセスの自動修正を実現します。最後に、以前に得られた結論に基づいて、以前の RPA 作業プロセスをターゲットを絞って変更し、適応型の作業モードとプロセスを実現します。

06 認知エージェント

認知エージェントは、機械学習と自然言語生成を組み合わせ、感情検出機能を追加して判断と分析を行うテクノロジーであり、タスクの実行、通信、データセットからの学習、さらには感情検出結果に基づいた意思決定が可能になります。言い換えれば、機械は人間のような「感情的共鳴と精神的共鳴」を持ち、真に完全に仮想的な労働力（または知的存在）となるのです。

顧客サービス分野では、英国の自動車保険会社が認知インテリジェントエージェント技術を使用することで、顧客コンバージョン率が 22% 向上し、検証エラー率が 40% 削減され、全体的な投資収益率が 330% に達しました。

もちろん、デロイトやEYなどのコンサルティング会社も、現段階では多くの企業のプロセス管理やシステムの基本機能に関しては、まだインフラ面で取り組むべきことがたくさんあると率直に述べています。インテリジェントなプロセス自動化 (認知エージェントなど) を構築するために必要なコアテクノロジーの一部はまだ初期段階にあります。

知能には、計算知能、知覚知能、認知知能という 3 つの側面が含まれます。

計算知能の面では、コンピュータの速度は人間の労働効率をはるかに上回っています。
知覚知能の面では、OCRやNLPなどの技術の発展により、多くの効果を実現できるようになりました。
しかし、認知知能の面では、特定の領域でも、自然言語処理はすでに手作業よりも優れた結果を達成できます。ただし、特に知識理解、知識推論、知識判断などの一部の領域では、徐々に蓄積して改善する必要があるものがまだたくさんあります。

機械が自己認識を生み出せるかどうかとロボットの適用範囲によって、人工知能は弱い人工知能と強い人工知能に分けられます。弱い人工知能の機械には自己認識がなく、真に推論して自主的に問題を解決する能力がなく、通常は特定の条件下で特定の問題を解決するのにのみ適しています。現在の人工知能の研究は主に弱い人工知能の分野に集中しています。

強力な人工知能に関しては、機械はある程度の自己認識を持ち、学習を通じて機能を拡張することができます。現在利用できない機能や、現在理解していない知識は独学で習得できます。

現状では、総合力の高い人工知能は、技術力、社会倫理などの面で依然として多くの課題に直面しています。しかし、特定の分野の特定のシナリオでは、認知知能と学習機能を備えた人工知能ソフトウェアは、作業プロセスを最適化し、迅速に対応し、より多くの異なる状況をカバーできるだけでなく、技術的リスクとアプリケーションリスクを最小限に抑えることができるため、非常に価値のある研究方向です。

認知知能には多くの定義があります。その中で、復旦大学の肖陽華教授は、機械に認知知能を与えるということは、機械が人間のように考えることができるようになることを意味し、この思考能力は具体的には以下の点に反映されると述べています。

まず、機械はデータを理解し、言語を理解し、そして現実世界を理解する能力を持っています。

第二に、機械にはデータ、プロセス、そして現象を解釈する能力があります。

3つ目に、機械は推論や計画など、人間に特有の一連の認知能力を持っています。つまり、認知知能は推論、計画、連想、創造などの一連の複雑なタスクを解決する必要があります。

インテリジェントエージェントとは、特定の環境に常駐し、継続的かつ自律的に機能し、居住性、応答性、社会性、および自発性の特性を備えた計算エンティティを指します。米国スタンフォード大学の著名な人工知能学者ヘイズ・ロス教授の理論によれば、「インテリジェントエージェントは、環境内の動的な状態を知覚し、環境に影響を与える行動を実行し、知覚した情報を解釈して推論し、問題を解決し、行動を決定するという3つの機能を継続的に実行できる」とのことです。

前述の定義から、認知エージェントは環境内の動的な状態を知覚し、これらの状態に基づいて対応するアクションを実行して既存の環境に影響を与えることができることがわかります。同時に、認知エージェントは推論を使用して知覚した情報を解釈し、関連する問題を解決し、その後のアクションを決定することもできます。

認知エージェントとRPAを組み合わせることで、アプリケーションシステムやその他の関連する環境の変化に基づいて次に何をすべきかを動的に認識し、対応するアクションを実行して対応する環境情報に影響を与える認知インテリジェンスを備えたロボットを実現できます。これにより、インテリジェントな入力、インテリジェントな監視、インテリジェントなドキュメント処理、補助的な判断を実現できます。

同時に、認知エージェントはRPAテクノロジーを通じて業務を処理しながら関連する経験と知識を学習し、徐々に重要なポイントを識別する能力を習得することができます。

認知エージェントの研究にはさまざまな方法があります。近年、分散型人工知能、情報科学、ネットワーク科学の継続的な発展に伴い、動的環境における分散型協調意思決定は認知エージェントの重要な研究方法となっています。この方法は、マルチ UAV システムやマルチロボットシステムに代表される典型的な分散型マルチエージェントシステムで広く使用されています。

同時に、インテリジェントエージェントは、自身の設計によって制限されているため、環境やシステムに部分的に観測可能な情報の特徴を提示することが多く、インテリジェントエージェントと外部制約間の相互作用が限られているため、グローバルな情報を取得するのに非常にコストがかかります。

同時に、分散型マルチエージェントシステムは、アプリケーションにおいてソーシャルネットワークに似た自己組織化構造とそれに対応する複雑なネットワーク特性を示します。つまり、ネットワーク内の単一のエージェントは通常、ローカルネットワーク内のエージェントのごく一部としか接続/対話できず、従来の集中型コラボレーションモデルは適用できなくなります。

さらに、ソーシャルネットワークにおける人々の間の限定的な情報交換が個人の意思決定の効率を大幅に向上させることができるのと同様に、同じ方法が関連研究に適用できるかどうかについても、継続的な実験が行われているところです。

著者について: Daguan Data は、中国のインテリジェント RPA 分野のリーディングカンパニーであり、「RPA + AI」システムの完全なセットを独自に開発し、コアとなる知的財産権を所有しています。 Daguan Intelligent RPA 製品は、Microsoft の基盤となる開発フレームワークに依存せず、サードパーティのオープンソースフレームワークも使用しない業界で唯一の RPA 製品です。

この記事は「Intelligent RPA Practice」から抜粋したもので、出版社の許可を得ています。

<<: 暑い天候で火災が続発、消防ロボットが救助活動に活躍

>>: 機械学習プロジェクト用の Python インターフェースを設計する方法