歴史を通じて、自動化は人間の技術の発展の主な原動力となり、複雑で危険で退屈な作業環境から人間を解放するのに役立ってきました。農業初期の水車灌漑から産業時代の蒸気機関まで、人類は重労働から解放されるため、より高度な自動化技術を常に求めてきました。 情報化時代の到来とともに、情報処理、保存、通信の基盤としてのソフトウェアは人間の生産と生活に切り離せないものとなり、ロボティック・プロセス・オートメーション (RPA) 技術が誕生しました。手動でコンパイルされたルールを通じて複数のソフトウェアを統合されたワークフローに調整し、シミュレートされた人間とのやり取りの方法でソフトウェアとやり取りすることで効率的な実行を実現します。 図1 ロボティックプロセスオートメーション(RPA)とエージェントプロセスオートメーション(APA)の比較 RPA はソフトウェア ロボット (BOT) を使用して、反復的かつ定期的なタスクをシミュレートして実行し、人的リソースを解放して作業効率を向上させます。 RPAの適用範囲は非常に広いです。多くの企業(銀行、保険会社、製造、小売業、その他の業界を含む)では、データ入力、データ抽出、データ処理などの日常的で面倒なタスクを自動的に実行するために RPA ロボットをよく使用しています。 RPA はタスクを自動化することでエラー率を大幅に削減し、24 時間 365 日中断することなくタスクを実行できるため、ビジネスの信頼性と応答性が向上します。 市場調査によると、RPA 市場は急速に成長しており、大きな成功を収めています。ガートナーは、世界のRPA市場の収益が2023年に33億米ドルに達し、2022年と比較して17.5%増加すると予測しています。これは、企業における RPA の強い需要と認識を示しています。 ただし、RPA は単純で機械的な手作業を置き換えることしかできず、一部の複雑なプロセスは依然として手作業に依存しています。
図2 RPAとAPAの効率性とインテリジェンスの比較 幸いなことに、AI 分野での大規模言語モデル ベース エージェント (LLM ベース エージェント) の最近の台頭により、自動化技術に新たな可能性が生まれるかもしれません。エージェント技術の柔軟性をRPA分野に導入し、人間の関与をさらに減らすことは可能でしょうか? チームの研究では、大規模モデルのインテリジェントエージェントの時代における新しい自動化パラダイム「エージェントプロセス自動化 (APA)」を探求しています。従来の RPA と比較して、APA パラダイムでは、エージェントは人間のニーズに基づいてワークフローの構築を自律的に完了できます。同時に、動的な意思決定を必要とする人間のニーズの部分を識別し、それをワークフローに自動的に編成し、ワークフローがその部分まで実行されると、ワークフローの実行を積極的に引き継いで、対応する複雑な決定を完了できます。 APA の可能性を探るために、本研究では、人間の指示を受け取り、コードを生成してワークフローを構築できる自動化インテリジェントエージェント ProAgent を実装しました。同時に、DataAgent と ControlAgent をワークフローに導入して、ワークフローでの複雑なデータ処理と論理制御を実現しました。 ProAgent の研究は、大規模モデルインテリジェントエージェントの時代における APA の実現可能性を実証し、LLM 時代の自動化技術の新たな可能性も明らかにしています。 方法の紹介RPA では、ワークフローは一連のツール呼び出しで構成されるグラフ構造です。ノードはアトミック ツール呼び出し (Gmail、Twitter、Google スプレッドシートなど) を表し、エッジは実行の論理的な順序 (継続、分岐、ループ) を表します。ワークフローには、問題を解決するためのパス、例外が発生した場合の処理ロジックなど、タスクまたはタスクのクラスに関するすべての事前知識が含まれることがよくあります。したがって、人間が作成して固めたワークフローは、非常に安定しており、包括的で効率的であることが多いです。 図3 エージェントワークフロー記述言語の例 ProAgentでは、LLM自体がコードデータで事前トレーニングされており、強力なコーディング機能を学習しているため、本研究ではコードベースのエージェントワークフロー記述言語であるAgentic Workflow Description Languageをベースにしています。この言語は、ワークフロー内のデータを整理および管理するために JSON を使用し、ワークフローの論理制御を実装するために Python 構文を選択し、制御フロー内のジャンプとループを Python 構文を通じて直接表現し、ワークフロー内のツール呼び出しを Python 関数としてカプセル化します。そのため、ProAgent では、ワークフロー構築タスクがコード生成タスクに変換されます。 ProAgent は、人間の指示を受け取ると、対応する Agentic Workflow Description Language を記述し、ワークフローの自動構築を実現します。 図4 DataAgentとControlAgentを組み合わせたエージェントベースのワークフロー記述言語の例 複雑な現実世界のタスクでは、通常、動的な意思決定が伴います。単純な Python スタイルの論理制御ルールと JSON スタイルのデータ構成は、柔軟な要件に直面すると無力になります。このとき、エージェントを導入する必要があります。したがって、この研究では、エージェント操作をさらに 2 種類定義します。 1. DataAgent: 複雑なデータ処理要件の場合、ワークフローの構築時に自然言語を使用して処理タスクを記述し、実行中に DataAgent が初期化され、自然言語の記述に基づいてデータ処理タスクを自律的に処理して完了します。 2. ControlAgent: ルールで表現することが難しい論理的な制御ルールについては、ワークフロー構築時に自然言語を使用して制御ロジックを記述し、実行時に ControlAgent を初期化します。ControlAgent は、自然言語記述に基づいて後続のワークフローで実行する必要がある分岐を自律的に選択します。 ProAgent は ReACT モデルを使用してワークフローを段階的に構築します。ワークフロー構築は 4 つのステップで構成されます。
図5 ProAgentワークフロー構築プロセスの例 さらに、ProAgent の効果を最適化するために、いくつかの最適化手法が導入されています。
ワークフロー実行プロセスは Python インタープリターに基づいています。ワークフローが指定されると、対応する mainWorkflow 関数がワークフロー実行のエントリ ポイントとして使用され、実行プロセス全体が開始されます。実行プロセスは Python コード実行ルールに従い、行ごとに順番に実行されます。 mainWorkflow 関数が返されると、ワークフローの実行は正常に完了します。 実現可能性の検証本研究では、エージェント型プロセス自動化の実現可能性を検証するために、OpenAI GPT-4を基本モデルとし、オープンソースRPAプラットフォームn8nをキャリアとして上記ProAgentを実装した。同時に、柔軟性と効率性の両方を必要とするタスクが設計されました。これは、Google スプレッドシートからさまざまな事業ラインの利益データを抽出し、事業が 2B に属するか 2C に属するかに基づいて後続のアクションを決定する必要がある典型的なビジネス シナリオです。ビジネス ラインが 2C として識別されると、Slack チャネルにメッセージが送信されます。 2B 事業ラインの場合、事業ラインの評価と簡単な利益の概要を含む電子メールが対応するマネージャーに送信されます。 図6 タスク指示表示 まず、このタスクは反復的なタスクであり、複数の製品ラインに対して同じ処理フローに従う必要があります。第二に、ビジネス ラインが 2C であるか 2B であるかをルールで区別することは困難であり、その後のワークフロー実行操作を決定するにはエージェントの動的な意思決定が必要です。最後に、ビジネス ライン評価メールを書くには、ある程度の知識が必要なので、エージェントの介入が必要になります。 ProAgent 生成では、このタスクのために、4 つのアトミック操作、DataAgent、および ControlAgent で構成されるワークフローが記述されました。全体的なプロセスは、おおよそ次の図のようになります。 図7 ProAgentワークフロー構築プロセス表示 ProAgent は、人間の介入を必要とせずに、独自にコードを記述することで、ワークフロー構築プロセスを自動的に完了することがわかります。業務ラインが 2B か 2C かを判断する必要がある場合は、ProAgent は判断を行うために ControlAgent を導入し、ControlAgent のプロンプトを「業務ラインが toC か toB かを判断する」に設定します。業務ラインが 2B の場合、ProAgent は DataAgent も導入します。DataAgent のタスクは「利益のある業務ラインのメールを、あなたの提案とともに作成する」に設定されており、エージェントのインテリジェンスを使用して、さまざまな業務ラインの実際の状況に基づいてメールを作成します。 ワークフローが記述され、固められた後は、さまざまなデータに基づいてさまざまなロジックに自動的に分岐し、効率的なデータ処理が行われます。 図8 ProAgentワークフロー実行プロセス表示 2C ビジネス ライン データを処理する場合、ControlAgent はビジネス ラインの説明に基づいて現在のビジネス ラインの種類を判別し、Slack ツールを呼び出すことを選択できます。 2B のビジネス ライン データに遭遇すると、DataAgent は電子メールを作成し、対応するマネージャーのメールボックスに送信できます。 要約するこの研究では、ビッグモデルの時代における新しい自動化パラダイムであるエージェントプロセス自動化を提案しました。従来のロボティックプロセス自動化技術と比較して、ワークフロー構築の自動化とワークフロー実行中の動的意思決定の自動化を実現できます。この研究では、ProAgentをさらに実装し、自動化における大規模モデルエージェントの実現可能性と可能性を実験を通じて明らかにしました。将来的には、大型インテリジェントエージェント技術が、人類がより高いレベルの自動化を実現し、あらゆる重労働から解放されるよう支援してくれると信じています。 チーム関連研究現在、研究チームは大規模インテリジェントエージェントの分野で、以下を含む多くの研究を行っています。
|
>>: 大規模モデル幻覚率ランキング:GPT-4は3%と最も低いが、Google Palmは最大27.2%
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
序文GPT-4はリリースされてからしばらく経ちますが、セキュリティなどのさまざまな理由から、Open...
AI がビジネスの世界に導入されたとき、AI は顧客体験に革命をもたらすなど、顧客のニーズをよりよ...
Huaweiの才能あふれる若者Zhihuiの起業家デビューがついに登場!観衆の注目が集まる中、「Ex...
[[285204]]現在、モバイルインターネット、ビッグデータ、スーパーコンピューティングなどの新し...
この時代において、AIは科学技術の将来の発展の重要な支点となり、AIチップは産業の発展を牽引する新た...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
ヘルスケア産業はインド経済において最大のセクターの一つとなっている。 NITIAyogの報告によると...
ブロックチェーンと人工知能の関係は何ですか?ブロックチェーンは人工知能に影響を与えることができるか?...
AI を活用したデータ分析は、世界中の多くの企業にとって非常に役立つものになりつつあります。ますます...