DeepSeek の最適な使い方とは?ウェストレイク大学が自律的に進化できるモバイルインテリジェントエージェント「AppAgentX」をリリース

1. 背景

近年、大規模言語モデル (LLM) の急速な発展により、人工知能は新たな高みに到達しています。 DeepSeek-R1 のようなモデルは、強力な理解および生成機能により、対話生成、コード作成、知識質問応答などのタスクで優れたパフォーマンスを発揮します。現在、LLM の適用範囲はさらに拡大しており、人間のようにマウスとキーボードを介してコンピューターや携帯電話と直接対話できる LLM ベースの GUI エージェントという新しいタイプのインテリジェントエージェントが生まれています。

このタイプのインテリジェントエージェントは、事前定義されたルールとスクリプトに基づいてタスクを実行する従来の RPA (ロボティックプロセスオートメーション) 方式に依存せず、自然言語を通じてユーザーの指示を理解し、自律的に操作を完了することができます。たとえば、開発者が面倒な自動化スクリプトを手動で記述しなくても、アプリケーションを開いたり、ドキュメントを編集したり、Web を閲覧したり、さらにはソフトウェア間で複雑なタスクを実行したりできます。 RPA と比較すると、このタイプのインテリジェントエージェントの利点は、柔軟性と一般化能力、およびさまざまなタスクシナリオに適応する能力にあります。

この傾向により、AI アシスタントに対する人々の想像が徐々に現実のものになりつつあります。 SF 映画のジャービスは自然言語を理解し、コンピューターを自律的に操作することができ、今日の LLM エージェントもこの方向に進んでいます。企業ではデジタルワーカーの導入も進んでおり、データ入力、レポート作成、メール返信などの反復的な作業を自動的にこなせるため、生産性が向上します。さらに、インテリジェントエージェントは、自動ソフトウェアテスト、リモートコントロール、スマートオフィスアシスタントなどのシナリオでも使用され、言語コマンドを使用してコンピューターや企業の IT システム全体を自然に制御できるようになります。

しかし、現在の LLM エージェントは、実際のアプリケーションでは依然として効率性の問題を抱えています。既存の方法は、各操作を実行する前にモデルが次に何をするかを「考える」という段階的な推論に依存しています。たとえば、単純な検索タスクを実行する場合、エージェントは「検索ボックスをクリックする」→「キーワードを入力する」→「検索ボタンをクリックする」という手順を個別に推論する必要があります。単純な手順であっても、追加のコンピューティングリソースが必要になります。このモデルは汎用性を向上させますが、多数の反復タスクを処理する場合、従来の RPA に比べて効率がはるかに低くなります。

したがって、重要な質問は、推論能力を保持し、新しいタスクに対応できるほど柔軟でありながら、RPA と同じくらい効率的に一般的なタスクを実行できるインテリジェントエージェントを持つことは可能かどうかです。

この問題を解決するために、ウェストレイク大学の AGI 研究所は、進化可能な GUI エージェントフレームワークである AppAgent X を提案しました。これは、LLM 駆動型エージェントが自身の操作経験から学習し、より効率的な動作パターンを継続的に進化させることを可能にする GUI エージェントの先駆的な取り組みである AppAgent の最新バージョンです。簡単に言えば、AppAgent X により、インテリジェントエージェントはタスク実行中に反復的な操作パターンを識別し、一連の低レベルの操作を高レベルの「ワンクリック」操作に自動的に要約できるようになります。たとえば、エージェントは「検索」というタスクパターンを学習し、特定の手順を毎回考える必要なく、それを高レベルの操作に自動的に抽象化できます。つまり、エージェントは使用されるにつれて、より効率的かつスマートになります。

論文タイトル: AppAgentX: 熟練したスマートフォンユーザーとして進化する GUI エージェント
プロジェクトアドレス: https://appagentx.github.io/
Githubアドレス: https://github.com/Westlake-AGI-Lab/AppAgentX
Arxivアドレス: https://arxiv.org/abs/2503.02268

論文の第一著者はウェストレイク大学の研究者である江文佳氏であり、指導教員はウェストレイク大学AGI研究所所長の張志助教授である。この研究所の研究は、生成型人工知能とマルチモーダル機械学習に重点を置いています。

AppAgent Xの機能図

2. AppAgentのソリューション

大規模言語モデルが画面と対話する場合、AppAgent などの主流の作業では、クリック、スライド、入力など、人間をシミュレートする一連のアクションを定義します。これらのアクションを組み合わせることで、スマートフォンインターフェイスでの一般的な人間の操作をシミュレートする、アプリケーションに依存しない基本的なアクションスペースが定義されます。

タスクが完了するまで、画面認識とアクション実行の継続的なサイクル。

3. 課題: インテリジェンスと効率性のバランス

大規模なモデル駆動型 GUI エージェントでは、インテリジェントな意思決定と実行効率の間で適切なバランスをとる方法が重要な問題となります。既存の方法では、大規模モデルの強力な推論機能を使用してインターフェースを理解し、クリック、入力、スライドなどのインタラクティブな操作を段階的に計画できますが、この段階的な推論アプローチでは、計算コストが高くなり、実行が遅れることがよくあります。たとえば、単純な検索タスクを完了する場合、エージェントは「検索ボックスをクリックして、キーワードを入力して、検索ボタンをクリックする」という 3 つの手順を 1 つずつ推論する必要があります。この方法では、決定の正確性は保証されますが、実行速度が犠牲になります。

対照的に、従来のロボットプロセス自動化 (RPA) ツールは柔軟性に欠けるものの、固定されたスクリプトベースの実行戦略により、事前定義されたタスクで非常に高い実行効率を実現できます。両者を比較すると、大規模モデルインテリジェントエージェントの利点は、その強力な適応性と、複雑または未知のインターフェースで最適なインタラクション方法を推測する能力にあり、一方、RPAの利点は、その高速な実行速度と、固定されたタスクを効率的に完了する能力にあります。大規模モデルインテリジェントエージェントの知能と実行効率の最適な組み合わせをどのように見つけるかが、この技術の実装を促進する上で重要な課題となっています。

4. 進化メカニズムによるAppAgentX

AppAgentX は、エージェントが人間のようにインターフェースを自律的に探索して理解できるだけでなく、エージェント自身の過去のインタラクションパターンを学習することで実行プロセスを徐々に最適化し、インテリジェンスと効率の最適な組み合わせを実現できる、進化可能な GUI エージェントフレームワークを提案します。

チェーンストレージメカニズムと動的マッチング実行メカニズムを導入することで、インテリジェントエージェントは自身の操作軌跡を効率的に記憶、要約、最適化することができ、それによって後続のタスクで効率的な実行戦略を再利用し、繰り返しの推論を減らし、全体的なタスク完了速度を向上させることができます。

4.1 チェーンベースのストレージメカニズム

研究者らは、エージェントが各タスク実行中の完全な対話プロセスを記録するためのチェーン知識保存メカニズムを設計しました。具体的には、エージェントの各アクションは「チェーン」を形成するように保存され、これには次のものが含まれます。

ページノード: エージェントがさまざまなインターフェースの機能を思い出せるように、インターフェースの詳細な説明とインタラクティブコンポーネントを記録します。
要素ノード: インターフェース上のボタンや入力ボックスなどのインタラクティブな要素については、その視覚的な特徴と履歴的な操作方法を保存します。
ショートカットノード: エージェントが既存の成功体験を再利用できるように、過去の操作手順を要約します。

これを基に、研究者らはビッグモデルを使用して、過去の操作パスからタスクロジックを抽出し、ページとインタラクティブ要素の機能説明を自動的に要約しました。たとえば、エージェントは「検索ボックス + 確認ボタン」というパターンを要約し、高レベルのセマンティックユニットとして記録できます。このように、将来同様のインターフェースに遭遇したときに、エージェントは最初から推論する必要はなく、学習した効率的なソリューションを直接呼び出すことができます。

4.2 動的マッチング実行メカニズム

AppAgentX は、保存されたインタラクティブチェーンに基づいて、進化メカニズムを通じて効率的な実行方法を自動的に抽出できます。エージェントは、特定の操作モードの実行順序が固定されていることを認識すると（たとえば、検索ボックスをクリック→コンテンツを入力→検索を送信）、ショートカットノードを動的に作成して、複数の低レベルの操作を 1 つの高レベルのアクションに統合し、不要な推論と実行時間を削減します。

後続のタスクでは、インテリジェントボディは、現在のインターフェイスと既存のチェーンストレージレコードの一致を優先し、高レベルの操作ノードを直接呼び出すことができるかどうかを判断します。一致が成功した場合、エージェントはすべての低レベルの操作を段階的に推論する必要はなく、最適化されたショートカットパスを直接実行して、タスク実行の効率を向上させることができます。さらに、一致しないタスクの場合でも、エージェントは基本アクション空間に基づいて動的推論を実行し、知性と柔軟性が影響を受けないようにすることができます。

このメカニズムの利点は、エージェントの推論能力と実行効率を動的に調整できることです。

複雑なタスクの場合でも、エージェントは大規模モデルの推論能力に依存して実行パスを徐々に探索することができます。
反復的なタスクの場合、エージェントは履歴に基づいて最適化されたショートカット操作を効率的に呼び出して、実行速度を向上させることができます。
適応進化により、インテリジェントエージェントは自身の決定を継続的に最適化できるため、長期的にはますます効率的になります。

5. 結論と展望

大規模言語モデル (LLM) の急速な発展により、インテリジェントエージェントは単純なテキスト対話から、オペレーティングシステムや GUI インターフェイスを直接操作できる自律エージェントへと徐々に進化しています。しかし、既存の方法では効率性と実行インテリジェンスの間でトレードオフが発生し、反復的なタスクに直面したときに LLM エージェントが非効率になります。 AppAgent X は、エージェントが自身のタスク実行経験から学習し、徐々により効率的な運用戦略を形成できるようにする、進化可能な GUI エージェントフレームワークを提案します。このアプローチにより、AppAgent X は LLM エージェントの柔軟性と RPA エージェントの実行効率を組み合わせ、バックエンドにアクセスすることなく効率的でインテリジェントな GUI 操作を実現します。

実験では、AppAgent X は複数の GUI インタラクションタスクで大幅な効率向上を示し、既存の SOTA 方式よりも優れたパフォーマンスを発揮しました。その進化能力により、インテリジェントエージェントは自身の動作プロセスを継続的に最適化することができ、将来のインテリジェントな人間とコンピュータの相互作用のための新たな基盤を築くことができます。

将来的には、GUI エージェントの進化が LLM エージェントの開発の重要な方向性の 1 つになるでしょう。 LLM の推論機能が継続的に改善されれば、インテリジェントエージェントはより複雑なアプリケーションシナリオにさらに拡張できると考えています。

<<: 知恵くんの“いいとこ”が明らかに！初のユニバーサルな具現化ベースモデル、ロボットは「理解はできるができない」状態に別れを告げる

>>: Google は再び Chrome の販売を要請されました。 AI投資とAndroidシステムが一時的に保存されます！ネットユーザー：これでEdgeが勝者になるだけだ！ Google: 断固として訴えます!