DeepSeek の最適な使い方とは?ウェストレイク大学が自律的に進化できるモバイルインテリジェントエージェント「AppAgentX」をリリース

DeepSeek の最適な使い方とは?ウェストレイク大学が自律的に進化できるモバイルインテリジェントエージェント「AppAgentX」をリリース

1. 背景

近年、大規模言語モデル (LLM) の急速な発展により、人工知能は新たな高みに到達しています。 DeepSeek-R1 のようなモデルは、強力な理解および生成機能により、対話生成、コード作成、知識質問応答などのタスクで優れたパフォーマンスを発揮します。現在、LLM の適用範囲はさらに拡大しており、人間のようにマウスとキーボードを介してコンピューターや携帯電話と直接対話できる LLM ベースの GUI エージェントという新しいタイプのインテリジェント エージェントが生まれています。

このタイプのインテリジェント エージェントは、事前定義されたルールとスクリプトに基づいてタスクを実行する従来の RPA (ロボティック プロセス オートメーション) 方式に依存せず、自然言語を通じてユーザーの指示を理解し、自律的に操作を完了することができます。たとえば、開発者が面倒な自動化スクリプトを手動で記述しなくても、アプリケーションを開いたり、ドキュメントを編集したり、Web を閲覧したり、さらにはソフトウェア間で複雑なタスクを実行したりできます。 RPA と比較すると、このタイプのインテリジェント エージェントの利点は、柔軟性と一般化能力、およびさまざまなタスク シナリオに適応する能力にあります。

この傾向により、AI アシスタントに対する人々の想像が徐々に現実のものになりつつあります。 SF 映画のジャービスは自然言語を理解し、コンピューターを自律的に操作することができ、今日の LLM エージェントもこの方向に進んでいます。企業ではデジタルワーカーの導入も進んでおり、データ入力、レポート作成、メール返信などの反復的な作業を自動的にこなせるため、生産性が向上します。さらに、インテリジェント エージェントは、自動ソフトウェア テスト、リモート コントロール、スマート オフィス アシスタントなどのシナリオでも使用され、言語コマンドを使用してコンピューターや企業の IT システム全体を自然に制御できるようになります。

しかし、現在の LLM エージェントは、実際のアプリケーションでは依然として効率性の問題を抱えています。既存の方法は、各操作を実行する前にモデルが次に何をするかを「考える」という段階的な推論に依存しています。たとえば、単純な検索タスクを実行する場合、エージェントは「検索ボックスをクリックする」→「キーワードを入力する」→「検索ボタンをクリックする」という手順を個別に推論する必要があります。単純な手順であっても、追加のコンピューティング リソースが必要になります。このモデルは汎用性を向上させますが、多数の反復タスクを処理する場合、従来の RPA に比べて効率がはるかに低くなります。

したがって、重要な質問は、推論能力を保持し、新しいタスクに対応できるほど柔軟でありながら、RPA と同じくらい効率的に一般的なタスクを実行できるインテリジェント エージェントを持つことは可能かどうかです。

この問題を解決するために、ウェストレイク大学の AGI 研究所は、進化可能な GUI エージェント フレームワークである AppAgent X を提案しました。これは、LLM 駆動型エージェントが自身の操作経験から学習し、より効率的な動作パターンを継続的に進化させることを可能にする GUI エージェントの先駆的な取り組みである AppAgent の最新バージョンです。簡単に言えば、AppAgent X により、インテリジェント エージェントはタスク実行中に反復的な操作パターンを識別し、一連の低レベルの操作を高レベルの「ワンクリック」操作に自動的に要約できるようになります。たとえば、エージェントは「検索」というタスク パターンを学習し、特定の手順を毎回考える必要なく、それを高レベルの操作に自動的に抽象化できます。つまり、エージェントは使用されるにつれて、より効率的かつスマートになります。

  • 論文タイトル: AppAgentX: 熟練したスマートフォンユーザーとして進化する GUI エージェント
  • プロジェクトアドレス: https://appagentx.github.io/
  • Githubアドレス: https://github.com/Westlake-AGI-Lab/AppAgentX
  • Arxivアドレス: https://arxiv.org/abs/2503.02268

論文の第一著者はウェストレイク大学の研究者である江文佳氏であり、指導教員はウェストレイク大学AGI研究所所長の張志助教授である。この研究所の研究は、生成型人工知能とマルチモーダル機械学習に重点を置いています。

AppAgent Xの機能図

2. AppAgentのソリューション

大規模言語モデルが画面と対話する場合、AppAgent などの主流の作業では、クリック、スライド、入力など、人間をシミュレートする一連のアクションを定義します。これらのアクションを組み合わせることで、スマートフォン インターフェイスでの一般的な人間の操作をシミュレートする、アプリケーションに依存しない基本的なアクション スペースが定義されます。

タスクが完了するまで、画面認識とアクション実行の継続的なサイクル。

3. 課題: インテリジェンスと効率性のバランス

大規模なモデル駆動型 GUI エージェントでは、インテリジェントな意思決定と実行効率の間で適切なバランスをとる方法が重要な問題となります。既存の方法では、大規模モデルの強力な推論機能を使用してインターフェースを理解し、クリック、入力、スライドなどのインタラクティブな操作を段階的に計画できますが、この段階的な推論アプローチでは、計算コストが高くなり、実行が遅れることがよくあります。たとえば、単純な検索タスクを完了する場合、エージェントは「検索ボックスをクリックして、キーワードを入力して、検索ボタンをクリックする」という 3 つの手順を 1 つずつ推論する必要があります。この方法では、決定の正確性は保証されますが、実行速度が犠牲になります。

対照的に、従来のロボットプロセス自動化 (RPA) ツールは柔軟性に欠けるものの、固定されたスクリプトベースの実行戦略により、事前定義されたタスクで非常に高い実行効率を実現できます。両者を比較すると、大規模モデルインテリジェントエージェントの利点は、その強力な適応性と、複雑または未知のインターフェースで最適なインタラクション方法を推測する能力にあり、一方、RPAの利点は、その高速な実行速度と、固定されたタスクを効率的に完了する能力にあります。大規模モデルインテリジェントエージェントの知能と実行効率の最適な組み合わせをどのように見つけるかが、この技術の実装を促進する上で重要な課題となっています。

4. 進化メカニズムによるAppAgentX

AppAgentX は、エージェントが人間のようにインターフェースを自律的に探索して理解できるだけでなく、エージェント自身の過去のインタラクション パターンを学習することで実行プロセスを徐々に最適化し、インテリジェンスと効率の最適な組み合わせを実現できる、進化可能な GUI エージェント フレームワークを提案します。

チェーンストレージメカニズムと動的マッチング実行メカニズムを導入することで、インテリジェントエージェントは自身の操作軌跡を効率的に記憶、要約、最適化することができ、それによって後続のタスクで効率的な実行戦略を再利用し、繰り返しの推論を減らし、全体的なタスク完了速度を向上させることができます。

4.1 チェーンベースのストレージメカニズム

研究者らは、エージェントが各タスク実行中の完全な対話プロセスを記録するためのチェーン知識保存メカニズムを設計しました。具体的には、エージェントの各アクションは「チェーン」を形成するように保存され、これには次のものが含まれます。

  • ページ ノード: エージェントがさまざまなインターフェースの機能を思い出せるように、インターフェースの詳細な説明とインタラクティブ コンポーネントを記録します。
  • 要素ノード: インターフェース上のボタンや入力ボックスなどのインタラクティブな要素については、その視覚的な特徴と履歴的な操作方法を保存します。
  • ショートカット ノード: エージェントが既存の成功体験を再利用できるように、過去の操作手順を要約します。

これを基に、研究者らはビッグモデルを使用して、過去の操作パスからタスクロジックを抽出し、ページとインタラクティブ要素の機能説明を自動的に要約しました。たとえば、エージェントは「検索ボックス + 確認ボタン」というパターンを要約し、高レベルのセマンティック ユニットとして記録できます。このように、将来同様のインターフェースに遭遇したときに、エージェントは最初から推論する必要はなく、学習した効率的なソリューションを直接呼び出すことができます。

4.2 動的マッチング実行メカニズム

AppAgentX は、保存されたインタラクティブ チェーンに基づいて、進化メカニズムを通じて効率的な実行方法を自動的に抽出できます。エージェントは、特定の操作モードの実行順序が固定されていることを認識すると(たとえば、検索ボックスをクリック→コンテンツを入力→検索を送信)、ショートカット ノードを動的に作成して、複数の低レベルの操作を 1 つの高レベルのアクションに統合し、不要な推論と実行時間を削減します。

後続のタスクでは、インテリジェント ボディは、現在のインターフェイスと既存のチェーン ストレージ レコードの一致を優先し、高レベルの操作ノードを直接呼び出すことができるかどうかを判断します。一致が成功した場合、エージェントはすべての低レベルの操作を段階的に推論する必要はなく、最適化されたショートカット パスを直接実行して、タスク実行の効率を向上させることができます。さらに、一致しないタスクの場合でも、エージェントは基本アクション空間に基づいて動的推論を実行し、知性と柔軟性が影響を受けないようにすることができます。

このメカニズムの利点は、エージェントの推論能力と実行効率を動的に調整できることです。

  • 複雑なタスクの場合でも、エージェントは大規模モデルの推論能力に依存して実行パスを徐々に探索することができます。
  • 反復的なタスクの場合、エージェントは履歴に基づいて最適化されたショートカット操作を効率的に呼び出して、実行速度を向上させることができます。
  • 適応進化により、インテリジェントエージェントは自身の決定を継続的に最適化できるため、長期的にはますます効率的になります。

5. 結論と展望

大規模言語モデル (LLM) の急速な発展により、インテリジェント エージェントは単純なテキスト対話から、オペレーティング システムや GUI インターフェイスを直接操作できる自律エージェントへと徐々に進化しています。しかし、既存の方法では効率性と実行インテリジェンスの間でトレードオフが発生し、反復的なタスクに直面したときに LLM エージェントが非効率になります。 AppAgent X は、エージェントが自身のタスク実行経験から学習し、徐々により効率的な運用戦略を形成できるようにする、進化可能な GUI エージェント フレームワークを提案します。このアプローチにより、AppAgent X は LLM エージェントの柔軟性と RPA エージェントの実行効率を組み合わせ、バックエンドにアクセスすることなく効率的でインテリジェントな GUI 操作を実現します。

実験では、AppAgent X は複数の GUI インタラクション タスクで大幅な効率向上を示し、既存の SOTA 方式よりも優れたパフォーマンスを発揮しました。その進化能力により、インテリジェントエージェントは自身の動作プロセスを継続的に最適化することができ、将来のインテリジェントな人間とコンピュータの相互作用のための新たな基盤を築くことができます。

将来的には、GUI エージェントの進化が LLM エージェントの開発の重要な方向性の 1 つになるでしょう。 LLM の推論機能が継続的に改善されれば、インテリジェント エージェントはより複雑なアプリケーション シナリオにさらに拡張できると考えています。

<<:  知恵くんの“いいとこ”が明らかに!初のユニバーサルな具現化ベースモデル、ロボットは「理解はできるができない」状態に別れを告げる

>>:  Google は再び Chrome の販売を要請されました。 AI投資とAndroidシステムが一時的に保存されます!ネットユーザー:これでEdgeが勝者になるだけだ! Google: 断固として訴えます!

ブログ    
ブログ    

推薦する

Microsoft AI が IMO コンテストに参加します!小さな目標:数学の金メダル

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

この記事では、さまざまな教師なしクラスタリングアルゴリズムのPython実装について簡単に説明します。

教師なし学習は、データ内のパターンを見つけるために使用される機械学習技術の一種です。教師なし学習アル...

AIが無人車両群を指揮、中国が世界最大の3Dプリント建物を建設

サウスチャイナ・モーニング・ポストとインサイダー誌が報じたところによると、中国はチベット高原のダム建...

私のディープラーニング開発環境: TensorFlow + Docker + PyCharm など。あなたの環境はどうですか?

著者: キリアンマシンハートが編集参加者: ヌルハチュ・ヌル、リー・ヤージョウこの記事では、研究者の...

1 分以内に GPT アプリケーションを開発しましょう!さまざまな専門家が懸命に取り組んでおり、ネットユーザーは「ChatGPTは新しいiPhoneだ」と言っている

GPT はまだ正式にリリースされていませんが、誰かがすでに「先走って」いるのでしょうか? !ほら、社...

同意しますか?コンピューティングの未来は分散化です!

[51CTO.com クイック翻訳] 分散アプリケーションは何も新しいものではありません。最初の分...

...

...

...

...

データサイエンス技術の未来

[[361283]]画像ソース: https://pixabay.com/images/id-477...

Appleはすでに社内でAppleGPTを使用していると報じられている

7月24日、Appleは社内で従業員の業務を支援するためにチャットボットを使用しており、将来的には顧...

史上最も完全な自動運転ポジションの紹介

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

ますます大きく、さらに大きく:AI 研究は長期的には行き詰まりに陥るのでしょうか?

[[286629]]ビッグデータダイジェスト制作出典: techtalks編纂者:穆金、曹培鑫、銭...

一枚の写真で「踊り続ける」ことができ、SHERFは人間の神経放射場を駆動できる新しい方法を一般化することができます

人体神経放射線分野の目標は、2D 人体画像から高品質の 3D デジタル人間を復元して駆動し、それによ...