WindowsとOfficeは使いやすく、大型モデルのインテリジェントエージェントはコンピュータを操作するのにとてもクールです

AI アシスタントの将来について語るとき、アイアンマンシリーズに登場する魅力的な AI アシスタント、ジャービスを思い浮かべずにはいられません。ジャービスはトニー・スタークの右腕であるだけでなく、高度な技術を備えた彼の通信手でもあります。今日、大型模型の出現により、人間の道具の使い方は一変し、私たちはそのようなSFのシーンに一歩近づいているのかもしれません。マルチモーダルエージェントが人間のようにキーボードとマウスを使って周囲のコンピューターを直接制御できたら、どんなに画期的な進歩になるか想像してみてください。

AIアシスタントジャービス

最近、吉林大学人工知能学院は「ScreenAgent：視覚言語モデル駆動型コンピュータ制御エージェント」と題する新しい研究を発表しました。これは、大規模な視覚言語モデルを使用してコンピュータのGUIを直接制御し、この想像を現実にマッピングします。この研究では、ScreenAgent モデルを提案しました。このモデルは、補助的な位置決めタグを必要とせずに VLM Agent を使用してコンピューターのマウスとキーボードを直接制御することを初めて検討し、大規模なモデルでコンピューターを直接操作するという目標を達成しました。さらに、ScreenAgent は、「計画、実行、反映」の自動化プロセスを通じて、初めて GUI インターフェイスの継続的な制御を実現します。この研究は、人間とコンピュータのインタラクションの探求と革新であり、同時に、正確な位置情報を持つデータセット、コントローラー、トレーニングコードなども公開します。

論文アドレス: https://arxiv.org/abs/2402.07945
プロジェクトアドレス: https://github.com/niuzaisheng/ScreenAgent

ScreenAgent は、ユーザーがオンラインエンターテイメントアクティビティ、ショッピング、旅行、読書などを簡単に実現できるように支援します。また、あなたのことを最もよく理解し、ユーザーが自分のパソコンを管理するのを手伝ってくれる、最も思いやりのある執事にもなります。ユーザーは何もしなくてもすぐに作業できるようになり、最も効果的なオフィスアシスタントになります。では早速、結果を見てみましょう。

インターネットサーフィンとエンターテイメントの自由を実現しましょう

ScreenAgent は、ユーザーのテキスト説明に基づいて、インターネット上で指定されたビデオを検索し、再生します。

ユーザーに高度なスキルを身につけさせるシステム運用管理者

ScreenAgent で Windows イベントビューアーを開くには:

オフィススキルをマスターし、簡単にオフィスをマスターする

さらに、ScreenAgent ではオフィスソフトウェアも使用できます。たとえば、ユーザーのテキストの説明に従って、開いている PPT の 2 ページ目を削除します。

行動を起こす前に慎重に計画を立て、何かを得る前にいつ止めるべきかを知っておく

タスクを完了するには、タスクを実行する前に計画アクティビティを実行する必要があります。 ScreenAgent は、開始前に観察された画像とユーザーのニーズに基づいてタスクを計画できます。たとえば、次のようになります。

ビデオの再生速度を 1.5 倍に調整します。

58.com で中古マゴタン車の価格を検索:

コマンドラインで xeyes をインストールします。

視覚的な位置決め能力の伝達、圧力をかけずにマウスで選択

ScreenAgent は、自然物体を視覚的に見つける機能も保持しており、マウスをドラッグしてオブジェクトの選択ボックスを描画できます。

方法

実際、エージェントにユーザーのグラフィカルインターフェイスと直接対話するように教えるのは簡単な作業ではありません。エージェントには、タスク計画、画像の理解、視覚的な位置決め、ツールの使用など、複数の包括的な機能が必要です。既存のモデルやインタラクションソリューションには、いずれも一定の妥協点があります。たとえば、LLaVA-1.5 などのモデルには、大きなサイズの画像を視覚的に正確に見つける機能がありません。GPT-4V は、タスクプランニング、画像理解、OCR 機能が非常に優れていますが、正確な座標を提供することができません。既存のソリューションでは、画像に追加のデジタルラベルを手動で注釈付けし、Mobile-Agent、UFO、その他のアイテムなど、クリックする必要がある UI 要素をモデルに選択させる必要があります。また、CogAgent や Fuyu-8B などのモデルは高解像度の画像入力をサポートし、正確な視覚的位置決め機能を備えていますが、CogAgent には完全な関数呼び出し機能がなく、Fuyu-8B には言語機能がありません。

上記の問題を解決するために、本論文では、ビジュアル言語モデルエージェント (VLM エージェント) が実際のコンピュータ画面と対話するための新しい環境を構築することを提案します。この環境では、エージェントはスクリーンショットを観察し、マウスやキーボードの操作を出力することでグラフィカルユーザーインターフェイスを操作できます。 VLM エージェントがコンピュータ画面と継続的に対話できるようにするために、この記事では「計画-実行-反映」を含む操作プロセスを構築します。計画フェーズでは、エージェントはユーザータスクをサブタスクに分解する必要があります。実行フェーズでは、エージェントはスクリーンショットを観察し、サブタスクを実行するための特定のマウスとキーボードのアクションを提供します。コントローラーはこれらのアクションを実行し、実行結果をエージェントにフィードバックします。リフレクションフェーズでは、エージェントは実行結果を観察し、現在のステータスを決定して、実行の継続、再試行、またはプランの調整を選択します。このプロセスはタスクが完了するまで続きます。 ScreenAgent はテキスト認識モジュールやアイコン認識モジュールを使用する必要がなく、エンドツーエンドのアプローチを使用してモデルのすべての機能をトレーニングすることに注意してください。

ScreenAgent 環境は、最も基本的なマウスとキーボードの操作を含むエージェントのアクションスペースを設計するための VNC リモートデスクトップ接続プロトコルを参照します。マウスクリック操作では、エージェントが正確な画面座標位置を提供する必要があります。タスクを完了するために特定の API を呼び出す方法と比較して、この方法はより汎用性が高く、Windows や Linux デスクトップなどのさまざまなデスクトップオペレーティングシステムやアプリケーションに適用できます。

ScreenAgent データセット

ScreenAgent モデルをトレーニングするために、この記事では ScreenAgent データセットに正確な視覚的位置情報を手動で注釈付けしました。このデータセットは、Windows および Linux デスクトップ環境でのファイル操作、Web 閲覧、ゲーム、エンターテイメントなど、日常的なコンピュータータスクを幅広くカバーしています。

データセット内の各サンプルは、アクションの説明、スクリーンショット、実行された特定のアクションなど、タスクを完了するための完全なプロセスです。たとえば、Amazon の Web サイトで「最も安いチョコレートをショッピングカートに追加する」という場合、まず検索ボックスでキーワードを検索し、次にフィルターを使用して価格を並べ替え、最後に最も安い商品をショッピングカートに追加する必要があります。データセット全体には 273 個の完全なタスクレコードが含まれています。

実験結果

実験分析の部分では、著者らは、主にコマンド追従能力と細分化された動作予測の精度という 2 つのレベルを含むさまざまな角度から、ScreenAgent といくつかの既存の VLM モデルを比較しました。コマンドフォロー機能は、主にモデルがアクションシーケンスを JSON 形式で正しく出力できるかどうかと、アクションタイプの正確さをテストします。アクション属性予測の精度は、マウスクリックの位置やキーボードのキーなど、各アクションの属性値が正しく予測されているかどうかを比較します。

従うべき指示

コマンドの追跡に関して言えば、エージェントの主なタスクは、プロンプトワードに従って正しいツール関数呼び出しを出力できること、つまり正しい JSON 形式を出力できることです。この点では、ScreenAgent と GPT-4V はどちらも指示に非常によく従うことができますが、オリジナルの CogAgent は、視覚的な微調整トレーニング中に API 呼び出しの形でのデータサポートが不足しているため、JSON を出力する機能を失っています。

行動属性予測の精度

アクション属性の精度に関しても、ScreenAgent は GPT-4V に匹敵するレベルに達しています。特に、ScreenAgent はマウスクリックの精度に関して既存のモデルをはるかに上回っています。これは、視覚的な微調整により、モデルの正確な位置特定機能が効果的に強化されることを示しています。さらに、ScreenAgent は GPT-4V と比較してタスク計画に大きなギャップがあることも確認されており、これは GPT-4V の常識的な知識とタスク計画能力を浮き彫りにしています。

結論は

吉林大学人工知能学院のチームが提案した ScreenAgent は、人間と同じようにコンピューターを制御でき、他の API や OCR モデルに依存せず、さまざまなソフトウェアやオペレーティングシステムで幅広く使用できます。 ScreenAgent は、「計画、実行、反映」プロセスの制御下で、ユーザーから与えられたタスクを自律的に完了できます。このようにして、ユーザーはタスク完了のすべてのステップを確認し、エージェントの動作とアイデアをよりよく理解できます。

この記事では、制御ソフトウェア、モデルトレーニングコード、およびデータセットをオープンソース化します。これを基に、環境フィードバック下での強化学習、エージェントによるオープンワールドの能動的な探索、世界モデルの構築、エージェントのスキルライブラリなど、汎用人工知能に向けたより最先端の取り組みを探求することができます。

さらに、AIエージェント駆動型パーソナルアシスタントは、身体に障害のある人のコンピューター使用を支援したり、人間による反復的なデジタル労働を軽減したり、コンピューター教育を普及させたりするなど、大きな社会的価値を持っています。将来、誰もがアイアンマンのようなスーパーヒーローになれるわけではないかもしれませんが、私たち一人ひとりに、私たちに付き添い、助け、導いてくれるインテリジェントなパートナー、専用のジャービスが与えられ、私たちの生活や仕事にさらなる利便性と可能性をもたらしてくれるかもしれません。

<<: 2024年にIT業界は成長を遂げる：AIとサイバーセキュリティが最大のホットスポット

>>: RNN モデルが Transformer の覇権に挑戦!ミストラル7Bに匹敵する1％のコストパフォーマンス、世界最多の100以上の言語をサポート