WindowsとOfficeは使いやすく、大型モデルのインテリジェントエージェントはコンピュータを操作するのにとてもクールです

WindowsとOfficeは使いやすく、大型モデルのインテリジェントエージェントはコンピュータを操作するのにとてもクールです

AI アシスタントの将来について語るとき、アイアンマン シリーズに登場する魅力的な AI アシスタント、ジャービスを思い浮かべずにはいられません。ジャービスはトニー・スタークの右腕であるだけでなく、高度な技術を備えた彼の通信手でもあります。今日、大型模型の出現により、人間の道具の使い方は一変し、私たちはそのようなSFのシーンに一歩近づいているのかもしれません。マルチモーダルエージェントが人間のようにキーボードとマウスを使って周囲のコンピューターを直接制御できたら、どんなに画期的な進歩になるか想像してみてください。

AIアシスタント ジャービス

最近、吉林大学人工知能学院は「ScreenAgent:視覚言語モデル駆動型コンピュータ制御エージェント」と題する新しい研究を発表しました。これは、大規模な視覚言語モデルを使用してコンピュータのGUIを直接制御し、この想像を現実にマッピングします。この研究では、ScreenAgent モデルを提案しました。このモデルは、補助的な位置決めタグを必要とせずに VLM Agent を使用してコンピューターのマウスとキーボードを直接制御することを初めて検討し、大規模なモデルでコンピューターを直接操作するという目標を達成しました。さらに、ScreenAgent は、「計画、実行、反映」の自動化プロセスを通じて、初めて GUI インターフェイスの継続的な制御を実現します。この研究は、人間とコンピュータのインタラクションの探求と革新であり、同時に、正確な位置情報を持つデータセット、コントローラー、トレーニングコードなども公開します。

  • 論文アドレス: https://arxiv.org/abs/2402.07945
  • プロジェクトアドレス: https://github.com/niuzaisheng/ScreenAgent

ScreenAgent は、ユーザーがオンライン エンターテイメント アクティビティ、ショッピング、旅行、読書などを簡単に実現できるように支援します。また、あなたのことを最もよく理解し、ユーザーが自分のパソコンを管理するのを手伝ってくれる、最も思いやりのある執事にもなります。ユーザーは何もしなくてもすぐに作業できるようになり、最も効果的なオフィス アシスタントになります。では早速、結果を見てみましょう。

インターネットサーフィンとエンターテイメントの自由を実現しましょう

ScreenAgent は、ユーザーのテキスト説明に基づいて、インターネット上で指定されたビデオを検索し、再生します。

ユーザーに高度なスキルを身につけさせるシステム運用管理者

ScreenAgent で Windows イベント ビューアーを開くには:

オフィススキルをマスターし、簡単にオフィスをマスターする

さらに、ScreenAgent ではオフィス ソフトウェアも使用できます。たとえば、ユーザーのテキストの説明に従って、開いている PPT の 2 ページ目を削除します。

行動を起こす前に慎重に計画を立て、何かを得る前にいつ止めるべきかを知っておく

タスクを完了するには、タスクを実行する前に計画アクティビティを実行する必要があります。 ScreenAgent は、開始前に観察された画像とユーザーのニーズに基づいてタスクを計画できます。たとえば、次のようになります。

ビデオの再生速度を 1.5 倍に調整します。

58.com で中古マゴタン車の価格を検索:

コマンドラインで xeyes をインストールします。

視覚的な位置決め能力の伝達、圧力をかけずにマウスで選択

ScreenAgent は、自然物体を視覚的に見つける機能も保持しており、マウスをドラッグしてオブジェクトの選択ボックスを描画できます。

方法

実際、エージェントにユーザーのグラフィカル インターフェイスと直接対話するように教えるのは簡単な作業ではありません。エージェントには、タスク計画、画像の理解、視覚的な位置決め、ツールの使用など、複数の包括的な機能が必要です。既存のモデルやインタラクション ソリューションには、いずれも一定の妥協点があります。たとえば、LLaVA-1.5 などのモデルには、大きなサイズの画像を視覚的に正確に見つける機能がありません。GPT-4V は、タスク プランニング、画像理解、OCR 機能が非常に優れていますが、正確な座標を提供することができません。既存のソリューションでは、画像に追加のデジタルラベルを手動で注釈付けし、Mobile-Agent、UFO、その他のアイテムなど、クリックする必要がある UI 要素をモデルに選択させる必要があります。また、CogAgent や Fuyu-8B などのモデルは高解像度の画像入力をサポートし、正確な視覚的位置決め機能を備えていますが、CogAgent には完全な関数呼び出し機能がなく、Fuyu-8B には言語機能がありません。

上記の問題を解決するために、本論文では、ビジュアル言語モデルエージェント (VLM エージェント) が実際のコンピュータ画面と対話するための新しい環境を構築することを提案します。この環境では、エージェントはスクリーンショットを観察し、マウスやキーボードの操作を出力することでグラフィカル ユーザー インターフェイスを操作できます。 VLM エージェントがコンピュータ画面と継続的に対話できるようにするために、この記事では「計画-実行-反映」を含む操作プロセスを構築します。計画フェーズでは、エージェントはユーザー タスクをサブタスクに分解する必要があります。実行フェーズでは、エージェントはスクリーンショットを観察し、サブタスクを実行するための特定のマウスとキーボードのアクションを提供します。コントローラーはこれらのアクションを実行し、実行結果をエージェントにフィードバックします。リフレクション フェーズでは、エージェントは実行結果を観察し、現在のステータスを決定して、実行の継続、再試行、またはプランの調整を選択します。このプロセスはタスクが完了するまで続きます。 ScreenAgent はテキスト認識モジュールやアイコン認識モジュールを使用する必要がなく、エンドツーエンドのアプローチを使用してモデルのすべての機能をトレーニングすることに注意してください。

ScreenAgent 環境は、最も基本的なマウスとキーボードの操作を含むエージェントのアクション スペースを設計するための VNC リモート デスクトップ接続プロトコルを参照します。マウス クリック操作では、エージェントが正確な画面座標位置を提供する必要があります。タスクを完了するために特定の API を呼び出す方法と比較して、この方法はより汎用性が高く、Windows や Linux デスクトップなどのさまざまなデスクトップ オペレーティング システムやアプリケーションに適用できます。

ScreenAgent データセット

ScreenAgent モデルをトレーニングするために、この記事では ScreenAgent データセットに正確な視覚的位置情報を手動で注釈付けしました。このデータセットは、Windows および Linux デスクトップ環境でのファイル操作、Web 閲覧、ゲーム、エンターテイメントなど、日常的なコンピューター タスクを幅広くカバーしています。

データセット内の各サンプルは、アクションの説明、スクリーンショット、実行された特定のアクションなど、タスクを完了するための完全なプロセスです。たとえば、Amazon の Web サイトで「最も安いチョコレートをショッピング カートに追加する」という場合、まず検索ボックスでキーワードを検索し、次にフィルターを使用して価格を並べ替え、最後に最も安い商品をショッピング カートに追加する必要があります。データセット全体には 273 個の完全なタスク レコードが含まれています。

実験結果

実験分析の部分では、著者らは、主にコマンド追従能力と細分化された動作予測の精度という 2 つのレベルを含むさまざまな角度から、ScreenAgent といくつかの既存の VLM モデルを比較しました。コマンドフォロー機能は、主にモデルがアクションシーケンスを JSON 形式で正しく出力できるかどうかと、アクションタイプの正確さをテストします。アクション属性予測の精度は、マウスクリックの位置やキーボードのキーなど、各アクションの属性値が正しく予測されているかどうかを比較します。

従うべき指示

コマンドの追跡に関して言えば、エージェントの主なタスクは、プロンプトワードに従って正しいツール関数呼び出しを出力できること、つまり正しい JSON 形式を出力できることです。この点では、ScreenAgent と GPT-4V はどちらも指示に非常によく従うことができますが、オリジナルの CogAgent は、視覚的な微調整トレーニング中に API 呼び出しの形でのデータサポートが不足しているため、JSON を出力する機能を失っています。

行動属性予測の精度

アクション属性の精度に関しても、ScreenAgent は GPT-4V に匹敵するレベルに達しています。特に、ScreenAgent はマウス クリックの精度に関して既存のモデルをはるかに上回っています。これは、視覚的な微調整により、モデルの正確な位置特定機能が効果的に強化されることを示しています。さらに、ScreenAgent は GPT-4V と比較してタスク計画に大きなギャップがあることも確認されており、これは GPT-4V の常識的な知識とタスク計画能力を浮き彫りにしています。

結論は

吉林大学人工知能学院のチームが提案した ScreenAgent は、人間と同じようにコンピューターを制御でき、他の API や OCR モデルに依存せず、さまざまなソフトウェアやオペレーティング システムで幅広く使用できます。 ScreenAgent は、「計画、実行、反映」プロセスの制御下で、ユーザーから与えられたタスクを自律的に完了できます。このようにして、ユーザーはタスク完了のすべてのステップを確認し、エージェントの動作とアイデアをよりよく理解できます。

この記事では、制御ソフトウェア、モデルトレーニングコード、およびデータセットをオープンソース化します。これを基に、環境フィードバック下での強化学習、エージェントによるオープンワールドの能動的な探索、世界モデルの構築、エージェントのスキルライブラリなど、汎用人工知能に向けたより最先端の取り組みを探求することができます。

さらに、AIエージェント駆動型パーソナルアシスタントは、身体に障害のある人のコンピューター使用を支援したり、人間による反復的なデジタル労働を軽減したり、コンピューター教育を普及させたりするなど、大きな社会的価値を持っています。将来、誰もがアイアンマンのようなスーパーヒーローになれるわけではないかもしれませんが、私たち一人ひとりに、私たちに付き添い、助け、導いてくれるインテリジェントなパートナー、専用のジャービスが与えられ、私たちの生活や仕事にさらなる利便性と可能性をもたらしてくれるかもしれません。

<<:  2024年にIT業界は成長を遂げる:AIとサイバーセキュリティが最大のホットスポット

>>:  RNN モデルが Transformer の覇権に挑戦!ミストラル7Bに匹敵する1%のコストパフォーマンス、世界最多の100以上の言語をサポート

ブログ    
ブログ    
ブログ    

推薦する

GPT-4 が人間のデータ専門家を引き継いでいます!事前の知識により、LLMは従来の方法に匹敵する精度で大胆な予測を行うことができます。

データ サイエンスでは、AI 研究者は不完全なデータセットを処理するという課題にしばしば直面します。...

量子コンピューティングと人工知能の関係は何ですか?

量子コンピューティングは、学術誌だけでなく、一般の新聞や雑誌でも頻繁に議論される、非常に人気の高いト...

2021年に人工知能の倫理的問題、社会的価値、影響について読むべき8冊の本

[[387639]]人工知能に関するこれらの 8 冊の本は、AI に関連する倫理的問題、AI が雇用...

...

顔認識技術が明らかに、未来はもうすぐ「手の届くところ」に!

[51CTO.com からのオリジナル記事]昨日の記事「顔認識の威力はどれほどか? AIFR 技術...

ガートナー:AIと自動化は次世代SASEの重要な機能となる

近年、セキュア アクセス サービス エッジ (SASE) テクノロジーは急速に発展し、産業界で広く使...

OpenAI API 高度な関数呼び出し実装プラグイン!

関数呼び出しの紹介関数呼び出しとは何ですか? OpenAI Chat API公式ドキュメント: Ch...

...

企業が人工知能を応用する際に直面する課題

[[340820]] [51CTO.com クイック翻訳] 過去10年間、人工知能をめぐって大きな議...

...

2.5 ~ 4 倍の深さで、より少ないパラメータと計算量で、DeLighT はどうやってそれを実現したのでしょうか?

ディープラーニングはパラメータが多すぎる、モデルが大きすぎる、展開が不便、そしてコンピューティングリ...

スタンフォードNLPコースXCS224Uのビデオが公開されました。実用的な情報が満載です。ぜひ聞いてください。

会話エージェントから検索クエリまで、自然言語理解 (NLP) は今日の最もエキサイティングなテクノロ...

...

...