WindowsとOfficeは使いやすく、大型モデルのインテリジェントエージェントはコンピュータを操作するのにとてもクールです

WindowsとOfficeは使いやすく、大型モデルのインテリジェントエージェントはコンピュータを操作するのにとてもクールです

AI アシスタントの将来について語るとき、アイアンマン シリーズに登場する魅力的な AI アシスタント、ジャービスを思い浮かべずにはいられません。ジャービスはトニー・スタークの右腕であるだけでなく、高度な技術を備えた彼の通信手でもあります。今日、大型模型の出現により、人間の道具の使い方は一変し、私たちはそのようなSFのシーンに一歩近づいているのかもしれません。マルチモーダルエージェントが人間のようにキーボードとマウスを使って周囲のコンピューターを直接制御できたら、どんなに画期的な進歩になるか想像してみてください。

AIアシスタント ジャービス

最近、吉林大学人工知能学院は「ScreenAgent:視覚言語モデル駆動型コンピュータ制御エージェント」と題する新しい研究を発表しました。これは、大規模な視覚言語モデルを使用してコンピュータのGUIを直接制御し、この想像を現実にマッピングします。この研究では、ScreenAgent モデルを提案しました。このモデルは、補助的な位置決めタグを必要とせずに VLM Agent を使用してコンピューターのマウスとキーボードを直接制御することを初めて検討し、大規模なモデルでコンピューターを直接操作するという目標を達成しました。さらに、ScreenAgent は、「計画、実行、反映」の自動化プロセスを通じて、初めて GUI インターフェイスの継続的な制御を実現します。この研究は、人間とコンピュータのインタラクションの探求と革新であり、同時に、正確な位置情報を持つデータセット、コントローラー、トレーニングコードなども公開します。

  • 論文アドレス: https://arxiv.org/abs/2402.07945
  • プロジェクトアドレス: https://github.com/niuzaisheng/ScreenAgent

ScreenAgent は、ユーザーがオンライン エンターテイメント アクティビティ、ショッピング、旅行、読書などを簡単に実現できるように支援します。また、あなたのことを最もよく理解し、ユーザーが自分のパソコンを管理するのを手伝ってくれる、最も思いやりのある執事にもなります。ユーザーは何もしなくてもすぐに作業できるようになり、最も効果的なオフィス アシスタントになります。では早速、結果を見てみましょう。

インターネットサーフィンとエンターテイメントの自由を実現しましょう

ScreenAgent は、ユーザーのテキスト説明に基づいて、インターネット上で指定されたビデオを検索し、再生します。

ユーザーに高度なスキルを身につけさせるシステム運用管理者

ScreenAgent で Windows イベント ビューアーを開くには:

オフィススキルをマスターし、簡単にオフィスをマスターする

さらに、ScreenAgent ではオフィス ソフトウェアも使用できます。たとえば、ユーザーのテキストの説明に従って、開いている PPT の 2 ページ目を削除します。

行動を起こす前に慎重に計画を立て、何かを得る前にいつ止めるべきかを知っておく

タスクを完了するには、タスクを実行する前に計画アクティビティを実行する必要があります。 ScreenAgent は、開始前に観察された画像とユーザーのニーズに基づいてタスクを計画できます。たとえば、次のようになります。

ビデオの再生速度を 1.5 倍に調整します。

58.com で中古マゴタン車の価格を検索:

コマンドラインで xeyes をインストールします。

視覚的な位置決め能力の伝達、圧力をかけずにマウスで選択

ScreenAgent は、自然物体を視覚的に見つける機能も保持しており、マウスをドラッグしてオブジェクトの選択ボックスを描画できます。

方法

実際、エージェントにユーザーのグラフィカル インターフェイスと直接対話するように教えるのは簡単な作業ではありません。エージェントには、タスク計画、画像の理解、視覚的な位置決め、ツールの使用など、複数の包括的な機能が必要です。既存のモデルやインタラクション ソリューションには、いずれも一定の妥協点があります。たとえば、LLaVA-1.5 などのモデルには、大きなサイズの画像を視覚的に正確に見つける機能がありません。GPT-4V は、タスク プランニング、画像理解、OCR 機能が非常に優れていますが、正確な座標を提供することができません。既存のソリューションでは、画像に追加のデジタルラベルを手動で注釈付けし、Mobile-Agent、UFO、その他のアイテムなど、クリックする必要がある UI 要素をモデルに選択させる必要があります。また、CogAgent や Fuyu-8B などのモデルは高解像度の画像入力をサポートし、正確な視覚的位置決め機能を備えていますが、CogAgent には完全な関数呼び出し機能がなく、Fuyu-8B には言語機能がありません。

上記の問題を解決するために、本論文では、ビジュアル言語モデルエージェント (VLM エージェント) が実際のコンピュータ画面と対話するための新しい環境を構築することを提案します。この環境では、エージェントはスクリーンショットを観察し、マウスやキーボードの操作を出力することでグラフィカル ユーザー インターフェイスを操作できます。 VLM エージェントがコンピュータ画面と継続的に対話できるようにするために、この記事では「計画-実行-反映」を含む操作プロセスを構築します。計画フェーズでは、エージェントはユーザー タスクをサブタスクに分解する必要があります。実行フェーズでは、エージェントはスクリーンショットを観察し、サブタスクを実行するための特定のマウスとキーボードのアクションを提供します。コントローラーはこれらのアクションを実行し、実行結果をエージェントにフィードバックします。リフレクション フェーズでは、エージェントは実行結果を観察し、現在のステータスを決定して、実行の継続、再試行、またはプランの調整を選択します。このプロセスはタスクが完了するまで続きます。 ScreenAgent はテキスト認識モジュールやアイコン認識モジュールを使用する必要がなく、エンドツーエンドのアプローチを使用してモデルのすべての機能をトレーニングすることに注意してください。

ScreenAgent 環境は、最も基本的なマウスとキーボードの操作を含むエージェントのアクション スペースを設計するための VNC リモート デスクトップ接続プロトコルを参照します。マウス クリック操作では、エージェントが正確な画面座標位置を提供する必要があります。タスクを完了するために特定の API を呼び出す方法と比較して、この方法はより汎用性が高く、Windows や Linux デスクトップなどのさまざまなデスクトップ オペレーティング システムやアプリケーションに適用できます。

ScreenAgent データセット

ScreenAgent モデルをトレーニングするために、この記事では ScreenAgent データセットに正確な視覚的位置情報を手動で注釈付けしました。このデータセットは、Windows および Linux デスクトップ環境でのファイル操作、Web 閲覧、ゲーム、エンターテイメントなど、日常的なコンピューター タスクを幅広くカバーしています。

データセット内の各サンプルは、アクションの説明、スクリーンショット、実行された特定のアクションなど、タスクを完了するための完全なプロセスです。たとえば、Amazon の Web サイトで「最も安いチョコレートをショッピング カートに追加する」という場合、まず検索ボックスでキーワードを検索し、次にフィルターを使用して価格を並べ替え、最後に最も安い商品をショッピング カートに追加する必要があります。データセット全体には 273 個の完全なタスク レコードが含まれています。

実験結果

実験分析の部分では、著者らは、主にコマンド追従能力と細分化された動作予測の精度という 2 つのレベルを含むさまざまな角度から、ScreenAgent といくつかの既存の VLM モデルを比較しました。コマンドフォロー機能は、主にモデルがアクションシーケンスを JSON 形式で正しく出力できるかどうかと、アクションタイプの正確さをテストします。アクション属性予測の精度は、マウスクリックの位置やキーボードのキーなど、各アクションの属性値が正しく予測されているかどうかを比較します。

従うべき指示

コマンドの追跡に関して言えば、エージェントの主なタスクは、プロンプトワードに従って正しいツール関数呼び出しを出力できること、つまり正しい JSON 形式を出力できることです。この点では、ScreenAgent と GPT-4V はどちらも指示に非常によく従うことができますが、オリジナルの CogAgent は、視覚的な微調整トレーニング中に API 呼び出しの形でのデータサポートが不足しているため、JSON を出力する機能を失っています。

行動属性予測の精度

アクション属性の精度に関しても、ScreenAgent は GPT-4V に匹敵するレベルに達しています。特に、ScreenAgent はマウス クリックの精度に関して既存のモデルをはるかに上回っています。これは、視覚的な微調整により、モデルの正確な位置特定機能が効果的に強化されることを示しています。さらに、ScreenAgent は GPT-4V と比較してタスク計画に大きなギャップがあることも確認されており、これは GPT-4V の常識的な知識とタスク計画能力を浮き彫りにしています。

結論は

吉林大学人工知能学院のチームが提案した ScreenAgent は、人間と同じようにコンピューターを制御でき、他の API や OCR モデルに依存せず、さまざまなソフトウェアやオペレーティング システムで幅広く使用できます。 ScreenAgent は、「計画、実行、反映」プロセスの制御下で、ユーザーから与えられたタスクを自律的に完了できます。このようにして、ユーザーはタスク完了のすべてのステップを確認し、エージェントの動作とアイデアをよりよく理解できます。

この記事では、制御ソフトウェア、モデルトレーニングコード、およびデータセットをオープンソース化します。これを基に、環境フィードバック下での強化学習、エージェントによるオープンワールドの能動的な探索、世界モデルの構築、エージェントのスキルライブラリなど、汎用人工知能に向けたより最先端の取り組みを探求することができます。

さらに、AIエージェント駆動型パーソナルアシスタントは、身体に障害のある人のコンピューター使用を支援したり、人間による反復的なデジタル労働を軽減したり、コンピューター教育を普及させたりするなど、大きな社会的価値を持っています。将来、誰もがアイアンマンのようなスーパーヒーローになれるわけではないかもしれませんが、私たち一人ひとりに、私たちに付き添い、助け、導いてくれるインテリジェントなパートナー、専用のジャービスが与えられ、私たちの生活や仕事にさらなる利便性と可能性をもたらしてくれるかもしれません。

<<:  2024年にIT業界は成長を遂げる:AIとサイバーセキュリティが最大のホットスポット

>>:  RNN モデルが Transformer の覇権に挑戦!ミストラル7Bに匹敵する1%のコストパフォーマンス、世界最多の100以上の言語をサポート

ブログ    
ブログ    
ブログ    

推薦する

...

AIが新たな成長エンジンに。アマゾン ウェブ サービスの技術的手法に耳を傾けてみよう

AI は数年前にテクノロジーの世界で人気を博しましたが、今では何千もの業界で革新と徹底的な応用が行わ...

駐車技術の進化: 人工知能が駐車場の未来をどう形作るか

近年、インドは深刻な駐車スペース不足という差し迫った問題に直面している。自動車の数が日々増加している...

...

人工知能と機械学習がもたらす劇的な変化を示す6つの事例

[[219896]]現在、人工知能 (AI) と機械学習 (ML) ほど注目されているテクノロジーは...

エッジインテリジェンス: リアルタイムのデータ処理とインテリジェントな意思決定を実現する新世代のテクノロジー

ラボガイドエッジインテリジェンスは、人工知能 (AI) とエッジコンピューティングを組み合わせた新し...

人工知能によって人々の仕事が失われることは確実だが、仕事がなくなることはないと言われているのはなぜでしょうか。

1956年に人工知能の概念が提案されて以来、人工知能と労働市場の関係については議論されてきました。...

中国科学院自動化研究所は、科学サブジャーナル「自己組織化バックプロパゲーションがネットワーク学習効率を向上」を出版した。

[[430306]]人工知能の分野では、現在人工ニューラルネットワークで広く使用されているバックプ...

ChatGPTを使用してPythonクローラースクリプトを自動的に作成する

人工知能チャットボット「ChatGPT」は最近非常に人気が高まっており、あらゆるメディアでそのニュー...

世界はとても広い。AIがあなたと一緒に世界を旅します

[オリジナル記事は51CTO.comより] 私の周りには、「世界は広いから、外に出て旅をしたい」と言...

...

...

...

言語間、人間の声と犬の鳴き声の相互変換をサポートし、最も近いものだけを使用するシンプルな音声変換モデルはどれほど素晴らしいか

AIが関わる音声の世界はまさに魔法のようです。ある人の声を別の人の声に置き換えるだけでなく、動物と声...

顔認識は簡単すぎる、AIは指の動きも認識できる、これは非常に恐ろしい

現代のコンピューター ビジョン テクノロジーは、これまで映画でしか見たことのないようなテクノロジーの...