GPT-4Vはキーボードとマウスを使ってインターネットを閲覧することを学習し、人間は投稿したりゲームをしたりしているのを観察した。

GPT-4Vはキーボードとマウスを使ってインターネットを閲覧することを学習し、人間は投稿したりゲームをしたりしているのを観察した。

ついに、GPT-4V がコンピューターを自動的に操作することを学習する日が来ました。

マウスとキーボードを GPT-4V に接続するだけで、ブラウザ インターフェイスを通じてインターネットにアクセスできるようになります。

写真

「Play Music」プレーヤーの Web サイトとボタンをすぐに見つけて、自分で音楽を再生することもできます。

写真

考えてみるとちょっと怖くないですか?

これは、MIT の学部生が作成した、GPT-4V-Act と呼ばれる新しい製品です。

写真

GPT-4V は、いくつかの簡単なツールを使用するだけで、キーボードとマウスの操作を学習し、ブラウザを使用してオンラインで投稿したり、商品を購入したり、ゲームをプレイしたりすることができます。

使用されているツールにバグがある場合でも、GPT-4V はそれを認識して修正しようとします。

写真

これがどのように行われるか見てみましょう。

GPT-4Vに「インターネットを自動的に閲覧する」ように教える

GPT-4V-Act は、本質的には Web ブラウザをベースにした AI マルチモーダル アシスタント (Chromium Copilot) です。

人間のようにマウス、キーボード、画面を使用して Web ページのインターフェイスを「表示」し、Web ページ上のインタラクティブなボタンを通じて次の操作を実行できます。

この効果を実現するために、GPT-4V に加えて 3 つのツールが使用されました。

1 つは UI インターフェイスで、GPT-4V が Web ページのスクリーンショットを「表示」できるようにし、ユーザーが GPT-4V と対話できるようにします。

このように、GPT-4V は操作の各ステップをダイアログボックスの形で反映し、ユーザーは操作を続行するかどうかを決定できます。

写真

もう 1 つは、GPT-4V が対話を学習できるようにする Set-of-Mark Prompting (SoM) ツールです。

写真

このツールは、GPT-4V のプロンプト ワードをより適切に設計するために Microsoft によって発明されました。

GPT-4V に「画像を見て自ら語る」ことを直接させるのに比べて、このツールは画像の主要な詳細をさまざまな部分に分割して番号を付けることができるため、GPT-4V はターゲットに集中できます。

写真

Web 側でも同じことが言えます。Set-of-Mark Prompting は同様の方法を使用して、GPT-4V に Web ブラウザーから回答を見つける場所を知らせ、それと対話します。

最後に、Web ページ上のすべてのインタラクティブ ボタンをマークし、GPT-4V がどのボタンを押すかを決定できるようにするための自動ラベラー (JS DOM 自動ラベラー) が必要です。

写真

一連のプロセスを完了すると、GPT-4V は画像内のどのコンテンツが要件を満たしているかを正確に判断できるだけでなく、インタラクティブなボタンを正確に見つけて、「自動的にオンラインになる」ことを学習できます。

これは大規模なプロジェクトであり、クリック、入力インタラクション、自動注釈など、これまでに実装された機能はごくわずかです。

次に、AI マーカーを試したり (現在、Web ページでのインタラクションは、AI 認識ではなく、インタラクションする場所を知るための JS インターフェースを介して行われます)、ユーザーに詳細情報を入力するように促すなど、実装する機能がいくつかあります。

写真

さらに、著者は、現段階では GPT-4V-Act の使用においてまだ注意すべき点がいくつかあるとも述べています。

たとえば、GPT-4V-Act は、Web ページを開いた後に大量のポップアップ広告に混乱し、インタラクション バグが発生する可能性があります。

写真

たとえば、この現在のアプローチは、OpenAI の製品使用規則に違反する可能性があります。

API によって許可されていない限り、スクレイピング、ウェブ収集、ウェブ データ抽出など、自動またはプログラムによる手段を使用してサービスからデータを抽出し、エクスポートすることはできません。

写真

だから、それを使うときは控えめにすべきです(doge)

Microsoft SoMの作者も見に来た

このプロジェクトはオンラインで公開された後、多くの人々の注目を集めました。

たとえば、この男性が使用した Microsoft Set-of-Mark Prompting ツールの作成者は、次のプロジェクトを発見しました。

素晴らしい仕事です!

写真

一部のネットユーザーは、AI が認証コードを自ら読み取れるようにすることもできると指摘しました。

写真

これは SoM プロジェクトで言及されました。GPT-4V は検証コードを正常に解読できます (そのため、将来的にはインターネットを閲覧しているのが人間なのかマシンなのかわからなくなる可能性があります)。

写真

同時に、一部のネットユーザーはすでにデスクトップ自動化の操作を想像しています。

著者はこう答えた。

AI 自動アノテーターはこれを実現できるはずであり、私は実際に、より汎用的な Copilot を作成する予定です。

写真

しかし、GPT-4V は現状でも有料です。他に実装する方法はあるのでしょうか?

作者は、まだそのようなものはないが、Fuyu-8B や LLaVAR などのオープンソース モデルを試すかもしれないとも述べています。

写真

無料の自動デスクトップフロー AI アシスタントは、期待できるものです。

参考リンク:
[1] https://github.com/ddupont808/GPT-4V-Act
[2] https://www.reddit.com/r/MachineLearning/comments/17cy0j7/d_p_web_browsing_uibased_ai_agent_gpt4vact/


<<:  北京ヒューマノイドロボットイノベーションセンターは、世界初のソフトウェアとハ​​ードウェアの「マザープラットフォーム」を作成するために設立されました。

>>:  新たなブレークスルー:科学者が脳のようなナノワイヤネットワークを開発し、AIが人間のリアルタイム学習と記憶を模倣できるようにする

ブログ    

推薦する

...

...

最高裁判所は顔認識に関する司法解釈を発表し、無作為の「顔スキャン」に「ノー」と述べた。

今朝(8日)、第13期全国人民代表大会第5回会議第二回全体会議が開催され、最高人民法院と最高人民検察...

2020 年の CIO にとっての 5 つの戦略的優先事項

ヘルスケア、小売、テクノロジー業界の IT リーダーが 2020 年の戦略的優先事項を共有します。ヒ...

AI の力: Docker による機械学習アプリケーションの導入とスケーラビリティの簡素化

翻訳者 |李睿レビュー | Chonglou近年、機械学習の応用が爆発的に増加しており、堅牢でスケー...

絶対確実な協働ロボット

人間とロボットが協力して協働ロボットを作る[[321860]]協働ロボットは人間と対話し、協働するよ...

テレンス・タオ:私の数学的経験に基づくと、室温超伝導LK-99とその再現は非常に刺激的です

昨今、室温超伝導の再現に対する世界的な熱気は衰えを知らず、さまざまな有力者が自らの見解を表明している...

人工知能は第五の変革をもたらします。あなたはこのチャンスをつかむことができますか?

人工知能の急速な発展は、新しい小売業者に力を与え、小売業界の「人、商品、場所」の要素を効果的に再構築...

AI はデータセンターをよりスマートにするためにどのように役立ちますか?

[[383176]]今日、人工知能 (AI) は、これまで以上に高速にデータを収集、処理、分析する...

15億パラメータのモデルを2日間でトレーニングし、国内オープンソースプロジェクトがNvidiaのMegatron-LMを上回った

AIの現在の動向において、その徹底的な発展に影響を与える矛盾は何でしょうか?一方では、大型モデルが大...

ボストン・ダイナミクスのロボット犬の初開封ビデオ:53万ドルで何を買ったのか?

53万元の犬を箱から取り出すのはどんな感じでしょうか?ボストン・ダイナミクス初の小売ロボット「スポ...

ワークスペースデザインの未来: AI、3Dウォークスルー、リアルタイムコラボレーション

過去 10 年間で、スマート AI ツールの導入により、ワークスペースのデザインは完全に変化しました...

AIがデータ分析を拡張し、効率化する方法

今日のデータ主導の世界では、AI が業界全体を変革しています。 AI は大規模なデータ分析を加速し、...

5G、Wi-Fi 6、AIがいかにしてよりスマートなホームエクスペリエンスを実現するか

[[335277]]家全体のスマートホームライフが実現するまでには、まだ時間がかかりそうですが、スマ...

...