ついに、GPT-4V がコンピューターを自動的に操作することを学習する日が来ました。 マウスとキーボードを GPT-4V に接続するだけで、ブラウザ インターフェイスを通じてインターネットにアクセスできるようになります。 写真 「Play Music」プレーヤーの Web サイトとボタンをすぐに見つけて、自分で音楽を再生することもできます。 写真 考えてみるとちょっと怖くないですか? これは、MIT の学部生が作成した、GPT-4V-Act と呼ばれる新しい製品です。 写真 GPT-4V は、いくつかの簡単なツールを使用するだけで、キーボードとマウスの操作を学習し、ブラウザを使用してオンラインで投稿したり、商品を購入したり、ゲームをプレイしたりすることができます。 使用されているツールにバグがある場合でも、GPT-4V はそれを認識して修正しようとします。 写真 これがどのように行われるか見てみましょう。 GPT-4Vに「インターネットを自動的に閲覧する」ように教えるGPT-4V-Act は、本質的には Web ブラウザをベースにした AI マルチモーダル アシスタント (Chromium Copilot) です。 人間のようにマウス、キーボード、画面を使用して Web ページのインターフェイスを「表示」し、Web ページ上のインタラクティブなボタンを通じて次の操作を実行できます。 この効果を実現するために、GPT-4V に加えて 3 つのツールが使用されました。 1 つは UI インターフェイスで、GPT-4V が Web ページのスクリーンショットを「表示」できるようにし、ユーザーが GPT-4V と対話できるようにします。 このように、GPT-4V は操作の各ステップをダイアログボックスの形で反映し、ユーザーは操作を続行するかどうかを決定できます。 写真 もう 1 つは、GPT-4V が対話を学習できるようにする Set-of-Mark Prompting (SoM) ツールです。 写真 このツールは、GPT-4V のプロンプト ワードをより適切に設計するために Microsoft によって発明されました。 GPT-4V に「画像を見て自ら語る」ことを直接させるのに比べて、このツールは画像の主要な詳細をさまざまな部分に分割して番号を付けることができるため、GPT-4V はターゲットに集中できます。 写真 Web 側でも同じことが言えます。Set-of-Mark Prompting は同様の方法を使用して、GPT-4V に Web ブラウザーから回答を見つける場所を知らせ、それと対話します。 最後に、Web ページ上のすべてのインタラクティブ ボタンをマークし、GPT-4V がどのボタンを押すかを決定できるようにするための自動ラベラー (JS DOM 自動ラベラー) が必要です。 写真 一連のプロセスを完了すると、GPT-4V は画像内のどのコンテンツが要件を満たしているかを正確に判断できるだけでなく、インタラクティブなボタンを正確に見つけて、「自動的にオンラインになる」ことを学習できます。 これは大規模なプロジェクトであり、クリック、入力インタラクション、自動注釈など、これまでに実装された機能はごくわずかです。 次に、AI マーカーを試したり (現在、Web ページでのインタラクションは、AI 認識ではなく、インタラクションする場所を知るための JS インターフェースを介して行われます)、ユーザーに詳細情報を入力するように促すなど、実装する機能がいくつかあります。 写真 さらに、著者は、現段階では GPT-4V-Act の使用においてまだ注意すべき点がいくつかあるとも述べています。 たとえば、GPT-4V-Act は、Web ページを開いた後に大量のポップアップ広告に混乱し、インタラクション バグが発生する可能性があります。 写真 たとえば、この現在のアプローチは、OpenAI の製品使用規則に違反する可能性があります。
写真 だから、それを使うときは控えめにすべきです(doge) Microsoft SoMの作者も見に来たこのプロジェクトはオンラインで公開された後、多くの人々の注目を集めました。 たとえば、この男性が使用した Microsoft Set-of-Mark Prompting ツールの作成者は、次のプロジェクトを発見しました。 素晴らしい仕事です! 写真 一部のネットユーザーは、AI が認証コードを自ら読み取れるようにすることもできると指摘しました。 写真 これは SoM プロジェクトで言及されました。GPT-4V は検証コードを正常に解読できます (そのため、将来的にはインターネットを閲覧しているのが人間なのかマシンなのかわからなくなる可能性があります)。 写真 同時に、一部のネットユーザーはすでにデスクトップ自動化の操作を想像しています。 著者はこう答えた。 AI 自動アノテーターはこれを実現できるはずであり、私は実際に、より汎用的な Copilot を作成する予定です。 写真 しかし、GPT-4V は現状でも有料です。他に実装する方法はあるのでしょうか? 作者は、まだそのようなものはないが、Fuyu-8B や LLaVAR などのオープンソース モデルを試すかもしれないとも述べています。 写真 無料の自動デスクトップフロー AI アシスタントは、期待できるものです。 参考リンク: |
<<: 北京ヒューマノイドロボットイノベーションセンターは、世界初のソフトウェアとハードウェアの「マザープラットフォーム」を作成するために設立されました。
>>: 新たなブレークスルー:科学者が脳のようなナノワイヤネットワークを開発し、AIが人間のリアルタイム学習と記憶を模倣できるようにする
管理距離は、ルーティング プロトコルの優先度を表す人工的に指定された数値です。数値が小さいほど、ルー...
ほとんどのディープラーニング モデルは Linux システムでトレーニングされていますが、Windo...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
ある観点から見ると、激しい競争は業界の人気を示しています。最近、人気のディープラーニングも論争を引き...
[[375724]]開発状況近年、デジタル経済の継続的な進歩を背景に、人工知能は急速に発展し、さまざ...
最近、有名なChatGPT「おばあちゃんの脆弱性」が再び人気になっています!この伝説の「Granny...
「ナノロボット」は映画やSF小説に頻繁に登場するキャラクターで、何度も登場して驚くべきスキルを発揮...
1. ロジスティック回帰ロジスティック回帰。まず線形回帰から始めます。線形回帰の出力は実用的な意味を...
北京時間6月15日朝のニュースで、事情に詳しい関係者は、グーグルがマイクロソフトの新しい検索エンジン...
マイクロソフトは 10 月 25 日に iOS 版と Android 版の Skype アプリを更新...
2009 年以来、雲奇会議は、最も初期のローカル ウェブサイト サミットから、アリババの年次戦略およ...
2017年以降、ディープラーニングの概念が再び浮上し、AIは世界で最もホットな産業となりました。起...
自然言語理解 (NLU) は人工知能における中核的なトピックの 1 つであり、最も困難かつ象徴的なタ...
▲ 画像出典:マッキンゼーこのレポートで、マッキンゼーは、AIが人間の仕事に取って代わる時期が早まっ...