世界初の大型モデルエージェントが発売!口を動かすだけでPCが働き者になる

世界初の大型モデルエージェントが発売!口を動かすだけでPCが働き者になる

最近、謎のアシスタントであるシャオ・シュアイの助けにより、彼のオフィスの効率は以前に比べて10倍以上向上しました。

今日は、営業スタッフの売上額を整理し、そのリストを DingTalk 経由で張さんに送信する必要があります。

アシスタントは何も言わずに、すぐに正確にシャオ・シュアイのニーズを理解しました。

その後、アシスタントは素早く、そしてきちんと自分自身の行動計画をリストアップしました。1 分も経たないうちに、売上高の高いものから低いものの順に並べられたリストがデスクトップに表示されました。

すると、アシスタントがDingTalkを開き、受信者である張さんを自動的に選択し、リストを送信しました。

このスムーズで流れるようなプロセスは、ただただ驚異的です。 『アイアンマン』のAIアシスタント、ジャービスが現実になったのだろうか?

PC がやってくれる - AI が人間のオフィスに新たな章を開く

この謎のアシスタントの正体を紹介する前に、まずは 77 年前に人類がコンピューターをどのように使用していたかを振り返ってみましょう。

1946 年に世界初のコンピューター ENIAC が誕生しました。たくさんのケーブルを接続し、たくさんのスイッチを切り替えることで、人類史上初めてコンピューターが使用されました。

77年後の今日、ChatGPTの誕生は人類社会を覆しました。 GPT-4、PaLM、Llama などの大規模モデルの相次ぐ登場により、AI は歴史的な「iPhone の瞬間」を迎えました。

Microsoft Office 365 は GPT-4 に接続され、PaLM は Google Workspace に統合されます。大規模な AI モデルの誕生と台頭により、労働者のオフィスシーンは根本的な変化を遂げています。

最近人気のインテリジェントエージェント「エージェント」は、「サイエンスフィクションワールド」のロボット秘書ジャービスや「インターステラー」のロボット「ターズ」をサイエンスフィクションから現実の世界へ移行させました。

冒頭で示したように、私たちが口を動かす限り、コンピューターは自ら動き、本来は退屈で面倒な作業が「あなたが言うなら、PC がやってくれる」という状態になります。

「理解し、考え、見て、行動する」ことができるこのデジタルアシスタントは、リアルインテリジェンスがリリースした業界初の大型モデルベースエージェント製品TARS-RPA-Agent(別名ChatRPA)です。

人間の意図を理解できるだけでなく、さまざまな複雑な CS アーキテクチャ ソフトウェアや、オープン インターフェイスのないソフトウェアを含むすべてのデスクトップ ソフトウェアを操作できます。

CV ビッグモデル ISSUT (Intelligent Screen Semantic Understanding Technology) のサポートにより、TARS-RPA-Agent はクールなスクリーンインサイトグラスを装着しているかのように、瞬く間にスクリーン上のすべてを理解できます。

実際、この操作はコンピューターだけでなく、あらゆる画面(車載タブレットなど)でも実行できます。

例えば、これは将来、車内の環境において、現在インターフェースを介して車載機器すべてを制御できることに加えて、窓用エアコンの制御、音楽の再生、ナビゲーションなどの簡単な操作に加えて、音声コマンドを介して車載タブレット上のすべてのソフトウェア アプリ (DingTalk、WeChat、さらには WPS、Meitu XiuXiu など) を簡単に操作して、さまざまな複雑な作業タスクを自動的に完了できるようになることを意味します。

TARS-RPA-Agent は、より SF 的な未来を創造し、真の人間と機械のコラボレーションを促進すると言えます。

将来、人間がコンピューターや携帯電話と連携する方法は、人間がテクノロジーに適応するのではなく、テクノロジーが人間に適応するものになるでしょう。製品はもはやシステム中心ではなく、人中心です。

この新しい人間と機械の協働モードでは、AI はよりインテリジェントで人間的になります。

同時に、人間は新しいアプリケーションやツールの操作方法を学ぶのに多くの時間を費やす必要がなくなり、エージェントが私たちのニーズや習慣を理解して調整できるようになります。

つまり、AI が受動的なツールからインテリジェントなアシスタントへと進化するにつれて、人間の習慣にさらに注意を払うようになり、タスク要件を実行する際に人間にとってより人間的な体験が確実に生み出されるようになります。

エージェントに働いてもらいたいですか?克服すべき困難

しかし、この画期的な技術は、私たちが想像していたよりもはるかに多くの困難を克服する必要があります。

特に、AIエージェントを業界内で実際の商業的価値を発揮させることは容易ではありません。

エージェントに休暇の取得を手伝ってもらう場合、ビッグモデルは「意図を理解する」ことができますが、解析可能なWebページのソースコードや呼び出し可能なAPIインターフェースを持たないDingTalkのようなアプリケーションを操作する場合は、依然として他の方法を見つける必要があります。

対照的に、RPA は人間の行動をシミュレートし、コンピューター ソフトウェア上で操作を実行できます。このことから、ビッグモデル+RPA方式は、前述のような休暇申請の手伝いなどの業務を行う上で、避けられないモードであることがわかります。

しかし、それに伴うもう一つの問題は、従来のRPAでは、どれが入力ボックスで、どれがログイン入口かなど、ソフトウェアのページを正確に識別できないため、多くのタスクに直面すると依然として途方に暮れてしまうことです。

現在開発中のコンピューター ビジョン CV 大規模モデルは、この問題に対するソリューションを提供できます。これにより、RPA はタスクを実行するときに操作ページを「見て」、数秒で画面イメージを理解できるようになります。

次に、インターフェース呼び出しと画像理解という 2 つの問題を解決した後、AI エージェントが真の「デジタル従業員」になるには、次の 4 つの大きな困難を克服する必要があります。

「自律的にタスクを分解できるか、現在の環境を認識できるか、実行してフィードバックを提供できるか、過去の経験を記憶できるか?」

1. 自律的なタスク分解を簡単に実現するにはどうすればよいでしょうか?

まず、実際のシナリオでは、人間が与える指示は非常に複雑ですが、使用される文章は非常に簡潔です。複雑な情報と論理的なコマンドを含む命令からタスクを理解して分解することは非常に困難です。

たとえば、「明日上海行きの高速鉄道のチケットを予約する」には、数量「1」、時間「明日」、旅程「上海行き」、目標「高速鉄道のチケットを購入する」が含まれます。

このタスクを完了するには、エージェントが指示を理解し、それを実行可能なサブタスクとステップに分解できる必要があります。例えば、チケット購入サイトにログインし、チケット残数情報を確認して、チケット予約を完了するなど、複数の手順があります。

2. タスク要素を正確に配置するにはどうすればよいですか?

タスクを実行可能なサブモジュールに分割することに加えて、エージェントはそれが誰で、どこにあるのかも認識する必要があります。

たとえば、明日のチケットを予約する場合、エージェントは今日が何曜日であるかを知る必要があります。目的地が上海の場合、出発地がどの都市であるかも知る必要があります。

同時に、エージェントは周囲の環境を完全に認識し、理解し、相互作用する必要もあります。

チケット購入タスクを例に挙げてみましょう。「チケット購入ウェブサイトにログインする」というステップを完了するには、エージェントはアカウント入力ボタンとログインボタンが画面上のどこにあるのかを正確に把握している必要があります。

3. エラーは蓄積され続け、適時に修正する必要がある

タスクを実行する際、人間は常に進行状況を監視し、継続的な「実行-フィードバック-修正」を通じてタスクの正常な進行を確保します。

エージェントにとっては、操作の各ステップの正確性を確保し、意図の誤解や前のステップでのエラーにより、現在のステップで間違ったボタンをクリックしたり、間違ったアカウントを入力したり、間違ったメールを送信したりしないようにすることも必要です。

単一ステップの最適化を実行し、各ステップの実行プロセスと結果を表示およびフィードバックできれば最適です。

4. 長期記憶の問題を解決し、自律的な反復機能を実現する

最後に、エージェントは経験から学び、過去の事例を通じて意思決定を継続的に改善する能力も必要です。

特に、人間の助けを借りてタスクを完了した後は、次に同じタスクに遭遇したときに、自分で正しく実行することができます。

たとえば、大規模モデルを長い間悩ませてきた長期メモリ問題を解決するために、AutoGPT はメモリ管理を使用してコンテキスト保持と意思決定最適化機能を実現することを選択しました。

AIエージェント時代の注目アイテム:TARS大規模インテリジェントアシスタント

こうした一連の課題に直面して、Shishi Intelligence は CV ビッグモデル (ISSUT)、LLM (TARS ビッグモデル)、RPA を革新的に統合し、さまざまなテクノロジー、設計、方法を通じて上記の困難を解決しました。

結果として得られた TARS-RPA-Agent は、タスクを自律的に分解し、現在の環境を認識して実行し、フィードバックと過去の経験の記憶を提供できる、超自動化されたインテリジェント エンティティになりました。

TARS-RPA-Agent のサポートにより、メール送信などの基本的な操作は、ダイアログボックスに「163 メールボックスを使用して ××× にメールを送信し、挨拶する」と入力するだけで済みます。

次に、TARS-RPA-Agent は記述されたリクエストを 2 つのステップに分解します。ステップ 1: 163 メールボックスを開きます。ステップ 2: メールボックスにログインして電子メールを送信します。各計画には詳細な実装手順が含まれています。

確認後、「実行」をクリックすると、TARS-RPA-Agent がページのスキャンを開始し、指定されたタスクを完了することがわかります。

TARS-RPA-Agent は、電子メールの送信に加えて、休暇申請などのさまざまなオフィス シナリオもカバーし、優れた一般化機能を備えています。

たとえば、ノートパソコンを購入したいが、どれがよいかわからない場合は、エージェントに「JD.com で最も売れているノートパソコンは何ですか?」と尋ねることができます。

すぐに、エージェントは自分自身の行動計画を立て、私たちのニーズに応じて、JD.com にログインして検索と並べ替えを行い、最初の結果の詳細ページに入りました。

TARS-RPA-Agent は、既存のエージェントがデッドループに陥り、大量のトークンを消費する傾向があるという問題も考慮していることは特筆に値します。タスク プロセス中に手動で変更や調整が可能になり、製品内での人間と機械の共同操作をより適切にサポートできます。

例えば、実行できないステップに遭遇したとき、口を動かしたり、ページ上の要素をクリックするだけで、後続のプロセスが自動的に作成され、基本的に人間の操作なしで完了できます。

さらに、このプロセス中に新しい計画がある場合は、TARS-RPA-Agent に口頭で伝えるだけで済みます。

選択した商品情報を記録した後、保存のお手伝いもいたします。

従来、これらの機能は、既存のコンポーネントに対してさまざまな形式のプロセスを通じて実装する必要があり、複雑であるだけでなく困難でもありました。

現在、TARS ビッグ モデルのサポートにより、TARS-RPA-Agent は「川に橋を架ける」機能を備えています。呼び出し可能なコンポーネントがない場合でも、TARS-RPA-Agent はコンポーネントを直接生成して、ワークフロー全体をスムーズにすることができます。

プログラミングスキルを持たない人にとっては、間違いなく生産効率が向上します。

それだけでなく、大規模なモデルをサポートしているため、同じ操作を他のプラットフォームに簡単に一般化できます。これを実現するには、「JD.com」という単語を「Taobao」に置き換えるだけです。

また、プロセスの実行が完了した後もダイアログを続行し、新しい実行プランを追加してプロセスを完了することができます。

これらの一見単純な操作は、実際には TARS-RPA-Agent の 3 つの強力な機能、つまり視覚認識、論理的推論、コード生成を反映しています。

まず、TARS モデルは本質的には分析と推論はできるが、実行されるオブジェクトを「見る」ことはできない言語モデルです。しかし、ISSUT ビジュアル テクノロジーのサポートにより、まるで一対の目を持っているかのようになり、オブジェクトをさらに操作し、RPA を駆動してプロセス全体を作成できます。

第二に、論理的推論能力により、TARS-RPA-Agent はさまざまなコンポーネント変数の論理関係を接続できます。

コード生成機能により、基本コンポーネントを使用せずにプロセス ステップでコードの一部を直接生成し、それを独自に構築したコンポーネントにカプセル化して、後でいつでも呼び出すことができます。

これに基づいて、ユーザーは自分のニーズを表現するだけで、エージェントは画面言語の理解に基づいてタスクを自動的に分解し、リアルタイムのプロセスの構築と実行を完了できます。

TARSリアルインテリジェンスビッグモデルをハイパーオートメーションシナリオとエージェントに統合して応用することは、国内企業がビッグモデルエージェントシナリオ応用の革新に向けて進むための重要なステップであると言えます。

そして最終的には、人間の意図を超えて、デスクトップを制御する究極の力になります。

「エージェント」:AIが先導する人間と機械のコラボレーションの新たなフロンティア

ご存知のとおり、時間は偉大な技術革新を測る基準ではありません。時にはスピードこそが真の基準となるのです。

今日の LLM (大規模言語モデル) の最も重要な機能は、コンテンツの処理と生成に反映されています。ただし、結果を生成するには、前提条件として入力が必要です。

急速な発展が進む現在の状況では、LLM がチャット、創作、絵画、交流などの機能のみで満足するのは決して十分ではありません。

エージェントは、環境を認識して決定を下すことができるインテリジェントなエンティティとして、ループ内で実行し、自己指示の指示と操作を生成し、会話を導くために人間に頼らないため、人々が想像力を自由に発揮するのに十分です。

したがって、LLM をエージェントの「頭脳」として機能させることができます。 LLM とエージェントを組み合わせることで、AI はより複雑なタスクを自動的に処理できるようになります。

このようにして、エージェントインテリジェントアシスタントは「デジタルワーカー」に変身し、作業効率を大幅に向上させ、最終的には人類にさらに実用的な価値を提供します。

これは、次の段階におけるビッグモデルの必然的な発展方向でもあります。

LLMの応用範囲を広げるために、海外の研究者は、AutoGPT、GPT-Engineer、BabyAGIなどのプロジェクトに代表される、大規模言語モデルを統合するエージェントという新しい形を提案しています。

大規模な言語モデルをエージェントのコアブレインとして使用することで、複雑なタスクを分解し、各サブステップで自律的な決定を下し、ユーザーの関与なしに問題を解決することが可能になります。

たとえば、今年 4 月に人気が高まった Auto-GPT は、現在 GitHub で 147,000 個のスターを獲得しています。

このプロジェクトの重要性は、Auto-GPT が GPT-4 モデルにボディを与えるようなものであるということです。ユーザーから提出されたタスクを受け取った後、対応するプランを提案し、実行することができます。 5 分もかからずに Web サイトが構築されました。

同じ原理が、GPT-4 大型モデルに接続された GPT-Engineer にも当てはまります。開発者は口を動かしてプロンプトを出すだけで、コードベース全体を構築できます。

ただし、これらの新しいトップレベルのエージェントには、多くの独自の制限があります。たとえば、GPT-4 API の使用は高価であり、一定レベルのプログラミング スキルが必要であり、適用範囲が比較的狭いです。

ナンセンスエラーや推論エラーなど、GPT-4 の固有の制限により、Auto-GPT などは信頼できない場合があります。

学術的な探求に加えて、シリコンバレーの一部の人々は、すでにエージェントを商業化する答えを見つけています。

今年3月、OpenAIの元エンジニアリング担当副社長が設立したスタートアップ企業Adeptが3億5000万ドルの資金を調達した。General CatalystやSpark Capitalに加え、多くの機関やシリコンバレーのスター起業家もこれに続いた。

簡単に言えば、Adept は、テキスト コマンドを一連のアクションに変換できる Action Transformer (ACT-1) と呼ばれる「AI チームメイト」を作成しました。

たとえば、Chrome ブラウザの拡張機能に接続することで、人間のプロンプトで特定の操作を実行したり、Salesforce とスプレッドシートを連携することで、以前は 10 回以上のクリックが必要だった複雑な操作を 1 文で完了したりできるようになります。

業界初の大型モデルエージェントを立ち上げ

ソフトウェア呼び出しを実装するために API に依存する必要があるため、ACT-1 の使用シナリオは大幅に制限されますが、それでも Adept は強力な資金を獲得しました。これは、業界が Agent Office に強い信頼を寄せており、この傾向が業界全体で一致して認識されていることを示しています。

現在、テクノロジーのさらなる発展により、AI エージェントは業界で認められた LLM を実装する効果的な方法の 1 つになりました。

当然ながら、国内企業も遅れをとってはいない。

中国で初めて大型モデルエージェントを立ち上げた企業として、Shizai Intelligence はわずか 5 年で数々の栄誉に恵まれました。

同社は3年連続でAI準ユニコーン企業に格付けされ、国家ハイテク企業およびCMMI-5グローバルソフトウェア成熟度最高レベル認証(世界で1,800社未満)に合格し、200以上の自主知的財産権と53の実際の付与された発明特許を持ち、業界で第1位となっています。

当社には数十人からなる高度なアルゴリズムチームがあり、当社の NLP、CV、OCR 技術は国内でも最高レベルです。

Real Intelligence の継続的な変革と革新の背後には、強力な技術研究開発能力と、倍増した実際の利益が反映されています。

同社は2020年に初のRPA製品を発売し、業界で初めて「フュージョンピッキング」技術を提案し、RPAのピッキング精度の飛躍的向上を可能にした。

2022年には、インテリジェントスクリーン意味理解技術ISSUTがリリースされ、RPAは「メガネ」をかけ、「ドラッグアンドドロップ」から「クリックして選択」に移行できるようになりました。この更新された IPA モデルにより、もともと参入障壁が非常に高かった RPA ツールも誰でも利用できるようになります。

2023年、Shizai Intelligenceは技術の蓄積で再びイノベーションをリードし、コンピュータービジョンとビッグモデルを組み合わせて、世界のエージェント分野では珍しく、RPA分野では初となるTARS-RPA-Agentを発表しました。

Real Intelligence が製品の次の開発方向として Agent を選択した理由は、人工知能が管理システムを駆動する新しい方法を提供し、さまざまな運用ビジネスプロセスを直接生成して実行できるためです。

AIGC を統合することで、製品をインテリジェント化し、B 側ユーザーに効率的で実行可能なソリューションを提供できるようになります。その中で、LLM がエンタープライズ管理ソフトウェアと適切に統合されていれば、大規模なモデルを正常に実装できます。 LLM のプライベート展開機能は、多くの場合、製造業者にとってより大きなビジネス チャンスを意味します。

TARS-RPA-Agent が依存する LLM は、テキスト生成、言語理解、知識質問と回答、論理的推論などの優れたコア機能を備えた、Real Intelligence が独自に開発した垂直 TARS ビッグモデルです。

TARS大型モデルの支援を受けて、新たな「TARS+X」モデルが誕生しました。

現在、ChatRPA はハイパーオートメーション製品マトリックスに変化とアップグレードをもたらし、将来的には人々が手ではなく口で作業できるようになることがわかります。

同時に、Shizai Intelligence 初の文書対話製品である Chat-IDP は、文書対話と文書処理の新しいモデルも生み出しました。

OCR+NLPをベースとしたIDP製品「インテリジェントドキュメントレビュー」はすでに国内トップレベルに達しており、金融、教育、工業などさまざまな業界で広く使用されています。

2023年以降、遅れてスタートしたが強力な技術を持ち、業界をリードして他社を追い抜こうとしているこのAI準ユニコーンによって、私たちのコンピューターの使い方が変わるかもしれない。

<<:  世界のコンピューティングパワーを飲み込む! Google GeminiはGPT-4の5倍の計算能力を持ち、TPUの切り札でOpenAIを圧倒していると言われている

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

あなたのバイオテクノロジー研究は影響力がありますか? MITの機械学習フレームワークは期待できる

[[400942]]研究者にとって最も嬉しいことは、論文が「受理」されることです。論文が出版された後...

AIは機械設計にどのような影響を与えるのでしょうか?

人工知能は現在、ますます広く利用されるようになっています。ほとんどの場合、堅牢で適応性の高い AI ...

AI | 人工知能プロジェクトを成功させるための 8 つの重要な役割

企業が AI プロジェクトをさらに展開するにつれて、特定の役割がビジネスの成功に不可欠であることがわ...

モデルもオンライン授業を受講できますか? !サービス指向の蒸留トレーニング プログラムを 1 つの記事で理解する

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

意見: 顔認識 - 今後の展望

ここ数週間、世界的なハイテク企業3社(IBM、マイクロソフト、アマゾン)は、警察やその他の法執行機関...

アリババ初のAIチップ「Pingtou Ge」が発売! NVIDIA P4 より 46 倍高速で、推論パフォーマンスの世界新記録を樹立

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

2027年までに、世界のAI医療画像ソリューション市場は47億2,060万米ドルに達すると予測されています。

3月26日、エマージング・リサーチが発表した最新レポートによると、世界の人工知能医療画像ソリューシ...

SQL Serverは最短経路検索アルゴリズムを実装しています

これは去年の質問です。今日メールを整理していたら偶然見つけました。とても興味深いと思ったので書き留め...

...

将来、ロボットがあなたの仕事を奪うでしょうか?慌てずに専門家の言うことに耳を傾けましょう

[[384941]]スペインの新聞「エル・エコノミスタ」は最近、ラモン・オリバー氏による「仕事の自動...

...

...

AI プロジェクトの成功を測定するために使用できる KPI は何ですか?

調査会社IDCが2020年6月に発表した調査レポートによると、人工知能の取り組みの約28%が失敗して...