視覚的なプロンプトを使用してください。シュム氏は、トレーニングや微調整なしですぐに使用できるIDEAリサーチインスティテュートの新しいモデルを実演します。

視覚的なプロンプトを使用してください。シュム氏は、トレーニングや微調整なしですぐに使用できるIDEAリサーチインスティテュートの新しいモデルを実演します。

視覚的なプロンプトを使用するとどのような感じでしょうか?

写真をランダムにフレームに入れるだけで、同じカテゴリが数秒で丸で囲まれます。

GPT-4Vでも米粒を数えるのは困難です。フレームを手動で引っ張るだけで、すべての米粒を見つけることができます。

物体検出の新しいパラダイムがここにあります!

先日終了した IDEA 年次会議において、IDEA 研究所の創設会長であり、米国工学アカデミーの外国人会員でもあるハリー・シャム氏が、最新の研究成果を発表しました。

Visual Prompt に基づいて T-Rex をモデル化します。

プロセス全体はインタラクティブですぐに使用でき、わずか数ステップで完了できます。

これまで、Meta のオープンソース SAM セグメンテーション モデルは、CV 分野における GPT-3 の瞬間を直接的に導きましたが、依然としてテキスト プロンプト パラダイムに基づいていたため、複雑でまれなシナリオに対処することが困難でした。

現在、この問題は画像を交換することで簡単に解決できます。

さらに、カンファレンス全体は、Think-on-Graph知識駆動型ビッグモデル、開発者プラットフォームMoonBit、AI科学研究成果物ReadPaperアップデート2.0、SPU機密コンピューティングコプロセッサ、制御可能なポートレートビデオ生成プラットフォームHiveNetなど、実用的な情報でいっぱいでした。

最後に、沈向陽氏は、過去数年間で最も多くの時間を費やしたプロジェクトである低高度経済についても話した。

低空経済が比較的成熟した状態に発展すると、同じ時点で、深センの空には毎日10万機のドローンが飛び、毎日100万機のドローンが飛ぶようになると私は信じています。

視覚的なプロンプトを使用する

基本的なシングルラウンドプロンプト機能に加えて、T-Rex は 3 つの高度なモードもサポートしています。

  • 複数ラウンドの正例モード

これは、より正確な結果を得て、検出漏れを回避するために、複数回の会話を繰り返すようなものです。

  • ポジティブ + ネガティブ モード

視覚的な手がかりが曖昧で誤検出を引き起こすシナリオに適用できます。

* クロスグラフモード。

単一の参照画像をヒントとして使用して、他の画像をテストします。

T-Rexは、事前に定義されたカテゴリに制限されず、視覚的な例を使用して検出対象を指定できると報告されています。これにより、一部のオブジェクトを言葉で完全に表現することが難しいという問題を克服し、プロンプトの効率が向上します。一部の産業シナリオでは特に複雑なコンポーネントです。

さらに、ユーザーとの対話を通じて、いつでもテスト結果を迅速に評価し、エラー修正を行うことができます。

T-Rex は主に、イメージ エンコーダー、ヒント エンコーダー、ボックス デコーダーの 3 つのコンポーネントで構成されています。

この研究は、IDEA 研究所のコンピューター ビジョンおよびロボティクス研究センターによるものです。

チームが以前にオープンソース化した物体検出モデル DINO は、COCO 物体検出リストで 1 位にランクされた最初の DETR モデルです。ゼロショット検出器 Grounding DINO はGithub で非常に人気があり (現在までに 11,000 個のスターを獲得) 、Grounded SAM はすべてを検出してセグメント化できます。より技術的な詳細については、記事の最後にあるリンクをクリックしてください。

会議全体が実用的な情報でいっぱいです

さらに、IDEAカンファレンスではいくつかの研究成果も共有されました。

たとえば、 Think-on-Graph 知識駆動型ビッグモデルは、簡単に言えば、ビッグモデルとナレッジグラフを組み合わせたものです。

大規模モデルは意図の理解と自律学習に優れていますが、ナレッジグラフは構造化された知識保存方法により論理チェーン推論に優れています。

Think-on-Graph は、大規模なモデル エージェントをナレッジ グラフ上で「考える」ように促し、徐々に最適な答えを検索して推論します (ナレッジ グラフの関連エンティティを段階的に検索して推論します)。推論のあらゆるステップにおいて、ビッグモデルが個人的に関与し、知識グラフを補完します。

MoonBitは、Wasm を基盤とし、クラウド コンピューティングとエッジ コンピューティング向けに設計された開発者プラットフォームです。

一般的なプログラミング言語設計を提供するだけでなく、コンパイラ、ビルド システム、統合開発環境 (IDE)、デプロイメント ツール、その他のモジュールを統合して、開発エクスペリエンスと効率を向上させます。

以前リリースされた科学研究ツール「ReadPaper」も2.0にアップデート。記者会見では、リーディング・コパイロットやポリッシング・コパイロットなどの新機能が披露された。

記者会見の最後に、沈向陽は「低高度経済発展白書(2.0)-完全デジタルソリューション」を発表し、スマート統合低空域システム(SILAS)における時空間プロセスの新しい概念を提案した。

T-Rex リンク:
https://trex-counting.github.io/

<<: 

>>:  OpenAI の謎の Q* は人類を滅ぼすのか?人気の「Q*仮説」は実際には世界モデルにつながり、インターネット上のAI専門家は長い記事で熱く議論してきました。

ブログ    

推薦する

Nvidia、Hugging Face、ServiceNow がコード生成用の新しい StarCoder2 LLM をリリース

現在 3 つの異なるサイズで提供されているこれらのモデルは、リソースの少ない言語を含む 600 以上...

機械学習と予測分析の違いは何ですか?

[[279165]]今日、認知学習はかつてないほど普及しています。一般的に言えば、認知学習と認知コ...

顔認識エンジンのトップ 5 (テキストにイースター エッグあり)

[51CTO.com クイック翻訳] ご存知のとおり、顔の特徴は指紋ほどユニークで永続的ではありま...

...

人工知能は産業の発展を促進し、産業構造のアップグレードを加速する

トップレベルの設計を継続的に改善し、コンピュータービジョン、音声認識、機械学習、ナレッジグラフなどの...

総合異常検知の新たな夜明け:華中科技大学などがGPT-4Vの総合異常検知性能を明らかに

異常検出タスクは、通常のデータ分布から大きく逸脱した外れ値を識別することを目的としており、産業検査、...

人工知能業界を理解するにはどうすればいいのでしょうか?まず知っておくべき知識は何でしょうか?

人工知能の発展を理解したい場合、または人工知能の基本的な応用を理解したい場合は、まずいくつかの基本的...

2つのセッションにおけるインターネット大手の提案の要約:デジタル経済とスマートカーが頻出語に

[[385182]]中国人民政治協商会議第13期全国委員会第4回会議が2021年3月4日に北京で開催...

【アルゴリズム】アルゴリズムを理解する(I)—アルゴリズムの時間計算量と空間計算量

[[407579]]序文大企業の秋季採用の先行スタートが始まっており、新卒採用の秋季大幅強化の警鐘が...

調査によると、ChatGPTはプログラミングの質問に答える際に50%以上のエラー率があることが判明

米パデュー大学の調査によると、OpenAIが開発した人工知能チャットボット「ChatGPT」は、ソフ...

Douyinのユーザーは皆、地元の方言を話しています。2つの重要な技術が、地元の方言を「理解」するのに役立ちます。

国慶節の連休中、Douyinの「方言一つで故郷の出身者と証明」というアクティビティが全国のネットユー...

テンセントがキング・オブ・グローリーAIの最新情報を公開、トッププロ選手を一騎打ちで圧倒

[[286697]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

組織内の AI スキルを向上させる 3 つのステップ

[[350689]]今日、ほとんどの組織は人工知能が遍在する世界に向けて準備を進めています。この進化...

...

定量評価、アルゴリズム拡張:強化学習研究の10原則

[[252430]]ビッグデータダイジェスト制作編纂者:江宝尚今年 9 月に開催された Deep L...