ControlNet、「Split Everything」などの人気論文が受賞、ICCV 2023論文賞が発表

ControlNet、「Split Everything」などの人気論文が受賞、ICCV 2023論文賞が発表

今週、フランスのパリで国際コンピュータビジョン会議 (ICCV) が開幕しました。

ICCVはコンピュータビジョン分野における世界最高峰の学術会議として2年ごとに開催されています。

CVPR と同様に、ICCV の人気は新たな高みに達し続けています。

本日の開会式で、ICCVは今年の論文データを正式に発表しました。今年のICCVへの提出論文総数は8,068件に達し、そのうち2,160件が採択され、採択率は26.8%で、前回のICCV 2021の採択率25.9%をわずかに上回りました。

論文トピックに関して、関係者は関連データも発表した。マルチビューとセンサーによる3Dが最も人気がある。

本日の開会式の最も重要な内容は、もちろん表彰式です。それでは、最優秀論文、最優秀論文ノミネート、最優秀学生論文を順に発表させていただきます。

最優秀論文賞 - マー賞

今年は合計2本の論文が最優秀論文賞(Mar Prize)を受賞しました。

最初のものはトロント大学の研究者によるものです。


  • 論文アドレス: https://openaccess.thecvf.com/content/ICCV2023/papers/Wei_Passive_Ultra-Wideband_Single-Photon_Imaging_ICCV_2023_paper.pdf
  • 著者: Mian Wei、Sotiris Nousias、Rahul Gulve、David B. Lindell、Kiriakos N. Kutulakos
  • 機関: トロント大学

概要: この論文では、極限の時間スケール (数秒からピコ秒​​) で動的シーンを同時に、しかも大量の光や光源からのタイミング信号なしで受動的に画像化する問題について検討します。単一光子カメラの既存のフラックス推定技術はこの設定では機能しないため、確率計算からの洞察を引き出し、単調に増加する光子検出タイムスタンプのストリームからピクセルでの時間変動フラックスの再構築を可能にするフラックス検出理論を開発しました。

本論文では、この理論を利用して、(1)パッシブフリーランニングSPADカメラが低フラックス条件下でDCから31GHzの全範囲にわたる達成可能な周波数帯域幅を持つことを示す、(2)新しいフーリエ領域フラックス再構成アルゴリズムを導出する、(3)非常に低い光子数や無視できないデッドタイムの​​場合でもアルゴリズムのノイズモデルが有効であることを確認する。

私たちは、この非同期画像化メカニズムの潜在能力を実験的に実証しました。その能力とは、(1)同期せずに大幅に異なる速度で動作する光源(電球、プロジェクター、複数のパルスレーザー)によって同時に照らされたシーンの画像化、(2)パッシブな視線外ビデオ取得、(3)日常の動きを示すために後で30Hzで再生できる超広帯域ビデオの記録、また光自体の伝播を示すために10億倍遅く再生することもできるビデオの記録です。

2 つ目は、ControNet と呼ばれるものです。

  • 論文アドレス: https://arxiv.org/pdf/2302.05543.pdf
  • 著者: Lvmin Zhang、Anyi Rao、Maneesh Agrawala
  • 機関: スタンフォード大学

概要: 本論文では、エンドツーエンドのニューラル ネットワーク アーキテクチャ ControlNet を提案します。これは、拡散モデルを制御するための追加条件 (安定拡散など) を追加することで画像間効果を改善し、線画からフルカラー画像を生成し、同じ深層構造を持つ画像を生成し、手のキー ポイントを通じて手の生成を最適化することができます。

ControlNetの核となるアイデアは、テキスト記述に加えていくつかの追加条件を追加して拡散モデル(安定した拡散など)を制御し、生成された画像の文字の姿勢、深さ、画像構造などの情報をより適切に制御することです。

ここでの追加条件は画像の形式で入力されます。モデルは、この入力画像に基づいて、Canny エッジ検出、深度検出、セマンティック セグメンテーション、Hough 変換線検出、全体的ネスト エッジ検出 (HED)、人間の姿勢認識などを実行し、生成された画像にこの情報を保持します。このモデルを使用すると、線画や落書きをフルカラー画像に直接変換したり、同じ深層構造を持つ画像を生成したりすることができます。また、手のキーポイントを通じてキャラクターの手の生成を最適化することもできます。

詳細については、Machine Heart のレポート「AI の次元削減が人間の画家に衝撃を与え、文化的なイメージが ControlNet に導入され、深度とエッジ情報が完全に再利用される」を参照してください。

最優秀論文賞ノミネート: SAM

今年4月、Meta社は、あらゆる画像や動画内のあらゆるオブジェクトのマスクを生成できるAIモデル「Segment Everything(SAM)」をリリースし、コンピュータービジョン(CV)分野の研究者らから「CVはもう存在しない」という声が上がった。

今日、この待望の論文は、このジャーナルの最優秀論文にノミネートされました。

  • 論文アドレス: https://arxiv.org/abs/2304.02643
  • 代理店: メタAI

はじめに: これまで、セグメンテーション問題を解決するには、大きく分けて 2 つのアプローチがありました。 1 つ目はインタラクティブなセグメンテーションです。これにより、あらゆるクラスのオブジェクトをセグメント化できますが、マスクを繰り返し調整することで人間が方法をガイドする必要があります。 2 つ目の自動セグメンテーションでは、事前に定義された特定のオブジェクト カテゴリ (猫や椅子など) をセグメント化できますが、トレーニングには手動で注釈が付けられた多数のオブジェクト (セグメント化された猫の例が数千、数万個など) が必要です。どちらのアプローチも、一般的な、完全に自動化されたセグメンテーション方法を提供しません。

Meta が提案した SAM は、これら 2 つの方法をうまくまとめています。インタラクティブなセグメンテーションと自動セグメンテーションの両方を簡単に実行できる単一のモデルです。モデルのヒント可能なインターフェースにより、ユーザーはモデルに適切なヒント (クリック、ボックス、テキストなど) を設計するだけで、モデルを柔軟に使用して、さまざまなセグメンテーション タスクを実行できます。

これらの機能を組み合わせることで、SAM を新しいタスクやドメインに一般化できるようになります。この柔軟性は、画像セグメンテーションの分野では初めてのものです。

詳しい紹介はMachine Heartレポート「CVはもう存在しない?」をご覧ください。 Meta が「すべてを分割する」AI モデルをリリース、CV が GPT-3 の時代を先導する可能性

最優秀学生論文

この研究はコーネル大学、Google Research、カリフォルニア大学バークレー校の研究者らによって実施され、コーネル工科大学の博士課程学生であるQianqian Wang氏が第一著者となった。彼らは、ビデオ内の各ピクセルに対して正確で完全な動きの推定を実行するための、完全かつ全体的に一貫した動きの表現である OmniMotion と、新しいテスト時間最適化手法を共同で提案しました。

  • 論文アドレス: https://arxiv.org/abs/2306.05422
  • プロジェクトホームページ: https://omnimotion.github.io/

概要: コンピューター ビジョンの分野では、スパース フィーチャ トラッキングと高密度オプティカル フローの 2 つの一般的な動き推定方法が使用されます。ただし、どちらの方法にも欠点があります。スパース フィーチャ トラッキングではすべてのピクセルの動きをモデル化できず、高密度オプティカル フローでは長時間にわたる動きの軌跡をキャプチャできません。

本研究で提案された OmniMotion は、準 3D 標準ボリュームを使用してビデオを表現し、ローカル空間と標準空間間の一対一変換を通じて各ピクセルを追跡します。この表現は、全体的な一貫性を保証し、オブジェクトが遮蔽されている場合でもモーション トラッキングを可能にし、カメラとオブジェクトの動きのあらゆる組み合わせをモデル化します。この研究では、提案された方法が既存の SOTA 方法よりも大幅に優れていることを実験を通じて実証しました。

詳細については、Synced レポートを参照してください: 「『すべてを追跡する』ビデオ アルゴリズムがここにあります。いつでもどこでも、遮蔽を恐れることなく、すべてのピクセルを追跡します。」

もちろん、これらの受賞論文以外にも、今年の ICCV には注目に値する優れた論文が数多く掲載されています。最後に、受賞論文 17 件の初期リストを添付します。

<<:  スタンフォードNLPコースXCS224Uのビデオが公開されました。実用的な情報が満載です。ぜひ聞いてください。

>>:  アマゾンは40億ドルを投資し、グーグルや他の企業もさらに20億ドルを投資する予定で、アントロピックの評価額は急上昇中

ブログ    
ブログ    

推薦する

クレイジーすぎる、GPTsがオンライン:ウルトラマンがマスクの大型模型の手こすりを披露、誰かがサードパーティのマーケットを作った

数日前の開発者会議で、OpenAIは、メンバーシップを購入すれば、GPT-4大規模モデルの新バージョ...

人工知能アルゴリズムがバーベキューの香りを再現。ネットユーザー:料理番組を見ながらその香りを嗅ぎますか?

近年、人工肉は急速に発展していますが、本物の肉と比較すると、味や食感にはまだ明らかな差があります。最...

中国の人工知能コンピューティングパワーレポート:インターネット産業への投資が最も多く、都市ランキングでは杭州が1位

「中国の人工知能の応用と商業化の探究は世界と同レベルだが、コンピューティングパワー、アルゴリズム技術...

...

...

2011 コンピュータソフトウェア試験プログラマー: アルゴリズム分析の基礎学習

コンピュータの問題解決のプロセスにおいて、データ構造とアルゴリズムはプログラムの 2 つの主要要素で...

XiaoIce 技術担当副社長、周 立氏: AI 対話がメタバースの新たな未来を切り開く

ゲスト: 周 麗編集者: Qianshan人間とコンピュータの対話は長い間私たちの日常生活に組み込ま...

国立国防技術大学は、モバイル環境下で高精度のオンラインRGB-D再構成を実現するROSEFusionを提案

最近、国立国防科技大学の徐凱教授のチームは、高速移動に対するランダム最適化に基づくオンライン RGB...

...

...

科学者たちは、人間のチームが海洋ゴミを見つけるのを助けるために人工知能を搭載したドローンを開発している

ニューアトラス誌の報道によると、海洋ゴミは、海に漂うゴミと海岸に打ち上げられるゴミの両方の形で大きな...

私の国のロボット産業には隠れた懸念があります。すべての関係者が協力して高品質の開発を推進します

近年、我が国のロボット産業は急速な発展傾向を示していますが、一方で、中核技術の弱さや粗利益率の低下な...

SQL Server 2008 の 9 つのデータ マイニング アルゴリズム

1. 決定木アルゴリズム決定木は判断木とも呼ばれ、バイナリ ツリーやマルチ ブランチ ツリーに似たツ...

研究によると、2027年までにAIの電力消費量は一部の国の電力消費量と同等になると予想されている。

10月17日のニュースによると、人工知能はプログラマーのプログラミング速度を上げ、ドライバーの安全...

一つ選びますか? Python 機械学習の実践的なヒント

原題は「Some Essential Hacks and Tricks for Machine Le...