ControlNet、「Split Everything」などの人気論文が受賞、ICCV 2023論文賞が発表

ControlNet、「Split Everything」などの人気論文が受賞、ICCV 2023論文賞が発表

今週、フランスのパリで国際コンピュータビジョン会議 (ICCV) が開幕しました。

ICCVはコンピュータビジョン分野における世界最高峰の学術会議として2年ごとに開催されています。

CVPR と同様に、ICCV の人気は新たな高みに達し続けています。

本日の開会式で、ICCVは今年の論文データを正式に発表しました。今年のICCVへの提出論文総数は8,068件に達し、そのうち2,160件が採択され、採択率は26.8%で、前回のICCV 2021の採択率25.9%をわずかに上回りました。

論文トピックに関して、関係者は関連データも発表した。マルチビューとセンサーによる3Dが最も人気がある。

本日の開会式の最も重要な内容は、もちろん表彰式です。それでは、最優秀論文、最優秀論文ノミネート、最優秀学生論文を順に発表させていただきます。

最優秀論文賞 - マー賞

今年は合計2本の論文が最優秀論文賞(Mar Prize)を受賞しました。

最初のものはトロント大学の研究者によるものです。


  • 論文アドレス: https://openaccess.thecvf.com/content/ICCV2023/papers/Wei_Passive_Ultra-Wideband_Single-Photon_Imaging_ICCV_2023_paper.pdf
  • 著者: Mian Wei、Sotiris Nousias、Rahul Gulve、David B. Lindell、Kiriakos N. Kutulakos
  • 機関: トロント大学

概要: この論文では、極限の時間スケール (数秒からピコ秒​​) で動的シーンを同時に、しかも大量の光や光源からのタイミング信号なしで受動的に画像化する問題について検討します。単一光子カメラの既存のフラックス推定技術はこの設定では機能しないため、確率計算からの洞察を引き出し、単調に増加する光子検出タイムスタンプのストリームからピクセルでの時間変動フラックスの再構築を可能にするフラックス検出理論を開発しました。

本論文では、この理論を利用して、(1)パッシブフリーランニングSPADカメラが低フラックス条件下でDCから31GHzの全範囲にわたる達成可能な周波数帯域幅を持つことを示す、(2)新しいフーリエ領域フラックス再構成アルゴリズムを導出する、(3)非常に低い光子数や無視できないデッドタイムの​​場合でもアルゴリズムのノイズモデルが有効であることを確認する。

私たちは、この非同期画像化メカニズムの潜在能力を実験的に実証しました。その能力とは、(1)同期せずに大幅に異なる速度で動作する光源(電球、プロジェクター、複数のパルスレーザー)によって同時に照らされたシーンの画像化、(2)パッシブな視線外ビデオ取得、(3)日常の動きを示すために後で30Hzで再生できる超広帯域ビデオの記録、また光自体の伝播を示すために10億倍遅く再生することもできるビデオの記録です。

2 つ目は、ControNet と呼ばれるものです。

  • 論文アドレス: https://arxiv.org/pdf/2302.05543.pdf
  • 著者: Lvmin Zhang、Anyi Rao、Maneesh Agrawala
  • 機関: スタンフォード大学

概要: 本論文では、エンドツーエンドのニューラル ネットワーク アーキテクチャ ControlNet を提案します。これは、拡散モデルを制御するための追加条件 (安定拡散など) を追加することで画像間効果を改善し、線画からフルカラー画像を生成し、同じ深層構造を持つ画像を生成し、手のキー ポイントを通じて手の生成を最適化することができます。

ControlNetの核となるアイデアは、テキスト記述に加えていくつかの追加条件を追加して拡散モデル(安定した拡散など)を制御し、生成された画像の文字の姿勢、深さ、画像構造などの情報をより適切に制御することです。

ここでの追加条件は画像の形式で入力されます。モデルは、この入力画像に基づいて、Canny エッジ検出、深度検出、セマンティック セグメンテーション、Hough 変換線検出、全体的ネスト エッジ検出 (HED)、人間の姿勢認識などを実行し、生成された画像にこの情報を保持します。このモデルを使用すると、線画や落書きをフルカラー画像に直接変換したり、同じ深層構造を持つ画像を生成したりすることができます。また、手のキーポイントを通じてキャラクターの手の生成を最適化することもできます。

詳細については、Machine Heart のレポート「AI の次元削減が人間の画家に衝撃を与え、文化的なイメージが ControlNet に導入され、深度とエッジ情報が完全に再利用される」を参照してください。

最優秀論文賞ノミネート: SAM

今年4月、Meta社は、あらゆる画像や動画内のあらゆるオブジェクトのマスクを生成できるAIモデル「Segment Everything(SAM)」をリリースし、コンピュータービジョン(CV)分野の研究者らから「CVはもう存在しない」という声が上がった。

今日、この待望の論文は、このジャーナルの最優秀論文にノミネートされました。

  • 論文アドレス: https://arxiv.org/abs/2304.02643
  • 代理店: メタAI

はじめに: これまで、セグメンテーション問題を解決するには、大きく分けて 2 つのアプローチがありました。 1 つ目はインタラクティブなセグメンテーションです。これにより、あらゆるクラスのオブジェクトをセグメント化できますが、マスクを繰り返し調整することで人間が方法をガイドする必要があります。 2 つ目の自動セグメンテーションでは、事前に定義された特定のオブジェクト カテゴリ (猫や椅子など) をセグメント化できますが、トレーニングには手動で注釈が付けられた多数のオブジェクト (セグメント化された猫の例が数千、数万個など) が必要です。どちらのアプローチも、一般的な、完全に自動化されたセグメンテーション方法を提供しません。

Meta が提案した SAM は、これら 2 つの方法をうまくまとめています。インタラクティブなセグメンテーションと自動セグメンテーションの両方を簡単に実行できる単一のモデルです。モデルのヒント可能なインターフェースにより、ユーザーはモデルに適切なヒント (クリック、ボックス、テキストなど) を設計するだけで、モデルを柔軟に使用して、さまざまなセグメンテーション タスクを実行できます。

これらの機能を組み合わせることで、SAM を新しいタスクやドメインに一般化できるようになります。この柔軟性は、画像セグメンテーションの分野では初めてのものです。

詳しい紹介はMachine Heartレポート「CVはもう存在しない?」をご覧ください。 Meta が「すべてを分割する」AI モデルをリリース、CV が GPT-3 の時代を先導する可能性

最優秀学生論文

この研究はコーネル大学、Google Research、カリフォルニア大学バークレー校の研究者らによって実施され、コーネル工科大学の博士課程学生であるQianqian Wang氏が第一著者となった。彼らは、ビデオ内の各ピクセルに対して正確で完全な動きの推定を実行するための、完全かつ全体的に一貫した動きの表現である OmniMotion と、新しいテスト時間最適化手法を共同で提案しました。

  • 論文アドレス: https://arxiv.org/abs/2306.05422
  • プロジェクトホームページ: https://omnimotion.github.io/

概要: コンピューター ビジョンの分野では、スパース フィーチャ トラッキングと高密度オプティカル フローの 2 つの一般的な動き推定方法が使用されます。ただし、どちらの方法にも欠点があります。スパース フィーチャ トラッキングではすべてのピクセルの動きをモデル化できず、高密度オプティカル フローでは長時間にわたる動きの軌跡をキャプチャできません。

本研究で提案された OmniMotion は、準 3D 標準ボリュームを使用してビデオを表現し、ローカル空間と標準空間間の一対一変換を通じて各ピクセルを追跡します。この表現は、全体的な一貫性を保証し、オブジェクトが遮蔽されている場合でもモーション トラッキングを可能にし、カメラとオブジェクトの動きのあらゆる組み合わせをモデル化します。この研究では、提案された方法が既存の SOTA 方法よりも大幅に優れていることを実験を通じて実証しました。

詳細については、Synced レポートを参照してください: 「『すべてを追跡する』ビデオ アルゴリズムがここにあります。いつでもどこでも、遮蔽を恐れることなく、すべてのピクセルを追跡します。」

もちろん、これらの受賞論文以外にも、今年の ICCV には注目に値する優れた論文が数多く掲載されています。最後に、受賞論文 17 件の初期リストを添付します。

<<:  スタンフォードNLPコースXCS224Uのビデオが公開されました。実用的な情報が満載です。ぜひ聞いてください。

>>:  アマゾンは40億ドルを投資し、グーグルや他の企業もさらに20億ドルを投資する予定で、アントロピックの評価額は急上昇中

推薦する

連休明けの電力安定供給のため、変電所点検ロボットが活躍中

前年と比べると、春節期間中の電力供給の確保においてハイテク技術が重要な役割を果たした。ロボットによる...

...

産業用ロボットの限界

今日、産業用ロボットはほぼすべての産業で使用されています。これらは製造施設に数多くのメリットをもたら...

顔認識の過去と現在

顔認識技術はもともとSFの世界のコンセプトでした。しかし、過去 10 年間で、顔認識技術は現実のもの...

...

機械学習の未来

[[401300]]データ ライフサイクルの管理は、自動運転車の開発において重要な部分です。自動運転...

AIと機械学習を活用して工場の安全を守る

自動化されたセキュリティの将来には機械学習が関与するでしょう。人工知能と機械学習の進歩により、ロボッ...

ドラッグアンドドロップ機械学習の愛と憎しみ

ドラッグアンドドロップ機械学習は、私が長い間考えてきたものです。 1. 過去世と現在世ドラッグ アン...

...

Java プログラミング スキル - データ構造とアルゴリズム「バランス バイナリ ツリー」

[[390860]]バイナリソートツリーで起こりうる問題シーケンス {1,2,3,4,5,6} が...

今後数年間の AI 求人市場はどのようになるでしょうか?

[[353999]] AI がもたらす自動化の脅威によって仕事が奪われる一方で、AI は新しい職種...

...

スポーツイベントではロボットが人間に取って代わるのでしょうか?

スポーツにロボットを導入することは、器用な移動、リアルタイムのモーション制御、経路計画などの最新ロボ...

メジャーアップデート!マイクロソフトが人工知能プラットフォーム「Windows ML」を発表

マイクロソフトは、Windows 開発者に、コードネーム Redstone 4 と呼ばれる今春の W...

パートナーはいますか? Facebookの従業員が休暇中にロボットを家に持ち帰り、死に関する質問に答える

[[286539]]ビッグデータダイジェスト制作著者: 張大毓如、陳若夢春節が近づいてきました!叔母...