ICCV'23論文表彰式は「神々の戦い」! Meta Split EverythingとControlNetが両方とも選出され、審査員を驚かせた記事がもう一つありました

ICCV'23論文表彰式は「神々の戦い」! Meta Split EverythingとControlNetが両方とも選出され、審査員を驚かせた記事がもう一つありました

たった今、コンピュータービジョンの最高峰カンファレンスである ICCV 2023 がフランスのパリで正式に「賞をオープン」しました。

今年の最優秀論文賞は、まさに「神々の戦い」です。

例えば、最優秀論文賞を受賞した2つの論文のうちの1つは、文勝図AIの分野に革命をもたらした研究であるControlNetでした。

ControlNet はオープンソース化されて以来、GitHub で 24,000 個のスターを獲得しています。この論文は、拡散モデルとしても、コンピュータービジョンの分野全体としても、この賞に値するものです。

最優秀論文賞の佳作は、同じく有名なもう 1 つの論文、Meta の「Split Everything」モデル SAM に贈られました。

Segment Everything は発売以来、FastSAM、LISA、SegGPT などの多くの後続モデルを含むさまざまな画像セグメンテーション AI モデルの「ベンチマーク」となり、パフォーマンス テストの参照ベンチマークとして使用されています。

論文ノミネートは非常に重要です。ICCV 2023 の競争はどれほど激しいのでしょうか?

全体として、ICCV 2023には合計8,068件の論文が提出されましたが、そのうち約4分の1にあたる2,160件のみが採択されました。

論文の約10%は中国からのもので、大学のほか、産業界の機関も多く、例えば、SenseTimeとその共同研究室はICCV 2023に49本の論文が選ばれており、Megviiは14本の論文が選ばれている。

ICCV 2023の受賞論文を見てみましょう。

ControlNetがICCV最優秀論文賞を受賞

まずは、今年度の優秀論文賞(Mar Prize)を受賞した2つの論文を見てみましょう。

ICCV 最優秀論文賞はMarr 賞とも呼ばれ2 年ごとに授与され、コンピューター ビジョンの分野における最高の栄誉の 1 つとされています。

この賞は、コンピューター ビジョンの父、コンピューター ビジョンの先駆者、計算神経科学の創始者である David Courtnay Marr にちなんで名付けられました。

最初の最優秀論文賞はスタンフォード大学から贈られた「テキストから画像への拡散モデルへの条件付き制御の追加」です。

この論文では、事前学習済みの拡散モデルによって生成された詳細を、追加の入力を加えるだけで制御できるControlNetと呼ばれるモデルを提案しています。

ここでの入力は、スケッチ、エッジ画像、セマンティックセグメンテーション画像、人間のキーポイントの特徴、ハフ変換検出直線、深度マップ、人間の骨格など、さまざまなタイプにすることができます。いわゆる「AIが手を描くことができる」、コア技術はこの記事から来ています。

その考え方と構造は次のとおりです。

ControlNet はまず拡散モデルの重みをコピーして、「トレーニング可能なコピー」を取得します。

対照的に、元の拡散モデルは数十億枚の画像で事前トレーニングされていたため、パラメータは「ロック」されていました。この「トレーニング可能なコピー」は、条件付き制御を学習するために、特定のタスクの小さなデータセットでトレーニングするだけで済みます。

データ量が少ない場合(画像 50,000 枚以下)でも、モデルはトレーニング後に良好な条件付き制御結果を生成できます。

「ロックされたモデル」と「トレーニング可能なコピー」は、「0 畳み込み層」と呼ばれる 1×1 畳み込み層によって接続されます。畳み込み層の重みとバイアスは 0 に初期化されるため、トレーニングが非常に高速になり、拡散モデルの微調整の速度に近くなり、個人のデバイスでもトレーニングできます。

たとえば、NVIDIA RTX 3090TI では、200,000 枚の画像データを使用してトレーニングするのに 1 週​​間もかかりません。

ControlNet 論文の第一著者である Lvmin Zhang 氏は、現在スタンフォード大学の博士課程に在籍しています。ControlNet のほかにも、Style2Paints や Fooocus などの有名な作品も作成しています。

論文アドレス: https://arxiv.org/abs/2302.05543

2 番目の論文「パッシブ超広帯域シングル光子イメージング」はトロント大学からのものです。

この論文は選考委員会によって「このテーマに関する最も驚くべき論文」と呼ばれ、審査員の一人は「彼がこのようなことを試みようとは到底考えられなかった」と述べたほどである。

論文の要約は次のとおりです。

この記事では、極端な時間スケール (数秒からピコ秒​​) で動的なシーンを同時に画像化する方法について説明します。画像化は、受動的に (大量の光信号を能動的に送信せずに)、非常にまばらな光の状況で、光源からのタイミング信号に依存せずに実行する必要があります。

単一光子カメラの既存の光フロー推定技術はこの範囲では機能しないため、本論文では確率計算のアイデアを借用して、単調に増加する光子検出タイムスタンプのストリームからピクセルの時間変化する光フローを再構築する光フロー検出の理論を開発します。

この理論に基づいて、この論文では主に次の 3 つのことを行いました。
(1)低光束条件下では、受動型フリーランニング単一光子波長検出器カメラがDCから31GHzまでの全周波数スペクトルにわたる達成可能な周波数帯域幅を有することを実証する。
(2)タイムスタンプデータにおいて統計的に有意なサポートを持つ周波数をスキャンするための新しいフーリエ領域光学フロー再構成アルゴリズムを導出する。
(3)光子数が非常に少ない場合やデッドタイムが無視できない場合でも、アルゴリズムのノイズモデルが有効であることを確認する。

著者らは、これまでにない機能も含め、この非同期イメージング手法の可能性を実験的に実証しました。
(1)同期せずに異なる速度で動作する光源(ランプ、プロジェクター、マルチパルスレーザーなど)によって同時に照らされたシーンを画像化する。
(2)パッシブ非視線ビデオ取得
(3)日常的な動きを30Hzで再生できるだけでなく、光の伝播を10億分の1秒の速度で再生できる超広帯域映像を録画する。

論文の筆頭著者である Mian Wei 氏は、トロント大学の博士課程の学生です。彼の研究分野は計算写真学です。彼の現在の研究対象は、アクティブ照明イメージング技術に基づくコンピューター ビジョン アルゴリズムの改善です。

論文アドレス: https://openaccess.thecvf.com/content/ICCV2023/papers/Wei_Passive_Ultra-Wideband_Single-Photon_Imaging_ICCV_2023_paper.pdf

「すべてを分割する」は佳作に選ばれた

大いに期待されていた ControNet に加えて、人気の高い Meta の「Split Everything」モデルがカンファレンスの最優秀論文賞にノミネートされました。

この論文では、1,100 万枚の画像に 10 億を超えるマスクを含む、現在最大の画像セグメンテーション データセットを提案するだけでなく、そのための SAM モデルをトレーニングして、見えない画像を迅速にセグメント化できるようにします。

これまでの散在画像セグメンテーションモデルと比較すると、SAM はこのシリーズのモデルの機能を「統合」したと言え、さまざまなタスクで優れたパフォーマンスを示しています。

現在、このオープンソースモデルは GitHub で 38.8k 個のスターを獲得しており、セマンティックセグメンテーション業界の「ベンチマーク」と言えます。

論文アドレス: https://arxiv.org/abs/2304.02643
プロジェクトホームページ: https://segment-anything.com/

学生の作品の中では、Google が提案した「すべてを追跡する」モデルが目立っていました。

記事のタイトルのように、このモデルは、画像内の任意の(複数の)オブジェクトをピクセルレベルで任意の場所で同時に追跡できます。

このプロジェクトの第一著者は、現在コーネル大学で博士研究員として研究を行っているコーネル大学の中国人博士課程の学生、Qianqian Wang 氏です。

論文アドレス: https://arxiv.org/abs/2306.05422
プロジェクトホームページ: https://omnimotion.github.io/

さらに、開会式では、PAMITC 委員会のメンバーから寄贈された特別賞が発表されました。委員会は、2 つのコンピューター ビジョン カンファレンス、CVPR と WACV にも賞を寄贈しました。

受賞する 4 つの賞は次のとおりです。

  • ヘルムホルツ賞: 10年前にコンピュータービジョン研究に大きな影響を与えたICCV論文
  • エベリンガム賞: コンピュータビジョンの進歩
  • 優秀研究者:コンピュータビジョンの発展に多大な貢献をした研究者
  • ローゼンフェルド生涯功労賞:長年にわたりコンピュータビジョンの分野に多大な貢献をした研究者に贈られる賞

ヘルムホルツ賞の受賞者には、Meta AIの中国系アメリカ人科学者ヘン・ワン氏とGoogleのコーデリア・シュミット氏が含まれている。

彼らは2013年の動作認識に関する論文でこの賞を受賞した。

当時、二人はフランス国立情報学・自動化研究所(INRIA)のリア研究所で働いており、シュミット氏がそのリーダーを務めていた。

論文アドレス: https://ieeexplore.ieee.org/document/6751553

エベリンガム賞は2チームに授与されました。

最初の受賞者は、Google の Samer Agarwal 氏、Keir Mierle 氏、および彼らのチームです。

受賞者 2 名は、それぞれワシントン大学とトロント大学の卒業生です。受賞作品は、コンピューター ビジョンの分野で広く使用されているオープン ソースの C++ ライブラリである Ceres Solver です。

プロジェクトのホームページ: http://ceres-solver.org/

もう一つの受賞成果は COCO データセットです。これは、多数の画像と注釈を含み、豊富なコンテンツとタスクを備え、コンピューター ビジョン モデルのテストに重要なデータセットです。

このデータセットはマイクロソフトが提案したもので、関連論文の第一著者は中国系アメリカ人科学者のツン・イー・リン氏です。同氏はコーネル大学で博士号を取得し、現在はNVIDIA Labsの研究員です。


論文アドレス: https://arxiv.org/abs/1405.0312
プロジェクトホームページ: https://cocodataset.org/

優秀研究者の栄誉を受けた2人の教授は、ドイツのマックス・プランク研究所のマイケル・ブラック教授とジョンズ・ホプキンス大学のラマ・シェラッパ教授でした。

MITのテッド・アデルソン教授が生涯功労賞を受賞した。

あなたの論文は ICCV 2023 に採択されましたか?今年の受賞作品の選定についてどう思いますか?

<<:  コーダーの皆さん、おめでとうございます!マイクロソフトは、LLMを使用して168のコードベースにわたるコーディングタスクを自動化するCodePlanを提案している。

>>:  GPT-4Vを試した後、マイクロソフトは166ページに及ぶ評価レポートを作成した。業界関係者:上級ユーザー必読

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

「Nvidia人工呼吸器」オープンソース:コンピュータアーキテクチャのマスターによって構築され、コストが98%削減され、黄仁訓が賞賛

この人工呼吸器は、コンピューターアーキテクチャの巨匠ビル・ダリー氏によって設計されました。コンピュー...

AIの「心の目」が透けて見える!ニューラルネットワークに大きな変化、モデル生成の背後にあるロジックが初めて明らかに

エイリアンの小さな頭の中で何が起こっているのか、そしてエイリアンは世界をどのように認識しているのか疑...

速達荷物を受け取るには顔認証しか方法がないのでしょうか?上海郵政:申通、菜鳥郵政などと面談し、集荷の同意を得る必要がある

[[404490]]宅配業者があなたに電話もせずに荷物を集荷場所に「投げる」という経験をしたことはあ...

さあ、アルゴリズムの複雑さをもう一度理解しましょう!

[[346356]] 0. はじめにみなさんこんにちは。私は、複数選択パラメータのプログラマーポッ...

これはオートエンコーダーとRNNの両方である。DeepMindの科学者は拡散モデルを8つの観点から分析する。

最も人気のある AI ペイント ツールの 1 つである Stable Diffusion を試したこ...

...

九張雲吉DataCanvasマルチモーダル大規模モデルプラットフォームの実践と思考

1. マルチモーダル大規模モデルの歴史的発展上の写真は、1956年にアメリカのダートマス大学で開催さ...

3Dチップ技術がコンピューティングに破壊的な変化をもたらす3つの方法:AMD、Graphcore、Intelはそれぞれ独自の秘策を秘めている

高性能プロセッサに関する研究は、ムーアの法則を継続する新たな方向性が到来していることを示しています。...

Nvidia、Hugging Face、ServiceNow がコード生成用の新しい StarCoder2 LLM をリリース

現在 3 つの異なるサイズで提供されているこれらのモデルは、リソースの少ない言語を含む 600 以上...

GPT-2からGPT-4まで、大規模言語モデルの革新を探る

翻訳者 |陳俊レビュー | Chonglou最近では、大規模言語モデル ( LLM )を使用して、書...

...

次世代モバイルコンピューティングの予測

テクノロジーは前例のない速度で進歩しており、モバイル コンピューティングの将来は変革的な進歩を約束し...

2021年の人工知能分野の技術開発の概要

本稿では、海外の人工知能分野の科学技術発展の現状を調査し、その発展動向を判断するために、2021年の...

XML 圧縮アルゴリズムについての簡単な説明

XML 圧縮ユニットテストコードクラスプログラム { パブリック静的文字列XML = @"...