ICCV'23論文表彰式は「神々の戦い」! Meta Split EverythingとControlNetが両方とも選出され、審査員を驚かせた記事がもう一つありました

ICCV'23論文表彰式は「神々の戦い」! Meta Split EverythingとControlNetが両方とも選出され、審査員を驚かせた記事がもう一つありました

たった今、コンピュータービジョンの最高峰カンファレンスである ICCV 2023 がフランスのパリで正式に「賞をオープン」しました。

今年の最優秀論文賞は、まさに「神々の戦い」です。

例えば、最優秀論文賞を受賞した2つの論文のうちの1つは、文勝図AIの分野に革命をもたらした研究であるControlNetでした。

ControlNet はオープンソース化されて以来、GitHub で 24,000 個のスターを獲得しています。この論文は、拡散モデルとしても、コンピュータービジョンの分野全体としても、この賞に値するものです。

最優秀論文賞の佳作は、同じく有名なもう 1 つの論文、Meta の「Split Everything」モデル SAM に贈られました。

Segment Everything は発売以来、FastSAM、LISA、SegGPT などの多くの後続モデルを含むさまざまな画像セグメンテーション AI モデルの「ベンチマーク」となり、パフォーマンス テストの参照ベンチマークとして使用されています。

論文ノミネートは非常に重要です。ICCV 2023 の競争はどれほど激しいのでしょうか?

全体として、ICCV 2023には合計8,068件の論文が提出されましたが、そのうち約4分の1にあたる2,160件のみが採択されました。

論文の約10%は中国からのもので、大学のほか、産業界の機関も多く、例えば、SenseTimeとその共同研究室はICCV 2023に49本の論文が選ばれており、Megviiは14本の論文が選ばれている。

ICCV 2023の受賞論文を見てみましょう。

ControlNetがICCV最優秀論文賞を受賞

まずは、今年度の優秀論文賞(Mar Prize)を受賞した2つの論文を見てみましょう。

ICCV 最優秀論文賞はMarr 賞とも呼ばれ2 年ごとに授与され、コンピューター ビジョンの分野における最高の栄誉の 1 つとされています。

この賞は、コンピューター ビジョンの父、コンピューター ビジョンの先駆者、計算神経科学の創始者である David Courtnay Marr にちなんで名付けられました。

最初の最優秀論文賞はスタンフォード大学から贈られた「テキストから画像への拡散モデルへの条件付き制御の追加」です。

この論文では、事前学習済みの拡散モデルによって生成された詳細を、追加の入力を加えるだけで制御できるControlNetと呼ばれるモデルを提案しています。

ここでの入力は、スケッチ、エッジ画像、セマンティックセグメンテーション画像、人間のキーポイントの特徴、ハフ変換検出直線、深度マップ、人間の骨格など、さまざまなタイプにすることができます。いわゆる「AIが手を描くことができる」、コア技術はこの記事から来ています。

その考え方と構造は次のとおりです。

ControlNet はまず拡散モデルの重みをコピーして、「トレーニング可能なコピー」を取得します。

対照的に、元の拡散モデルは数十億枚の画像で事前トレーニングされていたため、パラメータは「ロック」されていました。この「トレーニング可能なコピー」は、条件付き制御を学習するために、特定のタスクの小さなデータセットでトレーニングするだけで済みます。

データ量が少ない場合(画像 50,000 枚以下)でも、モデルはトレーニング後に良好な条件付き制御結果を生成できます。

「ロックされたモデル」と「トレーニング可能なコピー」は、「0 畳み込み層」と呼ばれる 1×1 畳み込み層によって接続されます。畳み込み層の重みとバイアスは 0 に初期化されるため、トレーニングが非常に高速になり、拡散モデルの微調整の速度に近くなり、個人のデバイスでもトレーニングできます。

たとえば、NVIDIA RTX 3090TI では、200,000 枚の画像データを使用してトレーニングするのに 1 週​​間もかかりません。

ControlNet 論文の第一著者である Lvmin Zhang 氏は、現在スタンフォード大学の博士課程に在籍しています。ControlNet のほかにも、Style2Paints や Fooocus などの有名な作品も作成しています。

論文アドレス: https://arxiv.org/abs/2302.05543

2 番目の論文「パッシブ超広帯域シングル光子イメージング」はトロント大学からのものです。

この論文は選考委員会によって「このテーマに関する最も驚くべき論文」と呼ばれ、審査員の一人は「彼がこのようなことを試みようとは到底考えられなかった」と述べたほどである。

論文の要約は次のとおりです。

この記事では、極端な時間スケール (数秒からピコ秒​​) で動的なシーンを同時に画像化する方法について説明します。画像化は、受動的に (大量の光信号を能動的に送信せずに)、非常にまばらな光の状況で、光源からのタイミング信号に依存せずに実行する必要があります。

単一光子カメラの既存の光フロー推定技術はこの範囲では機能しないため、本論文では確率計算のアイデアを借用して、単調に増加する光子検出タイムスタンプのストリームからピクセルの時間変化する光フローを再構築する光フロー検出の理論を開発します。

この理論に基づいて、この論文では主に次の 3 つのことを行いました。
(1)低光束条件下では、受動型フリーランニング単一光子波長検出器カメラがDCから31GHzまでの全周波数スペクトルにわたる達成可能な周波数帯域幅を有することを実証する。
(2)タイムスタンプデータにおいて統計的に有意なサポートを持つ周波数をスキャンするための新しいフーリエ領域光学フロー再構成アルゴリズムを導出する。
(3)光子数が非常に少ない場合やデッドタイムが無視できない場合でも、アルゴリズムのノイズモデルが有効であることを確認する。

著者らは、これまでにない機能も含め、この非同期イメージング手法の可能性を実験的に実証しました。
(1)同期せずに異なる速度で動作する光源(ランプ、プロジェクター、マルチパルスレーザーなど)によって同時に照らされたシーンを画像化する。
(2)パッシブ非視線ビデオ取得
(3)日常的な動きを30Hzで再生できるだけでなく、光の伝播を10億分の1秒の速度で再生できる超広帯域映像を録画する。

論文の筆頭著者である Mian Wei 氏は、トロント大学の博士課程の学生です。彼の研究分野は計算写真学です。彼の現在の研究対象は、アクティブ照明イメージング技術に基づくコンピューター ビジョン アルゴリズムの改善です。

論文アドレス: https://openaccess.thecvf.com/content/ICCV2023/papers/Wei_Passive_Ultra-Wideband_Single-Photon_Imaging_ICCV_2023_paper.pdf

「すべてを分割する」は佳作に選ばれた

大いに期待されていた ControNet に加えて、人気の高い Meta の「Split Everything」モデルがカンファレンスの最優秀論文賞にノミネートされました。

この論文では、1,100 万枚の画像に 10 億を超えるマスクを含む、現在最大の画像セグメンテーション データセットを提案するだけでなく、そのための SAM モデルをトレーニングして、見えない画像を迅速にセグメント化できるようにします。

これまでの散在画像セグメンテーションモデルと比較すると、SAM はこのシリーズのモデルの機能を「統合」したと言え、さまざまなタスクで優れたパフォーマンスを示しています。

現在、このオープンソースモデルは GitHub で 38.8k 個のスターを獲得しており、セマンティックセグメンテーション業界の「ベンチマーク」と言えます。

論文アドレス: https://arxiv.org/abs/2304.02643
プロジェクトホームページ: https://segment-anything.com/

学生の作品の中では、Google が提案した「すべてを追跡する」モデルが目立っていました。

記事のタイトルのように、このモデルは、画像内の任意の(複数の)オブジェクトをピクセルレベルで任意の場所で同時に追跡できます。

このプロジェクトの第一著者は、現在コーネル大学で博士研究員として研究を行っているコーネル大学の中国人博士課程の学生、Qianqian Wang 氏です。

論文アドレス: https://arxiv.org/abs/2306.05422
プロジェクトホームページ: https://omnimotion.github.io/

さらに、開会式では、PAMITC 委員会のメンバーから寄贈された特別賞が発表されました。委員会は、2 つのコンピューター ビジョン カンファレンス、CVPR と WACV にも賞を寄贈しました。

受賞する 4 つの賞は次のとおりです。

  • ヘルムホルツ賞: 10年前にコンピュータービジョン研究に大きな影響を与えたICCV論文
  • エベリンガム賞: コンピュータビジョンの進歩
  • 優秀研究者:コンピュータビジョンの発展に多大な貢献をした研究者
  • ローゼンフェルド生涯功労賞:長年にわたりコンピュータビジョンの分野に多大な貢献をした研究者に贈られる賞

ヘルムホルツ賞の受賞者には、Meta AIの中国系アメリカ人科学者ヘン・ワン氏とGoogleのコーデリア・シュミット氏が含まれている。

彼らは2013年の動作認識に関する論文でこの賞を受賞した。

当時、二人はフランス国立情報学・自動化研究所(INRIA)のリア研究所で働いており、シュミット氏がそのリーダーを務めていた。

論文アドレス: https://ieeexplore.ieee.org/document/6751553

エベリンガム賞は2チームに授与されました。

最初の受賞者は、Google の Samer Agarwal 氏、Keir Mierle 氏、および彼らのチームです。

受賞者 2 名は、それぞれワシントン大学とトロント大学の卒業生です。受賞作品は、コンピューター ビジョンの分野で広く使用されているオープン ソースの C++ ライブラリである Ceres Solver です。

プロジェクトのホームページ: http://ceres-solver.org/

もう一つの受賞成果は COCO データセットです。これは、多数の画像と注釈を含み、豊富なコンテンツとタスクを備え、コンピューター ビジョン モデルのテストに重要なデータセットです。

このデータセットはマイクロソフトが提案したもので、関連論文の第一著者は中国系アメリカ人科学者のツン・イー・リン氏です。同氏はコーネル大学で博士号を取得し、現在はNVIDIA Labsの研究員です。


論文アドレス: https://arxiv.org/abs/1405.0312
プロジェクトホームページ: https://cocodataset.org/

優秀研究者の栄誉を受けた2人の教授は、ドイツのマックス・プランク研究所のマイケル・ブラック教授とジョンズ・ホプキンス大学のラマ・シェラッパ教授でした。

MITのテッド・アデルソン教授が生涯功労賞を受賞した。

あなたの論文は ICCV 2023 に採択されましたか?今年の受賞作品の選定についてどう思いますか?

<<:  コーダーの皆さん、おめでとうございます!マイクロソフトは、LLMを使用して168のコードベースにわたるコーディングタスクを自動化するCodePlanを提案している。

>>:  GPT-4Vを試した後、マイクロソフトは166ページに及ぶ評価レポートを作成した。業界関係者:上級ユーザー必読

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

2020 年の AI と分析の 5 つの災害

今日の新しいテクノロジーの進歩により、私たちは皆、データの重要性を認識しています。データは新たな石油...

...

現在、世界中で解決を待っている上位 10 の課題は何ですか?

[[261996]] 1. 炭素隔離地球規模で見れば、温室効果ガスの排出量を減らすだけでは気温の急...

現在世界で最も重要な古典的アルゴリズムトップ10

今日の世界では、数え切れないほどの古典的なアルゴリズムが発見または作成されてきました。最も価値あるア...

アメリカの科学者が、将来AI人工知能に代わるAGIの概念を提唱しました!

人工知能の分野の中心にあるのは、いつの日か人間と同じくらい賢い機械を作ることができるようになるという...

今後5~10年で、人工知能+ブロックチェーンは第三者による支払いを終わらせるだろう

インターネットの出現により、伝統的な取引方法は一変しました。第三者保証の取引プラットフォームとして、...

[詳細] 人工知能を私たちが理解することは決してできないというのは本当でしょうか?

音声認識から言語翻訳、囲碁ロボットから自動運転車まで、あらゆる分野で人工知能による新たな進歩が起こっ...

AIが医療をどう変えるか リアルタイムのデータ分析は医療にとって重要

科学者たちは、人工知能が多くの分野で人間を日常的な作業から解放できると信じています。ヘルスケアはこう...

...

「2024年最重要AIチャート」が大拡散中!オープンソースのAIモデルは独自のモデルよりも優れているとルカン氏は称賛

最近、この写真はAIコミュニティで広まり始め、LeCun氏もそれを転送しました。この図は、AI オー...

Googleは、自社のBardを含むチャットボットの使用には注意するよう従業員に警告している。

ロイター通信は6月19日、事情に詳しい4人の関係者の話として、グーグルの親会社アルファベットはチャッ...

魔法の顔認識: たとえマスクやサングラスをかけていても、身近な人を認識できるのはなぜでしょうか?

見知らぬ人々の集団の中に見覚えのある人を見つけたり、とても見覚えのある顔を見かけたりします。その人は...

開発者に人気の機械学習 API 10 選

つい最近まで、人工知能には科学者が白衣を着て研究室で研究を行う必要があると考えられていました。この科...

...