ICCV'23論文表彰式は「神々の戦い」！ Meta Split EverythingとControlNetが両方とも選出され、審査員を驚かせた記事がもう一つありました

たった今、コンピュータービジョンの最高峰カンファレンスである ICCV 2023 がフランスのパリで正式に「賞をオープン」しました。

今年の最優秀論文賞は、まさに「神々の戦い」です。

例えば、最優秀論文賞を受賞した2つの論文のうちの1つは、文勝図AIの分野に革命をもたらした研究であるControlNetでした。

ControlNet はオープンソース化されて以来、GitHub で 24,000 個のスターを獲得しています。この論文は、拡散モデルとしても、コンピュータービジョンの分野全体としても、この賞に値するものです。

最優秀論文賞の佳作は、同じく有名なもう 1 つの論文、Meta の「Split Everything」モデル SAM に贈られました。

Segment Everything は発売以来、FastSAM、LISA、SegGPT などの多くの後続モデルを含むさまざまな画像セグメンテーション AI モデルの「ベンチマーク」となり、パフォーマンステストの参照ベンチマークとして使用されています。

論文ノミネートは非常に重要です。ICCV 2023 の競争はどれほど激しいのでしょうか?

全体として、ICCV 2023には合計8,068件の論文が提出されましたが、そのうち約4分の1にあたる2,160件のみが採択されました。

論文の約10％は中国からのもので、大学のほか、産業界の機関も多く、例えば、SenseTimeとその共同研究室はICCV 2023に49本の論文が選ばれており、Megviiは14本の論文が選ばれている。

ICCV 2023の受賞論文を見てみましょう。

ControlNetがICCV最優秀論文賞を受賞

まずは、今年度の優秀論文賞（Mar Prize）を受賞した2つの論文を見てみましょう。

ICCV 最優秀論文賞はMarr 賞とも呼ばれ、 2 年ごとに授与され、コンピュータービジョンの分野における最高の栄誉の 1 つとされています。

この賞は、コンピュータービジョンの父、コンピュータービジョンの先駆者、計算神経科学の創始者である David Courtnay Marr にちなんで名付けられました。

最初の最優秀論文賞はスタンフォード大学から贈られた「テキストから画像への拡散モデルへの条件付き制御の追加」です。

この論文では、事前学習済みの拡散モデルによって生成された詳細を、追加の入力を加えるだけで制御できるControlNetと呼ばれるモデルを提案しています。

ここでの入力は、スケッチ、エッジ画像、セマンティックセグメンテーション画像、人間のキーポイントの特徴、ハフ変換検出直線、深度マップ、人間の骨格など、さまざまなタイプにすることができます。いわゆる「AIが手を描くことができる」、コア技術はこの記事から来ています。

その考え方と構造は次のとおりです。

ControlNet はまず拡散モデルの重みをコピーして、「トレーニング可能なコピー」を取得します。

対照的に、元の拡散モデルは数十億枚の画像で事前トレーニングされていたため、パラメータは「ロック」されていました。この「トレーニング可能なコピー」は、条件付き制御を学習するために、特定のタスクの小さなデータセットでトレーニングするだけで済みます。

データ量が少ない場合（画像 50,000 枚以下）でも、モデルはトレーニング後に良好な条件付き制御結果を生成できます。

「ロックされたモデル」と「トレーニング可能なコピー」は、「0 畳み込み層」と呼ばれる 1×1 畳み込み層によって接続されます。畳み込み層の重みとバイアスは 0 に初期化されるため、トレーニングが非常に高速になり、拡散モデルの微調整の速度に近くなり、個人のデバイスでもトレーニングできます。

たとえば、NVIDIA RTX 3090TI では、200,000 枚の画像データを使用してトレーニングするのに 1 週間もかかりません。

ControlNet 論文の第一著者である Lvmin Zhang 氏は、現在スタンフォード大学の博士課程に在籍しています。ControlNet のほかにも、Style2Paints や Fooocus などの有名な作品も作成しています。

論文アドレス: https://arxiv.org/abs/2302.05543

2 番目の論文「パッシブ超広帯域シングル光子イメージング」はトロント大学からのものです。

この論文は選考委員会によって「このテーマに関する最も驚くべき論文」と呼ばれ、審査員の一人は「彼がこのようなことを試みようとは到底考えられなかった」と述べたほどである。

論文の要約は次のとおりです。

この記事では、極端な時間スケール (数秒からピコ秒) で動的なシーンを同時に画像化する方法について説明します。画像化は、受動的に (大量の光信号を能動的に送信せずに)、非常にまばらな光の状況で、光源からのタイミング信号に依存せずに実行する必要があります。

単一光子カメラの既存の光フロー推定技術はこの範囲では機能しないため、本論文では確率計算のアイデアを借用して、単調に増加する光子検出タイムスタンプのストリームからピクセルの時間変化する光フローを再構築する光フロー検出の理論を開発します。

この理論に基づいて、この論文では主に次の 3 つのことを行いました。
（１）低光束条件下では、受動型フリーランニング単一光子波長検出器カメラがDCから31GHzまでの全周波数スペクトルにわたる達成可能な周波数帯域幅を有することを実証する。
（２）タイムスタンプデータにおいて統計的に有意なサポートを持つ周波数をスキャンするための新しいフーリエ領域光学フロー再構成アルゴリズムを導出する。
（３）光子数が非常に少ない場合やデッドタイムが無視できない場合でも、アルゴリズムのノイズモデルが有効であることを確認する。

著者らは、これまでにない機能も含め、この非同期イメージング手法の可能性を実験的に実証しました。
（１）同期せずに異なる速度で動作する光源（ランプ、プロジェクター、マルチパルスレーザーなど）によって同時に照らされたシーンを画像化する。
（２）パッシブ非視線ビデオ取得
（３）日常的な動きを30Hzで再生できるだけでなく、光の伝播を10億分の1秒の速度で再生できる超広帯域映像を録画する。

論文の筆頭著者である Mian Wei 氏は、トロント大学の博士課程の学生です。彼の研究分野は計算写真学です。彼の現在の研究対象は、アクティブ照明イメージング技術に基づくコンピュータービジョンアルゴリズムの改善です。

論文アドレス: https://openaccess.thecvf.com/content/ICCV2023/papers/Wei_Passive_Ultra-Wideband_Single-Photon_Imaging_ICCV_2023_paper.pdf

「すべてを分割する」は佳作に選ばれた

大いに期待されていた ControNet に加えて、人気の高い Meta の「Split Everything」モデルがカンファレンスの最優秀論文賞にノミネートされました。

この論文では、1,100 万枚の画像に 10 億を超えるマスクを含む、現在最大の画像セグメンテーションデータセットを提案するだけでなく、そのための SAM モデルをトレーニングして、見えない画像を迅速にセグメント化できるようにします。

これまでの散在画像セグメンテーションモデルと比較すると、SAM はこのシリーズのモデルの機能を「統合」したと言え、さまざまなタスクで優れたパフォーマンスを示しています。

現在、このオープンソースモデルは GitHub で 38.8k 個のスターを獲得しており、セマンティックセグメンテーション業界の「ベンチマーク」と言えます。

論文アドレス: https://arxiv.org/abs/2304.02643
プロジェクトホームページ: https://segment-anything.com/

学生の作品の中では、Google が提案した「すべてを追跡する」モデルが目立っていました。

記事のタイトルのように、このモデルは、画像内の任意の（複数の）オブジェクトをピクセルレベルで任意の場所で同時に追跡できます。

このプロジェクトの第一著者は、現在コーネル大学で博士研究員として研究を行っているコーネル大学の中国人博士課程の学生、Qianqian Wang 氏です。

論文アドレス: https://arxiv.org/abs/2306.05422
プロジェクトホームページ: https://omnimotion.github.io/

さらに、開会式では、PAMITC 委員会のメンバーから寄贈された特別賞が発表されました。委員会は、2 つのコンピュータービジョンカンファレンス、CVPR と WACV にも賞を寄贈しました。

受賞する 4 つの賞は次のとおりです。

ヘルムホルツ賞: 10年前にコンピュータービジョン研究に大きな影響を与えたICCV論文
エベリンガム賞: コンピュータビジョンの進歩
優秀研究者：コンピュータビジョンの発展に多大な貢献をした研究者
ローゼンフェルド生涯功労賞：長年にわたりコンピュータビジョンの分野に多大な貢献をした研究者に贈られる賞

ヘルムホルツ賞の受賞者には、Meta AIの中国系アメリカ人科学者ヘン・ワン氏とGoogleのコーデリア・シュミット氏が含まれている。

彼らは2013年の動作認識に関する論文でこの賞を受賞した。

当時、二人はフランス国立情報学・自動化研究所（INRIA）のリア研究所で働いており、シュミット氏がそのリーダーを務めていた。

論文アドレス: https://ieeexplore.ieee.org/document/6751553

エベリンガム賞は2チームに授与されました。

最初の受賞者は、Google の Samer Agarwal 氏、Keir Mierle 氏、および彼らのチームです。

受賞者 2 名は、それぞれワシントン大学とトロント大学の卒業生です。受賞作品は、コンピュータービジョンの分野で広く使用されているオープンソースの C++ ライブラリである Ceres Solver です。

プロジェクトのホームページ: http://ceres-solver.org/

もう一つの受賞成果は COCO データセットです。これは、多数の画像と注釈を含み、豊富なコンテンツとタスクを備え、コンピュータービジョンモデルのテストに重要なデータセットです。

このデータセットはマイクロソフトが提案したもので、関連論文の第一著者は中国系アメリカ人科学者のツン・イー・リン氏です。同氏はコーネル大学で博士号を取得し、現在はNVIDIA Labsの研究員です。

論文アドレス: https://arxiv.org/abs/1405.0312
プロジェクトホームページ: https://cocodataset.org/

優秀研究者の栄誉を受けた2人の教授は、ドイツのマックス・プランク研究所のマイケル・ブラック教授とジョンズ・ホプキンス大学のラマ・シェラッパ教授でした。

MITのテッド・アデルソン教授が生涯功労賞を受賞した。

あなたの論文は ICCV 2023 に採択されましたか?今年の受賞作品の選定についてどう思いますか？

<<: コーダーの皆さん、おめでとうございます!マイクロソフトは、LLMを使用して168のコードベースにわたるコーディングタスクを自動化するCodePlanを提案している。

>>: GPT-4Vを試した後、マイクロソフトは166ページに及ぶ評価レポートを作成した。業界関係者：上級ユーザー必読

ICCV'23論文表彰式は「神々の戦い」！ Meta Split EverythingとControlNetが両方とも選出され、審査員を驚かせた記事がもう一つありました

ControlNetがICCV最優秀論文賞を受賞

「すべてを分割する」は佳作に選ばれた

公正な「データアクセス」の新秩序の構築 AIが都市統治に根付く

モノのインターネットにおけるAIの役割

研究は、人工知能が手術後のオピオイド使用を減らすのにどのように役立つかを示している

RoboFusion: SAM による堅牢なマルチモーダル 3D 検査

Pythonで完全な異常検出アルゴリズムをゼロから実装する

ChatGPT の大きなアップデート！ OpenAI はプログラマー向けの素晴らしいギフトパッケージを提供しています。API にキラー機能が追加され、値下げ、新しいモデル、4 つのコンテキストがすべて揃っています。

人間のフィードバックなしで調整します。田元東チームの新しい研究RLCD：無害で有益なアウトラインライティングはベースラインモデルを全面的に上回る

機械学習はインビザラインの患者が完璧な笑顔を手に入れるのを助けている

推薦する

Kuaishouは、技術的な実践を共有する最初のFlutter交換会を開催しました

高速ドローンは森の中を自律的に飛行し、旅の間中独自のルートを計画し、最高時速40キロメートルで飛行する。

烏鎮百度脳オープンデーが開催、EasyDL業界インテリジェンスイノベーションコンペティションを開始

AI、IoT、5Gの先進技術の背後にあるもの

アメリカの科学者が新技術を開発：ロボットが行動する前によく考えさせる

研究者らは従来のコンピューター上で複雑な量子コンピューティングアルゴリズムを実行する

機械学習について学びたい方はこちらをご覧ください。1ステップで専門家になる方法をお教えします！

ルート計画、経路探索アルゴリズムの導入とコード実装

百度、599ドルのスマートビデオスピーカーを発売

ロボット革命が到来。人類社会はどう対応すべきか？

2019 年の人工知能に関する 5 つの予測: 実用的な AI

「科学的シミュラクル」：人工知能とハイパーリアリティの衝突

李開復：今後数年間、中国で最も収益性の高い仕事は何でしょうか？

IoTとAIの相乗効果：予知保全の可能性を解き放つ