HKU Alibabaの「Visual AI Anywhere Door」は、ワンクリックでオブジェクトをあらゆるシーンにシームレスに転送できる

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

マウスを 2 回クリックするだけで、オブジェクトを写真シーンにシームレスに「テレポート」でき、照明の角度と視点を自動的に調整できます。

Alibaba と HKU による「Anyway Door」の AI バージョンは、ゼロサンプル画像の埋め込みを実現します。

これを使えば、オンラインで服を購入するときに、それが自分にどう見えるかを直接確認できます。

その機能はAnyDoorと非常に似ているため、R＆DチームはこれをAnyDoorと名付けました。

AnyDoor は一度に複数のオブジェクトをテレポートできます。

写真

それだけでなく、画像内の既存のオブジェクトを移動することもできます。

写真

それを見たネットユーザーの中には、次のステップは（物体を動画に転送する）ことに進化するかもしれないと感嘆の声を上げる人もいた。

ゼロショットのフォトリアリスティックな結果

既存の同様のモデルと比較して、AnyDoor はゼロサンプル操作機能を備えており、特定のアイテムに合わせてモデルを調整する必要はありません。

パラメータ調整が必要なこれらのモデルに加えて、AnyDoor は他のリファレンスモデルよりも精度が高くなります。

実際、他の参照クラスモデルでは、意味的な一貫性のみを維持できます。

簡単に言えば、送信するオブジェクトが猫の場合、他のモデルでは結果にも猫が含まれていることしか保証できず、類似性は保証できません。

AnyDoor エフェクトを拡大して、欠陥がないか確認してみましょう。

ユーザー評価の結果でも、AnyDoor が品質と精度の点で既存のモデルを上回っていることが確認されました (満点 4)。

AnyDoor は、既存の画像内のオブジェクトの移動、再配置、さらには姿勢の変更においても優れた機能を発揮します。

では、AnyDoor はどのようにしてこれらの機能を実現するのでしょうか?

仕組み

写真

オブジェクトをテレポートするには、まずそれを抽出する必要があります。

ただし、AnyDoor は、対象オブジェクトを含む画像を抽出プログラムに取り込む前に、まずその背景を削除します。

次に、AnyDoor は自己監視型オブジェクト抽出を実行し、それをトークンに変換します。

このステップで使用されるエンコーダーは、現在最高の自己教師モデルである DINO-V2 に基づいて設計されています。

角度や光の変化に適応するためには、物体の全体的な特徴を抽出するだけでなく、追加の詳細情報も抽出する必要があります。

このステップでは、過剰な制約を回避するために、チームは高頻度グラフを使用して特徴情報を表す方法を設計しました。

対象画像を Sobel 演算子などのハイパスフィルターで畳み込むことで、高周波の詳細を含む画像を取得できます。

同時に、AnyDoor は Hadamard を使用して画像から RGB カラー情報を抽出します。

この情報をエッジ情報をフィルタリングするマスクと組み合わせると、高周波の詳細のみを含む HF マップが得られます。

最後のステップは、この情報を挿入することです。

取得したトークンを使用して、AnyDoor はテキストグラフモデルを通じて画像を合成します。

具体的には、AnyDoor は ControlNet を使用した Stable Diffusion を使用します。

AnyDoor は大まかにこのように動作します。トレーニングに関しては、特別な戦略もいくつかあります。

△ AnyDoorが使用するトレーニングデータセット

AnyDoor は静止画像を対象としていますが、トレーニングに使用されるデータの一部はビデオから抽出されます。

同じオブジェクトに対して、異なる背景を含む画像をビデオから抽出できます。

オブジェクトを背景から分離し、注釈を付けてペアリングした後、AnyDoor のトレーニングデータが形成されます。

しかし、ビデオデータは学習には有益ですが、まだ対処する必要がある品質の問題が残っています。

次に、チームは、さまざまな時間における変化と詳細情報を収集するための適応型時間ステップサンプリング戦略を設計しました。

アブレーション実験の結果、これらの戦略を追加すると、CLIP スコアと DINO スコアが徐々に増加することがわかりました。

チームについて

論文の筆頭著者は、香港大学の博士課程の学生で、以前はアリババ・グループでアルゴリズム・エンジニアをしていたシ・チェン氏である。

Chen Xi の指導者である Hengshuang Zhao がこの記事の責任著者です。彼の研究分野には、マシンビジョンと機械学習が含まれます。

さらに、アリババのDAMOアカデミーとCainiaoグループの研究者もこのプロジェクトに参加しました。

論文アドレス: https://arxiv.org/abs/2307.09481

<<:

>>: 写真を3Dに変換する品質が急上昇！ GitHub がショートポジションをオープンしたところ、300 人以上がスターを付けました

深センの無人バスの試験走行がWeChatモーメンツで話題に！

ブログ

ついに！ファーウェイの次世代カメラはカメラには見えない

ブログ

人工知能は将来言語をどのように変えるのでしょうか?

ブログ

UiPath、業界初のエンドツーエンドのハイパーオートメーションプラットフォームを発表

ブログ

科学者：大規模なAIモデルは小さなAIツールを自動的に生成できる

ブログ

クアルコムとインテルはAIをデータセンターから移行したいと考えている

ブログ

HKU Alibabaの「Visual AI Anywhere Door」は、ワンクリックでオブジェクトをあらゆるシーンにシームレスに転送できる

ゼロショットのフォトリアリスティックな結果

仕組み

チームについて

深センの無人バスの試験走行がWeChatモーメンツで話題に！

ついに！ファーウェイの次世代カメラはカメラには見えない

人工知能は将来言語をどのように変えるのでしょうか?

UiPath、業界初のエンドツーエンドのハイパーオートメーションプラットフォームを発表

科学者：大規模なAIモデルは小さなAIツールを自動的に生成できる

クアルコムとインテルはAIをデータセンターから移行したいと考えている

推薦する

目に見えないものが見えるようになる！メタマテリアルとAIが融合し音像を解読

MySQLインデックスの背後にあるデータ構造とアルゴリズムの原理

自然言語処理がビジネスインテリジェンスの未来である理由

テレンス・タオが、60 年前のもう一つの幾何学の問題に取り組みます。周期的タイル分割問題における新たなブレークスルー

AI のブラックボックスを開く: 「説明可能な」人工知能 (XAI) への認知ガイド!

機械学習エンジニアは職を失いつつあるが、学習が唯一の解決策であることに変わりはない

ロボットは「職業を変える」、新しいトレンドは新しい機会をもたらす

ビッグデータAIベースのセキュリティシステムにおける倫理的偏見

企業における機械学習: 次の 1 兆ドル規模の成長はどこから来るのでしょうか?

2020年の人工知能開発動向予測

デジタルマーケティングにおけるAI革命

20年間のAIベテランの告白

高性能な MongoDB データ移行ツールの構築: Java 開発の実践

マイクロソフトのハリー・シャムがGitHub、データの信念、そしてコンピューティングの未来について語る