HKU Alibabaの「Visual AI Anywhere Door」は、ワンクリックでオブジェクトをあらゆるシーンにシームレスに転送できる

HKU Alibabaの「Visual AI Anywhere Door」は、ワンクリックでオブジェクトをあらゆるシーンにシームレスに転送できる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

マウスを 2 回クリックするだけで、オブジェクトを写真シーンにシームレスに「テレポート」でき、照明の角度と視点を自動的に調整できます。

Alibaba と HKU による「Anyway Door」の AI バージョンは、ゼロサンプル画像の埋め込みを実現します。

これを使えば、オンラインで服を購入するときに、それが自分にどう見えるかを直接確認できます。

その機能はAnyDoorと非常に似ているため、R&DチームはこれをAnyDoorと名付けました。

AnyDoor は一度に複数のオブジェクトをテレポートできます。

写真

それだけでなく、画像内の既存のオブジェクトを移動することもできます。

写真

それを見たネットユーザーの中には、次のステップは(物体を動画に転送する)ことに進化するかもしれないと感嘆の声を上げる人もいた。

ゼロショットのフォトリアリスティックな結果

既存の同様のモデルと比較して、AnyDoor はゼロサンプル操作機能を備えており、特定のアイテムに合わせてモデルを調整する必要はありません。

パラメータ調整が必要なこれらのモデルに加えて、AnyDoor は他のリファレンス モデルよりも精度が高くなります。

実際、他の参照クラス モデルでは、意味的な一貫性のみを維持できます。

簡単に言えば、送信するオブジェクトが猫の場合、他のモデルでは結果にも猫が含まれていることしか保証できず、類似性は保証できません。

AnyDoor エフェクトを拡大して、欠陥がないか確認してみましょう。

ユーザー評価の結果でも、AnyDoor が品質と精度の点で既存のモデルを上回っていることが確認されました (満点 4)。

AnyDoor は、既存の画像内のオブジェクトの移動、再配置、さらには姿勢の変更においても優れた機能を発揮します。

では、AnyDoor はどのようにしてこれらの機能を実現するのでしょうか?

仕組み

写真

オブジェクトをテレポートするには、まずそれを抽出する必要があります。

ただし、AnyDoor は、対象オブジェクトを含む画像を抽出プログラムに取り込む前に、まずその背景を削除します。

次に、AnyDoor は自己監視型オブジェクト抽出を実行し、それをトークンに変換します。

このステップで使用されるエンコーダーは、現在最高の自己教師モデルである DINO-V2 に基づいて設計されています。

角度や光の変化に適応するためには、物体の全体的な特徴を抽出するだけでなく、追加の詳細情報も抽出する必要があります。

このステップでは、過剰な制約を回避するために、チームは高頻度グラフを使用して特徴情報を表す方法を設計しました。

対象画像を Sobel 演算子などのハイパス フィルターで畳み込むことで、高周波の詳細を含む画像を取得できます。

同時に、AnyDoor は Hadamard を使用して画像から RGB カラー情報を抽出します。

この情報をエッジ情報をフィルタリングするマスクと組み合わせると、高周波の詳細のみを含む HF マップが得られます。

最後のステップは、この情報を挿入することです。

取得したトークンを使用して、AnyDoor はテキスト グラフ モデルを通じて画像を合成します。

具体的には、AnyDoor は ControlNet を使用した Stable Diffusion を使用します。

AnyDoor は大まかにこのように動作します。トレーニングに関しては、特別な戦略もいくつかあります。

△ AnyDoorが使用するトレーニングデータセット

AnyDoor は静止画像を対象としていますが、トレーニングに使用されるデータの一部はビデオから抽出されます。

同じオブジェクトに対して、異なる背景を含む画像をビデオから抽出できます。

オブジェクトを背景から分離し、注釈を付けてペアリングした後、AnyDoor のトレーニング データが形成されます。

しかし、ビデオデータは学習には有益ですが、まだ対処する必要がある品質の問題が残っています。

次に、チームは、さまざまな時間における変化と詳細情報を収集するための適応型時間ステップ サンプリング戦略を設計しました。

アブレーション実験の結果、これらの戦略を追加すると、CLIP スコアと DINO スコアが徐々に増加することがわかりました。

チームについて

論文の筆頭著者は、香港大学の博士課程の学生で、以前はアリババ・グループでアルゴリズム・エンジニアをしていたシ・チェン氏である。

Chen Xi の指導者である Hengshuang Zhao がこの記事の責任著者です。彼の研究分野には、マシン ビジョンと機械学習が含まれます。

さらに、アリババのDAMOアカデミーとCainiaoグループの研究者もこのプロジェクトに参加しました。

論文アドレス: https://arxiv.org/abs/2307.09481

<<: 

>>:  写真を3Dに変換する品質が急上昇! GitHub がショートポジションをオープンしたところ、300 人以上がスターを付けました

ブログ    
ブログ    
ブログ    

推薦する

ChatGPTはAmazonに「オンラインストアを開設」し、一夜にしてインターネットの有名人になった

「当社の [製品] は、[タスク 1]、[タスク 2]、[タスク 3] など複数のタスクに使用できる...

...

Adobe は GAN をステッチされたモンスターに変え、1024 解像度の全身ポートレートを空中から作り出した

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

海外の専門家による人工知能の発展見通しに関する衝撃的な4つの予測

人工知能技術が成熟するにつれ、この技術のより広範な社会的、倫理的影響に十分な注意が払われていないので...

戦場のアルファ碁:人工知能がもたらす軍事革命が静かに始まった

人工知能と機械学習が人間の世界を完全に変える運命にあることは疑いようがありません。これは軍事分野にも...

自然言語処理はビジネスに革命をもたらす

顧客対応チャットボットの強化から契約コミットメントの追跡、会議の議事録の最大限の活用まで、自然言語処...

...

...

AIが初めて量子レベルで物質を記述!自然:化学分野で最も価値のある技術の一つ

[[440047]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

アルゴリズムを知的財産として保護する方法

Ogilvy は、ロボティック プロセス オートメーションと Microsoft のビジュアル AI...

Googleを超えろ!世界最大の時間結晶が記録を破り、量子コンピューターが新たな奇跡を起こす

今日、タイムクリスタルは再び新しいスターを迎え、Sceinceサブマガジンに登場しました。 タイムク...

なぜ人間は自分たちよりも賢い人工知能を作り出すのでしょうか?舞台裏では複雑なネットワークサポートが行われている

人間が自分よりも賢いものを創造できる理由について考えたことがありますか?あなたは、人工知能というこの...

ヒントンは独自に44ページの論文を発表した。「アイデアを出して、自分で試してみて」

「ニューラル ネットワークに人間のように画像を理解させたいのであれば、ニューラル ネットワークが部...

自分のIQに挑戦してみませんか? 10 種類の機械学習アルゴリズムを理解してデータ サイエンティストになろう

データ サイエンティストになりたいですか? 十分な知識と新しいことに対する好奇心が必要です。このため...