この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 マウスを 2 回クリックするだけで、オブジェクトを写真シーンにシームレスに「テレポート」でき、照明の角度と視点を自動的に調整できます。 Alibaba と HKU による「Anyway Door」の AI バージョンは、ゼロサンプル画像の埋め込みを実現します。 これを使えば、オンラインで服を購入するときに、それが自分にどう見えるかを直接確認できます。 その機能はAnyDoorと非常に似ているため、R&DチームはこれをAnyDoorと名付けました。 AnyDoor は一度に複数のオブジェクトをテレポートできます。 写真 それだけでなく、画像内の既存のオブジェクトを移動することもできます。 写真 それを見たネットユーザーの中には、次のステップは(物体を動画に転送する)ことに進化するかもしれないと感嘆の声を上げる人もいた。 ゼロショットのフォトリアリスティックな結果既存の同様のモデルと比較して、AnyDoor はゼロサンプル操作機能を備えており、特定のアイテムに合わせてモデルを調整する必要はありません。 パラメータ調整が必要なこれらのモデルに加えて、AnyDoor は他のリファレンス モデルよりも精度が高くなります。 実際、他の参照クラス モデルでは、意味的な一貫性のみを維持できます。 簡単に言えば、送信するオブジェクトが猫の場合、他のモデルでは結果にも猫が含まれていることしか保証できず、類似性は保証できません。 AnyDoor エフェクトを拡大して、欠陥がないか確認してみましょう。 ユーザー評価の結果でも、AnyDoor が品質と精度の点で既存のモデルを上回っていることが確認されました (満点 4)。 AnyDoor は、既存の画像内のオブジェクトの移動、再配置、さらには姿勢の変更においても優れた機能を発揮します。 では、AnyDoor はどのようにしてこれらの機能を実現するのでしょうか? 仕組み写真 オブジェクトをテレポートするには、まずそれを抽出する必要があります。 ただし、AnyDoor は、対象オブジェクトを含む画像を抽出プログラムに取り込む前に、まずその背景を削除します。 次に、AnyDoor は自己監視型オブジェクト抽出を実行し、それをトークンに変換します。 このステップで使用されるエンコーダーは、現在最高の自己教師モデルである DINO-V2 に基づいて設計されています。 角度や光の変化に適応するためには、物体の全体的な特徴を抽出するだけでなく、追加の詳細情報も抽出する必要があります。 このステップでは、過剰な制約を回避するために、チームは高頻度グラフを使用して特徴情報を表す方法を設計しました。 対象画像を Sobel 演算子などのハイパス フィルターで畳み込むことで、高周波の詳細を含む画像を取得できます。 同時に、AnyDoor は Hadamard を使用して画像から RGB カラー情報を抽出します。 この情報をエッジ情報をフィルタリングするマスクと組み合わせると、高周波の詳細のみを含む HF マップが得られます。 最後のステップは、この情報を挿入することです。 取得したトークンを使用して、AnyDoor はテキスト グラフ モデルを通じて画像を合成します。 具体的には、AnyDoor は ControlNet を使用した Stable Diffusion を使用します。 AnyDoor は大まかにこのように動作します。トレーニングに関しては、特別な戦略もいくつかあります。 △ AnyDoorが使用するトレーニングデータセット AnyDoor は静止画像を対象としていますが、トレーニングに使用されるデータの一部はビデオから抽出されます。 同じオブジェクトに対して、異なる背景を含む画像をビデオから抽出できます。 オブジェクトを背景から分離し、注釈を付けてペアリングした後、AnyDoor のトレーニング データが形成されます。 しかし、ビデオデータは学習には有益ですが、まだ対処する必要がある品質の問題が残っています。 次に、チームは、さまざまな時間における変化と詳細情報を収集するための適応型時間ステップ サンプリング戦略を設計しました。 アブレーション実験の結果、これらの戦略を追加すると、CLIP スコアと DINO スコアが徐々に増加することがわかりました。 チームについて論文の筆頭著者は、香港大学の博士課程の学生で、以前はアリババ・グループでアルゴリズム・エンジニアをしていたシ・チェン氏である。 Chen Xi の指導者である Hengshuang Zhao がこの記事の責任著者です。彼の研究分野には、マシン ビジョンと機械学習が含まれます。 さらに、アリババのDAMOアカデミーとCainiaoグループの研究者もこのプロジェクトに参加しました。 論文アドレス: https://arxiv.org/abs/2307.09481 |
>>: 写真を3Dに変換する品質が急上昇! GitHub がショートポジションをオープンしたところ、300 人以上がスターを付けました
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
序文プログラミングの分野では、「プログラム = データ構造 + アルゴリズム」というよく知られたルー...
[[187102]] Siri に道順を尋ねるたびに、複雑なコード列がアクティブ化され、「Siri」...
テレンス・タオ氏が研究してきた周期的モザイク化問題に新たな進歩がありました。 9月18日、Teren...
今日、企業組織は意思決定に人工知能や機械学習モデルをますます頼りにしており、こうした意思決定は私たち...
[[335970]]ビッグデータダイジェスト制作出典: medium編集者: Hippo採用は凍結さ...
ドイツ特派員 青木「昨年、北米のロボット受注の大半は初めて自動車工場で受注されなかった」ロイター通信...
「機械は人間を攻撃できるか?」という疑問は、世界中の会議やソーシャルチャットの議論のテーブルで浮上し...
ハリー・ポッターの世界では、組分け帽子は生徒の行動履歴、好み、性格に関するデータを取得し、そのデータ...
調査によると、機械学習のアプリケーション、ツール、テクニック、プラットフォーム、標準に大きな変化が起...
ほんの数年前までは、マーケティングに特化した AI エンジンがマーケティングの未来につながると信じて...
[[256514]] EyeSight Technologyの創設者兼CEO、周俊氏。彼は20年以上...
ビッグデータ時代の到来により、データ移行は多くの企業や組織が直面しなければならない課題の 1 つにな...
1 月 20 日、マイクロソフトのグローバル エグゼクティブ バイスプレジデントであるハリー シャム...