数日前、クック氏はアップルの電話会議で「生成AIは今年後半にリリースされる」と認めた。 ChatGPTが世界的なブームを巻き起こした後、Appleも静かにAIに力を入れてきました。公開された大規模モデルフレームワークAjaxやAppleGPTなどのAIツールは、業界に期待感を与えました。 かつて時価総額世界1位に輝いたこともある同社は、6月に開催されるWWDCで、iOS 18やiPadOS 18などのソフトウェア製品にさまざまなAI機能を統合していくことを発表する。 その前に、iPhone で AI スーパーパワーを最初に使用してみましょう! ダイニングテーブルの写真をランダムに撮り、「テーブルにピザを置いてください」と言います。ピザはすぐにテーブルに運ばれてきました。 さらに、写真をランダムに選択したり、泣いている顔を笑顔に変えたり、写真を明るくしたり、背景の人物を削除したり、緑の風景を海に置き換えたりすることもできます。 これらの魔法を実現するには、口を動かすだけで、写真をすぐに編集できます。 この驚くべき技術の背後には、自然言語に基づいて画像を修正する新しいモデル、MGIE があり、これは UCSB と Apple の中国人チームによって共同開発されました。 具体的には、マルチモーダル モデルを使用して画像編集をガイドします。 論文アドレス: https://arxiv.org/pdf/2309.17102.pdf 上記の例からわかるように、MGIE の最大の特徴は、一言で言えば優れた画像編集機能を実現できることです。 現在、この論文は ICLR 2024 のスポットライトとして採択され、本日正式にオープンソース化されました。 誰でもオンラインで試すことができます。 アドレス: http://128.111.41.13:7122/ MLLMの理解、拡散モデルの生成最近の研究では、テキストガイドによる画像編集が徐々に人気を集めています。 拡散モデルは、実際の画像をモデル化する強力な機能を備えているため、画像編集にも使用されます。 大規模モデルは、機械翻訳、テキスト要約、質問応答など、さまざまな言語タスクで強力な能力を発揮します。 LLM は大規模なコーパスから学習することで、潜在的な視覚知識と創造性を蓄え、さまざまな視覚および言語タスクを支援することができます。 さらに、マルチモーダル ラージ モデル (MLLM) は、画像を自然に入力として取り込むことができるため、視覚認識応答を提供し、マルチモーダル アシスタントとして機能する強力な機能を発揮します。 研究者たちは MLLM に触発され、不十分な指示ガイダンスの問題に対処するためにそれを統合し、MLLM ガイド付き画像編集 (MGIE) を導入しました。 図 2 に示すように、MGIE は MLLM と拡散モデルで構成されています。 MLLM は、簡潔な表現指示を導き出し、視覚的に関連性のある明確なガイダンスを提供することを学習します。 エンドツーエンドのトレーニングを通じて、拡散モデルは対象者の潜在的な想像力を活用して共同で画像更新と画像編集を実行します。 具体的には、入力画像 V は、指定された命令 X を通じてターゲット画像に編集されます。不正確な指示を処理するために、MGIE には MLLM が含まれており、明示的かつ簡潔な表現力豊かな指示を導き出すことを学習します。 言語と視覚的モダリティをつなぐために、研究者は特別な [IMG] トークンを追加し、編集ヘッダー T を使用して変換しました。 これらは、拡散モデル F をガイドして、目的の編集目標を達成します。そして、MGIE は視覚的な相関認識を通じて曖昧なコマンドを理解し、合理的な画像編集を行うことができます。 このように、MGIE は固有の視覚的推論を活用し、あいまいな人間の指示を解決して、妥当な編集を実現します。 たとえば、下の画像では、追加のコンテキストなしでは「健康的」の意味を捉えることは困難です。 MGIE モデルは、「野菜のトッピング」をピザに正確に関連付け、必要に応じて関連する編集を行うことができます。 たとえ顔がマスクで覆われていても、MGIEは背景にいる女性を正確に認識し、除去することができます。 写真の明るさ調整も非常にうまく行われています。 写真では、MGIE が特定の領域に対して精密な編集を行っています。 実験結果指示ベースの画像編集を学習するために、この研究では IPr2Pr が事前トレーニング データセットとして使用されました。 これには 1M CLIP フィルタリングされたデータが含まれており、命令は GPT-3 によって抽出され、画像は Prompt-to-Prompt によって合成されます。 包括的な評価のために、研究者は EVR、GIER、MA5k、MagicBrush を含む編集のさまざまな側面を考慮し、MGIE が Photoshop スタイルの変更、写真のグローバル最適化、およびローカルオブジェクトの変更を実行できることを発見しました。 ベースライン 研究者らは、命令ベースの画像編集用の拡散モデルを備えた CLIP テキスト エンコーダー上に構築された InsPix2Pix をベースラインとして使用しました。 さらに、同様のLLM誘導画像編集(LGIE)モデルも検討されており、このモデルでは、視覚知覚なしで指示のみの入力から表情指示を表現するためにLLaMA-7Bが採用されています。 実装の詳細 MLLM および拡散モデルは、 LLaVA-7B および StableDiffusion-v1.5 から初期化され、画像編集タスク用に共同で更新されます。 MLLM では単語埋め込みと LM ヘッドのみがトレーニング可能であることに注意してください。 GILL のアプローチに従って、研究者は N = 8 の視覚トークンを使用しました。編集ヘッド T は、言語機能を編集ガイダンスに変換する 4 層のトランスフォーマーです。 MGIE を最適化するために、バッチ サイズ 128 の AdamW を採用します。 MLLMと の学習率はそれぞれ 5e-4 と 1e-4 です。すべての実験は、8 つの A100 GPU 上の PyTorch で実行されます。 定量的な結果 表 I は、モデルが IPr2Pr のみでトレーニングされたゼロショット編集の結果を示しています。 Photoshop スタイルの変更を伴う EVR および GIER の場合、表現力豊かな指示によって具体的な目標を明らかにすることができますが、短くて漠然としたコマンドでは編集が意図に近づけない可能性があります。 MA5k でのグローバル写真最適化の場合、関連するトレーニング トリプレットが不足しているため、InsPix2Pix の処理は困難です。 LGIE と MGIE は同じソースからのトレーニングですが、LLM の研究を通じて詳細な説明を提供できますが、LGIE は依然として単一モードに制限されています。 MGIE は画像にアクセスすることで、どの領域を明るくするか、どのオブジェクトをより明確にするかといった明確な指示を導き出すことができます。 これによりパフォーマンスが大幅に向上し、MagicBrush でも同様の結果が得られています。 MGIE は精密視覚においても最高のパフォーマンスを達成しました。 特定の目的のための指示ベースの画像編集を研究するために、表 2 の各データセットでモデルが微調整されています。 EVR と GIER の両方において、すべてのモデルは Photoshop スタイルの編集タスクに適応した後に改善されました。微調整によって表現力豊かな命令もよりドメイン固有になるため、MGIE はドメイン依存の命令を学習することで最大限の効果を発揮します。 上記の実験から、表現的指示による学習は画像編集を効果的に強化できること、そして視覚知覚は最大限の強化のための明示的なガイダンスを得る上で重要な役割を果たすことが実証されています。 アブレーション研究 MLLM ガイドによる画像編集は、ゼロショットと微調整の両方のシナリオで大きな改善を示します。 現在、チームは表現力豊かな命令を使用するためのさまざまなアーキテクチャも検討しています。 表 3 では、研究者が FZ、FT、E2E アーキテクチャを比較しており、その結果、画像編集では LLM/MLLM 命令の導出中に明示的なガイダンスが役立つことが示されています。 E2E は LM と連携して編集拡散モデルを更新し、適用可能なガイダンスを抽出し、無関係なナラティブを破棄しながら、エンドツーエンドで隠れた状態を渡すことを学習します。 さらに、E2E は、式命令によって伝播される可能性のある潜在的なエラーを回避することもできます。 その結果、研究者たちは、グローバル最適化 (MA5k) とローカル編集 (MagicBrush) において最も大きな機能強化を確認しました。 FZ、FT、E2E では、MGIE が LGIE を上回り続けています。これは、主要な視覚知覚を伴う表現指示が、すべてのアブレーション設定において一貫して有利であることを示唆しています。 MLLM におけるメンタリングがなぜ大いに役立つのでしょうか? 図4は、入力または実際のターゲット画像と表現指示の間のCLIPスコア値を示しています。 入力画像の CLIP-S スコアが高いほど、編集ソースに対する指示の関連性が高くなります。ターゲット画像との整合性を高めることで、明確で適切な編集ガイダンスが提供されます。 視覚認識が利用できないため、LGIE の表現指示は一般的な言語想像に限定され、ソース画像に合わせて調整することはできません。 CLIP-Sは本来の説明書よりもさらに低くなっています。 対照的に、MGIE は入力/ターゲットとより一貫性があり、それが表現的指示が役立つ理由を説明しています。期待される成果を明確に説明することで、MGIE は画像編集における最大の改善を実現できます。 人間による評価 自動評価指標に加えて、生成された表現指示と画像編集結果を調べるために手動評価も実行されました。 具体的には、研究者は各データセットからランダムに 25 の例 (100 件中) をサンプリングし、ベースラインと人間による MGIE ランキングを考慮しました。 潜在的なランキングの偏りを避けるために、研究者は各例ごとに 3 人の注釈者を雇いました。 図 5 は、生成された表現命令の品質を示しています。 まず、53% 以上の人が、MGIE はより実用的な表現ガイダンスを提供し、明確なガイダンスの下で画像編集タスクを完了するのに役立つと支持しています。 一方、注釈者の 57% は、MGIE は画像に正確な編集目標があると想定しているため、LGIE の言語由来の幻覚によって生成された無関係な説明を回避できると指摘しました。 図 6 は、指示の遵守、グラウンド トゥルースの関連性、全体的な品質の観点から、InsPix2Pix、LGIE、MGIE の画像編集結果を比較しています。ランキングスコアの範囲は 1 ~ 3 で、スコアが高いほど良いです。 LLM または MLLM から派生した表現指示を使用すると、LGIE と MGIE は両方ともベースラインを上回り、指示に関連し、グラウンド トゥルース ターゲットに類似した画像編集を実行します。 さらに、研究における表現指示は特定の視覚知覚ガイダンスを提供できるため、MGIE は全体的な編集品質を含むさまざまな面で人間の好みが高くなります。これらのパフォーマンス傾向は、自動評価の結果とも一致しています。 推論効率 MGIE は画像編集を容易にするために MLLM に依存していますが、簡潔な表現指示 (32 トークン未満) のみを提供し、InsPix2Pix と同等の効率性を備えています。 表 4 は、NVIDIA A100 GPU での推論時間コストを示しています。 MGIE は、1 回の入力に対して 10 秒以内に編集タスクを完了できます。データの並列度が増すにつれて、かかる時間も同様になります (たとえば、バッチ サイズが 8 の場合は 37 秒)。 プロセス全体は、単一の GPU (40 GB) だけで手頃な価格で実行できます。 要約すると、MGIE は競争力のある効率性を維持しながら品質ベンチマークを上回り、効果的で実用的な画像編集を可能にします。 定性的な比較 図 7 は、使用されたすべてのデータセットの視覚的な比較を示しています。 図8は、LGIEまたはMGIEの発現指示をさらに比較しています。 要約すると、最新の研究で、UCSB と Apple のチームは、表現の指示を生成することを学習することで指示ベースの画像編集を強化する MLLM ガイド付き画像編集 (MGIE) を提案しました。 |
<<: Nvidia は 5 億ドル相当の巨額注文を獲得しました。インドのデータセンターが H100/GH200 を一気に 16,000 台購入
>>: ウルトラマンの顔を平手打ちしろ、GPT-4 は今年は去年よりも怠惰だ!ネットユーザーによるオンラインテスト結果
[[208068]] 1. 2つの数値を入れ替える通常、2 つの数値の値を交換する方法としては、新し...
ちょうど今、国際データコーポレーション(IDC)が発表した最新の「中国人工知能クラウドサービス市場調...
科学技術の進歩により、人間は肉体的な力から機械の代替まで、自然を変革する能力を獲得し、現在では人工知...
変化だけが唯一不変です。これはあなたのキャリアにも当てはまります。テクノロジーが急速に進化していると...
[[271155]]ビッグデータと AI ツールを組み合わせることで、新しい形式の分析と自動化が可能...
論文リンク: https://arxiv.org/abs/1706.10207概要: この論文では、...
金融、気象、エネルギーなどのさまざまな業界では、毎日大量の異種データが生成されます。人々は、このデー...
翻訳者 | 朱 仙中校正 | 梁哲、孫淑娟まとめ人工知能 (AI) ベースのシステムは大きな可能性を...
シーン説明: 昨年 8 月に Microsoft がリリースした「Que Shen AI」Suphx...
Alpaca、Vicuna、Baize、Koala などの多くの大規模言語モデルの出現により、研究者...
マシンビジョン技術には、コンピューターサイエンス、人工知能、信号処理、画像処理、機械学習、光学、自動...
海外メディアのTechCrunchによると、セントルイスに本拠を置くスーパーマーケットチェーン「シュ...