MetaがAI画像編集ツールEmu Editを発表 / ビデオ:1000万のデータセットでトレーニングされ、競合他社よりもはるかに優れていると主張

MetaがAI画像編集ツールEmu Editを発表 / ビデオ:1000万のデータセットでトレーニングされ、競合他社よりもはるかに優れていると主張

IT Homeは11月20日、Metaが昨日、FacebookとInstagram向けの写真と動画に適用できるAIベースの画像編集ツール「Emu Edit」と「Emu Video」の2つを発表したと報じた。Metaは現在、この2つのAIツールに関する詳細情報を公開しており、IT Homeは以下のようにまとめた。

公式紹介によると、Emu Editモデルはテキスト指示のみを使用して画像を正確に編集できるとのこと。開発チームは、テキストからビデオ(T2V)の生成プロセスを分解することで、最終的に生成されるビデオの品質と多様性を向上させることができるEmu Videoという手法を発表しました。

Emu Edit は、さまざまなオーディオおよびビデオ操作タスクを簡素化し、ビデオ編集にさらに多くの機能とより高い精度を提供することを目的とした革新的な画像編集方法であると主張されていると報告されています。

Emu Edit は、ユーザーの指示を受け入れ、地域編集やグローバル編集、背景の削除と追加、色の調整、ベクター画像変換の実行、画像要素の検出とセグメント化など、さまざまな形式の編集を実行できます。

Meta 氏は、Emu Edit は生成されたモデルに視覚的なタスクを指示として組み込むことで、ビデオの生成と編集をより適切に制御できると述べました。研究者らは、現在の画像編集モデルは画像を過剰に修正したり、修正が不十分であったりすることが多いが、Emu Editの利点は指示に従って正確に編集できることだと指摘した。

Meta は、Emu Edit のトレーニングに 1,000 万の合成データセットを使用しました。これは、この種のデータセットとしては最大規模と言われており、画像編集機能が向上しました。各サンプルには、画像入力、タスクの説明、ターゲット出力画像が含まれています。これにより、モデルは指示を忠実に実行し、「現在のすべての競合製品よりも優れた結果」を生み出すことができます。

Emu Video は、拡散モデルを使用し、Emu Edit に基づいた、シンプルで効率的なテキストからビデオへの生成方法です。開発チームは、このビデオ生成アーキテクチャは、テキスト、画像、テキストと画像の組み合わせなど、さまざまな外部入力方法に対応できると説明しました。さらに、Emu Video はテキストプロンプトを受け入れ、ユーザーが提供した画像を「アニメーション化」することもできるため、「過去のモデルを超える機能」を提供します。

Emu Video は、ビデオ生成プロセスを 2 つのステップに分割します。最初にテキスト プロンプトに基づいて画像を生成し、次にテキストと生成された画像に基づいてビデオを生成します。この分割ステップのビデオ生成アプローチにより、研究者は生成モデルを効率的にトレーニングできます。

研究者らはさらに、Emu Videoは一連のディープ生成モデルを必要とするMake-A-Videoなどのこれまでの研究とは異なると説明した。Emu Videoはよりシンプルで、 2つの拡散モデルのみを使用して、解像度512x512、16FPS、長さ4秒のビデオを生成できる

IT Homeは、Metaが評価データを引用して、Emu Videoによって生成されたビデオの品質と「プロンプトワードへの忠実度」が業界の競合他社のものより優れていることを証明したことを発見した。

品質の点では、回答者の 96% が以前の Make-A-Video ソリューションよりも Emu Video を好み、一方、「プロンプト ワードの忠実度」の点では、回答者の 85% が Emu Video を好みました。

<<: 

>>:  アルトマンが帰ってきた!取締役会解散の強い要求、OpenAIの究極の宮廷闘争が始まる

推薦する

アリの採餌とインターネットアルゴリズム

[[93484]]人間とアリの違いは何でしょうか? Ant にはインターネットがありません。創造的な...

人工知能が社会にもっと役立つように

[[355038]]ビッグデータ時代には、「顔」が重要なデータ情報です。顔認識技術は、その独自性と優...

構造化データのためのテキスト生成技術の研究

1. テキスト生成入門まず、現段階で人気のテキスト生成について紹介します。 1.人工知能の発展段階人...

輸送と物流における AI と自動化のユースケース

7bridgesの創設者兼CEOであるフィリップ・アシュトン氏は、次のように述べています。「運輸・物...

大規模言語モデル評価における信頼性の低いデータに注意: Flan-T5 に基づくプロンプト選択のケーススタディ

翻訳者|朱 仙中レビュー | Chonglou導入信頼性の高いモデル評価はMLOP と LLMop ...

...

人工知能の専門家:ディープラーニングは行き止まりではない

ディープラーニングは機械学習手法の一種であり、人工知能を実現するための重要な基盤です。最近、一部の学...

...

機械学習は 5G ネットワークにどのように役立ちますか?

機械学習機械学習は、コンピューティング システムの能力の向上とデータの可用性の向上により、過去 10...

NLP における新たなマイルストーン!清華大学ヤオクラスの卒業生がKEARをリリース:人間を超える初の常識質問応答システム

[[443046]]人間はAIよりも常識があるとは言えなくなりました!最近、マイクロソフトの黄雪東と...

人々を幸せにしたり不安にさせたり:注目すべき11の人工知能アプリケーション

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

AIの負担を軽減する時が来た。Python AIライブラリ5選のおすすめ

機械学習は興味深いものですが、作業範囲が広く複雑で困難です。開発者として学ぶべきツールはたくさんあり...

ChatGPT のパフォーマンスが最大 214% 向上し、7 つのグラフが更新されました。 IDEA、HKUST GuazhouなどがToG思考マップを提案

大きなモデルは良いですが、「深刻なナンセンス」の問題をどのように解決するのでしょうか?金融、法律、医...