2月8日、マイクロソフトの急速な発展と比較すると、AppleのAI分野における展開ははるかに控えめであるように思われるが、これはAppleがこの分野で成果を上げていないことを意味するものではない。 Appleは最近、自然言語の指示に基づいて画像を編集できる「MGIE」と呼ばれる新しいオープンソースの人工知能モデルをリリースした。 画像出典: VentureBeat および Midjourney MGIE の正式名称は MLLM ガイド付き画像編集であり、マルチモーダル大規模言語モデル (MLLM) を使用してユーザーの指示を解釈し、ピクセルレベルの操作を実行します。 MGIE は、ユーザーが指定した自然言語コマンドを理解し、Photoshop スタイルの変更、写真のグローバル最適化、ローカル編集などの操作を実行できます。 Appleとカリフォルニア大学サンタバーバラ校の研究者は協力し、人工知能研究のトップカンファレンスの1つである2024年国際学習表現会議(ICLR)でMGIE関連の研究成果を発表する予定です。 MGIE を紹介する前に、まず MLLM を紹介したいと思います。 MLLM は、テキストと画像を同時に処理できる強力な AI モデルであり、指示ベースの画像編集機能を強化します。 MLLM はクロスモーダル理解と視覚知覚応答生成において優れた能力を示していますが、画像編集タスクではまだ広く使用されていません。 MGIE は、2 つの方法で MLLM を画像編集プロセスに統合します。まず、MLLM を使用して、ユーザー入力から表現指示を導き出します。説明は簡潔で、編集プロセスに関する明確なガイダンスを提供します。 たとえば、入力が「空をもっと青くする」である場合、MGIE は「空の領域の彩度を 20% 上げる」という命令を生成できます。 次に、MLLM を使用して、望ましい編集の潜在的な表現である視覚的な想像力を生成します。この表現は編集の本質を捉えており、ピクセルレベルの操作をガイドするために使用できます。 MGIE は、命令推論、視覚的想像力、画像編集モジュールを共同で最適化するための新しいエンドツーエンドのトレーニング スキームを採用しています。 MGIE は、単純な色調整から複雑なオブジェクト操作まで、幅広い編集状況に対応できます。モデルは、ユーザーの好みに応じてグローバル編集とローカル編集を実行することもできます。 MGIE の機能と特徴の一部を以下に示します。
MGIE は GitHub 上のオープンソース プロジェクトであり、ユーザーはコード、データ、事前トレーニング済みモデルを見つけることができます。このプロジェクトでは、MGIE を使用してさまざまな編集タスクを実行する方法を示すデモ ノートブックも提供されます。 |
>>: 今日から彼は、黄仁訓院士です!米国工学アカデミーの2024年会員リストが発表され、清華大学の黄一東氏らが外国人会員に選出される
AI リスク管理は、AI 大手企業によって再び議題に挙げられています。ちょうど今、ベンジオ、ヒントン...
OpenAI の ChatGPT が今日の日常業務に導入されてから丸 1 年が経ち、その後すぐに ...
機械学習により、コンピュータグラフィックス(CG)シミュレーションがよりリアルになります。この方法は...
[[427521]]昨日、欧州議会はAI生体認証技術に基づく大規模な監視の全面禁止を求める決議を可決...
半期会議がもうすぐ開かれますが、上司はみんなでしっかり計画を立てるように言いました。私たちの将来の方...
データは今やさまざまな産業に統合され、世界市場のハイライトとなっています。現在の経済成長はデータと切...
[51CTO.com クイック翻訳] 前回の記事「人工ニューラルネットワークをゼロから構築する(パー...
1月7日の最大のニュースの一つは、Google DeepMindの創設者デミス・ハサビス氏が率いるG...
現在、5G に関するブログやベンダーの論文が数多くあり、新しいメディア伝送からギガビット速度、モバイ...
人間は自分たちが偉大だと思っているが、個々の人間は非常に弱い。人類は素晴らしい文明を築き上げましたが...
10月26日、中国科学技術協会社会サービスセンターの支援を受けて、北京ソフトウェア情報サービス協会(...
人工知能の急速な発展に伴い、ナレッジグラフの実装と商業化の可能性は継続的に強化され、社内のデータ分析...
水中ロボットが極地でその能力を披露[[439571]]科学研究員らが甲板上で展開準備を進めている...