Google の最新画像処理ソフトウェア Imagen 2 がリリースされ、実機テストでは DALL·E 3 や Midjourney に勝利しました。

質問: 下の画像は AI によって生成された画像ですか、それとも写真ですか?

この質問をしなければ、ほとんどの人はこれが写真ではないとは思わないでしょう。

はい、Google の最新の AI 画像作成ツール Imagen 2 に次のプロンプト語を入力するだけです。

ジャングルで活動する、運動好きで、短い巻き毛と温かい笑顔を持つ、32歳の女性。
32 歳の若い女性自然保護活動家がジャングルを探検している。彼女は体格ががっしりしていて、髪は短くカールしていて、笑顔が優しいです。

最初に表示される画像は非常にリアルで、写真というより写真のように見えます。

クリスマスが近づいているが、Googleはまだまだ頑張っている。DALL・E 3の最強のライバルとして知られるビジュアルモデル、Imagen 2がついに発売された。

Google は、Gemini と OpenAI で GPT-4 のロールアウトを終えた直後に、Imagen 2 をリリースして DALL·E 3 をロールアウトしました。2023 年末には、Google は「ロールアウトの王」の称号にふさわしい存在になるでしょう。

指がリアルなだけでなく、箸の持ち方も非常に標準的です

Imagen 2 は、現在のテキストから画像への変換技術の頂点であり、AI RAW 画像の限界を打ち破ったと言えます。

強力な機械学習アルゴリズムを搭載した Imagen 2 は、テキストの説明を鮮明でクリアな高解像度の画像に変換できます。

Imagen 2 がユニークなのは、複雑で抽象的な概念を驚くほど正確に理解し、その概念を驚くほど詳細に視覚化する能力です。

Imagen 2 の核となるのは、依然として複雑なニューラルネットワークアーキテクチャです。微調整された Transformer モデルは、テキスト理解と画像合成の両方で比類のないパフォーマンスを発揮しました。

現在、Google は文学画像の分野で新たな基準を確立しました。

自然言語を使って絵を生成できるモデルがもう1つあります

今では、DALL·E 3に加えて、自然言語のみに基づいて画像を生成できるモデルがあります。

対照的に、Midjourney は複雑で専門的なプロンプトを必要とし、使いやすさの点では 2 つの競合製品に大きく遅れをとっています。

シンプルなテキストだけで、多様で複雑な画像を生成できます。このような AI 画像生成モデルは、コンテンツ作成に大きな影響を与えます。

これは、ビジュアルコンテンツに依存する業界にとって画期的なものであり、従来のコンテンツ制作に必要な時間を大幅に短縮し、コンテンツ作成者がこれまでにないスピードで高品質のビジュアルを制作できるようにします。

同時に、Imagen 2 は比類のない画質と汎用性も備えています。

Imagen 2 は、Google の最も高度なテキストから画像への拡散技術を使用しており、非常に高品質の RAW 画像、リアルな効果、ユーザープロンプトとの高度な一貫性を実現しています。

その理由は、事前にプログラムされたスタイルを採用するのではなく、トレーニングデータの自然な分布を使用して、よりリアルな画像を生成するためです。

濃い青色の背景にクラゲ

濃い青色の背景にゆったりと浮かぶクラゲ

ご覧のとおり、Imagen 2 の画像生成機能は驚異的です。

複雑な風景、詳細なオブジェクト、または幻想的なシーンをレンダリングする場合でも、生成される画像は非常に忠実度が高く、人間のアーティストが作成した画像に匹敵するか、それを上回ります。

まな板の上のオレンジを描いた小さなキャンバスの油絵。光がオレンジの部分を通り抜け、まな板の一部にオレンジ色の光を投げかけています。背景には青と白の布があります。コースティクス、反射光、表現力豊かな筆使い

まな板の上にオレンジの小さな絵が描かれています。オレンジのスライスを通して太陽の光が差し込み、まな板に柔らかなオレンジ色の光を投げかけます。絵画の背景は青と白の布で、光の屈折と反射の効果を巧みに捉え、画家の感情的な筆遣いを表現しています。

一部のネットユーザーは、Imagenのこのオレンジの写真を見て本当に驚いたとコメントしています。オレンジを通過した後の光の投影は、プロンプトで説明されている雰囲気と非常に一致しています。

誰かが同じプロンプトを使用して、DALL·E 3 に同じオレンジ色の油絵を生成させました。その効果は確かに Imagen 3 のものよりはるかに弱いものでした。

同様に、Midjourney によって生成されたオレンジも、リアリズムと芸術的概念の点ではるかに遅れています。

詩の芸術的概念はワンクリックでリアルに復元されます

従来の「テキストから画像への変換」モデルでは、通常、トレーニングデータセットの画像とキャプションの詳細情報に基づいて、ユーザーのプロンプトに一致する画像が生成されます。

しかし、バグがあります。画像とそれに対応するキャプションごとに、詳細の品質と正確さが大きく異なる可能性があるのです。

ユーザーのプロンプトにより適した、より高品質でより正確な画像を作成できるように、Imagen 2 のトレーニングデータセットにさらに多くの説明が追加され、Imagen 2 がさまざまなキャプションスタイルを学習し、幅広いユーザーのプロンプトをより適切に理解できるようになりました。

この画像とキャプションの組み合わせにより、Imagen 2 は画像とテキストの関係をより深く理解できるようになり、コンテキストとニュアンスの理解が大幅に向上します。

たとえば、アメリカの作家フィリス・ホイットリーの『夕べの賛美歌』には、「小川がせせらぎ、鳥が歌い、その混ざり合った音楽が空中に漂う」という一文があります。

画像 2 は、詩の美しい芸術的構想の重要なポイントをすべて捉えています。

「小川は静かに流れ、鳥たちは歌声を新たにし、その混ざり合った音楽が空気を漂う。」（フィリス・ホイットリー作『夕べの賛歌』）

対照的に、Midjourney は文学的な描写の内容を十分に把握していないようで、おそらく自動的に絵に登場人物を追加するでしょう。しかし、全体的な画像効果は依然として良好です。

しかし、DALL·E 3 では、実際に画像に数行のテキストが追加され、「グリーティングカード」が生成されるのでしょうか?

ハーマン・メルヴィルは、有名な小説『白鯨』の中で、「海の微妙な様相を考えてみよう。最も恐ろしいのは、海面下を泳ぐ生き物たちだ。だが、そのほとんどが気づかれず、最も美しい紺碧の色彩の中に巧妙に隠されているのだ」と書いている。

画像2も「海洋文学」の特徴がよく分かります。

「海の繊細さを考えてみてください。最も恐ろしい生き物が水中を滑るように動き、ほとんどは姿が見えず、最も美しい青の色合いの下に隠れているのです。」（ハーマン・メルヴィル著『白鯨』）

対照的に、ミッドジャーニーとDALL・E3は深海に到達した途端、一瞬にしてクトゥルフと化した……

旅の途中

ダル・エ 3

偉大な児童文学作家フランセス・ホジソン・バーネットの著書『秘密の花園』には、コマドリについての次のような記述があります。

ロビンは絡まったツタから壁の上まで飛び、くちばしを開いて、ただ見せびらかすために、大きくて甘いさえずりを歌いました。世の中にはこれより愛らしいものはほとんどありません。ほとんどの場合、そうなるのです。

Imagen 2 によって生成されたこの画像には、ツタ、壁、歌声などの隠れた詳細がすべて表示されています。

「ロビンは揺れるツタの枝から壁のてっぺんまで飛び上がり、くちばしを開いて、ただ見せびらかすために、大きくて美しいさえずりを歌った。ロビンが見せびらかすときほど愛らしくて愛らしいものはこの世にない。そして、ロビンはたいていいつも見せびらかしているのだ。」 (フランセス・ホジソン・バーネット著『秘密の花園』)

同じプロンプトでは、Midjourney には現実感が少し欠けています。

上記2つと比較すると、DALL·E 3は特に植物や羽のディテールにおいてさらに劣っています。

スタイルの再現、自由な変化、人間の美学のより深い理解

画像生成において最も批判される問題の 1 つは、キャラクターの指の生成です。

今回、Imagen 2 のデータセットとモデルの進歩により、多くの分野で改善が達成されました。

これらには、リアルな手や顔をレンダリングすることや、画像に邪魔な視覚的アーティファクトが含まれないようにすることなどが含まれます。

同時に、Google DeepMind は、光、フレーミング、露出、鮮明度などの特性に対する人間の好みに基づいた特別な「画像美学モデル」をトレーニングしました。

各画像には美的スコアが与えられ、これにより Imagen 2 はトレーニングデータセット内で人間が好む画像に重点を置くようになります。

これにより、Imagen 2 のより高品質な画像を生成する能力が向上します。

「花」というプロンプトを使用して AI が生成した画像。美的スコアは低 (左) から高 (右) まであります。

Imagen 2 の拡散技術は高度な柔軟性を提供し、画像のスタイルの制御と調整を容易にします。

テキストのヒントと組み合わせた参照スタイルの画像を提供することで、Imagen 2 は同じスタイルに従った新しい画像を生成するようにトレーニングできます。

Imagen 2では、参照画像とテキストヒントを使用して出力スタイルを簡単に制御できます。

より強力な「修復」と「拡大」

さらに、Imagen 2 では、「インペインティング」や「アウトペインティング」などの画像編集機能もサポートされています。

参照画像と画像マスクを提供することで、修復技術を使用して元の画像に直接新しいコンテンツを生成できます。

下の元の写真に「緑の壁に棚があり、棚の上に本と花瓶がいくつかある」と入力するだけで、元の写真に該当するコンテンツが生成されます。

新しいコンテンツはまったく唐突ではなく、元の画像に完璧に統合されており、自然に見えます。

さらに、アウトペインティング機能を使用して元の画像を拡大することもできます。

夕暮れ時のアフリカのサバンナにいたキリンとシマウマの二重ポートレートが、突然全身写真に拡大されました。

エンタープライズレベルのシナリオを完全にサポートし、ロゴコピーをワンクリックで生成し、中国語もサポートされています

現在、Google は開発者プラットフォーム Vertex AI に Imagen 2 をリリースしました。

Vertex AI プラットフォームでは、顧客は直感的なツールを使用して、完全に管理されたインフラストラクチャと組み込みのプライバシーおよびセキュリティ保護を備えた Imagen 2 をカスタマイズおよび展開できます。

Google DeepMind のテクノロジーを搭載した Imagen 2 は、画像品質の大幅な向上を実現し、開発者が次のような特定のニーズに基づいて画像を作成できるようにします。

- 自然言語プロンプトに基づいて、高品質でリアル、高解像度の美しい画像を生成します。

- 多言語テキストレンダリングをサポートし、画像にテキストコンテンツを正確に追加できます。

- 会社や製品のロゴをデザインして画像に埋め込むことができます。

- 画像から注釈を生成したり、画像の詳細に関する質問に有益なテキスト回答を提供したりできる視覚的な質問回答機能を提供します。

高品質の画像: Imagen 2 は、画像とテキストの理解力の向上、およびさまざまな革新的なトレーニングとモデリング技術により、正確で高品質かつリアルな画像を生成します。

テキストレンダリングのサポート:プロンプトの内容に応じて正しいテキストを正確にレンダリングできます。

Imagen 2 は、特定のテキストまたはフレーズを含むオブジェクトの画像を生成し、出力画像に正しいフレーズが含まれるようにします。

ロゴデザイン: Imagen 2 は、バッジ、文字、さらには抽象的なロゴなど、ブランドや製品などのさまざまなクリエイティブでリアルなロゴを生成できます。

注釈と Q&A:強化された画像理解機能を使用することで、Imagen 2 は詳細な長文注釈を作成し、画像内の要素に関する質問に詳細な回答を提供できます。

多言語のヒント： Imagen 2 は英語に加えて、他の 6 つの言語（中国語、ヒンディー語、日本語、韓国語、ポルトガル語、スペイン語）もサポートしており、2024 年初頭にさらに多くの言語を追加する予定です。この機能には、プロンプトと出力を翻訳する機能も含まれており、たとえば、プロンプトはスペイン語で表示しながら、出力をポルトガル語に指定することができます。

画像透かしを入れるとより安全

テキストから画像への生成技術の潜在的なリスクと課題を軽減するために、Google は設計、開発から製品の展開まで強力なガードレールを設定しました。

Imagen 2 には、AI 生成コンテンツに透かしを入れたり識別したりするための最先端のツールキットである SynthID が統合されています。

これにより、Google Cloud Platform のお客様は、画像の品質を低下させることなく、画像に直接デジタル透かしを追加できるようになります。

ただし、SynthID は、フィルタリング、トリミング、または非可逆圧縮方式を使用して保存された後でも画像を検出できます。

さらに、Google は、すべてのユーザーに展開する前に強力なセキュリティテストを実施し、被害のリスクを最小限に抑えます。

Google チームは当初から、Imagen 2 のデータセキュリティに関するトレーニングに投資し、暴力的、不快、またはポルノ的なコンテンツなどの問題のある出力を制限するための技術的なガードレールを追加しました。

同時に、Google はトレーニングデータ、入力プロンプト、システムによって生成された出力に対してもセキュリティチェックを実行します。たとえば、有名人の画像など、問題となる可能性のあるコンテンツが生成されないように、包括的な安全フィルターが適用されています。

ネットユーザーからは「最強の文生図モデルがここにいる！」と歓声が上がった。

Google DeepMind の研究担当副社長兼ディープラーニング責任者である Oriol Vinyals 氏は、Imagen 2 を使用して Gemini のロゴを生成する実験を行いました。

こちらは、別の Google 科学者が Imagen 2 を使用して生成した画像です。

以下はネットユーザーが実際にテストして生成した青い猫です。