数日前、Google Bard が LLM リストで瞬く間に GPT-4 を抜いて 2 位にランクされ、AI 界は一気に沸き立ちました。 「バードはいつからこんなにすごい人になったの?」 それは理由がないわけではないことが判明しました。 先ほど、Google が公式に発表しました。最新バージョンの Gemini Pro のサポートにより、Bard は推論、理解、要約、コーディング機能の急速な向上を実現しただけでなく、230 か国以上で 40 を超える言語をサポートしました。 同時に、「画像を表示できるだけで実践はできない」Google の最高峰画像モデル Imagen 2 も、Bard に無料で統合されました。 画像生成機能は、GoogleのImageFX、Search、Vertex AIでも体験できます。 バードの生の絵はどれくらい強いですか?昨年 12 月、Google は高品質で写真のようにリアルな出力が可能な最新の Imagen 2 モデルをリリースしました。 生成された効果は驚くべきものですが、多くのネットユーザーから「オープンソースでなければ役に立たない」と批判されています。 今なら誰でも Imagen 2 の機能を試すことができます。まず、Google が提供する Bard の RAW 画像の多くの例を見てみましょう。 たとえば、足をサーフボードに乗せた犬をスポーンします。 以下は、Bard によって生成されたさらに素晴らしい画像です。 ヒント: 落ち着いた色と 3D シェーディングを使用した、海や植物のフォトリアリスティックな画像を使用した、ミックス メディアのコラージュ アートを生成します。 ヒント: ソーシャル メディアに投稿して、バッファロー ウィング フェスティバルで使用できるおいしそうな画像を作成します。 ヒント: スチームパンク スタイルのデジタル アートでファッション ショーの画像を生成します。顔にズームインします。 ヒント: 自然に囲まれた古い山道を走る未来的な車のイメージを生成します。 ヒント: 緑豊かで活気のあるジャングルの中心でパーティーをしている象を描いた、生き生きとした活気のある画像を作成します。象はさまざまな色で、楽しいアクセサリーで飾られている必要があります。 ヒント: 泡立つフラスコ、光る結晶、そして瓶の中に渦巻く小さな光り輝く世界で満たされた、雑然とした錬金術師の作業場のイメージを生成します。 ヒント: 日没時にカメラから目をそらす人物のリアルな写真を生成します。ポートレート モードなので背景がぼやけます。 責任ある生成のため、Bard によって生成された画像には SynthID のラベルが付けられます。 SynthID は、Google DeepMind が開発した透かしツールで、生成した画像のピクセルにデジタル透かしを直接埋め込みます。 SynthID の透かしは人間の目には見えませんが、識別のために検出できます。 多くのネットユーザーの評価ネットユーザーのピート・ブラックショーはバードを使って、まるでアヘンを吸っているように見える「トランペットを吹くプードル」を作成した。 彼はまた、同じプロンプト「歴史的な外輪船でシンシナティのスカイラインを描いてください」を使用して、Bard と GPT-4 を競わせました。Bard によって生成された画像は、色調のせいでよりリアルな感じがするかもしれません。 もう一人のスタートアップ創業者であるライアン・カーソン氏も、単一のプロンプトを使用して DALL·E 3 と Bard をテストしました。 彼は、DALL·E 3 は 32 倍高価であるにもかかわらず、それでも DALL·E 3 で生成された画像の方が好きだと語った。さらに、Bard は 1792x1024 サイズのリクエストを無視します。 キツネをフィーチャーしたアイソメトリック ビデオ ゲーム タイルの画像を作成します。シーンは、ビデオ ゲームの最新のデジタル イラストレーションに典型的なロー ポリ デザインで様式化されます。タイルは、デジタル アート スタイルでレンダリングする必要があります。柔らかく温かみのある照明でファセット面をやさしくハイライトし、ミニマリストの美的感覚を強調します。全体的な効果は、ビデオ ゲームや最新のデジタル アートの現代的なデジタル ランドスケープの特徴である、穏やかなシンプルさを伝える必要があります。焦点はキツネにあり、アイソメトリックとロー ポリのテーマを維持しながら、幾何学的な形状でレンダリングする必要があります。1792 x 1024。ロゴ、テキスト、言葉は不可。 編集者は、バードが生み出したキツネの生き生きとした感じが『星の王子さま』のキツネに似ていると感じています。 左: DALL E 3、右: バード 別のユーザーはMidjourneyでこれを試し、0.04ドルを費やしました。 出典: アレックス・アンドル 有名な映画監督ヤム・ララナスは、バッドを使って「ハリウッドの写真界のかかし」の姿を描きました。 ネットユーザーのYam Laranasさんが作った寿司は美味しそうだ。 マーカス自身が「ビデオゲームのハリネズミを描く」を使用して生成したハリネズミ。 ネットユーザーのRaj Goodman Anand氏は、バード氏の画像生成スキルに衝撃を受けたと語った。見た目が優れているだけでなく、DALL·E がしばしば苦労するテキストの正確な生成も実現します。 スポンジボブはブリトーを食べます。 出典: マット・ウルフ ネットユーザーのchientrmが火星シリーズを制作した。 火星の基地から都市全体、宇宙船、内部環境まで、あらゆるものが構想されています。 左右にスワイプして表示 アンドリュー・C・ベッカーは、バードが両手で完璧に絵を描くことができたことを発見しました。 自らをAI愛好家と称するエドワードさんは4回挑戦し、青い目と茶色の髪の女性を描いた。 Midjourney と比較すると、キャラクターの顔画像の生成は確かにはるかに遅れています。 多数のネットユーザーがテスト出典: nixCraft 出典: エドワード 漫画アニメスタイルがうまくコントロールされています。 出典: エドワード (左右にスワイプして表示) 宮本武蔵。 出典: エドワード 禅庭。 出典: エドワード 魔法の城。 出典: エドワード 出典: RubenTainoAI 出典: マイケル・キング (左右にスワイプしてご覧ください) 出典: Sahil kakurle (左右にスワイプ) 失敗例最初の写真には、ラクダが馬に乗っていて、突然人間の足が写っています。 出典: Dhiren V ネットユーザーLoudEggさんはビールを飲むナナホシテントウを作成したが、どうやらコーヒーを飲んでいるようだ。
これらの手の生成も失敗します。 出典: エドワード そして奇妙な目。 Bardでは作成できないコンテンツもございます。 Bard/GPT-4/Midjourney と Bard ではどちらがユーザーに人気でしょうか? Bard が使用可能になったので、生画像の品質と、同じプロンプト語による生画像の違いについて、Bard、GPT-4 (DALL·E 3)、Midjourney を比較しました。 各社それぞれ特徴があるが、GPT-4と組み合わせたDALLE 3は意味理解能力が最も強いため勝っている。ユーザーが要件を提示できれば、それを引き出すことができる。 Midjourney は、今でも最も強力な美的表現と多様なスタイルを誇っています。 見た目に美しい絵を描きたいなら、月額 10 ドルの Midjourney が依然として最もコスト効率の良い選択肢です。 Bard の利点は無料であることです。結局のところ、無料であることは、時々それを体験する多くのユーザーにとって本当に重要です。 さらに、全体的なスタイルがよりリアルです。リアルで自然な写真を簡単に作成したい場合は、Bard は前の 2 つよりもさらに優れています。 まずは簡単なキューから始めて、より一般的なキューがどのように異なって処理されるかを見てみましょう。
吟遊詩人: Bard によって生成された写真のスタイルは非常に自然でリアルです。照明と構成は写真に非常に近く、効果も非常に良好です。 GPT-4: GPT-4 によって生成された画像は、内容がより豊富で、少し誇張されていても、色彩や構成はアニメーションのスタイルに近くなります。 「Midjourney」の効果はさらに驚くべきもので、特に以下の 2 枚の写真では、光と影、食べ物のディテールと本物らしさ、そしてカメラの感覚が十分に表現されており、写真とほとんど区別がつきません。 3社の業績を総合すると、Midjourneyが若干優勢です。 豪華な食事の準備ができたので、次は簡単な食事を生成してみましょう。モデルのパフォーマンスはどうなるでしょうか?
GPT-4は本当に数秒で理解します。同じプロンプトでも、形容詞を変えるだけで効果は劇的に変わります。その意味理解力と生の画像効果は非常に正確です! しかし、Midjourney はプロンプトワードの違いに気づかなかったようで、おいしい料理をテーブルに出し続けたので、プロンプトワードが間違って入力されたのではないかとさえ思いました。 プロンプトワードを再度確認してみると、このモデルのプロンプトワード理解能力は確かに一流だとため息をつくばかりです。 最も驚くべきことは、バードもプロンプトの変化を感知したが、プロンプトの単語がガードレールをトリガーしたと感じてペイントを拒否したことです。 テスト中に、Bard の安全ガードレールは、私たちが使用しているすべての AI 製品の中で最も敏感であることもわかりました。プロンプトに「中立未満」の感情的な意味合いを持つ単語が含まれている限り、ガードレールがトリガーされ、生成が拒否される可能性が高くなります。
次に、登場人物に関連する簡単なプロンプトワードの生の画像効果をテストしました。 バードのキャラクターの扱いは、まだあまり良くありません。手や表情が時々歪んでおり、細部がうまく処理されていません。しかし、スタイルは依然として比較的リアルでシンプルな効果を維持しており、「AIフレーバー」はそれほど強くありません。 さらに、バードの映像構成法は、テレビの視点や他の角度からの構図など、より多様化しています。 GPT-4 の全体的な画像スタイルは、よりアニメーション指向であり、「AI フレーバー」がより強くなっています。 そして細部においては、GPT-4 はより多くのキャラクターやオブジェクトを画像に取り入れ、人々に量感と充実感を与えようとしています。バードはこれをより自然に扱います。 Midjourney は、最も多様なグラフィック スタイルと最高の美的表現を維持し続けています。唯一の欠点は、構成があまり変化がなく、むしろ繰り返しになっているように見えることです。 もう一つの小さな問題は、テレビ内部のスタイルがテレビ外部のスタイルと一致していないように見えることです。たとえば、右下隅のテレビはよりリアルに感じられますが、テレビ外部のキャラクターはアニメバージョンです。次元の壁に何か問題があるように感じます。
私たちは、漫画を見ながら泣いている男の子の絵を AI に生成させ、別の文脈におけるプロンプト語の感情的なスタイルの違いを AI が捉えられるかどうかを確認しました。 GPT-4 は、背景に黒い部屋を追加して、この画像を非常にうまくレンダリングします。 泣いている少年の表情もとても適切です。 しかし、バードには依然として同じ古い問題があります。否定的な感情が関与すると、ガードレールが作動し、生成が拒否されます。 Midjourney によって生成された結果も非常に優れています。プロンプト ワードの感情的な色彩の変化を非常にうまく捉えているだけでなく、構成とアート スタイルもさまざまな方法で表現されています。 次に、複雑な手がかり語生成の効果を試し、手がかり語の理解と絵の効果における 3 つのモデルの違いを確認しました。 夕暮れ時の活気とエネルギーにあふれた賑やかな街の通りのイメージを作りましょう。シーンは活気のあるダウンタウン エリアに設定され、沈む太陽が建物の上に暖かく金色の色合いを投げかけています。 さまざまな背景を持つ人々が歩道を歩いています。急いでいる人もいれば、のんびりと散歩している人もいて、都会生活の真髄を捉えています。その中には、バイオリンを弾くストリートミュージシャンがいて、都会の喧騒に美しいサウンドトラックを加えています。歩道には露店が並び、温かい食べ物から手作りの工芸品まであらゆるものを売っています。建築は近代的な高層ビルと歴史的な建物が混在しており、街のダイナミックな成長と豊かな歴史を物語っています。 ネオンサインが点滅し、通行人を居心地の良いカフェや賑やかな店に誘います。この精巧に描かれた都市の風景は、都市生活のリズムで活気に満ちており、夕暮れ時の大都市を特徴づける混沌と秩序の調和を体現しています。 GPT-4 は確かにプロンプト単語の詳細を非常にうまくキャプチャして復元することができ、コンテンツは非常に豊富です。 しかし、豊かなディテールを追求しすぎるあまり、全体的には、わざわざ「演出」したような不自然な感じがするし、漫画調が強すぎるようにも思える。 バードの絵は全体的にずっと自然で、プロンプトの言葉の詳細を意図的に反映するために描かれた登場人物は多くありません。 さらに、絵の構成は非常に多様であり、アートスタイルは絵の内容と非常によく一致しています。 そして、このスタイルは『Midjourney』でも見ることができます。『Midjourney』は、ディテールが豊富で、アートスタイルが多様で、絵も自然で、絵の中の登場人物全員の服装のインデックスも一貫しており、美学と正確さの最高のバランスを実現しています。 現代世界から隠された古代の図書館をイメージしてください。そこには古い本や巻物がそびえ立つ棚があり、薄暗いろうそくの明かりの中で長い影を落としています。 空気は古紙の香りと何世紀にもわたって受け継がれてきた知識のささやきで満ちています。中央には大きな木製のテーブルがあり、吊り下げられたランタンの柔らかな光の下に、開かれた本や古代の遺物が散らばっています。 ローブをまとった孤独な学者が、羽ペンを使ってメモを取りながら、古代の写本を熟読しています。彼の周りの壁には、忘れ去られた世界の地図や過去の学者の肖像画が飾られています。 厳粛な雰囲気と知恵の追求への敬意が感じられます。この場面は、時の流れに影響されない学問の聖域で、時が止まった瞬間をとらえています。 GPT-4 は依然として画像の詳細が最も豊富なモデルであり、これは OpenAI が言語を特に強力に把握していることを改めて証明しています。しかし欠点は、絵がまったく自然に見えず、細部の追求が常に「演出された絵画」の印象を与えることです。 バードは、元のプロンプトにある多くの雰囲気の描写を反映する方法がないと感じました。全体像は比較的単純で、多くの詳細が失われました。 Midjourney は全体として、統一された美的レベル、細部の復元、雰囲気を備え、より芸術作品のような感じがします。 実際にテストしてみると、3つの生画像AIの特性は依然として大きく異なることは明らかですが、Bardは無料であるため、その効果は2つの有料モデルに比べてわずかに劣ります。 しかし、その非常に自然でリアルなスタイルは、非常に優れた視覚体験を提供します。今後のアップデートでモデルの細部の品質がさらに向上すれば、間違いなく多くの忠実なファンを引き付けるでしょう。 少なくとも、今では無料の写真生成ツールがもう 1 つあります。 |
<<: GPT-4Vは2位にしかランクされません!華中科技大学などがマルチモーダル大規模モデルの新たなベンチマークを発表:5つの主要タスクにおける14のモデルを総合的に評価
>>: ザッカーバーグは7億ドルの配当金を受け取り、Metaの株価は14%急騰、オープンソース計画は成功したのか?
写真を撮り、テキストコマンドを入力すると、携帯電話が自動的に写真の編集を開始しますか?この魔法のよう...
改革開放から30年、中国は科学技術の進歩の分野で非常に重要な役割を果たしてきました。人口ボーナス、政...
[51CTO.comからのオリジナル記事] 「インターネット+」から「インテリジェンス+」まで、革新...
この本の最初の 2 章では、進化アルゴリズムをやや抽象的な意味で定義しています。スコアリング、選択、...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
2019年を振り返ると、無人商用車にとっては着陸の兆しがなく、資金調達がますます困難になり、最悪の...
マイクロソフトは3月8日、北京時間3月22日午前1時にオンライン新製品発表会を開催することを決定した...