Midjourney がメジャーアップデートされ、バージョン V6 がリリースされました! アップデート後の最大のハイライトは、画像がよりリアルになり、細部がより繊細になったことです。 以前の世代に比べてより直感的になりました。 たとえば、トマトと一緒に煮込んだ牛の胸肉の料理を例に挙げてみましょう。右の写真は、より自然で食欲をそそるだけでなく、木製のスプーンの細部まで見逃されていません(左 V5.2、右 V6) : V6の光と影のディテールが最大限に生かされたキャラクターの描写を見てみましょう。対照的に、V5.2 は同じレベルではありません(上位 V6、下位 V5.2) 。 風景画像の処理では、どちらがよりリアルで自然であるかが一目でわかります(左が V5.2、右が V6) 。 さらに、新バージョンのもう 1 つのハイライトは、単純なテキストを処理できることです。描画するテキストに「引用符」を追加するだけです (「Hello World!」など)。 ついに文字化けしなくなりました! 創設者のデイビッド・ホルツ氏は Discord の投稿で V6 のリリースを発表し、V6 はチームがゼロからトレーニングした 3 番目のモデルであり、開発プロセスは 9 か月続いたと述べました。 要約すると、V6 には5 つの主要なアップグレードがあります。
さらに、David Holz氏は、V6は現在「アルファテスト」段階にあり、いつでも変更される可能性があり、後でフルバージョンにアップグレードされる予定であると述べました。 これは、今後数週間で、V6 の速度、画像品質、一貫性、迅速な応答性、テキストの正確性がさらに向上することを意味します。 現在、V6 は V5 よりも遅く、高価です(イメージあたり約 1gpu/分、アップスケールあたり約 2gpu/分)が、V6 は昨日更新され、速度が 2.7 倍に向上しました。 V6 の登場により、ネットユーザーには新しい遊び方が与えられ、さまざまなテスト比較が非常に人気を博しています。 しかし、V6を上手にプレイしたいのであれば、これまでのヒント戦略を使うだけでは不十分かもしれません。 David Holz 氏は、「V6 のプロンプトは V5 のものとは非常に異なるため、プロンプトの出し方を再度学習する必要があります」と明言しました。 効果: 実写まずはネットユーザーのテスト結果を見てみましょう。 Midjourney V5.2 (左)と V6 (右)に、「遅くまで営業中」というライトサインでマークする必要があるバーを描画するように依頼します。V6 は問題なく描画します。 アップデートされたアップスケールをもう一度体験してみましょう。通常画像は次のようになります。 2 つの異なるモードがあります: 微妙(上)とクリエイティブ(下) 。あなたの家族はどちらのモードが好きですか? クリエイティブは鏡の細部にまで気を配りました。 DALL・E 3やAdobe Fireflyなど他のAI描画ツールとの比較もあります。 Midjourney V6 は、さまざまなスタイルの画像を生成する際に優れたパフォーマンスを発揮します。 本物と間違えそうなタイプです。 V6はタバコテストにも合格しました。煙が本物であるだけでなく、針の年齢も鮮明に描写されています。 しかし、前述のように、Midjourney V6 アップデートではエフェクトだけでなくプロンプトの単語も変更されます。 幸いなことに、David Holz 氏は次のようなヒントやコツをいくつか教えてくれました。
簡単に試してみましょう。 Midjourney V6 の開封V6 を呼び出す方法は 3 つあります。Midjourney Discord サーバーでスラッシュ コマンド「/settings」を入力するか、Midjourney ボットへのダイレクト メッセージ(DM)に入力して上部のドロップダウン メニューで V6 を選択するか、プロンプトの後に手動で「—v 6.0」と入力するかを選択できます。 私たちはミッドジャーニーに、大雪と「明けましておめでとう」と書かれた看板のある大晦日の光景を描写してもらいました。
言うまでもないですが、感触は良いのですが、「言葉」の出来栄えがまだ不安定です。 プロンプトの単語はまったく同じですが、V5.2 の全体的なトーンはより温かみのあるものになっていますが、V6 はまだかなり先進的に見えます。 次に、任意の画像をクリックして拡大します。 「微妙」と「クリエイティブ」という 2 つの新しいモードが表示されます。 以下はクリエイティブの結果です。ご家族の感想はいかがでしょうか? |
<<: Google Gemini がゲームを逆転!マルチモーダル機能は GPT-4V と同等 | 香港中国語 128 ページの総合評価レポート
[[397103]] 「AIコア技術の躍進は産業の高度化の原動力であり、オープンソースはAI発展の新...
現在、経済や文化の交流のグローバル化に伴い、主流言語や共通言語が勢力を増し、不利な立場にある言語は絶...
現在、DETR モデルはターゲット検出の主流のパラダイムとなっています。しかし、DETRアルゴリズム...
ChatGPTが主導する大規模言語モデルの時代において、避けては通れないトピックが「人間のフィードバ...
Red Hat Inc. は本日、情報技術自動化のための生成 AI サービスである IBM Wats...
1月8日、CES 2024の期間中、フランスのスマートヘルステクノロジー企業Baracodaが世界初...
AxPOS A8Sは、LianDi Commercialが2020年に構築に注力した新世代のスマート...
急速に変化する今日の市場で競争力を維持するために、企業は次の大きな成長機会や運用上の優位性を発見する...
[[234392]] [51CTO.com クイック翻訳] 人間は常に、自分たちに似たロボットや人工...
ChatGPT や GPT-4 などの大規模言語モデル (LLM) の出現により、迅速なエンジニアリ...
マスク氏の脳コンピューターインターフェースは「人間でテスト」されようとしているが、侵襲的な脳コンピュ...
[[406953]]自動車メーカー、自動運転企業、バッテリーおよびエネルギー貯蔵企業として、テスラは...
ご存知のとおり、自然言語処理 (NLP) とコンピューター ビジョン (CV) は、人工知能の 2 ...
人工知能の波が大きな変化を引き起こすには、4年という時間は十分あります。 2016年に北京の大学の講...