生画像の新しい「マルチモーダル」AIテキストレンダリングはMidjourney + DALL·E 3に勝る!Karpathyが5億元の資金調達に投資

生画像の新しい「マルチモーダル」AIテキストレンダリングはMidjourney + DALL·E 3に勝る!Karpathyが5億元の資金調達に投資

「10人のチームを持ち、年間売上高が1億ドルを超えるスタートアップ」を輩出する道として、文芸グラフィックス分野はAIスタートアップが最初の金脈を築くための最良の出発点となっている。

しかし、GoogleやMicrosoftのような大企業がすでに多くのリソースを投入している分野では、スタートアップに残されたチャンスはどこにあるのでしょうか?

最近、Ideogram と呼ばれるテキスト描画ツールが、その優れたテキストレンダリング機能により 8,000 万ドルの資金調達に成功しました。

ジェフ・ディーンやアンドレイ・カルパシーなど、シリコンバレーの大物実業家や著名機関が多数投資家となっている。

プロンプトにテキストを入力するだけで、生成された画像に非常に自然かつ制御可能に表示されます。

さらに、生成された画像は、単に平面的なテキストとして画像内に表示されるだけでなく、ユーザーの要件に応じて自然なフローティングテキストや 3 次元テキストを生成することもできます。

たった 1 つのプロンプトでも、テキストと画像が高度に調整されたミームを直接描画できます。

文勝図は「マルチモーダル」にもなり得る

画像からテキストを生成することは、主要な画像処理 AI がうまく処理できなかった問題点でした。

画像内に特定のテキストが必要な場合は、画像の生成後に多くの後処理が必要になります。

Ideogram の生の画像テキストを制御する能力は、比較データの点だけでなく、DALL·E 3 よりもはるかに優れています。

実際に生成されたテキスト付きの画像も非常に自然です。

テキストは、多くの商業広告のように画像の上に自然に浮かぶことも、画像内のオブジェクトと自然に溶け込むこともできます。

このようなテキスト付きの映画ポスターレベルの画像を 1 ステップで直接生​​成できます。

漫画本のイラストやテキストについても同様です。

ユーザーは、表現したいテキスト コンテンツとさまざまなスタイルの画像を非常に正確に組み合わせることができます。

作者の要​​件に厳密に従って正確なテキストを生成できることに加えて、冒頭のミーム画像のように、画像の設定に応じて画像にぴったり合うテキストをゼロから作成することもできます。

これはマルチモーダルモデルの別の形になりました。

通常のRAW画像能力も業界最高

優れたテキストレンダリング機能に加え、グラフィックツールとしての他の面でも、そのパフォーマンスは業界の最高水準に劣りません。

Ideogram 1.0 は、長くて複雑な手がかりを理解しながら、明確で詳細な画像を生成します。

写真のようなポスター

さまざまな動物と奇妙な組み合わせの完璧なプレゼンテーション。

本物と見間違えるほどリアルな写真レベルの画像を生成する機能。

複雑な手の動きも正確に生成できます。

登場人物の表情と光と影がとても調和しています。

また、ツールやプロンプトワードを使用して、画像内に生成されるメインコンテンツの形状と範囲を制御することもできます。

Ideogram 1.0 は、写真のようにリアルな画像を生成できるだけでなく、超自然的なスタイルの画像を表現する強力な機能も備えています。

Ideogram 1.0 には、ユーザープロンプトを自動的に強化、拡張、翻訳する「Magic Prompt」と呼ばれる機能も用意されており、ユーザーが美しくクリエイティブな画像を生成するハードルを大幅に下げます。

元のプロンプト: 猫に関する面白いミームを作成してください

強化ヒント: 驚いた表情のペルシャ猫を描いたメモ。猫の目は大きく見開かれており、驚いているか、楽しんでいるかのような印象を与えます。背景には、さまざまなポーズをとった他の猫たちのカラフルなコラージュがあり、テーマは「気づいたら猫がインターネットを乗っ取っている」です。全体的に明るくてユーモラスで、インターネット上で猫に対する変わらぬ愛情が伝わってきます。

この機能を使用すると、絵文字が直接画像を出力できるようになります。

ヒント: 👻🎃💀。

強化のヒント: 幽霊、ハロウィーンのランタン、スケルトンが登場する不気味なハロウィーンのシーン。ぼろぼろのローブを着た幽霊がカボチャの間を漂い、ジャック・オー・ランタンはいたずらっぽい笑みを浮かべます。背景には、シルクハットをかぶった骸骨が幽霊屋敷の近くに立っています。月がフレーム全体に銀色の輝きを放ち、不気味で子供っぽい雰囲気を醸し出しています。

Ideogram 1.0 自体も、複雑なプロンプトを解釈するのに非常に優れています。対応する各画像は、プロンプトの詳細をすべて正確に反映しています。

これは魅力的な家族の肖像画で、マット仕上げの赤い球形のクリスマスプレゼントが青い立方体に包まれたクリスマスプレゼントの上に載っており、その背後には明るい緑のクリスマスツリーが立っており、その木の根元には緑の布が巻かれています。右は好奇心旺盛な子犬、左はかわいい猫です。

完全にサクサクのフライドチキンで作られた雄鶏。まるで映画から飛び出してきたかのようなリアルさです。その体は金色の皮で覆われ、ケチャップがかけられ、羽には完璧に調理された湯気の立つフライドポテトが点在していた。雄鶏の目はケチャップでできた2つの小さな丸い斑点でできており、くちばしはカリカリの鶏の皮でできています。舞台は薄暗いレトロなレストランで、ネオンライトとチェック柄のテーブルクロスがレストランにノスタルジックで風変わりな雰囲気を添えています。

書斎にいる二人の男性。左側の男性は長いコートと柄物のシャツを着て、杖を持って立っています。彼はだらしない顔立ちで、ひげを生やしていた。右側の男性はスーツを着て杖を持ち、椅子に座っています。彼らの後ろの壁には、額に入った男性の肖像画が掛かっている。部屋は華やかなカーテンとカーペット敷きの床でヴィンテージな雰囲気です。

DALL·E 3 などの評価基準によれば、人間の評価者は、プロンプトの配置、画像の一貫性、全体的な好み、テキストのレンダリング品質の点で、DALL·E 3 や Midjourney V6 よりも Ideogram 1.0 を好みます。

大きな無料割り当てと手頃なサブスクリプション価格

強力な機能にもかかわらず、価格は非常に手頃です。

無料ユーザーは 1 日に 25 個のプロンプト単語を使用して 100 枚の画像を生成できます。

月額 8 ドルで、ユーザーは毎日 100 個のプロンプト ワードと 400 枚の写真を生成できます。

月額 20 ドルで無制限に使用できるので、本当に手頃で十分です。

最新のテスト: Ideogram VS Midjourney

明らかに、Vincent Image の分野で既存の競合他社と競争したいのであれば、Midjourney V6 の限界に挑戦することは避けられません。

大物 Sorin Ciornei による最新のテストによると、Ideogram 1.0 は Midjourney より劣っていません。

テスト1: ジョーカー役のオードリー・ヘプバーン

簡単なプロンプトを使用して、オードリー・ヘプバーンとジョーカーを含むキャラクター画像を生成します。

特定の画像の詳細は必要ないため、ヒントは非常に漠然としています。双方が生み出す効果は同等であると言えます。

テスト2: 実際の写真撮影

私の意見では、Ideogram によって生成された最初の画像は、他のすべての画像を圧倒します。

テスト3: 想像力

このテストでは、AI の想像力がテストされます。詳細がまったくないため、画像 AI はどのような要素を追加するか、また、画像を非現実的に見せるにはどうすればよいかを決定する必要があるためです。

旅の途中の方が断然いいです。

テスト4: スタイルの衝突

現実とレトロなテーマの衝突は、Midjourney の方がうまく表現されているようです。

白黒写真とカラーのアヒルを混ぜる必要があるため、Ideogram は少し圧倒的になります。

テスト5: ホログラフィック投影

Midjourney のホログラフィック効果はあまり明確ではありませんが、画像のスタイルはより一貫性があり、調整されています。表意文字のホログラフィック効果は比較的正常ですが、全体像はかなり断片化されているように感じられます。

どちらのチームもそれぞれ強みを持っていますが、全体的なパフォーマンスはあまり良くありません。

テスト6: 公式ケーステスト

公式の例の中では、Midjourney の方が、より詳細でよりリアルなスタイルで、パフォーマンスが優れているようです。しかし、両者の違いは小さいようです。

テスト7: ロゴ

作者は、テキスト付きのロゴの生成もテストしました。Ideogram ロゴは直接使用できないようですが、少なくとも要件を満たしており、明らかなテキスト効果があります。一方、Midjourney はテキスト コンテンツをまったく反映していないようです。

テスト8: マジックヒントでロゴを完成させる

著者は、ユーザーが入力するプロンプトをより詳細にする公式の「マジックプロンプト機能」もテストしました。

彼はこのロゴプロンプトを使用して、2 つのツールの結果を再度比較しました。クリエイティブな観点からは、Ideogram の方が優れているように思われました。

テスト9: ミームと絵文字

Ideogram の強力なテキスト機能はミームを生成するための優れたツールであり、その強力なテキスト機能はここで完全に実証されています。

旅の途中では完全な失敗でした。

ある程度、彼の能力はマルチモーダルな「画像+テキスト」モデルに近いようです。

<<:  「概念のドリフト」問題と闘おう! Google が新しい時間認識フレームワークをリリース: 画像認識精度が 15% 向上

>>:  OpenAI が GPT をロボットの脳に組み込み、具現化された AGI のシンギュラリティが近づいています。エヌビディアとマイクロソフトがユニコーン企業フィギュアキャピタルに26億ドルを投資

推薦する

AIの限界を理解することがその可能性を実現する鍵となる

人工知能 (AI) は、デジタル顧客サービス アシスタント、自動運転車、無人倉庫のロボットなど、多く...

あなたのビジネスに必要な AI 処理ユニットはどれですか?

データセンターに AI を導入することを検討している場合は、まず投資すべきハードウェアとインフラスト...

AIoT: トーク

AIoT とは何ですか? 何ができるのでしょうか? これらは、今日の記事で取り上げる質問です。本質的...

...

...

ICCV'23論文表彰式は「神々の戦い」! Meta Split EverythingとControlNetが両方とも選出され、審査員を驚かせた記事がもう一つありました

たった今、コンピュータービジョンの最高峰カンファレンスである ICCV 2023 がフランスのパリで...

研究は、人工知能が手術後のオピオイド使用を減らすのにどのように役立つかを示している

ペンシルベニア大学医学部が最近実施した研究では、人工知能がオピオイド乱用と戦うためにどのように使用で...

AI人工知能は弱い:あなたを瞬時に複製できる仮想人間が登場

今、テクノロジー界で最もホットな話題はAI(人工知能)です。将来、世界はこれらの人工知能に支配される...

インターネットの前半は終わり、未来は人工知能の時代へ

少し前、ロシアのプーチン大統領は「人工知能 - 21世紀の主要技術」イベントに出席した際、人工知能ロ...

人工知能は産業の発展を促進し、産業構造のアップグレードを加速する

トップレベルの設計を継続的に改善し、コンピュータービジョン、音声認識、機械学習、ナレッジグラフなどの...

Python の高度なアルゴリズムとデータ構造: treap を使用してデュアル インデックスを実装する (パート 1)

\上記で紹介したヒープ構造では、データを部分的にしかソートできません。つまり、一部の要素のソートし...

LangGraphの無限の可能性を発見

著者 | 崔昊レビュー | Chonglouまとめこの記事では、LangChain をベースにした新...

2022年までのビッグモデルの未来を展望し、周志華、唐潔、楊紅霞といったビッグネームはどう考えているのだろうか?

年末から年始にかけて、ビッグモデルの過去を振り返り、ビッグモデルの未来に期待してみましょう。 28日...

マスク氏は、将来は人間よりもロボットの数が多くなると述べ、テスラは自動運転技術を共有する用意があると述べた。

7月6日、本日開幕した世界人工知能会議で、マスク氏は会議に直接出席しなかったものの、インターネット...

自己教師あり学習:AI技術の将来の方向性

ディープラーニングは人工知能の分野に多大な貢献をしてきましたが、その技術自体には依然として致命的な欠...