AIが別のAIに命令する、GAN+CLIPの組み合わせで「CGアーティスト」に

[[407645]]

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

GAN によって生成された画像は十分クールだと思いませんか?

データセットを変更する必要はありません。CLIP に与えるコマンドに「 Unreal Engine 」という文字を追加し、CLIP に GAN にコマンドを実行させるだけで、画像がすぐにハイエンドの CG アートスタイルになります。

テキストにUnreal Engineを追加する手法は、Aran Komatsuzaki氏がTwitterで最初に投稿し、CV界隈で多くの注目を集めました。

その後、誰かがこのプロセスをColabに投稿したところ、ネットユーザーは大騒ぎになりました。

「色鉛筆スタイル」も指定できます

あるいは「ジブリスタイル」:

最も驚くべきことは、「3D写真修復」を追加することで、実際に3次元の構成を生成できることです。

CLIP は OpenAI によって開発された、画像の並べ替えを行うモデルです。GAN と連携する方法も非常にシンプルです。

次のように、単純なランダムパターンをシードとして開始します。

このように、CLIP はテキストの説明との類似度スコアを計算し、それを GAN にフィードバックすることで、GAN はスコアの向上を目的として継続的に反復処理を行うことができます。

こうしてAIアーティスト集団が誕生したのです。

プロンプトにスタイル要件を追加するだけでなく、AI に人の名前を直接伝えて、AI の目にその人がどのように見えるかを確認することもできます。

これは、ビットコインの謎の父、サトシ・ナカモトのような、これまで一度も姿を現したことのない大物たちを推測するのにも使えます。

これは AI の頭の中の Satoshi Nakamoto です。あなたが信じるかどうかは別として、私はとにかく信じます。

オンライントライアル

Colab には VQGAN+CLIP の多くのバージョンがあります。比較した結果、速度と品質の点でより優れた、追加の最適化とプーリング技術を追加したものを選択しました (記事の最後にリンクがあります)。

手順 1 と 2 を順番に実行してください。

ステップ 3 : 使用するモデルを選択します。デフォルトでは、ImageNet でトレーニングされています。

ステップ 4ではパラメータを設定します。通常は、生成するコンテンツを「|」で区切ったテキスト形式で入力するだけです。

幅と高さは生成される画像の解像度を制御し、モデルは使用するモデルを選択できます (手順 3 でダウンロードする必要があります)。

シード番号を変更すると、ランダム画像シードが変更されます。

init_imageで初期イメージを指定することもできます。Colab 環境にイメージをアップロードしてから、リンクを入力する必要があります。

例えば、ある人はそのような画像をイメージシードとして使用し、ポケモンを生成するという新しい遊び方を考案しました。

5 番目のステップが実行され、300 x 300 解像度のグラフを 500 回繰り返すのに数分しかかかりません。

最後に、生成されたプロセスをビデオに合成できます。

とても簡単です。ぜひお試しください。

オンライントライアル:
https://colab.research.google.com/drive/1ZAus_gn2RhTZWzOWUpPERNC0Q8OhZRTZ

VQGAN:
https://github.com/CompVis/taming-transformers

クリップ：
https://openai.com/blog/clip/

<<: MITとマイクロソフトはAI向けにLeetCodeプログラミング問題集をカスタマイズした

>>: 毛沢東選集と魯迅全集をAIに与えたところ、AIが書いた大学入試のエッセイは非常に適切だった。

一般化の危機！ LeCunは質問を公開しました: テストセットとトレーニングセットは決して関連していません

AIが別のAIに命令する、GAN+CLIPの組み合わせで「CGアーティスト」に

オンライントライアル

一般化の危機！ LeCunは質問を公開しました: テストセットとトレーニングセットは決して関連していません

AIが顧客関係管理を改善する3つの方法

テスラはどのようにしてPyTorchを使って自動運転を実現し、世界に挑戦したのでしょうか？

とんでもないことだ！ UniVision: BEV 検出と Occ 共同統合フレームワーク、デュアルタスク SOTA!

2021年以降の人工知能トレンドに関する5つの予測

業界の証人、Pudu Roboticsが北京ケータリング調達展示会に初登場

マイクロソフトのGitHub Copilotサービスは大きな損失を被っていると報じられており、同社は独自のAIチップを開発してNvidiaに対抗する予定だ

レポート：AI脅威論は誇張されている：導入と保守のコストが高いため、影響はそれほど早く広範囲に及ぶことはない

クラウドネイティブの運用とメンテナンスを簡素化する方法

推薦する

ChatGPT でより良いコードを書く方法

傲慢か偏見か？AIはあなたの美的観念に影響を与えていますか？

スタンフォード大学が主流モデルのトップ10の透明性を公開！ラマ2が1位、GPT-4は透明性がない、ルカン氏が批判：収益性は完全に理解されている

AIは自メディア記事の質を知っている。これがWeChatの自動評価アルゴリズムだ

2019 年に知っておくべき機械学習向け Python ライブラリトップ 10

顔認識とは何ですか?あなたは顔認識技術を本当に理解していますか?

注目を浴びた分析と AI の 5 つの大惨事

ドローンの応用シナリオに関する簡単な説明

エンタープライズチャットボットは超パーソナライズされたエクスペリエンスを提供できますか?

データラベラーの視点からAI技術の詳細な応用を検討する