「カラフルな黒をください」というたった1行のコマンドでAIが描ける

「カラフルな黒をください」というたった1行のコマンドでAIが描ける

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

今年1月にOpenAIが発表したDall-Eは驚くべきものでした。1段落のテキストを入力するだけで、その内容に基づいた画像を出力することができました。アンドリュー・ン氏も思わず親指を立てました。

たとえば、「アボカドのような座席」を設計するように依頼します。

[[390268]]

しかし、OpenAIは公式サイトにいくつかの固定テンプレートのみを設置しており、コードはオープンソースではないため、ユーザーはAIを使用してさらに多くの画像をデザインすることはできません。

しかし、今は良いニュースがあります。中国人のPhilip Wang氏が、 Deep Dazeと呼ばれる Dall-E の PyTorch バージョンを再現しました。

彼は、パソコンで実行できるOpenAIのCLIPとスタンフォード大学のSirenを使用しました。

コマンドラインに説明を入力するだけで、この AI はさまざまな絵を描くことができます。

たとえば、緑の丘にかかる霧:

[[390269]]

あるいは「草の上の粉々になった皿」

[[390270]]

実際の効果についてはどう思いますか?

このプロジェクトを開発したフィリップ・ワン氏は、今年初めにDall-Eを再生産すると発表した人物と同一人物です。予想外に、3か月も経たないうちに、このプロジェクトは非常に強力になり、GitHubで1.1kのスターを獲得しました。

[[390271]]

インストールと使用方法

Deep Daze は pip 経由で直接インストールできます:

  1. pip インストール deep-daze

インストールが完了したら、次のコマンドを入力して実行します。

  1. テキストを想像する <フラグ>

ここで、imagine はコマンド、TEXT は 77 文字以内の英語の説明、<flags> はオプションのパラメーターです。

記事の冒頭にある霧のかかった山の写真を生成する場合は、次のコマンドを入力します。

  1. 緑の丘にかかる霧を想像してください

<flags> に追加できるパラメータは、--deeper (高画質を得る)、--num-layers (ネットワーク層の数を指定する) などです。詳しい使用方法については、GitHub プロジェクトのホームページでお問い合わせください。

AIの想像があまりにも大胆すぎると心配な場合は、画像を指定して、その画像をもとにAIに想像させることもできます。これにより、画像があまり過激にならないことが保証されます。

具体的なコマンドは以下のとおりです。

  1. '説明' を想像してください —start-image-path /path/to/picture.jpg

AIにピザの写真を見せて、「上にピーマンが乗っていたらどんな感じになるか」を想像するように頼んだとします。

[[390272]]

次に、上記のコマンドの説明を「ピーマンのピザ」に変更します。

[[390273]]

これはすべて Deep Daze に関することだと思われますか?実は、より強力な完成形であるストーリー モードがあります。

--create_story=True を設定するだけでモードのロックが解除され、77 文字の制限が解除されます。プロジェクトの作者は、アメリカの詩人ロバート・フロストの詩「Snowy Night Woods Resting Horse」を入力し、mp4 ビデオを取得しました。

[[390274]]

この時点で、AI に「カラフルな黒」を描かせたいところでしたが、貧弱さが私の操作を制限しました。

Deep Daze を使用するには CUDA をインストールする必要があり、良好な結果を得るには 8GB 以上のビデオ メモリを搭載した GPU を使用するのが最適です。そして今のところ、Nvidia グラフィック カードを購入する余裕はまったくありません。

プロジェクトアドレス:

https://github.com/lucidrains/deep-daze

<<:  ディープラーニングを使った顔認証

>>:  「映画を見る」こと以外に、人工知能は医療の分野で何ができるのでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

OpenAIはAPIのアップグレードと価格引き下げでメジャーアップデートを実施

6月14日、OpenAIは生成型人工知能の分野での競争上の優位性を維持するため、テキスト生成モデルを...

顔認識カメラはあなたの顔を盗みますが、なぜ「精密マーケティング」に使われるのでしょうか?

今年3月15日にCCTVで暴露された事件は、オフラインのショッピング施設に入ったことのある人全員に衝...

労働者の皆さん、ご注意ください: AI は組立ラインの労働者を置き換えるものではなく、管理者を置き換えるものです。

今後 15 年間で、人工知能によって米国の雇用が 40% から 50% 減少すると私は予測しています...

AIとIoTが教育に与える影響

高度なデジタル科学技術の革命は私たちの生活のあらゆる分野に影響を及ぼしており、教育業界も例外ではあり...

...

AI基礎データサービス市場は新たな段階に入った

データプライバシー保護規制が継続的に改善され、国がデータ要素市場を積極的に育成し、データ流通が継続的...

[ビッグガイがやってくるエピソード9] データセキュリティとデータベースセキュリティの黄金律

[51CTO.com からのオリジナル記事] ライブショー「ビッグネームがやってくる」の今回のエピソ...

ディープラーニングの最適化を理解するにはどうすればよいでしょうか?勾配降下法の軌跡を分析することで

ニューラル ネットワークの最適化は本質的に非凸ですが、単純な勾配ベースの方法は常にこのような問題を解...

配達員は失業してしまうのでしょうか?美団、無人配達システム構築のため650億元を調達

最近、国内のインターネット大手はコミュニティグループ購入の分野で激しい競争を繰り広げており、アリババ...

35258 スター!これはITアーキテクトの技術知識マップのコレクションです

ソフトウェア アーキテクチャは、あらゆるソフトウェア プロジェクトの重要な部分になっています。アーキ...

動作計画のための探索アルゴリズム: フロントエンド計画、バックエンド軌道生成から状態解まで

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

Python での機械学習 K-means アルゴリズムの実装

K平均法アルゴリズムの紹介K-means は、機械学習でよく使用されるアルゴリズムです。これは教師な...

...

GPT-4 は宇宙のすべてのデータを消費します! OpenAI、データ不足で相次いで訴訟に直面、カリフォルニア大学バークレー校教授が警告

「ネットワーク全体」を使い果たすと、生成 AI はすぐにデータを使い果たします。最近、カリフォルニア...