この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 今年1月にOpenAIが発表したDall-Eは驚くべきものでした。1段落のテキストを入力するだけで、その内容に基づいた画像を出力することができました。アンドリュー・ン氏も思わず親指を立てました。 たとえば、「アボカドのような座席」を設計するように依頼します。 しかし、OpenAIは公式サイトにいくつかの固定テンプレートのみを設置しており、コードはオープンソースではないため、ユーザーはAIを使用してさらに多くの画像をデザインすることはできません。 しかし、今は良いニュースがあります。中国人のPhilip Wang氏が、 Deep Dazeと呼ばれる Dall-E の PyTorch バージョンを再現しました。 彼は、パソコンで実行できるOpenAIのCLIPとスタンフォード大学のSirenを使用しました。 コマンドラインに説明を入力するだけで、この AI はさまざまな絵を描くことができます。 たとえば、緑の丘にかかる霧: あるいは「草の上の粉々になった皿」 実際の効果についてはどう思いますか? このプロジェクトを開発したフィリップ・ワン氏は、今年初めにDall-Eを再生産すると発表した人物と同一人物です。予想外に、3か月も経たないうちに、このプロジェクトは非常に強力になり、GitHubで1.1kのスターを獲得しました。 インストールと使用方法Deep Daze は pip 経由で直接インストールできます:
インストールが完了したら、次のコマンドを入力して実行します。
ここで、imagine はコマンド、TEXT は 77 文字以内の英語の説明、<flags> はオプションのパラメーターです。 記事の冒頭にある霧のかかった山の写真を生成する場合は、次のコマンドを入力します。
<flags> に追加できるパラメータは、--deeper (高画質を得る)、--num-layers (ネットワーク層の数を指定する) などです。詳しい使用方法については、GitHub プロジェクトのホームページでお問い合わせください。 AIの想像があまりにも大胆すぎると心配な場合は、画像を指定して、その画像をもとにAIに想像させることもできます。これにより、画像があまり過激にならないことが保証されます。 具体的なコマンドは以下のとおりです。
AIにピザの写真を見せて、「上にピーマンが乗っていたらどんな感じになるか」を想像するように頼んだとします。 次に、上記のコマンドの説明を「ピーマンのピザ」に変更します。 これはすべて Deep Daze に関することだと思われますか?実は、より強力な完成形であるストーリー モードがあります。 --create_story=True を設定するだけでモードのロックが解除され、77 文字の制限が解除されます。プロジェクトの作者は、アメリカの詩人ロバート・フロストの詩「Snowy Night Woods Resting Horse」を入力し、mp4 ビデオを取得しました。
この時点で、AI に「カラフルな黒」を描かせたいところでしたが、貧弱さが私の操作を制限しました。 Deep Daze を使用するには CUDA をインストールする必要があり、良好な結果を得るには 8GB 以上のビデオ メモリを搭載した GPU を使用するのが最適です。そして今のところ、Nvidia グラフィック カードを購入する余裕はまったくありません。 プロジェクトアドレス: |
>>: 「映画を見る」こと以外に、人工知能は医療の分野で何ができるのでしょうか?
2024年に向けて、AI分野ではどのような発展や変化があるでしょうか? Stability AIが...
現在、ビジュアルトランスフォーマー(ViT)モデルは、画像分類、オブジェクト検出、セグメンテーション...
プロンプト エンジニアリング (コンテキスト プロンプトとも呼ばれる) は、モデルの重み/パラメータ...
新しいテクノロジー時代の幕開けを迎えた今、クラウド コンピューティングと人工知能 (AI) の融合に...
多くの人がさまざまな種類の本を読み、ビッグデータに関する多くの記事に出会ったことがありますが、それら...
ウィリアム・ギブソンの2010年の小説『ゼロ・ヒストリー』では、ある登場人物が「これまでで最も醜いT...
2021年4月30日、SAEはJ3016「運転自動化分類」の第4版をリリースしました。これは、201...
「ポイント」すると動きます。Gen-2の新機能「マジックブラシ 馬亮」が正式にリリースされました。無...
[51CTO.com クイック翻訳] フレームワークと方法として、アジャイル開発は現在、ソフトウェア...
[[358422]] 01 現段階における人工知能のボトルネック現在、人工知能、特にその応用分野では...
大規模言語モデル (LLM) のサイズが大きくなるにつれて、これらのモデルを本番環境で推論に導入して...
[51CTO.com 速訳] 香水は依然として人工物とみなされており、「スーパーな鼻」を持つトップマ...
[[436560]]世界中の IT プロフェッショナルは、膨大なデータに圧倒され、本当に重要な洞察を...