この AI はわずか 20 分で複雑な芸術作品を作成できます。 1080グラフィックカードが実行可能

この AI はわずか 20 分で複雑な芸術作品を作成できます。 1080グラフィックカードが実行可能

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

Nvidia の最新世代 1080 グラフィック カードを使用して、複雑なアートワークを 20 分で生成できますか?

[[376741]]

ニューラル ネットワークを始めるのが今やそれほど手頃になったのでしょうか?

そうです、これはneural-style-ptと呼ばれるスタイル転送モデルで、Pytorch に基づいて実装され、オープンソース化されました。

このアルゴリズム モデルに関するトピックは、わずか 1 日前に Reddit に投稿され、約 2,000 回の閲覧を集めました。

Neural-style-pt は本当にクールで親しみやすいですか?

豊富な統合方法

neural-style-pt は、論文「A Neural Algorithm of Artistic Style」の Pytorch 実装です。

この論文では、畳み込みニューラル ネットワークを使用して 1 つの画像のコンテンツと別の画像のスタイルを組み合わせるアルゴリズム、つまりよく知られている「スタイル転送」ネットワークを紹介しています。

たとえば、「Starry Night」のアート スタイルをスタンフォード大学のキャンパスの夜景にマッピングします。

または、特定の画像のさまざまな芸術的スタイルに基づいて、それらをターゲット画像に結合します。

「個別の」融合に加えて、複数のアート スタイルを 1 つの画像に統合することもできます。

左上から時計回りに、「星空」+「叫び」、「叫び」+「コンポジション セブン(ワシリー カンディンスキーの油絵)」、「座るヌード(モディリアーニの油絵)」+「コンポジション セブン」、「座るヌード」+「星空」のスタイルです。

スタイル転送を実行するときに、「-original_colors 1」コマンドを追加して、元の色を変更せずにスタイルのみを変更します。

1080 カードで実行できますか?

バックエンドとオプティマイザーに応じて、アルゴリズムの実行速度は大きく異なります。

Tesla K80 で 512 ピクセルの画像を使用して 500 回の反復を行った場合の時間参照:

  • バックグラウンドNN、オプティマイザーL-BFGS: 117秒
  • バックグラウンドnn、オプティマイザーADAM: 100秒
  • バックエンド cudnn-optimizer L-BFGS: 124 秒
  • バックグラウンド cudnn - オプティマイザー ADAM: 107 秒
  • バックグラウンド cudnn -cudnn_autotune -Optimizer L-BFGS: 109 秒
  • バックグラウンド cudnn -cudnn_autotune -optimizer ADAM: 91 秒

GTX 1080 では、同じベンチマーク時間はさらに速くなります。

  • バックエンド nn-optimizer L-BFGS: 56 秒
  • バックグラウンド nn-optimizer ADAM: 38 秒
  • バックグラウンド cudnn-optimizer L-BFGS: 40 秒
  • バックグラウンド cudnn - オプティマイザー ADAM: 40 秒
  • バックグラウンド cudnn -cudnn_autotune -optimizer lbfgs: 23 秒
  • バックグラウンド cudnn -cudnn_autotune -optimizer ADAM: 24 秒

1080 グラフィック カードの現在の販売価格を考慮すると、このしきい値は機械学習にとってすでに非常に魅力的であると言わざるを得ません。

デフォルトでは、neural-style-pt は畳み込みにバックエンドを使用し、最適化に L-BFGS を使用します。ただし、メモリを大量に消費します。以下の方法でメモリ使用量を削減できます。

cuDNN を使用するには、-backend cudnn を追加して cuDNN バックエンドを使用します。 ADAM を使用する場合は、L-BFGS の代わりに ADAM を使用するために -optimizer adam を追加します。

デフォルト設定では、neural-style-pt はシステム上で約 3.7 GB の GPU メモリを使用しますが、ADAM と cuDNN に切り替えると、GPU メモリのフットプリントが約 1 GB に削減されます。

始め方

neural-style-pt をインストールするには、まず Pytorch を準備する必要があります。

次に、次のコマンドを使用してトレーニング済みのモデルをインストールできます。

  1. Python モデル/download_models.py

インストール後、開始して試してみるのは非常に簡単です。1 行のコードで実現できます。

  1. python neural_style.py -スタイルイメージ-コンテンツイメージ

複数のスタイルを読み込む場合は、異なる画像ファイル名を区切る必要があります。

  1. -style_image starry_night.jpg、the_scream.jpg

画像名には完全な URL パスを含める必要があることに注意してください。

これらが基本的な操作です。

neural-style-pt のもう 1 つの強力な機能は、複数の異なるコンピューティング デバイスを使用して高解像度の画像を処理できることです。

デバイスによって、ネットワーク レイヤーごとに計算結果が出力されます。

-gpuディレクティブを使用して、どの GPU および CPU デバイスを使用するかを制御し、-multidevice_strategy を使用して、デバイス間でレイヤーを分割する方法を制御できます。

たとえば、4 つの GPU を備えたサーバーでは、コマンド「-gpu 0,1,2,3」は、GPU 0、1、2、3 の順に処理することを意味します。

-multidevice_strategy 3,6,12 ディレクティブが同時に指定されており、最初の 2 つのレイヤーは GPU 0 で計算され、レイヤー 3 から 5 は GPU 1 で計算され、レイヤー 6 から 11 は GPU 2 で計算され、残りのレイヤーは GPU 3 で計算されることを示しています。

最大の出力解像度を実現するには、必要に応じて -multidevice_strategy を調整します。

以下は、8 つの Tesla K80 GPU を使用してサーバー上で生成された 4016 x 2213 解像度の画像です。

1080 グラフィック カードと「分散」コンピューティングの入門、クールで楽しい低敷居スタイルの転送ネットワーク、ぜひ試してみてください。

ポータル:
https://github.com/ProGamerGov/neural-style-pt

<<:  エッジコンピューティングは産業界でどのような用途に使われていますか?

>>:  GIF 圧縮アルゴリズムの発明者が IEEE の最高栄誉賞を受賞

ブログ    

推薦する

一般的な MapReduce データマイニングアルゴリズム: 平均と分散

平均と分散のマップ削減一連の数値の平均と分散の式は誰にとっても明らかだと思います。マップ関数とリデュ...

ビジネスに大きな影響を与える 5 つの AI テクノロジー

企業は、画像認識、音声認識、チャットボット、自然言語生成、感情分析がビジネスの運営方法にどのような変...

...

人工知能のセキュリティ:将来の戦争のリスクと課題

人工知能技術の発展に伴い、人工知能はあらゆる分野で広く利用されるようになり、人類社会に広範かつ深遠な...

2019 年に人工知能がハイパフォーマンス コンピューティングに及ぼす 10 の影響

[[262566]]今日では、人工知能を使用するワークロードが普及しつつあり、その一部は世界最速のコ...

...

人工知能プラットフォームソリューションにおける品質エンジニアリング設計

翻訳者 | 朱 仙中校正:孫淑娟導入私たちは人工知能の黄金時代にいます。 AI ソリューションを導入...

人工知能の今後の発展方向は何でしょうか?

最初のトレンドは、すべてのIT大手がAIクラウドサービスに多額の投資を行うことです。AI-aaS、つ...

生成型 AI がソフトウェア開発を変える 10 の方法

翻訳者 |陳俊レビュー | Chonglou 1990 年代にソフトウェア プログラミングについて話...

今後 20 年以内に、完全自動運転のコネクテッドカーが登場するでしょうか?

20 年後の旅行と交通の未来はどうなるでしょうか? おそらく、この質問への答えははるかに複雑です。...

クアルコム副社長ライナー・クレメント氏:「5G+AI+クラウド」は将来の産業をどのように変えるのでしょうか?

2019年国際産業インターネット革新・開発フォーラムがこのほど、第2回中国国際輸入博覧会で開催され...

...

生成 AI とデータ品質は共存できますか?

このハイテク時代では、生成型人工知能については誰もが知っているか、少なくとも聞いたことがあると思いま...

プラグアンドプレイ、完璧な互換性:SDコミュニティのビデオプラグインI2Vアダプタが登場

画像からビデオへの生成 (I2V) タスクは、静止画像を動的なビデオに変換することを目的としており、...

自動運転トラックはレベル4を達成する可能性が最も高いが、自動運転車は2022年まで待たなければならない

過去10年間、テクノロジーおよび自動車の専門家は、人間の運転手による積極的な監視や入力なしに公道を走...