このAI「マスターレベル」の棒人間レベルはネットユーザーを驚かせた。GANすら使っていない

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

AI で描いた簡単な絵はどれくらい良くなるのでしょうか?

アメリカの俳優ラミ・マレックの写真を見ると、この効果が現れます。

元の絵にかなり近いですか？

「友達」の写真を入力した場合の効果を見てみましょう。

登場人物は多いですが、棒絵で劇中の登場人物を区別することができます。

特に髪の毛が濃い人の写真でも、AI は処理できるのでしょうか?

若い女性の「アフロ」の端の毛は完璧に復元されたと言えます。

もっと近い距離ではどうでしょうか？テイラー・スウィフトの写真の効果を見てみましょう。

髪の毛の重なりや光、衣服のひだなどを最大限に表現しており、かなり緻密な作品であるといえる。

…

これらはArtLineという AI による作品です。

また、Reddit でも非常に人気があり、人気度は 1100 を超えています。

このリアルな効果は GAN の結果だと思いますか?

間違っている！

ArtLine は GAN を一切使用しません。

このため、ArtLineの効果はネットユーザーを本当に驚かせました。

それで、これはどうやって実現されるのでしょうか?

ArtLineの背後にある3つの魔法の武器

ArtLine の作者は、その背後にある3 つの主要なテクノロジーを喜んで共有してくれました。

自己注意
プログレッシブサイズ変更
発電機損失

次に、各テクノロジーの詳細を一つずつ見ていきましょう。

Self-Attention の部分で引用されている技術は、GAN の父であるIan Goodfellow氏らが 2 年前に提案した研究から生まれたものです。

ちょっと待ってください、「GAN は使用されていない」と言いませんでしたか?

著者は次のように説明しています。

あまり効果はありませんでした。

この研究では主にGAN生成に注目メカニズムを追加し、SNganのアイデアをジェネレータに導入します。

解決する必要があるのは、従来の GAN 自体に存在する次のようないくつかの問題です。

小さな畳み込みカーネルを使用して画像内の依存関係を見つけるのは困難です
大きな畳み込みカーネルを使用すると、畳み込みネットワークのパラメータと計算の効率が低下します。

この研究における中核となる自己注意メカニズムを下の図に示します。

このうち、f(x)、g(x)、h(x) はすべて通常の 1x1 畳み込みであり、唯一の違いは出力チャネルのサイズです。

次に、f(x)の出力を転置してg(x)の出力と乗算し、ソフトマックスで正規化してAttention Mapを取得します。

注意マップを取得した後、ピクセルごとに h(x) を掛けて、適応型注意特徴マップを取得します。

結果から判断すると、自己注意メカニズムを導入した効果は、FID と IS の 2 つのパフォーマンス指標に関して確かにより良い結果を達成しました。

ArtLine に関連する 2 番目の技術的なインスピレーションは、 NVIDIAが 2018 年に実施した調査から生まれました。

この研究では主に、敵対的ニューラルネットワークをトレーニングするための新しい方法を提案します。

重要な考え方は、ジェネレーターとディスクリミネーターを段階的にトレーニングすることです。つまり、低解像度から始めて、トレーニングが進むにつれて徐々に新しいレイヤーを追加して詳細を改良していきます。

このアプローチはトレーニングを高速化するだけでなく、より安定し、高品質の画像を生成できます。

ArtLine に使用されている最新の技術は、2016 年にスタンフォード大学のFei-Fei Li 氏のチームが提案した研究から生まれたものです。

この研究では主に、スタイル転送の実装に時間がかかるという問題に取り組んでいます。

スタイル転送部分は主に上記のネットワークモデルを使用し、左側の画像変換ネットワークと右側の損失ネットワークの 2 つの部分に分けられます。

超解像再構成も上記のネットワークモデルを使用しますが、具体的な内部画像変換ネットワーク部分が若干異なります。

以前の研究と比較すると、このネットワークは同等レベルの結果を達成しましたが、その速度は 100 倍、3 桁に達しました。

著者について

ArtLine プロジェクトの作者は Vijish Madhavan といいます。

彼はGitHubで自分がプログラマーではないことを認め、また、500ピクセル未満のピクセルを持つ画像を処理する際の効果が不十分であるなど、ArtLineの現在の欠陥のいくつかを指摘しました。

ArtLineがオンラインでプレイできるようになりました！

興味のある読者は、下のリンクをクリックして体験してください。

コラボリンク:

https://colab.research.google.com/github/vijishmadhavan/Light-Up/blob/master/ArtLine(Try_it_on_Colab).ipynb.ipynb)

https://colab.research.google.com/github/vijishmadhavan/Light-Up/blob/master/ArtLine.ipynb

GitHub プロジェクトアドレス:

https://github.com/vijishmadhavan/ArtLine

<<: 機械学習ではテンプレートも使用できます。オンラインでモデルとパラメータを選択し、ワンクリックでデモを生成できます。

>>: 2021 年の人工知能のトップ 10 トレンド

ブログ

医者から「ビジネスを奪いたい」ですか?人工知能はこれら3つの大きな困難を克服しなければならない

ブログ

人工知能は人類の生存を脅かすでしょうか？

ブログ

自動運転トラックはレベル4を達成する可能性が最も高いが、自動運転車は2022年まで待たなければならない

ブログ

機械学習における正規化とはどういう意味ですか?

ブログ

TensorFlow には重大なバグがあり、Keras と併用すると重量が減る可能性があるが、まだ修正されていない。

ブログ

中国科学院：巨大モデルのIQは称賛されると桁外れに上昇！ ChatGPT の感情知能は 98 ポイントで、数秒で人間の感情知能を上回ります。ヒントンの予測は当たったのでしょうか?

ブログ

2年後、マスクはついに「脳内挿管」というブラックテクノロジーをリリースし、脳コンピューターインターフェースを革新した。

ブログ

機械学習を独学で学んだら、どうやって仕事を見つければいいのでしょうか？少なくともトップ10の地雷原は避ける

ブログ

韓国チームはサンプルの引き渡しを拒否し、2本目のLK-99サスペンションビデオを公開しました！ HUSTの新論文が初めて反磁性を証明

ブログ

このAI「マスターレベル」の棒人間レベルはネットユーザーを驚かせた。GANすら使っていない

ArtLineの背後にある3つの魔法の武器

著者について

医者から「ビジネスを奪いたい」ですか?人工知能はこれら3つの大きな困難を克服しなければならない

人工知能は人類の生存を脅かすでしょうか？

自動運転トラックはレベル4を達成する可能性が最も高いが、自動運転車は2022年まで待たなければならない

機械学習における正規化とはどういう意味ですか?

TensorFlow には重大なバグがあり、Keras と併用すると重量が減る可能性があるが、まだ修正されていない。

中国科学院：巨大モデルのIQは称賛されると桁外れに上昇！ ChatGPT の感情知能は 98 ポイントで、数秒で人間の感情知能を上回ります。ヒントンの予測は当たったのでしょうか?

2年後、マスクはついに「脳内挿管」というブラックテクノロジーをリリースし、脳コンピューターインターフェースを革新した。

機械学習を独学で学んだら、どうやって仕事を見つければいいのでしょうか？少なくともトップ10の地雷原は避ける

韓国チームはサンプルの引き渡しを拒否し、2本目のLK-99サスペンションビデオを公開しました！ HUSTの新論文が初めて反磁性を証明

推薦する

機械学習とデータサイエンスのための最も人気のある Python ライブラリトップ 10

コードスイッチングに7億5000万ドル？ Facebook TransCoder AI は 1 つで十分です。

顔認識の過去と現在

人工知能教師が将来果たす8つの役割

アルゴリズム王国では中国が他国を追い抜くかもしれない

スマートホームデバイスにおける自然言語生成の応用

あなたは人工知能の前で「透明な人」ですか？

画像やテキストが無限の3D世界を生み出します！スタンフォード大学の呉嘉軍氏のチームの新しい研究は、ネットユーザーから「信じられない」と評された。

製造業における人工知能の活用事例トップ 5

ジャック・マー：テクノロジーは私たちの生活をより健康にしなければ意味がない

有名な文系大学が人工知能の分野に参入すると、何をもたらすことができるのでしょうか?

デジタルヘルスと医療AIベンチャーキャピタル投資は2021年第1四半期に42億ドルに達した

人工知能も「ペンを手に取る」とき、人間に残される領域はどれほどになるのでしょうか？