Githubの包括的なレビュー！ 2021 年の最も素晴らしい AI 論文 38 件

[[443053]]

2021年は人工知能が飛躍的に進歩し続ける年です。最近、Github で誰かが今年の AI と機械学習に関する最も興味深く素晴らしい 38 本の論文をまとめており、収集する価値があります。

1. ゼロショットテキストから画像への生成

https://arxiv.org/pdf/2102.12092.pdf

テキストから画像への生成は、従来、固定データセットでのトレーニングのためのより優れたモデリング仮説を見つけることに重点を置いてきました。この論文では、テキストと画像タグの自己回帰を単一のデータストリームとしてモデル化し、このタスクを達成するためのシンプルな Transformer ベースのアプローチについて説明します。十分なデータと規模があれば、ゼロショット方式で評価した場合、私たちのアプローチは以前のドメイン固有のモデルと競争力があります。

2. VOGUE: StyleGANによるTry-Onの補間最適化

https://vogue-try-on.github.io/static_files/resources/VOGUE-virtual-try-on.pdf

対象人物の画像と、ある服を着た別の人物の画像を与えると、その服を着た対象人物を自動的に生成します。私たちのアプローチの核となるのは、ポーズ条件付き StyleGAN2 潜在空間補間です。これは、各画像の関心領域、つまり対象人物の体型、髪、肌の色、衣服の画像のしわのある衣服、素材特性、形状をシームレスに組み込みます。

3. 高解像度画像合成のためのトランスフォーマーの使いこなし

https://compvis.github.io/taming-transformers/

この論文では、GAN と畳み込み法の効率性と Transformer の表現力を組み合わせ、意味的に誘導された高品質の画像合成のための強力で時間効率の高いアプローチを提供します。

4. AIにおけるファスト＆スロー思考

https://arxiv.org/abs/2010.06002

この記事では、人間の能力からインスピレーションを得て、より汎用的で信頼できる人工汎用知能 (AGI) に向けて AI 研究コミュニティなどが問うべき 10 の質問を提案します。

5. 航空写真における海洋浮遊ゴミの自動検出と定量化

https://doi.org/10.1016/j.envpol.2021.116490

バルセロナ大学の研究者らは、航空写真から浮遊ゴミを検出し定量化できるディープラーニングベースのアルゴリズムを開発した。彼らはまた、ユーザーが海面の画像内のゴミを識別できるようにするウェブベースのアプリケーションも作成した。

6. ShaRF: 単一ビューからの形状調整された放射フィールド

https://arxiv.org/abs/2102.08860

オブジェクトの写真を撮って、それを 3D で作成中の映画やビデオゲーム、またはイラスト用の 3D シーンに挿入できたら、どんなにすばらしいか想像してみてください。

7. 生成的敵対的トランスフォーマー

https://arxiv.org/pdf/2103.01209.pdf

この記事では、強力な StyleGAN2 アーキテクチャの Transformer アテンションメカニズムを活用して、さらに強力なものにします。

8. 人工知能にデートプロフィールの作成を依頼しました。右にスワイプしますか?

https://studyonline.unsw.edu.au/blog/ai-generated-dating-profile

[[443054]]

AIのプロフィールページを詳しく見てみますか？実際の人間と機械の違いがわかりますか?この研究は、出会い系アプリで AI が使用されると何が起こるかを明らかにしています。

9. Swin Transformer: Shifted Windows を使用した階層型ビジョントランスフォーマー

https://arxiv.org/abs/2103.14030v1

Transformer はコンピュータービジョンにおける CNN に取って代わるでしょうか? Swin Transformer に関するこの新しい論文を読めば、Transformer アーキテクチャをコンピュータービジョンタスクに適用する方法を 5 分以内で学ぶことができます。

10. 画像 GANS は、逆グラフィックスの微分可能レンダリングと解釈可能な 3D ニューラルレンダリングを実現します。

https://arxiv.org/pdf/2010.09125.pdf

この論文では、たった 1 枚の画像からカスタマイズ可能でアニメーション化された 3D 画像を作成できる GANverse3D というモデルを提案しています。

11. ディープネット：これまで視力向上のために何をしてきましたか？

https://arxiv.org/abs/1805.04025

この記事では、ビジョンアプリケーション向けのディープネットワーク、その成功、対処しなければならない制限などについてすべてを公開します。

12. 無限の自然: 一枚の画像から自然の風景を永久に生成

https://arxiv.org/pdf/2012.09855.pdf

ビュー合成の次のステップは永続的なビュー生成です。その目的は、ユーザーが飛び込んで画像内の美しさを探索できる画像を作成することです。

13. ディープラーニングベースの指制御機能を備えたポータブルで自己完結型の神経義手

https://arxiv.org/abs/2103.13452

この論文では、切断患者が人間のような器用さと直感で神経補綴物を制御できるようにする人工知能駆動型神経インターフェースを提案します。

14. トータルリライティング：背景置き換えのためのポートレートのリライティングを学ぶ

https://augmentedperception.github.io/total_relighting/total_relighting_paper.pdf

写真の背景を変えて、リアルに見せたいと思ったことはありませんか?これは簡単なことではありません。自宅で自分の写真を撮って、それをビーチの背景に変えることはできません。写真は偽物のように見え、誰でもすぐにフォトショップで加工されたものであることがわかります。この記事で提案された方法は、この問題を完璧に解決する可能性があります。

15. LASR: 単眼ビデオからの関節形状の再構成の学習

https://openaccess.thecvf.com/content/CVPR2021/papers/Yang_LASR_Learning_Articulated_Shape_Reconstruction_From_a_Monocular_Video_CVPR_2021_paper.pdf

この論文では、短いビデオのみを入力として使用して、人間や動物の動きの 3D モデルを生成できる方法を提案します。実際、モデルは、生成されたオブジェクトは移動可能な奇妙な形状であるが、複数のオブジェクトの集合ではなく「1 つのオブジェクト」であるため、元のビデオに接続されたままである必要があることを理解しています。

16. フォトリアリズムの強化

http://vladlen.info/papers/EPE.pdf

この論文では、インテルの研究者が、ビデオゲームにリアルタイムで適用でき、各フレームをより自然に見える AI モデルを提案しています。

これはビデオゲームの画像を入力として受け取り、自然界のスタイルで修正する「単なる別の GAN」だと思うかもしれませんが、そうではありません。ゲームのグラフィックにかける労力を減らし、安定性と完成度を高めてから、この MOD を使用してグラフィックスタイルを改善できます。

17. DefakeHop: 軽量で高性能なディープフェイク検出ツール

https://arxiv.org/abs/2103.06929

2021年にディープフェイク動画を正確に識別するにはどうすればいいでしょうか?この新しい論文が答えを提供するかもしれない。おそらくそれは「再び人工知能を使う」ということでしょう。将来的には、「百聞は一見に如かず」が「AI が真実だと言うことは真実だ」に変わるかもしれません。

18. 高解像度のフォトリアリスティック画像をリアルタイムで変換: ラプラシアンピラミッド変換ネットワーク

https://arxiv.org/pdf/2105.09188.pdf

この論文では、機械学習に基づいて、あらゆるスタイルの画像を指定されたスタイルの 4K 画像にリアルタイムで変換する新しい方法を提案します。

19. Barbershop: セグメンテーションマスクを使用した GAN ベースの画像合成

https://arxiv.org/pdf/2106.01505.pdf

この記事は、新しい技術そのものについてではなく、GAN の魅力的な新しいアプリケーションについて説明しています。このAIはあなたの髪型を変えることができます。ビフォーアフターの比較をご覧ください。

20. TextStyleBrush: 単一の例からテキストの美観を転送する

https://arxiv.org/abs/2106.08385

2021年、外国を旅行中にレストランに入って、意味の分からないメニューに直面しても、Google翻訳を開く必要すらありません。この記事で紹介したFacebook AIの新しいモデルを使うだけで、メニュー画像にあるすべての単語を翻訳できます。

21. オイラー運動場による画像のアニメーション化

https://arxiv.org/abs/2011.15128

この記事の AI モデルは、写真を撮影し、どの粒子が動くべきかを理解し、写真の残りの部分を完全に保持しながら写真を無限ループするアニメーションに変換して、リアルなビデオを作成します。

22. CVPR 2021 最優秀論文賞: GIRAFFE - 制御可能な画像生成

http://www.cvlibs.net/publications/Niemeyer2021CVPR.pdf

この論文では、背景や他のオブジェクトに影響を与えずに画像内のオブジェクトを移動できる、修正された GAN アーキテクチャを使用しています。

23. GitHub Copilot と Codex: コードでトレーニングした大規模言語モデルの評価

https://arxiv.org/pdf/2107.03374.pdf

OpenAI のこの新しいモデルは、単語からコードを生成できます。

24. Apple: プライベートなデバイス内機械学習で写真に写った人物を認識

https://machinelearning.apple.com/research/recognizing-people-photos

Apple は、デバイス上で複数の機械学習ベースのアルゴリズムを使用して、ユーザーが iOS 15 で画像やビデオを正確に計画および整理できるようにします。

25. 確率微分方程式による画像合成と編集

https://arxiv.org/pdf/2108.01073.pdf

画像生成のための複雑な GAN および Transformer アーキテクチャに別れを告げる時が来ました。スタンフォード大学とカーネギーメロン大学の研究者は、ユーザーからのあらゆる入力から新しい画像を生成できる。芸術的な背景を持たない人でも、スケッチから美しい画像を生成できるようになりました。

26. 独自の GAN をスケッチする

https://arxiv.org/abs/2108.02774

スケッチから画像を生成することで、誰でも簡単に GAN トレーニングを行うことができます。実際、この新しいアプローチでは、最も単純なタイプの知識、つまり手描きのスケッチに基づいて GAN の出力を制御できます。

27. テスラのオートパイロットの説明

https://www.louisbouchard.ai/tesla-autopilot-explained-tesla-ai-day/

この記事では、テスラの人工知能担当ディレクターのアンドレイ・カパシ氏らが、テスラの自動操縦システムが8台のカメラで画像を撮影し、道路を走行する様子を実演した。

28. Styleclip: StyleGAN 画像のテキスト駆動型操作

https://arxiv.org/abs/2103.17249

AI は画像を生成でき、研究者は試行錯誤を通じて、特定のスタイルに従うように結果を制御できます。この新しいモデルでは、テキストのみを使用してそれを実行できます。

29. Time Lens: イベントベースのビデオフレーム補間

http://rpg.ifi.uzh.ch/docs/CVPR21_Gehrig.pdf

TimeLens モデルは、ビデオフレーム間の粒子の動きを理解し、人間の目では捉えられない速度でビデオを再構築できます。実際、この記事のモデルは、現在のスマートフォンでは達成できない結果を実現します。

30. 1本の動画から多様な世代を生み出せる

https://arxiv.org/abs/2109.08591

ビデオ編集について考えたことはありますか?たとえば、元のビデオを圧縮または拡大せずに、人物を削除または追加したり、背景を変更したり、特定のアスペクト比に合わせて解像度を変更したりできます。この新しい研究はこの記事にあります。これらすべてを HD 形式の 1 つのビデオで実行するのに役立ちます。

31. レーダーの深層生成モデルを用いた巧みな降水予測

https://www.nature.com/articles/s41586-021-03854-z

DeepMind は、広く使用されている予報方法よりも 89% 優れた精度と有用性を 50 人以上の気象学者が評価した生成モデルをリリースしました。このモデルは、今後 2 時間以内の降水量を予測することに重点を置いており、驚くほど優れたパフォーマンスを発揮します。

32. カクテルフォーク問題: 現実世界のサウンドトラックの 3 ステムオーディオ分離

https://arxiv.org/pdf/2110.09958.pdf

ビデオやテレビ番組を見ているときに、俳優の声がまったく聞こえなかったり、音楽が大きすぎたりしたことはありませんか?まあ、この問題は二度と起こらないかもしれない。三菱とインディアナ大学は、ビデオのサウンドトラックの音を認識して処理するための新しいモデルと新しいデータセットをリリースしました。

33. ADOP: 近似微分可能 1 ピクセルポイントレンダリング

https://arxiv.org/pdf/2110.06635.pdf

撮影したたくさんの写真から 3D モデルやシンプルで滑らかなビデオを生成することを想像してみてください。今、この目標は達成可能です。

34. (スタイル) CLIPDraw: テキストから描画への合成におけるコンテンツとスタイルの結合

https://arxiv.org/abs/2111.03133

コピーしたいスタイルの写真を撮り、生成したいテキストを入力するだけで、この記事のアルゴリズムによって新しい写真が自動的に生成されます。

35. SwinIR: swinトランスフォーマーを使用した画像復元

https://arxiv.org/abs/2108.10257

気に入った画像を撮影したのに、今は小さなコピーしか残っていないという経験はありませんか?明瞭度を4～8倍に向上させることができれば素晴らしいと思います。この論文の方法により、画像の解像度が 4 倍に向上し、より滑らかに見えるようになります。また、数秒で自動的に実行でき、ほぼすべての画像で機能します。

36. EditGAN: 高精度なセマンティック画像編集

https://arxiv.org/abs/2111.03186

この記事の画像編集ツールを使用すると、下書きのあらゆる機能を制御し、必要なものだけを編集して、画像の残りの部分は変更せずに済みます。これは、NVIDIA、MIT、UofT が提案した GAN スケッチモデルに基づいた SOTA 画像編集ツールです。

37. CityNeRF: 都市規模での NeRF の構築

https://arxiv.org/pdf/2112.05504.pdf

この論文のモデルは、NeRF から開発された CityNeRF と呼ばれます。 NeRF は、放射線場と機械学習を使用して画像から 3D モデルを構築する最初のモデルの 1 つです。しかし、それは効率的ではなく、単一のスケールでしか機能しません。この論文では、CityNeRF を衛星画像と地上画像の両方に適用して、あらゆる視点からさまざまな 3D モデルスケールを生成します。

38. ClipCap: 画像キャプション用の CLIP プレフィックス

https://arxiv.org/abs/2111.09734

CLIP は、テキストをガイドとして画像にリンクするモデルです。非常によく似たタスクに画像キャプション作成があります。これは単純に聞こえますが、実際には同じくらい複雑です。これは、画像の自然な説明を生成する機械の能力を反映しています。画像に映っているオブジェクトにラベルを付けるだけなら簡単ですが、1 枚の 2 次元画像を理解するのは別の問題であり、この新しいモデルはそれを非常にうまく実現します。

<<: 階段を登るための最小コストを使用するデータ構造とアルゴリズム

>>: NLP における新たなマイルストーン!清華大学ヤオクラスの卒業生がKEARをリリース：人間を超える初の常識質問応答システム