年末大特集！2020年に最も注目されたAI論文をまとめて紹介

2020年、新型コロナウイルスのせいで世界中の人々が恐怖におののいていることでしょう…

しかし、これは科学研究者の仕事に対する姿勢や成果の質には影響しません。

流行の間、世界中の研究者はさまざまな方法で積極的に協力し続け、特に人工知能の分野で多くの影響力のある成果を発表しました。

[[359619]]

同時に、AIバイアスとAI倫理が徐々に広く注目を集め始めています。

今年の新たな研究成果の中で、科学研究者の懸命な努力を反映したものは、今後数年間の人工知能の発展に必ずや大きな影響を与えるだろう。

この記事では、2020 年の初めから現在までの AI とデータサイエンスの分野で最も興味深く画期的な論文を紹介します。

（編集者は各論文の Github コードアドレスを皆さんのために公開しています。研究結果に興味のある友人はぜひチェックしてみてください）

1. YOLOv4: 物体検出の最高の速度と精度

[[359620]]

原著論文:

A. Bochkovskiy、C.-Y. Wang、H.-YM Liao、Yolov4：物体検出の最適速度と精度、2020年。arXiv：2004.10934 [cs.CV]。

2020年4月、Alexey Bochkovskyらは論文「YOLOv4: 物体検出の最適な速度と精度」の中でYOLO4を正式に紹介しました。この論文のアルゴリズムの主な目的は、高品質かつ高精度の超高速ターゲット検出器を作成することです。

コードアドレス:

https://github.com/AlexeyAB/ダークネット

2. DeepFace rawing: スケッチに基づく顔画像のディープ生成

原著論文:

S.-Y. Chen、W. Su、L. Gao、S. Xia、および H. Fu、「DeepFaceDrawing: スケッチからの顔画像の深層生成」、ACM Transactions on Graphics (ACM SIGGRAPH2020 の議事録)、vol. 39、no. 4、72:1–72:16、2020 年。

この新しい画像間変換技術に基づいて、大まかなスケッチや不完全なスケッチからでも高品質の顔画像を生成できます。それだけでなく、最終画像における目、口、鼻の影響を調整することもできます。

コードアドレス:

https://github.com/IGLICT/DeepFaceDrawing-Jittor

3. PULSE: 生成モデルの潜在空間探索による自己教師付き写真アップサンプリング

原著論文:

S. Menon、A. Damian、S. Hu、N. Ravi、C. Rudin、「Pulse: 生成モデルの潜在空間探索による自己教師あり写真アップサンプリング」、2020年。arXiv:2003.03808 [cs.CV]。

このアルゴリズムは、ぼやけた画像を高解像度の画像に変換できます。つまり、超低解像度の 16 x 16 画像を 1080p の高解像度の顔写真に変換できます。

コードアドレス:

https://github.com/adamian98/pulse

4. プログラミング言語の教師なし翻訳

原著論文:

M.-A. Lachaux、B. Roziere、L. Chanussot、G. Lample、「プログラミング言語の教師なし翻訳」、2020年。arXiv:2006.03511 [cs.CL]。

この新しいモデルは、監視なしで、あるプログラミング言語のコードを別のプログラミング言語に変換できます。事前の例がなくても、Python 関数を C++ 関数に変換したり、その逆を行ったりできます。各言語の構文を理解するため、あらゆるプログラミング言語に一般化できます。

コードアドレス:

https://github.com/facebookresearch/TransCoder?utm_source=catalyzex.com

5. PIFuHD: 高解像度の 3D 人間再構成のためのマルチレベルピクセル整合暗黙的特徴

原著論文:

S. Saito、T. Simon、J. Saragih、およびH. Joo、Pifuhd：高解像度3Dヒューマンデジタル化のためのマルチレベルピクセルアラインメント暗黙関数、2020年。arXiv：2004.00452 [cs.CV]。

この技術は、2D画像に基づいて3Dの高解像度の人物を再構築することができます。後ろ姿まであなたに似ている 3D アバターを生成するには、画像を 1 枚だけ用意する必要があります。

コードアドレス:

https://github.com/facebookresearch/pifuhd

6. ディズニーのメガピクセル顔交換技術

原著論文:

J. Naruniec、L. Helminger、C. Schroers、および R. Weber、「視覚効果のための高解像度ニューラル顔スワッピング」、Computer Graphics Forum、vol. 39、pp. 173–184、2020 年 7 月。doi:10.1111/cgf.14062。

ディズニーは、欧州グラフィックス協会のパースペクティブシンポジウム (EGSR) で研究を発表し、初のメガピクセルのリアルな顔交換技術を実演しました。彼らは、画像やビデオ内の顔を完全に自動的に入れ替えるアルゴリズムを提案しました。研究者によれば、これは時間的に一貫した出力でメガピクセル規模でフォトリアリスティックな結果をレンダリングする初の方法だという。

論文リンク:

https://studios.disneyresearch.com/2020/06/29/high-resolution-neural-face-swapping-for-visual-effects/

7. 交換可能なオートエンコーダによる深層画像処理

原著論文:

T. Park、J.-Y. Zhu、O. Wang、J. Lu、E. Shechtman、AA Efros、およびR. Zhang、「深層画像操作のためのオートエンコーダのスワッピング」、2020年。arXiv：2007.00653 [cs.CV]。

この新しい技術は、完全に監督なしのトレーニングを通じて、信憑性を維持しながらあらゆる画像の質感を変えることができます。結果は GAN よりもさらに優れており、はるかに高速です。ディープフェイクの作成にも使用できます。

コードアドレス:

https://github.com/rosinality/swapping-autoencoder-pytorch?utm_source=catalyzex.com

8. GPT-3: 小規模サンプル学習のための言語モデル

原著論文:

TB Brown、B. Mann、N. Ryder、M. Subbiah、J. Kaplan、P. Dhariwal、A. Neelakantan、P.Shyam、G. Sastry、A. Askell、S. Agarwal、A. Herbert-Voss、G. Krueger、T. Henighan、R. Child、A. Ramesh、DM Ziegler、J. Wu、C. Winter、C. Hesse、M. Chen、E. Sigler、M. Litwin、S.Gray、B. Chess、J. Clark、C. Berner、S. McCandlish、A. Radford、I. Sutskever、およびD. Amodei、「言語モデルは少数ショット学習者です」、2020年。arXiv：2005.14165 [cs.CL]。

現在、最も先進的な NLP システムはさまざまなタスクに一般化しようとしており、数千のサンプルのデータセットで微調整する必要があります。それに比べて、人間は新しい言語タスクを実行するためにいくつかの例を見るだけで済みます。これが GPT-3 の目標であり、言語モデルのタスクに依存しない特性を改善することです。

コードアドレス:

https://github.com/openai/gpt-3

9. 共同時空間変換によるビデオレンダリング

原著論文:

Y. Zeng、J. Fu、H. Chao、「ビデオインペインティングのための空間的・時間的変換の統合学習」、2020年。arXiv：2007.10247 [cs.CV]。

この AI テクノロジーは、動く物体を除去した後、欠落したピクセルを補い、ビデオ全体を再構築することができます。この方法は以前の方法よりも正確で明確です。

コードアドレス:

https://github.com/researchmm/STTN?utm_source=catalyzex.com

10. ピクセルレベルの生成前処理

原著論文:

M. Chen、A. Radford、R. Child、J. Wu、H. Jun、D. Luan、および I. Sutskever、「ピクセルからの生成的事前トレーニング」、Proceedings of the 37th International Conference on Machine Learning、HD III および A. Singh 編、ser. Proceedings of Machine Learning Research、vol. 119、Virtual: PMLR、2020 年 7 月 13～18 日、pp. 1691～1703。[オンライン]

Gmail で使用されているような優れた AI は、一貫性のあるテキストや完全なフレーズを生成できます。同様に、同じ原理を使用して、このモデルは画像を完成させることができます。さらに、これらすべては教師なしのトレーニング環境で行われるため、ラベルはまったく必要ありません。

コードアドレス:

https://github.com/openai/image-gpt

11. ホワイトボックス漫画表現を使用して漫画化プロセスを学ぶ

原著論文:

Xinrui Wang と Jinze Yu、「ホワイトボックス漫画表現を使用した漫画化の学習」、IEEE コンピュータービジョンおよびパターン認識会議、2020 年 6 月。

希望する漫画スタイルを入力するだけで、この AI テクノロジーはあらゆる写真やビデオを漫画化できます。

コードアドレス:

https://github.com/SystemErrorWang/White-box-Cartoonization

12. FreezeG フリージングディスクリミネータ: GAN を微調整するためのシンプルなベンチマーク

原著論文:

S. Mo、M. Cho、J. Shin、「ディスクリミネーターのフリーズ：ガンの微調整のためのシンプルなベースライン」、2020年。arXiv：2002.10964 [cs.CV]。

この顔生成モデルは、通常の人間の顔写真を、イ・マルニョン、ザ・シンプソンズ、アーティなどのユニークなスタイルに変換することができ、犬にも試すことができます。この新しい技術の最も優れた点は、非常にシンプルで、GAN を使用した以前の技術を大幅に上回っていることです。

コードアドレス:

https://github.com/sangwoomo/freezeD?utm_source=catalyzex.com

13. 一枚の画像から人物をニューラルネットワークで再レンダリングする

論文の宛先:

K. Sarkar、D. Mehta、W. Xu、V. Golyanik、C. Theobalt、「単一画像からの人間のニューラル再レンダリング」、European Conference on Computer Vision (ECCV)、2020年。

このアルゴリズムは、人体の姿勢と形状を、単一の画像から再構築して簡単に復元できるパラメトリックメッシュとして表現します。この技術は、人物の画像が与えられると、他の入力画像に基づいて、その人物がさまざまなポーズで、さまざまな服を着ている合成画像を作成することができます。

プロジェクトのホームページ:

http://gvv.mpi-inf.mpg.de/projects/NHRR/

14. I2L-MeshNet: 単一の RGB 画像から正確な 3D 人間のポーズとメッシュを推定する画像から Lixel への予測ネットワーク

原著論文:

G. Moon と KM Lee、「I2l-meshnet: 単一の RGB 画像から正確な 3D 人間のポーズとメッシュを推定する画像からリクセルへの予測ネットワーク」、European Conference on Computer Vision (ECCV)、2020 年

この論文の研究者らは、単一の RGB 画像から 3D の人間の姿勢とメッシュを推定する新しい技術を提案し、これを I2L-MeshNet と名付けました。ここで、I2L はイメージからリクセル (image to lixel) を表し、ボクセル (ボリューム + ピクセル) に似ています。研究者は、リクセル、ライン、ピクセルを 1 次元空間内の量子化されたセルとして定義しました。

I2L-MeshNet: 単一のRGB画像から正確な3D人間の姿勢とメッシュを推定する画像からリクセルへの予測ネットワーク[14]

コードアドレス:

https://github.com/mks0601/I2L-MeshNet_RELEASE

15. スーパーナビゲーショングラフ: 連続環境における視覚言語ナビゲーション

原著論文:

J. Krantz、E. Wijmans、A. Majumdar、D. Batra、およびS. Lee、「ナビグラフを超えて：連続環境における視覚と言語のナビゲーション」、2020年。arXiv：2004.02857 [cs.CV]。

言語ナビゲーションは、広範囲に研究されている非常に複雑な分野です。実際、ベッドの横のナイトスタンドに置いたコーヒーを取りに家中を歩くのは、とても簡単なことのように思えるかもしれません。しかし、機械の場合、状況はまったく異なります。エージェントは、ディープラーニングを使用してタスクを実行する自律的な AI 駆動型システムです。

コードアドレス:

https://github.com/jacobkrantz/VLN-CE

16. RAFT: オプティカルフローの再帰的全フィールド変換

原著論文:

Z. Teed および J. Deng、「Raft: オプティカルフローのための再帰型全ペア場変換」、2020 年。arXiv:2003.12039 [cs.CV]。

この論文はプリンストン大学のチームによるもので、ECCV 2020 最優秀論文賞を受賞しました。研究者らは、エンドツーエンドでトレーニング可能な新しいオプティカルフローモデルを開発しました。彼らのアプローチは、複数のデータセットにおける最先端のアーキテクチャの精度を上回り、より効率的です。

コードアドレス:

https://github.com/princeton-vl/RAFT

17. 全光学機能のクラウドソーシングによるサンプリング

[[359628]]

原著論文:

Z. Li、W. Xian、A. Davis、N. Snavely、「プレノプティック関数のクラウドサンプリング」、Proc. European Conference on Computer Vision (ECCV)、2020年。

観光客がオンラインで公開した写真を使用することで、リアルな影と照明を保ちながら、シーンの複数の視点を再現することができました。これはフォトリアリスティックなシーンレンダリングにとって大きな前進であり、最先端の技術を表しています。彼らの結果は驚くべきものでした。

コードアドレス:

https://github.com/zhengqili/Crowdsampling-the-Plenoptic-Function

18. 深層潜在空間翻訳による古い写真の復元

原著論文:

Z. Wan、B. Zhang、D. Chen、P. Zhang、D. Chen、J. Liao、およびF. Wen、「深層潜在空間変換による古い写真の復元」、2020年。arXiv：2009.07047 [cs.CV]。

古い写真、折れた写真、破れた写真さえも使用して、18 歳の祖母の高解像度の写真を、アーティファクトなしで入手できると想像してください。これを古い写真の修復と呼びます。

コードアドレス:

https://github.com/microsoft/Bringing-Old-Photos-Back-to-Life?utm_source=catalyzex.com

19. 監査可能な自律性をサポートする神経回路戦略

原著論文:

Lechner, M., Hasani, R., Amini, A. et al. 監査可能な自律性を可能にする神経回路ポリシー。Nat Mach Intell2、642–652 (2020)。

ISTオーストリアとMITの研究者らは、ミミズなどの小さな動物の脳をベースにした新しい人工知能システムを使用して自動運転車の訓練に成功した。自動運転車を制御するには、Inceptions、Resnets、VGG などの一般的なディープニューラルネットワークで数百万のニューロンが必要となるのに対し、自動運転車を制御するにはほんの数個のニューロンしか必要ありません。

論文の宛先:

https://doi.org/10.1038/s42256-020-00237-3

20. 年齢を重ねた自分を理解する

原著論文:

R. Or-El、S. Sengupta、O. Fried、E. Shechtman、I. Kemelmacher-Shlizerman、「Lifespanage変換合成」、欧州コンピュータービジョン会議(ECCV)の議事録、2020年。

40 歳になったら自分がどうなっているか見てみたいですか?動作するようになりました! Adobe Research の研究チームは、ある人物の 1 枚の写真に基づいて、あらゆる年齢の人物の合成画像を作成できる新しい技術を開発した。

コードアドレス:

https://github.com/royorel/Lifespan_Age_Transformation_Synthesis

21. DeOldify: 白黒画像をカラー化する

DeOldify は、古い白黒画像や映画フィルムをカラー化して復元する技術です。これは Jason Antic によって開発され、現在も更新されています。これは現在、白黒画像をカラー化する最も先進的な方法であり、すべてがオープンソースです。

コードアドレス:

https://github.com/jantic/DeOldify

22. COOT: ビデオテキスト表現学習のための協調階層変換

原著論文:

S. Ging、M. Zolfaghari、H. Pirsiavash、T. Brox、「Coot: ビデオテキスト表現学習のための協調階層型トランスフォーマー」、ニューラル情報処理システムに関するカンファレンス、2020年。

名前が示すように、この手法では、ビデオとビデオの一般的な説明を入力として受け取り、トランスフォーマーを使用してビデオの各シーケンスの正確なテキスト説明を生成します。

コードアドレス:

https://github.com/gingsi/coot-videotext

23. 本物の画家のように写真のスタイルを変える

[[359631]]

原著論文:

Z. Zou、T. Shi、S. Qiu、Y. Yuan、Z. Shi、「様式化されたニューラルペインティング」、2020年。arXiv:2011.08114[cs.CV]

この画像から絵画への翻訳モデルは、GAN アーキテクチャを必要としない新しいアプローチを使用して、さまざまなスタイルの実際の画家をシミュレートします。

コードアドレス:

https://github.com/jiupinjia/stylized-neural-painting

24. リアルタイムのポートレート切り抜きには本当にグリーンスクリーンが必要ですか?

原著論文:

Z. Ke、K. Li、Y. Zhou、Q. Wu、X. Mao、Q. Yan、およびR. W. Lau、「リアルタイムポートレートマット処理にグリーンスクリーンは本当に必要ですか？」ArXiv、vol. abs/2011.11961、2020年。

人物の切り抜きは非常に興味深いタスクです。その目的は、写真内の人物を見つけて、写真から背景を削除することです。作業が複雑なため、完璧な輪郭を持つ人を見つけるのは非常に困難です。この記事では、研究者が長年にわたって使用されてきた最良の手法と、2020 年 11 月 29 日に公開された新しい方法をレビューします。

プロジェクトアドレス:

https://github.com/ZHKKKe/MODNet

25. ADA: 限られたデータで敵対的生成ネットワークをトレーニングする

原著論文:

T. Karras、M. Aittala、J. Hellsten、S. Laine、J. Lehtinen、およびT. Aila、「限られたデータによる生成的敵対ネットワークのトレーニング」、2020年。arXiv：2006.06676 [cs.CV]。

NVIDIA が開発したこの新しいトレーニング方法を使用すると、わずか 10 分の 1 の画像数で強力な生成モデルをトレーニングできます。

コードアドレス:

https://github.com/NVlabs/stylegan2-ada

最後に、GitHub で論文の完全なリストにアクセスすることもできます。

https://github.com/louisfb01/Best_AI_paper_2020

<<: Googleの上級研究員が解雇される：論文論争の裏側

>>: AIがシュレーディンガー方程式を正確かつ計算効率よく解く、Nature Chemistry誌に発表