Github ホットリスト: 2021 年の最もクールな AI 論文 33 件をレビュー!多くの中国人作家が選ばれた

Github ホットリスト: 2021 年の最もクールな AI 論文 33 件をレビュー!多くの中国人作家が選ばれた

[[435977]]

現在、AI技術は急速に進歩しており、毎年多くの優れた論文が発表されています。

2021 年に見逃せない論文を知りたいですか?

ちょうど今、GitHub で、ある人がこんなプロジェクトを公開しました。現時点では、今年必読の論文 33 本をまとめた、まさに「良心の宝庫」とも言える内容です。

​​https://github.com/louisfb01/best_AI_papers_2021​​

このプロジェクトの名前は「2021 年の驚くべき人工知能論文のレビュー」で、著者は Louis-François Bouchard (GitHub 名は louisfb01) です。開始後 1 日で 314 個のスターを獲得しました (そして、増え続けています)。

Louis-François Bouchard はカナダのモントリオール出身です。現在、École de Technologie Supérieure で人工知能 - コンピューター ビジョンの修士号を取得しながら、designstripe で主任 AI 研究科学者としてパートタイムで働いています。

ルイは YouTube に「What's AI」という独自のチャンネルも持っていることは特筆に値します。

[[435978]]

What's AI ホームページ: https://www.louisbouchard.ai/

ルイが YouTube に「What's AI」チャンネルを作成した理由は、人工知能を簡単な言葉で共有および説明し、新しい研究とアプリケーションをすべての人と共有するためです。

YouTube What's AI チャンネル: https://www.youtube.com/c/WhatsAI/featured

ルイは、人工知能の「ブラックボックス」の謎をすべての人に明らかにし、それを使用することのリスクを人々に認識してもらいたいと考えています。

ルイは学ぶことが大好きで、学んだことを共有する、とても共有好きな人です。彼は数多くの記事を書き、自分のチャンネルで動画を更新しており、GitHub でいくつかの興味深いプロジェクトにも取り組んでいます。

[[435979]]

実は、「驚きに満ちた2021年AI論文レビュー」は、ルイが「AI論文レビュー」シリーズを更新して2年目になります。

ルイ氏は2020年に、「驚きに満ちた2020年AI論文レビュー」プロジェクトも立ち上げました。このプロジェクトには、公開日順に並べられた最新のAIブレークスルーの厳選リストが含まれており、わかりやすいビデオ説明、より詳細な記事へのリンク、ソースコードが含まれています。

​​https://github.com/louisfb01/Best_AI_paper_2020​​

次は「驚きに満ちた2021年AI論文レビュー」を見て、どんな驚きの最新AI研究成果があるのか​​見ていきましょう!

2021年の驚きに満ちたAI論文レビュー

世界はまだゆっくりと回復しつつありますが、特に人工知能の分野では研究が減速する気配はありません。

さらに、2021 年には、偏見、ガバナンス、透明性などに重点を置いた倫理的側面など、多くの重要な側面も強調されました。

人工知能と人間の脳、そしてその AI とのつながりについての理解は絶えず進化しており、近い将来、私たちの生活の質が向上するという希望が生まれるかもしれません。

優れた論文からの抜粋

1. DALL-E: ゼロショットテキスト画像生成、OpenAI より

論文アドレス: https://arxiv.org/pdf/2102.12092.pdf

青い帽子、赤い手袋、黄色いズボンをはめたペンギンの絵文字。

論文紹介:

GPT-3 は、言語を使用して大規模なニューラル ネットワークを誘導し、さまざまなテキスト生成タスクを実行できることを示しています。

Image GPT は、同じタイプのニューラル ネットワークを使用して高忠実度画像を生成することもできることを示しています。この画期的な進歩は、視覚的な概念を文字言語で操作することが今や実現可能になったことを示しています。

OpenAI は、テキストキャプションから画像を生成できるネットワークのトレーニングに成功しました。 GPT-3 や Image GPT と非常によく似ており、驚くべき結果を生み出します。

​​

GPT-3 と同様に、DALL-E も Transformer 言語モデルです。テキストと画像の両方を最大 1280 個のトークンを含む単一のデータ ストリームとして受信し、最大尤度推定を使用してトレーニングされ、すべてのトークンが 1 つずつ生成されます。

このトレーニング プロセスにより、DALL-E は画像を最初から生成できるだけでなく、テキスト プロンプトの内容とほぼ一致する既存の画像の任意の長方形領域を再生成することもできます。

DALL·E を使ってペンギンの枕を生成

2. Swin Transformer: シフトウィンドウを使用した階層型ビジョントランスフォーマー

論文アドレス: https://arxiv.org/pdf/2103.14030.pdf

論文紹介:

この記事では、コンピューター ビジョンに適用できる新しいトランスフォーマー、Swin Transformer を紹介します。

Transformer がコンピューター ビジョンの問題を解決する際の課題は、主に 2 つの領域から生じます。画像のスケールが大きく変化することと、画像の解像度が高いことです。一部の視覚タスクとセマンティック セグメンテーションでは、自己注意の計算の複雑さが画像サイズの 2 乗になるため、Transformer ではピクセル レベルでの高密度予測を処理することが困難です。

これらの問題を克服するために、Swin Transformer は階層的な Transformer 特徴マップを構築し、シフトウィンドウ計算を採用します。シフト ウィンドウ スキームは、自己注意の計算を重複しないローカル ウィンドウ (赤でマーク) に制限し、同時にウィンドウ間の接続を許可することで、より高い効率をもたらします。

Swin Transformer は、小さなサイズのパッチ (灰色で囲まれている) から始めて、隣接するパッチを徐々に深い Transformer レイヤーにマージすることで、階層的な表現を構築します。この階層型アーキテクチャは、さまざまなスケールで柔軟にモデル化でき、画像サイズに対して線形の計算複雑性を持ちます。線形計算の複雑さは、セグメント化された画像の重複しないウィンドウ (赤で囲まれた部分) 内で自己注意をローカルに計算することによって実現されます。 各ウィンドウのパッチの数は固定されているため、複雑さは画像サイズに比例します。

Swin Transformerは、画像分類、物体検出、セマンティックセグメンテーションなどの認識タスクで優れたパフォーマンスを達成しました。3つのタスクにおいて、Swin Transformerの時間遅延はViT、DeiT、ResNeXtモデルと同等ですが、パフォーマンスは大幅に向上しました。COCO test-devでは58.7ボックスAPと51.1マスクAPとなり、これまでの最先端の結果である2.7ボックスAPと2.6マスクAPを上回りました。 ADE20K セマンティック セグメンテーション タスクでは、Swin Transformer は検証セットで 53.5 mIoU を達成しました。これは、以前の最先端技術 (SETR) よりも 3.2 mIoU 優れています。 ImageNet-1K 画像分類でも 87.3% という最高精度を達成し、Transformer モデルが新しい視覚的バックボーンとして持つ可能性を十分に実証しました。

論文の筆頭著者であるLiu Ze氏はUSTCの学生であり、Microsoft Research Asiaのインターンである。彼は2019年に中国科学技術大学で学士号を取得し、最高の成績で郭沫若奨学金を受賞しました。

個人ホームページによると、ICCV2021に論文2件と口頭発表1件が採択されたとのこと。

[[435982]]

個人ホームページ: https://zeliu98.github.io/

3. StyleCLIP: StyleGAN画像のテキスト駆動型操作

論文アドレス: https://arxiv.org/pdf/2103.17249.pdf

論文紹介:

これはイスラエルの研究者による研究で、StyleCLIP と呼ばれています。これは AI ベースの生成的敵対的ネットワークを使用して写真に超現実的な修正を加えるもので、ユーザーは特定の写真ではなく、欲しいものの説明を入力するだけで済みます。

このモデルは、かなり面白い結果を生み出すこともできます。たとえば、FacebookのCEO、マーク・ザッカーバーグの顔は、ハゲにしたり、眼鏡をかけたり、あごひげを生やしたりと、自由に変更できる。

この「火星人」の顔には、少しばかり人間らしさが残っているようでした。

StyleCLIP モデルは主に StyleGAN モデルと CLIP モデルで構成されています。

StyleGAN はさまざまな領域で非常にリアルな画像を生成できます。最近では、StyleGAN の潜在空間を使用して生成された画像と実際の画像を処理する方法を理解することに多くの研究が行われています。

しかし、意味的に意味のある可能性のある操作を発見するには、多くの場合、複数の自由度を綿密に検査する必要があり、そのためには集中的な手作業が必要となり、あるいは、希望するスタイルごとに注釈付きの画像コレクションを作成する必要があります。

アノテーションをベースにしているため、マルチモーダルモデル CLIP (Contrastive Language-Image Pre-training) の機能を活用して、手動操作を必要としないテキストベースの StyleGAN 画像処理を開発できますか?


例えば、「かわいい猫」と入力すると、目を細めた猫の目が拡大され、かわいい子猫の特徴がすべて得られます。また、トラをライオンに変えることもできます。

4. GitHub Copilot と Codex: コードでトレーニングされた大規模言語モデルの評価

論文アドレス: https://arxiv.org/pdf/2107.03374.pdf

論文紹介:

2020年、OpenAIは、人間のニューロンの数に近いパラメータスケールである1750億のパラメータを備えたGPT-3をリリースしました。

GPT-3は、2019年以前にインターネット上で公開されているほぼすべてのテキストを使用してトレーニングされたため、自然言語をある程度理解しており、詩を作ったり、チャットしたり、テキストを生成したりすることができます。

この夏、OpenAI は Codex をリリースしました。

Codex は GPT-3 でトレーニングされており、GitHub から抽出された数テラバイトの公開コードと英語の例が入力として使用されます。

Codex にコマンドを与えると、英語がコードに変換されます。

​​

その後、キーボードから手を離すと、Codex が自動的にロケットをプログラムし、ロケットが自力で動きます。

Copilot は OpenAI の強力な Codex アルゴリズムに基づいて構築されており、膨大な量のコードを蓄積し、これまでにない方法でコードを生成することを可能にしました。

Copilot は、確認したコードを模倣するだけでなく、関数名、メソッド名、クラス名、コメントのコンテキストを分析してコードを生成および合成し、開発者にエディター内のコード行全体または関数の提案を提供します。

​​

これにより、エンジニアが API ドキュメントに苦労して目を通す時間を短縮できるほか、テスト コードの作成にも役立ちます。

​​

5. レーダーの深層生成モデルを用いた巧みな降水予測

論文アドレス: https://www.nature.com/articles/s41586-021-03854-z

論文紹介:

今日の天気予報は、強力な数値天気予報 (NWP) システムによって行われています。数値天気予報システムは物理方程式を解くことで、数日先の地球規模の予報を作成できます。しかし、2 時間以内に高解像度の予報を出すのは困難です。

Nowcasting は、この重要な期間のパフォーマンス ギャップを埋めます。気象センシングの進歩により、高解像度レーダーが測定された地表降水量データを高頻度(1 km の解像度で 5 分ごと)で提供できるようになりました。

​​

過去 20 分間の観測レーダー データを使用して、今後 90 分間の確率予測を提供します。

STEPS や PySTEPS などの既存の短期予測方法は、不確実性を考慮するために NWP アプローチに従いますが、レーダー情報を使用した移流方程式に従って降水量をモデル化します。

ディープラーニングベースの手法では移流方程式に依存する必要はありませんが、既存の手法は降水フィールド全体の確率予測ではなく特定の場所での予測に重点を置いているため、複数の空間セットと時間セットで同時に一貫した予測結果を提供することは不可能であり、実用性が制限されます。

​​

この目的のために、DeepMind は、深層生成モデル (DGMR) を使用した確率予測のための観測主導型アプローチを開発しました。 DGMR は、データの確率分布を学習し、学習した分布から簡単にサンプルを生成できる統計モデルです。生成モデルは基本的に確率的であるため、与えられた過去のレーダーの条件付き分布から多くのサンプルをシミュレートして、予測のコレクションを生成することができます。さらに、DGMR は観測データから学習し、複数の空間的および時間的スケールで不確実性を表現することができます。

​​

結果は、DeepMind の深層生成モデルが、より優れた予測品質、予測の一貫性、予測値を提供できることを示しています。このモデルは、5〜90分のリードタイムで、1,536 km × 1,280 km のエリアにわたって現実的で時間的および空間的に一貫した予報を生成します。

DGMR は、強度を過大評価することなく、長期間にわたる空間範囲と対流をより正確に予測できます。

50 人以上の気象専門家による体系的な評価により、DeepMind の生成モデルは、他の 2 つの競合方法と比較して 89% の絶対的優位性を持ち、精度と実用性の両方で第 1 位にランクされました。

その他の興味深い論文は、Louis の GitHub ホームページでご覧いただけます。このプロジェクトはまだ更新中ですので、保存して最新のアップデートを入手してください。

<<:  ネットワークデータセキュリティ管理に関する新たな規制が導入される

>>:  高度な API、異種グラフ: Google が TensorFlow でグラフ ニューラル ネットワークを作成するための TF-GNN をリリース

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

キャッシュに関して最も懸念される問題は何ですか?種類は何ですか?リサイクル戦略とアルゴリズム?

[[342437]]著者は、正確なタイミング タスクと遅延キュー処理機能を備えた、高同時実行シナリ...

AIと拡張現実が職場でどのように進化しているか

[51CTO.com クイック翻訳]職場における支援/拡張現実 (AR) と人工知能 (AI) の潜...

YouTube、有名歌手の真似をしたり、テキストやハミングで曲を作曲できるAIツールをリリース

YouTube は 11 月 16 日に、ユーザーがテキストを入力したりメロディーをハミングしたりす...

中国の創作力はGPT-4を超える、「最高の文章力」を持つ中国のビッグモデルWeaverが登場

ChatGPT などの一般的な大規模モデルは数百の機能をサポートしていますが、一般的な日常的なユーザ...

Pika、Gen-2、ModelScope、SEINE…AIビデオ生成で最高なのはどれでしょうか?このフレームワークは理解しやすい

AIビデオ生成は最近最もホットな分野の一つです。さまざまな大学の研究室、インターネット大手の AI ...

コーダーの皆さん、おめでとうございます!マイクロソフトは、LLMを使用して168のコードベースにわたるコーディングタスクを自動化するCodePlanを提案している。

大規模なモデルの場合、ローカライズされたエンコード タスクに優れています。しかし、タスクが複数の相互...

AISpeechは多角的な視点からAIエコロジカルバリアを構築し、AIチップはラストマイルを切り開く

最近、シビチェンがチップスを製造しているというニュースが大きな騒ぎを引き起こしました。 [[2547...

マイクロソフト、テンセント、インテルがキュウリを栽培する理由:AIのせい

[[249198]]マイクロソフト、テンセント、インテルがキュウリ栽培にAIを活用北京時間11月13...

...

アルゴリズム | ダブルポインタはリンクリストを破る優れた魔法の武器です

今は少し理解できました。面接の過程で、面接官が私たちにコードを手書きで書くように頼むことがあります。...

AI時代における我が国の人工知能開発の長所と短所の分析

人工知能が人々の生活にますます大きな影響を与えるにつれて、人工知能技術は絶えず更新され、反復され、ま...

図解による古典的なプロセススケジューリングアルゴリズム

[[382804]]この記事はWeChatの公開アカウント「Flying Veal」から転載したもの...

...