この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。 有名な NLP ブロガー、Sebastian Ruder による年次レポートです。 2019年が過ぎました。AIコミュニティにとって、この1年は「急速な前進」の年だったと言えます。一方では、AIコミュニティ全体の研究意欲が高く、AI技術の急速な発展を促進しました。他方では、急速な発展の背後で、技術の限界がますます顕著になってきました。研究者もこれらの限界を積極的に探究し、数え切れないほどの新しい方法と研究の方向性を提案してきました。 しかし、際立って大きな影響を与えることができる方法と研究の方向性は何でしょうか?来年さらに調査する価値のあるものはいくつあるでしょうか? NLP 分野の著名なブロガーである Sebastian Ruder 博士が、自身の研究成果に基づいて「2019 年の ML と NLP におけるトップ 10 の研究ホットスポット」と題する概要レポートを執筆しました。 彼が何と言ったか見てみましょう: この投稿では、2019 年に ML と NLP で出現した最もエキサイティングで影響力のある 10 の研究方向について、私が考えるものをまとめています。それぞれのホットトピックについて、過去 1 年間の主な進歩を要約し、それがなぜ重要であると考えるかを簡単に説明し、将来の展望を少し述べたいと思います。 研究のホットスポット 10 か所は次のとおりです。
1. 何が起こったのですか? BERT (Devlin et al., 2019) とその派生種の人気の影響を受けて、教師なし事前トレーニングは過去 1 年間 NLP 分野で人気の研究方向となっています。マルチモーダル環境では、主に画像、ビデオ、テキストを含むさまざまな BERT バリアントが使用されます (下の図を参照)。 BERT の最近のマルチモーダルバリアントである VideoBERT (Sun et al., 2019) は、レシピ (上) に従ってビデオ「トークン」を生成し、ビデオ トークンに基づいてさまざまな時間スケールで将来のトークンを予測します (下)。 教師なしの事前トレーニングも、以前は教師ありの方法が主流だった領域に「侵入」し始めています。例えば: 生物学では、一部の研究者がタンパク質配列に対してTransformer言語モデルを事前トレーニングしました(Rives et al.、2019)。 コンピュータービジョンでは、研究者らは、CPC (Hénaff et al., 2019)、MoCo (He et al., 2019)、PIRL (Misra & van der Maaten, 2019) などの自己教師あり手法や、BigBiGAN ジェネレーター (Donahue & Simonyan, 2019) を使用して、ImageNet でのサンプル効率と画像生成を改善してきました。 音声では、多層 CNN (Schneider et al., 2019) または双方向 CPC (Kawakami et al., 2019) を使用して学習された表現は、より少ないトレーニング データで現在の最先端モデルよりも優れたパフォーマンスを発揮します。 2. なぜ重要なのか? 教師なし事前トレーニングでは、ラベル付けされたサンプルが少ないデータでモデルをトレーニングできるため、これまでデータが不足していたさまざまな分野でのアプリケーションに新たな可能性が開かれます。 3. 次は何ですか? 教師なし事前トレーニングにはまだ改善の余地が大いにあります。これまで個々の領域で大きな進歩を遂げてきましたが、今後はマルチモーダルデータをより緊密に統合する方法に焦点を当てていくのが興味深いでしょう。 2. 「宝くじ当選券」サブネットワーク1. 何が起こったのですか? 2019 年の研究で、フランクルとカービンは「当選宝くじ」現象を発見しました。これは、ランダムに初期化された密なフィードフォワード ネットワーク内の一部のサブネットワークが非常に適切に初期化されているため、これらのサブネットワークのみをトレーニングすると、ネットワーク全体をトレーニングした場合と同様の精度を達成できるという現象です (下の図を参照)。 当選宝くじサブネットワーク (実線) とランダムにサンプリングされたサブネットワーク (破線) の精度を、さまざまな剪定率でテストします (Frankle & Carbin、2019)。 元の剪定手順は小さな視覚タスクにのみ機能しましたが、その後の研究 (Frankle ら、2019) では、初期化時ではなくトレーニングの早い段階で剪定を適用し、剪定手順でより深いモデルの小さなサブネットワークを見つけることができるようになりました。 Yuら(2019)は、NLPおよびRLモデルにおけるLSTMとTransformerの「当選宝くじ」初期化も発見しました。 当選チケットを見つけるのは依然として困難ですが、幸いなことに、当選チケットはデータセットやオプティマイザー間で転送できるようです (Morcos et al.、2019)。 2. なぜ重要なのか? 現在、ニューラル ネットワークはますます大規模化しており、トレーニングと予測のコストも増加しています。同等のパフォーマンスを持つ小さなサブネットを特定できれば、より少ないリソースでトレーニングと推論を実行できるため、モデルの反復処理が高速化され、オンデバイス コンピューティングとエッジ コンピューティングの新しいアプリケーション シナリオが実現します。 3. 次は何ですか? 現在、「当たりチケット」を見つけるコストは、コンピューティング リソースが不足している環境では実用的なメリットを提供するには依然として高すぎます。剪定中にノイズの影響を受けにくく、より堅牢なワンショット剪定方法を使用すると、この状況が緩和される可能性があります。 当選チケットが特別な理由を研究することは、ニューラル ネットワークの初期化とその学習ダイナミクスをより深く理解するのにも役立つ可能性があります。 3. ニューラル・タンジェント・カーネル1. 何が起こったのですか? この研究の方向性は、特に、無限に広いニューラル ネットワークの方が狭いニューラル ネットワークよりも理論的に研究しやすいため、少し直感に反するかもしれません。 無限幅の場合、ニューラル ネットワークはニューラル タンジェント カーネル (NTK; Jacot ら、2018) を使用した線形モデルとして近似できることが示されています。下の図は、トレーニング プロセスの動的な図です。 アニメーション画像は原文で閲覧できます しかし、実際には、これらのモデルは有限深度のモデルよりもパフォーマンスが低く (Novak et al., 2019; Allen-Zhu et al., 2019; Bietti & Mairal, 2019)、新しい発見を標準的な方法に適用することが制限されます。 しかし、最近の研究 (Li et al., 2019; Arora et al., 2019) により、標準的な方法とのパフォーマンスのギャップが大幅に縮小されました (他の関連する NeurIPS 2019 論文に関する Chip Huyen のブログ投稿を参照、https://huyenchip.com/2019/12/18/key-trends-neurips-2019.html)。 2. なぜ重要なのか? NTK は、ニューラル ネットワークの理論的な動作を分析するための最も強力なツールである可能性があります。制限はあるものの、実際のニューラル ネットワークは、NTK よりも優れたパフォーマンスを発揮します。 この研究方向からの理論的洞察はまだ実証的な成果にはつながっていませんが、ディープラーニングのブラックボックスを開くのに役立つ可能性があります。 3. 次は何ですか? 標準的な方法とのギャップは、主にそのような方法の幅が限られていることに起因していると思われますが、これは将来の作業に反映される可能性があります。これにより、無限幅の制限に関する理論的な洞察をより現実的な設定に応用するのに役立つことが期待されます。 最終的に、NTK はニューラル ネットワークのトレーニング ダイナミクスと一般化動作を明らかにする可能性があります。 4. 教師なし多言語学習1. 何が起こったのですか? 長年にわたり、言語間の表現は主に単語レベルの表現に焦点を当ててきました。過去 1 年間、教師なし事前トレーニングを基に、Multilingual BERT、XLM (Conneau & Lample、2019)、XLM-R (Conneau et al.、2019) などのクロスリンガル モデルが開発されました。 これらのモデルは明示的な言語間シグナルを使用していませんが、共有語彙や共同トレーニングがなくても驚くべき言語間一般化を達成しています (Artetxe et al., 2019; Karthikeyan et al., 2019; Wu et al., 2019)。 これらのディープモデルは、前年 (2018 年) と昨年の統計的手法とニューラル手法のより原則的な組み合わせによる大きな進歩 (Artetxe ら、2019 年) に基づいて、教師なし MT の改善にもつながりました (Song ら、2019 年、Conneau と Lample、2019 年)。 もう一つのエキサイティングな開発は、下の図に示すように、既製の事前トレーニング済みの英語表現から派生したディープラーニング多言語モデルの開発です (Artetxe et al.、2019; Tran、2020)。 Artetxe ら (2019) による単一言語転送法の 4 つのステップ。 2. なぜ重要なのか? すぐに使用できるクロスリンガル表現では、モデルのトレーニングに必要な英語以外の言語サンプルが少なくなります。さらに、英語のラベル付きデータが利用可能な場合、これらの方法ではほぼ無料のゼロショット転送を実現できます。最終的に、これらの方法は、異なる言語間の関係をよりよく理解するのに役立ちます。 3. 次は何ですか? これらの方法が、言語間の監督なしにこれほどうまく機能する理由は不明です。これらのメソッドがどのように機能するかをより深く理解することで、より強力なメソッドを設計できるようになり、さまざまな言語の構造に関する洞察も明らかになる可能性があります。 さらに、ゼロショット転送に焦点を当てるだけでなく、ターゲット言語での少数ショット学習の問題も考慮する必要があります。 5. より堅牢なベンチマークデータセット現在の展開には何か厄介なことがあるに違いない。 —ニー他(2019)、シェイクスピアのハムレットを引用(デンマークの状態には何か腐ったものがある) 1. 何が起こったのですか? 現在の最先端モデルは、HellaSWAG (Zellers et al.、2019) などの最近開発された NLP データセットに対応することも困難です。 研究者はサンプルを手動でフィルタリングし、現在の最先端のモデルが明示的に処理できないサンプルのみを保持する必要があります (以下の例を参照)。人間が関与する敵対的管理プロセスを複数回繰り返すことで、最近提案された敵対的 NLI (Nie ら、2019 年) ベンチマークのように、現在の方法ではより困難なデータセットを作成できます。 HellaSWAG データセットの複数選択文完成例は、最先端のモデルであっても回答が困難です。最も難しい例は、およそ 3 つの文脈文と 2 つの生成文で構成される複雑な「ゴルディロックス ゾーン」にあります (Zellers ら、2019)。 2. なぜ重要なのか? 多くの研究者は、現在の NLP モデルは学習すべきことを学習せず、代わりに浅いヒューリスティックを使用してデータからの表面的な手がかり(「Clever Hans モーメント」とも呼ばれる)を組み込んでいることを観察しています。データセットがより堅牢になり、学習が困難になるにつれて、モデルが最終的にデータ内の真の根本的な関係を学習するようになることを期待しています。 3. 次は何ですか? モデルが改善されるにつれて、ほとんどのデータセットは継続的に改善するか、すぐに古くなる必要があります。このプロセスを促進するには、専用のインフラストラクチャとツールが必要です。 さらに、データセットの初期バージョンを可能な限り堅牢にするために、まず適切なベースライン メソッドをデータセットに対して実行する必要があります。たとえば、異なるデータ バリアント (不完全な入力など) を使用する単純なメソッドとモデルを含めます。 科学研究のための ML と NLP1. 何が起こったのですか? 機械学習は、基本的な科学的問題に関して大きな進歩を遂げてきました。たとえば、ディープニューラルネットワークをタンパク質の折り畳みや多電子シュレーディンガー方程式に適用する研究 (Pfau et al.、2019) があります。 自然言語処理では、標準的な方法であっても、ドメインの専門知識と組み合わせると、刺激的な影響を与えることができます。ある研究では、単語埋め込み技術を使用して、材料科学文献の潜在的知識を分析し (Tshitoyan et al.、2019)、材料が特定の特性を持つかどうかを予測しました (下の図を参照)。 異なる期間のアブストラクトでトレーニングされた単語埋め込みを使用して、将来のアブストラクトで強誘電体 (a)、光起電性 (b)、およびトポロジカル絶縁体 (c) としてどの材料が研究されるかを予測します。予測された上位 50 の材料は、すべての候補材料よりも研究される可能性が高くなります (Tshitoyan ら、2019)。 生物学では、多くのデータ(遺伝子やタンパク質など)は自然界の配列データです。したがって、LSTM や Transformers などの NLP 手法をタンパク質分類に適用するのは自然なことです (Strodthoff et al., 2019; Rives et al., 2019)。 2. なぜ重要なのか? 科学は、おそらく ML の最も影響力のある応用分野の 1 つです。これらのソリューションは他の多くの分野に大きな影響を与え、実際の問題の解決に役立ちます。 3. 次は何ですか? 物理学の問題におけるエネルギーのモデリング (Greydanus 他、2019) から微分方程式の解法 (Lample & Charton、2020) まで、ML 手法は科学における新たな応用に拡大しています。 2020 年にどの問題アプリケーションが最も大きな影響を与えるかを見るのも興味深いでしょう。 7. NLGのデコードエラーを修正する1. 何が起こったのですか? 自然言語生成 (NLG) モデルは機能が向上しているにもかかわらず、下の図に示すように、依然として繰り返しの多い、または意味不明な音声を生成することがよくあります。 GPT-2 がビームサーチと純粋な(貪欲な)サンプリングを使用して生成した繰り返し(青)と意味不明な文字列(赤)(Holtzman ら、2019 年)。 これは主に最大尤度トレーニングの結果であることがわかりました。これを改善するための研究がいくつか行われ、それと並行してモデリングにも進歩が見られていることを嬉しく思います。このような改善は、カーネル サンプリング (Holtzman et al.、2019) などの新しいサンプリング方法を採用するか、新しい損失関数 (Welleck et al.、2019) を使用することによって実現されます。 もう 1 つの驚くべき発見は、検索を改善しても生成が改善されるわけではないということです。現在のモデルは、ある程度、不完全な検索とビーム検索のエラーに依存しています。機械翻訳の場合、正確な検索では空の翻訳が返されることがよくあります (Stahlberg & Byrne、2019)。これは、検索とモデリングの進歩が連携して進む必要があることを示唆しています。 2. なぜ重要なのか? 自然言語生成は、NLP で最も一般的なタスクの 1 つです。 NLP と ML の研究では、ほとんどの論文がモデルの改善に焦点を当てており、パイプラインの他の部分は無視されることがよくあります。 NLG の場合、モデルにはまだ欠陥があり、検索またはトレーニング プロセスを修正することで出力を改善できることに注意することが重要です。 3. 次は何ですか? より強力なモデルと NLG における転移学習の成功した適用 (Song et al., 2019; Wolf et al., 2019) にもかかわらず、モデル予測には依然として多くの欠陥があり、そのような欠陥の原因を特定して理解することが、今後の重要な研究方向となります。 8. 強化された事前学習済みモデル1. 何が起こったのですか? 過去 1 年間、研究者たちが事前トレーニング済みのモデルに新しい機能を追加する方法を考え出すのを見て、私は興奮していました。いくつかのアプローチでは、事前トレーニング済みモデルに知識ベースを追加して、エンティティ名のモデリング (Liu et al.、2019) と事実の想起 (Logan et al.、2019) を改善します。他の研究では、事前定義された実行可能プログラムにアクセスすることで、事前トレーニング済みのモデルが簡単な算術推論を実行できるようになりました (Andor et al.、2019)。 ほとんどのモデルは弱い帰納的バイアスを持ち、データからほとんどの知識を学習できるため、事前トレーニング済みモデルを強化する別の方法は、下の図に示すように、たとえば常識を捉えるためにトレーニング データ自体を強化することです (Bosselut ら、2019)。 マルチヘッドアテンションを備えた標準トランスフォーマー。トレーニングされたモデルは、トピックと関係が与えられた場合に知識ベーストリプルのオブジェクトを予測できます (Bosselut et al.、2019)。 2. なぜ重要なのか? モデルはより強力になってきていますが、テキストからはあまり学習できません。特に、より複雑なタスクを扱う場合、利用可能なデータが非常に限られているため、事実や常識を使用して明示的な推論を学習できず、より強い帰納的バイアスが必要になることがよくあります。 3. 次は何ですか? モデルがより困難な問題に適用されるにつれて、ポートフォリオの修正がますます必要になります。将来的には、強力な事前トレーニング済みモデルと学習可能な構成手順を組み合わせる可能性があります (Pierrot et al.、2019)。 9. 効率的で長距離の変圧器1. 何が起こったのですか? 過去 1 年間で、Transformer アーキテクチャにいくつかの改良が加えられました (Vaswani 他、2017)。たとえば、Transformer-XL (Dai et al.、2019) や Compressive Transformer (Rae et al.、2020) を使用すると、このアーキテクチャで長距離依存関係をより適切にキャプチャできるようになります。 同時に、適応型スパースアテンション(Correia et al.、2019)、適応型アテンションスパン(Sukhbaatar et al.、2019)、プロダクトキーアテンション(Lample et al.、2019)、局所性に敏感なハッシュ(Kitaev et al.、2020)など、さまざまな(通常はスパースな)アテンションメカニズムを使用して、Transformer の効率を改善しようとする多くの方法が試みられてきました。 Transformer ベースの事前トレーニングに関しては、パラメータ共有を使用する ALBERT (Lan et al., 2020) や、より効果的な事前トレーニングタスクを使用する ELECTRA (Clark et al., 2020) など、より効果的なバリアントが登場しています。ただし、ユニグラムモデルの VAMPIRE (Gururangan et al.、2019) や QRNN ベースの MultiFiT (Eisenschlos et al.、2019) など、Transformer を使用しないがより効果的な事前トレーニング済みモデルもいくつかあります。 この分野のもう一つのトレンドは、大規模な BERT モデルをより小さなモデルに分割することです (Tang et al.、2019; Tsai et al.、2019; Sanh et al.、2019)。 2. なぜ重要なのか? Transformer アーキテクチャは、導入以来、非常に大きな影響力を持っています。これは、NLP の最先端のモデルのほとんどに不可欠な部分であり、他の多くの分野にもうまく適用されています (セクション 1 と 6 を参照)。したがって、Transformer アーキテクチャを改善すると、大きな「波及効果」が生じる可能性があります。 3. 次は何ですか? 実践者が Transformer による上記の改善の恩恵を受けるには、ある程度の時間がかかるかもしれませんが、事前トレーニング済みモデルの普及と使いやすさを考えると、この期間はそれほど長くはかからないでしょう。 全体として、効率性を重視したモデル アーキテクチャが引き続き重点的に取り上げられると予想され、スパース性が主要なトレンドの 1 つとなっています。 10. より信頼性の高い分析方法1. 何が起こったのですか? 過去 1 年間の ML および NLP 研究の主な傾向の 1 つは、分析モデルに関する論文数の増加です。 実際、昨年私が気に入った論文のいくつかは、このタイプの分析モデルに関するものでした。 2019 年の初めに、Belinkov 氏と Glass 氏は分析手法に関する優れた調査を実施しました。 私の記憶している限りでは、過去 1 年間は、単一のモデルである BERT の分析に特化した論文が多数発表された初めての年でした (このような論文は BERTology と呼ばれます)。このような状況では、特定の特性を予測することでモデルが形態論や構文などを捉えているかどうかを理解することを目的としたプローブが一般的なツールになっています (下の図を参照)。 表現における言語知識を研究するためのプローブのセットアップ (Liu et al., 2019)。 私は特に、プローブの信頼性を高める論文 (Liu et al.、2019; Hewitt & Liang、2019) に感謝しています。信頼性は、注意が意味のある説明を提供できるかどうかという、対話分野の発展における研究テーマでもあります (Jain & Wallace、2019 年、Wiegreffe & Pinter、2019 年、Wallace、2019 年)。 NLP モデルの解釈可能性とモデル分析に関する最近の ACL 2020 Track 論文は、分析手法に対する継続的な関心を示す最良の例です。 2. なぜ重要なのか? 現実には、現在の最先端の分析方法はブラックボックスとして使用されることがよくあります。より優れたモデルを開発し、それを現実世界に適用するには、モデルが特定の決定を下す理由を理解する必要があります。しかし、モデル予測を解釈するための現在の方法はまだ非常に限られています。 3. 次は何ですか? 視覚化の範囲外での予測は信頼できないことが多いため、それを説明するにはさらに作業を行う必要があります。この方向における重要な傾向は、より多くのデータセットに人間による解釈が提供されていることです (Camburu et al.、2018; Rajani et al.、2019; Nie et al.、2019)。 この記事で言及されているすべての関連論文と作品は、元のアドレス https://ruder.io/research-highlights-2019/ にアクセスすると入手できます。 |
>>: AI誇大宣伝はサイバーセキュリティのデフレにおけるバブルなのか?
ABI Research は、2026 年までに、何らかの形で人工知能 (AI) を活用した拡張現実...
[[426283]]毎日肖像画を模写する練習を続けた結果、この芸術家はいくつかの重要な特徴だけを描い...
現代医学の発展は、病気の診断と治療のための新しいツール、テクノロジー、方法を開発してきた医師と科学者...
チップ業界では、Armとx86が現在の主流のアーキテクチャであり、オープンなRSIC-Vが将来の方向...
最近、2020年夏季オリンピックがついに2021年に開幕しました。 [[413267]]現在、我が国...
ビッグデータ人工知能技術は、応用レベルでは、機械学習、ニューラルネットワーク、ディープラーニングなど...
自然言語処理 (NLP) により、チャットボットは会話のメッセージを理解してそれに応じて応答できるよ...
人工知能は、60年以上にわたる発展の中で、数々の浮き沈みを経験してきました。近年、モバイルインターネ...
エッジと極端エッジの間でこれがどのように展開するか、また無線アクセス ネットワークにどのような階層が...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[192443]] AlphaGoの登場により、2016年は人工知能元年とも言えるでしょう。蘇州で...