ディープラーニングの面接で知っておくべきこと

ディープラーニングの面接で知っておくべきこと

[[208646]]

この記事は、「ディープラーニングの面接で知っておくべきことは何ですか」という質問に対する回答です。

1. L0、L1、L2、L∞、フロベニウスノルムなど、一般的なノルムとその適用シナリオをいくつか挙げてください。

答え: p39-p40; および p230-p236 には正規化アプリケーションがあります

2. ベイズ確率と頻度主義確率、および統計における真のパラメータに関する仮定について簡単に説明します。

答え: p55

3. 確率密度の最良近似値

答え: p67: 上記3.10

4. シグモイド、relu、softplus、tanh、RBFとその応用シナリオについて簡単に紹介する

A: シグモイドとソフトプラスはp67にあります。すべてp193-p197にあります。

5. ヤコビ行列、ヘッセ行列とディープラーニングにおけるその重要性

答え: p86-p92

6. KLダイバージェンスは情報理論における直感的な量を測定する

答え: p74

7. ソフトマックスにおける処理方法などの数値計算におけるオーバーフローとアンダーフローの問題

答え: p80-p81

8. 行列の固有値に関連する条件数(悪条件条件)と、勾配爆発および勾配拡散との関係は何ですか?

答え: p82;

9. 勾配ベースの最適化問題において、勾配が 0 のゼロ境界点が局所的最大値/大域的最小値か鞍点かをどのように判断するか? ヘッセ行列の条件数と勾配降下法の関係

答え: p86-p92

10. KTT法と制約付き最適化問題、アクティブ制約の定義

答え: p93-p95

11. モデル容量、表現容量、有効容量、最終容量の概念

答え: p111;p113;p114;p115

12. 正則化における重み減衰と特定の条件下での事前知識の追加との等価性

答え: p119; p138

13. ガウス分布が広く使われている理由

答え: p63-p64

14.***尤度推定におけるKLダイバージェンスの最小化と分布間のクロスエントロピーの最小化の関係

答え: p132

15. 線形回帰問題において、ガウス事前重みを用いたMAPベイズ推定と重み減衰および正則化の関係

答え: p138-p139

16. スパース表現、低次元表現、独立表現

答え: p147

17. マップ(勾配?)最適化に基づいて最小化できないコスト関数とその特徴をいくつか挙げてください。

答え: p155の一番上の段落

18. ディープ ニューラル ネットワークでは、隠れ層が導入され、トレーニング問題の凸性は放棄されます。これにはどのような意味がありますか?

答え: p191-192

19. 特定の区間における関数の飽和度と滑らかさが勾配学習に与える影響

答え: p160

20. 勾配爆発に対するいくつかの解決策

答え: p302

21.*** MLP の近似特性

答え: p198

22. フィードフォワードネットワークにおける深さと幅の関係と表現能力の違い

答え: p200-p201

23. クロスエントロピー損失はシグモイドおよびソフトマックス出力を持つモデルのパフォーマンスを向上させるのに、平均二乗誤差損失を使用すると多くの問題が発生するのはなぜですか。シグモイドの代わりに区分線形隠れ層を使用することの長所と短所

答え: p226; p226

24. 表現学習の開発の本来の意図は何ですか?そしてその典型的な例であるオートエンコーダを紹介してください。

答え: p3-p4;p4

25. 正規化のプロセスで、重みにのみペナルティを適用し、バイアスにはペナルティを適用しないのはなぜですか?

答え: p230

26. ディープラーニングニューラルネットワークにおいて、すべての層で同じ重み減衰を使用することの長所と短所を検討する

答え: p230

27. 正規化プロセス中に、ヘッセ行列の重み減衰と固有値の関係、および勾配拡散と勾配爆発との関係がいくつかある。

答え: p231-234

28. L1/L2正則化とガウス事前分布/対数事前分布によるMAPベイズ推論の関係

答え: p234-p237

29. 不足制約とは何ですか? ほとんどの正規化により、不足制約下の不足決定問題が反復プロセスで収束できるのはなぜですか?

答え: p239

30. モデルのトレーニング中に入力(隠れユニット/重み)に分散の小さいノイズを追加することを検討する理由と、それが正規化とどのように関係するか

答え: p240-p243

31. 共有パラメータの概念と深層学習におけるその広範な影響

答え: p245; p253

32. ドロップアウトとバギング統合法の関係、ドロップアウトの重要性とそれがなぜ強力なのか

答え: p258-p268

33. バッチ勾配降下法におけるバッチサイズと各種更新の安定性の関係

答え: p279

34. 深層学習における病的状態、鞍点、勾配爆発、勾配拡散を回避する方法

答え: p282-p293

35. SGDと学習率選択法、運動量付きSGDが悪条件ヘッセ行列に与える影響と確率的勾配の分散

答え: p294; p296-p300

36. 重みの初期化における様々なネットワーク構造における重みサイズの影響、およびいくつかの初期化方法、バイアスの初期化

答え: 重みを初期化: p301-p305; バイアスを初期化: p305-p306

37. 適応学習率アルゴリズム: AdaGrad、RMSProp、Adam およびその他のアルゴリズム

答え: AdaGrad:p307; RMSProp:p307-p308; Adam:p308-p309

38. 2次近似法:ニュートン法、共役勾配法、BFGSなど

答え: ニュートン法: p310-p313; 共役勾配法: p313-p316; BFGS: p316-p317

39.高次最適化アルゴリズムにおけるヘッセ行列標準化の重要性

答え: p318-p321

40. 畳み込みネットワークにおける並進等価性の理由、畳み込みの一般的な形式

答え: 並進等価性: p338-p339; 畳み込みの一般的な形式: p347-p358

41.プーリングの重要性

答え: p342-p347

42. リカレントニューラルネットワークの一般的な依存関係ループ関係、一般的な入力と出力、および対応するアプリケーションシナリオ

答え: p378-p395

43. seq2seq、gru、lstm などの原理

答え: seq2seq:p396-p397; gru:p411-p412; lstm:p408-p411

44. ディープラーニングにおけるサンプリングの重要性

答え: p469-p471

45. オートエンコーダと線形因子モデル、PCA、ICA などの関係。

答え: オートエンコーダーと線形因子モデル: p489-p490; PCA: p490-p491; ICA: p491-p493

46. ディープラーニングにおけるオートエンコーダの重要性、および一般的な変換とアプリケーション

回答: 重要性: p502-p503; 一般的なバリエーション: p503-p508; p509-p512; p521-p524 応用: p515-p520; p524-p525

47. 制限ボルツマンマシンが広く応用されている理由

答え: p460: さらに詳しく知りたい人は、この文に注目してください: これらのモデルが成功した理由の分析については、Mohamed et al. (2012b) を参照してください。

48. 安定分布とマルコフ連鎖

答え: p595-p598

49. ギブスサンプリングの原理

答え: p599

50.パーティション関数は計算が難しい場合がよくあります。

答え: p605、p606***

51. 複数のパラメータ推定値の関連性と相違点: MLE/MAP/ベイズ

答え: P134-P139

52. 半教師あり学習の考え方と深層学習への応用

答え: p541-p546

53. 異なるデータソースにおけるCNNのチャネルの意味の例を挙げてください。

答え: p360-p362

54. NLP、音声、画像などの分野におけるディープラーニングの応用とよく使われるモデル

答え: p452-p485

55. word2vecとgloveの比較

回答: GloVe と word2vec の違いは何ですか? ; GloVe と Word2vec はディープラーニングと呼べるでしょうか? これら 2 つのモデルのレベルは、実は非常に浅いです。http://clic.cimec.unitn.it/marco/publications/acl2014/baroni-etal-countpredict-acl2014.pdf この質問の回答が見つからなかったので、Quora と Zhihu で関連する質問を探したほか、Quora の回答で言及されている論文も探しました。 (もし本の中でそれを見つけた人がいたら、批判して訂正してください)

56.ディープラーニングのいくつかのシナリオで注意メカニズムが広く使用されているのはなぜですか?

答え: p475-p476

57. ワイド&ディープモデルにおけるワイド&ディープの紹介

回答: https://arxiv.org/pdf/1606.07792.pdf この質問の答えは本の中になかったので、元の論文を探しました。論文の図1に詳細な紹介があります。 (もし本の中でそれを見つけたら、批判して訂正してください)

58. カーネル回帰とRBFネットワークの関係

答え: p142

59.LSTM 構造導出はなぜ RNN よりも優れているのでしょうか?

答え: p408-p411

60. ディープラーニングにおけるオーバーフィッティングの一般的な解決策または構造設計

回答: p230-p268; 含まれるもの: パラメータ ノルム ペナルティ (パラメータ ノルム ペナルティ); データセット拡張 (データセット拡張); 早期停止 (早期終了); パラメータ タイイングとパラメータ共有 (パラメータ バインディングとパラメータ共有); バギングとその他のアンサンブル メソッド (バギングとその他の統合メソッド); ドロップアウト。バッチ正規化もあります。

61. ベイズモデルの有効なパラメータデータはデータセットのサイズに応じて自動的に調整されることをどのように理解すればよいでしょうか?

回答: ノンパラメトリック モデルについて: p115-p116。ノンパラメトリック モデルは特定の確率モデルに依存せず、パラメーターは無限次元であり、データ セットのサイズによって、モデルをモデル化するために使用するパラメーターの数が増えたり減ったりするかどうかが決まります。 (本の中に正確な答えは見つかりませんでした。より良い答えをお持ちの場合は、私に連絡して修正してください。)

<<:  教師なしニューラル機械翻訳: 単一言語コーパスのみを使用する

>>:  Google Brain エンジニアの講演: TensorFlow とディープラーニング

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

微分可能アーキテクチャ検索DARTSより10倍高速な、Fourth Paradigmが最適化されたNASアルゴリズムを提案

ニューラル アーキテクチャ検索は、常に高い計算能力の代表例と考えられてきました。微分可能アーキテクチ...

...

自動運転の3D視覚認識アルゴリズムを理解するための1万語

自動運転アプリケーションでは、最終的には 3D シーン認識が必要になります。理由は簡単です。車は画像...

...

AI は言語をより早く習得するために何ができるでしょうか?

新しい言語を学ぶことは間違いなく挑戦です。特に 18 歳以上の人にとっては、これまで触れたことのない...

GitHub で最も人気のあるオープンソース機械学習プロジェクト 28 件: TensorFlow がトップ

機械学習は現在、業界で徐々にホットな話題になりつつあります。20年以上の開発を経て、機械学習は現在、...

バックトラッキングアルゴリズム - ロボットの動作範囲

[[415476]]この記事はWeChatの公開アカウント「Magic Programmer K」か...

2018 年に人工知能を変える 5 つのビッグデータ トレンド

[[211908]]ビッグデータや人工知能の広範な導入を通じて、これらの新興技術の大きな影響が世界経...

メタ研究者が新たなAIの試み:地図や訓練なしでロボットに物理的なナビゲーションを教える

Meta Platformsの人工知能部門は最近、少量のトレーニングデータのサポートにより、AIモデ...

チャットボットのテスト: フレームワーク、ツール、テクニックの詳細

【51CTO.com クイック翻訳】 [[425095]]ビジネス マーケティングの原動力と、顧客体...

顔認識技術の法的ギャップを埋める必要がある

顔認識などの新興技術が普及し、何百万人もの人々の生活に入り込むにつれて、技術の使用をめぐる論争がます...

UiPath Carnivalは職場の自動化におけるイノベーションを探るために近日開催されます

ロボティック・プロセス・オートメーション(RPA)エンタープライズソフトウェア企業のUiPathは最...

...

初心者必読: 5 つの反復レベルから機械学習を理解する

このなぞなぞの答えを推測できますか?機械学習を学べば、どこにでも登場します...プログラマーであれば...

なぜモノのインターネット、ビッグデータ、人工知能は常にグループで表示されるのでしょうか?

[[274332]]私のいとこは 2000 年代生まれで、大学に入学したばかりの才能あふれる若者で...