この記事は、「ディープラーニングの面接で知っておくべきことは何ですか」という質問に対する回答です。 1. L0、L1、L2、L∞、フロベニウスノルムなど、一般的なノルムとその適用シナリオをいくつか挙げてください。 答え: p39-p40; および p230-p236 には正規化アプリケーションがあります 2. ベイズ確率と頻度主義確率、および統計における真のパラメータに関する仮定について簡単に説明します。 答え: p55 3. 確率密度の最良近似値 答え: p67: 上記3.10 4. シグモイド、relu、softplus、tanh、RBFとその応用シナリオについて簡単に紹介する A: シグモイドとソフトプラスはp67にあります。すべてp193-p197にあります。 5. ヤコビ行列、ヘッセ行列とディープラーニングにおけるその重要性 答え: p86-p92 6. KLダイバージェンスは情報理論における直感的な量を測定する 答え: p74 7. ソフトマックスにおける処理方法などの数値計算におけるオーバーフローとアンダーフローの問題 答え: p80-p81 8. 行列の固有値に関連する条件数(悪条件条件)と、勾配爆発および勾配拡散との関係は何ですか? 答え: p82; 9. 勾配ベースの最適化問題において、勾配が 0 のゼロ境界点が局所的最大値/大域的最小値か鞍点かをどのように判断するか? ヘッセ行列の条件数と勾配降下法の関係 答え: p86-p92 10. KTT法と制約付き最適化問題、アクティブ制約の定義 答え: p93-p95 11. モデル容量、表現容量、有効容量、最終容量の概念 答え: p111;p113;p114;p115 12. 正則化における重み減衰と特定の条件下での事前知識の追加との等価性 答え: p119; p138 13. ガウス分布が広く使われている理由 答え: p63-p64 14.***尤度推定におけるKLダイバージェンスの最小化と分布間のクロスエントロピーの最小化の関係 答え: p132 15. 線形回帰問題において、ガウス事前重みを用いたMAPベイズ推定と重み減衰および正則化の関係 答え: p138-p139 16. スパース表現、低次元表現、独立表現 答え: p147 17. マップ(勾配?)最適化に基づいて最小化できないコスト関数とその特徴をいくつか挙げてください。 答え: p155の一番上の段落 18. ディープ ニューラル ネットワークでは、隠れ層が導入され、トレーニング問題の凸性は放棄されます。これにはどのような意味がありますか? 答え: p191-192 19. 特定の区間における関数の飽和度と滑らかさが勾配学習に与える影響 答え: p160 20. 勾配爆発に対するいくつかの解決策 答え: p302 21.*** MLP の近似特性 答え: p198 22. フィードフォワードネットワークにおける深さと幅の関係と表現能力の違い 答え: p200-p201 23. クロスエントロピー損失はシグモイドおよびソフトマックス出力を持つモデルのパフォーマンスを向上させるのに、平均二乗誤差損失を使用すると多くの問題が発生するのはなぜですか。シグモイドの代わりに区分線形隠れ層を使用することの長所と短所 答え: p226; p226 24. 表現学習の開発の本来の意図は何ですか?そしてその典型的な例であるオートエンコーダを紹介してください。 答え: p3-p4;p4 25. 正規化のプロセスで、重みにのみペナルティを適用し、バイアスにはペナルティを適用しないのはなぜですか? 答え: p230 26. ディープラーニングニューラルネットワークにおいて、すべての層で同じ重み減衰を使用することの長所と短所を検討する 答え: p230 27. 正規化プロセス中に、ヘッセ行列の重み減衰と固有値の関係、および勾配拡散と勾配爆発との関係がいくつかある。 答え: p231-234 28. L1/L2正則化とガウス事前分布/対数事前分布によるMAPベイズ推論の関係 答え: p234-p237 29. 不足制約とは何ですか? ほとんどの正規化により、不足制約下の不足決定問題が反復プロセスで収束できるのはなぜですか? 答え: p239 30. モデルのトレーニング中に入力(隠れユニット/重み)に分散の小さいノイズを追加することを検討する理由と、それが正規化とどのように関係するか 答え: p240-p243 31. 共有パラメータの概念と深層学習におけるその広範な影響 答え: p245; p253 32. ドロップアウトとバギング統合法の関係、ドロップアウトの重要性とそれがなぜ強力なのか 答え: p258-p268 33. バッチ勾配降下法におけるバッチサイズと各種更新の安定性の関係 答え: p279 34. 深層学習における病的状態、鞍点、勾配爆発、勾配拡散を回避する方法 答え: p282-p293 35. SGDと学習率選択法、運動量付きSGDが悪条件ヘッセ行列に与える影響と確率的勾配の分散 答え: p294; p296-p300 36. 重みの初期化における様々なネットワーク構造における重みサイズの影響、およびいくつかの初期化方法、バイアスの初期化 答え: 重みを初期化: p301-p305; バイアスを初期化: p305-p306 37. 適応学習率アルゴリズム: AdaGrad、RMSProp、Adam およびその他のアルゴリズム 答え: AdaGrad:p307; RMSProp:p307-p308; Adam:p308-p309 38. 2次近似法:ニュートン法、共役勾配法、BFGSなど 答え: ニュートン法: p310-p313; 共役勾配法: p313-p316; BFGS: p316-p317 39.高次最適化アルゴリズムにおけるヘッセ行列標準化の重要性 答え: p318-p321 40. 畳み込みネットワークにおける並進等価性の理由、畳み込みの一般的な形式 答え: 並進等価性: p338-p339; 畳み込みの一般的な形式: p347-p358 41.プーリングの重要性 答え: p342-p347 42. リカレントニューラルネットワークの一般的な依存関係ループ関係、一般的な入力と出力、および対応するアプリケーションシナリオ 答え: p378-p395 43. seq2seq、gru、lstm などの原理 答え: seq2seq:p396-p397; gru:p411-p412; lstm:p408-p411 44. ディープラーニングにおけるサンプリングの重要性 答え: p469-p471 45. オートエンコーダと線形因子モデル、PCA、ICA などの関係。 答え: オートエンコーダーと線形因子モデル: p489-p490; PCA: p490-p491; ICA: p491-p493 46. ディープラーニングにおけるオートエンコーダの重要性、および一般的な変換とアプリケーション 回答: 重要性: p502-p503; 一般的なバリエーション: p503-p508; p509-p512; p521-p524 応用: p515-p520; p524-p525 47. 制限ボルツマンマシンが広く応用されている理由 答え: p460: さらに詳しく知りたい人は、この文に注目してください: これらのモデルが成功した理由の分析については、Mohamed et al. (2012b) を参照してください。 48. 安定分布とマルコフ連鎖 答え: p595-p598 49. ギブスサンプリングの原理 答え: p599 50.パーティション関数は計算が難しい場合がよくあります。 答え: p605、p606*** 51. 複数のパラメータ推定値の関連性と相違点: MLE/MAP/ベイズ 答え: P134-P139 52. 半教師あり学習の考え方と深層学習への応用 答え: p541-p546 53. 異なるデータソースにおけるCNNのチャネルの意味の例を挙げてください。 答え: p360-p362 54. NLP、音声、画像などの分野におけるディープラーニングの応用とよく使われるモデル 答え: p452-p485 55. word2vecとgloveの比較 回答: GloVe と word2vec の違いは何ですか? ; GloVe と Word2vec はディープラーニングと呼べるでしょうか? これら 2 つのモデルのレベルは、実は非常に浅いです。http://clic.cimec.unitn.it/marco/publications/acl2014/baroni-etal-countpredict-acl2014.pdf この質問の回答が見つからなかったので、Quora と Zhihu で関連する質問を探したほか、Quora の回答で言及されている論文も探しました。 (もし本の中でそれを見つけた人がいたら、批判して訂正してください) 56.ディープラーニングのいくつかのシナリオで注意メカニズムが広く使用されているのはなぜですか? 答え: p475-p476 57. ワイド&ディープモデルにおけるワイド&ディープの紹介 回答: https://arxiv.org/pdf/1606.07792.pdf この質問の答えは本の中になかったので、元の論文を探しました。論文の図1に詳細な紹介があります。 (もし本の中でそれを見つけたら、批判して訂正してください) 58. カーネル回帰とRBFネットワークの関係 答え: p142 59.LSTM 構造導出はなぜ RNN よりも優れているのでしょうか? 答え: p408-p411 60. ディープラーニングにおけるオーバーフィッティングの一般的な解決策または構造設計 回答: p230-p268; 含まれるもの: パラメータ ノルム ペナルティ (パラメータ ノルム ペナルティ); データセット拡張 (データセット拡張); 早期停止 (早期終了); パラメータ タイイングとパラメータ共有 (パラメータ バインディングとパラメータ共有); バギングとその他のアンサンブル メソッド (バギングとその他の統合メソッド); ドロップアウト。バッチ正規化もあります。 61. ベイズモデルの有効なパラメータデータはデータセットのサイズに応じて自動的に調整されることをどのように理解すればよいでしょうか? 回答: ノンパラメトリック モデルについて: p115-p116。ノンパラメトリック モデルは特定の確率モデルに依存せず、パラメーターは無限次元であり、データ セットのサイズによって、モデルをモデル化するために使用するパラメーターの数が増えたり減ったりするかどうかが決まります。 (本の中に正確な答えは見つかりませんでした。より良い答えをお持ちの場合は、私に連絡して修正してください。) |
<<: 教師なしニューラル機械翻訳: 単一言語コーパスのみを使用する
>>: Google Brain エンジニアの講演: TensorFlow とディープラーニング
ニューラル アーキテクチャ検索は、常に高い計算能力の代表例と考えられてきました。微分可能アーキテクチ...
自動運転アプリケーションでは、最終的には 3D シーン認識が必要になります。理由は簡単です。車は画像...
新しい言語を学ぶことは間違いなく挑戦です。特に 18 歳以上の人にとっては、これまで触れたことのない...
機械学習は現在、業界で徐々にホットな話題になりつつあります。20年以上の開発を経て、機械学習は現在、...
[[415476]]この記事はWeChatの公開アカウント「Magic Programmer K」か...
[[211908]]ビッグデータや人工知能の広範な導入を通じて、これらの新興技術の大きな影響が世界経...
Meta Platformsの人工知能部門は最近、少量のトレーニングデータのサポートにより、AIモデ...
【51CTO.com クイック翻訳】 [[425095]]ビジネス マーケティングの原動力と、顧客体...
顔認識などの新興技術が普及し、何百万人もの人々の生活に入り込むにつれて、技術の使用をめぐる論争がます...
ロボティック・プロセス・オートメーション(RPA)エンタープライズソフトウェア企業のUiPathは最...
このなぞなぞの答えを推測できますか?機械学習を学べば、どこにでも登場します...プログラマーであれば...
[[274332]]私のいとこは 2000 年代生まれで、大学に入学したばかりの才能あふれる若者で...