ディープラーニングの面接で知っておくべきこと

[[208646]]

この記事は、「ディープラーニングの面接で知っておくべきことは何ですか」という質問に対する回答です。

1. L0、L1、L2、L∞、フロベニウスノルムなど、一般的なノルムとその適用シナリオをいくつか挙げてください。

答え: p39-p40; および p230-p236 には正規化アプリケーションがあります

2. ベイズ確率と頻度主義確率、および統計における真のパラメータに関する仮定について簡単に説明します。

答え: p55

3. 確率密度の最良近似値

答え: p67: 上記3.10

4. シグモイド、relu、softplus、tanh、RBFとその応用シナリオについて簡単に紹介する

A: シグモイドとソフトプラスはp67にあります。すべてp193-p197にあります。

5. ヤコビ行列、ヘッセ行列とディープラーニングにおけるその重要性

答え: p86-p92

6. KLダイバージェンスは情報理論における直感的な量を測定する

答え: p74

7. ソフトマックスにおける処理方法などの数値計算におけるオーバーフローとアンダーフローの問題

答え: p80-p81

8. 行列の固有値に関連する条件数（悪条件条件）と、勾配爆発および勾配拡散との関係は何ですか？

答え: p82;

9. 勾配ベースの最適化問題において、勾配が 0 のゼロ境界点が局所的最大値/大域的最小値か鞍点かをどのように判断するか? ヘッセ行列の条件数と勾配降下法の関係

答え: p86-p92

10. KTT法と制約付き最適化問題、アクティブ制約の定義

答え: p93-p95

11. モデル容量、表現容量、有効容量、最終容量の概念

答え: p111;p113;p114;p115

12. 正則化における重み減衰と特定の条件下での事前知識の追加との等価性

答え: p119; p138

13. ガウス分布が広く使われている理由

答え: p63-p64

14.***尤度推定におけるKLダイバージェンスの最小化と分布間のクロスエントロピーの最小化の関係

答え: p132

15. 線形回帰問題において、ガウス事前重みを用いたMAPベイズ推定と重み減衰および正則化の関係

答え: p138-p139

16. スパース表現、低次元表現、独立表現

答え: p147

17. マップ（勾配？）最適化に基づいて最小化できないコスト関数とその特徴をいくつか挙げてください。

答え: p155の一番上の段落

18. ディープニューラルネットワークでは、隠れ層が導入され、トレーニング問題の凸性は放棄されます。これにはどのような意味がありますか?

答え: p191-192

19. 特定の区間における関数の飽和度と滑らかさが勾配学習に与える影響

答え: p160

20. 勾配爆発に対するいくつかの解決策

答え: p302

21.*** MLP の近似特性

答え: p198

22. フィードフォワードネットワークにおける深さと幅の関係と表現能力の違い

答え: p200-p201

23. クロスエントロピー損失はシグモイドおよびソフトマックス出力を持つモデルのパフォーマンスを向上させるのに、平均二乗誤差損失を使用すると多くの問題が発生するのはなぜですか。シグモイドの代わりに区分線形隠れ層を使用することの長所と短所

答え: p226; p226

24. 表現学習の開発の本来の意図は何ですか？そしてその典型的な例であるオートエンコーダを紹介してください。

答え: p3-p4;p4

25. 正規化のプロセスで、重みにのみペナルティを適用し、バイアスにはペナルティを適用しないのはなぜですか?

答え: p230

26. ディープラーニングニューラルネットワークにおいて、すべての層で同じ重み減衰を使用することの長所と短所を検討する

答え: p230

27. 正規化プロセス中に、ヘッセ行列の重み減衰と固有値の関係、および勾配拡散と勾配爆発との関係がいくつかある。

答え: p231-234

28. L1/L2正則化とガウス事前分布/対数事前分布によるMAPベイズ推論の関係

答え: p234-p237

29. 不足制約とは何ですか? ほとんどの正規化により、不足制約下の不足決定問題が反復プロセスで収束できるのはなぜですか?

答え: p239

30. モデルのトレーニング中に入力（隠れユニット/重み）に分散の小さいノイズを追加することを検討する理由と、それが正規化とどのように関係するか

答え: p240-p243

31. 共有パラメータの概念と深層学習におけるその広範な影響

答え: p245; p253

32. ドロップアウトとバギング統合法の関係、ドロップアウトの重要性とそれがなぜ強力なのか

答え: p258-p268

33. バッチ勾配降下法におけるバッチサイズと各種更新の安定性の関係

答え: p279

34. 深層学習における病的状態、鞍点、勾配爆発、勾配拡散を回避する方法

答え: p282-p293

35. SGDと学習率選択法、運動量付きSGDが悪条件ヘッセ行列に与える影響と確率的勾配の分散

答え: p294; p296-p300

36. 重みの初期化における様々なネットワーク構造における重みサイズの影響、およびいくつかの初期化方法、バイアスの初期化

答え: 重みを初期化: p301-p305; バイアスを初期化: p305-p306

37. 適応学習率アルゴリズム: AdaGrad、RMSProp、Adam およびその他のアルゴリズム

答え: AdaGrad:p307; RMSProp:p307-p308; Adam:p308-p309

38. 2次近似法：ニュートン法、共役勾配法、BFGSなど

答え: ニュートン法: p310-p313; 共役勾配法: p313-p316; BFGS: p316-p317

39.高次最適化アルゴリズムにおけるヘッセ行列標準化の重要性

答え: p318-p321

40. 畳み込みネットワークにおける並進等価性の理由、畳み込みの一般的な形式

答え: 並進等価性: p338-p339; 畳み込みの一般的な形式: p347-p358

41.プーリングの重要性

答え: p342-p347

42. リカレントニューラルネットワークの一般的な依存関係ループ関係、一般的な入力と出力、および対応するアプリケーションシナリオ

答え: p378-p395

43. seq2seq、gru、lstm などの原理

答え: seq2seq:p396-p397; gru:p411-p412; lstm:p408-p411

44. ディープラーニングにおけるサンプリングの重要性

答え: p469-p471

45. オートエンコーダと線形因子モデル、PCA、ICA などの関係。

答え: オートエンコーダーと線形因子モデル: p489-p490; PCA: p490-p491; ICA: p491-p493

46. ディープラーニングにおけるオートエンコーダの重要性、および一般的な変換とアプリケーション

回答: 重要性: p502-p503; 一般的なバリエーション: p503-p508; p509-p512; p521-p524 応用: p515-p520; p524-p525

47. 制限ボルツマンマシンが広く応用されている理由

答え: p460: さらに詳しく知りたい人は、この文に注目してください: これらのモデルが成功した理由の分析については、Mohamed et al. (2012b) を参照してください。

48. 安定分布とマルコフ連鎖

答え: p595-p598

49. ギブスサンプリングの原理

答え: p599

50.パーティション関数は計算が難しい場合がよくあります。

答え: p605、p606***

51. 複数のパラメータ推定値の関連性と相違点: MLE/MAP/ベイズ

答え: P134-P139

52. 半教師あり学習の考え方と深層学習への応用

答え: p541-p546

53. 異なるデータソースにおけるCNNのチャネルの意味の例を挙げてください。

答え: p360-p362

54. NLP、音声、画像などの分野におけるディープラーニングの応用とよく使われるモデル

答え: p452-p485

55. word2vecとgloveの比較

回答: GloVe と word2vec の違いは何ですか? ; GloVe と Word2vec はディープラーニングと呼べるでしょうか? これら 2 つのモデルのレベルは、実は非常に浅いです。http://clic.cimec.unitn.it/marco/publications/acl2014/baroni-etal-countpredict-acl2014.pdf この質問の回答が見つからなかったので、Quora と Zhihu で関連する質問を探したほか、Quora の回答で言及されている論文も探しました。（もし本の中でそれを見つけた人がいたら、批判して訂正してください）

56.ディープラーニングのいくつかのシナリオで注意メカニズムが広く使用されているのはなぜですか?

答え: p475-p476

57. ワイド&ディープモデルにおけるワイド&ディープの紹介

回答: https://arxiv.org/pdf/1606.07792.pdf この質問の答えは本の中になかったので、元の論文を探しました。論文の図1に詳細な紹介があります。（もし本の中でそれを見つけたら、批判して訂正してください）

58. カーネル回帰とRBFネットワークの関係

答え: p142

59.LSTM 構造導出はなぜ RNN よりも優れているのでしょうか?

答え: p408-p411

60. ディープラーニングにおけるオーバーフィッティングの一般的な解決策または構造設計

回答: p230-p268; 含まれるもの: パラメータノルムペナルティ (パラメータノルムペナルティ); データセット拡張 (データセット拡張); 早期停止 (早期終了); パラメータタイイングとパラメータ共有 (パラメータバインディングとパラメータ共有); バギングとその他のアンサンブルメソッド (バギングとその他の統合メソッド); ドロップアウト。バッチ正規化もあります。

61. ベイズモデルの有効なパラメータデータはデータセットのサイズに応じて自動的に調整されることをどのように理解すればよいでしょうか?

回答: ノンパラメトリックモデルについて: p115-p116。ノンパラメトリックモデルは特定の確率モデルに依存せず、パラメーターは無限次元であり、データセットのサイズによって、モデルをモデル化するために使用するパラメーターの数が増えたり減ったりするかどうかが決まります。（本の中に正確な答えは見つかりませんでした。より良い答えをお持ちの場合は、私に連絡して修正してください。）

<<: 教師なしニューラル機械翻訳: 単一言語コーパスのみを使用する

>>: Google Brain エンジニアの講演: TensorFlow とディープラーニング

ディープラーニングの面接で知っておくべきこと

AI はどのようにして既存の人間の偏見を強化するのでしょうか?

マイクロソフトのハリー・シャムがGitHub、データの信念、そしてコンピューティングの未来について語る

アリババDAMOアカデミーが2022年のトップ10テクノロジートレンドを発表：人工知能が風力・太陽光発電の送電網接続の問題を解決する可能性

このAIは、監視対象を素早く検索するのに役立ちます：テキスト配置キーフレーム、24時間のビデオ録画10分処理

JSPフォーラムツリー構造を実装するための特定のアルゴリズム

ラブライブ！AI論文発表：生成モデルが楽譜を自動生成

人工知能技術が身元調査業界に革命を起こしている

「ブラックボックス」アルゴリズムの下ではAIへの信頼は疑わしいが、説明可能なAIは開発の「最初の年」を迎える

推薦する

まず知性を高め、次に利益を増やす、ヒューイスがトップ商人の「育成」の秘密を明らかにした

ロボットインテリジェント把持システム：いくつかの主流ソリューション

人工知能を活用してより質の高い雇用を実現

速達荷物を受け取るには顔認証しか方法がないのでしょうか?上海郵政：申通、菜鳥郵政などと面談し、集荷の同意を得る必要がある

クォンタムAIパーク、リアルタイム翻訳、Googleが革新的なAI製品を展示

AIベースのクラウド管理ツールではコンテキストが重要

エージェントは人間のように協力し、「グループチャット」を通じて情報を交換することができます。

2023 年のコンピューターサイエンスにおける 7 つの大きなブレークスルー! 「PとNP」は過去50年間の古典的な問題です。大規模なモデルがリストに大量に登場しています。

Dharma AI Labが3つのスマートデバイスをリリース、Tmall Genieがオンラインに

人工知能はサイバー犯罪をより容易かつ頻繁にしている、と研究が指摘