データ前処理 (この部分は原著者が書いたものではなく、個人的な理解と関連内容に基づいて補足したものです) 概要: ニューラル ネットワークへの入力データの品質は、ネットワークのトレーニング結果に直接関係します。通常、データは前処理する必要があります。一般的なデータ前処理方法は次のとおりです。
理由: データを前処理すると、モデルへの影響が同じ規模になったり、他の目的が達成されたりします。 参照: CS231n 視覚認識のための畳み込みニューラル ネットワーク。 初期化 内容: 重みが適切に初期化されると、パフォーマンスが向上し、トレーニングが高速化されます。バイアスは通常 0 に設定されます。重みについては、特定の範囲内で統一することをお勧めします。
理由: デフォルトの初期化では、入力数が増加すると各ニューロンに分散が生じます。平方根を取って各重みをスケーリングすると、ニューロンの出力分布が同様になります。 参照:
概要: 長短期記憶ネットワーク (LSTM) の場合、忘却バイアスは通常 1 に設定され、トレーニング プロセスを高速化できます。 理由: 直感的には、トレーニングの開始時にセル間で情報を伝播させたいので、セルがその状態を忘れないようにしたいのです。 参照: 再帰型ネットワーク アーキテクチャの実証的調査、Rafal Jozefowicz 他 概要: t-Distributed Neighbor Embedding (t-SNE) アルゴリズムの場合、原作者は 5,000 から 10,000 のデータセットに対して、パープレキシティを 5 から 50 に設定することを推奨しています [1]。データセットが大きいほど、パープレキシティはそれに応じて増加します。 理由: パープレキシティは各ポイントのガウス分布の分散を決定します。パープレキシティが小さいほどクラスターの数が多くなり、パープレキシティが大きいほどクラスターの数が多くなります。パープレキシティが大きすぎると意味がありません。また、描画されたクラスターは元のスケールを維持できず、クラスター間の距離が必ずしも元の空間ジオメトリを表すとは限らないことも考慮する必要があります。異なるパープレキシティはデータ構造に関する補完的な情報を提供することができ、実行するたびに異なる結果が得られます [2]。 参照:
電車 概要: 真の値の強化ターゲットを使用するだけでなく、軟化ターゲット (ソフトマックス出力) を使用してネットワークをトレーニングすることもできます。 参照: ニューラル ネットワーク内の知識の抽出 / ダーク ナレッジ、G. Hinton 他 概要: 学習率は、おそらく調整すべき最も重要なパラメータです。1 つの戦略としては、ランダム化された学習率を持ついくつかのパラメータを選択し、数回の反復後にテスト エラーを観察することです。 参照: ハイパーパラメータの調整に関するアドバイス。参照: Goodfellow et al 2016 Book 正規化 概要: ドロップアウトは RNN で使用されます。ドロップアウトは非再帰接続にのみ適用されます [1] が、最近のいくつかの論文では、ドロップアウトを再帰接続に適用できるようにするためのいくつかのトリックが提案されています [2]。 参照:
内容: バッチ正規化 (BN)。新しいレイヤーを追加します。著者は、BN レイヤーの作業を高速化するための追加のトリックをいくつか提供しています。
理由: ここに良い説明がいくつかあります。 参照:内部共変量シフトの削減によるディープネットワークトレーニングの高速化、S. Ioffe および C. Szegedy。 ネットワーク構造 内容: スキップ接続を使用して、中間層を入力/出力層に直接接続します。 理由: 著者の主張は、ニューラル ネットワークの下部と上部の間の処理ステップの数を減らすことで、ディープ ネットワークのトレーニングが容易になり、勾配消失問題が軽減されるということです。 いつ: 一部の CNN 構造または RNN の重要なレイヤー。 参照: リカレントニューラルネットワークによるシーケンスの生成、Alex Grave 他 内容: LSTM にピープホール接続を追加します (前の出力をゲートの入力に接続します)。これは、著者によると、長期的な依存関係に役立ちます。 参照: LSTM リカレント ネットワークによる正確なタイミングの学習、Felix A. Gers 他 概要: ほとんどのディープラーニング フレームワークでは、SoftMax と Log を組み合わせたり、損失関数で SoftMax を計算したりする関数 (Tensorflow では softmax_cross_entropy_with_logits、Torch では nn.LogSoftMax) が提供されており、これをより適切に使用する必要があります。 理由: Log(SoftMax) が数値的に不安定になる可能性がわずかにあり、オーバーフローなどの望ましくない結果につながる可能性があります。もう一つの一般的な方法は、不安定さを避けるためにログに小数点を追加することです。 自然言語処理 (NLP) 内容: RNN および seq2seq モデルに関するヒント:
参照: ニューラル機械翻訳アーキテクチャの大規模な調査、Denny Britz、Anna Goldie 他 内容: seq2seq では、入力シーケンスの順序を反転して、ターゲット シーケンスをそのまま維持します。 理由: 著者によると、この単純なデータ変換により、LSTM のパフォーマンスが大幅に向上します。 参照: Sequence to Sequence Learning with Neural Networks、Ilya Sutskever 他 内容: seq2seq では、エンコーダー ネットワークとデコーダー ネットワークに異なる重みを使用します。 参照: Sequence to Sequence Learning with Neural Networks、Ilya Sutskever 他 内容:トレーニング時にはデコーダー入力を強制的に修正し、テスト時には前のステップを使用することで、トレーニングを最初から非常に効率的に行うことができます。Samyらはモデル変換に基づく改良法を提案しました[1]。 参照:1.リカレントニューラルネットワークによるシーケンス予測のためのスケジュールされたサンプリング、Samy Bengio 他 内容: 教師なしの方法でネットワークをトレーニングして、テキストの次の文字を予測します (char-RNN)。これにより、教師ありタスク (感情分析など) に使用できる表現が学習されます。 参照: レビューの生成と感情の発見の学習、Ilya Sutskever 他 強化学習 内容: 非同期: 異なる探索ポリシーを使用して複数のエージェントを同時にトレーニングし、堅牢性を向上させます。 参照: 深層強化学習のための非同期メソッド、V. Mnih。 内容: フレームをスキップ: フレームごとにではなく 4 フレームごとにアクションを計算し、他のフレームに対してアクションを繰り返します。 理由: Atari ゲームでうまく機能し、このトリックを使用するとトレーニング プロセスが約 4 倍高速化されます。 参照: 深層強化学習で Atari をプレイ、V. Mnih。 概要: 履歴: 現在のフレームをそのまま入力するのではなく、最新のフレームを入力に重ねて、4 間隔でフレームをスキップします。つまり、t、t-4、t-8、t-12 を含むフレームのスタックが作成されます。 理由: これにより、ネットワークは運動量情報を取得できるようになります。 参照: 二重 Q 学習による深層強化学習、V. Mnih。 内容: エクスペリエンスのリプレイ: フレーム間の相関関係を回避するために、エージェントとして、各フレームを更新する代わりに、遷移期間の履歴でいくつかのサンプルをサンプリングします。この考え方は、教師あり学習でトレーニングする前にデータセットをシャッフルするのと似ています。 参照:Prioritized Experience Replay、Tom Schaul 他 概要: Parallel Advantage Actor Critic (PAAC): エージェントの経験を活用し、単一の同期更新モデルを使用して A3C アルゴリズムを簡素化します。 参照: 深層強化学習のための効率的な並列手法、Alfredo V. Clemente 他 ネットワーク圧縮 概要: 推論では、レイヤーの数を減らすために、バッチ正規化 (BN) レイヤーが他の重みを吸収できます。これは、バッチ正規化がテスト時に単純な線形スケーリングを実行するためです。 |
<<: Kerasで最もよく使われるディープラーニングAPI
人類と新型コロナウイルスとの戦いは今も続いていますが、この間、さまざまな「人工知能+」アプリケーショ...
変化だけが唯一不変です。これはあなたのキャリアにも当てはまります。テクノロジーが急速に進化していると...
今日では、データの分析や解釈、問題解決の支援など、以前は人間が行っていたタスクを実行する高度なマシン...
私は人工知能と法曹界の将来について数多くの講演を行ってきました。過去2年間、AlphaGo Zero...
[51CTO.com クイック翻訳] 世界経済フォーラムは毎年、世界中のテクノロジーの先駆者について...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
ロボットが人間の仕事を奪うかどうかという進行中の議論は、世界中のメディアの注目を集めている。勤勉な従...
[[393110]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
[[418851]] [51CTO.com クイック翻訳]非常に複雑な技術的アプリケーションで A...
12月29日のニュース、プロンプトエンジニア、つまり、人工知能モデルを誘導して最良の出力を生成するチ...