ディープラーニング思考

[[195107]]

機械学習ルーチン

ほとんどの機械学習アルゴリズム（ディープラーニングを含む）は、実際には理想的な空間（以下では 3 次元空間を例として使用します）内で最大値/最小値を検索します。 3 次元空間は無限です。ある実際のシナリオでは、特定の問題を解決するための完全なデータセット (または無限のデータ) があるとします。このデータに基づいて得られる最適化関数のすべてのソリューションは、山を構成します。山の最低地点がどこにあるかはわかりません。そのため、それを見つけるには、ランダムな地点に立って、より急な方向に下っていき、それが最低地点につながることを期待します。現実には、山は霧に覆われているため見えません。既存のトレーニングデータに基づいて霧を少し押しのけて狭い範囲を表示し、急勾配に沿って少し下っていき、新しいデータでこの操作を繰り返すことしかできません。ほとんどの機械学習アルゴリズムは、私が説明した手順に変換して続行する必要があります。

上記の説明により、多くの専門用語を簡単に説明できます。たとえば、反復、いわゆる反復は、継続的な動きのプロセスです。たとえば、収束です。アルゴリズムは一般に、最終的に収束するのはなぜでしょうか。それは、最終的に山の比較的低い地点に到達し、そこからさまようことで、アルゴリズムが収束したとみなされるからです。

同様に、局所最適解問題（小さな落とし穴にぶつかったが、ステップサイズが比較的小さいため抜け出せず、収束してしまった）、探索空間が大きすぎる（山の面積が大きすぎる）、収束しない（地形がより複雑なため）など、多くの問題に遭遇します。

ディープラーニングの能力は、数百万または数千万のパラメータを持つことができるため十分に大きく、理論的にはあらゆる形式のデータに適合させることができます。私の実際の経験では、単にデータを記憶するのではなく、トレーニングデータを非常にうまく適合させています。

エンドツーエンド

NLP が登場する前は、テキスト分類作業にはさまざまな特徴エンジニアリング、役に立つ特徴と役に立たない特徴のさまざまな魔法の組み合わせ、そしてアルゴリズムに入力する何億もの次元が必要でした。ディープラーニングでは、テキストを入力するだけで済みます。それでも、私たちは特徴エンジニアリングをネットワークに組み込んだだけです。たとえば、畳み込みは単語間の関係性を捉え、特定の単語の重みを強化したり無視したりすることができます。これは、さまざまな単語を手動で組み合わせて新しい特徴を作るのと同じです。

もう 1 つの例は、Attention メカニズムです。これは、人々が継続的に観察して学習し、ネットワークにとって重要と思われる機能を追加するメカニズムです。

注意とは、各入力単語が各出力単語に異なる影響を与えることを強調する改良モデルに他なりません。

ディープラーニングにより、機能の作業がより日常的になり、より一般的に適用可能になります。しかし、それだけではありません。その最大の重要性は次のとおりです。

ディープラーニングは、特徴を手動で準備してアルゴリズムに入力する方式から、アルゴリズムに特徴の抽出方法を指示し、アルゴリズム自体が実際の特徴抽出プロセスを完了する方式への変革を完了しました。

CNN や RNN などのディープネットワークのバリエーションを振り返ってみましょう。この構造を使用すると、変換や回転、シーケンスの確率などの特別な情報を取得できます。これらは本質的に、人間がまとめたいくつかの非常に優れた種類の特徴です。ディープラーニングは、特定のネットワーク構造を使用して、トレーニング中にこれらの特徴を自動的に抽出します。

説明可能性

ピーター・ノーヴィグが述べたように、認知心理学によれば、人間が決断を下す理由は、自分自身や他人を納得させるために事後に作り上げられることが多いが、決断を下した時点では実際にはそのように考えていなかった可能性がある。これは、成功を再現できない理由も説明しています (私が何かをする理由を説明するとき、それが実際には真実ではない可能性があり、私たちはそれを真実だと思っているだけだからです)。 [機械学習ルーチン]のセクションでは大きな数学的枠組みを示しましたが、実際には明確に説明されていないことがたくさんあります。機械学習がこれを実行する原理や理由は、出力結果に基づいて推測することしかできません。たとえば、畳み込みをさまざまなシナリオに適用すると、無数の新たな発見や説明が得られます。データはルールであり、機械学習データは実際にはルールを学習しています。人間はこれらのルールを明確に理解したり説明したりすることができない場合があります。

良い例としては、非常にうまく機能する単語埋め込みがあります。実験から、すべての数字には意味的な特徴があるはずだということがわかっています。この特性が強い場合、多くの論文で示されているようにフィルター幅が埋め込みの長さに等しいのではなく、CNN が単語埋め込みの次元の長さよりも短い幅を使用できることを意味します。

統計との関係

統計は私たちが何を望んでいるかを知るのに役立ち、それから分析を行います。しかし、ディープラーニングは確かに私たちが知らないことを学習することができます。それが両者の違いです。

人々の思考をシミュレートする

機械学習の理論を通じて、人間に関する多くの事柄も逆に説明できることが分かりました。

人間の脳を訓練すること（例えば、新しいスキルを習得すること）も非常に苦痛なことであり、絶え間ないチューニング（学習方法、学習源を調整すること、より良い教科書に変更することなど）が必要です。

同じ脳でも、うまく学習できる人もいれば、そうでない人もいます。「多くの人がすでに関連知識を持っており、今回の学習は単なる微調整に過ぎない」からです。

なぜ一部の人の IQ が高く、一部の人の IQ が低いのかは、一部の人が初期化パラメータをうまく選択しているだけです。すべては運次第です。

アンダーフィッティングはよくある現象なので、ほとんどの人はスキルを十分に習得していません。すでに学んだようですが、それは紙の上だけのこと。基本的には過剰学習であり、より多くの経験とデータが必要です。

多くの人はより合理的ですが、他の人はより感情的です。これが実際に正規化の役割です。

人間の脳は非常に一般的なモデルであり、機械は現時点では人間よりも集中力があり、一心不乱です (ただし、アルゴリズムが複数のタスクを同時に完了できることを証明した人もいます)。機械は数時間または数日で新しいスキルを習得できますが、人間の場合は数年かかる場合があります。実際、人間は働けるようになるまでに何年もの訓練（0歳から3歳くらいまで？）が必要で、その後はすべて微調整です。

正直に言うと、学習に時間がかかるのは、データの到着が遅すぎて、処理が遅すぎるからです。人々はまた、問題をミニバッチで入力し、予測を実行し、今回の結果に基づいて次の行動を調整し、次回はより良い結果が出ることを期待します（損失関数）

機械学習が真に「インテリジェントかつ進化的」になるのはいつでしょうか?

機械学習のプロセスは長時間続くプロセスではありません。トレーニングが完了すると、モデルは固定され、予測モデルに使用されます。その後、さらにデータが収集されます。通常は、最初からトレーニングを再開します。人間の脳は明らかにこのようではありません。トレーニングはオンラインで行う必要がありますが、予測はスナップショットを使用してオフラインで行うことができます。これが現在の機械学習アルゴリズムと人間との最大の違いです。

2 つ目は、ネットワークの複雑さです。人間は、多くの異なるタイプのタスクを処理できる一般的なモデルですが、機械は通常、1 種類の問題しか処理できません。その理由は、ネットワーク構造が十分に複雑ではなく、大規模なネットワーク内でさまざまなネットワークサブ領域が進化しているためです。

3 つ目は、現時点では適切な否定モデルが存在しないことです。モデルが安定すると、トレーニングのために新しいデータが入ってきたときに、モデルは自分自身に固執する方法を知っているはずです。何かに対する私の予測の確率が 99% で、外部データによってモデルが間違っていることが伝えられた場合、モデルは 1 つのサンプルのみを反映させるのではなく、単にデータを無視するか、質問を残して一時的に質問を保存して、より多くの反例を取得することを期待する必要があります。

もしいつか本当に上記の3点を達成できれば、進化の可能性が本当にあると思います。

<<: WeiboにおけるSparkベースの大規模機械学習の応用

>>: 機械学習を始めるときによくある5つの間違い