卒業後すぐに年収56万は貰えるんですか？右！ Twitterの機械学習の専門家が書いた上級マニュアルをご覧ください

[[210651]]

年収10万？プログラマーにとっては、これで十分です。

国家統計局が今年上半期に発表した情報によると、2016年の情報伝送、ソフトウェア、情報技術サービス業の平均給与は12万2478元で、金融業界を抜いて初めて首位となり、都市部の従業員の全国平均水準5万7394元の2倍以上となった。

その後、AIの波が到来し、貧困からの脱却をすでに主導していたプログラマーのグループには昇進と昇給の好機が訪れ、彼らはAIエンジニアに転身したのです。

AI Technology Baseの調査によると、現在インターネット企業の採用リストの41%はAIやアルゴリズム関連であり、人材不足のため、企業が提供する給与も非常に高いことがわかった。 2018年に大学が提示した給与の中で、Googleの給与は56万ドルと最も高かった。また、ソーシャルリクルートメントの平均月給を集計したところ、AI関連は基本的にすべて4万を超えていることがわかりました。

裕福な生活から中流階級への道は、ほんの一歩先にあります。

この目的のために、大隊司令官は変革プロセス中の AI エンジニアのために特別にごちそうを用意しました。それは、先週 Reddit 機械学習フォーラムの週間リストで 1 位にランクされた「Advanced Machine Learning Manual」です。

この投稿は、Twitter Cortex 機械学習チームで視覚データの教師なし学習を専門とする Twitter 機械学習の専門家、Ferenc Huszár が変換アルゴリズムについて学んだ教訓を集めたものです。記事の内容は機械学習初心者向けの入門書ではなく、VAE、GAN、強化学習などのトピックに関する一連の研究手法です。

以下は彼が書いた具体的な内容です。これを理解すれば、大隊長よりも月給5万元の西二旗のプログラマーの高級生活に確実に近づくでしょう。（大隊長は高校の先生に、最も簡単な確率と統計をもう一度教えてくれるよう静かに頼んでいます。）

今週は非常に忙しく、何も新しい本を読んでいなかったので、機械学習のさまざまな変換アルゴリズムについて自分で書いた機械学習のヒントをいくつか共有することしかできませんでした。これらの変換を行うことで、現在の機械学習の問題を、私たちが知っていて解決できる問題、つまり扱いやすいベクトル場量内で安定した「アトラクター」を見つける問題に変換できます。

典型的な状況は次のようになります。いくつかのモデルパラメーター (θ など) があります。何らかの客観的な基準を最適化したい場合は、次の方法を使用できますが、最適化の問題は非常に複雑です。したがって、問題を変換する必要があります。変換後の問題を効果的に最適化できれば、その問題を解決できます。最適化できない場合は、問題が効果的に最適化されるまで、この基盤に基づいて変換を続けることができます。

更新: これを書いたときにリファレンスマニュアルと呼んでいましたが、鋭い観察力を持つ Reddit の読者がコメントしたように、リファレンスマニュアルとして考えるには十分に包括的ではありません。これは、抽象的な機械学習の問題を、扱いやすいベクトル場における安定したアトラクターを見つける最適化問題にコンパイルするコンパイラのような、ある種の機械学習研究のデモンストレーションと見ることができます。

最初のデモンストレーションとして、次の問題の変換を紹介します。

変分不等式
カウンターゲーム
進化戦略
凸緩和

その他の変換には、双対性原理、半二次分割、ラグランジュ乗数などがあります。話し合いたいトピックがあれば、コメント欄にお気軽に書き込んでください。次回追加させていただきます。

不平等を変える

よくある質問:

私の損失関数 f(θ) は、主に扱いにくい周辺化問題を含んでいるため、計算が困難です。評価することはできません。最小化することしかできません。

解決：

典型的な微分可能な上限のセットを構築してみましょう。

最適化問題を解決するには:

厳密に言えば、最適化が完了したら補助パラメータ ψ∗ を破棄できますが、VAE 認識モデルでの近似推論に使用されるなど、パラメータ自体は依然として意味があることが判明することがよくあります。

変換のヒント:

ジェンセンの不等式: 凸関数の平均は、平均を適合するために使用される凸関数の値よりも低くなることはありません。

これは通常、次のように導出される標準 ELBO (証拠下限値) の変形として表示されます。

再パラメータ化のヒント: 変分推論では、次の形式の勾配によく遭遇します。

このうち、変数の確率分布関数は積の形で表されます。関数を見つけることができれば

、

そしてこの関数はどこでも微分可能です。 2番目のパラメータ、すなわちパラメータpεのεに関する確率分布は、次のようにサンプリングによって簡単に得られます。

次に、変分上限でよく使用される次の積分再構成を使用できます。

REINFORCE 推定値と比較すると、モンテカルロ推定値を使用して期待値を計算すると、多くの場合、分散が小さくなります。

カウンターゲーム

よくある質問:

通常、損失関数はモデルまたはデータ分布の確率分布関数、あるいはその両方に依存するため、サンプルから直接損失関数 f(θ) を推定することはできません。

解決：

ある程度の近似値を構築できる。

次に、損失関数 g を ψ に関して、損失関数 h を θ に関してそれぞれ最小化することで、2 人ゲーム問題における安定均衡を解くことができます。

h = -g の場合、近似式は変分下限の形で表されます。

この時点で、代わりに次の最大値と最小値の問題を使用できます。

変換のヒント:

補助タスクにおけるベイズ最適化: 損失関数が、簡単にサンプリングできる例の確率分布の密度に依存する場合、ベイズ最適化ソリューションが密度の値に依存する補助タスクを構築できます。このような補助タスクの例としては、最大尤度推定によるバイナリ分類、推定スコア関数によるノイズ除去、スコアマッチングなどがあります。

凸共役: 損失関数に密度の凸関数が含まれる場合 (f ダイバージェンスなど)、凸共役の観点から問題を再構成することで問題を変換できます。 f の凸共役 f* は次のように表すことができます。

ここで、uが密度関数である場合、内積⟨u,v_ψ⟩はv_ψの期待値であり、モンテカルロ近似を使用してサンプリングできます。

進化戦略

よくある質問:

私の損失関数 f(θ) は評価は簡単ですが、最適化は困難です。これは、おそらく離散演算が含まれているため、または逆伝播できない区分定数関数であるためです。

解決：

任意の確率分布 pψ に対して、θ 上の関数値は次式を満たす:

したがって、進化戦略を使用すると、最適化のために次の問題に焦点を当てることができます。

一般に、関数 f の種類と確率分布 pψ に応じて、ψ の局所的最小値から f の局所的最小値を回復できます。

変換のヒント:

強化された勾配推定: 次の技術に依存します。

このうち、RHS はモンテカルロ法で簡単に近似できます。モンテカルロ強化推定値の分散は比較的高くなる傾向があります。

凸緩和

よくある質問:

私の損失関数 f(θ) は微分可能ではなく、非凸部分があるため、最適化が困難です。たとえば、スパース法のベクトルの ℓ0 ノルムや、分類問題の単位ステップ関数などです。

解決：

非凸部分を凸近似に置き換え、ターゲットを典型的な凸関数gに変換する。

変換のヒント:

ℓ1 損失関数: 一部のスパース学習シナリオでは、ベクトル内のゼロ以外の項目を最小限に抑えることが期待されます。これは ℓ0 損失関数です。通常、ベクトルの ℓ1 ノルムを使用して損失関数を置き換えることができます。

ヒンジ損失関数と大マージン法: 0-1 損失の場合、バイナリ分類器のエラー率ターゲットは通常、そのパラメータの区分定数関数であるため、最適化が困難です。 0-1 損失関数をヒンジ損失関数に置き換えることができます。これは凸上限として理解できます。結果として、最適化問題は分類器のマージンを最大化することとなります。

しかし、本当に年収50万を達成したいのであれば、大隊長の記事を読むだけでは到底足りません。粘り強い学習こそが本当の武器です。読者の皆様がお互いに励まし合えることを願います。

>>: AI 実践者が習得する必要がある 10 種類のディープラーニング手法: バックプロパゲーション、転移学習、勾配降下法...