エンジニアとして、アルゴリズムに取り組んでいる人の方があなたよりも稼いでいるのはなぜですか?

[[253702]]

AI最前線ガイド：アルゴリズムエンジニアの何が特別なのか？このポジションは本当に普通のエンジニアよりも上位なのでしょうか？エンジニアとして、アルゴリズムエンジニアの収入が数倍になるのはなぜでしょうか?普通のエンジニアからアルゴリズムエンジニアに転向するのはどれくらい難しいですか?アルゴリズムは本当にそんなに難しいのでしょうか？

プログラマーの皆さんがこれらの疑問について考えたことがあるか、またこれらの問題をどう捉えているかはわかりません。アルゴリズムエンジニアについて心の中でさまざまな疑問を抱いているなら、今日の記事を見逃さないでください。この記事の著者は、2つの視点からこれらの疑問に答えています。

彼の意見では、アルゴリズムエンジニアはまずエンジニアでなければなりませんが、アルゴリズムエンジニアは単なるエンジニア以上の存在です。

少しわかりにくいようですが、意味は通じているようですか?結論を急がず、コメントする前に内容を読んでください。

前の記事: アルゴリズムエンジニアはまずエンジニアである

導入

最近、キャンパスリクルートメントの面接にうんざりしています。アルゴリズム関連の職種は人気がありすぎて、本当に疲れています。面接は 2 つのパートに分かれています。まず、コーディングに関する質問を 1 つまたは 2 つ回答し、その後、機械学習に関する知識をテストします。多くのクラスメートは理解できず、機械学習に関する質問は基本的になかったと言って、オンラインで私たちを非難しました。この場合、通常はコードが不十分に記述されているため、面接官は機械学習の部分を理解することに興味がありません。

機械学習アルゴリズムの位置づけについて誤解を抱きやすく、日々の仕事は数式を押してパラメータを調整するだけだと考えがちです。これを踏まえて、この記事では、私たちのチームの最近の重要なプロジェクトである、検索と推奨におけるディープラーニングの応用を例に、私たちが普段どのように仕事をしているかを説明します。これを読めば、コーディングスキルが必要な理由が誰にでも簡単に理解できるはずです。

実際、私たちのコーディングの質問は非常に簡単で、練習しなくても答えられます。他の会社の質問を見ると、原子爆弾を作ったり、お茶の卵を売ったりするための面接を受けているような感じです。もちろん、彼らにはこのように非常に優秀な候補者を選ぶだけの資金があります。

話を元に戻すと、私たちは昨年末から、ソートやリコールを含む検索と推奨におけるディープラーニングの応用を検討し始めました。これまで私たちは、工学部の学生とのコラボレーションや、レコメンデーションエンジンや検索エンジンなどのシステムに対する理解を例に挙げて、新卒者にとっては少々漠然としたかもしれないコーディングスキルの重要性を訴えることが多かったです。このプロジェクトの経験はより良いかもしれません。

まず、指導理念を要約しましょう

過去 6 か月間、私たちは多くの罠に陥りました。特に、モデルを変更することで利益を得ようと、論文のさまざまな派手な構造に夢中になっていました。結局、彼らは全員、ひどい目に遭い、最初に戻って、より多くのサンプルデータを使用し、サンプルのクリーニングと構築のロジックを改善し、古典的なモデル構造を慎重に選択し、最適化アルゴリズムを尊重するなどして、良い成果を達成しました。以下に、実用的なヒントをいくつか示します。

従来のモデルと比較して、ディープラーニングでは学習に多くのデータが必要となり、サンプルデータの増加によりモデルの結果が大幅に改善されます。
初期段階では、論文に書かれたトリックはすべて忘れてください。
効果的な計画の場合、その効果は多かれ少なかれの問題であり、存在するか存在しないかの問題ではありません。
さまざまな論文のアイデアをランダムに試すよりも、パラメータを慎重に調整する方が効果的です。
ディープラーニングはまさに錬金術師と呼べる存在であり、他よりも速いことが錬金術師の核となる競争力です。
埋め込みは素晴らしいです。ぜひ注目してください。ディープモデルの ID の理解は衝撃的かもしれません。
モデルは最終的にオンラインになり、パフォーマンスの問題は避けられないため、モデルの計算効率に注意してください。

トレーニングのエンジニアリング能力の部分では、ピットに足を踏み入れ、ピットを埋めることがすべてです。

サンプルサイズの問題

最初は、既存のベースラインの特徴データをディープモデルに入力しました。dnn、dfm、lstmなどを試しましたが、lrよりも効果が悪いことがわかりました。当時は、素早く試すためにすべてのデータをメモリ上にロードしていたため、データサイズが制限されていました。また、一部のデータ前処理作業も Python で処理していたため、CPU と GPU の間で計算が頻繁に切り替わり、GPU 使用率が大きく変動していました。 tf が提供するパフォーマンスツールに基づいて分析を行った結果、機能の前処理部分に時間がかかりすぎることが判明しました。また、モデルパラメータは大きいものの、サンプル数が不足しており、早急にサンプルサイズを増やす必要があります。 Spark を使用してサンプルデータを TFRecord 形式に構築しました。構築プロセス全体は、元の Hive SQL ベースのプロセスよりも約 10 倍高速で、その後 HDFS からローカルコンピューターにプルされました。さらに、使用できるサンプルデータの量が大幅に増加し、モデルの効果が大幅に向上していることがわかりました。

埋め込みIDが大きすぎる問題

ディープラーニングは、画像や音声などのシナリオから始まりました。NLP の論文では、数十万語の単語を埋め込むことを大規模と呼ぶことがよくあります。ユーザーやアイテムの埋め込みに携わる業界関係者は笑うべきだ。ユーザー ID とアイテム ID が数百万または数千万のオーダーを超えることは非常に簡単で、ルックアップ oom の埋め込みにつながります。前回の記事を参照してください：https://zhuanlan.zhihu.com/p/39774203。

一部の企業では、ID をハッシュしてから埋め込みを行うことを選択しています。たとえば、TF の公式 Web サイトでは、これを推奨しています: https://www.tensorflow.org/guide/feature_columns#hashed_column。直接ハッシュの代わりに simhash を選択する人もいます。現在、数百万の生の ID を処理できます。将来的にその数を増やす必要がある場合は、特にスパースなサンプルを持つ ID のみをハッシュするか、ID のメタデータに基づいて再エンコードすることをお勧めします。

ワイドモデルによるスパースモデルトレーニングの問題

ワイド＆ディープなコード実装のほとんどは、密なテンソルを使用します。 tf は PS モデルのトレーニングに基づいています。特徴の規模が数十億になると、ネットワーク通信は大惨事になります。grpc のパフォーマンスの低さとネットワークカードの使用率の低さが相まって、トレーニング時間の大部分が通信に費やされます。

しかし、tf ソースコードを見ると、解決策は実際には非常に簡単であることがわかります。いくつかのスパースオペレーションを使用するだけです。たとえば、sparse_gather を使用すると、ネットワーク転送の問題を解決できます。しかし、これは完全な解決策ではありません。TF は計算中にスパーステンソルを密なテンソルに変換します。ソースコードを見続けると、embedding_lookup_sparse が tf 自体によって実装されていることがわかります。言い換えれば、スパースワイドモデルのトレーニングを自然にサポートできます。スパースワイドモデルは、埋め込みサイズが 1 の場合として理解できます。プーリング層が上位層に追加されて合計が行われ、これが必要なワイド出力結果になります。このソリューションは非常にエレガントです。

バッチサイズが大きくなると分散トレーニングの速度は上がらない

この問題は、パフォーマンス分析を見るだけでは簡単には見つかりません。 TF コードの実装を見てみましょう。実際、TF にはデフォルトの次元圧縮最適化機能があります。ストレージを節約するために、TF は同じ機能に対してバッチでハッシュ圧縮を実行します。これには個別の操作が含まれます。バッチサイズが大きい場合、パフォーマンスの低下は明らかです。パラメータを変更することで操作をキャンセルできますが、メモリが浪費されるという欠点があります。

中心となる問題は 2 つあります。TF はスパースモデルをサポートしておらず、分散作業におけるチェックポイントの問題もありますが、これらについてはここでは詳しく説明しません。

オンラインパフォーマンス

実際のオンラインシナリオとバッチサイズトレーニングの違い

実際にソートする場合、ユーザーが来たときに、ソートする必要のある候補セットが何千もある場合があります。トレーニング中は、バッチサイズに基づいて予測コードを整理します。ユーザー側の機能は何千回もコピーされ、モデルに入力されるマトリックスに変換されます。 tf が単独で実行すると、埋め込み検索が何千回も行われ、非常に時間がかかります。リクエストの始めにユーザー側のルックアップを削除し、メモリのコピーを実行すると、RT を大幅に削減できます。

もう一つの時間のかかる部分は注意力です。この問題には、テーブル検索を使用して近似するなど、多くの解決策があります。それらのいくつかは、モデル実装の詳細が不十分なために発生し、パフォーマンスの低下につながります。たとえば、DCN のクロス実装では、単純な交換法則によってパフォーマンスが大幅に向上します。参考: https://zhuanlan.zhihu.com/p/43364598

でたらめが始まる

上記の作業の多くは、アルゴリズムエンジニアとエンジニアリングの学生が協力してコードの詳細を掘り下げることで行われました。特に、問題となる可能性のあるポイントを特定する必要があったアルゴリズムエンジニアが中心でした。私たちの工学部の同級生はパフォーマンスプロファイリングに関しては私たちより優れていますが、モデルで起こり得るパフォーマンスの問題について私たちのほうが彼らよりよく知っています。もちろん、上記はすべてプロジェクトがうまくできていないためであり、プロジェクトがうまくできていれば心配する必要はないと反論する学生もたくさんいます。しかし、本当の突破口は既存のシステムを打破しなければなりません。必要なときに主導権を握ることができなければ、他の人はなぜあなたの言うことに耳を傾け、従うでしょうか?最も可能性が高いのは、将来的に何らかの限界的なビジネスを維持することです。

機械学習理論は重要ではないですか？

もちろん、この記事はすでに長すぎるので、2つの点についてのみお話しします。

信念の源: これは実はとても重要です。プロジェクトには 1 年か 2 年かかる場合があり、その途中では明確な成果はありません。上司は KPI を求め、周りの同僚はすぐに成果を出すことができます。ギャップを埋めるために粘り強く取り組むための支えは何でしょうか? 頼りにできるのは、理論的な知識に対する信念だけです。仮定は常に美しいが、実際のデータは残酷である。左の頬を叩かれた後、右の頬も叩かれ、大きな音がする。現実に一歩ずつ近づいて問題を解決する方法は、依然として理論の理解、特にビジネスと組み合わせた理論的理解に依存します。

エンジニアリングと理論の関係は、次のようなものです。理論はガイドとして機能し、エンジニアリングは前進の途中で棘を切り裂く鋭い武器です。理論がなければ方向性がなく、コーディングスキルがなければ傍観者でしかいられません。どちらも不可欠です。

最後にまとめると、アルゴリズムエンジニアは何よりもまずエンジニアです。

追伸：慌てないでください！手を汚して！コーディングはそれほど難しくありません。

アルゴリズムエンジニアは、まずエンジニアでなければなりません。この著者の記事を読んだ後、読者はこの文章をより深く理解できるでしょうか？著者は次の点について話すつもりなので、混乱しないでいただきたいと思います。

次の記事: アルゴリズムエンジニアは単なるエンジニアではない

前回の記事ではエンジニアリング能力の重要性に焦点を当てたため、理論的な部分についてはほとんど触れられませんでしたが、だからといってそれが重要ではないというわけではありません。

理論的リテラシーの向上について

理論は海のように深く、人類の最高の頭脳の戦場です。

アルゴリズムエンジニアの多くは、理論について話すとき、主にいくつかの論文や古典的な教科書を読んでいます。水中で論文を研究できるというのは、すでに非常に高度なことです。これを理論的な作業と呼ぶことはできません。それは、実際に理論的な作業に取り組んでいる学生たちに対してあまりにも失礼だからです。理論的リテラシーの向上と呼ぶ方が適切でしょう。

理論的なリテラシーはパフォーマンスの出力に直接的に等しいわけではない

理論的リテラシーは重要ではないと考える人はほとんどいませんが、理論的リテラシーの向上の入力と出力の間には直線的な関係はありません。このため、業界では理論的リテラシーの必要性の程度について頻繁に議論が交わされています。たとえば、Zhihu のこの質問: 機械学習アルゴリズムを自分で実装する必要がありますか? (アドレス: https://www.zhihu.com/question/36768514) フォロワーは 5,000 人以上、回答は 100 件を超えており、その人気を物語っています。

どちらの意見も実際には理にかなっています。しかし、ハンマーを手に持っていると、人々はすべてを釘として見てしまう傾向があります。

現実には、理論的な研究やエンジニアリングの実装に没頭するだけですべてがうまくいくということはあり得ません。両者の間を行ったり来たりしながら、境界がどこにあるかをテストするのが一般的です。

人生の通常の状態が混沌であるように、エントロピーが増加し続けるのと同じように、それは自然の法則です。秩序を維持するには追加のコストがかかります。 IBM メインフレームコンピュータの父、フレッドブルックスは次のように述べています。

特効薬はない

当社の CEO は、自分は現実的な理想主義者だとも言っています。秩序ある国家のような美しい理想には膨大なリソースが必要ですが、リソースは常に限られているため、束縛とうまく付き合うことを学ばなければなりません。

議論の背後にあるもの：ROI

私たちは皆、効率性に熱心すぎる。諺にもあるように、

支払った金額に見合ったものが得られ、10 個買うと 2 個手に入ります。

限界効用はどこにでもあります。投資額が一定のしきい値を超えると、ROI は急激に低下します。直線的に成長する ROI は、バブルのように美しいものです。

業界関係者にとって、ROI の考え方は生存本能となっていますが、理論に直面すると、ROI が成功か失敗かを左右することがあります。Li Mu 氏は次のように投稿しています。

博士号取得を目指す前に業界で働くことは、多くの回り道を避けるのに役立ちますし、学術界の多くのアイデアが冗談であることに気づくでしょう。しかし、同じ問題は、堅実な仕事に慣れてしまうと、心を開くことができず、新しいアイデアを試す勇気がなくなることがあるということです。博士課程で私が最も後悔していることは、いくつかの分野で漠然としたアイデアを持っていたにもかかわらず、産業界での経験と非常によく似たアイデアに集中しすぎたことです。その結果、後にこれらの分野で世界クラスの研究をしている人たちを目にすることになりました。

私たちは偉大な神々から遠く離れており、世界クラスの仕事にアクセスできる機会はほとんどありません。より適切な例は、企業の短期 KPI と長期 KPI の矛盾です。短期KPIはリターンが高いものの、下流のローエンド産業と同様に参入障壁が低いためレッドオーシャンになりやすい。発展するには、産業をアップグレードし、上流・ハイエンドに移行し、より大きな利益分配権を獲得する必要がある。

一歩引いて考えてみると、明らかな ROI がないものに時間とエネルギーを浪費することは、実際には大したことではありません。いずれにしても、他の場所で無駄になるからです。イタリアの物理学者カルロ・ロヴェッリは「7つの簡単な物理学レッスン」の中で次のように述べています。

十代の頃、アインシュタインは何もせずに1年間を過ごした。残念なことに、今日の十代の若者の親の多くは、時間を「無駄に」しなかった人は結局何も達成しないという真実を忘れがちです。

現実的に考えれば、理論的リテラシーを向上させることには多くの利点がある

指針としてよく挙げられる理論以外にも、メリットは数多くあります。

知識ポイントを体系化するのに役立ちます

仕事中、良い仕事をしたのに自分の考えをうまく説明できず、昇進の機会を逃した人を何人も見てきました。生徒の中には内向的で自分を表現するのが苦手な人もいます。表現力を高めるのは難しいかもしれませんが、書くことから始めれば、自分の長所を生かし、短所を避けることができます。書くための前提条件は、何かを念頭に置いていることです。優れた理論的リテラシーがあれば、仕事の経験や知識のポイントを高レベルの観点から体系化することができ、他の人の理解にもつながります。

たとえば、この記事「FM からのさまざまな深度 CTR 推定モデルの導出」:

https://yq.aliyun.com/articles/614262?spm=a2c4e.11163080.searchblog.119.48912ec1Avric7

この記事は、ワイド＆ディープの基本的なフレームワークの下で、上記の論文が埋め込みレイヤーを使用して入力ベクトルを高密度ネットワークに接続するためのさまざまな戦略を試みていることを明確に指摘しています。私はその中の論文をすべて読み、同じような論文を書けるかどうか自問しました。残念ながら、書けません。

心を解放し世界を理解することは、私たちの発展にとって最大の障害である

弊社は長い間グラフィックスに取り組んでおり、常に 1 台のマシンでモデルを実行してきました。実行が完了するまでに 1 週間から 2 週間かかることもあります。弊社と同様の状況の会社は数多くあります。問題があるとは思っていませんでしたし、分散 GPU コンピューティングプラットフォームを開発すべきかどうかについてもほとんど考えたことがありませんでした。これまで、企業が分散システムを採用したのは、主にデータ規模が大きいためでした。エンジニアリングチームもそれを実行するかどうかについて非常に躊躇しており、私たち自身もまだ確信が持てなかったため、1 年か 2 年遅れました。この記事を読むまでは:

出典: http://arxiv.org/pdf/1706.02677.pdf

これにより視野が広がり、すぐに始める決心がつきました。

他の山の石で翡翠を磨くことができる

スコット・バークンは「イノベーションの神話」の中で、新しいアイデアの背後には複数の既存のアイデアが存在する可能性があると提唱しています。

最近、ジャレド・ダイアモンドの本を読み返しました。『第三のチンパンジー』から『銃・病原菌・鉄』、『人類崩壊』まで、著者は進化生物学、生理学、生物地理学など、さまざまな分野の専門知識を持っています。多くの分野の長所を取り入れ、統合し、独自の視点を形成し、このような優れた作品を書いています。

ディープラーニングは画像やNLPの分野で大きな成果を上げており、多くの建設的な作品が生まれています。しかし、仕事にどれだけ応用できるのでしょうか？

最善を尽くした者が勝利する。このアイデアの饗宴を見逃してはならない。

好奇心を満たす

ディープラーニングの理論的発展は、その応用の発展に比べてはるかに遅れていますが、それぞれの美しい結果の背後にある理由について興味を持たずにはいられません。

たとえば、画像にあるマイルストーンモデル Resnet は、論文を注意深く読まなければ、勾配消失/爆発問題を解決すると常に信じられてきましたが、元の論文の著者は次のように述べています。

出典: http://arxiv.org/pdf/1512.03385.pdf

この問題はBNと適切な初期化によって解決されたことが明確に指摘されています。Resnetはネットワーク層の数が増えた後の劣化の問題を解決します。著者は具体的な問題については詳しく説明しませんでした。

この論文のフォローアップ:

出典: http://arxiv.org/pdf/1702.08591v2.pdf

この問題についてさらに詳しく説明し、残差構造を必要とせずに LL を使用して深層モデルをトレーニングできることが指摘されています。

次のレベルへ

現実の世界では、理論をあまり知らなくても多くの問題をうまく解決できます。

この背後にある力は抽象化によってもたらされます。抽象化がうまく行われれば、その原理を理解していなくてもその効果を十分に活用できます。私たちが毎日使っている携帯電話にも量子力学の原理が働いていますが、量子力学を理解している人はほとんどいません。

ツールがどんどん良くなるにつれて、より多くの詳細がブロックされ、これがますます一般的になりますが、より多くのアプリケーションの可能性ももたらされます。今日のほとんどのプログラマーがコンパイラやアセンブラを理解していないのと同じように、IT 業界はかつてないほど活況を呈しています。

ここ数年、会社で成果を上げてきましたが、その水の良さは飲んだ人にしかわかりません。たとえば、58.com の熟練した電気技師は、必ずしも回路の原理を理解しているわけではありませんし、たとえ理解していたとしても、時給が上がることはありません。これは私たちと非常によく似ています。平時でも危険に備え、自分が属する業界のつながりを認識し、上流の開発に全力を尽くすには、理論的なリテラシーが鍵の 1 つです。

理論的なリテラシーを向上させ、理解度が低い場合は、実践的な作業をもっと行う

ディープラーニングに関する論文のほとんどは応用指向であり、高度な理論的背景や数学的知識を必要としません。しかし、それでもそれらを理解することは必ずしも簡単ではなく、純粋な理論的な作業がいかに難しいかを示しています。

最近、BERT は私の友人の間で話題になっていますが、トランスフォーマーに対する私の理解がまだ十分ではないことに気づきました。戻ってこの記事をもう一度読んでみてください:

出典：http://arxiv.org/pdf/1706.03762.pdf

私はこれを pytorch で実装し、これまで気づかなかったいくつかの問題を発見しました。

論文では並列化できると書かれていますが、デコーダー部分はどのように並列化できるのでしょうか？次のステップの出力は常に前のステップに依存しているはずですよね？しかし、著者は真実を直接述べています。自己注意の理解は間違っています。KQV によりコードが簡潔になります。やはり私の才能は平凡です。もっと理解するには、もう一度挑戦する必要があります。理解力が乏しいのは残念です。この過程で、Tensor の形状変換の処理に多くの時間が費やされ、無駄になっていました。

再び、特効薬はない

すべてのアルゴリズムを自分で実装しても、より良い結果を得ることはできませんし、単に数式を無視するだけで問題を解決できる万能薬もありません。

私たちのほとんどは時間に余裕があるわけではありませんが、時間を無駄にしていると感じ、投資を拒否しています。しかし、無駄は当たり前で、炭素系生物のエネルギー利用率は20％以下だと言われています。たとえば、会社内で失敗したプロジェクトの数は成功したプロジェクトの数をはるかに上回っています。最も難しいのは、問題を正確に定義する方法がわからないことです。 100点の努力のうち、1点か20点が最終的に成果をもたらすことができれば、それは素晴らしいことです。特効薬はありませんので、まずは量を積み重ねるしかありません。量の変化が質の変化につながります。

原理は分かりやすいが、行動は分かりにくい

PRML はまだ第 5 章です。ESL は購入後、本棚で埃をかぶっています。MLAPP もコンピューターの下にあります (頸椎は少し良くなりました)。私は新聞を少しずつゆっくり読みます。しかし、その間、私は兄の市場調査を手伝うという名目で、『大賢者の伝説』などのオンライン小説を含むさまざまな本をたくさん読みました。

私の頭の生え際を見ると、韶関は亡くなりやすいことがわかります。今では、20 歳のときに何をしていたのかとよく考えるし、30 歳になったら何をしているだろうかとよく考えると思います。

もし明日目覚めたら超人的な意志の力を持った男になれると思っているなら、あなたはこの30年間を無駄に生きてきたことになります。予想通りにいかないこともたくさんありましたが、得たものもたくさんありました。不完全さ、苦労、痛みが人生を構成するのです。今後は初心を心に留め、決して堕落に陥らないように願うばかりです。

自分へのアドバイス：井の中の蛙のように、井の中に座って空を眺め、満足してはいけません。

<<: 2019年の人工知能予測

>>: 人工知能と機械学習モデル向けのオープンソースフレームワークトップ5