はじめに: この質問は、実はほとんどのプログラマーに当てはまります。国内のインターネット企業では、常に最前線で働いてコードを書いたりアルゴリズムモデルを実行したりしているエンジニアが少なすぎます。毎年、大学卒業生がこの業界に若くて新鮮な人材を継続的に投入しています。残業や苦労をいとわず、何よりも給与が低い、入社したばかりの25歳の人材と比べると、35歳のアルゴリズムエンジニアは、単に勤務経験が長く、勤続年数も長いだけでは、あらゆる面で不利になります。 このハードルを越えたいなら、相対的な代替不可能性を高めるために努力し、初級レベルから上級レベルへと徐々に移行する必要があります。それは、大きく分けて次の3つの段階に分けられると思います。 01 ジュニアアルゴリズムエンジニア ——キーワード: 効率的な実行マシン—— これがアルゴリズム業界に参入する唯一の方法です。いわゆる SQL Boy、パラメータ調整者、データ ポーター、錬金術師はすべてこの段階で発生します。 この段階のアルゴリズム エンジニアは、多くの場合データを扱います。データの過少報告、重複データの報告、不正確なデータ追跡、複数のデータ ソースの統計的キャリバーの調整不能、不正行為防止キャリバーの定義と調整、異常なデータの検出とトラブルシューティング、データ欠落の処理、サンプルのクリーニング、機能統計処理、オンライン指標の低下の問題のトラブルシューティング、不良ケースの帰属分析、データのラベル付け... まったく、魅力的に聞こえませんか?ビジネスの実装を担当する最前線のアルゴリズム エンジニアにとって、これらのデータ タスクは毎日の作業時間の大部分を占める可能性があります。 しかし、当初あなたが軽蔑していたいわゆる汚い仕事、研究室や学校では触れることのできない産業データ業務、論文や本やインターネットでは決して教えられない仕事は、まさにあなたが蓄積してきた技術的な経験と貴重な財産であり、あなたを次のレベルへと変革させる主な原動力なのです。アルゴリズムエンジニアとして、草の根レベルで基礎的な開発やデータ分析の経験がないと、将来的により高いレベルに立ったときに、チームの方向性に有利な判断を下すことは難しくなります。データによってモデルの上限が決まり、機能とアルゴリズムはこの上限に近似するだけです。 ビジネスデータの特性を理解しなければ、優れたアルゴリズムエンジニアになることは困難です。ビジネスの実践においてデータセンスを養い、実践することは、ジュニアアルゴリズムエンジニアにとって必須のコースの 1 つです。 この段階でアルゴリズム エンジニアが直面するビジネス上の問題は、リコール効果の向上、オンライン CTR/CVR/GMV/期間の向上、検索関連性の向上、不良ケース率の削減など、一般的には明確です。これらの明確なビジネス上の問題の背後には、チーム内を含む業界全体で一般的に明確な技術的方向性があり、これらに対応して、情報フローの CTR 推定、ユーザーの関心のモデリング、広告入札の推定、関連性のモデリング、アイテムのリコール、画像とテキストのラベル生成など、いくつかの明確なアルゴリズムの問題があります。 これらの異なるアルゴリズムの方向性は、多くの場合、チーム構造に応じてさらに細かく分割されます。たとえば、リコールの方向性を専門とするチームがあり、各人がユーザー ラベル リコール、動作シーケンス リコール、テーマ リコール、デュアル タワー モデル リコールなどのリコール戦略の 1 つを担当する場合があります。ソートモデルを担当する専任チームがあります。ホームページ/チャンネルページ/カテゴリページ/人気ページ/サブチャンネルページなど、各シナリオの専任担当者がいる場合があります。また、CTRモデル、GMVモデル、期間モデルなど、各方向のモデルを担当する専任担当者がいる場合もあります。メカニズム戦略には専用のチームがあり、各人がそれぞれ異なる戦略的方向性を担当する場合もあります。 ジュニアアルゴリズムエンジニアは、具体的なビジネス形式と技術形式をどのように分割するかについて心配する必要はありません。それは、より上級のアルゴリズムエンジニアが計画し、心配する必要があることです。この段階でのアルゴリズム エンジニアの主な目標は、特定のタスクを効率的に実行する能力を身につけることであり、そのためには最高レベルの実践能力が必要です。 業界のXXカンファレンスがまたもや影響力のある論文を発表し、その実験結果は業界最高だと主張された。隣のXX社のXXチームは最新のアルゴリズムを発表(PR)し、効果が大幅に向上したと主張した(おそらくベースラインが非常に低かったため)。有名プログラマーの大手出会い系サイトのハブが最新のモデルコードを公開し、複数のタスクで現在のさまざまな主流モデルに勝てると主張した。そこで上司は、他の人がどうやってやっているかを調べて、戻ってきてそれを実践しなさいと言いました。 次は、ジュニア アルゴリズム エンジニアとしての能力を発揮する時です。論文を読み、モデルを再現し、実験を実行し、パラメータを調整し、ネットワークを修正し、効果が良くない場合は調整を続けます。このプロセスは、実はジュニアアルゴリズムエンジニアの能力が広がるプロセスです。ツールを使用したり、APIを調整したり、パラメータを調整したり、ネットワークを変更したり、直接git cloneしてソースコードをダウンロードしたり、エンコードして直接実行したりすることしかできない人もいます。効果があるかどうかは、すべて運次第です。まさに「万能薬を作る」ようなものです。結局、うまくいかなかったことを付け加えておきます。論文の著者は本当に自慢しています。このアルゴリズムは私たちにはまったく影響がありません。次にモデルを変更し、エリクサーの精製を再度開始します。 このプロセスで経験を積み続け、これらの方法の共通点を見つけようとする人もいます。 CTR モデルを例にとると、埋め込みパラメータが自身のビジネスデータの影響に敏感かどうか、ネットワーク層の深さが影響に与える影響、さまざまな正則化方法が機能するかどうか、BN/LN/ドロップアウトなどの方法が有効かどうか、現在の特徴システムが高次特徴の交差を十分に特徴付けているかどうか、注意がどの程度の利益をもたらすか、などが挙げられます。これらをより本質的かつ普遍的な視点から分析し、まとめることができれば、同じデータ分布に対する将来の事前判断として活用できる可能性が高くなります。経験は転用可能なので、新しいモデルが登場するたびに盲目的に試す必要はありません。 この段階でエンジニアを評価する基準は、明確なアルゴリズムの目標を実装するのに十分な実行能力があるかどうかです。基本的な実装能力は迅速な実現に過ぎませんが、より高度で堅実な実装能力はノウハウ実装であり、効果的かどうかの比較的堅実な分析を行うことができ、将来の反復的な最適化のための経験を提供することができます。 02 中級アルゴリズムエンジニア ——キーワード:アルゴリズムの選択と変換機能—— 最初の段階を終えると、明確なアルゴリズムの問題を解決する十分な経験が得られます。この段階では、この分野で蓄積したスキルに基づいて、既存のアルゴリズムの問題に適切な修正と最適化を行う必要があります。 ユーザーポートレートを例にとると、新しく設立されたチームであれば、初期段階ではモデルフレームワーク全体を構築し、上流および下流のチームと連携してコミュニケーションを取り、オンラインで使用できる基本的なベースラインを最低コストで迅速に構築する必要があるかもしれません。たとえば、最も単純な統計手法では、ユーザーのアクティブな行動の項目ラベルをユーザーの統計ポートレート ラベルとして使用します。たとえば、24 時間の統計ラベルを短期的な関心事として使用し、時間の経過に伴う 30 日間の統計ラベルを長期的な関心事として使用します。この段階で、アルゴリズムエンジニアがチームの現状を無視して、すぐに技術の深さを反映できるさまざまなモデルを作成しようとすると、実際にはチームの進歩に悪影響を与えます。 主な目的は、アルゴリズムを迅速に実装して利益を生み出すことができるようにすることです。 チームが一定の段階まで開発され、一定の基本属性ポートレートと統計ポートレートができたら、チームの人員に基づいて、より詳細な開発を行うことができます。基本的な統計から、教師なし潜在意味理解(LDA、W2Cなど)、教師ありデュアルタワーモデリング、追加機能を備えたユーザー関心モデリング、ユーザーシーケンスモデリング、さらにはさまざまなグラフ手法と知識グラフまで行うことができます。試すべき具体的な手法は、中級アルゴリズムエンジニアが初級段階で蓄積した経験をもとに予測を行うことが求められる。例えば、ユーザー埋め込みの表現がない場合は、ユーザーの行動シーケンスを文章として利用できる。多くの企業のビジネスで利益を上げているWord2vecをベースラインとして活用でき、ユーザー行動埋め込みを取得するためにより多くの機能を備えたデュアルタワーモデルを導入することで、さらに効果が向上する可能性がある。ユーザーに何らかの社会的属性の関連付けがある場合は、グラフ手法を使用してさらにマイニングを行うことを検討できます。 このディレクションの担当者として、チームの開発段階に応じて合理的な技術選択と適切な変更を行う必要があります。たとえば、シーケンス モデルを使用するかどうか、LSTM、RNN、Transormer、BERT などのシーケンス モデルを選択する方法、位置機能の設計と統合方法などです。詳細なパラメータ調整には、具体的な実行を担当する初級アルゴリズムエンジニアによる実験が必要であり、全体的な技術選択と変換の方向性については、中級アルゴリズムエンジニアの把握と指導が必要です。 技術的な深さは、中級アルゴリズムエンジニアを評価する主な手段ではありません。この段階でアルゴリズムエンジニアを判断する基準は、主に、アルゴリズムの選択、変換、適用から実装まで、アルゴリズム全体を自主的に担当し、特定のアルゴリズムの方向で結果を達成できる能力があるかどうかです。 03 シニアアルゴリズムエンジニア ——キーワード:ビジネス抽象化能力—— 厳密に言えば、最初の 2 つのステージのエンジニアが行うことは、このステージのアルゴリズム エンジニアによって設定されたアルゴリズム インジケーターを実行することです。この段階のアルゴリズム エンジニアは、ビジネス全体をより深く理解し、ビジネス上の問題を抽象化して定義する必要があります。たとえば、現段階では、ユーザーポートレートを作成するための専任チームが必要か、資料を理解するためにどれだけの人材が必要か、ランクモデルの余地はまだあるか、継続的な最適化にはどれだけの人材が必要かなどです。戦略目標が明確に定義されていない場合、チーム全体の取り組みに影響が出ます。 上位レベルの管理職にとって、アルゴリズム チームの存在意義は、CTR 推定チーム、ユーザー ポートレート チーム、ビデオ理解チームが存在する必要がある、誰かが NLP を実行する必要がある、誰かが機能を実行する必要がある、などということではありません。 アルゴリズム チーム全体の存在目的は、最終的にはアルゴリズム レベルから実際のビジネス問題を解決することです。 ある段階では、ユーザーのクリック率を向上させることが必要であり、CTR モデル チームやユーザー ポートレート チームなどが必要になる場合があります。また、ある段階では、より多くのマルチメディア マテリアルを導入するために、ビデオ理解や画像理解を行うチームが必要になる場合があります。また、ある段階では、ユーザーの成長と維持が必要であり、ユーザー維持に影響を与える要因の特別なデータ分析を行うチーム、維持モデルを行うチーム、成長モデルを行うチームなどが必要になる場合があります。 これにより、アルゴリズム チームの目標は期間によって異なり、必要な人員も異なります。これらすべてにおいて、上級アルゴリズム エンジニアがビジネス レベル全体を理解して分析し、目標をレイヤーごとにチーム全体に伝える必要があります。 この段階でアルゴリズムエンジニアを評価する基準は、主に、担当するビジネスの目標を達成するために合理的なアルゴリズムを策定し、チームをリードして目標を達成できるかどうかです。 04 結論 ——キーワード:立場を深める—— 個人的には、35歳でまだ第一段階、つまり明確なアルゴリズムモデルしか実行できない状態だと、大学を卒業したばかりの若者と比べて競争力がないと言え、個人のキャリアのさらなる発展は非常に限られてしまうと感じています。 第二段階に入った場合、あなたはまだ非常にかけがえのない存在です。結局のところ、この段階での合理的なアルゴリズム技術の選択と実装能力は、卒業したばかり、または働き始めたばかりの多くの若いアルゴリズムエンジニアにとって達成するのが難しいものです。 第三段階まで到達したあなたは、少なくとも事業の方向性を決めるアルゴリズムの責任者であり、この役職であれば、社内の中堅、上位層への昇格を考えているはずであり、年齢の壁をまったく気にすることはないだろう。 私にとって35歳はまだ数年先です。ほんの数年先です。 アルゴリズムエンジニアであろうと他の職種であろうと、この職種に注力することが現状では依然として最善の選択であると言えるでしょうし、あるいは選択の余地がないとも言えるでしょう。 技術、スキル、経験、リソースの蓄積を継続的に向上させ、相対的な代替不可能性を高めるよう努めてください。 年齢に関しては、それは単なる数字です。たとえそれがハードルであったとしても、終わりには程遠い。 本日のシェアは以上です。皆様ありがとうございました。 |
<<: 「顔認識」は「性格認識」を生み出しました。テクノロジーが善のために使われるようになるまでにはどれくらい時間がかかるのでしょうか?
新たな研究によると、最先端の人工知能が英国の廃棄物リサイクル方法に革命をもたらす可能性があるという。...
[[439902]]この記事では、次の検索アルゴリズムについて説明します。線形探索バイナリ検索補間検...
著者についてCtrip の R&D エネルギー効率マネージャー兼 SRE である Haibi...
ユーザー行動分析とネットワーク脅威検出、新たな波が起こり続けています。セキュリティ データ分析は、状...
K平均法アルゴリズムの紹介K-means は、機械学習でよく使用されるアルゴリズムです。これは教師な...
今日の社会では、ロボットはますます人間とつながるようになっています。産業用ロボットが組立ラインで忙し...
近年、人工知能の応用は世界中で大きな進歩を遂げています。職場でのビジネス活動の拡大に伴い、クラウド ...
2021年AIインデックスレポートは、スタンフォード大学の人間中心AI研究所と、ハーバード大学、経済...
今年のアリババ世界数学コンテストでは、特別優秀賞受賞者が決定しました。 ALSを患う20歳の少年、ル...
デジタル時代が進化するにつれ、世界的なデータ損失を防ぐための高度なテクノロジーの役割がますます重要に...
1. 概要この記事では、多数のクライアントが同時にデータを書き込む場合に、分散ファイルシステム HD...
「 AI攻撃を阻止するために人力を使うことはできません。AIと戦うにはAIを使わなければなりません。...
ライブイベントは優れたマーケティング形式であり、ビジネスと顧客との関係を強化する優れた方法です。調査...