アルゴリズムに取り組むのは「ドラゴンを倒す」ようなもので、エンジニアリングに取り組むのは「狩り」のようなものであり、データに取り組むのは「豚を飼う」ようなものです。

最近では、AI業界に参入したい人が増えており、その増加はますます大きくなっていることは明らかです。

[[212596]]

起源

なぜこれほど多くの人が AI に携わりたいと思うのでしょうか?それは本当にコンピューターサイエンスの研究や人間の知能の拡大に対する情熱なのでしょうか?はっきり言って、ほとんどの人は高い給料のためにそれをやっています。

より高い収益を得るために人々が選択を行い、懸命に働くことは非常に正当なことですが、鍵となるのは、正しい道をどのように見つけるかということです。

この業界に参入したいのであれば、この業界にはどのような職種があり、どのような仕事をするのかを知っておく必要があります。

この記事では、AI 分野におけるさまざまな技術的ポジションを直感的な観点から見ていきます。

日々の業務の状況。
要求される資質。
キャリア開発パス。

求人票に書かれた派手な肩書ではなく、抽象的なレベルで仕事内容や責任に基づいて業界の直接的なAI技術者を分類します。

大まかに 3 つの異なる役割に分けられます。

アルゴリズムを作成します。
エンジニアリングをします。
データを実行します。

[[212597]]

アルゴリズムを実行する

科学的研究の結果を応用して実際の問題を解決する

アルゴリズムの開発に関して、最初に思い浮かぶのは、新しいアルゴリズムを発明するか、それを改良することかもしれません。これは、学術機関や複数の大企業の研究機関で科学研究を行う科学者の仕事です。

業界でアルゴリズムに取り組むアルゴリズムエンジニア（企業によってはサイエンティストと呼ぶこともあります）の最も基本的な日常業務は、実は学術的な成果を実際のビジネスに結び付け、最新の科学研究成果をエンジニアリングの実践に活かして、ビジネスレベルで製品やサービスの改善につなげることです。

もっと簡単に言えば、論文を読んでそれを実践し、論文の記述が真実で再現可能か、さらには自社製品に適用できるかを確認し、実践に活かして製品の品質向上につなげていく、というのが日々の業務です。

優れた学歴が必要

私の日々の仕事は、まず他人の論文を読むことだからです。そのため、アルゴリズムエンジニアとしては、英語の論文を素早く大量に読む能力が必須となります。

アルゴリズムをやりたい場合は、平均して週に 1 つの *** 論文を読む必要があります。

論文を読むだけでは十分ではありません。論文を理解する必要があります。論文を理解するには、次のことが必要です。

科学的研究能力：または学術研究方法、参考資料、検索、および以前の知識の蓄積を通じて論文の内容を学習し習得する能力。
体系的な数学的知識: 微積分、線形代数、確率と統計に関する十分に深い知識。 *** の論文は時間によって検証されていません。

読む際には、式の導出過程に注意する必要があります。そうでなければ、数学的な導出に誤りがあり、実際には再現できないほど満足のいく結果が得られた場合、それは時間と労力の無駄ではないでしょうか?

おそらくこれが、これまで私が見聞きしたアルゴリズムエンジニア全員が、名門大学の関連専攻で博士号を取得している理由でしょう。

数年にわたる集中的な学術研究トレーニングを経て、これらの博士課程の学生は、総合的な英語力が CET-4 であっても、難しい英語の論文を読むことができます。

ビジネスを担う革新的な人材

多くの場合、具体的な業務という点では、アルゴリズムに取り組むアルゴリズムエンジニアと、以下に説明するエンジニアリングを行う機械学習エンジニアの間に大きな違いはありません。どちらも、モデルのトレーニングに多くの時間を費やしています。

ただし、エンジニアリングを行う人は、評価指標の要件を満たすモデルを提供すれば、モデル自体に集中できますが、アルゴリズム開発を行う人は、ビジネスの改善に責任を負わなければなりません。

配信されたモデルの全体的な品質は向上しても、ユーザーエクスペリエンスは向上しないか、ユーザーが非常に懸念している特定の特殊なケースで常に間違いが発生する場合。

機械学習エンジニアは、手動介入を追加していくつかの回避策を講じることでこれらの dsats を回避できますが、アルゴリズムエンジニアは、手動パッチを適用するだけでなく、アルゴリズムの観点から問題を解決する責任があります。

実際には、アルゴリズムエンジニアは、新しいアルゴリズムを発明したり、新しいアルゴリズムの最適化方法を提案したりしなくても、高度なアルゴリズムを使用したり、既存のアルゴリズムを新しい方法で使用したりする必要があります。

これは必然的に革新的な役割であることに疑いの余地はありません。したがって、この役割は大多数の人には絶対に適していません。

[[212598]]

エンジニアリングを行う

「パラメータ調整エンジニア」

この役割のより代表的な職種は、機械学習エンジニアです。これはよく冗談でパラメータ調整エンジニアと呼ばれます。

他者が開発したフレームワークやツールを使用し、既存のアルゴリズムを実行し、ビジネスデータをトレーニングして、実用的なモデルを取得します。

作業中は、データを処理したり、機能を選択したり、パラメータを調整したりするための何らかの手段が必要になる場合がありますが、一般的には従うべき証拠があり、独自の XXXX を発明する必要はありません。

ヒント: 「人工知能/機械学習/ディープラーニングアルゴリズムエンジニア」などのタイトルの求人はたくさんありますが、実際に募集しているのはエンジニアリングを行う人です。言葉にとらわれず、具体的な責任や仕事内容をしっかりと見極めましょう。

プログラマー部門

結局のところ、機械学習エンジニアは、ソフトウェアエンジニア (プログラマー) というより広いカテゴリのサブセットです。

実際、すべてのプログラマーには分野があります。ただし、分野によって人気や発展の傾向は時期によって異なります。 AI 製品開発は、現在非常に人気のある幅広いソフトウェア開発の分野です。

人工知能製品を開発するプログラマーも、やはりプログラマーです。 PCI プロトコルスタックを開発するには PCI プロトコルを理解する必要があり、ネットワークカードドライバーを作成するには TCP/IP を理解する必要があるのと同じように、この分野では一定レベルの理論的知識が必要です。

コーディングスキルは基礎です

プログラマーである以上、まずはプログラマーとしての基本的資質であるコーディング能力と基本的なアルゴリズム能力（上記で述べたアルゴリズムではなく、チェーン、ツリー、グラフの構築、削除、トラバーサル、検索、ソートなどのデータ構造で述べたアルゴリズム）を失ってはいけません。この2つが最低限の条件です。

もちろん、AI分野での開発ですので、ある程度の機械学習・ディープラーニングの知識を習得する必要があります。

さらに、エンジニアリングを行う際には論文を読む必要もあります。ただし、アルゴリズムの作業とは異なり、エンジニアリングを行う際に論文を読む一般的な目的は、新しい方法を試すことではなく、既知の効果的な方法を使用して実際の問題を解決することです。

そのため、エンジニアリングに携わる人は、「古い」論文、つまり比較的学術的な内容が低い（それほど難しくない）論文を読むことが多いのです。

読むときは、問題の解決策を直接見つけることが主な目的なので、読み飛ばしても構いません。数式に関しては、始まりと終わりがわかれば十分です。論文を読む頻度や求められる学術的深度は、アルゴリズム開発の場合よりもはるかに低くなります。

[[212599]]

データを実行する

ここで言うデータ作業とは、データのクリーニングや加工を意味するものではなく、エンジニアリング職の業務内容の一部に ETL やデータ加工が含まれることからもわかるように、データ作業とはデータのラベリングを指します。

手動データ注釈の必要性

簡単に言えば、データラベリングとは、さまざまな種類のデータ（テキスト、画像、ビデオ、オーディオなど）にラベルを付けて、生データをラベル付きデータに変換することです。ラベル付きデータは、さまざまな教師あり学習に必要な条件です。

機械学習には教師なし学習もありますが、実用領域で直接的に効果があることが証明されているモデルは基本的に教師ありモデルです。

近年、ディープラーニングは多くのアプリケーションで大きな成功を収めています。画像、音声、NLP、自動翻訳、AlphaGo など、ディープラーニングの成功は、大量のラベル付きデータに依存します。

エンジニアが ML または DL（アルゴリズムとエンジニアリング）のどちらを行っているかにかかわらず、特に後者の場合、全員が 1 つの事実に同意します。それは、この段階では、データはアルゴリズムよりもはるかに重要であるということです。

もちろん、現在ではラベリング作業において人間を支援して作業負荷を軽減し、手作業によるラベリングの割合を下げるためのさまざまな技術が使われていますが、これまでのところ、応用分野においてラベリングを完全に自動化できる技術は存在しません。

つまり、近い将来、手動でラベル付けされたデータは、AI の実装に依然として必要であり、主流となるでしょう。

人工知能の勤勉さ

良いニュース:データ注釈作業には参入障壁がほとんどありません。一般的に、どんな専攻の大学卒業生でも、あるいはそれ以下の学歴を持つ人でもこの仕事に就くことができ、始めるのに機械学習などの専門知識は必要ありません。

悪いニュース：そのような仕事は純粋に「汚くて疲れる仕事」であり、まったくかっこよくなく、初任給は非常に低いです。ですから、これは誰でもできる仕事ではありますが、やりたいという人はほとんどいないのではないかと思います。

単一のタスクとして考えると、データのラベル付けは非常に単純なタスクです。難しいのは次の点です。

データの一貫性

これは、すべてのデータのラベル付けの原則が同じであることを意味します。生データに複数の人が同時に注釈を付ける場合、注釈の原則を繰り返し説明しても、各人の理解や重視する点が異なり、一貫性を保つことが難しくなります。すべてのデータが 1 人の人に提供されたとしても、時期によって理解の仕方が異なる場合があります。

データのラベル付けに十分な注意が払われていないため (これはアルゴリズムへの過度の重点と一致します)、多くの企業は矛盾をなくすために力ずくの解決策を採用しています。つまり、複数の人 (たとえば 3 人) に同時に同じデータにラベルを付けさせます。矛盾が発生すると、単純多数決法を使用して、最も多くの人が満場一致で認識した結果を採用します。

このソリューションは、粗くラベル付けされたデータに対しては一定の役割を果たすことができますが、正確なラベル付けの場合は、大多数の人々でさえ同意することが難しいことがよくあります。 3 人の人がマークした結果がまったく異なる場合、このデータの注釈の価値は失われます。

実際には、品質が低いために同じデータを繰り返しラベル付けする必要があることが多く、時間と労力がかかります。

ビジネスでのコレクション

ビジネス要件は頻繁に変化し、技術的なソリューションはさらに頻繁に変化します。それぞれの変化により、データのラベル付け戦略も変化し、その結果、データの再ラベル付けが必要になります。

現時点では、人工知能の導入はまだ比較的限られており、主に大企業に集中しているため、この課題はまだ明らかではありません。大企業はすべて独自のラベリングチームを持ち、ビジネス要件は比較的安定しています。

今後、人工知能がさまざまな分野で本格的に導入されていくと、特定の企業や特定の業務に対して、常に変化するラベリング要件が必要になると考えられます。

急速に変化するビジネスニーズにどう対応し、アノテーション結果を同期的に更新するかは、AIが真に社会に役立つようになったときに浮上する問題です。しかし、現段階では十分な注目が集まっていません。

[[212600]]

自分に合ったキャリアパスを選択する

状況を理解し、地に足をつけて

業界への参入を目指す人は多くいますが、市場の現在のニーズを真に認識し、さまざまなレベルの人材の位置付けを理解し、自分の現実に基づいて実現可能な道を見つけることができる人はごくわずかです。

上記では、AI 分野のいくつかの種類の仕事を紹介しました。ここでは不適切な例えを挙げます。

アルゴリズムを実行することは、ドラゴンを倒し、世界で剣を振るい、空に飛ぶようなものです。
エンジニアリングを行うのは、狩りをしたり、馬に乗って疾走したり、飲んだり歌ったりするようなものです。
データを扱うのは豚を育てるようなものです。毎日豚の餌ときれいな豚の糞を混ぜて、土や泥にまみれなければなりません。

誰もが「アルゴリズムをやりたい」と思っています。孤独な剣士として世界を旅するのはどんなにかクールでしょう。言うまでもなく、給料もとても高いです！

しかし、人々はこれについて考えていません。大企業の研究所には、10年、20年以上論文を読み続け、常にAIの最前線にいる上級研究者がたくさんいます。

彼らと一緒にアルゴリズムに取り組みたい場合、十分な学業成績を持っているか、大規模なユーザーベースを持つ製品の実用的なビジネス上の問題を解決する必要がありますが、あなたはどちらを持っていますか?

コースを受講したり、演習やインターンシップなどの小さなプロジェクトを実行するだけでは、アルゴリズムの実行方法を学ぶのに十分ではありません。

現実世界でドラゴンを倒せる人は何人いるでしょうか?人間が倒せるドラゴンは何匹残っているのでしょうか？豚を飼うことはそれほど高級なことではありませんが、豚肉を食べることは現実的です。

野心を持ちすぎると時間を無駄にするだけです。地に足をつけて行動することでのみ、理想を実現することができます。

「アルゴリズムの力」の自己テスト

アルゴリズムに取り組もうと決心している学生には、まずアルゴリズムの能力をテストすることをお勧めします。

ここで、アルゴリズムに興味のあるすべての学生が知っておくべきウェブサイトをお勧めしたいと思います: https://arxiv.org - 複数の分野 (コンピューターサイエンスを含む) の論文が多数掲載されており、そのほとんどはまだ正式に公開されていない最先端の結果です。

現在、実際にアルゴリズムに取り組んでいる方々がこのウェブサイトの記事をたくさん読んでいます。

「アルゴリズムのパワー」をテストするための非常に簡単な検証方法があります。上記の Web サイトから論文 (たとえば、この論文: Dynamic Routing Between Capsules) を見つけて、最初から最後まで読んでください。

今はわからなくても大丈夫です。少なくとも、理解せずに一語も聞き逃さずに最初から最後まで読んでみてください。わからない単語があったら辞書を引いてください。

これができないのであれば、思い切って「アルゴリズム」と決別すべきです。私たちは一緒になれない運命にあるのに、なぜそれに執着し続ける必要があるのでしょうか?

まずはプログラマーになってから分野を選ぶ

AIがトレンドとなっている昨今、比較的AIの最先端を行く企業を見つけられれば、普通のプログラマーとしてスタートすることも可能です。

元々開発した製品がAIの範疇に当てはまらなかったとしても、将来的には古い製品に新しいAI技術を適用したり、社内でAI製品を作るチームに異動したりすることで、業界に参入する機会を得られるかもしれません。仕事を始めてからもゆっくりと専門的な知識を蓄積していくことができます。

ほとんどの AI エンジニアにとって、これは業界への自然な道かもしれません。

しかし、このすべての前提は、この人がまず有能なプログラマーでなければならないということです。いくつかのモデルやアルゴリズムを学習するのに時間を費やしたにもかかわらず、最も基本的なプログラミング面接の質問に正しく答えることさえできないのは、本末転倒です。

データ注釈に対する潜在的な市場需要

高品質のラベル付きデータは、高品質のモデルに直接影響します。

年俸100万元から始まるアルゴリズムエンジニアのグループによる長年の作業の結果は、信頼できるラベリングチームによる1～2か月間の慎重なラベリングよりもモデルの品質に直接的な影響を及ぼしません。商業的価値は言うまでもなく、モデルへの影響は非常に大きいです。

現在、AIは嵐の中心にあります。巨額のベンチャーキャピタルを獲得した大企業やユニコーンスタートアップは、AI分野のトップクラスの学者に信じられないほど高い給料を支払うために、馬の骨に何千ドルもの金を費やすことをいといません。その間、彼らは若い医師のグループも採用し、これもまた世界の垂涎の的となっています。

この状況はいつまで続くのでしょうか？営利企業は、何年、利益を生まずにただお金を浪費し続けるだけで耐えられるでしょうか?急増が過ぎ去り、業界が合理性を取り戻した後も、このモデルは依然として収益を上げるために利用されるでしょう。

その段階では、大企業も中小企業もコストと利益を計算するのではないでしょうか?データとアルゴリズムにリソースを投資することで得られる収益が異なることに気づいていないのでしょうか?

企業はAI技術を応用して利益を生み出しています。アルゴリズムエンジニアは緊急のニーズではありませんが、人工知能分野の「働き者」であるデータラベリングと人工知能ブルーカラー労働者は間違いなく緊急のニーズです！

すべてのラベリング作業の難しさや潜在的なリスクは、この作業の可能性であり、この作業に従事する人々の将来のキャリア開発の可能性でもあります。

職種別キャリア開発

一般的に言えば、技術職には常に 2 つのキャリアパスがあります。

ドメインの専門家。
マネージャー。

アルゴリズム関連の職に就いている人の多くが管理職に転向していますが、客観的な技術的深みと学術的蓄積の習慣により、他の 2 つの職種よりも現場の専門家になる可能性が高くなります。

プログラマーの一員としてエンジニアリング職に就く場合、全体的なキャリア開発は普通のプログラマーとそれほど変わりません。

もちろん、その分野の専門家になることは可能ですが、現在の環境では、ほとんどの人にとって、経営に転向する方がよい選択ではないかと思います。

もちろん、エンジニアがテクノロジーやアルゴリズムに本当に興味を持っているのであれば、アルゴリズムをさらに深く探求し、最終的にその分野の専門家になることは十分に可能です。

データ関連の職種は、参入障壁が低い他の職種と同様に、同様の基本的な資格を持つ多数の人材の中でいかに目立つかという問題に直面しています。

AI分野の特殊性により、ますます自動化されたラベリング技術とどのように共存するかという問題にも直面する必要があります。

したがって、著者は個人的に、データアノテーションのキャリアアップパス（経験 + ビジネス + 管理）を推奨します。一般的な手順は次のとおりです。

実践を通じてデータラベリングの実務経験を積む。
ビジネスニーズを深く理解し、それをデータ注釈の結果に反映します。
注釈チームを管理して、注釈の結果をビジネスの変更と効率的に調整します。

将来的には、「データマネージャー」のような役職が生まれるかもしれません。その責任は、高品質のラベル付きデータを提供すること、エンジニアリング分野で ETL とデータ処理を技術的に結び付けること、製品とビジネスを結び付けること、そしてチームを率いて会社の製品やサービスの収益に直接貢献することです。

[[212601]]

現在マイクロソフトに勤務する Li Ye 氏は、以前は EMC および Sun Microsystems でソフトウェアエンジニアとして働いていました。彼はチャットロボットやビッグデータ分析プラットフォームなどのプロジェクトの開発に参加しています。彼の個人WeChat公開アカウントはyuesiyueduです。

<<: AIは人間を失業させるのか？ジャック・マーとポニー・マーはそうは思わない

>>: アリババのロボットが200語のエッセイを修正し、8つの間違いを発見

マトリックスシミュレーション！ Transformer の大型モデルの 3D 視覚化。GPT-3 と Nano-GPT の各層がはっきりと見える

ブログ

教師なし学習のためのアンサンブル法: 類似度行列のクラスタリング

ブログ

データが少なすぎる場合はどうすればいいですか?履歴書トレーニングのための新しいツール、自己教師学習を試してみましょう

ブログ

アルゴリズムに取り組むのは「ドラゴンを倒す」ようなもので、エンジニアリングに取り組むのは「狩り」のようなものであり、データに取り組むのは「豚を飼う」ようなものです。

マトリックスシミュレーション！ Transformer の大型モデルの 3D 視覚化。GPT-3 と Nano-GPT の各層がはっきりと見える

科学的人工知能と疑似科学的人工知能を区別する方法

AI と ML はデータの理解方法をどのように変えているのでしょうか?

MIT の中国人博士共同執筆者: 確率プログラムモデリングを使用して世界モデルを解明!

5G+AI: 未来に影響を与える新たなトレンド

教師なし学習のためのアンサンブル法: 類似度行列のクラスタリング

データが少なすぎる場合はどうすればいいですか?履歴書トレーニングのための新しいツール、自己教師学習を試してみましょう

推薦する

2021 年に注目すべき最新テクノロジートレンドトップ 10

ChatGPT は検索エンジンに取って代わることができますか?

YOLOがBEVセンシングに参入！ YOLO+BEVのリアルタイム検出の試み

わずか60行のコードでディープニューラルネットワークを実装する

機械学習プロセスにおける3つの落とし穴、どれを踏んでしまったか確認しましょう

リアルすぎて怖い！ Gen-2 の壮大なアップデート、手作りの 4K ハリウッド大作、Midjourney の夢の連携、CEO: クリエイティブソフトウェアの時代は終わった

爆発力で動く昆虫ロボットは、自重の22倍を運ぶことができ、垂直に59cmジャンプできる。

ちょっとした会話の後に心を開いてみませんか?この世代の人工知能はあなたのプライバシーを会話の話題に変えました

2021 年の年収 100 万ドルの AI 職種のトレンド: データサイエンス、Python、自動運転、AIOps に注目していますか?