私たちは「技術の爆発」と「共有とオープンソース」の時代に生きています。先進技術の更新と反復の速度は、歴史上のどの時代よりも速くなっています。さらに、これらの技術はもはや閉鎖的ではなく、誰もがアクセスして学ぶことができます。生涯学習は、私たち一人ひとりが直面しなければならない問題となっています。これは、ビッグデータ/人工知能の分野で特に顕著です。新しいテクノロジーが絶え間なく出現することで、一方では利便性がもたらされましたが、同時に、効率的な学習や選択が難しくなってしまいました。したがって、このような時代にビッグデータの知識を習得するには、それに応じたロジックと方法が必要です。 この記事は、読者がさまざまな「共有されたオープンソース」学習ツールと学習チャネルを有効に活用し、初心者が陥りやすい「落とし穴」を回避し、最小限の時間と経済的コストで対象技術の学習と習得を完了できるように支援することを目的としています。 本稿では、まず時代背景を分析し、次にビッグデータ分野における現在の人材階層を分類し、最後に新人から専門家までビッグデータ/人工知能人材のための高度なガイドを提供します。 1. 背景 「技術爆発」と「オープンソースの共有」は、この時代を最も特徴づけるラベルです。著者は、この2つは相互に因果関係があり、密接に関連していると考えています。まず、「技術爆発」の時代において、技術開発の最前線にいる研究チームにとって、「技術収益化」の最良の手段は「オープンソースの共有」です。対照的に、インターネットやモバイルインターネットが発達し成熟する前は、情報は非常に閉鎖的でした。技術革新が現れると、できるだけ早く特許を登録する必要がありました。技術は政府によって保護される必要があり、技術を収益化する唯一の方法は、特許を販売するか、生産を組織して製品を形成することでした。
現在、インターネットとモバイルインターネットは非常に成熟した発展を遂げており、新しい情報を非常に短時間で、非常に低コストで世界の隅々まで広めることができます。そのため、技術の最前線にいる研究チームは、できるだけ早く「arxiv」や「github」などの中立的な共有およびオープンソースのWebサイトに作業結果をアップロードするだけで、すぐに世界世論の共同保護を受けることができます。この力は、特定の国の特許保護よりもはるかに強力です。 その後、新技術に応用価値や学術的価値がある限り、さまざまな資本大手、テクノロジー大手、関連組織が並んで寛大なオファーをしてくるでしょう。最先端のチームにとって、技術の収益化のタイミングは、技術の製品化のタイミングよりもはるかに早いです。 第二に、「技術の爆発的進歩」により、最先端のチームが研究して発見するのを待っている新しい技術が常に存在するため、最先端のチームが先頭に立つための最善の方法は、既存の成果に固執するのではなく、できるだけ早く「オープンソースを共有」して収益化を実現し、その後、新しい研究作業に投資することです。 最後に、「オープンソースの共有」も「技術の爆発」を大いに促進しました。どのような技術や科学であっても、長期的な発展にはそれを支える巨大な人材システムが必要です。歴史のさまざまな時期を振り返ると、知識を共有し、人材を育成するチャネルは主に「学校」です。このチャネルは形式が単一であるだけでなく、多くの場合、かなりの敷居があり、かなりの数の「野心的な若者」を締め出すことになります。
今の時代、知識を広める最も速いチャネルはインターネットです。「オープンソースの共有」により、世界最高の教育リソースと最先端の学術技術コンセプトは突然障壁がなくなり、区別なくすべての人に公開されます。その結果、特定の技術または科学分野に大きな進歩があり、幅広い応用の見通しがある場合(ビッグデータや人工知能など)、対応する人材プールは自動的に満たされ、短期間で追いつくことになります。 ビッグデータ学術界の最前線に立つ研究チームは、自らの領域を拡大するために突き進むだけでよく、その背後にいる人材層は自動的に「新技術の実証」や「技術の製品化」などの「保証」業務を行い、この技術分野と関連産業の健全な発展を確保し、ピラミッドの頂点にいる最先端チームへのリソースの集結をさらに促進して、彼らの先駆的な仕事をサポートします。 上記の才能階層を、新人基礎、初心者、マスター、マスターの 4 つのレベルに分けます。
次の記事では、さまざまな段階のビッグデータ人材向けに、さまざまなトレーニングとアップグレードの提案を紹介します。 2. ルーキーファンデーション 1. 最良のリソースは公開されていることが多い 背景紹介を読んだ後、最高のリソースがなぜ公開されていることが多いのかを説明する必要はないと思います。ここでは、高品質のリソースを入手するためのいくつかのチャネルを直接紹介します。まず最初に、「Coursera」「Arxiv」「Github」という3つの海外サイトをおすすめしたいと思います。
Coursera は、優れた学業成績と共有の精神を持つ業界のリーダーによって設立された、世界トップクラスのオンライン学習ウェブサイトです。 Coursera のコースは比較的基本的な内容で、初心者が始めるのに最適なプラットフォームです。ここでは、Andrew Ng が教える「機械学習」と「ディープラーニング」をお勧めします。国内の学生にとって最大の問題は英語かもしれません。ここで一つ明確にしておきたいことがあります。真のマスターになりたいなら、英語は絶対に越えられないハードルです。業界の最新かつ最高の情報は例外なく英語です。国内のトップマスターでさえ、論文を発表する際に中国語を使うことは選択しません。 実際、ほとんどの人にとって、英語は「科目」として学ぶべきではなく、「ツール」として使われるべきです。具体的な方法に近道はありません。分からない単語を見たらすぐに調べるだけです。わざわざ単語を覚える必要はありません。次に出会ったときにもう一度調べてください。文章の意味を素早く理解することが目標です。
Arxiv と Github は、読者が将来頻繁に使用する 2 つの Web サイト/ツールです。Arxiv には、さまざまなアルゴリズムの詳細な説明を提供する最新かつ最も完全な共有論文があります。Github には、特定のアルゴリズムの実装であることが多い最新かつ最高のオープンソース コードがあります。インターネットには、特定の使用方法に関するチュートリアルが多数ありますが、ここでは詳しく説明しません。 読者は、Arxiv は内面の強さを鍛える場所であり、Github は外面の強さを鍛える場所であると簡単に理解できます。外部スキルを練習せずに内部スキルだけを練習しても、実際の問題は解決しません。しかし、内部スキルを練習せずに外部スキルだけを練習しても、効果がないことがよくあります。内部スキルと外部スキルの両方を練習する必要があります。最後に、論文とコードの対応関係を見つけるのに役立つ「gitxiv」という魔法のウェブサイトを紹介したいと思います。 2. 読まない、読まない、読まない あるテーマにどうやって取り組めばいいのでしょうか? この問題に直面したとき、初心者が陥りやすい「落とし穴」は、権威ある本を見つけてゼロから始めることです。この落とし穴に足を踏み入れると、良くても数週間の時間を無駄にし、最悪の場合、一生そのテーマに完全に失望することになります。まず第一に、良い本は珍しく、入手困難な場合が多いです。第二に、たとえ良い本に出会ったとしても、その学術的性質を確保するために、本の中で使われている言語は「厳密」ではあるが理解しにくいことが多く、読者に主題の初期の歴史から「確固たる基礎」を築いてくれるものの、最新の技術的手段について語るときには突然止まってしまいます。最後に、たとえ読者が何ヶ月もかけて本全体を読み終えたとしても、私の経験から言えることは、ほとんどの人が本の前半の内容を間違いなく忘れてしまうということです。 もちろん、特別なケースもあります。すでに研究の方向性が決まっていて、その分野の必読書のリストを提供してくれた専門家や指導者の指導を受けている場合は、このタイプの本を読む価値はあります。ただし、視聴する際には、特定の詳細にこだわりすぎないように注意する必要があります。まず、理解できない部分を書き留めることができます。そのような詳細は、後で練習するときに特定のシナリオで明らかになることがよくあります。 正しいアプローチは、一言でまとめることができます。良い本は読むためではなく、参考にするためです。いつ参考にすればよいのでしょうか? 次の記事では、これらの質問に段階的に答えていきます。 3. 良い友達を見つけて前進し続ける 今は、崖から落ちて数年間隠遁した後に、孤独に戦い、秘伝の書物を見つければ世界を征服できる時代ではありません。ヒントン(BPアルゴリズムを打倒したBPアルゴリズムの父)のような巨匠であれ、何開明(普通の人と同じくらい簡単に最高の論文を発表できる魔法の学術的巨匠)のような新人であれ、彼らは皆、非常に信頼できる独自のチームを組み、パートナーと一緒に探求しています。良い友達はたくさん必要ありません。本当に信頼できる友達が 1 人か 2 人いれば十分です。チームメイトの重要性については後で説明します。 初心者が基礎を築くための最後のアドバイスは、この段階に長く留まらないこと、そして練習を始める「準備」ができるまで待たないことです。なぜなら、ここでの「準備」には初心者の自信のなさが含まれることが多く、自分自身をさらに向上させない限り「準備」は決してできないからです。一般的に言えば、「コンピュータービジョン」や「自然言語処理」などのAI関連分野で働きたい学生は、アンドリュー・ン氏の「ディープラーニング」コースを修了した後、対応する実践プロジェクトを選択して次の段階に進む準備をすることができ、「データマイニング」に取り組みたい学生は、アンドリュー・ン氏の「機械学習」コースを修了した後、対応する実践プロジェクトを選択して次の段階に進む準備をすることができます。
では、どのような実用的な方法を選択すべきでしょうか。最高の状況は、優秀な人材がチームを率いて実際のプロジェクトを行うことですが、そのような機会を得るのは難しいことが多いため、ここでは説明しません。一般的な方法は、ビッグデータ競争プロジェクトに参加することです。現在、国内の「阿里天地」と海外の「Kaggle」はどちらもオープンなビッグデータ競争プラットフォームです。プラットフォーム上では、さまざまな組織がさまざまな実際のプロジェクトを公開し、誰もが実践し、競争することができます。これを読んでも、まだ大きな疑問が頭に浮かぶかもしれません。「基礎コースを学んだとしても、指導してくれる人がいないのに実践できるだろうか?」次の記事では、どうすれば「全力で努力して」実践できるのかという疑問にお答えします。 3. 初めてアリーナに入る 1. 最も高いベースラインを見つける ここでの「ベースライン」とは、先人が達成した結果と理解でき、同じ作業を行う必要が生じたときに参照として使用できます。上記の状況では、チームを率いて実践する専門家がいる場合、その専門家のこれまでの実践経験がチームメンバー全員の「ベースライン」になります。 「偉大な巨匠」のようなリソースを持たない読者にとって、より普遍的な解決策はあるのでしょうか? 答えはイエスです。読者が現在、特定の種類の問題にどのように対処すればよいか分からない場合、たとえば、「ディープラーニング」コースを終えたばかりで、「自然言語処理」プロジェクトのやり方が分からない場合、最善の方法は、「万芳」や「HowNet」などの国内論文検索プラットフォームをうまく活用して、国内の一般大学の関連分野の学位論文を検索することです。これらの論文のほとんどは中国語で書かれており、論文の中で多くの基本的な背景知識を紹介しており、まさに私たちのニーズを満たしています。
ある技術の具体的な知識ポイントがよくわからない場合、例えば「自然言語処理」の分野のプロジェクトに取り組んでいるが「LSTM」についてはあまり知らないという場合は、「Zhihu」「Jianshu」「CSDN」などの国内の知識共有ウェブサイトを活用できます。理論があまり新しいものでない限り、対応するブログ投稿や回答を見つけることができます。上記の 2 種類のチャネルを使用する一般的な手法は、複数の記事を検索して比較することです。同じ概念や技術を 1 つの記事で完全に説明するのは難しく、また、異なる記事の著者は問題を説明する出発点が異なるため、記事が理解できない状況に遭遇した場合は、焦らずに次の記事を読んでください。また、ここでのリサーチには、前述の「良書」が活用できます。読者は、これまで思い出せなかった知識ポイントも、「リサーチ」して「活用」すれば、概ね思い出せるようになることに気づくでしょう。 ここでのベースラインにおける「高い」の定義は、学術的最先端に近いほど、また実践的な効果が高いほど「高い」とみなされるということです。一般的に、参照結果が高くなるほど、中国語の文献が少なくなります。 この記事が前章で提起された疑問に答えているかどうかはわかりません。前章で言及した「転がりと這いずり」とは、ある練習の方向性を選択した後、練習の最終結果に基づいて、関連する知識の「ギャップを確認する」プロセスを指します。この種の学習プロセスは、より目標指向的です。参加者は完全に目標を定めて学習し、学んだことをすぐに実践できるため、「学んだことを忘れてしまう」という恥ずかしい思いを回避できます。 2. 短期的な成果を合理的に追求する 著者はかつて、女の子が買い物をするときに「疲れ知らず」な理由を注意深く研究したことがある。その答えは、女の子が店を訪れるたびに、店内の靴/服/バッグを見て一定の興奮ポイントを得ることができ、興奮ポイントを得た後、次の興奮ポイントにまっすぐ行きたくなるということだった。プロジェクトを実行したりゲームをプレイしたりするプロセスと同様に、チームメンバー全員が「クイックウィン」の喜びを享受し、全員が前進し続けることができるように、チームにそのような「興奮ポイント」を設定する必要があります。 「迅速な勝利」を達成するための鍵は、手元の作業/タスクを、少しの労力で達成できるいくつかのサブタスクに分割することです。詳細については、ここで説明するには複雑すぎます。チームリーダーが行うべき最も重要なことは、チームがタスクを合理的に分割し、継続的に「クイック ウィン」を達成できるように支援することです。この能力があれば、技術レベルに関係なく、志を同じくするパートナーのグループをまとめることができます。 3. 最大のモチベーションはDDL(締め切り)から来ることが多い 成功に関する有名な格言があります。「私を毎日目覚めさせるのは目覚まし時計ではなく、夢だ」。この言葉は感動的に聞こえますが、90%の人にとってはナンセンスです。振り返ってみると、私たちを毎日目覚めさせるのは「仕事に遅刻して減額された給料」や「研究室に遅れて到着した上司の殺意に満ちた表情」であることが多いことに気づきます。これが現実です。残酷に聞こえますが、私たちはそれをうまく利用することができます。アップグレードやプロジェクトの進行に関して、私たちが前進し続ける最大の動機は、多くの場合、「DDL 前にタスクを完了できなかった同僚の軽蔑」と「迅速な勝利を達成した後の達成感」です。 これを実現するために最も重要なことは、前のセクションで述べた合理的なタスクの分割に加えて、設定されたノードに到達した後も常に前進し、確実に前進する信頼できるチームリーダーがいることです。最後に、もう一つ言いたいことがあります。マズローの欲求階層説によれば、夢はモデルの頂点にある「自己実現欲求」に属するはずです。人が「夢」で目覚めることができれば、その人の他の欲求も十分に満たされているはずです。ですから、ここにいる皆さんが、いつか朝、自分の「夢」で目覚めることができるようになることを心から願っています。 4. 華山に入場して戦う ある日、自分の仕事において最先端の論文に注意を払い続け、論文のアルゴリズムを実際に再現しようと常に努力する必要があることに気づいたら、おめでとうございます。あなたはビッグデータ/人工知能の分野の専門家の仲間入りを果たしたことになります。ホールに入る段階とコンテストに参加する段階の区別は特に明白ではありません。なぜなら、多くの論文を読んだ後には必ず自分自身の新しいアイデアが生まれ、これらのアイデアは実験によって検証された後に論文として発表されるからです。一方、最先端の論文を発表したとしても、他の論文を継続的にフォローアップする必要があります。 1. 友人の輪があなたの人生の高さを決める このセクションの冒頭で、著者は毒入りチキンスープを一杯提供したいと思っています。「オープンソースと共有」の時代になっても、学術/技術リソースの分配は依然として非常に不均等であり、この不平等はますます顕著になるでしょう。これには2つの理由がある。1つ目の理由は、清華大学第17期生の入学式で校長が述べた「最も効果的な研究方法は、同等レベルの仲間と直接対面してコミュニケーションをとることである」という言葉で説明できる。言い換えれば、専門家が増えれば増えるほど、専門家を輩出しやすくなり、ハイエンドの人材の偏在が進むことになる。 さらに、最先端の学術研究を行うための経済的コストは非常に高く、国内トップクラスのAI企業のグローバルな研究開発にかかる電気代は、1か月あたり数千万に達することもあります。通常の AI プロジェクトの場合でも、サーバーと GPU のコストにより、通常の研究者は研究を支援するための十分な資金を見つけることができません。 有毒なチキンスープを飲んだ後は、ポジティブなエネルギーも必要です。資源は不均等に分配されていますが、人材のチャンネルはまだ開いていますが、その敷居はどんどん高くなっています。私の周りには、卒業後4、5年で清華大学の大学院生として入学し、仕事と勉強を両立し、最終的には最先端の科学研究に触れることができた人々の例があります。 DataPie は、清華大学のトップクラスのビッグデータ/人工知能リソースを結集したオープン組織です。興味のある方は、「原文を読む」をクリックして組織に参加できます。(編集長は今すぐナイフを下ろすことができます。この広告の波は著者を不意打ちしました) 2. 選択は常に努力よりも重要 このタイトルはまるで「有毒なチキンスープ」のようだが、これは血なまぐさい人生が著者にもたらした経験である。アルゴリズムチームが数か月間研究に取り組んでも進展がなかったが、専門家の指導を受けて 1 か月以内にタスクを完了したという状況を目にしたことがあります。 もっと劇的な例を挙げましょう。1970年代、自然言語処理の分野では、明確に区別された2つの学派の間で激しい戦いがありました。1つは、文法規則を使って音声認識を行おうとする「ルールベース学派」で、もう1つは、統計的手法に基づく「統計学派」です。同じ分野の研究に携わるこの2つの学者グループは、実際にはそれぞれ別々に学会を開催しており、同じ学会に参加する場合でも、別々の会場で小規模な会議を開催しなければなりませんでした。 1990年代までに、「統計学派」の認知度は90%を超え、「規則学派」の認知度は70%未満となり、勝者はすでに決まっていた(呉軍教授は著書「数学の美」の中で、この歴史について詳細かつ興味深い説明をしている)。しかし、もし博士課程の学生が 1970 年代に「ルールに基づく」学者になろうと決心していたとしたら、1990 年代に彼はどう感じていたでしょうか?
「入堂」の段階に達した後、良い選択をすることが特に重要です。そのような選択は、学問の方向性に限定されず、「学問をやる」または「産業をやる」など、より広い範囲に及びます。参考にできる経験として、人生で大きな決断ミスをすると、回復するのに基本的に 5 年かかります。誰もが、自分にはそのような 5 年がどれくらいあるかを考える必要があります。 3. 唯一の制限は、多くの場合、あなた自身の妥協である このセクションのタイトルを見ると、読者はこの記事が「有毒なチキンスープ」で終わると思うかもしれません。しかし、実際には、ここでの「妥協」は軽蔑的な言葉ではありません。少なくとも中立的な言葉だと思います。ある意味、誰もが最終的には何らかの「妥協」に達するでしょう。妥協しないということは、その裏に現状に合わない野心や願望があるということです。野心や願望が現実に合致すれば、必ず「妥協」が生まれます。これが華山剣術大会の秘密です。頂点に立つことができる者は、並外れた野心や願望を持っているに違いありません。もちろん、ここでの野心や願望は幅広く、学問の追求も指します。 ついに、予想通り「有毒チキンスープ」が登場しようとしています。著者の観察によると、各人の「妥協点」は自分で設定できるものではなく、一般的に影響を与えることもできないため、最終的に全員が到達する高さは決まっていることが多いようです。 しかし、著者の視点からすると、華山の頂上に立つことが必ずしも良いことだとは思いません。本当の「良い」とは、自分の「妥協点」を冷静に受け入れ、自分の「妥協点」で平和に幸せに働き、生活できることです。これが最も賢明な選択です。 |
<<: 既存のビッグデータ技術を使用して機械学習プラットフォームを構築する方法
>>: ソフトマックスボトルネックを超えて: 高ランク RNN 言語モデル
人工知能は、人間の生活に強固な物質的基盤を築くだけでなく、より多くの人々を単純で退屈な反復作業から解...
大学受験生にとって、出題される問題を全て知っていて、分からない問題の答えを暗記していることが一番幸せ...
[[234501]]この記事では、データサイエンスと機械学習の面接で遭遇する可能性のあるさまざまな質...
以前、ローカルで WeChat ロボットを構築する方法を紹介しました。昨日、クラスメートから、ローカ...
ニューラルネットワークの威力を示す証拠文字通り、普遍近似定理はニューラル ネットワークがどのように機...
北京時間3月5日、人工知能を使ったアルゴリズムが予想外のトリックで問題を解決しようとしており、開発者...
辞書マッチングの方法はないのでしょうか?なぜ複数の機械学習方法が必要なのでしょうか?辞書方式と機械学...
未来産業研究所は、顔認識市場規模は今後5年間で平均23%の複合成長率を維持し、2024年までに市場規...
最近、人工知能(AI)が再び人間に勝利しました。今回、人工知能はチェッカーやチェス、囲碁をプレイせず...
[[204846]] 1. 人工知能の応用と価値Andrew Ng 氏は、AI は新しい電気であると...
人工知能は主流になりました。さまざまな業界の企業が概念実証を成功させ、AI を本番環境に導入すること...