初心者からビッグデータ人工知能の専門家になるまでの学習プロセス

ビッグデータ処理技術をどのように学ぶか？まず、Python言語とLinuxオペレーティングシステムを学ぶ必要があります。この2つはビッグデータを学ぶ基礎です。学習の順序は特にありません。

Python: Python のランキングは人工知能の助けにより昨年から上昇を続け、今ではトップの言語となっています。

学習の難しさという観点から見ると、「エレガントさ」のために生まれた言語として、Python は構文がシンプルで明確であり、基礎となるレイヤーをうまくカプセル化しており、非常に使いやすい高級言語です。低レベルのプログラム開発に慣れている一部の「ハードコア」プログラマーの目には、Python は単なる「疑似コード」の一種に過ぎません。

[[205844]]

ビッグデータとデータサイエンスの分野では、Python がほぼ最高です。あらゆるクラスターアーキテクチャソフトウェアが Python をサポートしており、Python には豊富なデータサイエンスライブラリもあるため、Python を学習する必要があります。

Linux:ビッグデータ関連のソフトウェアはすべて Linux 上で実行されるため、Linux をよりしっかりと学習する必要があります。Linux をしっかり学習することは、ビッグデータ関連のテクノロジーを迅速に習得するのに非常に役立ちます。Hadoop、Hive、HBase、Spark などのビッグデータソフトウェアの動作環境とネットワーク環境の構成をよりよく理解し、多くの落とし穴を回避するのに役立ちます。シェルを学習すると、スクリプトを理解するのに役立ち、ビッグデータクラスターを理解して構成しやすくなります。また、新しいビッグデータテクノロジーをより早く習得するのにも役立ちます。

基本的な部分は説明したので、次に、他にどのようなビッグデータ技術を学ぶ必要があるかについて説明します。これらは、私が書いた順序で学ぶことができます。

Hadoop:ビッグデータとほぼ同義語となっている人気のビッグデータ処理プラットフォームなので、必ず習得する必要があります。 Hadoop には、HDFS、MapReduce、YARN などのコンポーネントが含まれています。HDFS は、コンピュータのハードドライブのように、データを保存する場所です。すべてのファイルはここに保存されます。MapReduce は、データの処理と計算を行います。データがどれだけ大きくても、時間さえあれば処理を終えることができるという特徴がありますが、その時間はあまり速くない場合があるため、データのバッチ処理と呼ばれます。 YARN は、Hadoop プラットフォームの概念を具体化する重要なコンポーネントです。これにより、ビッグデータエコシステムの他のソフトウェアを Hadoop 上で実行できるようになり、HDFS の大規模ストレージの利点をより有効に活用し、より多くのリソースを節約できます。たとえば、Spark クラスターを別途構築する必要はなく、既存の Hadoop YARN 上で直接実行できます。実際、Hadoop のこれらのコンポーネントを理解すれば、ビッグデータを処理できます。ただし、「ビッグデータ」がどの程度大きいのかはよくわからないかもしれません。私の話を聞いて、心配しないでください。仕事を始めると、多くの場面で数十テラバイト、数百テラバイトの大規模データに遭遇することになります。その頃には、大量のデータが素晴らしいとは思わなくなります。データが大きければ大きいほど、頭を悩ませる問題も増えるでしょう。もちろん、このような大量のデータの処理を恐れる必要はありません。そこにこそあなたの価値が宿るのです。Javaee、PHP、HTML5、DBA たちがあなたを羨むことでしょう。

ここで学んだことは、ビッグデータの研究の出発点として役立つことを覚えておいてください。

Zookeeper:これは万能薬です。Hadoop の HA をインストールするときに使用され、将来的には Hbase でも使用されます。これは通常、比較的小さく、通常は 1 MB を超えない共同作業情報を保存するために使用されます。これを使用するすべてのソフトウェアはこれに依存しています。私たち個人としては、これを正しくインストールして正常に実行させるだけで十分です。

Mysql:ビッグデータを処理する方法を学びました。次に、小さなデータを処理するためのツールである MySQL データベースについて学びましょう。これは、hive のインストール時に使用するためです。どのレベルの MySQL を習得する必要がありますか? Linux にインストールして実行し、簡単な権限を設定し、ルートパスワードを変更して、データベースを作成できます。ここで重要なのは、SQL 構文を学ぶことです。Hive の構文はこれに非常に似ているためです。

Sqoop: MySQL から Hadoop にデータをインポートするために使用されます。もちろん、これを使用しないでください。MySQL データテーブルをファイルにエクスポートして、HDFS に配置することもできます。もちろん、本番環境で使用する場合は、MySQL の負荷に注意する必要があります。

Hive:これは、SQL 構文を知っている人にとっては魔法のツールです。MapReduce プログラムを苦労して作成しなくても、ビッグデータを簡単に処理できます。 Pig と言う人もいますが、Pig に似ているので、1 つだけをマスターすれば十分です。

Oozie: Hive を学んだので、これは必要だと思います。Hive や MapReduce、Spark スクリプトを管理し、プログラムが正しく実行されているかどうかを確認するのに役立ちます。エラーがある場合は、アラームが送信され、プログラムを再試行するのに役立ちます。最も重要なのは、タスクの依存関係を構成するのに役立つことです。きっと気に入っていただけると思います。そうでなければ、スクリプトの山と密集したクロンを見たときに気分が悪くなるでしょう。

Hbase:これは Hadoop エコシステムの NOSQL データベースです。データはキーと値の形式で保存され、キーは一意であるため、データの重複排除に使用できます。MYSQL よりもはるかに多くのデータを保存できます。そのため、ビッグデータの処理が完了した後の保存先として利用されることが多いです。

Kafka:これは比較的使いやすいキューツールです。キューは何のためにあるのでしょうか? チケットを購入するためにキューに並ぶ方法を知っていますか? 大量のデータがある場合、それもキューで処理する必要があります。このようにして、あなたと共同作業する他の学生が文句を言ったり、なぜ私にそんなに多くのデータ (数百 GB のファイルなど) を渡したのか、どのように処理できるのか尋ねたりすることはなくなります。彼らがビッグデータに弱いからといって彼らを責めないでください。私はデータをキューに入れたので、使用するときに 1 つずつ取り出すことができると伝えることができます。このようにして、彼らは文句を言うのをやめ、すぐにプログラムの最適化を開始します。なぜなら、彼らがそれを処理できないのは彼らの問題だからです。あなたが尋ねた質問よりも。もちろん、このツールを使用してオンラインのリアルタイムデータや HDFS を保存することもできます。このとき、単純なデータ処理を提供し、さまざまなデータ受信者 (Kafka など) に書き込むために特別に使用される Flume というツールと組み合わせて使用できます。

Spark: MapReduce ベースのデータ処理速度の欠点を補うために使用されます。非常に遅いハードディスクからデータを読み込まず、メモリにデータをロードして計算する機能を備えています。これは反復操作に特に適しているため、アルゴリズム開発者に特に好まれます。 Scalaで書かれています。どちらも JVM を使用するため、Java 言語でも Scala でも操作できます。

これらのことを知っていれば、あなたはプロのビッグデータ開発エンジニアになれます。月給2万元はほんのわずかな額です。

その後の改善：ビッグデータと人工知能を組み合わせ、真のデータサイエンティストになり、データサイエンスの人徳経絡を開き、会社の技術専門家になります。このとき、月給は再び2倍になり、会社の中核的なバックボーンになります。

機械学習 (ML):確率論、統計、近似理論、凸解析、アルゴリズム複雑性理論などの分野を含む、複数の分野にまたがる学際的な科目です。これは人工知能の中核であり、コンピューターをインテリジェントにする基本的な方法です。その応用は人工知能のすべての分野に広がっています。演繹ではなく、主に帰納法と合成法を使用します。機械学習のアルゴリズムは基本的に固定されており、比較的簡単に学習できます。

ディープラーニング (DL):ディープラーニングの概念は人工ニューラルネットワークの研究から生まれ、近年急速に発展しました。ディープラーニングアプリケーションの例としては、AlphaGo、顔認識、画像検出などが挙げられます。国内外で人材が不足していますが、ディープラーニングは比較的難しく、アルゴリズムも比較的早く更新されるため、経験豊富な講師から学ぶ必要があります。

最も早く学ぶ方法は、業界の専門家の下で学び、講師の長年の蓄積された経験から学び、回り道を避けて半分の労力で2倍の結果を達成することです。古来より、優れた教師は優れた生徒を育ててきました。

<<: Xunlei 創設者 Cheng Hao: 人工知能起業における 6 つの核心課題

>>: Java データ構造とアルゴリズム分析 (VIII) - スプレーツリー