Liang Yanbo: データマイニングと機械学習アルゴリズム

Liang Yanbo: データマイニングと機械学習アルゴリズム

電子商取引であれ、インターネット広告であれ、直接ユーザーと向き合うものであり、ユーザーの属性によってどの商品を購入するか、どの広告をクリックするかが決まります。そのため、これらの企業にとってユーザー タグ システムを確立することは非常に重要です。

今年のWOTソフトウェアテクノロジーサミットでは、Xiaoxiang Technologyをカンファレンスの特別パートナーとして特別に招待し、ビッグデータコミュニティの技術エリートを集めて7月27日に特別なビッグデータトレーニングを開催しました。このトレーニングでは、主にユーザー タグ付け システムを確立する方法と、これらのタグ付け システムを使用してビジネス価値を実現する方法について説明します。

[[116386]]

梁 延博

ChinaHadoopコミュニティのコアメンバー

講師紹介: Meituan.com、データ開発およびデータマイニング、北京航空航天大学、コンピュータサイエンス修士、フランステレコムR&Dセンター、クラウドコンピューティングおよびビッグデータ研究者、Baiduインフラストラクチャ部門ストレージグループ、ソフトウェア開発インターンシップ、VMware中国R&Dセンタービッグデータ&クラウドグループ、R&Dインターンシップ。

1. 技術的な観点から、今年ビッグデータがもたらすイノベーションは他にどのようなものがあると思いますか?全体的に、業界のアプリケーションとどのように組み合わせるのでしょうか?

技術的な観点から見ると、今年のビッグデータイノベーションは、主にSparkエコシステムの台頭、Hadoopエコシステムのリアルタイム化の進展、大手企業によるこれらのシステムとデータインフラストラクチャの利用と改善の継続的な深化など、いくつかの側面に反映されています。この傾向は、今年開催されたHadoop Summit(http://hadoopsummit.org/)とSpark Summit(http://spark-summit.org/2014)から見ることができます。産業応用の観点から見ると、ますます多くの業界や企業が、直面する問題を解決するためにこれらのテクノロジーを使い始めています。現在は、インターネット広告、電子商取引、検索エンジン、推奨システム、ゲームなど、ビッグデータ応用の従来の分野に主に集中しています。しかし、今年はインターネット金融などの新興分野の発展に伴い、これらの分野でも、直面する問題を解決するためにビッグデータの技術や手法を活用するケースが増えています。

2. 産業ビッグデータは実は昔から存在していたのですが、人によって捉え方が違います。その違いはどこにあると思いますか?

ビッグデータの産業応用は、ビッグデータから価値を生み出す鍵となります。よく話題になるHadoopやSparkなどのさまざまなシステムはデータ基盤であり、さまざまな業界で大量のデータを保存・蓄積するために使用されています。企業にとって、こうしたデータを蓄積する目的は商業価値を生み出すことです。そのため、Hadoop などのシステムに保存されたデータを商業価値に変換することは、さまざまな業界のデータ サイエンティストが探求する必要があることです。さらに、この収益化または価値実現のポイントは、ビッグ データ時代の業界の中核であり鍵です。業界ビッグデータの鍵は、ビッグデータの手法を使って業界の情報統制レベルと核心的な問題を把握することだと考えています。

3. 業界のビッグデータを実装する際の技術的な難しさは何だと思いますか?

現在、業界におけるビッグデータの導入が困難なのは、人材不足が原因です。業界のビッグデータの実装には、業界分野に関するある程度の知識と理解を持ち、データ指向で問題を考える思考と方法を習得し、統計、コンピューター、その他のシステムやツールを使用して問題を解決できる人材が必要です。したがって、本質的には、業界のビッグデータ人材の需要は複雑であり、高い経験が求められます。比較的新しい分野であるにもかかわらず、市場ではこの分野の人材が依然として深刻に不足しています。

4. あなたが参加した従来のエンタープライズ ビッグデータ プロジェクトについて教えてください。このプロジェクトはいくつのフェーズで構成されていますか?

私の現在の経験は主にインターネット企業のビッグデータプロジェクトです。

5. ビッグデータ プロジェクトの実装は、既存のビジネス分析アーキテクチャにどのような影響を与えますか?

ビッグデータ プロジェクトの実装は、既存のビジネス分析アーキテクチャに比較的大きな影響を及ぼします。これは、従来の企業がビッグデータを活用する上での主な困難でもあります。 1 つは、既存の IT インフラストラクチャがビッグデータ時代の分析およびマイニングのニーズに適応できないこと、もう 1 つは、既存のアナリストが依然として従来の分析の考え方を維持していることです。この違いを簡単に説明するために、いくつかの例を挙げてみましょう。これまで、企業の CRM システムは、ユーザーの取引情報しか記録できませんでした。取引情報はユーザーの最も重要な行動ですが、ユーザーが何を閲覧したか、どのような種類の製品をフィルタリングしたか、何を検索したか、どのような製品を集めたかなど、ユーザーが取引を行うように影響を与える情報は数多くあります。そのため、インターネット上で記録できるユーザー行動は非常に広範囲にわたり、これらのデータは企業の商業価値の実現にも非常に大きな影響を与えるため、データ インフラストラクチャの構築には新たな課題が生じています。多くの従来のシステムとソフトウェア アーキテクチャは、もはや新しいビジネス ニーズを満たすことができません。ビッグ データ インフラストラクチャを構築するほとんどの企業にとって、オープン ソースの Hadoop エコシステムは適切な選択肢です。

6. 多数のビッグデータ アプリケーション ツールの登場により、データ アナリストの役割が置き換えられるでしょうか?

ビッグデータ アプリケーション ツールの大規模な出現は、データ アナリストに取って代わるものではなく、データ アナリストに新たな要求と課題をもたらすことになります。データアナリストは、これらのツールをビジネス思考と組み合わせて使用​​し、ビジネス価値を実現する必要があります。これが、私たちがよく言及するデータサイエンティストの役割です。ツールとアナリストの役割は互いに補完し合っています。ビッグデータ思考を使用してこれらのビジネス問題を解決することは特定の業界に密接に関連していますが、ツールには多くの業界属性がありません。そのため、アナリスト/データサイエンティストは、退屈なデータとコンピューターツールを活用し、業界のルールとビジネス特性を組み合わせてビジネス価値を実現する橋渡しの役割を果たす必要があります。

7. データは伝統的な企業にとって最も重要な資産です。ビッグデータの分散処理モードにおいて、データのセキュリティと整合性をどのように確保できるでしょうか?

データのセキュリティと整合性は、ビッグデータを使用する多くの従来型企業にとって主な懸念事項です。金融、通信などの伝統的な業界では、一般的にデータセキュリティに対する要件が比較的高いため、これらの分野ではビッグデータシステムとインフラストラクチャに対する要件も比較的高くなります。オープンソースの Hadoop コミュニティでは、セキュリティ関連の機能やコンポーネントも継続的に改善されています。たとえば、HDFS と HBase のセキュリティと権限管理の継続的な強化や、Cloudera のオープンソース Sentry は、セキュリティ、権限管理、認証メカニズムの豊富な機能を提供しており、企業が Hadoop エコシステムをビッグデータ インフラストラクチャとして使用する道を開いています。

8. 51CTO主催のWOTソフトウェアテクノロジーサミットでは、ビッグデータに関する特別トレーニングが行われます。ここではどのような側面が関係するのでしょうか?このトレーニングに適した技術者は誰ですか?

このトレーニングでは、主にビッグデータの手法を使用してビジネスの世界の実際の問題を解決する方法を取り上げ、電子商取引のユーザー タグ システムの事例を通じて紹介します。主に、データマイニングと機械学習のアルゴリズム、ツール、分散実装、データチームの構築と構成、ユーザーデータモデリング、および関連するケースが含まれます。これらの事例は比較的基本的なものですが、多くの業界では一般的です。これらの事例が、皆さんの業界やビジネスにビッグデータを適用する一助となれば幸いです。

<<:  01 コーヒーとsocket.ioで実装されたナップサックアルゴリズム

>>:  機械学習のアルゴリズム(2) - サポートベクターマシン(SVM)の基礎

ブログ    

推薦する

自動運転ユニコーンは詐欺的すぎて、ルカン氏でさえ確信している

これは普通の自動運転ビデオだと思いますか?写真いいえ、いいえ、いいえ...これは実際には AI によ...

PaddlePaddleディープラーニングオープンソースプラットフォーム:中国のAI船が皆の漕ぎを待っている

[51CTO.com オリジナル記事]序文: ちょっとした歴史10年前、私が学校で上司と一緒に画像認...

コーディングが ChatGPT を圧倒します! UIUCと清華大学が共同で7BパラメータのMagicorderをリリース、コードデータの重みは完全にオープンソース

オープンソースの「ビッグコードモデル」が登場しました。 UIUC 清華大学の研究者チームは、70 億...

...

...

感動して泣きました。ロボットはついに自分で服をたたむことを覚えました。

人間の子どもの最も基本的な運動知能、例えばつかむ、持ち上げる、あるいはキルトや衣服をたたむといった家...

...

...

スマート病院は現実に近づいているのでしょうか?

[[389620]]画像ソース: https://pixabay.com/images/id-60...

AIは地球上のあらゆる言語を翻訳できるよう自ら学習できる

fastcompany によると、最近登場した 2 つの機械翻訳システムは、人間が翻訳したテキストか...

スマートリテール特別セッションの登録が開始されました。Baidu Brainが上海でAI+リテールの新たな活用法について議論します。

小売業と聞いて何を思い浮かべますか?独身の日のお買い物ラッシュ?クリスマス カーニバル?それとも階下...

2022年に注目すべき4つのRPAトレンド

ロボティック・プロセス・オートメーション (RPA) はもはや目新しいものではなく、進化し成熟しつつ...

「小さいけれど優秀」な大規模言語モデル Zephyr 7B の詳細な説明

Zephyr は、Hugging Face がリリースした一連の大規模言語モデルであり、蒸留教師あり...

人工知能:ニューノーマルにおける成長促進要因

SHRMのレポートによると、中小企業経営者の43%がパンデミック中に事業を生き残るための新たな方法を...

TensorFlow2 を使用してアラビア語の手書き文字データセットを認識する方法を説明します

[[405478]]このチュートリアルでは、TensorFlow (Keras API) を使用して...