Liang Yanbo: データマイニングと機械学習アルゴリズム

電子商取引であれ、インターネット広告であれ、直接ユーザーと向き合うものであり、ユーザーの属性によってどの商品を購入するか、どの広告をクリックするかが決まります。そのため、これらの企業にとってユーザータグシステムを確立することは非常に重要です。

今年のWOTソフトウェアテクノロジーサミットでは、Xiaoxiang Technologyをカンファレンスの特別パートナーとして特別に招待し、ビッグデータコミュニティの技術エリートを集めて7月27日に特別なビッグデータトレーニングを開催しました。このトレーニングでは、主にユーザータグ付けシステムを確立する方法と、これらのタグ付けシステムを使用してビジネス価値を実現する方法について説明します。

[[116386]]

梁延博

ChinaHadoopコミュニティのコアメンバー

講師紹介: Meituan.com、データ開発およびデータマイニング、北京航空航天大学、コンピュータサイエンス修士、フランステレコムR&Dセンター、クラウドコンピューティングおよびビッグデータ研究者、Baiduインフラストラクチャ部門ストレージグループ、ソフトウェア開発インターンシップ、VMware中国R&Dセンタービッグデータ＆クラウドグループ、R&Dインターンシップ。

1. 技術的な観点から、今年ビッグデータがもたらすイノベーションは他にどのようなものがあると思いますか?全体的に、業界のアプリケーションとどのように組み合わせるのでしょうか?

技術的な観点から見ると、今年のビッグデータイノベーションは、主にSparkエコシステムの台頭、Hadoopエコシステムのリアルタイム化の進展、大手企業によるこれらのシステムとデータインフラストラクチャの利用と改善の継続的な深化など、いくつかの側面に反映されています。この傾向は、今年開催されたHadoop Summit（http://hadoopsummit.org/）とSpark Summit（http://spark-summit.org/2014）から見ることができます。産業応用の観点から見ると、ますます多くの業界や企業が、直面する問題を解決するためにこれらのテクノロジーを使い始めています。現在は、インターネット広告、電子商取引、検索エンジン、推奨システム、ゲームなど、ビッグデータ応用の従来の分野に主に集中しています。しかし、今年はインターネット金融などの新興分野の発展に伴い、これらの分野でも、直面する問題を解決するためにビッグデータの技術や手法を活用するケースが増えています。

2. 産業ビッグデータは実は昔から存在していたのですが、人によって捉え方が違います。その違いはどこにあると思いますか？

ビッグデータの産業応用は、ビッグデータから価値を生み出す鍵となります。よく話題になるHadoopやSparkなどのさまざまなシステムはデータ基盤であり、さまざまな業界で大量のデータを保存・蓄積するために使用されています。企業にとって、こうしたデータを蓄積する目的は商業価値を生み出すことです。そのため、Hadoop などのシステムに保存されたデータを商業価値に変換することは、さまざまな業界のデータサイエンティストが探求する必要があることです。さらに、この収益化または価値実現のポイントは、ビッグデータ時代の業界の中核であり鍵です。業界ビッグデータの鍵は、ビッグデータの手法を使って業界の情報統制レベルと核心的な問題を把握することだと考えています。

3. 業界のビッグデータを実装する際の技術的な難しさは何だと思いますか?

現在、業界におけるビッグデータの導入が困難なのは、人材不足が原因です。業界のビッグデータの実装には、業界分野に関するある程度の知識と理解を持ち、データ指向で問題を考える思考と方法を習得し、統計、コンピューター、その他のシステムやツールを使用して問題を解決できる人材が必要です。したがって、本質的には、業界のビッグデータ人材の需要は複雑であり、高い経験が求められます。比較的新しい分野であるにもかかわらず、市場ではこの分野の人材が依然として深刻に不足しています。

4. あなたが参加した従来のエンタープライズビッグデータプロジェクトについて教えてください。このプロジェクトはいくつのフェーズで構成されていますか?

私の現在の経験は主にインターネット企業のビッグデータプロジェクトです。

5. ビッグデータプロジェクトの実装は、既存のビジネス分析アーキテクチャにどのような影響を与えますか?

ビッグデータプロジェクトの実装は、既存のビジネス分析アーキテクチャに比較的大きな影響を及ぼします。これは、従来の企業がビッグデータを活用する上での主な困難でもあります。 1 つは、既存の IT インフラストラクチャがビッグデータ時代の分析およびマイニングのニーズに適応できないこと、もう 1 つは、既存のアナリストが依然として従来の分析の考え方を維持していることです。この違いを簡単に説明するために、いくつかの例を挙げてみましょう。これまで、企業の CRM システムは、ユーザーの取引情報しか記録できませんでした。取引情報はユーザーの最も重要な行動ですが、ユーザーが何を閲覧したか、どのような種類の製品をフィルタリングしたか、何を検索したか、どのような製品を集めたかなど、ユーザーが取引を行うように影響を与える情報は数多くあります。そのため、インターネット上で記録できるユーザー行動は非常に広範囲にわたり、これらのデータは企業の商業価値の実現にも非常に大きな影響を与えるため、データインフラストラクチャの構築には新たな課題が生じています。多くの従来のシステムとソフトウェアアーキテクチャは、もはや新しいビジネスニーズを満たすことができません。ビッグデータインフラストラクチャを構築するほとんどの企業にとって、オープンソースの Hadoop エコシステムは適切な選択肢です。

6. 多数のビッグデータアプリケーションツールの登場により、データアナリストの役割が置き換えられるでしょうか?

ビッグデータアプリケーションツールの大規模な出現は、データアナリストに取って代わるものではなく、データアナリストに新たな要求と課題をもたらすことになります。データアナリストは、これらのツールをビジネス思考と組み合わせて使用し、ビジネス価値を実現する必要があります。これが、私たちがよく言及するデータサイエンティストの役割です。ツールとアナリストの役割は互いに補完し合っています。ビッグデータ思考を使用してこれらのビジネス問題を解決することは特定の業界に密接に関連していますが、ツールには多くの業界属性がありません。そのため、アナリスト/データサイエンティストは、退屈なデータとコンピューターツールを活用し、業界のルールとビジネス特性を組み合わせてビジネス価値を実現する橋渡しの役割を果たす必要があります。

7. データは伝統的な企業にとって最も重要な資産です。ビッグデータの分散処理モードにおいて、データのセキュリティと整合性をどのように確保できるでしょうか?

データのセキュリティと整合性は、ビッグデータを使用する多くの従来型企業にとって主な懸念事項です。金融、通信などの伝統的な業界では、一般的にデータセキュリティに対する要件が比較的高いため、これらの分野ではビッグデータシステムとインフラストラクチャに対する要件も比較的高くなります。オープンソースの Hadoop コミュニティでは、セキュリティ関連の機能やコンポーネントも継続的に改善されています。たとえば、HDFS と HBase のセキュリティと権限管理の継続的な強化や、Cloudera のオープンソース Sentry は、セキュリティ、権限管理、認証メカニズムの豊富な機能を提供しており、企業が Hadoop エコシステムをビッグデータインフラストラクチャとして使用する道を開いています。

8. 51CTO主催のWOTソフトウェアテクノロジーサミットでは、ビッグデータに関する特別トレーニングが行われます。ここではどのような側面が関係するのでしょうか?このトレーニングに適した技術者は誰ですか?

このトレーニングでは、主にビッグデータの手法を使用してビジネスの世界の実際の問題を解決する方法を取り上げ、電子商取引のユーザータグシステムの事例を通じて紹介します。主に、データマイニングと機械学習のアルゴリズム、ツール、分散実装、データチームの構築と構成、ユーザーデータモデリング、および関連するケースが含まれます。これらの事例は比較的基本的なものですが、多くの業界では一般的です。これらの事例が、皆さんの業界やビジネスにビッグデータを適用する一助となれば幸いです。

<<: 01 コーヒーとsocket.ioで実装されたナップサックアルゴリズム

>>: 機械学習のアルゴリズム（2） - サポートベクターマシン（SVM）の基礎