Liang Yanbo: データマイニングと機械学習アルゴリズム

Liang Yanbo: データマイニングと機械学習アルゴリズム

電子商取引であれ、インターネット広告であれ、直接ユーザーと向き合うものであり、ユーザーの属性によってどの商品を購入するか、どの広告をクリックするかが決まります。そのため、これらの企業にとってユーザー タグ システムを確立することは非常に重要です。

今年のWOTソフトウェアテクノロジーサミットでは、Xiaoxiang Technologyをカンファレンスの特別パートナーとして特別に招待し、ビッグデータコミュニティの技術エリートを集めて7月27日に特別なビッグデータトレーニングを開催しました。このトレーニングでは、主にユーザー タグ付け システムを確立する方法と、これらのタグ付け システムを使用してビジネス価値を実現する方法について説明します。

[[116386]]

梁 延博

ChinaHadoopコミュニティのコアメンバー

講師紹介: Meituan.com、データ開発およびデータマイニング、北京航空航天大学、コンピュータサイエンス修士、フランステレコムR&Dセンター、クラウドコンピューティングおよびビッグデータ研究者、Baiduインフラストラクチャ部門ストレージグループ、ソフトウェア開発インターンシップ、VMware中国R&Dセンタービッグデータ&クラウドグループ、R&Dインターンシップ。

1. 技術的な観点から、今年ビッグデータがもたらすイノベーションは他にどのようなものがあると思いますか?全体的に、業界のアプリケーションとどのように組み合わせるのでしょうか?

技術的な観点から見ると、今年のビッグデータイノベーションは、主にSparkエコシステムの台頭、Hadoopエコシステムのリアルタイム化の進展、大手企業によるこれらのシステムとデータインフラストラクチャの利用と改善の継続的な深化など、いくつかの側面に反映されています。この傾向は、今年開催されたHadoop Summit(http://hadoopsummit.org/)とSpark Summit(http://spark-summit.org/2014)から見ることができます。産業応用の観点から見ると、ますます多くの業界や企業が、直面する問題を解決するためにこれらのテクノロジーを使い始めています。現在は、インターネット広告、電子商取引、検索エンジン、推奨システム、ゲームなど、ビッグデータ応用の従来の分野に主に集中しています。しかし、今年はインターネット金融などの新興分野の発展に伴い、これらの分野でも、直面する問題を解決するためにビッグデータの技術や手法を活用するケースが増えています。

2. 産業ビッグデータは実は昔から存在していたのですが、人によって捉え方が違います。その違いはどこにあると思いますか?

ビッグデータの産業応用は、ビッグデータから価値を生み出す鍵となります。よく話題になるHadoopやSparkなどのさまざまなシステムはデータ基盤であり、さまざまな業界で大量のデータを保存・蓄積するために使用されています。企業にとって、こうしたデータを蓄積する目的は商業価値を生み出すことです。そのため、Hadoop などのシステムに保存されたデータを商業価値に変換することは、さまざまな業界のデータ サイエンティストが探求する必要があることです。さらに、この収益化または価値実現のポイントは、ビッグ データ時代の業界の中核であり鍵です。業界ビッグデータの鍵は、ビッグデータの手法を使って業界の情報統制レベルと核心的な問題を把握することだと考えています。

3. 業界のビッグデータを実装する際の技術的な難しさは何だと思いますか?

現在、業界におけるビッグデータの導入が困難なのは、人材不足が原因です。業界のビッグデータの実装には、業界分野に関するある程度の知識と理解を持ち、データ指向で問題を考える思考と方法を習得し、統計、コンピューター、その他のシステムやツールを使用して問題を解決できる人材が必要です。したがって、本質的には、業界のビッグデータ人材の需要は複雑であり、高い経験が求められます。比較的新しい分野であるにもかかわらず、市場ではこの分野の人材が依然として深刻に不足しています。

4. あなたが参加した従来のエンタープライズ ビッグデータ プロジェクトについて教えてください。このプロジェクトはいくつのフェーズで構成されていますか?

私の現在の経験は主にインターネット企業のビッグデータプロジェクトです。

5. ビッグデータ プロジェクトの実装は、既存のビジネス分析アーキテクチャにどのような影響を与えますか?

ビッグデータ プロジェクトの実装は、既存のビジネス分析アーキテクチャに比較的大きな影響を及ぼします。これは、従来の企業がビッグデータを活用する上での主な困難でもあります。 1 つは、既存の IT インフラストラクチャがビッグデータ時代の分析およびマイニングのニーズに適応できないこと、もう 1 つは、既存のアナリストが依然として従来の分析の考え方を維持していることです。この違いを簡単に説明するために、いくつかの例を挙げてみましょう。これまで、企業の CRM システムは、ユーザーの取引情報しか記録できませんでした。取引情報はユーザーの最も重要な行動ですが、ユーザーが何を閲覧したか、どのような種類の製品をフィルタリングしたか、何を検索したか、どのような製品を集めたかなど、ユーザーが取引を行うように影響を与える情報は数多くあります。そのため、インターネット上で記録できるユーザー行動は非常に広範囲にわたり、これらのデータは企業の商業価値の実現にも非常に大きな影響を与えるため、データ インフラストラクチャの構築には新たな課題が生じています。多くの従来のシステムとソフトウェア アーキテクチャは、もはや新しいビジネス ニーズを満たすことができません。ビッグ データ インフラストラクチャを構築するほとんどの企業にとって、オープン ソースの Hadoop エコシステムは適切な選択肢です。

6. 多数のビッグデータ アプリケーション ツールの登場により、データ アナリストの役割が置き換えられるでしょうか?

ビッグデータ アプリケーション ツールの大規模な出現は、データ アナリストに取って代わるものではなく、データ アナリストに新たな要求と課題をもたらすことになります。データアナリストは、これらのツールをビジネス思考と組み合わせて使用​​し、ビジネス価値を実現する必要があります。これが、私たちがよく言及するデータサイエンティストの役割です。ツールとアナリストの役割は互いに補完し合っています。ビッグデータ思考を使用してこれらのビジネス問題を解決することは特定の業界に密接に関連していますが、ツールには多くの業界属性がありません。そのため、アナリスト/データサイエンティストは、退屈なデータとコンピューターツールを活用し、業界のルールとビジネス特性を組み合わせてビジネス価値を実現する橋渡しの役割を果たす必要があります。

7. データは伝統的な企業にとって最も重要な資産です。ビッグデータの分散処理モードにおいて、データのセキュリティと整合性をどのように確保できるでしょうか?

データのセキュリティと整合性は、ビッグデータを使用する多くの従来型企業にとって主な懸念事項です。金融、通信などの伝統的な業界では、一般的にデータセキュリティに対する要件が比較的高いため、これらの分野ではビッグデータシステムとインフラストラクチャに対する要件も比較的高くなります。オープンソースの Hadoop コミュニティでは、セキュリティ関連の機能やコンポーネントも継続的に改善されています。たとえば、HDFS と HBase のセキュリティと権限管理の継続的な強化や、Cloudera のオープンソース Sentry は、セキュリティ、権限管理、認証メカニズムの豊富な機能を提供しており、企業が Hadoop エコシステムをビッグデータ インフラストラクチャとして使用する道を開いています。

8. 51CTO主催のWOTソフトウェアテクノロジーサミットでは、ビッグデータに関する特別トレーニングが行われます。ここではどのような側面が関係するのでしょうか?このトレーニングに適した技術者は誰ですか?

このトレーニングでは、主にビッグデータの手法を使用してビジネスの世界の実際の問題を解決する方法を取り上げ、電子商取引のユーザー タグ システムの事例を通じて紹介します。主に、データマイニングと機械学習のアルゴリズム、ツール、分散実装、データチームの構築と構成、ユーザーデータモデリング、および関連するケースが含まれます。これらの事例は比較的基本的なものですが、多くの業界では一般的です。これらの事例が、皆さんの業界やビジネスにビッグデータを適用する一助となれば幸いです。

<<:  01 コーヒーとsocket.ioで実装されたナップサックアルゴリズム

>>:  機械学習のアルゴリズム(2) - サポートベクターマシン(SVM)の基礎

推薦する

無料の Python 機械学習コース パート 4: ロジスティック回帰アルゴリズム

ロジスティック回帰は、前世紀以来人気の手法です。カテゴリ変数と 1 つ以上の独立変数間の関係を確立し...

人体に入り込んで手術ができる「ソフトロボット」が登場し、2040年には宇宙に送り込まれるかも!

人工知能の活発な発展は大きな論争を引き起こしています。発展の一般的な傾向からすると、これはデメリット...

PHP 再帰アルゴリズムとアプリケーションの紹介

PHP は動的な Web ページを開発するための最適なテクノロジーです。プログラミングに役立つ基本的...

顔認識は終わったのか?最初の「顔ハイジャック」型バンキングトロイの木馬が誕生

各人の顔、指紋、虹彩の情報はそれぞれ固有であり偽造が困難であるため、生体認証は長年にわたり究極の本人...

RedditユーザーがAppleのCSAMツールをリバースエンジニアリングし、アルゴリズムがすでに存在していることを発見

[[418306]]今月初め、アップルはエコシステム全体に新たな子どもの安全機能を導入すると発表し...

「トランスフォーマー」は5年でクレイジーなCNNに取って代わりました!トランスフォーマーは人工知能を支配するのでしょうか?

AI業界では今や誰もが知る名前となったTransformerが、これほど短期間でなぜこれほど人気を...

AI専門家の李牧氏の「5年間の仕事の反省」が人気に、ネットユーザー「また感動した」

[[401713]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...

人工知能とモノのインターネットの動的な統合を探る(パート 3)

1. IoT AIによるパーソナライズされたインテリジェントなユーザーエクスペリエンスIoT の人...

デザイナーに必須の AI ツール 11 選

翻訳者 |ブガッティレビュー | Chonglou急速に進化する今日のデザイン環境において、人工知能...

人工知能が建設業界の様相を変えている

建設業は最も長い歴史を持つ産業の一つであると言えます。結局のところ、人々は数千年前から様々なタイプの...

必要なものを教えていただければ、当社のAIがコードを作成します

何をしたいのかを伝えるだけで、AI が自動的にコードを作成します。今、私たちはこの目標に一歩近づきま...

世界的なIT大手はAIを活用してデータセンターのエネルギー節約と排出量削減に取り組んでいる

データ センターは、世界中の何十億もの人々が毎日使用するアプリケーション、Web サイト、サービスに...

ドローンはサメに対する私たちの考え方を変えている、と研究で判明

Google で「サメ」と検索すると、サメ​​の目撃情報に関する最近のニュースの見出しがいくつか表示...

ロボット犬をDIYするにはどれくらいの費用がかかりますか?価格は900ドルと安く、スタンフォード大学が開発し、コードはオープンソースです

たった 900 ドルで四足ロボット犬を DIY できる?スタンフォード学生ロボットクラブの新メンバー...