ビッグデータと人工知能の関係、総合的な分析

ビッグデータと人工知能の関係、総合的な分析

ビッグデータはクラウドコンピューティングを採用

PaaS レイヤーの複雑な汎用アプリケーションは、ビッグデータ プラットフォームです。ビッグデータはどのようにして段階的にクラウド コンピューティングに統合されるのでしょうか?

1. 小さなデータにも知恵が詰まっている

当初、このビッグデータは大きなものではありませんでした。昔はどのくらいデータがあったのでしょうか?今では誰もが電子書籍を読んだり、ニュースを探すためにインターネットをサーフィンしたりしています。1980年代に私たちが子供だった頃は、情報量はそれほど多くありませんでした。本や新聞を読むだけでした。1週間の新聞には、何語ありましたか?大都市でなければ、普通の学校の図書館には、合計でそれほど多くの本棚はありません。情報化が進み、情報がますます豊富になったのは、その後になってからです。

まず、ビッグデータに含まれるデータを見てみましょう。ビッグデータは、構造化データ、非構造化データ、半構造化データの3種類に分けられます。

  • 構造化データ: 形式が固定され、長さが制限されたデータ。たとえば、フォームへの入力は構造化データであり、国籍:中華人民共和国、民族:漢族、性別:男性、これらはすべて構造化データと呼ばれます。
  • 非構造化データ: 長さが不定で形式が固定されていない非構造化データの量が増加しています。たとえば、Web ページは非常に長い場合もあれば、数文だけの場合もあります。たとえば、音声やビデオも非構造化データです。
  • 半構造化データ: XML または HTML 形式です。テクノロジーに携わっていない人には理解できないかもしれませんが、問題ありません。

実際、データ自体は有用ではなく、特定の方法で処理する必要があります。例えば、毎日ランニングするときに身につけているブレスレットが収集するデータもデータであり、インターネット上の多くのウェブページもデータであり、私たちはこれをデータと呼んでいます。データ自体は役に立たないが、情報と呼ばれる非常に重要なものが含まれています。

データは非常に乱雑であり、整理され、クリーンアップされた後にのみ情報と呼ぶことができます。情報には多くのルールが含まれます。情報からルールをまとめる必要があり、これを知識と呼び、知識が運命を変えます。情報はたくさんありますが、人によっては見るだけ時間の無駄です。しかし、情報の中にeコマースの未来を見る人もいれば、ライブストリーミングの未来を見る人もいるので、すごいことになります。情報から知識を引き出さなければ、友人のサークルを毎日チェックしても、インターネットの巨大な波の中で傍観者になるだけです。私は自分でビッグデータ学習・交流グループ458345782を構築しました。グループのメンバーは全員ビッグデータ開発を学んでいます。ビッグデータを学んでいる方は、ぜひ参加してください。私たちは全員ソフトウェア開発者で、最新のビッグデータ上級資料や私がまとめた上級開発チュートリアルなど、役立つ情報を随時共有しています(ビッグデータソフトウェア開発に関連するもののみ)。進歩の過程にあり、ビッグデータをさらに深く掘り下げたい友人は、ぜひ参加してください。

したがって、データの応用は、データ、情報、知識、知恵の 4 つのステップに分かれています。

最終段階は多くの企業が望んでいるものです。ご存知のとおり、私は非常に多くのデータを収集しました。このデータを活用して、次の決定を下し、製品を改善できますか?たとえば、ユーザーが動画を視聴しているときに、ユーザーが購入したい商品の広告がユーザーの隣にポップアップ表示される場合があります。また、ユーザーが音楽を聴いているときに、ユーザーが本当に聴きたい別の音楽が推奨される場合があります。

私にとって、アプリやウェブサイト上でユーザーがクリックしたり、テキストを入力したりすることは、すべてデータです。そこから特定のものを抽出し、実践を導き、知恵を形にして、ユーザーが私のアプリに夢中になるようになればいいのです。一度私のウェブサイトにアクセスすると、離れられなくなり、クリックして購入し続けるようになるのです。

多くの人が、ダブルイレブンの間はインターネットから離れたいと言います。なぜなら、私の妻はオンラインで買い物をし続けるからです。商品 A を購入した後、彼女は商品 B を勧めます。私の妻は、「ああ、私も商品 B が好きよ。ハニー、それ買いたいわ。」と言います。このプログラムはどうしてこんなに素晴らしくて賢いのでしょうか? 私よりも妻のことをよく知っています。どうやってこんなことができたのでしょうか?

2データを知恵に変える方法

データ処理はいくつかのステップに分かれており、それらが完了したときにのみ知恵が生まれます。

最初のステップはデータ収集と呼ばれます。まず、データが必要です。データを収集する方法は 2 つあります。

最初の方法は、それを取ることです。これは、より専門的には、這う、または這うと呼ばれます。たとえば、検索エンジンはインターネット上のすべての情報をデータセンターにダウンロードし、その後検索できるようにします。たとえば、検索すると、結果はリストになります。なぜこのリストが検索エンジン会社にあるのでしょうか? それは、検索エンジン会社がすべてのデータを取得しているからです。ただし、リンクをクリックすると、Web サイトは検索エンジン会社に存在しなくなります。たとえば、Sina にニュースがあり、それを Baidu で検索すると、クリックしない限りそのページは Baidu のデータセンターにありますが、クリックすると表示されるページは Sina のデータセンターにあります。

2 番目の方法は push です。データ収集に役立つ端末はたくさんあります。たとえば、Xiaomi ブレスレットは、毎日のランニングデータ、心拍数データ、睡眠データをデータセンターにアップロードできます。

2 番目のステップはデータの送信です。データ量が非常に多いため、データが使用可能になる前に処理する必要があるため、これは通常キューで実行されます。しかし、システムですべてを処理することはできなかったため、キューに入れてゆっくりと処理する必要がありました。

3番目のステップはデータの保存です。今やデータはお金であり、データをマスターすることはお金をマスターすることと同じです。そうでなければ、ウェブサイトはあなたが何を購入したいのかをどうやって知るのでしょうか? それは、ウェブサイトがあなたの過去の取引データを持っているからです。この情報は他人に渡すことはできません。非常に貴重な情報なので、保存する必要があります。

4番目のステップはデータの処理と分析です。上記に保存されているデータは生データです。生データはほとんどが整理されておらず、ジャンクデータが多く含まれています。そのため、高品質のデータを取得するには、生データをクリーンアップしてフィルタリングする必要があります。高品質なデータの場合、分析を実行してデータを分類したり、データ間の関係性を発見して知識を得たりすることができます。

例えば、ウォルマートスーパーマーケットのビールとおむつの人気話は、人々の購買データを分析した結果に基づいていました。男性は一般的にビールを買うと同時におむつも買うことが分かりました。このようにして、ビールとおむつの関係性が発見され、知識が得られました。そして、これを実際に応用し、ビール売り場とおむつ売り場を非常に近い場所に設置し、知恵を得ました。

5 番目のステップは、データの取得とマイニングです。検索とは検索することです。外部の事柄について疑問があればGoogleに尋ね、国内の事柄について疑問があればBaiduに尋ねます。国内外の検索エンジンは分析したデータを検索エンジンに載せているので、人々が情報を探したいときには、一度の検索で見つけることができます。

もう一つはマイニングです。検索だけではもはや人々のニーズを満たすことはできず、情報間の関係性をマイニングすることも必要です。例えば、金融検索で、ある会社の株を検索するとき、その会社の役員も掘り出すべきでしょうか?その会社の株だけを検索して、特に上昇していることがわかったので買ってみたものの、実際にはその会社の役員がその株に非常に不利な声明を出し、翌日株価が下がったとしたら、これは大多数の投資家に損害を与えるのではないでしょうか?したがって、さまざまなアルゴリズムを通じてデータ内の関係性を掘り出し、知識ベースを形成することが非常に重要です。

3. ビッグデータの時代では、誰もがより明るい未来に貢献します

データ量が少ない場合、少数のマシンしかそれを処理できません。徐々に、データの量がどんどん大きくなり、最も強力なサーバーでも問題を解決できない場合、どうすればよいでしょうか。このとき、複数のマシンのパワーを集約し、全員が協力して仕事を成し遂げる必要があります。全員が燃料を追加すれば、火はさらに燃え上がります。

データ収集について: IoTに関しては、屋外に数千の検出装置を配置して、大量の温度、湿度、監視、電力などのデータを収集します。インターネットのウェブページの検索エンジンに関しては、インターネット全体のすべてのウェブページをダウンロードする必要があります。これは当然、1 台のマシンだけで実行できるものではありません。Web クローラー システムを形成するには、複数のマシンが必要です。各マシンは部分をダウンロードし、同時に動作して、限られた時間内に大量の Web ページをダウンロードします。

データ転送について:メモリ内のキューは大量のデータで確実に圧倒されるため、ハードディスクに基づく分散キューが作成され、キューが複数のマシンによって同時に転送できるようになります。データ量がどれだけ大きくても、十分なキューがあり、パイプラインが十分に厚い限り、処理できます。

データ保存に関して: 1 台のマシンのファイル システムではすべてのデータを収容できないため、複数のマシンのハード ディスクを 1 つの大きなファイル システムに統合する大規模な分散ファイル システムが必要になります。

データ分析の場合:大量のデータを分解、カウント、要約する必要がある場合がありますが、1 台のマシンでは処理できず、分析を完了するのに非常に長い時間がかかります。そこで、大量のデータを小さな部分に分割し、各マシンが小さな部分を処理し、複数のマシンが並列に処理することで、計算を迅速に完了できる分散コンピューティング方式があります。例えば、有名なTerasortは1TB、つまり1000GBのデータをソートします。これを1台のマシンで処理すると数時間かかりますが、並列処理すると209秒で完了します。

では、ビッグデータとは何でしょうか? 簡単に言えば、1 台のマシンではタスクを完了できないため、全員が協力してタスクを実行することを意味します。しかし、データ量が増加するにつれて、多くの中小企業は大量のデータを処理する必要が生じます。マシンがそれほど多くない場合は、これらの中小企業はどうすればよいでしょうか?

4. ビッグデータにはクラウドコンピューティングが必要であり、クラウドコンピューティングにはビッグデータが必要である

これといえば、誰もがクラウドコンピューティングを思い浮かべます。これらの作業を行うには、一緒に作業を行うためにたくさんの機械が必要です。いつでも、必要なだけ機械を入手できます。

例えば、ビッグデータ企業の財務状況は週に1回分析されるかもしれません。そこに100台や1,000台のマシンを置いておいて、週に1回しか使わないのであれば、それは無駄です。では、計算が必要なときにこの 1,000 台のマシンを使用し、計算が不要なときは他の作業をさせるということはできるのでしょうか?

誰がこれを実行できるでしょうか? ビッグ データ コンピューティングにリソース レベルの柔軟性を提供できるのは、クラウド コンピューティングだけです。クラウド コンピューティングでは、非常に重要な一般アプリケーションとして、PaaS プラットフォーム上にビッグ データを展開します。ビッグデータ プラットフォームでは、複数のマシンが 1 つのものに対して連携して動作できるため、これは一般の人が開発できるものではなく、また一般の人が使用できるものでもありません。これを機能させるには、数十人、場合によっては数百人の人材を雇用する必要があります。

したがって、データベースと同様に、これを操作するには専門家のグループが必要です。現在、基本的にすべてのパブリック クラウドにはビッグ データ ソリューションが備わっています。中小企業がビッグ データ プラットフォームを必要とする場合、1,000 台のマシンを購入する必要はありません。パブリック クラウドにアクセスするだけで、ビッグ データ プラットフォームがすでに導入された 1,000 台のマシンが表示されます。必要なのは、データを入力して計算を行うことだけです。

クラウド コンピューティングにはビッグ データが必要であり、ビッグ データにはクラウド コンピューティングが必要であり、この 2 つがこのように組み合わせられています。

人工知能がビッグデータを活用する

1機械が人間の心を理解できるようになるのはいつでしょうか?

ビッグデータがあっても、人間の欲求を満たすことはできません。ビッグデータプラットフォームには検索エンジンがありますが、検索するだけで欲しいものが見つかります。しかし、自分が欲しいものをどうやって探せばいいのか分からない、表現できない、探しているものが自分の欲しいものではない、といった状況もあります。

例えば、音楽ソフトで聞いたことのない曲がおすすめされたら、当然曲名もわからず検索もできません。しかし、このソフトウェアを勧められたとき、私は本当に気に入りました。これは検索ではできないことです。人々がこの種のアプリケーションを使用すると、欲しいものを機械内で探すのではなく、機械が私の欲しいものを知っていることに気づくでしょう。この機械は私の友人のように私を本当に理解しており、それは少し人工知能のようなものです。

人々は長い間このことについて考えてきました。当初、人々は、壁があればその壁の後ろに機械があり、それに話しかけると機械が反応するだろうと想像していました。それが人間なのか機械なのか区別がつかないのであれば、それはまさに人工知能の産物です。

2. 機械に推論を学習させる

どうすればこれを実現できるでしょうか? 人々は考えました: まずコンピューターに人間の推論能力について教えなければならない。人間にとって大切なものは何だと思いますか?人間と動物の違いは何でしょうか?それは推論する能力です。自分の推論能力を機械に伝え、質問に基づいて対応する答えを推測させることができたら、どれほど素晴らしいでしょうか?

実際、人々は徐々に機械が数式の証明などの推論を実行できるようにしつつあります。機械が実際に数式を証明できるというのは、非常に驚​​くべきプロセスです。しかし、徐々にこの結果はそれほど驚くべきことではないことに気づきました。なぜなら、誰もが問題を発見したからです。数式は非常に厳密であり、推論プロセスも非常に厳密であり、数式は機械を使用して表現しやすく、プログラムも比較的簡単に表現できます。

3. 機械に知識を教える

したがって、機械に厳密な推論を教えるだけでは十分ではなく、機械に何らかの知識を教えることも必要です。しかし、ほとんどの人は機械に知識を伝えることができないかもしれません。おそらく、言語や金融の分野の専門家など、専門家ならそれができるでしょう。

言語や金融分野の知識は、数式のようにもう少し厳密に表現できないでしょうか。たとえば、言語の専門家は、主語、述語、目的語、連体詞、副詞、補語などの文法規則をまとめるかもしれません。主語の後には述語が続き、述語の後には目的語が続きます。これらをまとめ、厳密に表現すれば十分ではないでしょうか。後に、これは不可能であることがわかりました。言語表現は常に変化するため、まとめるのは難しすぎたのです。

人工知能のこの段階はエキスパートシステムと呼ばれます。エキスパート システムを成功させるのは簡単ではありません。一方では知識を要約することが難しく、他方では要約された知識をコンピューターに引き渡すことが困難です。あなた自身はまだ混乱していて、パターンがあるように感じますが、それを言葉で表現することができません。プログラミングを通じてそれをコンピューターに教えるにはどうすればよいのでしょうか?

4忘れてください、教えられないなら自分で学んでください

そこで人々は考えました。機械は人間とはまったく異なる種族なのだから、機械に自ら学習させればよいのでは、と。

<<:  DeeCamp 2019は産学連携を促進するためにKuaishouとInnovation Worksを正式に立ち上げました

>>:  人工知能時代のITサービスを変える8つのテクノロジー

ブログ    
ブログ    

推薦する

世界モデルに関するいくつかの誤解と自動運転との統合に関する考察

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

鍾南山氏は人工知能カンファレンスでAI COVID-19画像認識などの技術について講演した。

現在、世界の健康は大きな課題に直面しています。2020年以降の新型コロナウイルスの蔓延は、世界的な公...

2010年以降、MLコンピューティングパワーの需要は100億ドル増加し、6か月で2倍になり、ディープラーニングは画期的な分野となった。

計算能力、データ、アルゴリズムは、現代の機械学習 (ML) の進歩を導く 3 つの基本的な要素です。...

安全なパスワード保存の業界標準: bcrypt アルゴリズム

パスワードを安全に保護するための標準アルゴリズムである bcrypt アルゴリズムについて説明します...

人工知能の実用化を加速させるには

人工知能と機械学習ソリューションは、今日、さまざまな業界の組織で一般的になりつつあります。組織が A...

プライバシー保護を再構築するには、AIモデルに「あなたを忘れさせる」ことを早く行う必要がある

この時代において、プライバシーは長い間誤った主張となってきました。プライバシー保護をある程度回復する...

ただ! Stack Overflow セルフヘルプがオープン

執筆者:ユン・チャオ「今日は、Stack Overflow にとってエキサイティングな新時代の始まり...

人工知能技術はどのようにビジネスに統合されるのでしょうか?

AI技術の発展の歴史は数十年前に遡りますが、1970年代から1980年代までの初期段階では、ビジネ...

...

人工知能が幼稚園のキャンパスに参入し、あらゆる面でキャンパスの安全を確保

近年、幼児教育のスマート化を導き、子どもたちの学習と成長をサポートするスマート幼稚園環境を総合的に構...

ケータリングロボットが市場発展の時代を先導

[[387119]]近年、ロボット産業の急速な発展に伴い、伝統的な飲食業界も徐々に第二の春を迎えてい...

...

アリババの顔認識セキュリティ技術が3Dマスク攻撃を防ぐ特許を取得

[[334032]]顔認識と 3D テクノロジーが融合したとき、最終的な勝者は誰になるでしょうか? ...

3日でAppleの無料リストのトップに立った「ZAO」、このままでは死んでしまう

8月30日夜、「ZAO」と呼ばれるAI顔変更ソフトウェアがソーシャルメディアを席巻した。ユーザーは正...

顔認識技術の応用に関する法的規制

新興技術の発展とビジネス、公共福祉、社会統治などの分野におけるその応用をどのように促進、保護、規制す...