ビッグデータアルゴリズムとアプリケーションシナリオパート1: 統計と分布

ビッグデータアルゴリズムとアプリケーションシナリオパート1: 統計と分布

アルゴリズムはビッグデータの最も価値のある部分です。ビッグデータマイニングとは、大量、不完全、ノイズ、あいまい、ランダム、断片化されたデータから、隠れた価値、潜在的に有用な情報や知識を発見するプロセスです。どのような状況でどのアルゴリズムを使用すればよいのでしょうか? 今日はビッグデータ アルゴリズムについて紹介します。

1. 統計分布

統計分布(度数分布)は「頻度分布(分布)」とも呼ばれます。統計的グループ化に基づいて、人口内のすべての単位がグループに分類および整理され、グループ間の人口単位の分布が形成されます。各グループに分布する単位の数は、次数または頻度と呼ばれます。各グループ内の回数と総回数(母集団内のユニットの総数)の比率を率または頻度と呼びます。グループと頻度が順番に並べられた順序は、統計分布順序、または略して分布順序と呼ばれます。これは、さまざまなグループ間の人口内のすべての単位の分布状況と分布特性を反映することができます。この分布特性を研究することは、統計分析の重要な部分です。上記のようにBLABLAはたくさんあります。何ができるのか見てみましょう。

1) 平均

例えば、中国の男性はここ数年「脂ぎっている」というレッテルを貼られてきました。「2017年中国スポーツレポート」によると、少なくとも歩く量で言えば、男子は女子より多く歩きます。男子は1日平均5,874歩歩くのに対し、女子は1日平均5,268歩歩きます。スポーツに力を入れ、考え方をアップデートすることで、中国の男性は若々しさを維持できるかもしれない。

2) 前年比および前四半期比の成長

前年比は、一般的に今年の n 月と昨年の n 月の比較を指します。

前月比とは、連続する 2 つの単位期間 (たとえば、連続する 2 か月) 内の数量の変化率を指します。

3) ガウス分布

正規分布は、「正規分布」またはガウス分布とも呼ばれ、二項分布の漸近式を求める中で A. ド・モアブルによって初めて得られました。 CF ガウスは測定誤差を研究する際に別の観点からこれを導き出しました。 P.S. ラプラスとガウスはその性質を研究しました。これは数学、物理学、工学において非常に重要な確率分布であり、統計の多くの側面に大きな影響を与えます。

ガウス分布をどのように使用するのでしょうか? たとえば、この画像は誰もが見たことがあると思います。できるだけ多くのユーザーのコンピュータの起動時間を収集し、時間がどのように分布しているかを確認します。

4)ボソン分布

ポアソン分布は、統計学や確率論でよく見られる離散確率分布です。1838 年にフランスの数学者シメオン=ドニ・ポアソンによって発表されました。

小さな Baisong ディストリビューションは、ビッグデータ分野の大きな問題を解決できます。役立つ情報がここにあります。

例 1:電子商取引や倉庫管理にご興味がおありでしたら、ぜひお越しください。小さな食料品店では、1 週間に平均 2 缶の果物が販売されていることが知られています。この店の缶詰フルーツの在庫はどれくらいですか?

季節要因がないと仮定すると、この問題はおおよそ次の 3 つの条件を満たしていると考えられます。

  • a. 顧客が缶詰の果物を購入する可能性は低い。
  • b. 缶詰フルーツを購入する顧客は独立しており、互いに影響を及ぼしません。
  • c. 顧客が缶詰の果物を購入する確率は安定している。

統計学では、ある種の事象が上記の 3 つの条件を満たす限り、「ポアソン分布」に従います。

式に従って、週ごとの売上の分布を計算します。上記の表から、在庫が 4 缶ある場合、在庫切れにならない確率は 95% (平均 19 週間に 1 回) であることがわかります。在庫が 5 缶ある場合、在庫切れにならない確率は 98% (平均 59 週間に 1 回) です。

5) ベルヌーイ分布

ベルヌーイ分布(英語:Bernoulli distribution、2 点分布または 0-1 分布とも呼ばれる)は、スイスの科学者ヤコブ・ベルヌーイにちなんで名付けられた離散確率分布です。一般的に言えば、一つの物事に対して起こり得る結果は 2 つしかありません。ベルヌーイ分布は、ある結果の確率が a であり、別の結果の確率が 100%-a である状況を表します。もっと簡単に言うと、子供を産むとき、男の子が生まれる確率はp、女の子が生まれる確率は1-pです。これがベルヌーイ分布です。

<<:  ガートナーレポート: 私たちはデータサイエンスと機械学習ツールの「大爆発」の時代を迎えている

>>:  機械学習で必ず学ぶべき 10 のアルゴリズム

ブログ    
ブログ    
ブログ    

推薦する

マイクロソフトがCopilot for Financeをリリース、AIでスプレッドシートに革命を起こすことを目指す

Microsoft が新たにリリースした AI アシスタントは、増え続ける財務データの中から適切な情...

...

...

...

2022 年のインテリジェント コネクテッド ビークルの技術トレンド トップ 10

100TOPS以上の性能を持つ車載グレードのコンピューティングチップが2022年に量産され、車両に...

MorphNetは、ニューラルネットワークをより高速、小型、効率的にするモデル最適化技術です。

特定のタスクを実行するためにニューラル ネットワークを調整したいですか?この問題は想像したほど単純で...

人工知能はまだ長い道のりを歩んでいる

過去2年間で、「スマートホーム」はほぼすべての家電メーカーが必ず話題にし、自社製品になくてはならない...

...

Zipf 行列分解: 推奨システムにおけるマシュー効果を解決する強力なツール

[[407036]] [51CTO.com からのオリジナル記事]アルゴリズムの公平性は、近年、推奨...

ロボットは期待低下の谷間にあるのか?何が問題ですか?

[[204226]]今年4月、クアルコムのグローバル副社長兼クアルコムベンチャーズのマネージングデ...

キングス・カレッジ・ロンドンとグラクソ・スミスクラインが人工知能技術に基づくがん研究で協力

海外メディアの報道によると、9月30日、キングス・カレッジ・ロンドンと世界的な製薬会社グラクソ・スミ...

Java クラシックアルゴリズム: カクテルソート

ソートアルゴリズムの中では、バブルソートが古典的です。カクテル ソートは、シェーカー ソートとも呼ば...

Java データ構造とアルゴリズム分析 (VIII) - スプレー ツリー

ストレッチツリーの紹介スプレー ツリーは特殊な二分探索ツリーです。特別なのは、バイナリ検索ツリーであ...