ビッグデータアルゴリズムとアプリケーションシナリオパート1: 統計と分布

ビッグデータアルゴリズムとアプリケーションシナリオパート1: 統計と分布

アルゴリズムはビッグデータの最も価値のある部分です。ビッグデータマイニングとは、大量、不完全、ノイズ、あいまい、ランダム、断片化されたデータから、隠れた価値、潜在的に有用な情報や知識を発見するプロセスです。どのような状況でどのアルゴリズムを使用すればよいのでしょうか? 今日はビッグデータ アルゴリズムについて紹介します。

1. 統計分布

統計分布(度数分布)は「頻度分布(分布)」とも呼ばれます。統計的グループ化に基づいて、人口内のすべての単位がグループに分類および整理され、グループ間の人口単位の分布が形成されます。各グループに分布する単位の数は、次数または頻度と呼ばれます。各グループ内の回数と総回数(母集団内のユニットの総数)の比率を率または頻度と呼びます。グループと頻度が順番に並べられた順序は、統計分布順序、または略して分布順序と呼ばれます。これは、さまざまなグループ間の人口内のすべての単位の分布状況と分布特性を反映することができます。この分布特性を研究することは、統計分析の重要な部分です。上記のようにBLABLAはたくさんあります。何ができるのか見てみましょう。

1) 平均

例えば、中国の男性はここ数年「脂ぎっている」というレッテルを貼られてきました。「2017年中国スポーツレポート」によると、少なくとも歩く量で言えば、男子は女子より多く歩きます。男子は1日平均5,874歩歩くのに対し、女子は1日平均5,268歩歩きます。スポーツに力を入れ、考え方をアップデートすることで、中国の男性は若々しさを維持できるかもしれない。

2) 前年比および前四半期比の成長

前年比は、一般的に今年の n 月と昨年の n 月の比較を指します。

前月比とは、連続する 2 つの単位期間 (たとえば、連続する 2 か月) 内の数量の変化率を指します。

3) ガウス分布

正規分布は、「正規分布」またはガウス分布とも呼ばれ、二項分布の漸近式を求める中で A. ド・モアブルによって初めて得られました。 CF ガウスは測定誤差を研究する際に別の観点からこれを導き出しました。 P.S. ラプラスとガウスはその性質を研究しました。これは数学、物理学、工学において非常に重要な確率分布であり、統計の多くの側面に大きな影響を与えます。

ガウス分布をどのように使用するのでしょうか? たとえば、この画像は誰もが見たことがあると思います。できるだけ多くのユーザーのコンピュータの起動時間を収集し、時間がどのように分布しているかを確認します。

4)ボソン分布

ポアソン分布は、統計学や確率論でよく見られる離散確率分布です。1838 年にフランスの数学者シメオン=ドニ・ポアソンによって発表されました。

小さな Baisong ディストリビューションは、ビッグデータ分野の大きな問題を解決できます。役立つ情報がここにあります。

例 1:電子商取引や倉庫管理にご興味がおありでしたら、ぜひお越しください。小さな食料品店では、1 週間に平均 2 缶の果物が販売されていることが知られています。この店の缶詰フルーツの在庫はどれくらいですか?

季節要因がないと仮定すると、この問題はおおよそ次の 3 つの条件を満たしていると考えられます。

  • a. 顧客が缶詰の果物を購入する可能性は低い。
  • b. 缶詰フルーツを購入する顧客は独立しており、互いに影響を及ぼしません。
  • c. 顧客が缶詰の果物を購入する確率は安定している。

統計学では、ある種の事象が上記の 3 つの条件を満たす限り、「ポアソン分布」に従います。

式に従って、週ごとの売上の分布を計算します。上記の表から、在庫が 4 缶ある場合、在庫切れにならない確率は 95% (平均 19 週間に 1 回) であることがわかります。在庫が 5 缶ある場合、在庫切れにならない確率は 98% (平均 59 週間に 1 回) です。

5) ベルヌーイ分布

ベルヌーイ分布(英語:Bernoulli distribution、2 点分布または 0-1 分布とも呼ばれる)は、スイスの科学者ヤコブ・ベルヌーイにちなんで名付けられた離散確率分布です。一般的に言えば、一つの物事に対して起こり得る結果は 2 つしかありません。ベルヌーイ分布は、ある結果の確率が a であり、別の結果の確率が 100%-a である状況を表します。もっと簡単に言うと、子供を産むとき、男の子が生まれる確率はp、女の子が生まれる確率は1-pです。これがベルヌーイ分布です。

<<:  ガートナーレポート: 私たちはデータサイエンスと機械学習ツールの「大爆発」の時代を迎えている

>>:  機械学習で必ず学ぶべき 10 のアルゴリズム

ブログ    
ブログ    

推薦する

中国は、インターネット、ビッグデータ、人工知能などの分野における知的財産保護に関する研究と実践を実施します。

[[432777]]中国新聞社、北京、11月1日(記者:孫子発)中国国家知識産権局の沈長宇局長は1...

人間の知能と人工知能:どちらが優れているのでしょうか?

人工知能は近い将来、人間の知能を超える可能性を秘めている。テクノロジーは飛躍的に進歩しましたが、AI...

上位 10 の古典的なソート アルゴリズムの詳細な説明: シェル ソート、マージ ソート、クイック ソート

[[378304]]上位 10 の古典的なソート アルゴリズム - シェル ソート、マージ ソート、...

「アルゴリズムの構成」は「ブラックボックス」を明らかにする:アルゴリズムは数学に関するものだが、人間に関するものである

アルゴリズムは私たちの生活の中でますます一般的なものになってきています。しかし、アルゴリズムに関する...

Meili United が VALSE カンファレンスで「ファッションをグラフィックで説明」する画像アルゴリズムの体験を共有する方法

最近、第7回ビジョンと学習セミナー(VALSE)が厦門大学で成功裏に終了しました。 VALSE は ...

MITの人工知能研究室で1年間働いて学んだ5つのこと

Mike Ferguson は、MIT 脳認知科学部 (MIT BCS) の研究ソフトウェア エンジ...

95 年以降の DAMO アカデミーのインターン生がマイクロソフトに勝ち、最も難しい NLP タスクの世界記録を更新

アリババAIは、常識QA分野の権威あるデータセットであるCommonsenseQAで新たな世界記録を...

...

ChatGPT を使用すると、わずか 3 時間で高品質の論文を書くことができます。

1. 論文のテーマと研究の方向性を決定するディスカッションと詳細化: ChatGPT で論文のトピ...

...

将来に影響を与える戦略的テクノロジートレンドトップ10

常に進化するテクノロジーの世界では、企業、政府、個人にとって、常に最先端を行くことが重要です。このダ...

...

GenAI はクラウド コンピューティングの ROI を向上できますか?

既存企業は、クラウド コンピューティングの導入を検討する際、ジレンマに直面します。メリットは魅力的か...