ビッグデータとリアルタイム分析のためのアルゴリズム分類

ビッグデータとリアルタイム分析のためのアルゴリズム分類

今日、ビッグデータ技術の発展と進歩により、大量のデータを収集および送信するための新しい、より効率的な方法が生まれました。この革命により、リアルタイムのアルゴリズムと手法の研究開発が促進されました。従来、機械学習アルゴリズムはリアルタイム処理用に設計されていません。実際、データ サイエンスのコンテスト (Netflix、Kaggle など) は、アルゴリズムが高価で、実用的ではなく、計算量が多いと批判されることがよくあります。これは、データ マイニングの元の設定がオフラインであり、多くの場合バッチで計算されるため、アルゴリズムの速度よりも精度の方が重要であるという認識に基づいています。ビッグデータの出現により、アルゴリズムが次々と登場し、スケーラブルなアプローチが再考されるにつれて、この状況は変わり始めています。ほとんどの場合、計算は本質的に同じであるため、スケーラビリティだけではアルゴリズムの精度が損なわれることはありません。ビッグデータ分析のリアルタイム処理は、このコンテキストで使用できるアルゴリズムの計算の複雑さを制限するため、より根本的な変化をもたらします。リアルタイム ストリーミング アルゴリズムは、一度に 1 つの例を処理し、最大 1 回チェックし、限られた量のメモリを使用し、限られた時間内に動作し、いつでも予測を行えるという条件を満たす必要があります。

これらの要件を満たすために、ストリーミング アルゴリズムの設計が流行しており、学習したモデルはストリーミング メディアからの入力例を反映するように継続的に更新されます。入力された例を処理した後、データがどれだけまばらであるかに関係なく、予測を生成できるアルゴリズムが必要です。ストリーミング データの最先端手法は、オンライン学習、ランダム化線形代数、クラウド コンピューティングにおける分散最適化手法、さらには多クラス ノイズや偽データが存在する場合の分類問題など、さまざまな方向から生まれています。一般的に、これらの方法は特に効率的ではありませんが、予測の一部は事前に計算されたモデルに基づいている可能性があります。実際、オフライン - オンライン サイクルは、プロセスのオンライン部分を通じてメソッドをプッシュし、新しい観察が得られるとオフラインでモデルを改良するため、従来の機械学習とリアルタイム分析の間の適切な妥協点となります。

増分学習アルゴリズムは、リアルタイム分析によって課される要件に適したアプローチです。基本的に、これらのアルゴリズムには、履歴データを振り返り、新しい観察を行い、モデルに段階的に入力するオフライン コア モデルがあります。モデルを迅速に増分更新し続けるために、概念ドリフトに基づいてストリーム内の検出モデルに対して部分的な更新のみが行われた後、スケジュールされた時間に完全な更新がオフラインで開始されます。これにより、システムは新しい観察に迅速に対応できるようになり、速度と精度のバランスが取れます。採用されているアルゴリズムの種類によっては、完全なモデルに更新できる場合があり、その場合にはアルゴリズムのオフライン部分を維持する必要がないことに注意してください。実際、オンライン学習アルゴリズムが増分アルゴリズムであるかどうかの主な基準は、モデルを更新してリアルタイムで予測を生成できるかどうかです。

リアルタイム分析は、ソーシャル メディア、金融、さまざまな科学分野など、さまざまなシナリオで採用されています。しかし、大量のリアルタイムデータを処理できるツールはまだ少なく、主に社内ソリューションとなっています。

分類:

Hoeffding オプション ツリーは、漸進的な決定木アルゴリズムです。 Hoeffding ツリーは、最適な分割機能を選択するには小さなサンプルで十分であることが多いという事実を活用します。

ナイーブベイズは非常にシンプルで計算量が少ない分類器であり、モデルの更新と新しいサンプルの分類をリアルタイムで行うことができます。ナイーブ ベイズは、オフライン コンポーネントのない増分学習の優れた例です。このモデルは、新しい観察結果を改善するために予測なしで履歴データを生成できます。

クラスタ:

StreamKM++ は、データ ストリームの小さな加重サンプルを計算し、ランダム シーディング手法として k-means++ アルゴリズムを使用して、上位クラスターの値を選択します。

D-stream は、オンライン コンポーネントを使用して各入力データ レコードをグリッドにマッピングし、オフライン コンポーネントを使用してグリッド密度を計算し、密度に基づいてグリッドをクラスター化します。このアルゴリズムは、データ ストリームの動的な変化を捉えるために密度減衰技術を採用しています。

戻る:

LDA が増分的に更新されると、新しいサンプルは LDA の最小二乗解に到達します。このアプローチの利点は、モデルの完全な更新を実行し、バッチ LDA の正確な最小二乗解が得られることです。

SAIRT は、バイナリ回帰ツリーの増分バージョンです。徐々にまたは突然にドリフトする機能、機能の特定の領域でのデータ ストリームの変化、ノイズ、仮想ドリフトなどの未知のエンゲージメント フォースに直面したときに、センシング モードを適応させます。ノードを監視し、選択された領域からの実施形態を忘れて、ツリーの葉に関連付けられたローカル ウィンドウに保存し、残りの有用なものを保存します。

<<:  顔認識のゴッドファーザー、李自青氏:技術革新が業界の未来を力づける

>>:  アリコロニーアルゴリズムの理論と実践ガイド

ブログ    
ブログ    
ブログ    

推薦する

ロボットが「自己認識」を持つためには、まず自分の声を認識する必要があるのでしょうか?

人工知能の発展の波の中で、人間はロボットが自己認識を持つことに対して非常に警戒心を抱いています。結局...

Groq LPU の謎を解明: 世界最速のハードウェア アクセラレータの基礎となるアーキテクチャ設計!

先月末、スタートアップ企業Groqの製品が一夜にして人気を博した。自社開発のハードウェアアクセラレー...

機械学習プロセスにおける3つの落とし穴、どれを踏んでしまったか確認しましょう

[[273444]]ビッグデータダイジェスト制作編集者: Vicky、Cao Peixin機械学習の...

Lilith モバイルゲームにおける不正防止の設計と調査

1. モバイルゲーム闇産業チェーンまず、モバイルゲームのブラック産業チェーンを紹介します。これは基本...

eBayは機械学習を利用してプロモーションリストを改善

​翻訳者 | ブガッティ校正:孫淑娟オンラインマーケットプレイスの eBay では、「ウォッチリスト...

C# 遺伝的アルゴリズム学習ノート

次のコードは、C# 遺伝的アルゴリズムを使用して、単純な花の進化シミュレーション プロセスを実装しま...

...

...

ロボットが医療に力を与える!しかし、医療ロボットがブレイクするまでには、まだ4歩の道のりがある。

今回の流行期間中、病院や最前線の防疫現場では、体温測定ロボット、消毒ロボット、検査ロボット、咽頭ぬぐ...

Salesforceは、20のコードタスクSOTAをリフレッシュするために、新しい基本的なLLMシリーズのエンコーダー/デコーダーコードT5 +を提案しています。

大規模言語モデル (LLM) は最近、コード レベルでのさまざまなダウンストリーム タスクで優れたパ...

RPAとは何ですか?ビジネスプロセス自動化の革命

CISO は、日常的なタスクを排除し、従業員がより価値の高い仕事に集中できるようにするために、ロボ...

Julia言語を使用して「準同型暗号化+機械学習」を実装するには?

[[285696]]最近、「ブロックチェーン」や「フェデレーテッドラーニング」などの概念がかつてな...

チューリング賞受賞者:人工知能を実装したものは、もはや人工知能とは呼ばれない

1956年、マッカーシーはダートマス大学で開催された会議で初めて「人工知能」の概念を提唱した。後に、...

95歳のハーバード大学出身者が、機械学習をゼロから始めるための必読書を執筆しました。本のリソースは現在公開されています。

機械学習を始める最も簡単な方法は何ですか?今年ハーバード大学で統計学の学位を取得したばかりのダニー・...