データベース列ストレージ: 最適な圧縮アルゴリズムを設計するための近道

データベース列ストレージ: 最適な圧縮アルゴリズムを設計するための近道

データベースの保存方法によって、データベース操作の効率が決まります。51CTO データベース チャネルでは、「データベース パフォーマンスの最適化とデバッグ」トピックをお勧めします。

実際、列ストレージは新しい概念ではありません。1985 年にはすでに、SIGMOD カンファレンスの記事「分解ストレージ モデル」で、DSM (分解ストレージ モデル) が比較的詳細に紹介されていました。Sybase は、2004 年頃に列ベースのストレージ Sybase IQ データベース システムを開始しました (200 VLDB の記事「Sybase iq multiplex - 分析用に設計」を参照)。これは主に、オンライン分析やデータ マイニングなどのクエリ集約型アプリケーションに使用されます。

列ストレージ (略称 DSM) は、次の図に示すように、DSM がすべてのレコード内の同じフィールドのデータを集約するのに対し、NSM (N 項ストレージ モデル) は各レコード内のすべてのフィールドのデータを集約するという点で NSM とは異なります。

列ストレージの利点は何ですか?

私の知る限り、列ストレージには主に 2 つの利点があります。

1) 各フィールドのデータを集約して保存すると、クエリに必要なフィールドが少数の場合に、読み取るデータの量を大幅に削減できます。C-Store と MonetDB の著者による調査と分析によると、クエリを多用するアプリケーションの特徴の 1 つは、クエリが通常、少数のフィールドのみを対象としていることです。対照的に、NSM では、毎回レコード全体を読み取る必要があります。

2) フィールドのデータは集約された形式で保存されるため、この集約されたストレージに対してより優れた圧縮/解凍アルゴリズムを設計することが容易になります。

列ストレージはいつ使用するのに適していますか?

OLAP、データ ウェアハウス、データ マイニング、その他のクエリ集約型アプリケーション。もちろん、列ストレージデータベースは更新操作がまったくできないわけではありません。実際、更新操作のパフォーマンスはそれほど悪くなく、一般的には十分です。ただし、一方では独自のクエリパフォーマンスほど良くなく、他方ではOLTPに特化したデータベースであるOracleほど良くないため、一般的には言及されません。

列ストレージが適さないのはどのような場合ですか?

相対的に言えば、挿入や削除の操作が頻繁に行われる状況では特に、OLTP や更新操作には適していません。

1980 年代に登場したコンセプトがなぜ今再び注目を集めているのでしょうか?

2005 年に、M. Stonebraker という老人が書いた VLDB に関する記事 (「One Size Fits All - An Idea Whose Time Has Come and Gone」) がありました。この記事では、時代は変わり、1 つのデータベース製品で世界を統一できると期待していた時代は永遠に過ぎ去ったことを明確に指摘していました。それで、この老人は2005年頃にC-Storeというカラムストア型データベースのプロトタイプシステムを作りました。VLDBやSIGMODなどの主要な国際会議で何度も講演した後、何人かの人を集めてVerticaという会社を立ち上げ、それを商品化し、データウェアハウスやオンライン分析などの市場に注力しました。最近かなり人気があるようです。ちなみに、この老人は上記のアイデアを実現するために、同時にH-Storeというメインメモリ型データベースのプロトタイプシステムも作りました。あまり講演せずに、何人かの人を集めてVoltDBという会社を立ち上げ、それを商品化し、オンライントランザクション処理に注力しましたが、最近はあまりうまくいっていないようで、これはOracleのボスと直接対立しているのかもしれません。

これは、1970 年代にリレーショナル データベース管理システムの実装をリードし、無数のスパムがあった Ingres を作成した M. Stonebraker を彷彿とさせます。このプロトタイプ システムに基づいて、Sybase、Microsoft SQL Server、NonStop SQL、Informix など、多くの商用データベース ソフトウェアが開発されました。いわゆる最先端のオープン ソース データベース システムである PostgreSQL も、Ingres の後継ブランチです。

元のタイトル:列ストレージ技術について

リンク: http://www.cnblogs.com/happyy/archive/2010/04/26/1721481.html

【編集者のおすすめ】

  1. Oracle ストアド プロシージャの作成経験の概要
  2. ストレージ構造: Oracle 論理ストレージ構造
  3. 次世代データストレージアーキテクチャの包括的な概要
  4. SQL Server ストアド プロシージャの命名規則
  5. スクリプトを使用して DB2 ストアド プロシージャの開発を高速化する

<<:  SCO Unix ディスク ブロック割り当てアルゴリズム

>>:  LVS セットアップノート: 負荷分散アルゴリズム

ブログ    

推薦する

...

...

[乾物] Tencent Cloud FPGA 上のディープラーニング アルゴリズム

テンセントクラウド基礎製品センターとテンセントアーキテクチャプラットフォーム部門で構成されたテンセン...

アメリカはAIイノベーションをリードしているのか?フォーブス誌のグローバルAIスタートアップトップ50

NetEase Intelligence News: 人工知能はまもなく私たちの世界を変えるでしょ...

...

ChatGPTが危険にさらされています! 「Attention Formula」の8年前の謎のバグが初めて暴露、Transformerモデルに大きな影響が出る可能性

「注目の式」に8年間存在していたバグが外国人によって発見された?一瞬にして、この話題はインターネット...

人工知能でIT運用を改革する方法

IT 組織は、サポートの改善、インフラストラクチャの最適化、システム障害の予測のために AI ベース...

...

注意してください、これらの6つのアルゴリズムには落とし穴があります:中国消費者協会はビッグデータが古い顧客をターゲットにしていると指摘しています

ビッグデータの登場以来、「古い顧客を搾取する」問題はますます深刻になっています。テイクアウトでも旅行...

米国商務省は、生成型人工知能の潜在的なリスクに対処するために、公開AIワーキンググループを設立した。

6月25日、ジーナ・ライモンド米国商務長官は、国立標準技術研究所(NIST)が人工知能(AI)に関...

将来の人工知能戦争の運用概念に関する研究

[[390910]]このレポートでは、将来の AI 戦争における作戦レベルの防御と攻撃の概念を提案し...

人工知能の応用、開発、影響についての考察

ケンブリッジ大学人工知能研究センターは、人工知能によってもたらされる新しい能力とそれが直面するリスク...

小売環境におけるAIとIoTの長期的な応用

IoT カメラは、小売環境をより効率的かつ顧客に優しく、そして何よりもセキュリティと安全性を高めるこ...

HKU Alibabaの「Visual AI Anywhere Door」は、ワンクリックでオブジェクトをあらゆるシーンにシームレスに転送できる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

レビュー能力はGPT-4よりも強く、13B評価モデルAuto-Jはオープンソース化されている

生成型人工知能技術の急速な発展に伴い、大規模なモデルが人間の価値観(意図)と一致するようにすることが...