データベース列ストレージ: 最適な圧縮アルゴリズムを設計するための近道

データベース列ストレージ: 最適な圧縮アルゴリズムを設計するための近道

データベースの保存方法によって、データベース操作の効率が決まります。51CTO データベース チャネルでは、「データベース パフォーマンスの最適化とデバッグ」トピックをお勧めします。

実際、列ストレージは新しい概念ではありません。1985 年にはすでに、SIGMOD カンファレンスの記事「分解ストレージ モデル」で、DSM (分解ストレージ モデル) が比較的詳細に紹介されていました。Sybase は、2004 年頃に列ベースのストレージ Sybase IQ データベース システムを開始しました (200 VLDB の記事「Sybase iq multiplex - 分析用に設計」を参照)。これは主に、オンライン分析やデータ マイニングなどのクエリ集約型アプリケーションに使用されます。

列ストレージ (略称 DSM) は、次の図に示すように、DSM がすべてのレコード内の同じフィールドのデータを集約するのに対し、NSM (N 項ストレージ モデル) は各レコード内のすべてのフィールドのデータを集約するという点で NSM とは異なります。

列ストレージの利点は何ですか?

私の知る限り、列ストレージには主に 2 つの利点があります。

1) 各フィールドのデータを集約して保存すると、クエリに必要なフィールドが少数の場合に、読み取るデータの量を大幅に削減できます。C-Store と MonetDB の著者による調査と分析によると、クエリを多用するアプリケーションの特徴の 1 つは、クエリが通常、少数のフィールドのみを対象としていることです。対照的に、NSM では、毎回レコード全体を読み取る必要があります。

2) フィールドのデータは集約された形式で保存されるため、この集約されたストレージに対してより優れた圧縮/解凍アルゴリズムを設計することが容易になります。

列ストレージはいつ使用するのに適していますか?

OLAP、データ ウェアハウス、データ マイニング、その他のクエリ集約型アプリケーション。もちろん、列ストレージデータベースは更新操作がまったくできないわけではありません。実際、更新操作のパフォーマンスはそれほど悪くなく、一般的には十分です。ただし、一方では独自のクエリパフォーマンスほど良くなく、他方ではOLTPに特化したデータベースであるOracleほど良くないため、一般的には言及されません。

列ストレージが適さないのはどのような場合ですか?

相対的に言えば、挿入や削除の操作が頻繁に行われる状況では特に、OLTP や更新操作には適していません。

1980 年代に登場したコンセプトがなぜ今再び注目を集めているのでしょうか?

2005 年に、M. Stonebraker という老人が書いた VLDB に関する記事 (「One Size Fits All - An Idea Whose Time Has Come and Gone」) がありました。この記事では、時代は変わり、1 つのデータベース製品で世界を統一できると期待していた時代は永遠に過ぎ去ったことを明確に指摘していました。それで、この老人は2005年頃にC-Storeというカラムストア型データベースのプロトタイプシステムを作りました。VLDBやSIGMODなどの主要な国際会議で何度も講演した後、何人かの人を集めてVerticaという会社を立ち上げ、それを商品化し、データウェアハウスやオンライン分析などの市場に注力しました。最近かなり人気があるようです。ちなみに、この老人は上記のアイデアを実現するために、同時にH-Storeというメインメモリ型データベースのプロトタイプシステムも作りました。あまり講演せずに、何人かの人を集めてVoltDBという会社を立ち上げ、それを商品化し、オンライントランザクション処理に注力しましたが、最近はあまりうまくいっていないようで、これはOracleのボスと直接対立しているのかもしれません。

これは、1970 年代にリレーショナル データベース管理システムの実装をリードし、無数のスパムがあった Ingres を作成した M. Stonebraker を彷彿とさせます。このプロトタイプ システムに基づいて、Sybase、Microsoft SQL Server、NonStop SQL、Informix など、多くの商用データベース ソフトウェアが開発されました。いわゆる最先端のオープン ソース データベース システムである PostgreSQL も、Ingres の後継ブランチです。

元のタイトル:列ストレージ技術について

リンク: http://www.cnblogs.com/happyy/archive/2010/04/26/1721481.html

【編集者のおすすめ】

  1. Oracle ストアド プロシージャの作成経験の概要
  2. ストレージ構造: Oracle 論理ストレージ構造
  3. 次世代データストレージアーキテクチャの包括的な概要
  4. SQL Server ストアド プロシージャの命名規則
  5. スクリプトを使用して DB2 ストアド プロシージャの開発を高速化する

<<:  SCO Unix ディスク ブロック割り当てアルゴリズム

>>:  LVS セットアップノート: 負荷分散アルゴリズム

ブログ    
ブログ    
ブログ    

推薦する

ロボットは電気羊の夢を見るか?Google AI 従業員の辞職から AI 倫理について何を学ぶことができるか?

2月20日、Googleの倫理AIチームの創設者であるミッチェル氏はTwitterに「私は解雇され...

中国初のAI採点試験がスタート:全10レベル、北京大学が問題作成、工業情報化部が認定

[[277668]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

人工知能技術の発展の概要

人工知能は、コンピュータサイエンス業界のトップテクノロジーの一つとして、1956年にダートマス会議で...

TensorFlow から Theano まで: 7 つのディープラーニング フレームワークの水平比較

[[183874]]ディープラーニング プロジェクトを開始する前に、適切なフレームワークを選択するこ...

マイクロソフトCEO、テクノロジー大手各社がAIを訓練するためのコンテンツをめぐって競争していると語る

ナデラ氏は最近、米国政府によるグーグルに対する反トラスト訴訟で証言した。これは、米国政府が1998年...

ビッグデータは古い顧客を殺しています。消費者が権利を守るのは困難です。アルゴリズムの不公平な適用をどのように規制すべきでしょうか?

プラットフォーム経済の急速な発展に伴い、オンラインショッピング、交通、旅行宿泊、食品配達、オンライン...

...

AIがPythonの記述を手助けし、インストールはたった5ステップで完了し、自由に調整できます。

[[269874]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...

ダブルイレブンがやって来ます!物流ドローンはどれくらい遠くにあるのでしょうか?

荷物が届かず悲しい思いをしたことはありませんか? 荷物が届くまで長い間待たされるのではないかと不安に...

大学卒業後、彼はGoogleに入社し、先駆的な作品「Thinking Chain」を執筆した。このOpenAIの新人は、学部生の質問に答えている。

「思考の連鎖(CoT)」の概念を注意深く研究したことがあるなら、おそらく Jason Wei とい...

...

2021年チューリング賞発表:高性能コンピューティングの先駆者であり、TOP500スーパーコンピューティングリストの共同創設者であるジャック・ドンガラが受賞

丸一日待った後、ついに答えが明らかになりました!先ほど、2021年のチューリング賞が発表されました。...

人工知能が医療をどのように改善できるか

人工知能は医療と医療の分野で大きな力を発揮することが証明されている 人工知能は、特に医療分野において...

劉烈宏:中国の中核人工知能産業の規模は今年上半期に770億元に達した

[[354052]] 11月24日、工業情報化部の劉烈宏副部長は人工知能サブフォーラム「人工知能:新...

YouTube、有名歌手の真似をしたり、テキストやハミングで曲を作曲できるAIツールをリリース

YouTube は 11 月 16 日に、ユーザーがテキストを入力したりメロディーをハミングしたりす...