インダストリー4.0の時代に入り、デジタル化と自動化の導入により生産環境はより効率的になりました。同時に、スマートデバイスがもたらす膨大なデータの潜在的な価値に注目が集まっていますが、スマートデバイスによって生成されたデータをどのように効率的に保存し、膨大なデータをより適切に分析するかが難しい問題となっています。従来のデータベース モデルとストレージ方法では、このようなニーズに適応できないようです。そのため、データを効率的に保存およびクエリし、データの潜在的な価値をより適切に発見できるようにするために、時系列データベースが作成されました。 このような状況に直面して、清華大学は2015年にIoTDBの開発を開始しました。 2020年9月23日、Apache IoTDBは卒業し、Apacheトップレベルプロジェクトになりました。これは現在、中国の大学が主導する唯一のApache Foundationトップレベルプロジェクトであり、Apache Foundation傘下のIoTデータ管理分野で唯一のオープンソースプロジェクトです。 2021年10月、Apache IoTDBコアチームはTianmou Technologyを設立し、IoTDBの運営を継続して、産業ユーザーがデータの「保存、照会、使用」の問題を解決できるように支援しました。 Apache IoTDB によって開発されたコア技術に関しては、複数の参加者が共同でレビュー論文を発表し、IoTDB の設計について詳細かつ包括的な説明が行われました。この記事は、数万台の掘削機を管理する必要がある工業会社から始まり、要件を説明しています。「データは最初にデバイスにパッケージ化され、次に 5G モバイル ネットワークを介してサーバーに送信されます。サーバーでは、データは OLTP クエリ用に時系列データベースに書き込まれます。最後に、データ サイエンティストはデータベースからビッグ データ プラットフォームにデータをロードして、複雑な分析と予測、つまり OLAP タスクを実行できます。」
この論文では以下の部分に焦点を当てています。 1. データ モデル設計:時系列が論理レベルでどのように編成され、物理モデルに格納されるか。 2. TsFile ファイル形式:書き込みとクエリの高効率性を満たす独自開発の列指向ストレージ ファイル形式。 3. IoTDB エンジン:主にストレージ エンジン、クエリ エンジンなどが含まれます。 4. 分散ソリューション。 次に、これらの重要な部分について、より詳細な解釈を提供します。 詳細な解釈1. データモデル設計 (1)下図に示すように、ツリー構造は極めて高強度の書き込み操作に対応するために使用され、IoTシナリオでよく見られるデータ到着遅延の問題を効果的に処理できます。 ツリーでは、各リーフ ノードがセンサーに対応し、各センサーには対応するデバイスがあります (図の下 2 つのレイヤーを参照)。上位レイヤーにも同じことが当てはまります。 (2)前回は論理構造について説明しました。次は物理構造の実装について見てみましょう。物理構造は主に時系列と系列ファミリーの2つの部分から構成されます。次の図は、各時系列が時間と値という 2 つの属性で構成されていることを示しています。時系列は、ルート ノードからリーフ ノードまでの完全なパスに沿って配置されます。上図はシーケンス クラスターの概念を示しています。シーケンス クラスターには複数のデバイスが含まれる場合があり、それらのデータは TsFile (後で説明するファイル構造) にまとめて保存されます。 2. TsFileファイル形式の設計 TsFile は、Apache IoTDB によって開発された列指向のストレージ ファイル形式です。構造は次のとおりです。 TsFile の設計プロセスにおいて、研究チームは主に以下の問題を解決しました。
提供される主なソリューションは次のとおりです。
3. IoTDBエンジン この部分では、研究者は主に、IoT シナリオにおける遅延到着、効率的なクエリ処理、SQL のようなクエリの設計を考慮しました。 IoTDB エンジンの構造は次のとおりです。 図から、ストレージ エンジンは主に TsFile の書き込み、読み取り、管理の処理に使用されていることがわかります。この部分では、自動遅延分離テクノロジが使用されています (下図を参照)。 通常の TsFile 内のほとんどのデータについては、時間範囲に重複がない場合は遅延データ分離が推奨されます。ほとんどのデータが順序どおりでない場合は、遅延データ分離は推奨されません。 もう 1 つの重要なコンポーネントはクエリ エンジンです。これは、SQL クエリをデータベースで実行できる演算子に変換する役割を担います。同時に、産業用 IoT シナリオに適応するために、Apache IoTDB は時系列データに対する豊富なクエリを提供するように設計されています。 4. 分散ソリューション TsFile は HDFS に分散され、Spark で操作できます。さらに、パーティション レプリケーション、NB-Raft レプリケーション、および DYNAMIC 読み取り一貫性を中心に、より優れたデータ分散とクエリ処理のためのネイティブ ソリューションが提供されます。 比較結果この論文では、業界で広く使用されている最も先進的なファイル形式と時系列データベースである TsFile と IoTDB の比較結果を示し、次の図に示すように、多くの面で Apache IoTDB の利点を示しています。 上記の 2 つの図は、書き込みスループット、読み取り時間コスト、同期パフォーマンスの点で、TsFile が現在広く使用されているソリューションよりも優れていることを示しています。これは主に、TsFile の IoT 対応構造設計によるもので、deviceId などの冗長な情報の保存を回避します。ディスク使用量に明らかな利点がない理由は、より洗練されたインデックスが構築され、より多くのスペースを占有するためですが、このような犠牲によりクエリ時間に大幅な改善がもたらされる可能性があります。読み取り時間のコストに明らかな利点があることがわかります。 上の図からわかるように、IoTDB はほぼすべてのテストでパフォーマンスが向上し、書き込みスループットが高く、書き込みレイテンシが低くなっています。 上図の実験では、クエリデータの規模が大きい場合に IoTDB の方がパフォーマンスが優れていることがわかり、特に大規模なデータ集約において IoTDB の利点が顕著になります。 要約するこのホワイト ペーパーでは、IoT アプリケーションのリアルタイム クエリとビッグ データ分析をサポートするために特別に設計されたオープン アーキテクチャを持つ新しい時系列データ管理システム、Apache IoTDB を紹介します。システムには、時間と値を列形式で保存して null 値を回避し、効率的な圧縮を実現する新しい時系列ファイル形式 TsFile が含まれています。 TsFile に基づいて、IoTDB エンジンは LSM ツリーに似た戦略を採用し、IoT シナリオで非常に一般的な、非常に高強度の書き込みを処理し、遅延したデータ到着に対処します。豊富でスケーラブルなクエリと、TsFile で事前に計算された統計により、IoTDB は OLTP および OLAP タスクで効率的な処理を実現できます。 上記のテクノロジーに基づいて、IoTDB は産業用 IoT シナリオにより適切に対応できる新しいタイプのデータベースになりました。 |
<<: マスク氏が自動運転を「ザッカーバーグの家へ行く」ライブ放送、45分間で手動介入は1回のみ:FSD V12は「ベータ版」ではなくなる
>>: 中国人民大学のウェン・ジロン、ガオ・リンらによる32ページにわたるAI自律エージェントの包括的なレビュー。構築、応用、評価を網羅している。
新型コロナウイルスによる肺炎の発生以来、全国の人々が不安に思っています。世界をリードするスケーラブル...
現在、人工知能、ビッグデータ、顔認識技術、クラウドコンピューティングなどの新技術が急速に発展し、産業...
[51CTO.comからのオリジナル記事] 近年、生体認証技術はますます成熟し、私たちの生活の中に...
今年、新たな AI スタートアップ企業がシリコンバレーとビジネス界全体に衝撃を与えました。 Open...
制御された核融合から AGI、そしてチップ業界全体の再編まで、アルトマン氏の将来の AI 展望は、も...
著者: 徐潔成校正:Yun Zhao 「使ってみて、もうMidjourneyには興味がなくなった」。...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
IDG Capital の投資家は、神経科学の専門家や最先端技術の起業家とともに、エネルギーと専門...
2013年頃、Kuaishouは純粋なツールアプリケーションから、毎日1万人のアクティブユーザーを...
データによれば、わが国には60歳以上の高齢者が2億6,400万人以上おり、そのうち1億8,000万人...
インテリジェント化は将来の自動車発展の基本的な方向であり、自動運転技術は将来の自動車発展の重要な最先...
タンパク質は生命の原動力であり、その配列と構造を理解することは、新しい酵素の設計や命を救う薬の開発な...