翻訳者|朱 仙中 レビュー | Chonglou 導入携帯電話、気候センサー、金融市場取引、車両や輸送コンテナのセンサーなど、さまざまなソースから取得される時空間データは、最大かつ最も急速に成長しているデータ カテゴリです。 IDC は、接続されたIoT デバイスによって生成されるデータの総量は2025 年までに73.1 ZB に達し、2019 年の 18.3 ZB から年平均成長率 26% になると予測しています。 MIT Technology Review の最近のレポートによると、IoT データ (多くの場合、位置情報がタグ付けされている) は、他の構造化データや半構造化データよりも急速に増加しています (下のグラフを参照)。しかし、IoT データは、その複雑な統合と有意義な活用に伴う課題のため、今日ほとんどの組織ではほとんど活用されていません。 今日、 2 つの画期的な技術進歩が融合し、地理空間および時系列データ分析の分野に前例のない効率性とアクセス性をもたらしています。 1 つ目は、これまで達成できなかったレベルのパフォーマンスと精度を時系列および空間ワークロードにもたらす GPU アクセラレーション データベースです。 2つ目は生成AIです。これは、 GISの専門知識と高度なプログラミング能力の両方を備えた優秀な人材の必要性をなくすのに役立つ可能性のあるテクノロジーです。 これらの開発はいずれも画期的なものであり、それらが交差することで複雑な空間分析や時系列分析がますます利用しやすくなり、これまで以上に幅広いデータ専門家がこれらの手法を利用できるようになります。この記事では、これらの進歩が時空間データベースの状況をどのように変え、データ主導の洞察とイノベーションの新しい時代を導くのかを探ります。 GPU が時空間分析を加速する方法GPU はもともとコンピューター グラフィックスとレンダリングを高速化するために設計されましたが、最近では、今日の最も強力な生成AIモデルを動かすニューラル ネットワークなど、超並列コンピューティングを必要とする他の分野でもイノベーションを推進しています。同様に、時空間分析の複雑さと範囲は、計算規模によって制限されることがよくあります。しかし、 GPU アクセラレーションを活用できる最新のデータベースは、新たなパフォーマンスのボトルネックを突破し、新たな技術的洞察を生み出しています。ここでは、 GPUアクセラレーションによる時空間解析の 2 つの特定領域に焦点を当てます。 異なるタイムスタンプを持つ時系列ストリームの不正確な結合異なる時系列データ ストリームを分析する場合、タイムスタンプが完全に一致することはほとんどありません。デバイスが正確なクロックや GPS (全地球測位システム)に依存している場合でも、センサーは異なる間隔で読み取り値を生成したり、異なる遅延でメトリックを提供したりすることがあります。または、株式取引や株価の場合、タイムスタンプが正確に一致しない場合があります。 特定の時点での機械データの状態に関する共通の動作状況を把握するには、これらのさまざまなデータセットを結合する必要があります (たとえば、ルート上の任意の時点での車両の実際のセンサー値を把握したり、金融取引を最新の相場と照合したりするなど)。固定の顧客 ID を使用して結合できる顧客データとは異なり、ここでは、時間に基づいて異なるデータストリームを関連付けるために、不正確な結合を実行する必要があります。 時系列を相関させるために複雑なデータ エンジニアリング パイプラインを構築する代わりに、GPU の処理能力を活用して重い処理を実行できます。たとえば、分散型の GPU 高速化データベースであるKineticaを使用すると、GPU 高速化 ASOF 結合を利用できます。これにより、指定した間隔を使用して 1 つの時系列データセットを別の時系列データセットに結合し、間隔内の最小値または最大値を返すかどうかを決定できます。 たとえば、以下のシナリオでは、取引と見積もりが異なる時間間隔で到着します。 Apple の取引とそれに対応する相場を分析したい場合は、Kinetica の ASOF 結合を使用して、各 Apple 取引の特定の間隔内で発生した対応する相場をすぐに見つけることができます。対応するSQLスクリプトは次のとおりです。 ここでは、 1 行の SQLスクリプトのみが使用され、 GPU のパワーと組み合わせることで、時空間データ用の複雑なデータ エンジニアリング パイプラインの実装コストと処理遅延が削減されます。このクエリは、取引後 5 秒以内に各取引のその取引に最も近い見積りを検索します。時系列または空間データセットに対するこのような不正確な結合は、時空間データの氾濫を制御するのに役立つ重要なツールです。 数十億のポイントをインタラクティブに地理的に視覚化通常、時空間 IoT データを探索または分析するための最初のステップは視覚化です。特に地理空間データの場合、参照マップに対してデータをレンダリングすることが、データの視覚的な検査を実行し、カバレッジの問題、データ品質の問題、またはその他の異常をチェックする最も簡単な方法になります。たとえば、GPS 信号の品質を検証するための追加のアルゴリズムやプロセスを開発するよりも、地図を視覚的にスキャンして車両の GPS 軌跡を確認する方が、道路網をたどるよりもはるかに高速です。または、ギニア湾の空の島々の周囲に誤ったデータが見られる場合、緯度 0 度と経度 0 度を送信している無効な GPS データ ソースをすばやく識別して分離できます。 ただし、従来の手法を使用して大規模な地理空間データセットを分析するには、多くの場合、妥協が必要になります。従来のクライアント側レンダリング技術では、レンダリングに問題が生じ、優れたインタラクティブな探索エクスペリエンスが実現できなくなる前に、数万のポイントまたは地理空間フィーチャを処理できる場合がよくあります。限られた時間枠や非常に限定された地理的領域など、データのサブセットを調査すると、データ量をより管理しやすい規模にまで削減できる可能性があります。ただし、データのサンプリングを開始すると、視覚的な分析によって簡単に発見できた特定のデータ品質の問題、傾向、または異常を示すデータを破棄するリスクがあります。 船舶交通に関する約 3 億のデータ ポイントを視覚的に検査することで、アフリカ上空の異常なデータや本初子午線のバンドなど、データ品質の問題を迅速に特定できます。 幸いなことに、GPU は視覚化を加速するのに優れています。たとえば、 Kinetica などのサーバー側 GPU レンダリング機能を備えた最新のデータベース プラットフォームでは、数百万、あるいは数十億もの地理空間ポイントやフィーチャをリアルタイムで探索および視覚化できます。この大幅な高速化により、ダウンサンプリング、集約、データ忠実度の損失なしに、すべての地理空間データを即座に視覚化できるようになります。インスタント レンダリングにより、パンやズーム時に非常にスムーズな視覚化エクスペリエンスが提供され、これらのデータ フィールドの探索と発見が大幅に容易になります。ヒートマップやビニングなどの追加の集計をオプションで有効にして、データの完全なコーパスに対してさらに分析を実行することもできます。 上の画像は、ズームイン手法を使用して、東シナ海地域の船舶交通パターンと船舶速度を分析しています。 LLM による空間時間分析の民主化時空間の問題は、データ内の空間と時間の関係に関係しており、現実世界の経験を反映しているため、素人の直感に響くことがよくあります。人々は、注文から配達完了までの製品のプロセスを知りたいと思うかもしれません。しかし、これらの一見単純なクエリを関数型コードに変換することは、経験豊富なプログラマーにとっても困難な課題です。 たとえば、交通状況、道路の通行止め、配達時間を考慮しながら、移動時間を最小限に抑える配送トラックの最適なルートを決定するには、複雑なアルゴリズムとリアルタイムのデータ統合が必要です。同様に、さまざまな影響要因を考慮しながら、時間と地理を通じて病気の蔓延を追跡するには、経験豊富なデータ サイエンティストでさえ困惑する複雑なモデリングと分析が必要です。 これらの例は、時空間の問題は概念的にはアクセス可能であるものの、そのエンコードを困難な作業にする複雑さが隠れていることが多いことを強調しています。最適な数学演算とそれに対応する SQL 関数の構文を理解することは、最も経験豊富な SQL エキスパートにとっても難しい場合があります。 幸いなことに、最新世代の大規模言語モデル (LLM) は、SQL を含む正確で効率的なコードを生成するのに優れています。 Kinetica のSQL-GPT ネイティブ LLMなど、時空間分析のニュアンスに基づいてトレーニングされたこれらのモデルの微調整バージョンにより、まったく新しいクラスのユーザーに対してこれらの分析ドメインを説明できるようになりました。 たとえば、典型的なニューヨーク市のタクシーデータセットを分析し、空間と時間に関連する質問をしたいとします。まず、分析するテーブルに関する基本的なコンテキストを LLM に提供します。 Kinetica Cloud では、UI または基本的な SQL コマンドを使用して、特定のテーブルへの参照を含む分析コンテキストを定義できます。これらのテーブルの列名と定義は LLM と共有されますが、これらのテーブル内のデータは共有されません。オプションで、追加のコメント、ルール、またはサンプルクエリ結果をコンテキストに含めることで、SQL の精度をさらに向上させることができます。 初期コンテキストを設定したら、Kinetica Cloud で SQL-GPT を使用して、「 JFK空港への旅行の出発地の上位5 つの地域はどれですか? 」と質問できます。微調整された LLM はすぐに次の SQLを生成します。 --JFK空港への出発コミュニティのトップ 5 はどこですか? わずか数秒で、微調整された LLMにより次のことが達成できました。
ここで、最初の質問に答えるためにクエリを実行します。 同様に、Kinetica SQL-GPT に「 JFK 空港でピックアップされた人の総数を 1 日の時間帯別に調べる」ように指示すると、次の SQL が生成されます。 このクエリには、タクシー 1 台あたりの乗客数を合計し、そのデータを時間帯ごとに分類するという追加の複雑さが含まれます。ただし、 LLM はこの複雑さを処理し、正しい SQL を直ちに生成します。 より高度なユーザーの場合、LLM ではより高度な時空間処理も可能になります。たとえば、次の例では、ワシントン DC のトラックの艦隊を分析し、どのトラックが現在ジオフェンスのセット (この場合は、ワシントン DC の有名なランドマークの周囲の緩衝地帯) の近くにあるかを把握したいと考えています。 「ホワイトハウスのランドマークから 1000 メートル以内に現在何台のトラックがあるか」など、特定のジオフェンスの周辺に関する基本的な質問から始め、Kinetica SQL-GPT を使用して次の SQL を生成できます。 ただし、ジオフェンスの近くにあるトラックを常に最新の状態で表示したい場合は、LLM を使用してマテリアライズド ビューを作成できます。 Kinetica SQL-GPT と LLM は、「過去 5 分間にワシントン DC のランドマークから 200 メートル以内に来たトラックはどれですか? すべての列を保持し、landmark_trucks というマテリアライズド ビューを作成します (10 秒ごとに更新されて結果が格納されます)」というプロンプトから始めて、マテリアライズド ビューを作成および更新するための SQL を生成できます。 増大する時空間データを活用するには、企業はデータ プラットフォームを最新化して分析の規模に対応し、ビジネスに必要な洞察と最適化を提供する必要があります。幸いなことに、GPU と生成 AI の最近の進歩により、時空間分析の世界に変革がもたらされようとしています。 要約するGPU アクセラレーション データベースにより、大規模な時空間データの処理と探索が大幅に簡素化されます。自然言語から SQL まで細かく調整された大規模言語モデルの最近の進歩により、時空間分析を組織全体にさらに拡張できるようになり、 GIS アナリストや SQL エキスパートの従来の領域を超えて拡張できるようになります。 GPU と生成 AI の急速な革新により、このタイプのアプリケーションは間違いなく魅力的な分野になるでしょう。 Philip Darringer は、Kinetica (http://www.kinetica.com/)の製品管理担当副社長であり、時系列および時空間ワークロード向けの同社のリアルタイム分析データベースの開発を指揮しています。彼は、データ分析、機械学習、位置情報インテリジェンスに重点を置いたエンタープライズ製品管理の分野で 15 年以上の経験を持っています。 翻訳者紹介Zhu Xianzhong 氏は、51CTO のコミュニティ エディターであり、51CTO の専門ブロガー兼講師であり、濰坊の大学のコンピューター教師であり、フリーランス プログラミング コミュニティのベテランです。 原題: GPU と生成 AI による時空間データ分析の変革、著者: Philip Darringer |
数千年前、そろばんは暗算よりも速い計算ができる魔法の道具でした。 [[418541]]そろばんを使っ...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
StarCraft 2 のプレイヤーのうち、AI にまだ負けていないのはわずか 0.2% です。これ...
人工知能(AI)の可能性は魅力的です。セキュリティ管理者への警鐘。自律的な自己学習ソリューションの力...
今日のグローバル社会は絶えず変化しています。 この文脈において、人工知能は物流業務システムの方向性を...
[[267886]]最近、あるニュースに衝撃を受け、言葉を失いました。そして、人々の収入がどこまで...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
近年、ドローンは農業から物流、世界的な軍事作戦まで、多くの産業に革命をもたらしました。 これらの飛行...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
1年間の開発を経て、人工知能の技術とアプリケーションは、特に通信業界で徐々に爆発的に増加しました。 ...
[[76655]]大学に通ったことのない26歳のジェド・ドミンゲスさんは、ギルデッドのアルゴリズムに...
導入ハードウェアの性能向上と顔データ量の増加に伴い、顔認識はますます成熟し、商業的な用途もますます増...
Python3 を使用して、写真内のすべての顔を認識して表示します。コードは次のとおりです。 # -...