知っておくべきビッグデータ用語 75 選

パート1（25用語）

ビッグデータに不慣れな場合、この分野を理解したり、どこから始めればよいのかわからないかもしれません。ただし、以下の 25 個のビッグデータ用語のリストから始めることができますので、始めましょう。

アルゴリズム:アルゴリズムは、データ分析のための数式または統計プロセスとして理解できます。では、「アルゴリズム」はビッグデータとどのように関係しているのでしょうか?ご存知のとおり、アルゴリズムという言葉は一般的な用語ですが、ビッグデータ分析が普及しているこの時代では、アルゴリズムは頻繁に言及され、ますます人気が高まっています。

分析:クレジットカード会社が、年間を通じてカードの資金移動を記録したメールを送信するという、非常にありそうなシナリオを想像してみましょう。このリストを使って、食費、衣服代、娯楽費などの支出の割合を注意深く調べ始めたらどうなるでしょうか?あなたは分析を行い、生のデータをマイニングして、来年の自分の支出に関する意思決定に役立つ有益な洞察を得ています。では、Twitter や Facebook で市内の人々の投稿に対して同様のことをしたらどうなるでしょうか?この場合はビッグデータ分析と呼ぶことができます。ビッグデータ分析とは、大量のデータを分析し、そこから有用な情報を抽出するプロセスです。以下に 3 つの異なるタイプの分析を示します。ここでそれらを整理します。

記述的分析:昨年のクレジットカード支出のうち、食費が 25%、衣料品が 35%、娯楽費が 20%、残りの 20% が雑費だったということしか分からない場合、この分析方法は記述的分析と呼ばれます。もちろん、さらに詳しい情報もご確認いただけます。

予測分析:過去 5 年間のクレジットカード支出履歴を分析し、毎年の支出が基本的に継続的に変化する傾向を示していることがわかった場合、次の年の支出状況は過去と同様になる可能性が高いと予測できます。これは、未来を予測しているという意味ではありませんが、何が起こるかを「確率を使って予測している」と理解する必要があります。ビッグデータの予測分析では、データサイエンティストは機械学習や高度な統計処理方法 (後述) などの高度なテクノロジーを使用して、気象条件や経済の変化などを予測する場合があります。

規範的分析:これを理解するために、クレジットカード送金の例を使用しましょう。消費のどのタイプ（食品、娯楽、衣服など）が全体の消費に大きな影響を与えるかを知りたい場合は、予測分析に基づく処方分析で「動的指標（アクション）」（食品や衣服、娯楽の削減など）を導入し、その結果を分析することで、全体の支出を削減できる最適な消費項目を定義できます。これをビッグデータの分野に拡張すると、担当者が目の前にある複数の動的指標の影響を観察しながら、いわゆる「データ駆動型」の意思決定を行う様子を想像することができます。

バッチ処理:バッチデータ処理はメインフレームの時代から存在していましたが、大量のデータの処理が必要なビッグデータ時代において、さらに重要になっています。バッチデータ処理は、一定期間にわたって収集された大量のトランザクションデータなど、大量のデータを効率的に処理する方法です。後述する分散コンピューティング (Hadoop) は、バッチデータを処理するための特殊なアプローチです。

Cassandra は、Apache Software Foundation によって開発および運用されている人気のオープンソースデータ管理システムです。 Apache は多くのビッグデータ処理技術を習得しており、Cassandra は分散サーバー間で大量のデータを処理するために特別に設計されたシステムです。

クラウドコンピューティング:クラウドコンピューティングという用語は現在ではよく知られており、ここで詳しく説明する必要はありませんが、記事全体の完全性を保つために、著者はここでもクラウドコンピューティングという用語を使用しています。基本的に、ソフトウェアやデータがリモートサーバー上で処理され、これらのリソースにインターネット上のどこからでもアクセスできる場合、それはクラウドコンピューティングと呼ばれます。

クラスターコンピューティング:これは、複数のサーバーのクラスターの豊富なリソースを使用したコンピューティングを表す比喩的な用語です。より技術的なレベルでは、クラスター処理のコンテキストでは、ノード、クラスター管理レイヤー、負荷分散、並列処理などについて説明する場合があります。

ダークデータ:これは造語であり、私の意見では、人々を怖がらせ、上級管理職を不明瞭に見せるために使用されています。基本的にダークデータとは、企業が蓄積・処理しているものの、実際には全く活用されていないデータ全般を指します。この意味で「ダーク」データと呼んでおり、全く分析されていない可能性もあります。このデータには、ソーシャルネットワーク、コールセンターの記録、会議の議事録などからの情報が含まれます。多くの推定によれば、企業全体のデータの 60% から 90% がダークデータである可能性があるとされていますが、実際のところは誰も知りません。

データレイク:この用語を初めて聞いたとき、本当にエイプリルフールのジョークだと思いました。しかし、それは単なる用語にすぎません。つまり、データレイクは、企業全体のデータを大量の生の形式で保存するリポジトリです。ここではデータウェアハウスについて紹介します。データウェアハウスは、ここで説明したデータレイクに似た概念ですが、クリーンアップされ、他のリソースと統合された構造化データを保存するという点が異なります。データウェアハウスは、多くの場合 (必ずしもそうとは限りませんが) 汎用データに使用されます。データレイクを使用すると、本当に必要なデータに簡単にアクセスでき、データをより簡単に処理して効果的に使用できるようになると一般的に考えられています。

データマイニング:データマイニングは、高度なパターン認識技術を使用して、大量のデータから意味のあるパターンを見つけ、関連する洞察を得るプロセスです。これは、前述の「分析」と密接に関係しています。データマイニングでは、まずデータをマイニングし、その結果を分析します。意味のあるパターンを見つけるために、データマイナーは統計 (古典的な古い方法)、機械学習アルゴリズム、および人工知能を使用します。

データサイエンティスト:データサイエンティストは、今日では非常に魅力的な職業です。これは、生データを抽出して理解、処理し、洞察を引き出すことができる人々のグループを指します (これは、以前にデータレイクと呼んだものです)。データサイエンティストが備えていなければならないスキルの中には、分析能力、統計、コンピューターサイエンス、創造性、ストーリーテリング能力、ビジネスコンテキストを理解する能力など、スーパータレントだけが備えていると言えるスキルもあります。彼らが高給をもらっているのも不思議ではない。

分散ファイルシステム:ビッグデータは、単一のシステムに保存するには大きすぎます。分散ファイルシステムは、大量のデータを複数のストレージデバイスに保存できるファイルシステムであり、大量のデータを保存するコストと複雑さを軽減できます。

ETL: ETL は、抽出、変換、ロードの略です。これは、生データを「抽出」し、クリーニング/エンリッチメントを通じて「使用に適した」形式にデータを「変換」し、システムでの使用に適したライブラリに「ロード」するプロセスを指します。 ETL はデータウェアハウスから生まれましたが、このプロセスは、たとえばビッグデータシステムの外部ソースからデータを取得するときにも使用されます。

Hadoop:ビッグデータについて考えるとき、人々はすぐに Hadoop を思い浮かべます。 Hadoop はオープンソースのソフトウェアフレームワーク (かわいい象のロゴ付き) で、分散ハードウェアを使用してビッグデータの保存、抽象化、分析を可能にする Hadoop 分散ファイルシステム (HDFS) で構成されています。本当に誰かを感動させたいなら、YARN (Yet Another Resource Scheduler) はまさにその名前の通りのものだと伝えることができます。これらの名前を考えた人々には本当に感銘を受けました。 Hadoop を考案した Apache Foundation は、Pig、Hive、Spark (これらはすべてソフトウェアの名前です) も担当しています。これらの名前に驚きませんか?

インメモリコンピューティング:一般的に、I/O アクセスを伴わない計算は高速になると考えられています。インメモリコンピューティングは、すべての作業データセットをクラスターの集合メモリに移動する手法であり、計算プロセス中に中間結果をディスクに書き込むことを防ぎます。 Apache Spark は、Mapreduce などの I/O バウンドシステムに比べて大きな利点を持つインメモリコンピューティングシステムです。

モノのインターネット (IoT):最新の流行語はモノのインターネット (IoT) です。 IoT とは、埋め込みオブジェクト (センサー、ウェアラブルデバイス、自動車、冷蔵庫など) 内のコンピューティングデバイスをインターネット経由で相互接続し、データを送受信できるようにすることです。モノのインターネットは膨大な量のデータを生成し、ビッグデータ分析の多くの機会をもたらします。

機械学習:機械学習は、入力されたデータに基づいて学習、調整、改善できるシステムを設計する方法です。プログラムされた予測的および統計的アルゴリズムを使用して、ロボットは継続的に「正しい」行動や思考に近づき、システムに入力されるデータが増えるにつれてさらに改善することができます。

MapReduce: MapReduce は理解するのが少し難しいかもしれませんので、説明してみます。 MapReduceMapReduce は、Map と Reduce が 2 つの異なるプロセスであることに注目すると最もよく理解できるプログラミングモデルです。 MapReduce では、プログラムモデルは最初に大きなデータセットを小さなブロックに分割し (これらの小さなブロックは専門用語では「タプル」と呼ばれますが、説明する際にわかりにくい専門用語は避けるようにします)、次にこれらの小さなブロックを異なる場所にある異なるコンピューター (つまり、前述のクラスター) に分散します。これは、Map プロセスで必要です。次に、モデルは各計算結果を収集し、それらを 1 つの部分に「削減」します。 MapReduce のデータ処理モデルは、Hadoop 分散ファイルシステムと切り離すことはできません。

非リレーショナルデータベース (NoSQL):この単語は、「SQL (構造化クエリ言語)」の反対語のように聞こえます。SQL は従来のリレーショナルデータベース管理システム (RDBMS) に必要ですが、NOSQL は実際には「SQL 以上のもの」を意味します。 NoSQL は実際には、構造 (または「スキーマ」) なしで大量のデータを処理するように設計されたデータベース管理システムを指します。大規模な非構造化データベースには NoSQL の柔軟性と分散ファースト機能が求められるため、NoSQL はビッグデータシステムに適しています。

R:プログラミング言語にこれよりひどい名前を思いつく人がいるでしょうか? R はそのような言語です。しかし、R は統計作業に非常に適した言語です。 R を知らないなら、自分をデータサイエンティストと呼ばないでください。 R はデータサイエンスで最も人気のあるプログラミング言語の 1 つだからです。

Spark (Apache Spark): Apache Spark は、データベースへの反復アクセスを必要とするストリーム処理、機械学習、および SQL ワークロードを効率的に実行できる高速なインメモリデータ処理エンジンです。 Spark は通常、前述した MapReduce よりもはるかに高速です。

ストリーム処理:ストリーム処理は、ストリーミングデータを継続的に処理するように設計されています。ストリーム分析技術（数値および統計分析を継続的に計算する機能）と組み合わせることで、ストリーム処理方法は特に大規模データのリアルタイム処理が可能になります。

構造化データと非構造化データ:これはビッグデータにおける対照的な点の 1 つです。構造化データとは、基本的にリレーショナルデータベースに配置して、テーブルを通じて他のデータと関連付けられるように整理できるデータです。非構造化データとは、電子メールメッセージ、ソーシャルメディアのステータス、人間の音声など、リレーショナルデータベースに配置できないデータのことです。

パート2（50語）

この記事は前回の続きです。前回の記事に非常に多くの反響があったため、関連用語をさらに50個紹介することにしました。前の記事で取り上げた用語を簡単に復習します。アルゴリズム、分析、記述分析、前処理分析、予測分析、バッチ処理、Cassandra (大規模分散データストレージシステム)、クラウドコンピューティング、クラスターコンピューティング、ダークデータ、データレイク、データマイニング、データサイエンティスト、分散ファイルシステム、ETL、Hadoop (大規模データ処理を開発および実行するためのソフトウェアプラットフォーム)、インメモリコンピューティング、モノのインターネット、機械学習、Mapreduce (Hadoop のコアコンポーネントの 1 つ)、NoSQL (非リレーショナルデータベース)、R、Spark (コンピューティングエンジン)、ストリーム処理、構造化データと非構造化データ。

さらに 50 個のビッグデータ用語について学習してみましょう。

Apache Software Foundation (ASF) は、現在 350 を超えるビッグデータ用のオープンソースプロジェクトを多数提供しています。これらすべてを説明するとかなり時間がかかるので、ここではよく使われる用語をいくつか取り上げます。

Apache Kafka:チェコの作家フランツ・カフカにちなんで名付けられ、リアルタイムのデータパイプラインとストリーミングアプリケーションの構築に使用されます。これが人気を博している理由は、フォールトトレラントな方法でデータストリームを保存、管理、処理する能力があり、非常に「高速」であると言われています。ソーシャルネットワーキング環境ではデータストリームの処理が頻繁に行われるため、Kafka は現在非常に人気があります。

Apache Mahout: Mahout は、機械学習とデータマイニング用の既成アルゴリズムのライブラリを提供し、さらに多くのアルゴリズムを作成するための環境としても使用できます。つまり、機械学習オタクにとって最高の環境です。

Apache Oozie:どのプログラミング環境でも、定義済みの方法と定義された依存関係で作業をスケジュールして実行するためのワークフローシステムが必要です。これは、pig、MapReduce、Hive などの言語で記述されたビッグデータワークロードに対して Oozie が提供するものです。

Apache Drill、Apache Impala、Apache Spark SQL:これら 3 つのオープンソースプロジェクトは、Apache Hadoop データとのやり取りなど、高速でインタラクティブな SQL を提供します。これらの機能は、すでに SQL を知っていて、ビッグデータ形式 (HBase や HDFS など) で保存されたデータを扱う場合に役立ちます。すみません、ちょっと変ですね。

Apache Hive: SQL を知っていますか?これを知っていれば、Hive を使い始めるのは簡単になります。 Hive は、SQL を使用して分散ストレージに存在する大規模なデータセットの読み取り、書き込み、管理に役立ちます。

Apache Pig: Pig は、大規模な分散データセットに対してルーチンを作成、クエリ、および実行するためのプラットフォームです。使用されるスクリプト言語は Pig Latin と呼ばれます (冗談ではありません、信じてください)。豚は理解しやすく、学びやすいと言われています。しかし、どれだけ学べるか疑問です。

Apache Sqoop: Hadoop からデータウェアハウスやリレーショナルデータベースなどの非 Hadoop データストアにデータを移動するためのツール。

Apache Storm:無料のオープンソースのリアルタイム分散コンピューティングシステム。バッチ処理に Hadoop を使用しながら、非構造化データの処理が容易になります。

人工知能 (AI): AI はなぜ存在するのでしょうか?これは別の分野ではないのかと疑問に思うかもしれません。これらのテクノロジーのトレンドはすべて密接に関連しているので、落ち着いて学ぶほうがよいでしょう。 AI は、ハードウェアとソフトウェアを組み合わせたインテリジェントなマシンとソフトウェアを開発し、環境を感知し、必要に応じて必要なアクションを実行し、そのアクションから継続的に学習します。機械学習によく似ているように聞こえますか?私と混同してください。

行動分析: Google が、あなたが必要とする製品やサービスの広告をどのように配信しているか疑問に思ったことはありませんか?行動分析は、消費者とアプリケーションが何を行うか、また、特定の方法でどのように、なぜ行動するかを理解することに重点を置いています。これには、閲覧パターン、ソーシャルメディアでのやり取り、オンラインショッピングのアクティビティ (ショッピングカートなど) を理解し、これらの無関係なデータポイントを接続して、結果を予測することが含まれます。一例として、ホテルを見つけてショッピングカートを空にした後、リゾートバケーションラインから電話がかかってきました。もっと言うべきでしょうか？

ブロントバイト: 1 の後に 27 個のゼロが続きます。これは将来のデジタル世界のストレージユニットのサイズです。さて、ここでテラバイト、ペタバイト、エクサバイト、ゼタバイト、ヨタバイト、ブロントバイトについてお話ししましょう。これらの用語をより深く理解するには、必ずこの記事を読んでください。

ビジネスインテリジェンス: Gartner の BI の定義は非常にわかりやすく説明されているので、これを再利用します。ビジネスインテリジェンスは、情報にアクセスして分析し、意思決定とパフォーマンスを改善および最適化するアプリケーション、インフラストラクチャ、ツール、ベストプラクティスを含む包括的な用語です。

生体認証:これは、顔認識、虹彩認識、指紋認識など、人体の 1 つ以上の物理的特徴を通じて人物を識別する分析技術と組み合わせたジェームズ・ボンド風の技術です。

クリックストリーム分析:ユーザーが Web を閲覧する際のオンラインクリックデータを分析するために使用されます。ウェブサイトを切り替えても特定の Google 広告が表示され続けるのはなぜか、疑問に思ったことはありませんか? Google はあなたが何をクリックしているかを知っているからです。

クラスター分析は、データの構造を識別しようとする探索的分析です。セグメンテーション分析または分類分析とも呼ばれます。より具体的には、観察、参加者、回答者など、同質のケースグループを識別しようとします。グループ化が以前に不明だった場合は、クラスター分析を使用して症例のグループを識別しました。探索的であるため、従属変数と独立変数を区別します。 SPSS が提供するさまざまなクラスター分析方法は、バイナリ、名目、順序、スケール (間隔または比率) データを処理できます。

比較分析：ビッグデータの鍵は分析なので、この記事では分析の重要性について詳しく説明します。名前が示すように、比較分析とは、パターン分析、フィルタリング、決定木分析などの統計手法を使用して、複数のプロセス、データセット、またはその他のオブジェクトを比較することです。だんだん技術的ではなくなってきていることは承知していますが、それでも専門用語を完全に避けることはできません。比較分析は、医療分野で大量の医療記録、文書、画像などを比較することで、より効果的で正確な医療診断を行うために使用できます。

接続分析:特定のトピックのインフルエンサーを特定するために、人々とトピックを結び付ける蜘蛛の巣のようなグラフを見たことがあるはずです。関連性分析は、ネットワーク内の人、製品、システム、さらには複数のネットワークを組み合わせたデータ間の関連する接続と影響を発見するのに役立ちます。

データアナリスト:データアナリストは、レポートの作成に加えて、データの収集、編集、分析を担当する非常に重要かつ人気のある仕事です。データアナリストについては、近いうちにさらに詳しい記事を書く予定です。

データクレンジング:名前が示すように、データクレンジングでは、データベース内の不正確なデータまたはレコードを検出して修正または削除し、「ダーティデータ」を記憶します。データアナリストは、自動または手動のツールとアルゴリズムの助けを借りて、データを修正し、さらに充実させて、データの品質を向上させることができます。覚えておいてください、汚れたデータは誤った分析と不適切な意思決定につながります。

データアズアサービス (DaaS):サービスとしてのソフトウェア (SaaS)、サービスとしてのプラットフォーム (PaaS) があり、現在はデータアズアサービス (DaaS) があります。 DaaS プロバイダーは、ユーザーにクラウドデータへのオンデマンドアクセスを提供することで、高品質なデータを迅速に取得できるように支援します。

データ仮想化:これは、技術的な詳細 (データがどこに保存されているか、どのような形式であるかなど) を知らなくても、アプリケーションがデータを抽出して操作できるようにするデータ管理アプローチです。たとえば、ソーシャルネットワークでは、この方法を使用して写真を保存します。

ダーティデータ:ビッグデータは非常に魅力的であるため、人々はデータに他の形容詞を追加して、ダークデータ、ダーティデータ、スモールデータ、そして現在ではスマートデータなどの新しい用語を作り始めました。ダーティデータとは、不正確なデータ、つまり、不正確で重複したデータ、一貫性のないデータのことです。当然ですが、汚いデータを扱いたくはありません。だから、できるだけ早く修正してください。

ファジー論理:何かについて、100% 正しいなどと確信することはどのくらいの頻度で起こるでしょうか?とても珍しい！私たちの脳はデータを部分的な事実に集約し、それがさらに抽象化されて、私たちの意思決定を決定するある種の閾値になります。ファジー論理は、ブール代数などの「0」と「1」とは対照的に、真実の一部を徐々に排除することで人間の脳を模倣することを目的としたコンピューティングの一種です。

ゲーミフィケーション:一般的なゲームでは、他のプレイヤーと競うスコアなどの要素があり、ゲームの明確なルールがあります。ビッグデータにおけるゲーミフィケーションとは、これらの概念を利用してデータを収集、分析したり、プレイヤーのモチベーションを高めたりすることです。

グラフデータベース:グラフデータベースは、ノードやエッジなどの概念を使用して、人や企業、およびそれらの関係を表し、ソーシャルメディアのデータをマイニングします。商品を購入するときに、他の人が何を購入しているかについて Amazon が教えてくれることに驚いたことはありませんか?はい、これはグラフデータベースです。

Hadoop ユーザーエクスペリエンス (Hue): Hue は、Apache Hadoop の使用を容易にするオープンソースインターフェイスです。これは Web ベースのアプリケーションであり、分散ファイルシステム用のファイルブラウザー、MapReduce 用のタスクデザイナー、ワークフローをスケジュールできる Oozie と呼ばれるフレームワーク、シェル、Impala、Hive UI、および Hadoop API セットを備えています。

高性能分析アプリケーション (HANA):これは、ビッグデータの転送と分析のために SAP が設計したハードウェアおよびソフトウェアのインメモリプラットフォームです。

HBase:分散型の列指向データベース。基盤となるストレージとして HDFS を使用し、MapReduce を使用したバッチコンピューティングとトランザクションインタラクションを使用したバッチコンピューティングの両方をサポートします。

負荷分散:複数のコンピューターまたはサーバーに負荷を分散して、最適な結果とシステムの使用率を実現します。

メタデータ:メタデータは他のデータを説明できるデータです。メタデータはデータに関する基本情報を要約したもので、特定のデータインスタンスの検索と使用が容易になります。たとえば、データの作成者、作成日、変更日、サイズなどは、ドキュメントの基本的なメタデータです。ドキュメントファイルに加えて、メタデータは画像、ビデオ、スプレッドシート、Web ページにも使用されます。

MongoDB: MongoDB は、従来のテーブルベースのリレーショナルデータベースではなく、テキストデータモデルを指向したクロスプラットフォームのオープンソースデータベースです。このデータベース構造の主な設計目的は、特定の種類のアプリケーションで構造化データと非構造化データをより速く簡単に統合できるようにすることです。

マッシュアップ:幸いなことに、この用語は私たちが日常生活で使う「マッシュアップ」という言葉と似た意味を持ち、混ぜ合わせることを意味します。本質的に、マッシュアップとは、異なるデータセットを 1 つのアプリケーションに結合する方法です (たとえば、不動産データを位置データや人口統計データと結合するなど)。これは本当にクールな視覚化を実現します。

多次元データベース:これは、オンライン分析処理 (OLAP) とデータウェアハウス向けに最適化されたデータベースです。データウェアハウスが何であるか分からない場合は、データウェアハウスとは複数のデータソースからのデータを集中的に保存するストレージに他ならないと説明できます。

マルチ値データベース:マルチ値データベースは、3 次元データを直接理解できる非リレーショナルデータベースであり、HTML および XML 文字列を直接操作するのに最適です。

自然言語処理:自然言語処理は、コンピューターが日常の人間の言語をより正確に理解できるように設計されたソフトウェアアルゴリズムであり、人間がコンピューターとより自然かつ効果的に対話できるようにします。

ニューラルネットワーク:この説明 (http://neuralnetworksanddeeplearning.com/) によると、ニューラルネットワークは生物学にヒントを得た非常に優れたプログラミングパラダイムであり、コンピューターが観測データから学習できるようにします。プログラミングパラダイムを美しいと呼ぶ人がいなくなって久しい。実際、ニューラルネットワークは現実の脳生物学からヒントを得たモデルです。ニューラルネットワークと密接に関連する用語は、ディープラーニングです。ディープラーニングは、ニューラルネットワークにおける学習手法の集合です。

パターン認識:パターン認識は、アルゴリズムが大規模なデータセット内または異なるデータセット間で回帰または規則性を識別する必要がある場合に行われます。これは機械学習やデータマイニングと密接に関連しており、後者 2 つと同義語であるとさえ考えられています。この可視性により、研究者は重要なパターンを発見したり、そうでなければ不合理だと考えられるような結論に到達したりできるようになります。

無線周波数識別 (RFID):無線周波数識別は、非接触の無線無線周波数電磁場を使用してデータを送信するタイプのセンサーです。モノのインターネットの発展により、RFID タグはあらゆる「モノ」に埋め込むことができるようになり、分析が必要な大量のデータが生成されるようになりました。データの世界へようこそ。

サービスとしてのソフトウェア (SaaS):サービスとしてのソフトウェアにより、サービスプロバイダーはインターネット上でアプリケーションをホストできます。 SaaS プロバイダーはクラウドでサービスを提供します。

半構造化データ:半構造化データとは、従来のデータベースや一般的に使用されるデータモデルに関連付けられたデータフィールドなど、従来の方法でフォーマットされていないデータのことを指します。半構造化データは、完全に生のデータでも、完全に非構造化のデータでもありません。データテーブル、ラベル、その他の構造要素が含まれる場合があります。半構造化データの例としては、グラフ、表、XML ドキュメント、電子メールなどがあります。半構造化データは World Wide Web 上で非常に人気があり、オブジェクト指向データベースでよく見られます。

感情分析:感情分析では、ソーシャルメディア、顧客担当者の電話インタビュー、アンケートなど、さまざまな種類のやり取りやドキュメントで消費者が表現した感情、気持ち、意見をキャプチャ、追跡、分析します。テキスト分析と自然言語処理は、感情分析のプロセスにおける典型的な技術です。感情分析の目的は、企業、製品、サービス、人物、またはイベントに対する態度や感情を特定または評価することです。

空間分析:空間分析とは、幾何学的空間に分布するデータのパターンや規則性を識別または理解するために空間データを分析することを指します。このタイプのデータには、幾何学的データと位相データが含まれます。

ストリーム処理:ストリーム処理は、「ストリームデータ」に対してリアルタイムの「継続的な」クエリと処理を実行するように設計されています。大量のストリーミングデータに対して、リアルタイムの数値計算や統計分析を非常に高速に継続的に実行するために、ソーシャルネットワーク上のストリーミングデータに対するストリーム処理の需要は非常に明確です。

スマートデータとは、何らかのアルゴリズムによって処理された後、有用かつ実用的なデータです。

テラバイト:これは比較的大きなデジタルデータの単位で、1 TB は 1000 GB に相当します。 10TB であればアメリカ議会図書館のすべての印刷資料を収容でき、1TB であればブリタニカ百科事典全体を収容できると推定されます。

視覚化:適切な視覚化により、生のデータを活用できます。もちろん、ここでの視覚化は単なる単純なグラフではありません。むしろ、読みやすく理解しやすいまま、多くのデータ変数を含めることができる複雑なチャートです。

ヨタバイト:約 1,000 ゼタバイト、または DVD 2.5 兆枚。現在、すべてのデジタルストレージは約 1 ヨタバイトで、その数は 18 か月ごとに倍増します。

ゼタバイト:約 1,000 エクサバイト、または 10 億テラバイト。

オリジナルリンク: http://dataconomy.com/2017/02/25-big-data-terms/

http://dataconomy.com/2017/07/75-ビッグデータ用語-みんなが知っている/

<<: Objective-C でのソートアルゴリズムを学ぶ

>>: 決定木からランダムフォレストへ: ツリーベースアルゴリズムの原理と実装