パート1(25用語)ビッグデータに不慣れな場合、この分野を理解したり、どこから始めればよいのかわからないかもしれません。ただし、以下の 25 個のビッグデータ用語のリストから始めることができますので、始めましょう。 アルゴリズム:アルゴリズムは、データ分析のための数式または統計プロセスとして理解できます。では、「アルゴリズム」はビッグデータとどのように関係しているのでしょうか?ご存知のとおり、アルゴリズムという言葉は一般的な用語ですが、ビッグデータ分析が普及しているこの時代では、アルゴリズムは頻繁に言及され、ますます人気が高まっています。 分析:クレジットカード会社が、年間を通じてカードの資金移動を記録したメールを送信するという、非常にありそうなシナリオを想像してみましょう。このリストを使って、食費、衣服代、娯楽費などの支出の割合を注意深く調べ始めたらどうなるでしょうか?あなたは分析を行い、生のデータをマイニングして、来年の自分の支出に関する意思決定に役立つ有益な洞察を得ています。では、Twitter や Facebook で市内の人々の投稿に対して同様のことをしたらどうなるでしょうか?この場合はビッグデータ分析と呼ぶことができます。ビッグデータ分析とは、大量のデータを分析し、そこから有用な情報を抽出するプロセスです。以下に 3 つの異なるタイプの分析を示します。ここでそれらを整理します。 記述的分析:昨年のクレジットカード支出のうち、食費が 25%、衣料品が 35%、娯楽費が 20%、残りの 20% が雑費だったということしか分からない場合、この分析方法は記述的分析と呼ばれます。もちろん、さらに詳しい情報もご確認いただけます。 予測分析:過去 5 年間のクレジットカード支出履歴を分析し、毎年の支出が基本的に継続的に変化する傾向を示していることがわかった場合、次の年の支出状況は過去と同様になる可能性が高いと予測できます。これは、未来を予測しているという意味ではありませんが、何が起こるかを「確率を使って予測している」と理解する必要があります。ビッグデータの予測分析では、データ サイエンティストは機械学習や高度な統計処理方法 (後述) などの高度なテクノロジーを使用して、気象条件や経済の変化などを予測する場合があります。 規範的分析:これを理解するために、クレジットカード送金の例を使用しましょう。消費のどのタイプ(食品、娯楽、衣服など)が全体の消費に大きな影響を与えるかを知りたい場合は、予測分析に基づく処方分析で「動的指標(アクション)」(食品や衣服、娯楽の削減など)を導入し、その結果を分析することで、全体の支出を削減できる最適な消費項目を定義できます。これをビッグデータの分野に拡張すると、担当者が目の前にある複数の動的指標の影響を観察しながら、いわゆる「データ駆動型」の意思決定を行う様子を想像することができます。 バッチ処理:バッチ データ処理はメインフレームの時代から存在していましたが、大量のデータの処理が必要なビッグ データ時代において、さらに重要になっています。バッチ データ処理は、一定期間にわたって収集された大量のトランザクション データなど、大量のデータを効率的に処理する方法です。後述する分散コンピューティング (Hadoop) は、バッチ データを処理するための特殊なアプローチです。 Cassandra は、Apache Software Foundation によって開発および運用されている人気のオープン ソース データ管理システムです。 Apache は多くのビッグデータ処理技術を習得しており、Cassandra は分散サーバー間で大量のデータを処理するために特別に設計されたシステムです。 クラウド コンピューティング:クラウド コンピューティングという用語は現在ではよく知られており、ここで詳しく説明する必要はありませんが、記事全体の完全性を保つために、著者はここでもクラウド コンピューティングという用語を使用しています。基本的に、ソフトウェアやデータがリモート サーバー上で処理され、これらのリソースにインターネット上のどこからでもアクセスできる場合、それはクラウド コンピューティングと呼ばれます。 クラスター コンピューティング:これは、複数のサーバーのクラスターの豊富なリソースを使用したコンピューティングを表す比喩的な用語です。より技術的なレベルでは、クラスター処理のコンテキストでは、ノード、クラスター管理レイヤー、負荷分散、並列処理などについて説明する場合があります。 ダーク データ:これは造語であり、私の意見では、人々を怖がらせ、上級管理職を不明瞭に見せるために使用されています。基本的にダークデータとは、企業が蓄積・処理しているものの、実際には全く活用されていないデータ全般を指します。この意味で「ダーク」データと呼んでおり、全く分析されていない可能性もあります。このデータには、ソーシャル ネットワーク、コール センターの記録、会議の議事録などからの情報が含まれます。多くの推定によれば、企業全体のデータの 60% から 90% がダーク データである可能性があるとされていますが、実際のところは誰も知りません。 データ レイク:この用語を初めて聞いたとき、本当にエイプリルフールのジョークだと思いました。しかし、それは単なる用語にすぎません。つまり、データ レイクは、企業全体のデータを大量の生の形式で保存するリポジトリです。ここではデータウェアハウスについて紹介します。データ ウェアハウスは、ここで説明したデータ レイクに似た概念ですが、クリーンアップされ、他のリソースと統合された構造化データを保存するという点が異なります。データ ウェアハウスは、多くの場合 (必ずしもそうとは限りませんが) 汎用データに使用されます。データ レイクを使用すると、本当に必要なデータに簡単にアクセスでき、データをより簡単に処理して効果的に使用できるようになると一般的に考えられています。 データ マイニング:データ マイニングは、高度なパターン認識技術を使用して、大量のデータから意味のあるパターンを見つけ、関連する洞察を得るプロセスです。これは、前述の「分析」と密接に関係しています。データマイニングでは、まずデータをマイニングし、その結果を分析します。意味のあるパターンを見つけるために、データ マイナーは統計 (古典的な古い方法)、機械学習アルゴリズム、および人工知能を使用します。 データ サイエンティスト:データ サイエンティストは、今日では非常に魅力的な職業です。これは、生データを抽出して理解、処理し、洞察を引き出すことができる人々のグループを指します (これは、以前にデータ レイクと呼んだものです)。データ サイエンティストが備えていなければならないスキルの中には、分析能力、統計、コンピューター サイエンス、創造性、ストーリーテリング能力、ビジネス コンテキストを理解する能力など、スーパー タレントだけが備えていると言えるスキルもあります。彼らが高給をもらっているのも不思議ではない。 分散ファイル システム:ビッグ データは、単一のシステムに保存するには大きすぎます。分散ファイル システムは、大量のデータを複数のストレージ デバイスに保存できるファイル システムであり、大量のデータを保存するコストと複雑さを軽減できます。 ETL: ETL は、抽出、変換、ロードの略です。これは、生データを「抽出」し、クリーニング/エンリッチメントを通じて「使用に適した」形式にデータを「変換」し、システムでの使用に適したライブラリに「ロード」するプロセスを指します。 ETL はデータ ウェアハウスから生まれましたが、このプロセスは、たとえばビッグ データ システムの外部ソースからデータを取得するときにも使用されます。 Hadoop:ビッグデータについて考えるとき、人々はすぐに Hadoop を思い浮かべます。 Hadoop はオープンソースのソフトウェア フレームワーク (かわいい象のロゴ付き) で、分散ハードウェアを使用してビッグ データの保存、抽象化、分析を可能にする Hadoop 分散ファイル システム (HDFS) で構成されています。本当に誰かを感動させたいなら、YARN (Yet Another Resource Scheduler) はまさにその名前の通りのものだと伝えることができます。これらの名前を考えた人々には本当に感銘を受けました。 Hadoop を考案した Apache Foundation は、Pig、Hive、Spark (これらはすべてソフトウェアの名前です) も担当しています。これらの名前に驚きませんか? インメモリ コンピューティング:一般的に、I/O アクセスを伴わない計算は高速になると考えられています。インメモリ コンピューティングは、すべての作業データ セットをクラスターの集合メモリに移動する手法であり、計算プロセス中に中間結果をディスクに書き込むことを防ぎます。 Apache Spark は、Mapreduce などの I/O バウンド システムに比べて大きな利点を持つインメモリ コンピューティング システムです。 モノのインターネット (IoT):最新の流行語はモノのインターネット (IoT) です。 IoT とは、埋め込みオブジェクト (センサー、ウェアラブル デバイス、自動車、冷蔵庫など) 内のコンピューティング デバイスをインターネット経由で相互接続し、データを送受信できるようにすることです。モノのインターネットは膨大な量のデータを生成し、ビッグデータ分析の多くの機会をもたらします。 機械学習:機械学習は、入力されたデータに基づいて学習、調整、改善できるシステムを設計する方法です。プログラムされた予測的および統計的アルゴリズムを使用して、ロボットは継続的に「正しい」行動や思考に近づき、システムに入力されるデータが増えるにつれてさらに改善することができます。 MapReduce: MapReduce は理解するのが少し難しいかもしれませんので、説明してみます。 MapReduceMapReduce は、Map と Reduce が 2 つの異なるプロセスであることに注目すると最もよく理解できるプログラミング モデルです。 MapReduce では、プログラム モデルは最初に大きなデータ セットを小さなブロックに分割し (これらの小さなブロックは専門用語では「タプル」と呼ばれますが、説明する際にわかりにくい専門用語は避けるようにします)、次にこれらの小さなブロックを異なる場所にある異なるコンピューター (つまり、前述のクラスター) に分散します。これは、Map プロセスで必要です。次に、モデルは各計算結果を収集し、それらを 1 つの部分に「削減」します。 MapReduce のデータ処理モデルは、Hadoop 分散ファイル システムと切り離すことはできません。 非リレーショナル データベース (NoSQL):この単語は、「SQL (構造化クエリ言語)」の反対語のように聞こえます。SQL は従来のリレーショナル データベース管理システム (RDBMS) に必要ですが、NOSQL は実際には「SQL 以上のもの」を意味します。 NoSQL は実際には、構造 (または「スキーマ」) なしで大量のデータを処理するように設計されたデータベース管理システムを指します。大規模な非構造化データベースには NoSQL の柔軟性と分散ファースト機能が求められるため、NoSQL はビッグデータ システムに適しています。 R:プログラミング言語にこれよりひどい名前を思いつく人がいるでしょうか? R はそのような言語です。しかし、R は統計作業に非常に適した言語です。 R を知らないなら、自分をデータ サイエンティストと呼ばないでください。 R はデータサイエンスで最も人気のあるプログラミング言語の 1 つだからです。 Spark (Apache Spark): Apache Spark は、データベースへの反復アクセスを必要とするストリーム処理、機械学習、および SQL ワークロードを効率的に実行できる高速なインメモリ データ処理エンジンです。 Spark は通常、前述した MapReduce よりもはるかに高速です。 ストリーム処理:ストリーム処理は、ストリーミング データを継続的に処理するように設計されています。ストリーム分析技術(数値および統計分析を継続的に計算する機能)と組み合わせることで、ストリーム処理方法は特に大規模データのリアルタイム処理が可能になります。 構造化データと非構造化データ:これはビッグデータにおける対照的な点の 1 つです。構造化データとは、基本的にリレーショナル データベースに配置して、テーブルを通じて他のデータと関連付けられるように整理できるデータです。非構造化データとは、電子メール メッセージ、ソーシャル メディアのステータス、人間の音声など、リレーショナル データベースに配置できないデータのことです。 パート2(50語)この記事は前回の続きです。前回の記事に非常に多くの反響があったため、関連用語をさらに50個紹介することにしました。前の記事で取り上げた用語を簡単に復習します。アルゴリズム、分析、記述分析、前処理分析、予測分析、バッチ処理、Cassandra (大規模分散データ ストレージ システム)、クラウド コンピューティング、クラスター コンピューティング、ダーク データ、データ レイク、データ マイニング、データ サイエンティスト、分散ファイル システム、ETL、Hadoop (大規模データ処理を開発および実行するためのソフトウェア プラットフォーム)、インメモリ コンピューティング、モノのインターネット、機械学習、Mapreduce (Hadoop のコア コンポーネントの 1 つ)、NoSQL (非リレーショナル データベース)、R、Spark (コンピューティング エンジン)、ストリーム処理、構造化データと非構造化データ。 さらに 50 個のビッグデータ用語について学習してみましょう。 Apache Software Foundation (ASF) は、現在 350 を超えるビッグデータ用のオープン ソース プロジェクトを多数提供しています。これらすべてを説明するとかなり時間がかかるので、ここではよく使われる用語をいくつか取り上げます。 Apache Kafka:チェコの作家フランツ・カフカにちなんで名付けられ、リアルタイムのデータ パイプラインとストリーミング アプリケーションの構築に使用されます。これが人気を博している理由は、フォールトトレラントな方法でデータストリームを保存、管理、処理する能力があり、非常に「高速」であると言われています。ソーシャル ネットワーキング環境ではデータ ストリームの処理が頻繁に行われるため、Kafka は現在非常に人気があります。 Apache Mahout: Mahout は、機械学習とデータマイニング用の既成アルゴリズムのライブラリを提供し、さらに多くのアルゴリズムを作成するための環境としても使用できます。つまり、機械学習オタクにとって最高の環境です。 Apache Oozie:どのプログラミング環境でも、定義済みの方法と定義された依存関係で作業をスケジュールして実行するためのワークフロー システムが必要です。これは、pig、MapReduce、Hive などの言語で記述されたビッグ データ ワークロードに対して Oozie が提供するものです。 Apache Drill、Apache Impala、Apache Spark SQL:これら 3 つのオープン ソース プロジェクトは、Apache Hadoop データとのやり取りなど、高速でインタラクティブな SQL を提供します。これらの機能は、すでに SQL を知っていて、ビッグデータ形式 (HBase や HDFS など) で保存されたデータを扱う場合に役立ちます。すみません、ちょっと変ですね。 Apache Hive: SQL を知っていますか?これを知っていれば、Hive を使い始めるのは簡単になります。 Hive は、SQL を使用して分散ストレージに存在する大規模なデータセットの読み取り、書き込み、管理に役立ちます。 Apache Pig: Pig は、大規模な分散データ セットに対してルーチンを作成、クエリ、および実行するためのプラットフォームです。使用されるスクリプト言語は Pig Latin と呼ばれます (冗談ではありません、信じてください)。豚は理解しやすく、学びやすいと言われています。しかし、どれだけ学べるか疑問です。 Apache Sqoop: Hadoop からデータ ウェアハウスやリレーショナル データベースなどの非 Hadoop データ ストアにデータを移動するためのツール。 Apache Storm:無料のオープンソースのリアルタイム分散コンピューティング システム。バッチ処理に Hadoop を使用しながら、非構造化データの処理が容易になります。 人工知能 (AI): AI はなぜ存在するのでしょうか?これは別の分野ではないのかと疑問に思うかもしれません。これらのテクノロジーのトレンドはすべて密接に関連しているので、落ち着いて学ぶほうがよいでしょう。 AI は、ハードウェアとソフトウェアを組み合わせたインテリジェントなマシンとソフトウェアを開発し、環境を感知し、必要に応じて必要なアクションを実行し、そのアクションから継続的に学習します。機械学習によく似ているように聞こえますか?私と混同してください。 行動分析: Google が、あなたが必要とする製品やサービスの広告をどのように配信しているか疑問に思ったことはありませんか?行動分析は、消費者とアプリケーションが何を行うか、また、特定の方法でどのように、なぜ行動するかを理解することに重点を置いています。これには、閲覧パターン、ソーシャル メディアでのやり取り、オンライン ショッピングのアクティビティ (ショッピング カートなど) を理解し、これらの無関係なデータ ポイントを接続して、結果を予測することが含まれます。一例として、ホテルを見つけてショッピングカートを空にした後、リゾートバケーションラインから電話がかかってきました。もっと言うべきでしょうか? ブロントバイト: 1 の後に 27 個のゼロが続きます。これは将来のデジタル世界のストレージ ユニットのサイズです。さて、ここでテラバイト、ペタバイト、エクサバイト、ゼタバイト、ヨタバイト、ブロントバイトについてお話ししましょう。これらの用語をより深く理解するには、必ずこの記事を読んでください。 ビジネス インテリジェンス: Gartner の BI の定義は非常にわかりやすく説明されているので、これを再利用します。ビジネス インテリジェンスは、情報にアクセスして分析し、意思決定とパフォーマンスを改善および最適化するアプリケーション、インフラストラクチャ、ツール、ベスト プラクティスを含む包括的な用語です。 生体認証:これは、顔認識、虹彩認識、指紋認識など、人体の 1 つ以上の物理的特徴を通じて人物を識別する分析技術と組み合わせたジェームズ・ボンド風の技術です。 クリックストリーム分析:ユーザーが Web を閲覧する際のオンライン クリック データを分析するために使用されます。ウェブサイトを切り替えても特定の Google 広告が表示され続けるのはなぜか、疑問に思ったことはありませんか? Google はあなたが何をクリックしているかを知っているからです。 クラスター分析は、データの構造を識別しようとする探索的分析です。セグメンテーション分析または分類分析とも呼ばれます。より具体的には、観察、参加者、回答者など、同質のケースグループを識別しようとします。グループ化が以前に不明だった場合は、クラスター分析を使用して症例のグループを識別しました。探索的であるため、従属変数と独立変数を区別します。 SPSS が提供するさまざまなクラスター分析方法は、バイナリ、名目、順序、スケール (間隔または比率) データを処理できます。 比較分析:ビッグデータの鍵は分析なので、この記事では分析の重要性について詳しく説明します。名前が示すように、比較分析とは、パターン分析、フィルタリング、決定木分析などの統計手法を使用して、複数のプロセス、データ セット、またはその他のオブジェクトを比較することです。だんだん技術的ではなくなってきていることは承知していますが、それでも専門用語を完全に避けることはできません。比較分析は、医療分野で大量の医療記録、文書、画像などを比較することで、より効果的で正確な医療診断を行うために使用できます。 接続分析:特定のトピックのインフルエンサーを特定するために、人々とトピックを結び付ける蜘蛛の巣のようなグラフを見たことがあるはずです。関連性分析は、ネットワーク内の人、製品、システム、さらには複数のネットワークを組み合わせたデータ間の関連する接続と影響を発見するのに役立ちます。 データ アナリスト:データ アナリストは、レポートの作成に加えて、データの収集、編集、分析を担当する非常に重要かつ人気のある仕事です。データアナリストについては、近いうちにさらに詳しい記事を書く予定です。 データ クレンジング:名前が示すように、データ クレンジングでは、データベース内の不正確なデータまたはレコードを検出して修正または削除し、「ダーティ データ」を記憶します。データ アナリストは、自動または手動のツールとアルゴリズムの助けを借りて、データを修正し、さらに充実させて、データの品質を向上させることができます。覚えておいてください、汚れたデータは誤った分析と不適切な意思決定につながります。 データ アズ ア サービス (DaaS):サービスとしてのソフトウェア (SaaS)、サービスとしてのプラットフォーム (PaaS) があり、現在はデータ アズ ア サービス (DaaS) があります。 DaaS プロバイダーは、ユーザーにクラウド データへのオンデマンド アクセスを提供することで、高品質なデータを迅速に取得できるように支援します。 データ仮想化:これは、技術的な詳細 (データがどこに保存されているか、どのような形式であるかなど) を知らなくても、アプリケーションがデータを抽出して操作できるようにするデータ管理アプローチです。たとえば、ソーシャル ネットワークでは、この方法を使用して写真を保存します。 ダーティ データ:ビッグ データは非常に魅力的であるため、人々はデータに他の形容詞を追加して、ダーク データ、ダーティ データ、スモール データ、そして現在ではスマート データなどの新しい用語を作り始めました。ダーティ データとは、不正確なデータ、つまり、不正確で重複したデータ、一貫性のないデータのことです。当然ですが、汚いデータを扱いたくはありません。だから、できるだけ早く修正してください。 ファジー論理:何かについて、100% 正しいなどと確信することはどのくらいの頻度で起こるでしょうか?とても珍しい!私たちの脳はデータを部分的な事実に集約し、それがさらに抽象化されて、私たちの意思決定を決定するある種の閾値になります。ファジー論理は、ブール代数などの「0」と「1」とは対照的に、真実の一部を徐々に排除することで人間の脳を模倣することを目的としたコンピューティングの一種です。 ゲーミフィケーション:一般的なゲームでは、他のプレイヤーと競うスコアなどの要素があり、ゲームの明確なルールがあります。ビッグデータにおけるゲーミフィケーションとは、これらの概念を利用してデータを収集、分析したり、プレイヤーのモチベーションを高めたりすることです。 グラフ データベース:グラフ データベースは、ノードやエッジなどの概念を使用して、人や企業、およびそれらの関係を表し、ソーシャル メディアのデータをマイニングします。商品を購入するときに、他の人が何を購入しているかについて Amazon が教えてくれることに驚いたことはありませんか?はい、これはグラフデータベースです。 Hadoop ユーザー エクスペリエンス (Hue): Hue は、Apache Hadoop の使用を容易にするオープン ソース インターフェイスです。これは Web ベースのアプリケーションであり、分散ファイル システム用のファイル ブラウザー、MapReduce 用のタスク デザイナー、ワークフローをスケジュールできる Oozie と呼ばれるフレームワーク、シェル、Impala、Hive UI、および Hadoop API セットを備えています。 高性能分析アプリケーション (HANA):これは、ビッグデータの転送と分析のために SAP が設計したハードウェアおよびソフトウェアのインメモリ プラットフォームです。 HBase:分散型の列指向データベース。基盤となるストレージとして HDFS を使用し、MapReduce を使用したバッチ コンピューティングとトランザクション インタラクションを使用したバッチ コンピューティングの両方をサポートします。 負荷分散:複数のコンピューターまたはサーバーに負荷を分散して、最適な結果とシステムの使用率を実現します。 メタデータ:メタデータは他のデータを説明できるデータです。メタデータはデータに関する基本情報を要約したもので、特定のデータインスタンスの検索と使用が容易になります。たとえば、データの作成者、作成日、変更日、サイズなどは、ドキュメントの基本的なメタデータです。ドキュメント ファイルに加えて、メタデータは画像、ビデオ、スプレッドシート、Web ページにも使用されます。 MongoDB: MongoDB は、従来のテーブルベースのリレーショナル データベースではなく、テキスト データ モデルを指向したクロスプラットフォームのオープン ソース データベースです。このデータベース構造の主な設計目的は、特定の種類のアプリケーションで構造化データと非構造化データをより速く簡単に統合できるようにすることです。 マッシュアップ:幸いなことに、この用語は私たちが日常生活で使う「マッシュアップ」という言葉と似た意味を持ち、混ぜ合わせることを意味します。本質的に、マッシュアップとは、異なるデータ セットを 1 つのアプリケーションに結合する方法です (たとえば、不動産データを位置データや人口統計データと結合するなど)。これは本当にクールな視覚化を実現します。 多次元データベース:これは、オンライン分析処理 (OLAP) とデータ ウェアハウス向けに最適化されたデータベースです。データ ウェアハウスが何であるか分からない場合は、データ ウェアハウスとは複数のデータ ソースからのデータを集中的に保存するストレージに他ならないと説明できます。 マルチ値データベース:マルチ値データベースは、3 次元データを直接理解できる非リレーショナル データベースであり、HTML および XML 文字列を直接操作するのに最適です。 自然言語処理:自然言語処理は、コンピューターが日常の人間の言語をより正確に理解できるように設計されたソフトウェア アルゴリズムであり、人間がコンピューターとより自然かつ効果的に対話できるようにします。 ニューラル ネットワーク:この説明 (http://neuralnetworksanddeeplearning.com/) によると、ニューラル ネットワークは生物学にヒントを得た非常に優れたプログラミング パラダイムであり、コンピューターが観測データから学習できるようにします。プログラミングパラダイムを美しいと呼ぶ人がいなくなって久しい。実際、ニューラル ネットワークは現実の脳生物学からヒントを得たモデルです。ニューラル ネットワークと密接に関連する用語は、ディープラーニングです。ディープラーニングは、ニューラル ネットワークにおける学習手法の集合です。 パターン認識:パターン認識は、アルゴリズムが大規模なデータ セット内または異なるデータ セット間で回帰または規則性を識別する必要がある場合に行われます。これは機械学習やデータマイニングと密接に関連しており、後者 2 つと同義語であるとさえ考えられています。この可視性により、研究者は重要なパターンを発見したり、そうでなければ不合理だと考えられるような結論に到達したりできるようになります。 無線周波数識別 (RFID):無線周波数識別は、非接触の無線無線周波数電磁場を使用してデータを送信するタイプのセンサーです。モノのインターネットの発展により、RFID タグはあらゆる「モノ」に埋め込むことができるようになり、分析が必要な大量のデータが生成されるようになりました。データの世界へようこそ。 サービスとしてのソフトウェア (SaaS):サービスとしてのソフトウェアにより、サービス プロバイダーはインターネット上でアプリケーションをホストできます。 SaaS プロバイダーはクラウドでサービスを提供します。 半構造化データ:半構造化データとは、従来のデータベースや一般的に使用されるデータ モデルに関連付けられたデータ フィールドなど、従来の方法でフォーマットされていないデータのことを指します。半構造化データは、完全に生のデータでも、完全に非構造化のデータでもありません。データ テーブル、ラベル、その他の構造要素が含まれる場合があります。半構造化データの例としては、グラフ、表、XML ドキュメント、電子メールなどがあります。半構造化データは World Wide Web 上で非常に人気があり、オブジェクト指向データベースでよく見られます。 感情分析:感情分析では、ソーシャル メディア、顧客担当者の電話インタビュー、アンケートなど、さまざまな種類のやり取りやドキュメントで消費者が表現した感情、気持ち、意見をキャプチャ、追跡、分析します。テキスト分析と自然言語処理は、感情分析のプロセスにおける典型的な技術です。感情分析の目的は、企業、製品、サービス、人物、またはイベントに対する態度や感情を特定または評価することです。 空間分析:空間分析とは、幾何学的空間に分布するデータのパターンや規則性を識別または理解するために空間データを分析することを指します。このタイプのデータには、幾何学的データと位相データが含まれます。 ストリーム処理:ストリーム処理は、「ストリーム データ」に対してリアルタイムの「継続的な」クエリと処理を実行するように設計されています。大量のストリーミング データに対して、リアルタイムの数値計算や統計分析を非常に高速に継続的に実行するために、ソーシャル ネットワーク上のストリーミング データに対するストリーム処理の需要は非常に明確です。 スマート データとは、何らかのアルゴリズムによって処理された後、有用かつ実用的なデータです。 テラバイト:これは比較的大きなデジタル データの単位で、1 TB は 1000 GB に相当します。 10TB であればアメリカ議会図書館のすべての印刷資料を収容でき、1TB であればブリタニカ百科事典全体を収容できると推定されます。 視覚化:適切な視覚化により、生のデータを活用できます。もちろん、ここでの視覚化は単なる単純なグラフではありません。むしろ、読みやすく理解しやすいまま、多くのデータ変数を含めることができる複雑なチャートです。 ヨタバイト:約 1,000 ゼタバイト、または DVD 2.5 兆枚。現在、すべてのデジタル ストレージは約 1 ヨタバイトで、その数は 18 か月ごとに倍増します。 ゼタバイト:約 1,000 エクサバイト、または 10 億テラバイト。 オリジナルリンク: http://dataconomy.com/2017/02/25-big-data-terms/ http://dataconomy.com/2017/07/75-ビッグデータ用語-みんなが知っている/ |
<<: Objective-C でのソートアルゴリズムを学ぶ
>>: 決定木からランダムフォレストへ: ツリーベースアルゴリズムの原理と実装
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
[[226077]]オープンソースコミュニティを通じて何ができるでしょうか?アルゴリズムは私たちの世...
過去2、3年で、中国におけるロボティック・プロセス・オートメーション(RPA)の応用は急速に拡大しま...
OpenAI騒動の根本的な原因が明らかになったようです!海外メディアのニューヨーカー誌は、騒動の全容...
中国のAI研究者の数は過去10年間で10倍に増加したが、そのほとんどは海外、主に米国に居住している。...
北京、2018 年 1 月 31 日 – 昨年の英語学習アプリ「Longman Xiaoying」の...
クラスタリング分析は、データ ポイントを複数の特定のクラスターまたはグループに分割する教師なし学習手...
[[228688]]あなたはキャンパスライフに満足していますか?多くの人が「はい」と答えると思いま...
セキュリティ オペレーション センター (SOC) のアナリストは推論と意思決定に優れていますが、2...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
ディープラーニング技術は、自然言語処理 (NLP) の分野に大きな影響を与えます。しかし、初心者の場...