専門家の意見: AIアプリケーションでは、ビッグデータよりもワイドデータが価値がある

専門家の意見: AIアプリケーションでは、ビッグデータよりもワイドデータが価値がある

今日の急速に変化するデジタル世界では、データの使用は進化し続けており、企業は構造化データと非構造化データの膨大なリポジトリから得られる洞察をより深く理解するのに役立っています。しかし、ビッグデータはビジネスに不可欠な分析を提供できる一方で、そのデータは主に過去に何が起こったかを示すために使用されます。予測分析や処方分析を実行する際には、幅広いデータを考慮する必要がますます高まっています。

ここで AI が活躍できるのですが、ここでビッグデータと AI のニーズが分岐します。ビッグデータは、量、速度、多様性という 3 つの要素によって定義されます。ボリュームは利用可能なデータのサイズを指し、速度はデータが到着して処理される速度を指します。

しかし、企業が AI を活用して予測目的でデータを効果的に活用するには、あらゆる種類のデータが必要です。 AI アプリケーションがさまざまな分野で普及するにつれて、多様なデータセットにアクセスできる能力が重要になり、AI アルゴリズムの触媒として機能します。言い換えれば、データをあまり単調にせず、より多様なものにしましょう。

私たちは、組織の内部、外部、構造化データ、非構造化データなど、さまざまな形式でこのデータを「ワイド データ」と呼んでいます。グローバル化した経済では、ビジネスのパフォーマンスは多くのパラメータに依存するため、これは非常に重要です。

ビッグデータの応用例として、米国の異なる地域で製品を設計する 2 つの製造工場を見てみましょう。 2 つの工場の地理的な位置は、特に暴風雪などの自然災害が発生した場合に生産に影響を及ぼすことになります。天候やその他のさまざまな外部要因を考慮し、内部データと組み合わせて AI アルゴリズムに入力すると、各製造組織の在庫、サプライ チェーン、需要の予測がより正確になります。データの多様性により関連性が高まり、AI アルゴリズムの学習が向上し、正確な結果を提供できるようになります。

なぜデータ容量ではないのですか?

さまざまな従属変数が不足しているため、データが増えても必ずしもアルゴリズムの学習が向上するわけではありません。理論上は、大量のデータを持つことが AI アプリケーションにとって重要ですが、効率的なアルゴリズムにとっては、データのサイズよりもデータの多様性の方が重要です。

たとえば、私たちはがん患者のデータを予測するプロジェクトに取り組んでいます。研究対象は多くなく、生成されるデータは 150 行のみです。これにより、ふるいにかけるデータの量は比較的少なくなり、ビッグデータとは見なされません。ここで疑問が湧きます。AI アルゴリズムが学習し、がん患者のその後の人生に何が起こるかを予測するのに十分なデータがあるでしょうか? この場合、答えは「はい」です。行数は 150 行しかありませんが、生体認証、バイオセンサー、症状のデータは数千の列で構成されており、膨大なデータ セットになっています。

重要な点は、AI アプリケーションでは、データの量よりもデータの多様性が重要であるということです。

幅広いデータ型

前述したように、さまざまな種類のデータがあり、それらを組み合わせると、次のような幅広いデータになります。

  • 内部的に構造化されたデータ: ERP、CRM システム、さらには財務システムなどのソフトウェア アプリケーション内に存在するデータ。
  • 内部非構造化データ:内部非構造化データの一部であるドキュメント、画像、レポート、チャート、グラフ。
  • 外部データ:天気、社会、経済データ、国勢調査データ、証券取引所データなどの外部ソースからのデータ。
  • 外部の非構造化データ:組織のファイアウォールの外部から発信されるニュース、画像、ビデオなど。

CUPPフレームワーク: データ戦略の提供

AI の導入を成功させるには、AI のベストプラクティスを採用することが重要です。そのようなフレームワークの 1 つが CUPP です。これは、Collect (収集)、Unify (統合)、Process (処理)、Present (提示) の頭文字をとったものです。これら 4 つのステップを展開することが、組織が AI の導入を始める典型的な方法です。

データ戦略やデータ プラットフォームを持たない従来の企業も、CUPP のようなフレームワークを作成することでメリットを得ることができます。データの真実性や正確性を確保する場合にもフレームワークは重要です。組織が理想的な結果を決定するには、クリーンで高品質なデータが必要であり、正確性によってプロセスが大幅にスピードアップします。

CUPP フレームワークを使用して組織が実行する基本的な手順は次のとおりです。

1. データ調査から始める

データ調査アプローチを活用して、組織の内部と外部の両方で所有するデータ資産を検出します。

この計画プロセスの一部には、構造化データと非構造化データのソースを特定することが含まれます。多くの組織は、自社が保有する非構造化データの量に驚くかもしれません。データ調査を実施することで、すべてのデータ資産の在庫を把握することができます。

2. データ資産を理解する

モデリングを行う前に、組織がすでに持っているものを理解することが重要です。これは AI のベストプラクティスの開発に役立ちますが、少しの忍耐が必要です。これは AI アプリケーションの導入の基盤となり、機能の ROI を実現します。

企業は、社内外の構造化データと非構造化データを収集し、統合するための戦略も検討する必要があります。

3. 機械学習と自然言語処理を使用して、非構造化コンテンツを変換および理解する

組織は取得した非構造化データを自然言語処理を使用して構造化コンテンツに変換し、データをトレーニングできます。

組織は、非構造化コンテンツを恐れるのではなく、むしろ奨励すべきです。現在、このコンテンツを非常に有意義に活用するためのテクノロジーがいくつか利用可能になっているからです。

幅広いデータを活用する必要性についてのポイント

幅広いデータがあれば、AI の導入をより迅速に開始することができ、組織がさまざまな大規模および小規模、非構造化および構造化データ ソースから得た洞察を文脈に沿って解釈する上で不可欠です。テクノロジーが進化、発展するにつれ、データの役割と価値を無視できる企業はなくなり、さまざまなデータの取得と分析を中心としたデータ戦略を策定する必要が出てきます。

<<:  フィンテックとAI: 金融におけるAIの活用方法

>>:  物議を醸すClearview AI:顔認識アプリケーションは民間企業には販売されなくなった

ブログ    
ブログ    
ブログ    

推薦する

AI対決シリーズ:あなたのレコメンデーションアルゴリズムは破られましたか?

[[408906]] Google でニュースを検索すると、検索結果にポルノ記事が大量に混ざって表...

デジタルヘルスと医療AIベンチャーキャピタル投資は2021年第1四半期に42億ドルに達した

CB Insightsのデータによると、遠隔医療は2021年第1四半期に139件の取引で過去最高の4...

...

...

オックスフォード大学の最新調査:AIはベンチマーク危機に直面し、NLPは推論テストの「取り組み」に注力

人工知能 (AI) ベンチマークは、モデルを測定および比較するための方法を提供します。ベンチマークを...

AIがあなたの仕事を奪わないと決めつけないでください。

すでに、いくつかの日常的または退屈な作業がロボットや自動化によって置き換えられていますが、それによっ...

リアルタイムのテキストおよび画像処理の速度が 5 ~ 10 倍向上しました。Tsinghua LCM/LCM-LoRA は人気を博し、視聴回数は 100 万回を超えました。

テキストから作成された画像や写真から作成された画像は、新しいものではありません。しかし、これらのツー...

2020年のAIの7つの開発トレンド

[[320187]]追加の AI アプリケーションの需要が高まるにつれて、企業はデータ サイエンス ...

...

...

...

Wi-Fi の AI がワイヤレス接続をどのように形作るか

2023年までに、おそらく人工知能ほど普及するテクノロジーはなくなるでしょう。生成型 AI の爆発的...

...

科学記事:強化学習後、ロボット学習のボトルネックをどう突破するのか?

[[340407]]この記事はLeiphone.comから転載したものです。転載する場合は、Lei...

DeepMindの強化学習法はAIと人間のより良いコラボレーションを約束する

[[437442]] [51CTO.com クイック翻訳]囲碁からスタークラフト、Dotaまで、多く...