専門家の意見: AIアプリケーションでは、ビッグデータよりもワイドデータが価値がある

専門家の意見: AIアプリケーションでは、ビッグデータよりもワイドデータが価値がある

今日の急速に変化するデジタル世界では、データの使用は進化し続けており、企業は構造化データと非構造化データの膨大なリポジトリから得られる洞察をより深く理解するのに役立っています。しかし、ビッグデータはビジネスに不可欠な分析を提供できる一方で、そのデータは主に過去に何が起こったかを示すために使用されます。予測分析や処方分析を実行する際には、幅広いデータを考慮する必要がますます高まっています。

ここで AI が活躍できるのですが、ここでビッグデータと AI のニーズが分岐します。ビッグデータは、量、速度、多様性という 3 つの要素によって定義されます。ボリュームは利用可能なデータのサイズを指し、速度はデータが到着して処理される速度を指します。

しかし、企業が AI を活用して予測目的でデータを効果的に活用するには、あらゆる種類のデータが必要です。 AI アプリケーションがさまざまな分野で普及するにつれて、多様なデータセットにアクセスできる能力が重要になり、AI アルゴリズムの触媒として機能します。言い換えれば、データをあまり単調にせず、より多様なものにしましょう。

私たちは、組織の内部、外部、構造化データ、非構造化データなど、さまざまな形式でこのデータを「ワイド データ」と呼んでいます。グローバル化した経済では、ビジネスのパフォーマンスは多くのパラメータに依存するため、これは非常に重要です。

ビッグデータの応用例として、米国の異なる地域で製品を設計する 2 つの製造工場を見てみましょう。 2 つの工場の地理的な位置は、特に暴風雪などの自然災害が発生した場合に生産に影響を及ぼすことになります。天候やその他のさまざまな外部要因を考慮し、内部データと組み合わせて AI アルゴリズムに入力すると、各製造組織の在庫、サプライ チェーン、需要の予測がより正確になります。データの多様性により関連性が高まり、AI アルゴリズムの学習が向上し、正確な結果を提供できるようになります。

なぜデータ容量ではないのですか?

さまざまな従属変数が不足しているため、データが増えても必ずしもアルゴリズムの学習が向上するわけではありません。理論上は、大量のデータを持つことが AI アプリケーションにとって重要ですが、効率的なアルゴリズムにとっては、データのサイズよりもデータの多様性の方が重要です。

たとえば、私たちはがん患者のデータを予測するプロジェクトに取り組んでいます。研究対象は多くなく、生成されるデータは 150 行のみです。これにより、ふるいにかけるデータの量は比較的少なくなり、ビッグデータとは見なされません。ここで疑問が湧きます。AI アルゴリズムが学習し、がん患者のその後の人生に何が起こるかを予測するのに十分なデータがあるでしょうか? この場合、答えは「はい」です。行数は 150 行しかありませんが、生体認証、バイオセンサー、症状のデータは数千の列で構成されており、膨大なデータ セットになっています。

重要な点は、AI アプリケーションでは、データの量よりもデータの多様性が重要であるということです。

幅広いデータ型

前述したように、さまざまな種類のデータがあり、それらを組み合わせると、次のような幅広いデータになります。

  • 内部的に構造化されたデータ: ERP、CRM システム、さらには財務システムなどのソフトウェア アプリケーション内に存在するデータ。
  • 内部非構造化データ:内部非構造化データの一部であるドキュメント、画像、レポート、チャート、グラフ。
  • 外部データ:天気、社会、経済データ、国勢調査データ、証券取引所データなどの外部ソースからのデータ。
  • 外部の非構造化データ:組織のファイアウォールの外部から発信されるニュース、画像、ビデオなど。

CUPPフレームワーク: データ戦略の提供

AI の導入を成功させるには、AI のベストプラクティスを採用することが重要です。そのようなフレームワークの 1 つが CUPP です。これは、Collect (収集)、Unify (統合)、Process (処理)、Present (提示) の頭文字をとったものです。これら 4 つのステップを展開することが、組織が AI の導入を始める典型的な方法です。

データ戦略やデータ プラットフォームを持たない従来の企業も、CUPP のようなフレームワークを作成することでメリットを得ることができます。データの真実性や正確性を確保する場合にもフレームワークは重要です。組織が理想的な結果を決定するには、クリーンで高品質なデータが必要であり、正確性によってプロセスが大幅にスピードアップします。

CUPP フレームワークを使用して組織が実行する基本的な手順は次のとおりです。

1. データ調査から始める

データ調査アプローチを活用して、組織の内部と外部の両方で所有するデータ資産を検出します。

この計画プロセスの一部には、構造化データと非構造化データのソースを特定することが含まれます。多くの組織は、自社が保有する非構造化データの量に驚くかもしれません。データ調査を実施することで、すべてのデータ資産の在庫を把握することができます。

2. データ資産を理解する

モデリングを行う前に、組織がすでに持っているものを理解することが重要です。これは AI のベストプラクティスの開発に役立ちますが、少しの忍耐が必要です。これは AI アプリケーションの導入の基盤となり、機能の ROI を実現します。

企業は、社内外の構造化データと非構造化データを収集し、統合するための戦略も検討する必要があります。

3. 機械学習と自然言語処理を使用して、非構造化コンテンツを変換および理解する

組織は取得した非構造化データを自然言語処理を使用して構造化コンテンツに変換し、データをトレーニングできます。

組織は、非構造化コンテンツを恐れるのではなく、むしろ奨励すべきです。現在、このコンテンツを非常に有意義に活用するためのテクノロジーがいくつか利用可能になっているからです。

幅広いデータを活用する必要性についてのポイント

幅広いデータがあれば、AI の導入をより迅速に開始することができ、組織がさまざまな大規模および小規模、非構造化および構造化データ ソースから得た洞察を文脈に沿って解釈する上で不可欠です。テクノロジーが進化、発展するにつれ、データの役割と価値を無視できる企業はなくなり、さまざまなデータの取得と分析を中心としたデータ戦略を策定する必要が出てきます。

<<:  フィンテックとAI: 金融におけるAIの活用方法

>>:  物議を醸すClearview AI:顔認識アプリケーションは民間企業には販売されなくなった

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

ベイジアンディープラーニング: ディープラーニングと確率的グラフィカルモデルを統合するフレームワーク

人工知能 (AI) の進歩により、多層のディープ ネットワークを構築し、大量のデータを学習に活用する...

人工知能が人間に取って代わることは決してない

午後は、かわいい子供たちを連れて映画「頭の大きい息子と頭の小さいお父さん 完璧なお父さん」を見に行き...

清華大学は、2D拡散モデルを使用して不完全な3Dオブジェクトを補完する3D再構築の新しい方法、O²-Reconを提案しました。

コンピューター ビジョンでは、オブジェクト レベルの 3D サーフェス再構築テクノロジは多くの課題に...

...

マイクロソフトが大きなマイルストーンを発表:中国語から英語への機械翻訳が人間の翻訳に匹敵するようになった

最近、マイクロソフトリサーチアジアの公式サイトから、同社の研究チームが、同社が開発した最新の機械翻訳...

...

...

顔認証決済は時代遅れですか?アマゾンはわずか0.3秒で手動支払いをテストした

北京時間9月4日の朝のニュース、ニューヨークポストによると、アマゾンのエンジニアは店内での買い物の精...

Google のアルゴリズムが明らかに: 検索リクエストは平均 2,400 キロメートル往復移動します

Google 検索の進化3月12日のニュース: 世界で最も広く使われている検索エンジンであるGoog...

2020 年に最も注目される人工知能 (AI) アプリケーション トップ 10

人工知能または機械知能は、学習アルゴリズムを通じて人間のような知能をシミュレートします。今日、人工知...

第四次産業革命:人工知能

人工知能 (AI): 私たちの日常生活、生き方、他者との関わり方に根本的な変化がもたらされるのは、第...

音声分析:自動運転車の鍵となる技術

サプライチェーン管理、製造業務、モビリティサービス、画像およびビデオ分析、音声分析の進歩により、次世...

...

AIが産業のデジタル変革をどのように促進するか

多くの産業企業は実際に必要な量よりも多くのデータを保有していますが、人工知能への取り組みは期待を下回...