プロのようにビッグデータをマイニングするにはどうすればいいでしょうか?

プロのようにビッグデータをマイニングするにはどうすればいいでしょうか?

股関節置換手術にはどれくらいの時間がかかりますか?

これは病院にとって学術的な問題ではありません。 2015年に病院は推定360億ドルの無償医療費を負担したが、その多くは患者からの未払い請求によるものだった。

この問題の解決策の 1 つは、手術に関連するコストを制限することですが、これはどのように実現できるでしょうか? 答えは機械学習です。病院では現在、予測分析を使用して、股関節手術などの手術の平均所要時間や潜在的な問題を予測しています。

[[208815]]

たとえば、ヘルスケア購入者からのデータには、患者の年齢、主要なヘルスケア提供者、二次診断が表示されます。機械学習と予測分析を使用することで、データから将来のコストを予測し、回復に問題を抱える可能性のある患者を特定することができます。この措置により、病院はより適切な臨床判断を下し、再入院率を減らし、患者の入院期間を短縮し、より良いケアを提供できるようになります。

世界中の企業が、機械学習を使用してデータを分析する際に、同様の現実世界への影響を発見しています。しかし問題は、その効果がしばしば短命であることだ。

フォレスター・リサーチのアナリスト、マイク・ゴルティエリ氏は、機械学習は結果が確実な従来のビジネス・インテリジェンス業務とは異なると指摘した。 「機械学習モデルを探している場合、『やってみます』と言っても、うまくいかないかもしれません」と同氏は言う。「企業は、株式市場を予測するモデルが欲しいからといって、それが手に入るとは限らないことを理解すべきです。」

DXC テクノロジー アナリティクス データ ラボは、コンサルティングと分析の実装方法の検討に重点を置くデータ サイエンティストのグローバル ハブです。研究所所長のラグス・ラガヴェンドラ氏は、企業はしばしば過大な負担を負い、業績が芳しくないと述べた。 「顧客は、アクセスできるすべてのデータを理解しようとして、やり過ぎてしまう傾向があります」と彼は言う。「アクセスできるデータを確認してから、次のステップを検討することをお勧めします。」

組織がデータから有用な洞察を引き出そうと試みて失敗した場合、まずすべきことは、失敗と反復がプロセスの一部であることを受け入れることです。しかし、機械学習をより巧みに利用することで、成功の可能性を最大限に高めることができます。機械学習を使用する 8 つの方法は次のとおりです。

解決したい問題から始めましょう。データに直接飛び込んで、すぐに役立つ情報を発見できると期待するのは間違ったアプローチです。データ調査への適切なアプローチは、ビジネス成果とデータ関連の質問を結び付ける適切なパフォーマンス測定基準を特定することから始まります。ただし、選択された基準は適切なものでなければなりません。たとえば、DXC が最近メディア企業と協力して加入者が離れていく理由を説明したとき、最も直感的な指標は「加入者ベース」でした。関連する指標はユーザーあたりの平均収益 (ARPU) であり、これは収益の増加という会社のより大きなビジネス目標に直接結びついていることがわかりました。

機械学習プロセスを産業化します。 「ビッグデータ分析のプロセス全体が産業化されていない」と、製造、通信、自動車、航空、エネルギー、金融サービス、ヘルスケアなどさまざまな業界をサポートする研究室を持つラガヴェンドラ氏は言う。 「多くの場合、分析を何度も繰り返したり、拡張に失敗したりします。」DXC は、シンプルで効率的な学習モデルである産業化された機械学習を強く支持しています。DXC は、データの抽出とクリーニングからアルゴリズムの構築、実稼働への導入、有用な情報の取得まで、分析のすべての段階が、エンタープライズ テクノロジーで再利用および展開可能であるべきだと考えています。

サイロについて心配する必要はありません。サイロは、統合されたデータ プールへのアクセスを妨げるため、多くの企業のデータ マイニング プロジェクトにとって悩みの種となっています。しかし、サイロは一部の人が考えるほど大きな障害ではありません。 「インテリジェントなデータとプラットフォーム戦略があれば、サイロについてそれほど心配する必要はありません」と Raghavendra 氏は言います。つまり、解決したい問題でなければ、心配する必要はないということです。ただし、さまざまなデータ ソースを統合することで、後で発生する問題を解決できるように準備しておく必要があります。 「柔軟でモジュール化されたプラットフォームにより、必要に応じてデータを統合できます」とラガヴェンドラ氏は付け加えた。

外部プログラムについて考えてみましょう。必ずしもすべての情報、才能、分析、知恵が揃っているわけではありません。これはエコシステムの問題であり、周囲の可能性を活用できる者が勝利するでしょう。クラウドソーシングのデータ サイエンティスト、機械学習、外部データセットはすべて、強力な可能性を秘めています。

データレイクを使用します。データ レイクは、形式に関係なく、既存のデータをすべてそのまま保存できるリポジトリです。ラガヴェンドラ氏は、企業は最初は使い方がわからなくても、すべてのデータをデータレイクに保存すべきだと述べた。しかし、データレイクの構築について考えることから始めないでください。

目標を念頭に置いて探索的データ分析 (EDA) を実行します。データ マイニングの最初の段階は EDA であり、視覚データと非視覚データを要約することを目的としています。 「探索的データ分析はサイロ化されていることが多いといつも感じていました」と、DXC のシニア データ サイエンティストである Bharathan Shamasundar 氏は言います。「EDA の目的は、データ内のパターンに関する洞察を提供し、次のステップが何であるべきかを知らせることです。」しかし、多くの場合、企業は形式的な対応だけをしています。 DXC がエネルギー会社と行った経験は、インテリジェント EDA の重要性を強調しています。この電力会社は、風力タービンで生産されるエネルギー量を正確に予測しようとしていました。この会社が EDA をアルゴリズムに適用したとき、DXC チームは、計算に使用する変数が少ないにもかかわらず、タービンが 95% の時間稼働していると想定していた既存の標準に疑問を呈しました。この経験から、事前に意味のある EDA を行うと、既存のデータに適合するアルゴリズムが見つかる可能性が高くなることが分かりました。

スマート サンプリングを使用します。企業がビッグデータから有用な洞察を得られていない理由の 1 つは、ビッグデータを使いすぎていることです。 「サンプリングという言葉は、不快なものになってしまった」とシャマスンダル氏は言う。「データサンプリングは、データを処理する非常に賢い方法です。」多くの場合、「ビッグデータ」は冗長な情報で満たされているように見えることがある。商品取引会社である DXC では、取引取引の 94% が小規模なデータ サブセットに基づいていたため、保管されているデータの多くが冗長であると判断しました。これは、品質と関連性を評価することがデータ戦略の重要な部分であることを示唆しています。

データ サイエンス イニシアチブのための柔軟な運用モデルを開発します。 Raghavendra 氏は次のようにアドバイスしています。「データ サイエンティストを雇用できないからといって、データ分析プログラムを開始しないでください。」データ サイエンティストの需要は現在供給より 60% 高く、そのギャップが縮まる兆しはありません。企業が十分なデータサイエンティストを配置できない場合は、専門的な分析サポートや「市民データサイエンティスト」を提供するパートナー組織の活用を検討すべきだとラガヴェンドラ氏は述べた。シチズン データ サイエンティストは、雇用主のドメインとビジネス運営を理解しています。データ マイニングの特定のタスクを簡素化する既製の分析プラットフォームを使用して、適切な分析を実行できます。企業が分析を活用して問題を解決するにつれて、パートナーはプログラムの拡張や複数の領域でのより深い機能の構築を支援できます。

これらのガイドラインに従うことで成功の可能性は高まりますが、企業は失敗は現実に起こり得ることを忘れてはなりません。データ サイエンスは、仮説を証明または反証することを目的として科学的手法を使用してデータを研究します。データの活用は研究開発活動として考えるべきです。 「6つか12のアイデアを用意して、同時に取り組む方が良い。すべてがうまくいくとは限らないからだ」と、データクエリを研究するグアルティエリ氏は言う。

データ量が増え続けるにつれて、課題はますます困難になるでしょう。一方、データが多いほど、潜在的な報酬も大きくなります。

DXC の思想的リーダーシップ部門である DXC Edge Forum のリサーチ ディレクター、デイブ・アーロン氏によると、多くの企業は依然として、最も重要な資産は物理的資産と金銭的資産であると考えているそうです。

「今後 10 年間で、企業は情報を資産とみなし、分析および学習プラットフォームを構築し、継続的に改善していくでしょう」とアロン氏は述べました。「モノのインターネットとデータ保護法の強化により、この問題はさらに重要になります。」

病院、公共事業、その他の事業を問わず、データから利益を得るには、慎重なアプローチと、科学的手法を使用し尊重するという断固たる決意が必要です。

<<:  医師は依然として自分の経験をより信頼しています。病院はビッグデータの収集と機械学習の過負荷の問題をどのように解決するのでしょうか?

>>:  ディープラーニングを使って夢に現れる物体を分析する

ブログ    
ブログ    

推薦する

ハギングフェイスCEOが2024年のAI業界の6つの大きな変化を予測!

2024年にAI業界はどのように進化するのでしょうか? OpenAIのグレッグ・ブロックマン会長は...

...

人工知能と教育の未来: 教師の関与を刺激する

要点: 教育における AI システムの開発者は現在、教師を支援するために取り組んでいます。信頼できる...

研究はHPCを活用したAIの急速な成長を予測

Hyperion Research はハンブルクで毎年恒例の ISC HPC (ハイパフォーマンス ...

...

企業におけるAIの応用は成熟段階に入ったのでしょうか?

マッキンゼーは、AI が多くの業務活動を自動化するという見通しに楽観的である一方で、あらゆる規模の自...

DeepTraffic: MIT シミュレーション ゲームがディープラーニングを使用して交通渋滞を緩和

[[196857]]渋滞に巻き込まれるのはイライラするだけでなく、費用もかかります。頭痛の原因になっ...

自動運転システムにおける視覚認識モジュールの安全性テストに関する1万語

近年、ディープラーニングに基づく視覚認識技術の発展により、自動車のインターネット分野での自動運転の繁...

オラクルCEOハード氏「AIについて心配する必要はない」

オラクルが最近ラスベガスで開催したモダン・ビジネス・エクスペリエンス・カンファレンスで、同社のCEO...

...

ロボットが医療に力を与える!しかし、医療ロボットがブレイクするまでには、まだ4歩の道のりがある。

今回の流行期間中、病院や最前線の防疫現場では、体温測定ロボット、消毒ロボット、検査ロボット、咽頭ぬぐ...

台風を恐れる必要はありません。人工知能はすでに私たち自身と敵を理解するのに役立っています。

以前、河南省鄭州市は「花火」がもたらした大雨により洪水災害に見舞われた。こうした背景から、「花火」の...

DeepMindがニューラルネットワークと強化学習ライブラリをリリース、ネットユーザー:JAXの開発を促進

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

1 つの記事で機械学習を理解する: 基本概念、5 つの主要な流派、9 つの一般的なアルゴリズム

1. 機械学習の概要 1. 機械学習とは何ですか?機械は大量のデータを分析して学習します。たとえば...