多くの企業が、データの取得から洞察の獲得まで、スムーズに実行されるパイプラインの構築に依然として苦労しているのはなぜでしょうか? 企業は、データ分析とビジネス予測を行うために、機械学習アルゴリズムに投資して導入したいと考えています。 しかし、必然的に、アルゴリズムは魔法ではないことを認識する必要があります。ジャンク データを入力した場合、生成される洞察は一流のものにはなりません。そこでデータ サイエンティストを何人か雇いますが、通常、彼らはデータのクリーニングに時間の 90% を費やし、分析には 10% しか残りません。
このプロセスの欠点は、企業がターミナルアルゴリズムを使用した機械学習を採用したがる点です。 Tamrの共同創業者兼CEOのアンディ・パーマー氏は、膨大なデータセットの処理を人間に頼るのではなく、データクリーニングの初期段階で可能な限り機械学習を適用すべきだと語った。同社は、機械学習を使用して組織がデータサイロを打破できるよう支援します。 多くの企業はビッグデータ収集システムに多額の費用を費やしています。彼らがデータの質よりも量を重視していることは明らかです。 「大企業で働く人なら誰でも、社内システムから得られるデータのほとんどがシンプルでわかりやすいものだと言うでしょう」とパーマー氏は語った。 Tamr の共同設立者兼 CTO である Andy Palmer 氏と、SiliconSLE Media のモバイル ライブストリーミング スタジオ theCUBE のホストである Michael Stonebraker 氏が、マサチューセッツ州ケンブリッジで開催された最近の MIT CDOIQ ワークショップで Dave Vellante 氏および Paul Gillin 氏と議論しました。彼らは、ビッグデータへの機械学習の導入について、またスタートアップ企業が従来の企業よりも優れた、よりスケーラブルなビッグデータソリューションを提供できると Tamr が考える理由について議論しました。 ビッグデータのクリーニングと整理 パーマー氏とストーンブレーカー氏は長年にわたりビッグデータ技術に注力してきました。 2007 年の早い段階で、Apache Hadoop ビッグデータ フレームワークは多くの人が期待するような結果をもたらさないだろうと予測されていました。 「ビッグデータが大惨事になるというのは、少し過激すぎる」とパーマー氏は語った。 これは大規模なデータセットが悪いと言っているわけではなく、明らかにビッグデータは分析モデルや人工知能のトレーニングに必要なツールだ、と彼は述べた。データ量が十分に多ければ、残りの分析や AI の側面はうまくいくだろうと考える人もいますが、多くの企業はこれに失望しています。 企業は現在、データの品質を無視できないことを認識しています。また、データ サイエンティストはデータのクリーニングに時間の 80% から 90% 以上を費やすべきではなく、データ分析にはより優れた高速な AI アプローチを採用する必要があることもわかっています。 パーマー氏によると、その答えは、機械学習を、こうした大規模で魅力のないタスクを実行するための非常に実用的なツールとみなすことだという。多くのベンダーは、予測エンジンや推奨エンジンなどのソフトウェアのマーケティングをより魅力的にするために機械学習を使用しています。 Tamr は、誰かが何かを分析、予測、マーケティング、販売する前にビッグ データをクリーニングして整理するという、あまり魅力的ではない用途にこれを使用しています。 機械学習は大規模なデータを処理できる 今日、データスワンプ問題に対する解決策の提案は数多くあります。多くのテクノロジー企業が独自の製品を発売したり、アップデートしたりしています。しかし、ストーンブレーカー氏は、これらのシステムで一般的に使用されている主な技術には重大な欠陥があると指摘しています。これらの従来のテクノロジーには、ETL (抽出、変換、ロード) システムやマスター データ管理システムが含まれます。しかし、拡張できないのが欠点です。 ETL は、スマートなビジネスがユーザーが必要とするすべてのデータ ソースに対してグローバル データ モデルを提供するという前提に基づいています。次に、各ビジネス ユニットに、取得したデータ、そのデータをグローバル データ モデルで取得する方法、データ ウェアハウスにロードする方法などを確認させます。ストーンブレーカー氏は、手作業が多いプロセスはスケールしないことが多いと述べた。多くの場合、10 個または 20 個のデータ ソースをデータ ウェアハウスに統合します。 では、このデータは十分でしょうか? 実際の企業を例に挙げてみましょう。 TAMR のクライアントであるトヨタ モーター ヨーロッパ (TME) は、さまざまな国にディーラーを展開しています。誰かがスペインでトヨタを購入し、それを運転してフランスまで行ったとしても、フランスのディーラーはそれについて何も知りません。 トヨタモーターヨーロッパ(TME)には、合計で 50 の言語で 4,000 万件のレコードを含む 250 の個別の顧客データベースがあります。同社は、この顧客のサービス問題を解決するために、それらを単一の顧客データベースに統合しています。機械学習は、この目標を達成するための合理的なアプローチを提供します。 「これほどの規模に対応できる ETL システムは見たことがありません」とストーンブレーカー氏は語った。 ストーンブレーカー氏は、マスター データ管理 (MDM) が拡張できない主な理由は、ルールベースであるためだと説明しました。 Tamr の別の顧客である General Electric は、昨年 2,000 万件の取引があった取引支出を分析し、そのすべてをルールベースの階層に分類したいと考えています。 「GE には 500 のルールがあり、そのうち 18 のルールを使って 2,000 万件の取引のうち 200 万件を分類しましたが、残りの 400 余りのルールでは、その 18 のルールほど迅速に分類することはできませんでした。」 それは収穫逓減の法則だと彼は指摘した。 「企業は自分たちが理解できない多くのルールを書かなければならず、機械学習がなければそれは大変なことになるだろう」と彼は語った。 ストーンブレーカー氏は、機械学習技術が万能薬ではないことを認めています。真にデータ駆動型になるには、技術的調整と文化的な調整の両方が必要です。実際、NewVantage Partners の調査によると、調査対象となった経営幹部の 77% が、市場に新しいソフトウェアが大量に流入しているにもかかわらず、組織がビッグデータ/AI イニシアチブを導入するのが難しいと回答しています。しかし、これは昨年の調査より増加している。幹部らは機械学習の導入に対する障壁を数多く挙げたが、その95%は技術的なものではなく、文化的なものや組織的なものだった。 「これについては計画を立てる必要があるが、ほとんどの企業はビッグデータを計画して処理していない」とガートナーのアナリスト、ニック・ヒューデッカー氏は語った。 それでも、テクノロジーは重要であり、ある程度は役に立つかもしれないとストーンブレーカー氏は言う。このケーススタディは、GE のデータ サイエンティストがハイブリッド車やガスタービンの開発と修理ではなく、フィルタリングと並べ替えに最大 90 パーセントの時間を費やしていることを示している。ビッグデータを現実世界のビジネスに役立てるには、機械学習が最適な方法です。 「従来の大規模なデータ統合技術は単純に機能しないことが人々に理解されているため、人間を機械学習に置き換える必要がある」と彼は語った。 多くの企業がこれを考慮し、機械学習を自社製品の中核にしています。 「一般的に、従来のベンダーは時代から10年遅れているが、スタートアップは最先端の製品を提供できる」とストーンブレーカー氏は言う。 この「最先端」の技術は、データから簡単に収益を得る方法を提供してくれるのでしょうか?データ沼で無駄にしていた時間を補ってくれるのでしょうか? 「私たちは、データをより速く消費する段階に入りつつあります」とパーマー氏は言います。「この段階が、最終的にエンタープライズ データ ウェアハウスの高い期待に応えることになるでしょうか? わかりません。しかし、確実に近づいています。」 |
<<: 未来を垣間見るのに役立つ9つの主要な人工知能開発トレンド
>>: 中国の大学の人工知能専攻ランキング:清華大学、浙江大学、上海交通大学がトップ3にランクイン
来月、大手自動車メーカーのグループが米国でブロックチェーンベースの車両識別ネットワークの初のフィール...
[[427918]]周其浦松陽人工知能(AI)の発展は世界に変革をもたらしましたが、同時に発展途上国...
調査によると、機械学習のアプリケーション、ツール、テクニック、プラットフォーム、標準に大きな変化が起...
脳信号から対応する視覚刺激を再構築することは、意義深く困難な作業です。これまでの研究では、一部の自然...
翻訳者 |ブガッティレビュー | Chonglou何だと思う?クラウド コンピューティング カンファ...
サイバーセキュリティは「人民の戦い」を必要とするだけでなく、科学技術の問題でもある。オンライン詐欺で...
ニューラルネットワークはますます使用されるようになっています。 [[357551]]医療診断であれ、...
[[202854]]画像認識とは何ですか? なぜ必要なのですか?マシンビジョンの概念では、画像認識と...
最近、ノルウェーのロボット企業オートストアは、新規株式公開(IPO)の価格が1株当たり31ノルウェー...
この記事では、一般的に使用されているいくつかの圧縮アルゴリズムのパフォーマンスを比較します。結果は、...
人工知能が世界を形作っています。コロナウイルスを克服する方法、自動車の自動化、ロボット工学など、世界...
マイクロソフトは、人工知能システムのためのより責任ある枠組みを構築する取り組みの一環として、画像分析...