データ サイエンスの新しい機能は進化を続け、あらゆる業界に浸透しています。世界中の組織がデジタル変革に乗り出す中、2019 年には、より多くの企業がデータを活用してより良い意思決定を行う傾向が見られました。ここでは、2020 年に普及すると予想されるデータ サイエンスの新しいトレンドについて見ていきます。
2019 年はデータ サイエンスにとって大きな年でした。 世界中のあらゆる業界の企業がデジタル変革を進めています。採用、マーケティング、価格設定、戦略など、企業における従来のビジネスプロセスは、デジタル技術の活用により効率が10倍以上向上しています。 データ サイエンスは、デジタル変革に不可欠な要素となっています。データ サイエンスを利用することで、組織は勘や推測、小規模な調査に基づいて重要な決定を下す必要がなくなります。代わりに、彼らは大量の実際のデータを分析して、実際のデータに基づく事実に基づいて意思決定を行っています。データを通じて価値を生み出すこと、これがデータサイエンスの本質です。 Google 検索トレンドによると、データをコアビジネスプロセスに統合する傾向は、過去 5 年間で 4 倍以上に大幅に増加しています。 データは企業に競合他社に対する大きな優位性をもたらします。より多くのデータとそれを活用するより優れたデータ サイエンティストがいれば、企業は競合他社が気付いていない市場情報を入手でき、データがなければ死なないというゲームになっています。 過去 5 年間の「データ サイエンス」の Google 検索トレンド 今日の絶えず進化するデジタル世界において、競争で優位に立つには、絶え間ない革新が必要です。特許は時代遅れであり、アジャイルな方法論と新しいトレンドの迅速な把握が非常に重要です。 組織はもはや、堅固な古い方法に頼ることはできません。データサイエンス、人工知能、ブロックチェーンなどの新しいトレンドが出現した場合、それらを事前に予測し、迅速に適応する必要があります。 2020 年に最も注目されるデータ サイエンスのトレンド 4 つをご紹介します。これらのトレンドは今年、企業の間で関心が高まっており、2020 年も引き続き成長するでしょう。 (1)データサイエンスの自動化 今日のデジタル時代においても、データサイエンスには依然として多くの手作業が必要です。データを保存、クリーンアップ、視覚化、探索し、最終的にモデル化して、現実世界の結果を取得します。こうした手作業の自動化が求められており、データ サイエンスの自動化と機械学習が登場しました。 データ サイエンス プロセスのほぼすべてのステップが自動化されているか、自動化されつつあります。 自動データクリーニングはここ数年、広範囲に研究されてきました。ビッグデータのクリーニングには、データ サイエンティストの貴重な時間がかなり費やされることが多く、スタートアップ企業と大企業 (IBM など) の両方が、データ クリーニングのための自動化とツールを提供しています。 データサイエンスのもう一つの大きな部分である特徴エンジニアリングも大きな打撃を受けました。 Featuretools(翻訳者注:機械学習の特徴を自動的に構築できる Python ライブラリ)は、自動特徴エンジニアリングのソリューションを提供します。最も重要なのは、畳み込みニューラル ネットワークや再帰型ニューラル ネットワークなどの最新のディープラーニング技術では、手動の特徴エンジニアリングなしで独自の特徴を学習できることです。 最も重要な自動化は機械学習の分野で起こっています。 Data Robot と H2O は、データ サイエンティストによるデータ管理とモデリングを容易にするエンドツーエンドの機械学習プラットフォームを提供することで、業界での地位を確立しました。 自動モデル設計とトレーニングのための AutoML も、これらの自動化モデルが新しい技術よりも優れたパフォーマンスを発揮したため、2019 年に普及しました。特に Google は Cloud AutoML に多額の投資を行っています。 一般的に、企業は、プロセスをより安価かつ容易にするためだけに、データ サイエンスを自動化するためのツールやサービスの構築と購入に多額の投資を行っています。同時に、この自動化は、小規模で技術力の低い組織にも適しており、独自のチームを構築せずにこれらのツールとサービスを使用してデータ サイエンスを活用できます。 (2)データのプライバシーとセキュリティ プライバシーとセキュリティは、テクノロジー分野では常にデリケートな話題です。どの企業も迅速に行動して革新を望んでいますが、プライバシーやセキュリティの問題で顧客の信頼を失うことは致命的となる可能性があります。したがって、少なくとも個人データを漏洩させないことを優先せざるを得ません。 大規模なハッキングによって問題が悪化したため、データのプライバシーとセキュリティは過去 1 年間で非常にホットな話題になりました。つい最近、2019 年 11 月 22 日に、Google Cloud 上でセキュリティ保護されていないパブリック サーバーが発見されました。サーバーには、名前、メールアドレス、電話番号、LinkedIn および Facebook のプロフィール情報など、12 億件の個人情報が含まれていました。 FBIも捜査に介入し、これは史上最大のデータ侵害事件の一つとなった。 誰でも作成できる Google Cloud サーバー上にあります。データはどのようにしてそこに保存されたのでしょうか? データの所有者は誰でしょうか? そのデータのセキュリティの責任者は誰でしょうか? このニュースを見た後、LinkedIn や Facebook のアカウントを削除する人はいないだろうが、確かに一部の人は驚いている。消費者は、自分の電子メール アドレスや電話番号を誰に提供するかについて、ますます懸念を抱いています。 顧客のデータを非公開かつ安全に保つことができる企業は、顧客に(自社の製品やサービスを使い続けることで)より多くのデータを提供するよう説得しやすくなります。これらの企業は、政府が顧客データのセキュリティプロトコルを要求する法律を制定した場合にも、十分な準備が整っていることを確認する必要があります。そのため、多くの企業は自社のセキュリティ強度を証明するために、SOC2 Privacy Principles(訳注:米国公認会計士協会(AICPA)が制定したプライバシー保護監査基準)を選択しています。 データ サイエンスのプロセス全体はデータによって推進されますが、そのほとんどは匿名ではありません。データは単なる数字を表すものではなく、実在の人々や実在の物事も表します。このデータが不適切に使用されると、世界的なプライバシーの大惨事を引き起こし、人々の日常生活に影響を及ぼす可能性があります。 データ サイエンスが進歩するにつれて、データを取り巻くプライバシーとセキュリティのプロトコルにも変化が見られます。これらには、データのセキュリティと整合性を確立および維持するためのプロセス、法律、さまざまなアプローチが含まれます。サイバーセキュリティが今年の流行語になったとしても不思議ではないでしょう。 (3)クラウドにおけるハイパースケールデータサイエンス 長年にわたり、データ サイエンスはニッチな分野から完全な分野へと成長し、分析に利用できるデータの量は爆発的に増加し、組織はこれまで以上に多くのデータを収集して保存しています。 典型的なフォーチュン 500 企業が分析する必要があるデータの量は、すでにパーソナル コンピュータの処理能力をはるかに超えています。まともな PC には、64 GB の RAM、8 コアの CPU、4 TB のストレージが搭載されている可能性があります。これは個人的なプロジェクトには適していますが、何百万もの顧客データを持つ銀行や小売業者などのグローバル企業で働く場合にはあまり適していません。 つまり、クラウド コンピューティングがデータ サイエンスの分野に参入するのです。クラウド コンピューティングにより、誰でもどこからでも、事実上無制限の処理能力にアクセスできるようになります。 Amazon Web Services (AWS) などのクラウドベンダーは、最大 96 個の仮想 CPU コアと最大 768 GB のメモリを提供しています。これらのサーバーは自動スケーリング グループ内にセットアップでき、大きな遅延を発生させることなく、必要な計算能力に応じて数百台のサーバーを起動または停止できます。 Google Cloud データセンター クラウド コンピューティング企業は、コンピューティングに加えて、データ分析のための完全なプラットフォームも提供しています。 Google Cloud は、BigQuery と呼ばれるプラットフォームを提供しています。これは、データ サイエンティストがペタバイト単位のデータを単一のプラットフォームに保存して分析できるようにする、サーバーレスでスケーラブルなデータ ウェアハウスです。 BigQuery は、データ サイエンスのために他の Google Cloud サービスに接続することもできます。 Cloud Dataflow を使用してデータ ストリーミング パイプラインを作成したり、Cloud DataProc を使用してデータに対して Hadoop または Apache Spark を実行したり、BigQuery ML を使用して大規模なデータセットで機械学習モデルを構築したりできます。 データから処理能力まですべてが成長しており、データ サイエンスが成熟し、データ量がさらに増加するにつれて、最終的にはデータ サイエンスを完全にクラウドで実行できるようになるかもしれません。 (4)自然言語処理 ディープラーニング研究の分野で大きな進歩を遂げた後、自然言語処理 (NLP) はデータサイエンスの分野にしっかりと参入しました。 データ サイエンスは、純粋な生データの分析から始まりました。それが、データを処理してスプレッドシートに収集する最も簡単な方法だったからです。何らかの種類のテキストを処理する必要がある場合、通常はそれを分類するか、何らかの方法で数値に変換する必要があります。 しかし、テキストを数値に圧縮するのは非常に困難です。自然言語とテキストには豊富なデータと情報が含まれていますが、この情報を数値として表現する機能がないため、多くの有用な情報が失われることがよくあります。 ディープラーニングによる NLP の驚異的な進歩により、NLP と従来のデータ分析の完全な統合が促進されました。今日では、ニューラル ネットワークは大量のテキストから情報を素早く抽出できます。テキストをさまざまなカテゴリに分類し、テキストに関する感情を判断し、テキスト データの類似性分析を実行できます。最終的に、このすべての情報は単一の数値特徴ベクトルに保存できます。 NLP はデータサイエンスにおける強力なツールになりました。単語 1 つだけではなく段落全体を含む膨大なテキスト データを標準的な分析用の数値データに変換できます。より複雑なデータセットを探索できるようになりました。 たとえば、どのトピックの閲覧数が多いかを確認したいニュース Web サイトがあるとします。高度な NLP がなければ、すべてのキーワードが失われるか、または、特定のタイトルが他のタイトルと比較してパフォーマンスが良い理由を推測するだけになります。NLP を使用すると、Web サイトのテキストを定量化し、Web ページのテキスト全体または個々の段落を比較して、より包括的な洞察を得ることができます。 要約する 全体として、データ サイエンスはまだ進化しており、あらゆる業界 (技術系と非技術系) とあらゆるビジネス (大規模と小規模) に組み込まれるようになります。この分野が成長を続けるにつれ、それが私たちのソフトウェア ツールボックスの一般的なツールとなり、一般の人々に大規模に使用されるようになるのも不思議ではありません。 |
<<: ロボットは自分で物事を行うことを学び、緩んだネジを自分で締めることができる。
>>: ボストン・ダイナミクスCEO:軍の命令は否定しないが、ロボット犬を粗雑に扱っていると思う
下院の主要委員会が、受刑者の通話を分析するための人工知能の使用に関する報告書の提出を求めたことにより...
[[431488]]テルネットTelnet プログラムの目的は、ネットワーク経由でリモート ログイン...
OpenAIのドラマはまだ終わっておらず、多くのとんでもない行為が暴露されている。アルトマン氏を解雇...
IoT デバイスのデータ生成の基本的な能力と、さまざまなデバイスのインテリジェントな動作をシミュレー...
/* 世界を変えるために生きるここでは、あらゆる作品が市場に参入するための種となる可能性があります...
商業用不動産業界は進化を遂げており、人工知能 (AI) などのテクノロジーが、このダイナミックな市場...
Google Cloud は、顧客による人工知能アプリケーションの開発を促進するために、BigQue...
[[257748]]近年、ビジネスにおける人工知能 (AI) の重要性が急速に高まり、今では主要なテ...
最近、中国サイバースペース管理局は「インターネット情報サービスアルゴリズム推奨管理規則(草案)」(以...
8月31日、中国科学院傘下の百度、バイトダンス、センスタイム、紫東台中、百川知能、知普華章など8つの...