企業データの量と複雑さは増大しており、ビジネス上の意思決定や戦略計画においてデータが果たす中心的な役割により、企業はデータ資産を理解し、そこから洞察を得るために人材、プロセス、テクノロジーに投資するようになっています。これには、データ サイエンス アプリケーションで一般的に使用されるさまざまなツールが含まれます。
市場調査会社IDCは、パンデミックによるリモートワークやオンラインストリーミングの増加でデータ利用が加速し、2020年には64ZB(640億TBに相当)を超えるデータが作成、取得、コピー、使用されたと推定しています。ただし、データ分析の取り組みも重要な役割を果たします。 IDC が 2020 年 5 月に 59 ZB を最初に予測したとき、IDC の Global DataSphere 予測担当シニア バイスプレジデントの David Reinsel 氏は、継続的なデータ増加は「作成するデータよりも、使用および分析するデータによって推進される」と述べました。 有効なテクノロジーのポートフォリオを構築する際、データ サイエンス チームはさまざまなツールとプラットフォームから選択できます。以下は、分析に役立つ可能性のある上位 15 個のデータ サイエンス ツールです。機能と特徴の詳細、および潜在的な制限とともに、アルファベット順にリストされています。 1. Apache SparkApache Spark は、数ペタバイトを超える膨大な量のデータを処理できるオープンソースのデータ処理および分析エンジンです。 2009 年の創設以来、Spark の高速データ処理能力によりプラットフォームの急速な発展が推進され、Spark プロジェクトはビッグデータ テクノロジーにおける最大のオープン ソース コミュニティの 1 つになりました。 Spark は高速であるため、ストリーミング データをほぼリアルタイムで処理する継続的なインテリジェンス アプリケーションに最適です。ただし、汎用分散処理エンジンとして、Spark は抽出、変換、ロードの目的やその他の SQL バッチ処理ジョブにも同様に適しています。実際、Spark は当初、Hadoop クラスターでのバッチ処理用の MapReduce エンジンのより高速な代替手段として宣伝されていました。 Spark は今でも Hadoop と併用されることが多いですが、スタンドアロンで実行したり、他のファイル システムやデータ ストアと連携したりすることもできます。機械学習ライブラリや主要なプログラミング言語のサポートを含む広範な開発者ライブラリと API を備えているため、データ サイエンティストはプラットフォームをすぐに使い始めることができます。 2. D3.jsD3.js は、Web ブラウザーでカスタム データ視覚化を作成するための JavaScript ライブラリである別のオープン ソース ツールです。 D3 (Data-Driven Documents の略) と呼ばれることが多く、独自のグラフィックス語彙ではなく、HTML、Scalable Vector Graphics、CSS などの Web 標準を使用します。 D3 の開発者は、D3 を最小限の作業でデータの視覚的表現を生成する動的かつ柔軟なツールであると説明しています。 D3.js を使用すると、ビジュアル デザイナーはドキュメント オブジェクト モデルを通じてデータをドキュメントにバインドし、DOM 操作メソッドを使用してドキュメントに対してデータ駆動型の変換を実行できます。 2011 年に初めてリリースされ、インタラクティブ性、アニメーション、注釈、定量分析などの機能をサポートし、さまざまな種類のデータ視覚化を設計するために使用できます。 ただし、D3 には 30 を超えるモジュールと 1,000 を超える視覚化方法が含まれているため、学習が複雑になります。さらに、多くのデータ サイエンティストは JavaScript のスキルを持っていません。したがって、彼らは Tableau などの商用の視覚化ツールを好む可能性があり、D3 データ視覚化の主なユーザーは開発者や専門家 (データ サイエンス チームのメンバーでもある) になります。 3. IBM SPSSIBM SPSS は、複雑な統計データを管理および分析するためのソフトウェア ファミリです。これには、統計分析、データ視覚化、レポート作成ツールである SPSS Statistics と、ドラッグ アンド ドロップ UI と機械学習機能を備えたデータ サイエンスおよび予測分析プラットフォームである SPSS Modeler という 2 つの主要製品が含まれます。 SPSS Statistics は、計画からモデルの展開まで、分析プロセスのすべてのステップをカバーし、ユーザーが変数間の関係を明らかにしたり、データ ポイントのクラスターを作成したり、傾向を特定したり、予測を行ったりする機能などを可能にします。一般的な構造化データ型にアクセスでき、メニュー駆動型の UI、独自のコマンド構文、R および Python 拡張機能との統合、プロセスの自動化、SPSS Modeler への関係のインポート/エクスポート機能を提供します。 1968 年に SPSS Inc. によって開発され、当初は SPSS for Social Sciences として知られていたこの統計分析ソフトウェアは、SPSS が以前に買収した予測モデリング プラットフォームとともに、2009 年に IBM に買収されました。この製品ラインは正式には IBM SPSS として知られていますが、ソフトウェアは今でも単に SPSS と呼ばれることがよくあります。 4. ジュリアJulia は、数値計算、機械学習、その他の種類のデータ サイエンス アプリケーションに使用されるオープン ソース プログラミング言語です。 2012年にJuliaを発表したブログ記事で、4人の開発者は自分たちのニーズをすべて満たす言語を設計していると述べた。ここで重要な目標は、ある言語でプログラムを記述し、それを実行するために別の言語に変換することを避けることです。 このため、Julia は高レベルの動的言語の利便性と、C や Java などの静的型付け言語に匹敵するパフォーマンスを兼ね備えています。ユーザーはプログラム内でデータ型を定義する必要はありませんが、定義することもできます。実行時に複数のディスパッチ メソッドを使用すると、実行速度の向上にも役立ちます。 Julia 1.0 は、言語がリリースされてから 9 年後の 2018 年にリリースされました。最新バージョンは2021年3月にリリースされた1.6です。 Julia のドキュメントには、そのコンパイラーは Python や R などのデータ サイエンス言語のインタープリターとは異なるため、新しいユーザーは「最初は Julia のパフォーマンスが直感的ではないと感じる可能性があります」と記載されています。しかし、Julia は次のように主張しています。「Julia の仕組みを理解すれば、C と同じくらい速くコードを書くのが簡単になります。」 5. Jupyterノートブック数学者、研究者、その他のユーザー間のインタラクティブなコラボレーション。これは、説明テキスト、画像、その他の情報とともにコードを作成、編集、共有するために使用できる計算ノートブック ツールです。たとえば、Jupyter ユーザーは、ソフトウェア コード、計算、注釈、データの視覚化、計算結果のリッチ メディア表現をノートブックと呼ばれる単一のドキュメントに追加し、同僚と共有したり変更したりできます。 したがって、Jupyter Notebook のドキュメントによると、ノートブックは「データ サイエンス チームのメンバー間の対話型セッションの計算の完全な記録として機能することができます」。ノートブック ドキュメントはバージョン管理された JSON ファイルです。さらに、ノートブック ビューアー サービスを使用すると、システムに Jupyter がインストールされていないユーザーが表示できるように、静的 Web ページとしてレンダリングできます。 Jupyter Notebook は Python プログラミング言語に由来しており、2014 年に分離される前は、もともと IPython インタラクティブ ツールキット オープン ソース プロジェクトの一部でした。これら 3 つの言語のサポートに加えて、Jupyter は他の数十の言語用のモジュラー カーネルも提供します。 6. ケラスKeras は、データ サイエンティストが TensorFlow 機械学習プラットフォームに簡単にアクセスして使用できるようにするプログラミング インターフェイスです。これは、TensorFlow 上で実行され、現在プラットフォームに統合されている、Python で記述されたオープンソースのディープラーニング API およびフレームワークです。 Keras は以前は複数のバックエンドをサポートしていましたが、2020 年 6 月のバージョン 2.4.0 以降では TensorFlow のみにバンドルされています。 高レベルの API である Keras は、他のディープラーニング オプションよりも少ないコーディングで、シンプルで高速な実験を実行できるように設計されています。 Keras のドキュメントに記載されているように、その目標は、「高い反復速度」を備えた開発プロセスを通じて機械学習モデル (特にディープラーニング ニューラル ネットワーク) の展開を高速化することです。 Keras フレームワークには、入力と出力を持つ比較的単純なレイヤーの線形スタックを作成するためのシーケンシャル インターフェースと、より複雑なレイヤー グラフを構築したり、ディープラーニング モデルをゼロから作成したりするための機能 API が含まれています。 Keras モデルは CPU または GPU 上で実行でき、Web ブラウザーや Android および iOS モバイル デバイスなど、複数のプラットフォームに展開できます。 7. マトラボ1984 年以来ソフトウェア ベンダー MathWorks によって開発および販売されている Matlab は、数値計算、数学モデリング、およびデータ視覚化のための高水準プログラミング言語および分析環境です。従来、エンジニアや科学者は、無線通信、産業用制御、信号処理、その他のアプリケーション向けのデータの分析、アルゴリズムの設計、組み込みシステムの開発にこれを使用しており、多くの場合、モデルベースの設計およびシミュレーション機能を提供する Simulink ツールと組み合わせて使用されています。 Matlab は、Python、R、Julia などの言語ほどデータ サイエンス アプリケーションで広く使用されているわけではありませんが、機械学習やディープラーニング、予測モデリング、ビッグ データ分析、コンピューター ビジョン、およびデータ サイエンティストが行うその他の作業をサポートしています。プラットフォームに組み込まれたデータ タイプと高度な機能は、分析アプリケーションでの探索的データ分析とデータ準備を高速化するように設計されています。 Matlab は比較的習得しやすく使いやすいと考えられています。正式名称は matrix laboratory です。ビルド済みのアプリケーションが含まれており、ユーザーは独自のアプリケーションを構築できます。また、分野固有のソフトウェアを含むアドオン ツールボックスのライブラリや、2D および 3D グラフィックスでデータを視覚化する機能を含む数百の組み込み機能も備えています。 8. マトプロットMatplotlib は、分析アプリケーションでデータを読み取り、入力し、視覚化するためのオープンソースの Python プロット ライブラリです。データ サイエンティストやその他のユーザーは、Matplotlib を使用して、Python スクリプト、Python および IPython シェル、Jupyter Notebook、Web アプリケーション サーバー、さまざまな GUI ツールキットで静的、アニメーション化、インタラクティブなデータ視覚化を作成できます。 ライブラリの大規模なコード ベースは把握しにくい場合がありますが、レイヤー構造になっており、ユーザーが主に高レベルのコマンドを使用して視覚化を構築できるように設計されています。この階層の最も重要なコンポーネントは pyplot です。これは、「ステート マシン環境」を提供し、Matlab と同様の一連の単純なプロット関数を提供するモジュールです。 2003 年に初めてリリースされた Matplotlib にもオブジェクト指向インターフェースが含まれており、pyplot と一緒に使用することも、単独で使用することもできます。より複雑なデータプロットのための低レベルコマンドをサポートします。このライブラリは主に 2D 視覚化の作成に重点を置いていますが、3D プロット機能を備えた追加のツールキットも提供します。 9. パイソンPython は、データサイエンスと機械学習の分野で最も広く使用されているプログラミング言語であり、最も人気のある言語の 1 つです。 Python オープンソース プロジェクトの Web サイトでは、Python を「動的なセマンティクスを備えた、解釈型のオブジェクト指向の高水準プログラミング言語」であり、組み込みのデータ構造と動的な型付けおよびバインディング機能を備えていると説明されています。また、同サイトでは、Python のシンプルな構文を宣伝し、習得が容易で、読みやすさを重視しているためプログラムのメンテナンスコストが削減されると述べている。 この多用途の言語は、データ分析、データ視覚化、AI、自然言語処理、ロボティックプロセスオートメーションなど、さまざまなタスクに使用できます。開発者は Python を使用して、Web、モバイル、デスクトップ アプリケーションを作成することもできます。オブジェクト指向プログラミングに加えて、プロシージャ、関数、その他の型、および C または C++ で記述された拡張機能もサポートします。 Python は、データ サイエンティスト、プログラマー、ネットワーク エンジニアだけでなく、そのユーザー フレンドリーな機能に魅力を感じるコンピューティング プロフェッショナル (会計士から数学者、科学者まで) にも使用されています。 Python 2.x と 3.x はどちらも本番環境で使用可能な言語バージョンですが、2.x シリーズのサポートは 2020 年に終了しました。 10. パイトーチPyTorch は、ニューラル ネットワークに基づくディープラーニング モデルの構築とトレーニングを行うオープン ソース フレームワークです。PyTorch の支持者は、PyTorch が高速で柔軟な実験と、本番環境へのシームレスな移行をサポートすると主張しています。 Python ライブラリは、Lua プログラミング言語に基づく前身の機械学習フレームワークである Torch よりも使いやすいように設計されています。開発者によると、PyTorch は Torch よりも優れた柔軟性と速度も提供します。 2017 年に初めて公開された PyTorch は、配列のようなテンソルを使用してモデルの入力、出力、およびパラメーターをエンコードします。そのテンソルは、科学計算用の別の Python ライブラリである NumPy でサポートされている多次元配列に似ていますが、PyTorch では GPU 上でモデルを実行するための組み込みサポートが追加されています。 NumPy 配列は、PyTorch で処理するためにテンソルに変換でき、その逆も可能です。 このライブラリには、torch.autograd と呼ばれる自動微分パッケージやニューラル ネットワークを構築するためのモジュール、PyTorch モデルをデプロイするための TorchServe ツール、iOS および Android デバイスのデプロイ サポートなど、さまざまな機能とテクノロジが含まれています。 PyTorch は、メインの Python API に加えて、別のフロントエンド インターフェイスとして使用したり、Python アプリケーションの拡張機能を作成したりできる C++ も提供します。 11. りR プログラミング言語は、統計計算やグラフィック アプリケーション、およびデータ処理、分析、視覚化のために設計されたオープン ソース コード環境です。多くのデータ サイエンティスト、学術研究者、統計学者がデータの取得、クリーニング、分析、提示に R を使用しており、R はデータ サイエンスと高度な分析で最も人気のある言語の 1 つとなっています。 このオープンソース プロジェクトは R Foundation によってサポートされており、R の機能を強化するコード ライブラリを含む、ユーザー作成のパッケージ数千個をホストしています。たとえば、R ベースのデータ サイエンス ツールの tidyverse の一部である、グラフィックスを作成するための有名なパッケージである ggplot2 などがあります。さらに、いくつかのベンダーが R 用の統合開発環境と商用コード ライブラリを提供しています。 R は Python に似たインタープリタ型言語であり、比較的直感的であることで知られています。これは、1970 年代に開発された統計プログラミング言語である S の代替として 1990 年代に作成されました。R は、2 人の作成者のイニシャルです。 12. スエージェンシーSAS は、統計分析、高度な分析、BI、データ管理のための統合ソフトウェア スイートです。ソフトウェアベンダーのSAS Institute Inc.が開発、販売するこのプラットフォームにより、ユーザーはデータを統合、クリーニング、準備、処理することができ、その後、さまざまな統計およびデータサイエンスの手法を使用してデータを分析することができます。 SAS は、基本的な BI やデータの視覚化から、リスク管理、運用分析、データ マイニング、予測分析、機械学習まで、さまざまなタスクに使用できます。 SAS の開発は 1966 年にノースカロライナ州立大学で始まりました。この技術の利用は 1970 年代初頭から増加し始め、1976 年に SAS Institute が独立した会社として設立されました。このソフトウェアはもともと統計学者向けに設計されました。SAS は Statistics Analysis System の略です。しかし、時間が経つにつれて、幅広い機能が追加され、商業企業と学術界の両方で最も広く使用されている分析スイートの 1 つになりました。 現在、開発とマーケティングの取り組みは、2016 年にリリースされ、2020 年にクラウド ネイティブになるように再設計されたプラットフォームのクラウド ベース バージョンである SAS Viya に重点が置かれています。 13. サイキットラーンScikit-learn は、SciPy および NumPy 科学計算ライブラリと、データをプロットするための Matplotlib をベースにした、Python 用のオープンソース機械学習ライブラリです。教師あり機械学習と教師なし機械学習の両方をサポートし、scikit-learn 用語で推定器と呼ばれる多くのアルゴリズムとモデルが含まれています。さらに、モデルのフィッティング、選択、評価、およびデータの前処理と変換のための機能も提供します。 もともと scikits.learn として知られていたこのライブラリは、2007 年に Google Summer of Code プロジェクトとして始まり、2010 年に初めて一般公開されました。名前の最初の部分は SciPy Toolbox の略語で、他の SciPy アドオンでも使用されます。 Scikit-learn は主に、NumPy 配列または SciPy スパース行列に格納された数値データを処理します。 ライブラリのツール スイートは、データ トランスフォーマー オブジェクトとエスティメーターを組み合わせたデータセットの読み込みやワークフロー パイプラインの作成など、さまざまなタスクもサポートします。しかし、scikit-learn には設計上の制約による制限もあります。たとえば、ディープラーニング、強化学習、GPU はサポートされておらず、ライブラリの Web サイトには、開発者は「十分に確立されたアルゴリズムのみを組み込むことを検討する」と記載されています。 14. テンソルフローTensorFlow は、Google が開発したオープンソースの機械学習プラットフォームであり、ディープラーニング ニューラル ネットワークの展開に特に人気があります。このプラットフォームは、NumPy 多次元配列に似たテンソルの形式で入力を受け取り、グラフ構造を使用して、開発者がデータに対して指定した一連の計算操作を実行します。また、グラフを使用せずに操作を独立して実行する Eager 実行プログラミング環境も提供し、機械学習モデルの調査とデバッグの柔軟性を高めます。 Google は 2015 年に TensorFlow をオープンソース化し、2017 年にバージョン 1.0.0 をリリースしました。 TensorFlow は Python をコア プログラミング言語として使用し、モデルの構築とトレーニングに Keras 高レベル API も組み込むようになりました。さらに、TensorFlow.js ライブラリは JavaScript でのモデル開発をサポートしており、カスタム操作 (ops と略記) を C++ で構築できます。 このプラットフォームには、本番環境の機械学習パイプラインをエンドツーエンドで展開するための TensorFlow 拡張モジュールと、モバイルおよび IoT デバイス用の TensorFlow Lite も含まれています。 TensorFlow モデルは、CPU、GPU、Google の専用 Tensor Processing Unit でトレーニングおよび実行できます。 15. ウェカWeka は、データ マイニング タスクに使用できる一連の機械学習アルゴリズムを提供するオープン ソース ワークベンチです。 Weka のアルゴリズムは分類子と呼ばれ、GUI またはコマンドライン インターフェイスを介してプログラミングなしでデータセットに直接適用して追加機能を提供できます。また、Java API を介して展開することもできます。 ワークベンチは、分類、クラスタリング、回帰、関連ルール マイニング アプリケーションに使用でき、データの前処理および視覚化ツールのセットも含まれています。さらに、Weka は R、Python、Spark、scikit-learn などの他のライブラリとの統合をサポートしています。ディープラーニングの目的で、アドオン パッケージはこれを Eclipse Deeplearning4j ライブラリと組み合わせます。 Weka は、GNU General Public License に基づいてライセンスされたフリーソフトウェアです。このソフトウェアは 1992 年にニュージーランドのワイカト大学で開発され、最初のバージョンが Java で書き直されて現在のワークベンチが作成され、1999 年に初めてリリースされました。 Weka は、ニュージーランド原産の飛べない鳥にちなんで「知識分析のためのワイカト環境」の略称で、この技術の開発者らは、この鳥には「好奇心旺盛な性質」があると述べている。 データサイエンスと機械学習プラットフォーム多くのソフトウェア ベンダーは、機械学習、AI、その他のデータ サイエンス アプリケーション向けの機能を統合した商用ライセンスのプラットフォームも提供しています。これらの製品は多岐にわたります。機械学習オペレーション センター、自動化された機械学習プラットフォーム、フル機能の分析スイートなどがあり、これらの機能を組み合わせた製品もあります。多くのプラットフォームには、上記のデータ サイエンス ツールが含まれています。 Matlab と SAS もデータ サイエンス プラットフォームとして数えられます。データ サイエンス チームが検討すべきその他の重要なプラットフォーム オプションは次のとおりです。
一部のプラットフォームでは、Dataiku や H2O など、無料のオープンソース バージョンやコミュニティ バージョンも提供されています。 Knime は、オープンソースの分析プラットフォームと商用の Knime Server パッケージを組み合わせて、チームベースのコラボレーションとワークフローの自動化、展開、管理を可能にします。 |
<<: MITの新しい水中ロボット!機械学習を使用して 18 時間でパトリック スターを作成する (ダニエラ ラスとの共著)
>>: TOP50 人工知能のケーススタディ: AI は単なる誇大宣伝ではなく、努力によって実現される
人工知能の時代音声、指紋、顔認識など。 AI技術は飛躍的に進歩している犯罪者もこれに気づいているこの...
2018年5月6日、清華大学で清華大学-アルシャンブロックチェーン共同研究センターと清華大学学生ブ...
世界はクリーンで安全、かつ手頃な価格で持続可能な電力を緊急に必要としており、各国は化石エネルギーに代...
1. AIと機械学習を採用する人が増える人工知能 (AI) と機械学習 (ML) は単なる流行語では...
今日では、GPT-4 や PaLM などの巨大なニューラル ネットワーク モデルが登場し、驚くべき少...
人工知能の分野は継続的に進歩しており、自然言語処理、自然言語生成、コンピュータービジョンなどのサブフ...
[[245607]]ブルームバーグによると、アルファベットの検索子会社グーグルは、米国防総省の10...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
エリック・アダムス市長は最近、ニューヨーク市政府がAI技術の応用を推進する計画を発表した。この計画に...
頭に貼るビジョンプロは人から人へと広がっています。これがロンドンの街の最新風景です。 「刺激が欲しけ...
一瞬のうちに、ロボットは魔法を使うことを覚えたのでしょうか?まず、テーブルの上の水のスプーンを手に取...
マイクロソフトの創業者ビル・ゲイツは、現在のAIの開発動向についてどう考えているのでしょうか?最近の...