機械学習業界の発展はなぜ「オープンソース」から切り離せないのか

機械学習業界の発展はなぜ「オープンソース」から切り離せないのか

[[187490]]

2016 年末、Google DeepMind は機械学習プラットフォームである DeepMind Lab をオープンソース化しました。グーグルが自社のソフトウェアを他の開発者にオープンソース化する決定は、ホーキング教授のような専門家がこの技術について警告しているにもかかわらず、機械学習機能をさらに開発する取り組みの一環である。こうした取り組みを行っているテクノロジー企業は同社だけではない。Facebookは昨年、ディープラーニングソフトウェアをオープンソース化し、イーロン・マスク氏の非営利団体OpenAIはAIシステムのトレーニングに使用できるオープンソフトウェアプラットフォームであるUniverseをリリースした。では、なぜ Google、OpenAI などがプラットフォームをオープンソース化することを選択したのでしょうか。また、これは機械学習の導入にどのような影響を与えるのでしょうか。

なぜオープンソースの機械学習なのか?

上記の例は、私たちに美しいビジョンを与えてくれます。実際、よく見ると、機械学習は常にオープンソースであり、オープンな研究開発が、機械学習が今日これほど注目を集めている根本的な理由であることに気付くでしょう。

Google は学習プラットフォームを一般に公開することで、AI 研究に対する認知度の高まりを実証しました。実際、これを行うと、Alphabet にとって新しい才能や有能なスタートアップ企業を発見できるなど、多くの利点があります。同時に、開発者が DeepMind Lab にアクセスできるようになることで、機械学習の研究における重要な問題、つまりトレーニング環境の不足を解決するのに役立ちます。 OpenAI は、ゲームやウェブサイトを使用して AI システムをトレーニングする新しい AI 仮想学校を立ち上げました。

機械学習プラットフォームを一般に公開するためには、このような動きが大いに必要です。

オープンソース機械学習プロジェクトの 5 つのメリット

オープンソース機械学習の導入を加速

オープンソース機械学習の最高のフレームワーク

現在、機械学習エンジニアが以下のことを実行できるようにするオープンソースの機械学習フレームワークが多数存在します。

  • 機械学習システムの構築、実装、保守
  • 新しいプロジェクトを生成する
  • 新しく影響力のある機械学習システムの作成

重要なフレームワークには次のようなものがあります。

  • Apache Singa は、大規模なデータセットで大規模なディープラーニング モデルをトレーニングするための汎用の分散型ディープラーニング プラットフォームです。階層的抽象化に基づく直感的なプログラミング モデルを使用して設計されています。畳み込みニューラル ネットワーク (CNN)、制限付きボルツマン マシン (RBM)、再帰型ニューラル ネットワーク (RNN) などのエネルギー モデルを含む、さまざまな一般的なディープラーニング モデルをサポートします。ユーザー向けに多くの組み込みレイヤーが提供されています。
  • Shogun は、最も古く、最も尊敬されている機械学習ライブラリの 1 つです。 Shogun は 1999 年に作成され、C++ で書かれていますが、C++ での使用に限定されません。 SWIG ライブラリのおかげで、Shogun は次のプログラミング言語と環境で使用できます。
    • ジャワ
    • パイソン
    • C#
    • ルビー
    • R
    • ルア
    • オクターブ
    • マトラボ

Shogun は、分類、回帰、次元削減、クラスタリングなど、さまざまな特徴タイプと学習環境に対して、統合された大規模な学習を実行することを目的としています。豊富で効率的な SVM 実装、マルチカーネル学習、カーネル仮説検定、クリロフ法など、独自の高度なアルゴリズムがいくつか含まれています。

  • TensorFlow は、データフロー グラフを使用した数値計算用のオープン ソース ソフトウェア ライブラリです。 TensorFlow は数値計算にデータフローグラフを使用し、ノードとエッジの有向グラフを通じて数学的計算を記述します。ノードはグラフ内の数学演算を表し、データ入力の開始点 (フィードイン) やデータ出力の終了点 (プッシュアウト)、または永続変数の読み取り/書き込みの終了点 (永続変数) を表すこともできます。図の線は、ノード間で相互接続された多次元データ配列を表しています。これらの「線」は、サイズを動的に調整できる多次元データ配列、つまり「テンソル」を転送できます。
  • Scikit-Learn は、数学および科学的な作業のための既存の Python パッケージ (NumPy、SciPy、matplotlib) を基盤として構築することで、Python の幅広い機能を活用します。作成されたライブラリは、インタラクティブな「ワークベンチ」アプリケーションで使用したり、他のソフトウェアに埋め込んで再利用したりできます。このスイートは BSD ライセンスの下でリリースされているため、完全にオープン ソースであり、再利用可能です。 Scikit-learn には、クラスタリング、分類、回帰などの標準的な機械学習タスク用のツールが多数含まれています。 scikit-learn は大規模な開発者グループと機械学習の専門家によって開発されているため、新しいテクノロジーが迅速に導入されることが期待されます。
  • MLlib (Spark) は、Apache Spark 用の機械学習ライブラリです。その目標は、実用的な機械学習をよりスケーラブルかつ使いやすくすることです。これは、分類、回帰、クラスタリング、協調フィルタリング、次元削減などの一般的な学習アルゴリズムとユーティリティ、および低レベルの最適化プリミティブと高レベルのパイプライン API で構成されています。 Spark MLlib は、主に分散型のメモリベースの Spark アーキテクチャにより、Spark Core 上の分散型機械学習フレームワークと見なされており、Apache Mahout で使用されるディスクベースの実装よりもほぼ 9 倍高速です。
  • Amazon Machine Learning は、あらゆるスキルレベルの開発者が機械学習を簡単に実行できるようにするサービスです。 Amazon Machine Learning は、複雑な ML アルゴリズムやテクニックを習得することなく、機械学習 (ML) モデルを作成するプロセスをガイドする視覚的なツールとウィザードを提供します。 Amazon S3、Redshift、または RDS に保存されているデータに接続し、そのデータに対してバイナリ分類、マルチクラス分類、または回帰を実行してモデルを作成できます。
  • Apache Mahout は、Apache Software Foundation の無料のオープン ソース プロジェクトです。目標は、協調フィルタリング、クラスタリング、分類などの複数の分野向けに、無料の分散型またはスケーラブルな機械学習アルゴリズムを開発することです。 Mahout は、さまざまな数学演算用の Java ライブラリと Java コレクションを提供します。 Apache Mahout は、MapReduce パラダイムを使用して Apache Hadoop 上に実装されています。ビッグ データが Hadoop 分散ファイル システム (HDFS) に保存されている場合、Mahout は、これらの大規模なデータ セット内で意味のあるパターンを自動的に見つけることができるデータ サイエンス ツールを提供し、それによってこれらのビッグ データを「ビッグ情報」に迅速かつ簡単に変換します。

***何を言うか

機械学習は、オープンソース ツールの助けを借りて、実際の科学的および技術的な問題を解決することができます。機械学習が実際の科学的および技術的な問題を解決するためには、コミュニティが互いのオープンソース ソフトウェア ツールを基盤として構築する必要があります。私たちは、次のような複数の役割を果たす機械学習用のオープンソース ソフトウェアが緊急に必要であると考えています。

  • 結果を再現するより良い方法
  • 質の高いソフトウェア実装に対する学術的評価を提供するメカニズム
  • 他者(必ずしもテクノロジーの巨人ではない)の力を借りて研究プロセスを加速する

<<:  ドラッグアンドドロップ機械学習の愛と憎しみ

>>:  Baidu の最新の IDL 成果: 自然言語から始めて、AI エージェントに人間のように学習することを教える

ブログ    
ブログ    
ブログ    

推薦する

2023年のGenAI技術応用動向の観察

生成型人工知能 (GenAI) は技術革新の最前線にあり、さまざまな業界の変革と発展に新たな可能性を...

運転教習業界にも「AI」の波が吹き荒れる、普及規模に注目

[[422314]]近年、都市化と道路交通建設の加速により、自動車旅行の需要が継続的に増加しており、...

ISPの廃止はテスラの「純粋なビジョン路線」にとって重要なステップ

私はテスラの「純粋なビジュアルルート」に常に懐疑的でした。疑問なのは、アルゴリズムの進歩によってカメ...

ボルチモア、これまでで最も厳しい顔認識禁止法を制定する可能性

米国のボルチモア市で検討されている条例は、民間人だけでなく法執行機関や政府機関による顔認識技術の購入...

大型モデル全般において中国と米国の差を縮めるにはどうすればいいでしょうか? 全国人民代表大会でその答えが分かった

「一般的な大きなモデルは国家の運命をめぐる闘争に関連している」... 「人工知能+」が政府活動報告に...

...

AIを活用してモノのインターネットを次のレベルに引き上げる方法

世界中の企業が人工知能を広く導入しています。モノのインターネットもすぐ後に続きます。実際、モノのイン...

クールなデュオ: AI が金融テクノロジーの進化にどのように役立つかを示す 6 つのケース スタディ

中国では、口座間の送金、銀行ローンの申請、取引の実行にインターネットを利用することが住民にとって日常...

機械学習の仕組み - コード例

誰が生き残るかを予測するモデルをトレーニングします。 [注: ここでモデルを自分で構築するには、完全...

人工知能の発展の潮流の中で、数学教育はどこに向かうべきでしょうか?

[[228737]] 「人工知能(AI)」という言葉は、誰もがよく知っていると思います。この業界で...

ニューラルネットワークはどのように学習するのでしょうか?

坂を下るのと同じように、損失関数の最低点を見つけます。 [[336501]]ニューラル ネットワーク...

クラウドで必要な 5 つの機械学習スキル

機械学習と AI は IT サービスにさらに深く浸透し、ソフトウェア エンジニアが開発したアプリケー...

産業用 AI チェックリスト: 始めるための 10 ステップ

人類はもはや人工知能(AI)の波から逃れることはできない。彼らが行くところすべてで、最新の AI ソ...

ナレッジグラフは自然言語処理の未来でしょうか?

ナレッジグラフは NLP の未来でしょうか?今は2021年で、かつて全盛期だった多くの技術は長い間無...