機械学習業界の発展はなぜ「オープンソース」から切り離せないのか

機械学習業界の発展はなぜ「オープンソース」から切り離せないのか

[[187490]]

2016 年末、Google DeepMind は機械学習プラットフォームである DeepMind Lab をオープンソース化しました。グーグルが自社のソフトウェアを他の開発者にオープンソース化する決定は、ホーキング教授のような専門家がこの技術について警告しているにもかかわらず、機械学習機能をさらに開発する取り組みの一環である。こうした取り組みを行っているテクノロジー企業は同社だけではない。Facebookは昨年、ディープラーニングソフトウェアをオープンソース化し、イーロン・マスク氏の非営利団体OpenAIはAIシステムのトレーニングに使用できるオープンソフトウェアプラットフォームであるUniverseをリリースした。では、なぜ Google、OpenAI などがプラットフォームをオープンソース化することを選択したのでしょうか。また、これは機械学習の導入にどのような影響を与えるのでしょうか。

なぜオープンソースの機械学習なのか?

上記の例は、私たちに美しいビジョンを与えてくれます。実際、よく見ると、機械学習は常にオープンソースであり、オープンな研究開発が、機械学習が今日これほど注目を集めている根本的な理由であることに気付くでしょう。

Google は学習プラットフォームを一般に公開することで、AI 研究に対する認知度の高まりを実証しました。実際、これを行うと、Alphabet にとって新しい才能や有能なスタートアップ企業を発見できるなど、多くの利点があります。同時に、開発者が DeepMind Lab にアクセスできるようになることで、機械学習の研究における重要な問題、つまりトレーニング環境の不足を解決するのに役立ちます。 OpenAI は、ゲームやウェブサイトを使用して AI システムをトレーニングする新しい AI 仮想学校を立ち上げました。

機械学習プラットフォームを一般に公開するためには、このような動きが大いに必要です。

オープンソース機械学習プロジェクトの 5 つのメリット

オープンソース機械学習の導入を加速

オープンソース機械学習の最高のフレームワーク

現在、機械学習エンジニアが以下のことを実行できるようにするオープンソースの機械学習フレームワークが多数存在します。

  • 機械学習システムの構築、実装、保守
  • 新しいプロジェクトを生成する
  • 新しく影響力のある機械学習システムの作成

重要なフレームワークには次のようなものがあります。

  • Apache Singa は、大規模なデータセットで大規模なディープラーニング モデルをトレーニングするための汎用の分散型ディープラーニング プラットフォームです。階層的抽象化に基づく直感的なプログラミング モデルを使用して設計されています。畳み込みニューラル ネットワーク (CNN)、制限付きボルツマン マシン (RBM)、再帰型ニューラル ネットワーク (RNN) などのエネルギー モデルを含む、さまざまな一般的なディープラーニング モデルをサポートします。ユーザー向けに多くの組み込みレイヤーが提供されています。
  • Shogun は、最も古く、最も尊敬されている機械学習ライブラリの 1 つです。 Shogun は 1999 年に作成され、C++ で書かれていますが、C++ での使用に限定されません。 SWIG ライブラリのおかげで、Shogun は次のプログラミング言語と環境で使用できます。
    • ジャワ
    • パイソン
    • C#
    • ルビー
    • R
    • ルア
    • オクターブ
    • マトラボ

Shogun は、分類、回帰、次元削減、クラスタリングなど、さまざまな特徴タイプと学習環境に対して、統合された大規模な学習を実行することを目的としています。豊富で効率的な SVM 実装、マルチカーネル学習、カーネル仮説検定、クリロフ法など、独自の高度なアルゴリズムがいくつか含まれています。

  • TensorFlow は、データフロー グラフを使用した数値計算用のオープン ソース ソフトウェア ライブラリです。 TensorFlow は数値計算にデータフローグラフを使用し、ノードとエッジの有向グラフを通じて数学的計算を記述します。ノードはグラフ内の数学演算を表し、データ入力の開始点 (フィードイン) やデータ出力の終了点 (プッシュアウト)、または永続変数の読み取り/書き込みの終了点 (永続変数) を表すこともできます。図の線は、ノード間で相互接続された多次元データ配列を表しています。これらの「線」は、サイズを動的に調整できる多次元データ配列、つまり「テンソル」を転送できます。
  • Scikit-Learn は、数学および科学的な作業のための既存の Python パッケージ (NumPy、SciPy、matplotlib) を基盤として構築することで、Python の幅広い機能を活用します。作成されたライブラリは、インタラクティブな「ワークベンチ」アプリケーションで使用したり、他のソフトウェアに埋め込んで再利用したりできます。このスイートは BSD ライセンスの下でリリースされているため、完全にオープン ソースであり、再利用可能です。 Scikit-learn には、クラスタリング、分類、回帰などの標準的な機械学習タスク用のツールが多数含まれています。 scikit-learn は大規模な開発者グループと機械学習の専門家によって開発されているため、新しいテクノロジーが迅速に導入されることが期待されます。
  • MLlib (Spark) は、Apache Spark 用の機械学習ライブラリです。その目標は、実用的な機械学習をよりスケーラブルかつ使いやすくすることです。これは、分類、回帰、クラスタリング、協調フィルタリング、次元削減などの一般的な学習アルゴリズムとユーティリティ、および低レベルの最適化プリミティブと高レベルのパイプライン API で構成されています。 Spark MLlib は、主に分散型のメモリベースの Spark アーキテクチャにより、Spark Core 上の分散型機械学習フレームワークと見なされており、Apache Mahout で使用されるディスクベースの実装よりもほぼ 9 倍高速です。
  • Amazon Machine Learning は、あらゆるスキルレベルの開発者が機械学習を簡単に実行できるようにするサービスです。 Amazon Machine Learning は、複雑な ML アルゴリズムやテクニックを習得することなく、機械学習 (ML) モデルを作成するプロセスをガイドする視覚的なツールとウィザードを提供します。 Amazon S3、Redshift、または RDS に保存されているデータに接続し、そのデータに対してバイナリ分類、マルチクラス分類、または回帰を実行してモデルを作成できます。
  • Apache Mahout は、Apache Software Foundation の無料のオープン ソース プロジェクトです。目標は、協調フィルタリング、クラスタリング、分類などの複数の分野向けに、無料の分散型またはスケーラブルな機械学習アルゴリズムを開発することです。 Mahout は、さまざまな数学演算用の Java ライブラリと Java コレクションを提供します。 Apache Mahout は、MapReduce パラダイムを使用して Apache Hadoop 上に実装されています。ビッグ データが Hadoop 分散ファイル システム (HDFS) に保存されている場合、Mahout は、これらの大規模なデータ セット内で意味のあるパターンを自動的に見つけることができるデータ サイエンス ツールを提供し、それによってこれらのビッグ データを「ビッグ情報」に迅速かつ簡単に変換します。

***何を言うか

機械学習は、オープンソース ツールの助けを借りて、実際の科学的および技術的な問題を解決することができます。機械学習が実際の科学的および技術的な問題を解決するためには、コミュニティが互いのオープンソース ソフトウェア ツールを基盤として構築する必要があります。私たちは、次のような複数の役割を果たす機械学習用のオープンソース ソフトウェアが緊急に必要であると考えています。

  • 結果を再現するより良い方法
  • 質の高いソフトウェア実装に対する学術的評価を提供するメカニズム
  • 他者(必ずしもテクノロジーの巨人ではない)の力を借りて研究プロセスを加速する

<<:  ドラッグアンドドロップ機械学習の愛と憎しみ

>>:  Baidu の最新の IDL 成果: 自然言語から始めて、AI エージェントに人間のように学習することを教える

ブログ    

推薦する

大規模な言語モデルはデータアシスタントとして機能し、浙江大学のデータコパイロットはデータを効率的に呼び出し、処理し、視覚化します。

金融、気象、エネルギーなどのさまざまな業界では、毎日大量の異種データが生成されます。人々は、このデー...

AI初心者ガイド: MLとAIの違いを理解する

[51CTO.com クイック翻訳] 人工知能は現在、さまざまなハイテク分野で話題になっています。初...

...

顔認識を行うときになぜ服を着なければならないのですか?

人工知能の応用として、顔認識技術は私たちの生活のあらゆる側面に浸透しています。本人認証には顔認識が必...

無人配送はJD.com、Alibaba、SF Expressの「新たなお気に入り」となっているが、全国的に普及するには10年かかるかもしれない!

[[222058]]無人運転車、ドローン、無人倉庫、無人駅、配達ロボットなどの「無人技術」が、電子...

...

ウーバーの安全担当者が世界初の自動運転車による死亡事故で有罪を認め、3年間の保護観察処分を受ける

海外メディアInsiderによると、8月1日、世界初となる自動運転車による死亡事故でついに判決が下さ...

...

今後10年間で、AIは「スモールデータ」時代の到来を告げるでしょうか?

AI 研究に携わる人なら誰でも、データが AI の開発において重要な役割を果たすことをよく知ってい...

医療の発展は自動化に向かっており、手術ロボットは急速に発展している。

社会の継続的な発展に伴い、わが国の医療・ヘルスケア産業は徐々に変化を迎え、医療機器のインテリジェント...

ディープマインドAIは人間に対して84%の勝率を誇り、ウエスタンアーミーチェスで初めて人間の専門家のレベルに到達した。

DeepMind はゲーム AI の分野で新たな成果を上げました。今回はチェスです。 AI ゲーム...

MetaMindによるNLP研究の徹底分析:機械学習をスキップさせる方法

自然言語処理は、人工知能研究における中心的な課題の 1 つです。最近、Salesforceによる買収...

世界の顔認識技術応用地域分布マップ

世界中の多くの規制当局は、公開ビデオフィード上の人物を識別するなどのアプリケーションに顔認識を使用し...

大規模モデルを路上に展開するための重要なステップ: 世界初の言語 + 自動運転オープンソースデータセットが登場

DriveLM は、データセットとモデルで構成される言語ベースのドライブ プロジェクトです。 Dri...

アメリカ人教授がAI会議での不正行為を暴露:著者は査読者と共謀し、ゴミ論文も査読を通過

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...