ディープラーニング技術は複雑で、ゼロから開発するのが難しい場合が多いですが、Microsoft の CustomVision.AI、Google の Cloud AutoML、OneClick.AI など、開発者が簡単にディープラーニングを利用できるように支援する自動ディープラーニング (ADL) プラットフォームを提供する企業も出てきました。 Data Science Central は最近、これら 3 つのプラットフォームを比較してレビューする記事を公開し、Machine Intelligence がこの記事をまとめて紹介しました。 ディープラーニング手法の使用を妨げる理由はたくさんありますが、最も重要なのは、ディープラーニング手法が複雑で難しいことです。 データ サイエンスの研究者や開発者の一部は、これらの新しい手法を学ぶことを選択しましたが、予測モデリングと規範モデリングの問題や手法の種類 (私たちの仕事の 90%) に関しては、ディープラーニング手法の学習は、私たちの仕事の大部分とはまったく対照的です。 人工知能 (AI) は、少なくとも画像、ビデオ、テキスト、音声の認識と処理の分野では誰もが注目する話題になっていますが、プロジェクトを実行する資格のあるデータ サイエンティストを見つけることは依然として困難です。 実際、私が挙げた画像、ビデオ、テキスト、音声のアプリケーションは、ディープラーニング アプリケーションのほんの一部にすぎません。これらは最もよく知られており、おそらく最も明白なアプリケーションですが、ディープ ニューラル ネットワーク (DNN) は時系列データの予測や、複雑で従来型の消費性向問題の解決にも優れています。 昨年 12 月に 2018 年のデータ サイエンス予測を書いたとき、ガートナーが 2018 年には DNN がデータ サイエンティストの 80% にとって標準的なツール コンポーネントになると述べていることに気付きました。私の予想では、このレベルのシンプルさを最初に達成したプロバイダーは間違いなく多額の報酬を得るでしょうが、それは 2018 年には実現しないでしょう。私の予想は間違っていたようです。 2018 年が始まってまだ 4 か月しか経っていませんが、ディープラーニングを簡素化して誰でも (少なくともデータ サイエンティストなら) 使えるようにすることを目的とした 3 つの異なるプラットフォームがすでに登場しています。 ***必要とする すべての大手企業といくつかの小規模な企業が、CNN または RNN/LSTM を実装するための大幅に簡素化されたツールを提供していますが、それでもレイヤー、接続、ノード、その他のハイパーパラメータ (初期の成功を左右することが多い設定) の種類と数を手動で実験的に調整する必要があります。 私たちは、一般的なデータ サイエンティストや開発者でも画像やテキストの分類器を正常に構築できる、真のワンクリック アプリケーションを実現したいと考えています。 これを実現する最も早い方法は転移学習です。ディープラーニングの分野では、転移学習とは、以前に正常に構築された大規模で複雑な CNN または RNN/LSTM モデルを、新しい、より限定されたデータセットでトレーニングすることを指します。 基本的に、画像分類によく使用される転移学習は、より複雑なモデルを、より少ないカテゴリまたは以前にトレーニングされたカテゴリに一般化します。転移学習では、元のモデルになかったカテゴリを作成することはできませんが、サブセットまたは集約カテゴリを作成する方法を学習できます。 利点は、ハイパーパラメータの調整が頻繁に実行されるため、モデルがトレーニングされることがわかることです。さらに重要なのは、わずか数百枚のラベル付き画像を使用して、1 時間以内に適切な転送モデルを構築できることです。 しかし、自動化されたディープラーニングの本当の目的は、転移学習ではなく、完全に自動化されたハイパーパラメータの調整です。以下で説明するように、いくつかの取り組みはまだ進行中ですが、すでにこの目標を達成したと主張する取り組みもあります。 マイクロソフトカスタムビジョン.AI リンク: https://www.customvision.ai マイクロソフトは2017年末、画像、ビデオ、テキスト、音声などさまざまな分野をカバーする、大幅に簡素化された一連のディープラーニング機能をMicrosoft Cognitive Servicesの旗印の下にリリースしました。同社は今年 1 月に、完全に自動化されたプラットフォームである Microsoft Custom Vision Services を立ち上げました。 このプラットフォームは単なる画像分類器であり、Microsoft の既存の大規模で複雑な複数画像分類器の膨大なライブラリを使用して、ほんの数枚の画像で堅牢な CNN 転送モデルを作成できる機能をユーザーに提供します。 このプラットフォームの使い方は非常に簡単です。このプラットフォームに画像をドラッグ アンド ドロップするだけで、先に進めます。従量課金制の Azure アカウントが必要で、基本サポートは月額 29 ドルです。モデルのトレーニングにかかる時間は明確ではありませんが、転移学習であるため、高速であり、したがってそれほど高価ではありません(ただし、無料ではありません)。 プロジェクトのセットアップ中に、画像セットの転送学習の対象となる一般的なドメインを指定するよう求められます。現在のオプションは次のとおりです。
これらのモデルはすべてトレーニング後に RESTful API を介して実行できますが、最後の 3 つのカテゴリ (「コンパクト」というラベルが付けられている) はエクスポートして、任意の iOS または Android エッジ デバイスでオフラインで実行できます。エクスポートされた形式は、iOS 11 では CoreML 形式、Android デバイスでは TensorFlow 形式です。これは、データ サイエンティストではないアプリ開発者にとって、アプリに即時の画像分類機能を追加する際に魅力的となるはずです。 マイクロソフトは今後、より複雑な機能をできるだけ早くリリースすると予想されます。 Google Cloud AutoML リンク: https://cloud.google.com/automl また、今年 1 月には、Google も同様のプロジェクトである Cloud AutoML を発表しました。このプラットフォームは現在アルファ開発段階にあり、参加は招待者のみとなります。 Microsoft と同様に、このサービスは、Google 独自の事前構築された複雑な CNN 分類器からの転移学習を使用します。転移学習にはラベルごとに少なくとも 100 枚の画像を提供することが推奨されています。 プラットフォームが正式に開始されたときにどのような画像カテゴリーが用意されるかは不明だが、ユーザーのスクリーンショットからは、少なくとも一般画像、顔、ロゴ、ランドマーク、そしておそらく他のいくつかの画像カテゴリーが用意されることが示唆されている。 Google が共有したスクリーンショットから判断すると、これらのモデルのトレーニング時間は約 20 分から数時間です。 私たちが見つけることができるデータによると、プラットフォームは API を通じて使用される必要があります。オフラインで使用するためにコードをエクスポートすることについては言及されていません。初期のアルファユーザーには、ウォルト・ディズニーやアーバン・アウトフィッターズなどが含まれます。 多くの新規ユーザーはラベル付けされたデータを持っていないことが予想されるため、Google は追加料金で独自の手動ラベル付けサービスを提供しています。 転移学習に加え、Googleをはじめとする大手企業ではCNNやRNNの最適化や調整を自動化するソリューションを推進しています。手動で開発されたモデルは現在の標準であり、多くの失敗した反復が必要になる理由となっています。 Google はこの次世代テクノロジーを Learn2Learn と呼んでいます。彼らは現在、レイヤー、レイヤー タイプ、ノード、接続、およびその他のハイパーパラメータを最適化するために RNN を実験しています。これは本質的に非常に高速なランダム検索であるため、計算リソースが非常に高くなる可能性があります。 次のステップは、進化的アルゴリズムを使用して同じことを実行することです。これにより、時間と計算の両方の面ではるかに効率的になります。最近のプレゼンテーションでは、Google の研究者がこのアプローチで優れた結果を示しましたが、最適化だけで 3 日から 10 日を費やしました。 ワンクリックAI リンク: https://www.oneclick.ai OneClick.AI は、2017 年末に市場に登場した自動機械学習 (AML) プラットフォームです。従来のアルゴリズムとディープラーニング アルゴリズムの両方が含まれています。 OneClick.AI は、データ融合、準備、特徴エンジニアリング、特徴選択、そして従来の複数のモデルを並行して実行して最適なモデルを決定するという AML の側面だけでも注目に値します。 ただし、OneClick は画像とテキストの両方のアルゴリズムを備えている点で異なります。使用される方法には、画像とテキストのディープラーニング モデルを再変更するための転移学習と完全に自動化されたハイパーパラメータ調整の両方が含まれます。 Google や Microsoft とは異なり、OneClick は画像とテキストの両方に対応しています。さらに、彼らは DNN を従来のアルゴリズムと組み合わせ、予測に DNN を使用しました。 予測は DNN の使用が検討されている領域ですが、ARIMA や ARIMAX などの時系列データ予測器よりも優れたパフォーマンスを発揮することが示されています。 このような洗練されたツールとテクニックを提供するプラットフォームとしては、「ワンクリックでモデル化」というシンプルさが維持されています。これは、自動化された機械学習だけでなく、自動化されたディープラーニングにとっても最優先事項であると思います。 同社がディープラーニングモデルを最適化するために使用する手法は独自のものだが、同社の創設者兼CEOであるYuan Shen氏は、これをAIを使用してAIをトレーニングするもの、つまりディープラーニングの最適化手法であると説明している。 どちらのプラットフォームが優れていますか? どのプラットフォームが優れているかを評価する基準はありませんが、OneClick.AI は事例を提供します。 今年初めのハッカソンで、チームは OneClick を Microsoft の CustomVision と比較してテストしました (当時は Google の AutoML は利用できませんでした)。彼らは 2 つの画像分類問題をテストしました。次の説明に一致する写真にタグを付けます。 走る馬か水を飲む馬か: ヌード写真: 馬にラベルを付けるタスクはマルチラベル分類タスクであり、ヌード写真の検出はバイナリ分類タスクです。各タスクごとに、20 枚のトレーニング画像とさらに 20 枚のテスト画像が使用されました。
この結果は転移学習で非常に少数のサンプルしか使用していないため、統計的に有意ではありません。しかし、それでも違いはわかります。 これは転移学習の観点からの比較です。自動化されたモデルの最適化がどのように比較されるかを見ることに興味があります。 OneClick の準備ができました。 Google もすぐに追随するはずです。 Amazon について疑問に思うかもしれません。私たちの調査では Amazon による自動化されたディープラーニングの計画は見つかりませんでしたが、Amazon もすぐ後に追随するでしょう。 オリジナルリンク: https://www.datasciencecentral.com/profiles/blogs/automated-deep-learning-so-simple-anyone-can-do-it [この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart(id:almosthuman2014)」によるオリジナル翻訳です] この著者の他の記事を読むにはここをクリックしてください |
<<: ロボットも「感情カード」を切るが、人間の本性もアルゴリズムに変えられるのか?
テンセントは9月18日、同社の公式アカウント「Tencent Open Source」において、オー...
[[414012]] 「顔認識技術を用いた個人情報処理に関する民事訴訟における法律適用の若干の問題に...
今日、AI プログラムは、写真やビデオ内の顔や物体を認識し、音声をリアルタイムで書き起こし、X 線ス...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
近年、バーチャルデジタルヒューマン業界は大変人気が高まっており、あらゆる分野の人々が独自のデジタルヒ...
[51CTO.comよりオリジナル記事] 9月25日、DAMOアカデミーの張建鋒学長は杭州雲奇カンフ...
NVIDIA の研究開発について学ぶことは、NVIDIA の毎年春に開催される GTC カンファレ...
[[420388]] '('、')'、'{'、...
「統計」と「機械学習」の違いは何ですか?これは数え切れないほど議論されてきた質問です。この問題につ...
今日の大規模モデルをトレーニングするための中核的な方法となると、RLHF は避けられないトピックです...
AI制御の核融合はもうすぐ実現します。ディープマインドは3年間の秘密の研究開発を経て、昨年、AIを使...
機械学習やディープラーニングに携わっている人なら誰でも、「パターン認識と機械学習」、略して PRML...