AI製品化の鍵はアルゴリズムではなくインフラとデータ

AI製品化の鍵はアルゴリズムではなくインフラとデータ

[[187402]]

人工知能は現在、魔法のような大流行を経験しています。データは、数字の羅列としてニューラル ネットワーク (またはブラック ボックス) に入り、マジシャンが空の帽子からウサギを出すように、根本的に変化した状態で出てきます。

これはラボでも可能ですし、クリーンでデバッグ済みのデータを備えた個人の開発マシンでも可能です。しかし、機械学習アルゴリズムをマルチユーザー サービスなど、つまり便利なものに拡張するために多くの努力が払われてきました。

人工知能への注目は急上昇しており、多くの誇大宣伝が行われていますが、現実には人工知能技術はまだ初期段階にあり、商業化は困難です。プロトタイプから製品に移行するには、多くの新しい課題を克服する必要があります。トレーニング データはどこから来るのか? システムをトレーニングするときに、データをどのように保存、整理、改良、準備するのか? システムをテストできるのは誰か? セキュリティはどうか: 機密情報をどのように管理および保護するのか? 結果を出すにはハードウェアの速度はどれくらい必要か? パフォーマンスのボトルネックと同時実行の障壁はどこにあるのか?

マジックのトリックは止まりません。突然、AI コード、いわゆるクラウンが、バグだらけの巨大な機械の中の小さな歯車にすぎないことに気づきます。

企業に人工知能ソリューションを提供するスタートアップ企業、Skymindの共同創業者兼CTOのアダム・ギブソン氏は、次のように述べている。「人工知能の製品化は大きな課題であり、インフラは解決が最も難しい問題の一つです。」

Skymind の CEO 兼共同創設者である Chris Nicholson 氏は次のように説明しています。「AI の導入は、水がパイプに流れ込むのと同じように、複数のステップを踏む複雑なプロセスです。」

生データは液体のようなもので、製品パイプラインに流れ込む前にデジタル化して集約する必要があります。次に、データ ストリームは、Hadoop を使用して保存される前に、Apache Kafka や Apache Storm などのツールで処理する必要があります。画像、テキスト、音声などのデータを抽出し、変換し、ベクトル計算用にフォーマットして、トレーニングのためにニューラル ネットワークに読み込む必要があります。

トレーニングが完了したら、モデルの推論コードをさらに多くのデータでテストし、パフォーマンスと精度を確認します。言い換えれば、新しくトレーニングされた AI に質問して、その出力が期待どおりであるかどうかを確認します。

この時点で、少しの調整、改良、追加のトレーニングにより、ソフトウェアを正しい方向に進めることができます。システムが十分な精度と速度を備え、せっかちなユーザーも満足できるレベルに達すると、システムはより大きなフレームワークに組み込まれ、ユーザーが直接または API 経由で安全にシステムにアクセスできます。典型的な例としては、Netflix や Amazon が機械学習を通じてユーザー情報に基づいて最適な推奨事項を生成することが挙げられます。

これで終わりではなく、最後のステップは拡大です。これまで説明したシステムはマイクロサービスにパッケージ化されており、AI を複数のサーバーに数千回、場合によっては数十万回デプロイして、要求の厳しい問題を解決できます。クレジットカードの不正使用をチェックするシステムが、Purchases という姓を持つ何百人もの人物に対応しなければならないと想像してください。

「研究者たちはこのことを知らないし、気にも留めていない。彼らは消費者へのサービスではなく、より優れたアルゴリズムにのみ関心がある」とギブソン氏は語った。

ニコルソン氏はギブソン氏に同意し、研究者はインフラやスケーリングには興味がないと述べた。ここに良い例えがあります。何千人もの消費者が同じカスタマー サービス エージェントに電話をかけていると想像してください。それが研究者の仕事のやり方です。カスタマーサービス担当者は 1 人だけです。しかし、GE が何千件もの電話を受けたとしたらどうなるでしょうか。顧客サービス担当者を 1 人だけで対応するのは不可能でしょう。サービスニーズを満たすには、顧客サービススタッフをできるだけ多く複製する必要があります。

ええと、私はクラウドだけを使っています

スタートアップ企業などの小規模な企業では、AI システムの推論フェーズに重点を置き、他のフェーズを「無視」する場合があります。 「企業は、インフラやスケーリングに関わるデータ量の問題を解決するつもりはないので、理想的にはクラウドに移行するだろう」とギブソン氏はThe Registerに語った。「しかし、企業が大きくなるにつれて、こうした問題も考慮する必要がある」

Skymind は 2014 年に設立され、Hadoop および Spark と統合できる Java で書かれたディープラーニング フレームワークである Deeplearning4j を開発しました。

Google Cloud、Microsoft Azure、Amazon Web Services などのクラウド プラットフォームは、AI をサービスとして大衆に提供するために競争しています。これらは、事前にトレーニングされたモデルをユーザーに提供するだけでなく、さまざまなツール (画像認識や自然言語処理など) を組み合わせて、よりカスタマイズされたモデルを生成する方法もユーザーに提供します。

クラウドで AI モデルを使用すると、制限が多くなり、コストも高くなります。ニューラル ネットワークの反復学習には、複数の GPU での集中的なトレーニングも必要です。ニコルソン氏によると、これをクラウドで行うには1万5000ドルから3万ドルの費用がかかるという。

「資金がないスタートアップは、インターネットからダウンロードした事前トレーニング済みのモデルを使用し、それをカスタマイズして(これが典型的なアプローチです)、クラウドにアップロードします。」

これの利点は、小規模なチームがアイデアを現実のものにするために、機械学習を理解しているコンピューター科学者を探し回る必要がないことです。ただし、欠点もあります。それは、事前にパッケージ化されたモデルに限定されることです。実際、これは企業が AI に真剣に取り組んでいるかどうかを証明する方法でもあります。 AI をめぐる熱狂は衰える気配がなく、こうした側面を宣伝することで、注目を集めたり、さらなる投資を引き付けたりできる可能性が高まります。

「企業が AI を構築したい場合、人材、ツール、データ、インフラという 4 つの問題を解決する必要があります」とニコルソン氏は言います。「機械学習のバックグラウンドを持つ人材、コンピューター サイエンティスト、ハッカーが必要です。どのようなアルゴリズムを使用しているかを説明できなければなりません。クラウドを使用する場合、それほど多くのデータを持たない可能性があり、インフラの問題を考える必要はありません。」

「アルゴリズムや技術スタックについて語らないのなら、それは危険信号です。彼らは何でもできるので、真剣に受け止めるのは難しいです。彼らはロジスティック回帰で if-then を使用して、それを AI と呼んでいます。」

人工知能はマスマーケットに追随しない

製薬業界から政府まで、データに AI を適用することに対する商業的な関心は尽きません。しかし、これはすべての人に当てはまるわけではないとニコルソン氏とギブソン氏は言う。ディープラーニングでは、高性能なモデルを開発するために大量のトレーニングデータが必要です。

「現実には、ほとんどのスタートアップ企業は十分なデータを持っていません。企業は現実的でなければなりません。人々は空想の段階を過ぎて、解決できる実際の問題を探さなければなりません。」

元記事: https://www.theregister.co.uk/2017/03/31/ai_infrastructure/

[この記事は、51CTOコラムニストのMachine Heart、WeChatパブリックアカウント「Machine Heart(id:almosthuman2014)」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<:  初心者必読: 5 つの反復レベルから機械学習を理解する

>>:  CES の最大の不満: 人工知能はどこにでも普及するようになるのか?

ブログ    

推薦する

...

ハイブリッドエキスパートの限界を押し上げる: わずか 0.32% のパラメータ更新でモデルを微調整

ご存知のとおり、大規模なモデルのトレーニングにはコストがかかりますが、事前トレーニング済みのモデルを...

賢い負荷分散アルゴリズム: 頭を使って

負荷分散技術は現在ではどこにでもありますが、基本的にはまだ使用段階であり、その核心は十分に理解されて...

データ構造とアルゴリズム: 単調に増加する数値

[[439817]]単調に増加する数字LeetCode の問題へのリンク: https://leet...

弁護士の仕事もAIによって奪われるのでしょうか?ユーザー: 他に何ができますか?

モバイルインターネット時代の到来により、AIは前例のない成果を達成し、人々の生活のあらゆる側面に入り...

劉玉樹:人工知能における中国と米国の格差は縮まっているが、まだやるべきことはある

著者の劉玉樹氏は中国人民大学重陽金融研究所学務委員会委員、マクロ研究部部長、研究者である。本稿は11...

ターゲット検出にはこの記事で十分です! 2019年版オブジェクト検出の総合ガイド

[[272485]]ビッグデータダイジェスト制作編纂者:張瑞怡、寧静コンピュータ ビジョンは、デジタ...

AIレーシングドライバーが人間を破り自然の頂点に! 1,000台のPS4のトレーニング、トラックを支配するための極端な追い越し

近年、さまざまなゲームで高性能なAIが人間に勝利するというニュースが頻繁に登場しています。初期のチェ...

AIを規制するための答えは何でしょうか?なぜこれが重要なのでしょうか?

AntWorks の共同創設者兼 CEO である Asheesh Mehra 氏が、AI を規制す...

DALL·Eの超進化により、写真の品質と芸術性が大幅に向上し、写真をシームレスに修正することもできるようになりました。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

...

建設技術におけるAIは潜在性があるが、まだ現実にはなっていない

建設業界がテクノロジーの導入において他の業界に遅れをとっているのは周知の事実です。 2018年の米国...

...

AI戦略について尋ねるべき10の質問

近年、AI テクノロジーに投資している企業の大多数は、一般的に、AI アプリケーションを業務改善やコ...