人工知能端末チップ研究レポート

1. 人工知能とディープラーニング

2016年、AlphaGoとイ・セドルの囲碁対決は間違いなく、人工知能の分野に世界中から新たな注目を集めるきっかけとなった。イ・セドルとの対決の5か月前、アルファ碁は欧州囲碁チャンピオンのファン・フイ二段を破り、囲碁のレーティングが3168点に上昇した。一方、当時世界ランキング2位だったイ・セドルのレーティングは3532点だった。このレベルスコアによると、AlphaGoが各対局で勝つ可能性はわずか11％程度だったが、結果は3か月後のイ・セドルとの対局で4対1で勝利した。 AlphaGo の学習能力は恐ろしいほど速いです。

1. 人工知能: 機械が人間のように考えるようにする

AlphaGo以来、「人工知能」は2016年のホットワードとなったが、早くも1956年には、数人のコンピューター科学者がダートマス会議でこの概念を初めて提案していた。彼らは、新たに利用可能になったコンピューターを使用して、人間の知能と同じ基本的な特性を備えた複雑な機械を構築することを夢見ていました。これは今日私たちが「強力な人工知能」と呼んでいるものです。この全能の機械は私たちのすべての認識、すべての合理性を備えており、私たちと同じように考えることさえできます。

映画では、スターウォーズのC-3POのような友好的な機械や、ターミネーターのような邪悪な機械など、常にそのような機械を目にします。強い AI は今のところ映画や SF の中にしか存在しませんが、その理由は理解しにくいことではありません。少なくとも今のところは、それを実現できないからです。

現在私たちが実現できるものは、一般的に「弱い人工知能」と呼ばれています。弱い AI とは、特定のタスクを人間と同等かそれ以上に実行できるテクノロジーです。たとえば、Pinterest での画像分類や、Facebook での顔認識などです。これらの人工知能技術を実装する方法は「機械学習」と呼ばれます。

2. 機械学習: AIを現実のものに

人工知能の核心は、継続的な機械学習を通じて自らをより賢くすることです。機械学習への最も基本的なアプローチは、アルゴリズムを使用してデータを解析し、そこから学習し、現実世界の出来事について決定や予測を行うことです。特定のタスクを解決するためにハードコードされた従来のソフトウェアプログラムとは異なり、機械学習は大量のデータを使用して「トレーニング」され、さまざまなアルゴリズムを使用してデータからタスクを完了する方法を学習します。

機械学習の最も成功している応用分野はコンピュータービジョンですが、作業を完了するには依然として多くの手動コーディングが必要です。一時停止標識の識別を例に挙げると、検出された物体が 8 辺であるかどうかを判断するために、手動で形状検出プログラムを記述する必要があります。また、「STOP」という文字を認識する分類子を記述する必要があります。これらの手書きの分類器とエッジ検出フィルターを使用することで、最終的に標識の開始位置と終了位置を認識するアルゴリズムを開発し、画像を認識して一時停止の標識かどうかを判断できるようになります。

この結果は悪くはないが、人々を興奮させるような成功ではない。特に霧の日には、標識が不明瞭になったり、木々に部分的に遮られたりして、アルゴリズムが成功する可能性が低くなります。このため、長い間、コンピュータービジョンのパフォーマンスは人間の能力に近づくことができませんでした。それはあまりにも硬直的であり、環境条件によって簡単に乱されてしまいます。

3. 人工ニューラルネットワーク: 機械学習に深みを与える

人工ニューラルネットワークは、初期の機械学習における重要なアルゴリズムであり、何十年にもわたる浮き沈みを経てきました。ニューラルネットワークの原理は、互いに交差接続されたニューロンという脳の生理学的構造にヒントを得ています。しかし、一定の距離内にあるどのニューロンとも接続できる脳内のニューロンとは異なり、人工ニューラルネットワークには個別の層があり、各層はデータ伝播の方向と一致する他の層とのみ接続します。

たとえば、画像を画像パッチに分割し、ニューラルネットワークの最初のレイヤーに入力することができます。最初の層の各ニューロンはデータを 2 番目の層に渡します。 2 番目の層のニューロンも同様のタスクを実行し、データを 3 番目の層に渡し、最後の層までこれを繰り返して、結果を生成します。

各ニューロンは入力に重みを割り当て、この重みの正確さはニューロンが実行するタスクに直接関係します。最終的な出力はこれらの重みの合計によって決まります。

一時停止の標識を例に挙げてみましょう。一時停止の標識の画像のすべての要素は、八角形の形状、消防車の赤色、明るく目立つ文字、交通標識の典型的なサイズと静止した動きの特性など、ニューロンによって分解され、「検査」されます。ニューラルネットワークの役割は、それが一時停止の標識であるかどうかを結論付けることです。ニューラルネットワークは、すべての重みに基づいて、根拠のある推測、つまり「確率ベクトル」を導き出します。

この例では、システムは次の結果を返す可能性があります: 一時停止標識である確率は 86%、速度制限標識である確率は 7%、木にぶら下がっている凧である確率は 5%、など。次に、ネットワーク構造はニューラルネットワークにその結論が正しいかどうかを伝えます。

この例もかなり高度だと考えられます。最近まで、ニューラルネットワークは AI コミュニティではほとんど忘れられていました。実際、ニューラルネットワークは人工知能の初期の頃から存在していましたが、「知能」への貢献はごくわずかでした。主な問題は、最も基本的なニューラルネットワークでも大量のコンピューティングが必要であり、このコンピューティングの需要を満たすのが難しいことです。

4. ディープラーニング：ニューラルネットワークのエラーの排除

ディープラーニングは人工ニューラルネットワークから派生したものです。これは、トレーニングが必要な大規模なニューラルネットワークを持つ、複数の隠れ層を持つ階層構造です。各層は、問題のさまざまな側面を解決できる機械学習に相当します。この深い非線形ネットワーク構造を使用することで、ディープラーニングは複雑な関数を近似し、入力データの分散表現を表現し、少数のサンプルからデータセットの本質的な特性を学習して確率ベクトルをより収束させる強力な能力を発揮することができます。

簡単に言えば、ディープラーニングニューラルネットワークがデータを処理して学習する方法は、従来のニューラルネットワークよりも人間の脳のニューロンに似ており、より正確です。

一時停止標識認識の例に戻りましょう。ディープラーニングニューラルネットワークは、数百、数千、あるいは数百万の一時停止標識画像から表現データを抽出し、繰り返しトレーニングすることでニューロン入力の重みを調整して精度を高め、霧、晴れ、雨の有無に関係なく、毎回正しい結果を取得します。そうして初めて、ニューラルネットワークが一時停止標識がどのようなものかを正しく学習できたと言えます。

Google の AlphaGo も、まず囲碁の遊び方を学習し、その後、自分自身と継続的に対戦することでニューラルネットワークをトレーニングしました。このトレーニングにより、AlphaGo は 3 か月後に、格付けがより高い李世ドルを破ることに成功しました。

2. ディープラーニングの実装

ディープラーニングは機械学習における最高のダイヤモンドのようなもので、人工知能に明るい未来をもたらします。かつては考えも及ばなかったあらゆる種類のタスクを簡単に達成し、ほぼすべての機械支援機能を可能にしました。

より優れた映画の推薦、スマートウェアラブル、さらには自動運転車や予防医療も、間もなく実現されるか、実現されようとしています。人工知能は今ここにあり、そして明日もある。 C-3POは私が引き取りますので、あなたはターミネーターだけ持っていてください。

しかし、前述したように、ディープラーニングの前身である人工ニューラルネットワークは 30 年近く前から存在していましたが、再び人気が出たのはここ 5 ～ 10 年ほどです。これはなぜでしょうか?

1. 限界を突破する学習アルゴリズム

1990年代には、サポートベクターマシン（SVM）や最大エントロピー法（LR）など、多くの浅い機械学習アルゴリズムが次々と提案され、バックプロパゲーションアルゴリズム（BP）に基づく人工ニューラルネットワークは、その取り返しのつかない欠点のために、徐々に人々の前から消えていきました。 2006 年になってようやく、カナダのトロント大学の教授であり、機械学習分野のリーダーであるジェフリー・ヒントン氏とその学生が、バックプロパゲーションアルゴリズムにおける過剰適合とトレーニングの難しさの問題を解決した論文を Science 誌に発表し、学界と産業界にディープラーニングの波が起こりました。

ディープラーニングの本質は、多くの隠れ層と膨大なトレーニングデータを持つ機械学習モデルを構築することで、より有用な特徴を学習し、最終的に分類や予測の精度を向上させることです。したがって、「ディープモデル」は手段であり、「特徴学習」は目的です。従来の浅い学習とは異なり、深い学習は次の点で異なります。

モデル構造の深さを強調します。通常は 5、6、または 10 層以上の隠しノードを使用します。
特徴学習の重要性が明確に強調されており、つまり、レイヤーごとの特徴変換を通じて元の空間内のサンプルの特徴表現を新しい特徴空間に変換することで、分類や予測が容易になります。

このアルゴリズムの違いにより、トレーニングデータ量と並列コンピューティング機能に対する需要が高まりました。当時はモバイルデバイスがまだ普及していなかったため、非構造化データの収集はそれほど簡単ではありませんでした。

2. 突然のデータの氾濫

ディープラーニングモデルでは、理想的な結果を得るために大量のデータトレーニングが必要です。音声認識の問題を例にとると、音響モデリング部分だけでも、アルゴリズムは数十億から数千億のトレーニングサンプルデータに直面します。トレーニングサンプルの不足により、アルゴリズムの進歩にもかかわらず、人工知能は依然として人工知能アプリケーションの分野で主流のアルゴリズムになっていません。 2012 年になって初めて、世界中に分散したデバイス、マシン、システムが相互接続され、非構造化データの量が大幅に増加し、信頼性が質的に飛躍的に向上し、ビッグデータの時代が到来しました。

ビッグデータとは、どのくらいの規模なのでしょうか。インターネットで生成されるコンテンツは、1 日で DVD 1 億 6,800 万枚分に相当します。電子メールの送信数は 2,940 億通で、これは米国で 2 年間に送られる手紙の数に相当します。コミュニティ投稿の送信数は 200 万件で、これはタイム誌の 770 年間のテキスト量に相当します。携帯電話の販売台数は 378,000 台で、これは世界で毎日生まれる赤ちゃんの数の 371,000 倍に相当します。しかし、音声通話、電子メール、テキストメッセージなどのあらゆるコミュニケーション、およびアップロードされるすべての写真、ビデオ、音楽など、人々が毎日作成するすべての情報でさえ、人々自身の活動に関して毎日作成されるデジタル情報の量に匹敵することはできません。

いわゆる「モノのインターネット」はまだ初期段階にあります。技術が成熟するにつれて、通信機器、交通機関、ウェアラブル技術が相互に接続して通信できるようになり、情報量は飛躍的に増加し続けるでしょう。

3. ハードウェア要件を満たすのが難しい

突然のデータのバーストは、ディープラーニングアルゴリズムのトレーニングデータ量の要件を満たしますが、アルゴリズムの実装には、対応するプロセッサの非常に高い計算速度のサポートも必要です。 X86 や ARM など、現在普及している従来の CPU プロセッサアーキテクチャでは、ニューロンの処理を完了するために数百、あるいは数千もの命令が必要になることがよくあります。しかし、この構造は、プログラム命令はそれほど多くなくても大量のデータ計算を必要とするディープラーニングのコンピューティングニーズには非常に不向きです。特に、現在の消費電力制限では、CPU 周波数を上げて命令の実行速度を上げることは不可能であり、この矛盾はますます解決不可能になりつつあります。ディープラーニングの研究者は、膨大なデータの計算ニーズを満たす代替ハードウェアを緊急に必要としています。

おそらく、いつの日か人工知能専用に設計されたまったく新しいプロセッサアーキテクチャが誕生するでしょうが、それまでの数十年間、人工知能が前進するためには、既存のプロセッサを改良して、高スループットコンピューティングに最適に適応できるコンピューティングアーキテクチャにするしかありません。現在、既存のプロセッサを改良する方法としては、主に次の 2 つがあります。

グラフィックプロセッサの一般化:

グラフィックスプロセッシングユニット (GPU) をベクタープロセッサとして使用します。このアーキテクチャでは、GPU の浮動小数点演算の専門知識が最大限に活用され、並列処理を実行できる汎用コンピューティングチップ GPGPU になります。 NVIDIA は 2006 年後半から関連ハードウェア製品やソフトウェア開発ツールを発売しており、現在は人工知能ハードウェア市場を独占しています。

マルチコアプロセッサの異種性:

GPU や FPGA などの他のプロセッサコアを CPU に統合します。このアーキテクチャでは、CPU コアが苦手とする浮動小数点演算や信号処理は、同じチップに統合された他のプログラマブルコアによって実行されます。GPU と FPGA はどちらも浮動小数点演算を得意としていることで知られています。 AMD と Intel はそれぞれ GPU と FPGA をベースにした異種プロセッサに注力しており、人工知能市場への参入を望んでいます。

3. 既存市場 - 汎用チップGPU

ディープラーニングの分野で最も重要なのはデータとコンピューティングです。より多くのデータを持ち、より速く計算できる者が有利になります。そのため、プロセッサの選択という点では、一般的な基本的なコンピューティングに使用でき、コンピューティング速度が速い GPU が、急速に人工知能コンピューティングの主流チップになりました。ここ数年、特に2015年以降の人工知能の爆発的な成長は、並列コンピューティングをより高速、安価、効率的にしたNVIDIAのGPUの普及によるものだと言えます。

1. GPU とは何ですか?

グラフィックスプロセッシングユニット (GPU) は、もともとパーソナルコンピュータ、ワークステーション、ゲームコンソール、一部のモバイルデバイスでグラフィックス操作を実行するために使用されるマイクロプロセッサであり、画像内のすべてのピクセルを迅速に処理できます。その後、科学者たちは、大量のデータを並行して処理する能力がディープラーニングのニーズと一致することを発見し、それがディープラーニングに初めて導入されました。 2011年、アンドリュー・ン教授が初めてこれをGoogle Brainに適用し、驚くべき結果を達成しました。その結果、12個のNVIDIA GPUが2,000個のCPUに相当するディープラーニングパフォーマンスを提供できることが示されました。その後、ニューヨーク大学、トロント大学、スイス人工知能研究所の研究者がGPU上でディープニューラルネットワークを高速化しました。

2. GPUとCPUの設計上の違い

では、GPU はどのようにして高速コンピューティング機能を実現するのでしょうか? これは、チップの当初の設計目標にまで遡ることができます。中央処理装置（CPU）は、さまざまな種類のデータを処理するための強力な計算能力と、分岐やジャンプに関する論理的判断を行う能力を必要とし、これらすべてがCPUの内部構造を非常に複雑にしています。グラフィックス処理装置（GPU）は当初、互いに独立して非常に均一な種類の大規模なデータと、中断する必要のない純粋なコンピューティング環境に直面していたため、GPUは論理的判断なしで高速計算を実行するだけで済みました。ターゲットコンピューティング環境の違いによって、GPU と CPU の設計アーキテクチャが異なります。

CPUは低レイテンシに基づいて設計されている

大容量のキャッシュスペースキャッシュは、素早いデータ取得に便利です。 CPU はアクセスした大量のデータをキャッシュに保存します。そのデータに再度アクセスする必要がある場合、膨大な量のデータを含むメモリから取り出す必要はなく、キャッシュから直接取り出すことができます。
強力な演算ユニット ALU は、非常に短いクロックサイクルで演算計算を完了できます。今日の CPU は 64 ビットの倍精度を実現でき、倍精度浮動小数点ソース計算、加算、乗算を実行するのに 1 ～ 3 クロックサイクルしかかからず、クロックサイクル周波数は 1.532 ～ 3 ギガヘルツに達します。
プログラムに複数の分岐が含まれている場合に分岐予測を提供することでレイテンシを削減する複雑なロジック制御ユニット。
比較回路ユニットや転送回路ユニットなど、最適化された回路を多数搭載。一部の命令が前の命令の結果に依存する場合、パイプライン内でのこれらの命令の位置を決定し、命令の結果をできるだけ早く後続の命令に転送します。

高スループットを実現するGPUベースの設計

キャッシュスペースを圧縮してメモリスループットを最大化し、非常に長いパイプラインを処理します。キャッシュの目的は、後でアクセスする必要があるデータを保存することではなく、データ転送の役割を果たしてスレッドのサービスを向上させることです。多数のスレッドが同じデータにアクセスする必要がある場合、キャッシュはこれらのアクセスをマージし、DRAM 内のデータにアクセスします。取得されたデータは、キャッシュを介して対応するスレッドに転送されます。この方法ではキャッシュは削減されますが、メモリにアクセスする必要があるため、当然遅延効果が発生します。
効率的な算術演算ユニットと簡素化されたロジック制御ユニットは、シリアルアクセスを複数の単純な並列アクセスに分割し、同時に操作を実行します。たとえば、CPU 上のトランジスタの約 20% がコンピューティングに使用され、GPU 上のトランジスタの 80% がコンピューティングに使用されます。

3. GPUとCPUのパフォーマンスの違い

CPU と GPU はどちらもそれぞれの分野で効率的にタスクを完了できますが、一般的な基本的なコンピューティング分野に適用すると、設計アーキテクチャの違いが 2 つのチップのパフォーマンスの違いに直接つながります。

CPU は、シーケンシャルロジック処理に最適化された複数のコアで構成されるシリアルアーキテクチャを備えており、ロジック制御、シリアル操作、および一般的なタイプのデータ操作に優れています。一方、GPU は、数千のより小型で効率的なコアで構成される大規模な並列コンピューティングアーキテクチャを備えています。ほとんどのトランジスタは、主に制御回路とキャッシュの構築に使用されます。制御回路は比較的単純で、キャッシュの需要はわずかです。実際のコンピューティング作業を完了するために使用されるトランジスタは少数のみです。そのため、ほとんどのトランジスタはさまざまな特殊回路と複数のパイプラインに形成することができ、GPU の計算速度が飛躍的に向上し、浮動小数点演算を処理する能力がより強力になります。これにより、複数のタスク、特に技術的なスキルを必要としない反復的なタスクをより適切に処理できるようになります。

現在トップレベルの CPU には 4 個または 6 個のコアしかなく、8 個または 12 個の処理スレッドをシミュレートして計算を実行しますが、通常レベルの GPU には数百または数千個の処理ユニットが含まれており、ハイエンドの GPU ではさらに多くの処理ユニットが含まれているため、マルチメディアコンピューティングにおける多数の反復処理プロセスで当然有利になります。

一般的な例を挙げると、ベクトル加算プログラムでは、CPU にループを実行させ、各ループで 1 つのコンポーネントを追加したり、GPU で多数のスレッドを同時に開き、各並列スレッドが 1 つのコンポーネントの追加に対応したりすることができます。 CPU がループを実行する場合、各命令に必要な時間は GPU よりも一般的に短くなりますが、GPU は多数のスレッドを起動して並列に実行できるため、SIMD の利点があります。

4. GPU業界のリーダー：Nvidia

現在、NVIDIAは世界のGPU業界の市場シェアの70％以上を占めており、人工知能分野で使われる一般コンピューティング向けのGPU市場は基本的にNVIDIAによって独占されています。

2016年第3四半期、NVIDIAの売上高は20億400万ドルで、前年同期の13億500万ドルから54%増加し、純利益は5億4200万ドルで、前年同期の2億4600万ドルから120%増加した。予想外の売上高増加により、同社の時間外取引株価は約16%急騰した。市場プラットフォーム別に見ると、ゲーム事業は売上高12億4,000万ドルで前年比63%増となり、中核的な利益創出部門となった。データセンター事業は売上高2億4,000万ドルで前年比193%増となり、最も成長の早い部門となった。自動運転事業は売上高1億2,700万ドルで前年比61%増となり、徐々に市場を開拓している。

このような業績は、NVIDIA 史上最高の四半期収益を記録しましたが、これが同社の株価急騰の理由ではありません。実際、NVIDIA の業績は過去 6 年間にわたって基本的に上昇傾向にあります。 2012年度から2016年度にかけて、Nvidiaの営業利益は40億ドルから50億ドルに急増し、純利益は2012年度の5億8,000万ドルから2016年度の6億1,400万ドルへと徐々に増加しました。しかし、この期間中、Nvidia の株価は 2 倍にはなりませんでした。

Nvidia の株価が急騰した本当の理由は、人工知能という新しい市場だった。 2016年にはNvidiaの株価は228%上昇し、過去5年間では500%上昇しました。時価総額が 500 億ドルに達すると、Nvidia は引き続き市場収益の 40 倍の利益を得ることになり、業界で最も高い利益を上げる企業にほぼ相当します。

5. エヌビディアの市場ポジショニング：AIコンピューティング企業

1999年に最初のGPUが発売されて以来、GPUはNVIDIAの最も重要な製品となり、NVIDIAの総営業収益の80%を占め、NVIDIAはグラフィックカードメーカーとしても注目を集めるようになりました。これらのチップはもともとボードの形でゲーマーに販売されており、ゲーマーは 3D グラフィックスの処理速度を高速化するために、自分で PC マザーボードにチップをインストールする必要がありました。また、同社は製品名にも非常にこだわりがあり、「GeForce」など市場を開拓する超能力を持つ言葉を使用しています。

現在、Nvidia は単なるグラフィックカード技術メーカーではなく、トレンドに追随して自らを「人工知能コンピューティング企業」と呼んでいます。 NVIDIA の公式 Web サイトのデータによると、2016 年には 20,000 近くの機関がディープラーニングアクセラレーションコンピューティングに NVIDIA 製品を使用しており、これは 2014 年と比べて 13 倍に増加しています。ヘルスケア、ライフサイエンス、教育、エネルギー、金融、自動車、製造、エンターテインメントなど、多くの業界が膨大な量のデータの分析から恩恵を受けるでしょう。

Google、Microsoft、Facebook、Amazonなどのテクノロジー大手は、データセンターの処理能力を拡大するために大量のNvidiaチップを購入しています。マサチューセッツ総合病院などの医療研究機関は、CTスキャンで病変をマークするためにNvidiaチップを使用しています。テスラは、自動運転を実現するためにすべての車にNvidiaチップを搭載する予定です。Juneなどの家電企業は、AI駆動の家電製品を製造するためにNvidiaチップを使用しています。人工知能の登場以前は、Nvidia がこれほど巨大な市場の中心に立ったことはなく、これは、Nvidia が GPU コンピューティング処理技術において比類のない存在であるという事実を完全に証明していました。

同時に、Nvidia は、ディープラーニングを使用してビジネスを構築する必要のあるさまざまな分野の新興企業にも投資しており、一部のスタートアップ企業が Microsoft Windows を使用してサービスを構築し、最近 iTunes を通じてアプリケーションをリリースしたのと同様に、これらの企業が Nvidia が提供する人工知能プラットフォームをより効果的に活用できるようにしています。

6. Nvidiaの主力製品: Pascalファミリー

Nvidia の伝統的な強みはデスクトップおよびモバイル端末向けの GPU ですが、人工知能に向けて着実に歩みを進めている Nvidia は、もはや単一分野での GPU パフォーマンスの向上だけでは満足できないのは明らかです。従来の計算集約型 GPU 製品と比較して、NVIDIA の取り組みは、GPU チップがアルゴリズムのトレーニングで役割を果たすだけでなく、人工知能サービスの推論ワークロードを処理できるようにすることで、人工知能開発プロセス全体を加速することです。同社の主力製品には現在、Pascal アーキテクチャに基づく Tesla P4 および Tesla P40 ディープラーニングチップがあります。両チップは 2016 年第 4 四半期に量産が開始されました。

テスラP4はデータセンターに最高のエネルギー効率をもたらします

最小 50 ワットの小型で低消費電力設計のため、あらゆるサーバーにインストールでき、生産ワークロード推論のエネルギー効率が CPU の最大 40 倍になります。ビデオ推論ワークロードを実行する場合、1 台のサーバーに 1 台の Tesla P4 をインストールすると、CPU のみのサーバー 13 台を置き換えることができ、サーバーと電力消費を含む総所有コストを最大 8 倍節約できます。

Tesla P40はディープラーニングワークロードに最大のスループットをもたらします

8 基の Tesla P40 アクセラレータを搭載したサーバーは、47 テラフロップスの推論性能と INT8 命令を備え、140 台以上の CPU サーバーのパフォーマンスを置き換えることができます。各 CPU サーバーのコストが約 5,000 ドルの場合、サーバー調達コストを 650,000 ドル以上節約できます。

NVIDIA は、上記 2 つの人工知能チップをベースに、データセンター向けの唯一のエンドツーエンドのディープラーニングプラットフォームを提供し、トレーニング時間を数日から数時間に大幅に短縮することで、データの即時分析とサービスのタイムリーな対応を実現します。

7. Nvidiaのアプリケーションレイアウト：自動運転

基盤となるアーキテクチャだけでなく、NVIDIA はアプリケーションレベルでも非常に明確なレイアウトを持っており、その中でも自動運転が最も重視され、最も優位に立っています。 NVIDIA は、早くも 2014 年 1 月に、スマートフォン、タブレット、自動運転車に適したモバイルプラットフォーム向けに設計された第 1 世代の Tegra シリーズプロセッサをリリースしました。4 か月後には、高速道路での自動運転や高解像度マッピングなどの自動巡航機能を実現できる DRIVE PX 自動運転コンピューティングプラットフォームがリリースされました。同年 10 月には、Tegra K1 プロセッサを搭載し、DRIVEPX コンピューティングプラットフォームを採用した Tesla の新型 Model S の量産が開始され、NVIDIA は自動運転の恩恵を受ける最初のメーカーとなりました。

2016年、NVIDIAは自動運転の分野で大きな進歩を遂げることはなく、基本的には技術のアップグレードとメーカー間の協力にのみ注力しました。古くからの友人であるテスラに加えて、百度とボルボもNVIDIAと協力関係に至りました。これらはすべて、DRIVE PX 2を搭載したスマート運転車を製造する予定です。偶然にも、この時期にはAIの概念が普及し、インテリジェント運転が徐々に成熟していました。これらの客観的な要因により、Nvidiaはより多くの利益を獲得し、注目を集めることができました。

自動運転業界全体を見てみると、Google、Apple、Microsoftなどのテクノロジー企業はいずれも独自の自動車エコシステムを構築しています。しかし、スマートカーは彼らの中核事業ではありません。さらに重要なのは、彼らが自動車サプライチェーンシステムに実際に参入していないことです。一方、NvidiaのDrive PXシリーズの自動運転ソリューションは、自動車の上流サプライチェーンに参入し、利益を生み出している。これは、Nvidiaが自動車チップ市場でIntel、Qualcomm、NXP、ルネサスエレクトロニクスなどのCPU企業と正面衝突することになるという意味でもある。自動運転のトレンドは、Nvidiaを自動車市場の「限界プレーヤー」から挑戦者へと変えた。

テスラモデルSなどの注目度の高いモデルがよりインテリジェントになり、マルチメディアベースになるにつれて、Nvidiaは競合他社を追い抜くチャンスを得て、自動車業界の上流サプライチェーンでより有利な立場を占めることが期待されます。最新のTegraシリーズプロセッサの消費電力はわずか10ワットで、同レベルのFPGA製品の消費電力とほぼ同じかそれ以下です。これは車載モバイルチップにとって大きな利点です。

しかし同時に、単一のモバイルプロセッサのアーキテクチャと極めて低い消費電力では、超大規模コンピューティングをサポートできないことは避けられません。現在、NVIDIAのコンピューティングプラットフォームの機能的位置付けは、高速道路での自動走行にのみ焦点を当てていますが、CPUの応用範囲は、車載エンターテイメント情報システムのレベルまで拡大できます。自動運転の今後の発展方向は、必然的に車両全体の制御センターになります。NVIDIAの現在の主流チップはテスラアーキテクチャに基づいており、低消費電力、超高速コンピューティング、ロジック制御を同時に実現できます。自動運転の分野におけるNVIDIAの優位性は非常に明白です。

8. Nvidiaの産業上の優位性：完全なエコシステム

CUDA を活用した集中的なソフトウェアエコシステムは、Nvidia が他のチップ企業と比較して AI 市場を独占するための重要な要素です。 NVIDIA は 2006 年以来、開発者が画面上のすべてのピクセルを簡単にプログラムできる CUDA と呼ばれるプログラミングツールキットをリリースしています。 CUDA がリリースされる前は、GPU のプログラミングは、各ピクセルをレンダリングするという目標を達成するために大量の低レベルのマシンコードを記述する必要があり、通常、そのようなマイクロコンピューティング操作が数万回必要であったため、プログラマーにとって非常に苦痛な作業でした。 NVIDIA による長年の開発を経て、CUDA は Java や C++ などの高級言語を GPU プログラミングに開放することに成功し、GPU プログラミングをより簡単でシンプルなものにし、研究者がディープラーニングモデルをより迅速かつ安価に開発できるようにしました。

4. 将来の市場: セミカスタマイズFPGA

テクノロジーの世界は新たな方向へ向かっています。人工知能に対する私たちの想像は、もはや画像認識や音声処理に限定されません。機械はより多くの分野で新たな探求を完了するでしょう。分野によってコンピューティング要件が異なるため、ディープラーニングのトレーニングはより専門的かつ差別化されたものになる必要があります。チップの開発動向は、あらゆるサブフィールドで私たちの専門的なニーズをよりよく満たすことになるでしょう。しかし、ハードウェア製品は一度形成されると変更できないことを考えると、ハードウェアでプログラム可能なチップを製造できるかどうか疑問に思わざるを得ません。

つまり、現時点では画像処理に適したハードウェアシステムが必要であり、次の瞬間には科学計算に適したハードウェアシステムが必要になりますが、2 つのボードをはんだ付けする必要はありません。1 つのボードで各アプリケーション分野のさまざまなニーズを満たすことができることを願っています。このボードはセミカスタムチップ FPGA であり、将来の人工知能ハードウェア市場の開発方向です。

1. FPGA とは何ですか?

フィールドプログラマブルゲートアレイ (FPGA) は、ハードウェア言語を使用して回路を記述し、必要なロジック機能に従って回路をすばやく書き込みます。完成した FPGA のロジックブロックと接続は、回路テストボードがチップ内に配置され、FPGA が必要なロジック機能を完了するのと同じように、工場を出た後に設計者のニーズに応じて変更することができます。

FPGA と GPU はどちらも多数のコンピューティングユニットを備えているため、強力なコンピューティング機能を備えています。ニューラルネットワークの計算を実行する場合、どちらも CPU よりもはるかに高速です。ただし、GPU は固定アーキテクチャであるため、ハードウェアがネイティブにサポートする命令も固定されていますが、FPGA はプログラム可能です。プログラム可能性は、ソフトウェア企業やエンドアプリケーション企業が競合他社とは異なるソリューションを提供でき、使用するアルゴリズムに合わせて回路を柔軟に変更できるため、重要です。

2. FPGAとGPUのパフォーマンスの違い

FPGA と GPU はどちらも並列コンピューティングに優れています。どちらが人工知能の優位性を獲得するかは、どちらがより広い応用範囲を持つかではなく、どちらがより優れたパフォーマンスを持つかによって決まります。サーバー側では、ピークパフォーマンス、平均パフォーマンス、エネルギー効率比という 3 つの比較指標があります。もちろん、これら 3 つの指標は相互に影響を及ぼしますが、個別に議論することもできます。

ピークパフォーマンス: GPUはFPGAよりもはるかに高い

GPU 上の何千ものコアが同時に GHz 周波数で動作するのは素晴らしいことです。最新の GPU のピーク性能は 10TFlops を超えることもあります。 GPU アーキテクチャは慎重に設計されています。回路実装は標準セルライブラリに基づいており、クリティカルパスでは手動でカスタマイズされた回路を使用できます。必要に応じて、半導体工場では設計要件に応じてプロセスを微調整し、多数のコアを同時に非常に高い周波数で実行することもできます。

比較的言えば、FPGAの設計リソースは非常に制限されています。たとえば、GPUにコアを追加する場合は、チップ領域を増やす必要がありますが、FPGAモデルが選択されると、ロジックリソースの上限が決定されます。さらに、FPGAのロジックユニットはSRAMルックアップテーブルに基づいており、そのパフォーマンスはGPUの標準ロジック単位よりもはるかに悪いです。最後に、FPGAのルーティングリソースも制限されています。これは、ASICフローを使用して自由にルーティングできるGPUとは異なり、パフォーマンスを制限するGPUとは異なり、長い道のりをルーティングする必要があるためです。

平均パフォーマンス：GPUはFPGAより劣っています

FPGAは、特定のアプリケーションに応じてハードウェアをプログラムできます。アプリケーションには多くの追加操作が含まれている場合、ADDERを実装するために大量のロジックリソースを使用できます。

現在、ほとんどの機械学習はSIMDアーキテクチャを使用しています。つまり、大量のデータを並行して処理するために必要な命令は1つだけであるため、GPUは非常に適しています。ただし、一部のアプリケーションはMISDです。つまり、多くの指示を使用して、MISDアーキテクチャを作成するために多くの指示を使用して、単一のデータを並行して処理する必要があります。

したがって、平均パフォーマンスのために、FPGAアクセラレータアーキテクチャの利点がランニング速度の欠点を補うことができるかどうかを確認する必要があります。 FPGAのアーキテクチャの最適化がGPUアーキテクチャよりも2〜3桁の利点をもたらすことができる場合、FPGAは平均してGPUを上回ります。

電力効率比：

消費電力に関しては、GPUの消費電力はFPGAの消費電力よりもはるかに大きいですが、消費電力を比較する場合、実行効率が同じ場合に必要な消費電力を比較する必要があります。 FPGAアーキテクチャを非常に適切に最適化できるため、FPGAの平均パフォーマンスがGPUのパフォーマンスに近い場合、FPGA溶液の総電力消費量はGPUのそれよりもはるかに低くなり、熱散逸問題は大幅に軽減できます。それどころか、GPUの平均パフォーマンスを達成するために20のFPGAが必要な場合、FPGAは電力消費に関して利点はありません。

エネルギー効率の比較は、エネルギー効率を指します。エネルギーは、プログラムの実行を完了するために消費され、エネルギー消費はプログラムの実行時間を掛けたものに等しくなります。 GPUの消費量はFPGAの消費量よりもはるかに大きいが、FPGAが同じプログラムを実行するのに必要な時間がGPUのそれよりも数十倍長い場合、FPGAはエネルギー効率で有利ではない場合、FPGAに実装されている場合は、特定の習得に最適化されている場合は、その後の適用が必要であることが最適化されています。 GPU、その後、FPGAのエネルギー効率はGPUのエネルギー効率よりも優れています。

3。FPGA市場の見通し

科学技術の進歩により、製造業はより高いレベルの自動化とインテリジェンスに向かっています。将来の産業製造技術などの分野では、新しい需要が絶えず生成されます。現在、優れたアプリケーションの見通しを持つ2つの領域があります。

産業用インターネット

製造業の将来の開発の方向性、産業用ビッグデータ、クラウドコンピューティングプラットフォーム、MESシステムなどはすべて、大量のデータの複雑な処理を完了するために必要な重要なプラットフォームです。

産業用ロボット機器フィールド

FPGAは、柔軟で統合されているため、多軸動作の正確な制御、リアルタイム同期接続、および機器の多機能統合の観点から、設計上の利点をよりよく実証できます。たとえば、Automotive Adasでは、人工知能の観点から、リアルタイムの高解像度画像のタイムリーな分析、識別、処理が必要です。

4。FPGA既存の市場

FPGA市場には魅力的な見通しがありますが、チップ業界ではしきい値は比類のないものです。 Intel、IBM、Texas Instruments、Motorola、Philips、Toshiba、Samsungなどの業界の巨人を含む、世界中の60社以上の企業がFPGAのトップに到達するために、数十億ドルを投資しました。一緒に、これらの2社は市場シェアのほぼ90％を保有しており、6,000を超える特許を取得しています。

2015年6月、Intelは当時の前例のない167億ドルのためにAlteraを買収しました。Intelの動きは、主にサーバーとモノの市場でのレイアウトに焦点を当てていました。しかし今では、おそらくこの買収は人工知能の分野でもかなりの可能性を持っているようです。

5。FPGA業界の先駆者

IntelはFPGAを通じてAIハードウェア市場に参入できますか？近年、Intelの中核的な利益を上げるビジネスであるCPUは、PC市場の成長の減速、モバイル市場への参入の試みの失敗、ムーアの法律が徐々にその限界に近づいているという3つの要因に同時に見られました。 CPUを販売するだけでお金を稼ぐことは確かに可能ですが、ハイエンドチップを開発し、リーダーとして自分自身を確立することによってのみ、より多くのお金を稼ぎ、会社の開発をサポートできます。

上記の3つの要因の同時発生により、IntelはCPUビジネスに焦点を合わせ続けると、実際には大きな危機に直面していることに気付きました。

したがって、インテルは次の深い学習トレンドを見逃さないことを熱望していますが、独自の最先端の人工知能研究が欠けているため、過去2年間に必死に獲得しています。 2015年に、IntelはFPGAメーカーAlteraを買収するために前例のない167億ドルを費やし、2016年に人工知能チップスタートアップNervanaとMovidiusを買収しました。インテルは現在、それらをまとめようとしています。

6。Intelの製品レイアウト

Intelは、FPGAテクノロジーの開発に貢献しないためにAlteraを獲得するために多額のお金を費やしましたが、それどころか、FPGAテクノロジーがIntelの開発に貢献することを望んでいます。これは、現在の離散CPUチップ +ディスクリートFPGAアクセラレーションチップから同じパッケージのCPUチップ + FPGAチップへ、そして最後に統合されたCPU + FPGAチップへのテクノロジーロードマップに反映されています。離散デバイスのパフォーマンスはわずかに低いものの、柔軟性が高いため、これらの製品フォームは長い間共存することが予想されます。

Intelの製品レイアウトを人工知能用の製品レイアウトを次のレイヤーに分割するだけの場合：

Xeon Phi+ Nervana：クラウドの上位レベルでの高性能コンピューティング用。
Xeon+FPGA：クラウドミドルレイヤー/フロントエンドデバイスでの低電力パフォーマンスコンピューティングに使用されます。

Intelの次世代FPGAとSOC FPGAは、次のようにIntel Architectureの統合をサポートしますCon Mesaは、クラウドと加速、Terbitシステム、高速信号処理にIntel 10nmプロセステクノロジーを使用しています。

Core（GT）：消費者グレードのフロントエンドデバイスのパフォーマンスコンピューティングとグラフィックスアクセラレーションに使用されます。
Euclid：開発者/メーカーに提供される開発委員会、Atom Low-Powerプロセッサ、RealSenseカメラモジュール、およびインターフェイスを統合し、ドローンと小さなロボットのコア開発コンポーネントとして使用できます。
キュリー：開発者/メーカーに提供されるモジュール。クォークSEシステムチップ、Bluetooth低電力ラジオ、加速度計、ジャイロスコープ、その他のセンサーを備えたモジュールは、低電力ウェアラブルデバイスのコアコンポーネントとして使用できます。

製品ラインから、CPUとFPGAを含む不均一なコンピューティングプロセッサがIntelの収益性の焦点となります。 2020年までに、IntelのクラウドデータセンターノードはFPGAテクノロジーを採用します。

7。インテルの問題点：不適切な生態学

GPUに対するFPGAの可能性は、GPUのコンピューティング速度に匹敵するコンピューティング速度にありますが、コストと消費電力の点でGPUよりも大きな利点があります。もちろん、欠点はありますが、FPGAの可能性は非常に明白です。市場に紹介されたい商品として、FPGAが克服する必要があり、人気の程度である最も重要な問題です。

ほとんどのPCには、実際にはハイエンドまたはローエンドの独立したGPUが装備されています。ただし、FPGAはコンピューターで見つけることができるものではありませんが、冷蔵庫、テレビなどのさまざまな電気機器や研究所でより一般的であるため、実際には、深い学習を開発するために使用できるFPGAを取得することは非常に厄介です。それだけでなく、FPGAの人気の欠如は、次の3つの側面にも反映されています。

OpenCLプログラミングプラットフォームは広く使用されていません

GPUにさまざまな欠点がある場合でも、簡単に交換することはできません。ディープラーニングアプリケーション開発ツールの観点から見ると、CUDAサポートのGPUは、CaffeやTheanoなどの研究ツールを学習するための優れた入門プラットフォームをユーザーに提供します。 2006年のCUDAの発売以来、5億人以上のラップトップ、ワークステーション、コンピューティングクラスター、スーパーコンピューターがCUDA対応GPUをインストールしています。

FPGAがディープラーニング市場を獲得したい場合、産業チェーンの下流のプログラミングプラットフォームは不可欠です。不均一なハードウェアプログラミングのための最も人気のある代替ツールはOPENCLです。単一のCUDAサプライヤーの実践とは異なり、OpenCLは、開発者がオープンソースで無料で存在するための重要な競争力です。しかし、現在、それが受けたサポートはCUDAよりもわずかに劣っています。

ハードウェアプログラミングの実装が難しい

ソフトウェアプログラミングの人気の欠如に加えて、FPGAを開発するために上位レベルのプログラミング言語を好む研究者やアプリケーション科学者を引き付けることは特に困難です。 1つのソフトウェア言語を流fluentに使用できることは、多くの場合、別のソフトウェア言語を簡単に学習できることを意味しますが、これはハードウェア言語翻訳スキルの場合ではありません。 FPGAで最も一般的に使用される言語は、VerilogとVHDLであり、どちらもハードウェア説明言語（HDL）です。これらの言語と従来のソフトウェア言語の主な違いは、HDLがハードウェアを単純に説明しているのに対し、Cなどのソフトウェア言語は、ハードウェアレベルでの実行の詳細を理解せずに順次命令を説明することです。

ハードウェアを効果的に説明するには、デジタル設計と回路の専門知識が必要です。したがって、研究者と応用科学者は、すでに非常に成熟しており、プログラマーの効率を向上させるために多くの抽象的で便利な分類があるため、ソフトウェア設計を選択する傾向があります。

展開プロセスでは、複雑なスイートのカスタマイズが必要です

FPGAには、ソフトウェアおよびハードウェアプログラミングプラットフォームだけでなく、展開プロセスにも反映される完全で複雑なエコシステムが必要です。インストールプロセス中、FPGAは、異なるIPコアの一連の複雑なツールスイートをカスタマイズする必要があります。したがって、埋め込まれたFPGAの概念は良好ですが、それを開発することは非常に深刻な課題に直面します。

8。インテルの利点

FPGAは、Googleのようなスーパーメーカーがまだ特別なチップを開発することを好むと言われています。現在、Nvidiaはこの市場で支配的なプレーヤーであり、Intelは強く入る機会がないかもしれません。 Nvidiaと比較して、Intelには2つの明らかな利点があります。

CPUに精通しています

Nvidiaは現在の人工知能市場でほぼ唯一のものですが、Nvidiaのチップはそれ自体で深い学習トレーニングを完了することができません。言い換えれば、NvidiaのGPUチップはそれらのIntelのCPUを置き換えるのに十分ではなく、ほとんどの環境では、これらのプロセッサを当面のみ加速することができます。したがって、GPGPUは当面の概念であり、GPUはほとんどの複雑なコンピューティング環境でCPUを置き換えるのに十分ではありません。 CPUに精通しているという点では、Intelを超えるCHIPメーカーは、FPGAとCPUを装備した不均一なプロセッサがマルチコア補完を実現できる最も可能性の高いCHIP会社です。

クラウドコンピューティングに関与しています

アルゴリズムのトレーニングは、消費者がいつでも最高のエクスペリエンスサービスを提供できるように、アプリケーションプロセス全体を実行する必要があります。ただし、すべてのアルゴリズムがローカルトレーニングに集中している場合、ボトルネックの計算の問題に直面するだけでなく、単一のユーザーから収集された少なすぎるデータの恥ずかしさに直面します。結局のところ、将来的に存在する可能性のある小さなサンプルに基づくAIを考慮しません。これにより、コミュニケーションに対する非常に高い要求があり、Intelはたまたまこの分野で多くの蓄積を持っています。 Intelの通信部門は何年もの間お金を失ってきましたが、現在の状況の下では、予想外に新しい価値と可能性があります。

<<: データ分析機械学習タイタニック号事件 - 裁判

>>: AGVロボットマルチエージェント経路探索の4つの主要な研究方向