この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。 ディープラーニングの誕生は 1958 年にまで遡ります。 その年、当時コーネル大学航空研究所の研究心理学者兼プロジェクトエンジニアだったフランク・ローゼンブラットは、脳内のニューロン間の相互接続にヒントを得て、最初の人工ニューラルネットワークを設計した。彼はこれを「パターン認識装置」と呼んだ。 装置が完成すると、巨大なIBM 704コンピューターに組み入れられ、50回の実験を経て、マークが左にあるカードと右にあるカードを自動的に区別できるようになりました。これはフランク・ローゼンブラットにとって嬉しい驚きでした。彼は次のように書いています。 「人間の特性を備えた機械を創り出す能力は、SFでは常に人気のテーマであり、人間の制御なしに周囲の状況を感知し認識できる機械が登場する寸前だ。」 図1: パーセプトロンの動作原理 しかし同時に、フランク・ローゼンブラットは、当時のコンピュータの能力ではニューラル ネットワークの計算要件を満たすことができないことも十分に認識していました。彼はその独創的な著作の中で、「ニューラル ネットワークの接続数が増え続けるにつれて、従来のデジタル コンピューターにかかる負担はますます重くなるだろう」と嘆いた。
キャプション: フランク・ローゼンブラット。 2004年、IEEEは「IEEEフランク・ローゼンブラット賞」を設立し、 幸いなことに、数十年にわたる開発の後、ムーアの法則と他のコンピュータ ハードウェアの改善のサポートにより、コンピュータの計算能力は質的に飛躍し、1 秒あたりに実行できる計算量は 1,000 万倍に増加し、人工ニューラル ネットワークにさらなる開発の余地が生まれました。コンピュータの強力な計算能力のおかげで、ニューラル ネットワークはより多くの接続とニューロンを持ち、複雑な現象をモデル化する能力が向上しました。この時点で、人工ニューラル ネットワークはニューロンの層をさらに追加します。これが「ディープラーニング」と呼ばれるものです。 現在、ディープラーニングは、言語翻訳、タンパク質の折り畳みの予測、医療スキャンの分析、囲碁のプレイなどのタスクで広く使用されています。これらのアプリケーションにおけるニューラル ネットワークの成功により、ディープラーニングは無名の技術から今日のコンピューター サイエンスの主要分野へと変化しました。 しかし、今日のニューラル ネットワーク/ディープラーニングは、数十年前と同じ開発上のボトルネック、つまり計算能力の限界に直面しているようです。 最近、IEEE Spectrum はディープラーニングの将来の発展について議論した論文を発表しました。なぜ今日、コンピューティング能力がディープラーニングのボトルネックになっているのでしょうか?考えられる対応策は何でしょうか?コンピューティング リソースの制限が解決できない場合、ディープラーニングはどこに向かうべきでしょうか? 1. コンピューティングパワー:祝福か災いか ディープラーニングは現代の人工知能の主流として歓迎されています。初期の AI システムはルールベースで、ロジックと専門知識を適用して結果を推測していました。その後、AI システムは調整可能なパラメータを設定するために学習に依存しましたが、パラメータの数は限られているのが一般的でした。 今日のニューラル ネットワークはパラメータ値も学習しますが、これらのパラメータはコンピュータ モデルの一部です。パラメータが十分に大きい場合、あらゆるタイプのデータに適合できる汎用関数近似値になります。この柔軟性により、ディープラーニングをさまざまな分野に適用できるようになります。 ニューラル ネットワークの柔軟性は、モデルに多くの入力を供給し、それらをさまざまな方法で組み合わせることができることから生まれます。これは、ニューラル ネットワークの出力が、単純な数式ではなく複雑な数式の適用から得られることを意味します。つまり、ニューラルネットワークに必要な計算量は非常に大きく、コンピュータに求められる計算能力も極めて高いのです。 たとえば、Noisy Student(画像認識システム)は、4億8000万のパラメータを持つニューラルネットワークを使用して、画像のピクセル値を画像内のオブジェクトの確率に変換します。これほど多数のパラメータの値を決定するために必要なトレーニングはさらに驚くべきもので、このトレーニング プロセスはわずか 120 万枚のラベル付き画像を使用して実行されました。高校の代数学を考えると、方程式は多くなり、未知数は少なくなると予想されます。しかし、ディープラーニング手法では、未知の要素を特定することが問題を解決する鍵となります。 ディープラーニング モデルは過剰にパラメータ化されており、トレーニングに使用できるデータ ポイントよりも多くのパラメータがあります。一般的に、過剰パラメータ化は過剰適合にもつながり、モデルは一般的な傾向だけでなく、トレーニング データ内のランダムな変動も学習することになります。過剰適合を回避するために、ディープラーニングのアプローチでは、パラメータをランダムに初期化し、確率的勾配降下法を使用してパラメータ セットを反復的に調整し、データに適合させます。実験により、この方法により学習したモデルが優れた一般化能力を持つことが保証されることが示されました。 ディープラーニング モデルの成功は機械翻訳に見て取れます。何十年もの間、人々はコンピュータ ソフトウェアを使用して、言語 A から言語 B にテキストを翻訳してきました。初期の機械翻訳方法では、言語学の専門家によって設計された規則が使用されていました。しかし、ある言語で利用できるテキスト データがますます増えるにつれて、最大エントロピー、隠れマルコフ モデル、条件付きランダム フィールドなどの統計的手法が徐々に機械翻訳に適用されるようになっています。 最初に、さまざまな言語に対する各方法の有効性は、データの可用性と言語の文法特性によって決まります。たとえば、ウルドゥー語、アラビア語、マレー語などの言語を翻訳する場合、ルールベースのアプローチは統計的手法よりも優れています。しかし現在、これらの方法はすべてディープラーニングによって凌駕されています。ディープラーニングが関与したほぼすべての分野で、この機械学習手法の優位性が実証されています。 一方で、ディープラーニングは優れた柔軟性を備えていますが、他方では、この柔軟性は膨大な計算コストに基づいています。 下の図に示すように、既存の研究によれば、2025 年までに、ImageNet データセット内のターゲット オブジェクトを識別するように設計された最良のディープラーニング システムのエラー レベルはわずか 5% にまで削減されるはずです。 しかし、このようなシステムをトレーニングするために必要な計算リソースとエネルギー消費は膨大で、ニューヨーク市が 1 か月に排出する二酸化炭素とほぼ同じ量の二酸化炭素を排出します。 計算コストの増加は、主に次の 2 つの理由によるものです: 1) パフォーマンスを k 倍向上させるには、少なくとも k の 2 乗以上のデータ ポイントがモデルをトレーニングするために必要となること、2) 過剰パラメータ化現象。過剰パラメータ化を考慮すると、改善されたモデルの総計算コストは少なくとも k の 4 乗になります。この指数関数の小さな「4」は非常に高価です。10 倍の改善には、少なくとも 10,000 倍の計算能力の増加が必要です。 柔軟性と計算要件のバランスを見つけるには、患者の X 線写真から癌があるかどうかを予測するシナリオを検討してください。さらに、X 線で 100 個の詳細 (「変数」または「特徴」と呼ばれる) を測定した場合にのみ正しい答えを見つけることができると仮定します。この時点で、どの変数が重要であるかを事前に判断することはできず、同時に、多数の候補変数から選択する必要があるという課題が生じます。 専門知識に基づくシステムは、放射線学や腫瘍学のバックグラウンドを持つ人々が重要と思われる変数を特定し、システムがそれらの変数のみをチェックするようにすることで、この問題を解決します。柔軟なディープラーニングのアプローチでは、できるだけ多くの変数をテストし、どの変数が重要かをシステムに判断させますが、これにはより多くのデータが必要になり、計算コストが高くなります。 専門家が事前に重要な変数を特定したモデルでは、それらの変数の最適な値をすばやく学習でき、必要な計算量はわずかです。そのため、専門家による方法 (シンボリシズム) は初期に非常に人気がありました。しかし、専門家がモデルに含めるべきすべての変数に正しくラベルを付けないと、モデルの学習能力は停滞してしまいます。 対照的に、ディープラーニングのような柔軟なモデルは効率が低く、エキスパートモデルのパフォーマンスに匹敵するにはより多くの計算が必要ですが、十分な計算 (およびデータ) があれば、柔軟なモデルはエキスパートモデルを上回るパフォーマンスを発揮できます。 当然のことながら、より多くの計算能力を使用してより大きなモデルを構築し、より多くのデータでモデルをトレーニングすれば、ディープラーニングのパフォーマンスを向上させることができます。しかし、この計算負荷はどれくらいコストがかかるのでしょうか?コストが高すぎて進歩が妨げられるでしょうか?これらの問題はまだ検討されていない。 2. ディープラーニングの計算消費 これらの疑問にさらに具体的に答えるために、MIT、韓国の延世大学、ブラジリア大学の研究チーム(以下、「チーム」)が協力して、ディープラーニングに関する1,000件以上の論文からデータを収集し、画像分類におけるディープラーニングの応用について詳細な議論を行いました。 論文アドレス: https://arxiv.org/pdf/2007.05558.pdf ここ数年、画像分類エラーを減らすために計算負荷が増加しています。たとえば、2012 年に AlexNet モデルは、グラフィックス プロセッシング ユニット (GPU) 上でディープラーニング システムをトレーニングできることを初めて実証しました。AlexNet だけでも、2 つの GPU を使用してトレーニングするのに 5 ~ 6 日かかりました。 2018 年までに、NASNet-A は AlexNet のエラー率を半分に削減しましたが、このパフォーマンスの向上は 1,000 倍以上の計算コストを伴いました。 理論的には、モデルのパフォーマンスを向上させるには、コンピューターの計算能力が少なくともモデルの改善の 4 乗を満たす必要があります。しかし、現実には、計算能力を少なくとも 9 乗に増やす必要があります。この 9 の累乗は、エラー率を半分に減らすには、500 倍のコンピューティング リソースが必要になる可能性があることを意味します。 これは支払うべき壊滅的な代償です。しかし、状況はそれほど悪くないかもしれません。実際の計算能力要件と理想的な計算能力要件のギャップは、ディープラーニングの効率を大幅に向上できる、まだ発見されていないアルゴリズムの改善点があることを意味している可能性があります。 研究チームは、ムーアの法則やその他のハードウェアの進歩によりチップの性能が大幅に向上したと指摘した。これは、コンピューティング要件のアップグレードは無関係であることを意味しますか?残念ながら、答えはノーです。 AlexNet と NASNet-A が使用するコンピューティング リソースは 1000 異なりますが、ハードウェアの改善による改善は 6 倍のみで、残りはプロセッサの増加や実行時間の増加によるもので、コンピューティング コストの上昇につながります。 チームは、画像認識の計算コストとパフォーマンス曲線を推定することで、将来的に優れたパフォーマンスベンチマークに到達するためにどれだけの計算が必要になるかを推定しました。彼らは、エラー率を 5% 削減するには、1019 億回の浮動小数点演算が必要になると推定しました。 2019年、マサチューセッツ大学アマースト校のチームが「NLPにおけるディープラーニングのエネルギーと政策の考慮事項」と題する研究論文を発表し、計算負荷の背後にある経済的および環境的コストを初めて明らかにし、当時大きなセンセーションを巻き起こしました。 論文アドレス: https://arxiv.org/pdf/1906.02243.pdf ディープマインドは以前、囲碁をプレイするためのディープラーニングシステムのトレーニングに約3,500万ドルを費やしたことも明らかにした。 Open AI も GPT-3 のトレーニングに 400 万ドル以上を費やしました。その後、DeepMind が StarCraft 2 をプレイするシステムを設計していたとき、トレーニング コストが高すぎるため、重要なコンポーネントを構築するために複数のアプローチを試すことを特に避けました。 テクノロジー企業に加えて、他の機関もディープラーニングの計算コストを考慮し始めています。ヨーロッパの大手スーパーマーケットチェーンは最近、ディープラーニングに基づくシステムを廃止した。このシステムにより、スーパーマーケットがどの商品を買うべきかを予測する能力が大幅に向上するはずだったが、会社の幹部は、システムのトレーニングと運用には費用がかかりすぎると判断し、この試みを断念した。 経済コストと環境コストの上昇に直面して、ディープラーニングの研究者は、コンピューティング要件の急増を引き起こすことなくパフォーマンスを向上させる完璧な方法を見つける必要があります。そうでなければ、ディープラーニングの開発は停止してしまう可能性が高いでしょう。 3. 既存のソリューション この問題に対して、ディープラーニング分野の研究者もこの課題解決に取り組んでいます。 既存の戦略の 1 つは、効率的なディープラーニング計算用に設計されたプロセッサを使用することです。このアプローチは、CPU が GPU に取って代わられ、場合によっては CPU が特定のアプリケーション向けに設計されたフィールド プログラマブル ゲート アレイや IC (Google の TPU を含む) に取って代わられるにつれて、過去 10 年間にわたって広く使用されてきました。 基本的に、これらの方法では、特定の種類の問題を処理する効率を向上させるために、コンピューティング プラットフォームの汎用性が犠牲になります。しかし、この専門化は収益減少の問題にも直面しています。したがって、長期的な利益を得るには、アナログ、ニューロモルフィック、フォトニック、量子システムに基づくハードウェアなど、まったく異なるハードウェア フレームワークを採用する必要があります。しかし、これまでのところ、これらのハードウェア フレームワークはいずれも大きな影響を与えていません。 計算負荷を軽減するもう 1 つの方法は、実行時に小さいニューラル ネットワークを生成することです。この戦略により、使用あたりのコストは削減されますが、一般的にトレーニング コストは増加します。使用コストとトレーニング コストのどちらがより重要かは、具体的な状況によって異なります。広く使用されているモデルの場合、運用コストが総投資額の最大の割合を占めます。頻繁に再トレーニングが必要なモデルなど、他のモデルの場合、トレーニング コストが支配的になる可能性があります。どちらの場合でも、総コストはトレーニング コストよりも大きくなければなりません。したがって、トレーニングコストが高すぎると、全体のコストも高くなります。そうは言っても、2 番目の戦略 (ニューラル ネットワークのサイズを縮小する) の課題は、トレーニングのコストが十分に削減されないことです。 たとえば、あるアプローチでは、トレーニング中の複雑さを軽減することで大規模なネットワークのトレーニングが可能になりますが、別のアプローチでは、大規模なネットワークをトレーニングしてから、不要な接続を「削除」します。ただし、2 番目のアプローチは、複数のモデルにわたって最適化することで、可能な限り最も効率的なアーキテクチャを見つけることであり、これは「ニューラル アーキテクチャ検索」と呼ばれます。これらのアプローチはいずれもニューラル ネットワークの動作を大幅に改善できますが、いずれもトレーニングに大きな影響を与えず、データに見られる問題を解決するには不十分です。ただし、ほとんどの場合、トレーニングのコストが増加します。 トレーニングコストを削減できる「メタ学習」と呼ばれる新しい技術があります。メタ学習の考え方は、システムがさまざまなデータから同時に学習し、それを複数の分野に適用するというものです。たとえば、画像内の犬、猫、車を認識するために個別のシステムを構築する代わりに、メタ学習では、犬、猫、車を含む画像内のすべてのオブジェクトを認識するように 1 つのシステムをトレーニングし、複数回使用できます。 しかし、MITの研究科学者アンドレイ・バルブ氏とその協力者は、2019年に「Objectnet: オブジェクト認識モデルの限界を押し上げるための大規模なバイアス制御データセット」という論文を発表し、メタ学習の難しさを明らかにしました。元のデータとアプリケーション シナリオの間にわずかなギャップがあっても、モデル (Objectnet) のパフォーマンスが著しく低下することがわかりました。彼らの研究は、現在の画像認識システムが、物体が特定の角度で撮影されているか、特定のポーズで撮影されているかに大きく依存していることを示しています。そのため、異なるポーズで撮影された同じ物体を認識する場合でも、システムの精度はほぼ半分になる可能性があります。 カリフォルニア大学バークレー校の准教授ベンジャミン・レヒト氏らも、「イメージネット分類器はイメージネットに一般化できるか?」(2019年)の中で、次のように明確に述べています。「特別に構築された新しいデータセットを使用して元のトレーニングデータを模倣したとしても、モデルのパフォーマンスは10%以上低下します。」データの小さな変更がパフォーマンスの大きな低下につながる場合、メタ学習システム全体に必要なデータが非常に大きくなる可能性があります。したがって、メタ学習の可能性はまだ実現されていません。ライフォン ディープラーニングの計算上の限界から逃れるためのもう 1 つの戦略は、まだ発見または評価されていない可能性のある他の種類の機械学習に目を向けることです。前述のように、専門家の洞察に基づいて構築された機械学習システムは計算効率が高くなりますが、専門家がすべての影響要因を区別できない場合、専門家モデルはディープラーニング システムと同じレベルのパフォーマンスを発揮しません。同時に、研究者たちは、専門知識と推論をニューラル ネットワークの柔軟性と組み合わせるニューロシンボリック法やその他の技術を開発しています。ライフォン しかし、こうした取り組みはまだ継続中です。 Leifeng.com (公式アカウント: Leifeng.com) フランク・ローゼンブラットがニューラルネットワークの初期に課題に直面したのと同じように、ディープラーニングは現在、利用可能な計算ツールによって制限されています。コンピューティング能力の向上によってもたらされる可能性のある経済的および環境的負担に直面して、私たちに残された選択肢は、ディープラーニングのやり方を調整するか、ディープラーニングが停滞する未来に直面するかのどちらかです。 それに比べると、ディープラーニングのチューニングがより望ましいことは明らかです。 ディープラーニングをより効率的にする方法を見つけたり、コンピューターのハードウェアをより強力にしたりできれば、これらのより柔軟なディープラーニング モデルを引き続き使用できるようになります。計算上のボトルネックを突破できない場合は、おそらく記号の時代に戻り、モデルが学習する必要があるものを決定するために専門知識に頼らなければならないでしょう。 |
<<: Hinton チームの新しい CV 研究: ターゲット検出に言語モデルを使用、DETR に匹敵するパフォーマンス
>>: 最も偽のGANモデル! Facebook、史上最強の移行機能を備えたIC-GANをリリース
2020 年にどのディープラーニング フレームワークを選択すべきでしょうか?今、新たな選択肢がありま...
生成 AI の流行は、昨年の ChatGPT の登場から始まりました。わずか 1 年で、このテクノロ...
米国に拠点を置く顔認識企業 Clearview Ai は、最も包括的な顔認識システムを有していると主...
OpenAI の侵害を調査し、AI 企業 SSC のハッキングの可能性とその影響の可能性を推測します...
ビデオ会議 264 ビデオ圧縮 - SVC H.264 には、階層化されたエンコードを可能にする S...
前回の記事「自動運転車に「道路を認識」させる方法」では、主に自動運転車における高精度地図の重要性につ...
無線通信ネットワークの発展に伴い、今後のネットワークは周波数帯域やネットワーク構成の面でより複雑化し...
人工知能の急速な発展により、「ブラックテクノロジー」という言葉が人々の心に深く根付いている。目もくら...
【AI世代編集部注】顔認識は今年、CCTVの315ガラで痛烈に批判された。この技術は人々が安心して...
現代のティーンエイジャーにとってクールなものは何でしょうか?おそらくそれは AJ シューズを履くこと...
5月25日、英国の人工知能企業Facultyは、Apax Digital Fund(ADF)が主導す...
すべての分野の中で、人工知能は製造業に最も大きな影響を与えており、この変革はまだ始まったばかりです。...
ステージ上の1分、ステージ外の10年間の努力。ボストン・ダイナミクスのロボット「アトラス」は新たなス...