この段階で注力すべき人工知能の6つの分野

この段階で注力すべき人工知能の6つの分野

現段階では、人工知能の一般的に受け入れられている定義については多くの議論があります。人工知能を「認知コンピューティング」または「機械知能」と考える人もいますが、一方で「機械学習」の概念と混同する人もいます。しかし、AIは特定の技術ではなく、実際にはロボット工学や機械学習など複数の分野からなる広範な分野です。人工知能の究極の目標は、機械が人間に代わって認知能力を必要とするタスクを完了できるようにすることです。この目標を達成するには、マシンはプログラマーが記述したコマンドを単に実行するだけでなく、自律的に機能を学習する必要があります。

[[258363]]

人工知能は、自動運転車、音声認識、音声合成など、過去 10 年間で驚異的な進歩を遂げました。このような背景から、同僚や家族との何気ない会話の中に人工知能の話題が頻繁に登場するようになり、人工知能技術は人々の生活の隅々まで浸透しています。同時に、大衆メディアは人工知能とテクノロジーの巨人についてほぼ毎日報道し、人工知能分野における彼らの長期戦略を紹介しています。一部の投資家や起業家は、この新しい分野からどのように価値を引き出すかを理解することに熱心ですが、ほとんどの人は、AI が具体的に何を変えるのかについてまだ頭を悩ませています。さらに、政府も自動化が社会に与える影響に取り組んでいます(オバマ大統領の退任演説を参照)。

その中でも、人工知能の6つの主要分野は、将来的にデジタル製品やデジタルサービスに重要な影響を及ぼす可能性があります。著者は、これら 6 つの方向性を 1 つずつ列挙し、その重要性、現在の適用シナリオを説明し、それらを使用している企業や研究機関をリストアップしています。

強化学習

強化学習は、人間が新しいスキルを学習するプロセスにヒントを得た、試行錯誤を通じて学習する方法です。典型的な強化学習のケースでは、エージェントは現在の状態を観察し、長期的な報酬の結果を最大化するためのアクションを実行します。エージェントはアクションを実行するたびに環境からフィードバックを受け取り、アクションの効果がプラスであったかマイナスであったかを判断できます。このプロセスでは、エージェントは、最終目標を達成するために、経験に基づいて最善の戦略を見つけることと、新しい戦略を模索することのバランスを取る必要があります。

Google の DeepMind チームは、Atari ゲームと囲碁競技の両方で強化学習技術を使用しました。実際のシナリオでは、強化学習は Google データセンターのエネルギー効率を向上させるために使用されています。強化学習技術により、この冷却システムのエネルギー消費量が約 40% 削減されます。強化学習には非常に重要な利点があります。それは、強化学習のエージェントが低コストで大量のトレーニング データをシミュレートして生成できることです。教師ありディープラーニングタスクと比較すると、この利点は非常に明白であり、手動でデータをラベル付けするコストを大幅に節約できます。

用途: 都市道路での自動運転、3 次元環境でのナビゲーション、同一環境内での複数エージェントの相互作用と学習など。

生成モデル

分類および回帰タスクを実行するために使用される識別モデルとは異なり、生成モデルはトレーニング サンプルから確率分布を学習します。高次元分布からサンプリングすることにより、生成モデルはトレーニング サンプルに類似した新しいサンプルを出力します。これは、生成モデルのトレーニング データが顔の画像のセットである場合、トレーニング後に取得されたモデルも顔に類似した合成画像を出力できることを意味します。詳細については、Ian Goodfellow の記事を参照してください。彼が提案した生成的敵対的モデル (GAN) 構造は、教師なし学習に新しいアイデアを提供するため、現在、学術界で非常に人気があります。 GAN 構造では、2 つのニューラル ネットワークが使用されます。1 つは、ランダムに入力されたノイズ データを新しいコンテンツ (合成画像など) に合成する役割を担うジェネレーターです。もう 1 つは、実際の画像を学習し、ジェネレーターによって生成されたコンテンツが本物と区別がつかないかどうかを判断する役割を担うディスクリミネーターです。敵対的トレーニングは、生成器がランダムなノイズ データから意味のあるコンテンツを合成することを繰り返し学習し、最終的に識別器が合成されたコンテンツの信憑性を区別できなくなるタイプのゲームと考えることができます。このフレームワークは、多くのデータ モデルとタスクに適用できるように拡張されています。

メモリネットワーク

AI システムが人間のようにさまざまな環境に適応するには、継続的に新しいスキルを習得し、それを将来のシナリオに適用する方法を覚えておく必要があります。従来のニューラル ネットワークでは、さまざまな学習タスクを習得するのが困難です。科学者はこの欠点を「破滅的な忘却」と呼んでいます。難しいのは、ニューラル ネットワークがタスク A 用にトレーニングされた後、タスク B を解決するために再度トレーニングされると、ネットワーク モデルの重み値がタスク A に適用できなくなることです。

現在、モデルにさまざまなレベルのメモリ機能を持たせることができるネットワーク構造がいくつかあります。これらには、時系列を処理して予測できる長期短期記憶ネットワーク(再帰型ニューラル ネットワークの一種)、ニューラル ネットワークとメモリ システムを組み合わせて複雑なデータ構造からの学習を容易にする DeepMind チームのマイクロ ニューラル コンピューター、独立したモデル間の横方向の接続を学習し、これらの既存のネットワーク モデルから有用な機能を抽出して新しいタスクを完了するプログレッシブ ニューラル ネットワークが含まれます。

マイクロデータを使ったマイクロモデルの学習

ディープラーニング モデルでは、最良の結果を得るために常に大量のトレーニング データが必要でした。たとえば、ImageNet Challenge に参加したチームは、1,000 のカテゴリに分散された 120 万枚の手動で注釈が付けられた画像を使用してモデルをトレーニングしました。大規模なトレーニング データがなければ、ディープラーニング モデルは最適値に収束せず、音声認識や機械翻訳などの複雑なタスクで良好な結果を達成することもできません。データ需要の増加は、元の音声クリップを入力し、変換されたテキスト コンテンツの出力を必要とするなど、エンドツーエンドの処理に単一のニューラル ネットワーク モデルが使用される場合によく発生します。このプロセスは、複数のネットワークが連携して中間結果を 1 ステップずつ処理するプロセス (例: 生の音声入力 → 音素 → 単語 → テキスト出力) とは異なります。トレーニング データが不足しているタスクを解決するために人工知能システムを使用する場合、モデルのトレーニングではできるだけ少ないサンプルを使用することが望まれます。トレーニング データ セットが小さい場合、過剰適合、外れ値の干渉、トレーニング セットとテスト セットの不一致な分布などの問題が発生します。もう 1 つのアプローチは、他のタスクでトレーニングされたモデルを新しいタスクに転送することです。このアプローチは転移学習と呼ばれます。

関連する問題は、最適なモデルパフォーマンスを維持しながら、より少ないモデルパラメータでより小さなディープラーニングアーキテクチャを構築することです。このテクノロジーの利点は、トレーニング中に送信する必要のあるパラメータが少なくなり、メモリ サイズが制限された組み込みハードウェアにモデルを簡単に展開できるため、分散トレーニング プロセスがより効率的になることです。

学習/推論ハードウェア

人工知能の発展のきっかけの一つは、グラフィックス プロセッシング ユニット (GPU) のアップグレードです。CPU の順次実行モードとは異なり、GPU は大規模な並列アーキテクチャをサポートし、複数のタスクを同時に処理できます。ニューラル ネットワークは大規模な (高次元の) データセットを使用してトレーニングする必要があるため、GPU は CPU よりもはるかに効率的です。そのため、2012 年に最初の GPU トレーニング済みニューラル ネットワーク モデルである AlexNet がリリースされて以来、GPU はまさに金鉱採掘用のシャベルとなっています。 NVIDIA は、Intel、Qualcomm、AMD、新興企業の Google を抑え、2017 年も業界をリードし続けました。

ただし、GPU はモデルのトレーニングや予測用に設計されたものではなく、もともとビデオ ゲームの画像レンダリング用に設計されたものです。 GPU は高精度の計算を実行する能力を備えていますが、メモリ帯域幅とデータ スループットに問題があります。これにより、Google などの大企業や多くの小規模なスタートアップ企業にとって、高次元の機械学習タスク用の処理チップを設計および構築する新しい分野が開拓されました。チップ設計の改善には、メモリ帯域幅の拡大、ベクトル コンピューティング (GPU) とベクトル コンピューティング (CPU) の代わりにグラフ コンピューティング、より高いコンピューティング密度、およびより低いエネルギー消費が含まれます。これらの改善は、最終的にはユーザーにフィードバックされるため、非常に魅力的です。より高速で効率的なモデルトレーニング → より優れたユーザーエクスペリエンス → ユーザーが製品をより多く使用 → より大きなデータセットを収集 → モデルを最適化することで製品のパフォーマンスを向上。したがって、モデルをより速くトレーニングしてデプロイできるシステムには大きな利点があります。

シミュレーション環境

前述したように、AI システムのトレーニング データを準備するのは困難です。さらに、AI システムを実際の生活に適用するには、適用可能でなければなりません。したがって、現実の物理世界と行動をシミュレートするデジタル環境を開発することで、AI システムの適応性をテストする機会が得られます。これらの環境は、生のピクセルを AI システムに提示し、AI システムは設定された目標に基づいて特定のアクションを実行します。こうしたシミュレートされた環境でのトレーニングは、AI システムがどのように学習し、どのように改善するかを理解するのに役立ち、また現実世界の環境に適用できるモデルも提供します。

<<:  MITテクノロジーレビューが2019年の世界トップ10の画期的テクノロジーを発表

>>:  中国の学部生が新しいAIアルゴリズムを提案:その速度はAdamに匹敵し、パフォーマンスはSGDに匹敵する

ブログ    
ブログ    

推薦する

...

...

ウェブページを出力できるAIアプリが登場、早速評価してみよう

みなさんこんにちは、カソンです。最近、ウェブページ作成ツールframer[1]は、プロンプトワードに...

...

機械学習プロジェクトを管理および組織化する方法

この記事では主に、機械学習プロジェクトの編成と管理に関する実践的な経験をいくつか紹介します。パイソン...

...

...

Java プログラミング スキル - データ構造とアルゴリズム「シーケンシャル バイナリ ツリー」

基本概念データストレージの観点から見ると、配列ストレージとツリーストレージは相互に変換できます。つま...

...

コーダーの皆さん、おめでとうございます!マイクロソフトは、LLMを使用して168のコードベースにわたるコーディングタスクを自動化するCodePlanを提案している。

大規模なモデルの場合、ローカライズされたエンコード タスクに優れています。しかし、タスクが複数の相互...

GPT-LLMトレーナー: タスク固有のLLMトレーニングを1文で実装

人工知能の急速な発展を背景に、特定のタスクを実行するためのモデルのトレーニングは常に困難な作業となっ...

OpenAIがマスク氏に正面から対決!イリヤは8年間のメールの「犯罪」を暴露した後、ついに姿を現した

5日後、OpenAIはついにマスク氏の訴訟に正式に反応しました。ちょうど今、OpenAI は同社とマ...

人工知能がウェブホスティング業界に優位性をもたらす

近年、ウェブホスティング業界は劇的に変化しました。そして、業界を永遠に変える可能性のあるいくつかのト...

ファーウェイの天才少年Zhihuiは、かわいいロボットを自作し、5時間でオープンソース化し、GitHubで317個のスターを獲得した。

前回ブドウに縫い目をつけた「完全自社開発」のアイアンマンロボットアーム「ダミー」を覚えていますか? ...