ディープラーニング画像認識の未来:機会と課題が共存

ディープラーニング画像認識の未来:機会と課題が共存

人間にとって画像を認識するのは簡単ですが、機械がそれを実現するには長い時間がかかりました。

コンピュータービジョンの分野では、近年、画像認識が飛躍的に発展しました。たとえば、PASCAL VOC オブジェクト検出ベンチマークでは、検出器のパフォーマンスが平均精度 30% から現在では 90% 以上に急上昇しました。画像分類に関しては、現在の高度なアルゴリズムは、極めて難しい ImageNet データセットでも人間を上回ります。

ビデオ監視、自動運転、スマート医療など、画像認識技術の価値の高い応用が私たちの身の回りで起こっていますが、画像認識のこうした最新の進歩の原動力となっているのがディープラーニングです。ディープラーニングの成功は、主に、大規模なデータセットの生成、強力なモデルの開発、大量のコンピューティングリソースの可用性という 3 つの側面によるものです。さまざまな画像認識タスクにおいて、慎重に設計されたディープ ニューラル ネットワークは、手作業で作成された画像の特徴に基づく従来の方法をはるかに上回っています。

ディープラーニングはこれまで画像認識において大きな成功を収めてきましたが、さらに広く使用されるようになるまでには、まだ多くの課題を乗り越えなければなりません。同時に、将来価値のある研究の方向性も数多く見受けられます。

課題1: モデルの一般化能力を向上させる方法

画像認識技術が広く利用されるようになる前に、モデルがこれまで登場したことのないシーンに対しても優れた一般化能力を備えているかどうかをどうやって知るかが重要な課題です。

現在の実践では、データセットはトレーニング セットとテスト セットにランダムに分割され、それに応じてモデルがこのデータセットでトレーニングおよび評価されます。このアプローチでは、テスト セットとトレーニング セットは両方とも同様のシーン コンテンツとイメージング条件を持つデータからサンプリングされるため、テスト セットのデータ分布はトレーニング セットと同じであることに注意することが重要です。

ただし、実際のアプリケーションでは、テスト画像はトレーニング データとは異なる分布から取得される場合があります。これらの前例のないデータは、視点、サイズ、シーン構成、カメラのプロパティなどの点でトレーニング データと異なる場合があります。

ある研究によると、このデータ分布の違いにより、さまざまなディープ ネットワーク モデルの精度が大幅に低下する可能性があることが示されています。現在のモデルはデータ分布の自然な変動に敏感であるため、自動運転などの重要なアプリケーションでは深刻な問題になる可能性があります。

課題2:小規模データと超大規模データをどう活用するか

私たちが取り組むべきもう一つの重要な課題は、小規模なトレーニングデータをより有効に活用する方法です。ディープラーニングは、大量の注釈付きデータを活用してさまざまなタスクで大きな成功を収めてきましたが、ラベル付きインスタンスが少数しか利用できない小規模なデータ シナリオでは、既存の手法では通常失敗します。このシナリオは「少量学習」と呼ばれることが多く、実際のアプリケーションでは慎重な検討が必要です。たとえば、家庭用ロボットは、新しい物体を一度だけ見せられ、その後その物体を認識できるというタスクを完了できることが期待されます。毛布を折りたたむなど、対象物が後から操作された場合でも、人はこの作業を自然に実行できます。ニューラル ネットワークに人間のような一般化能力を付与する方法は、未解決の研究課題です。

もうひとつの極端な例は、超大規模データを活用して、認識アルゴリズムのパフォーマンスを効果的に向上させる方法です。自動運転のような重要なアプリケーションでは、画像認識におけるエラーのコストは非常に高くなります。そのため、研究者たちは、豊富な注釈が付けられた数億枚の画像を含む非常に大規模なデータセットを作成し、このデータを活用してモデルの精度を大幅に向上させたいと考えています。

しかし、現在のアルゴリズムでは、このような超大規模データを有効に活用することはできません。 3 億枚の注釈付き画像を含む JFT データセットでは、トレーニング データの量が増えるにつれて、さまざまなディープ ネットワークのパフォーマンスは対数的にしか向上しません (図 1)。大規模データの場合、学習データを増やし続けることのメリットがだんだんと薄れていくため、解決すべき重要な課題です。

図 1 JFT-300M データセットにおけるオブジェクト検出のパフォーマンスは、トレーニング例の増加に伴って対数的に向上します。 x 軸は対数スケールのデータ サイズです。 Y軸は物体検出のパフォーマンスです。左の画像は COCO ミニバル テスト セットの mAP@[0.5,0.95] メトリックを使用し、右の画像は PASCAL VOC 2007 テスト セットの [email protected] メトリックを使用しています。赤い曲線と青い曲線は 2 つの異なるモデルを表します。

課題3: 包括的なシーン理解

トレーニング データと一般化能力に関連するこれらの問題に加えて、もう 1 つの重要な研究テーマは、包括的なシーン理解です。人間は、シーン内のオブジェクトを識別して位置を特定するだけでなく、オブジェクト間の関係、部分と全体の階層、オブジェクトのプロパティ、3 次元のシーン レイアウトを推測することもできます。

シーンをより幅広く理解することは、物体の識別や位置以外の情報を必要とすることが多いロボットとのやり取りなどのアプリケーションに役立ちます。このタスクには、シーンの認識だけでなく、現実世界の認知的理解も必要です。この目標を達成するにはまだ長い道のりが残っています。包括的なシーン理解の一例としては、パノプティックセグメンテーションがあります(図 2 を参照)。

図 2 (a) 元の画像、(b) セマンティック セグメンテーション: 空、草、道路など、固定された形状を持たない数え切れない素材 (もの) を識別します。ラベル付けの方法は通常、各ピクセルにラベルを追加します。(c) インスタンス セグメンテーション: 人、動物、道具など、数えられる独立したオブジェクト インスタンス (オブジェクト インスタンス) をセグメント化します。ターゲットは通常、バウンディング ボックスまたはセグメンテーション マスクでマークされます。(d) パノラマ セグメンテーション: 素材とオブジェクトの両方を識別するために、統一されたグローバル セグメンテーション イメージを生成します。

課題4: 自動化されたネットワーク設計

最後に言及する価値のある課題は、ネットワーク設計の自動化です。近年、画像認識の焦点は、より優れた機能の設計から、より新しいネットワーク アーキテクチャの設計へと移行しています。ただし、ネットワーク アーキテクチャの設計は、多数のハイパーパラメータと設計上の選択を処理する必要がある面倒なプロセスです。これらの要素を調整するには、経験豊富なエンジニアによる多大な時間と労力が必要です。

さらに重要なのは、あるタスクに最適なアーキテクチャが、別のタスクに最適なアーキテクチャとはまったく異なる場合があることです。自動ニューラルアーキテクチャ検索の研究は始まっていますが、まだ初期段階であり、画像分類タスクにのみ適用できます。現在の方法の検索空間は非常に狭く、既存のネットワーク モジュール (深さ方向に分離可能な畳み込みや恒等接続など) のローカルに最適な組み合わせを探し、新しいモジュールを発見できないためです。これらの既存の方法が、より複雑なタスクに十分であるかどうかは不明です。

図 3. ニューラル アーキテクチャ検索アルゴリズムの抽象的な図。検索戦略は、まず事前に定義された検索空間からアーキテクチャ A を選択し、次に評価戦略によってアーキテクチャ A を評価し、A のパフォーマンスを検索戦略に渡します。

画像認識分野における上記の課題にもかかわらず、私たちは依然として画像認識分野におけるディープラーニングの大きな可能性を信じています。これらの問題に対処する機会は豊富にありますが、ここではいくつかの研究の方向性を示します。

方向性1: 常識を統合する

画像認識の分野における重要な研究方向は、常識をディープラーニングに統合することです。現在、ディープラーニングは主に純粋にデータ駆動型のテクノロジーとして使用されています。ディープラーニングでは、ニューラル ネットワークはトレーニング セット内のラベル付きサンプルを使用して非線形関数を学習し、テスト中にこの学習した関数を画像ピクセルに適用します。トレーニング セット外の情報はまったく使用されません。

対照的に、人間は見たサンプルだけでなく、現実世界に関する常識に基づいて物体を認識します。人々は、非論理的な識別結果を避けるために、見たものについて推論することができます。さらに、何か新しいものや予期せぬものに遭遇したとき、人間はすぐに知識を適応させてこの新しい経験を説明することができます。深層ネットワークにおける推論のために常識をどのように獲得し、表現し、使用するかが課題です。

方向2: 幾何学的推論

画像認識と幾何学的推論を共同で実行することも、有望な方向性です。画像認識の主なモデルは 2 次元の外観のみを考慮しますが、人間は 3 次元のシーンのレイアウトを認識し、その固有の意味カテゴリを推測できます。 3D レイアウトは、両眼視だけでなく、写真を見るときに人が行うように、2D 入力に関する幾何学的推論からも得ることができます。画像認識と幾何学的推論を組み合わせることで、双方にメリットがもたらされます。

幾何学的推論から決定された 3D レイアウトは、目に見えない視点、変形、外観がある場合でも認識を導くのに役立ちます。また、不合理なセマンティックレイアウトを排除し、3 次元の形状や機能によって定義されたカテゴリを識別するのに役立ちます。たとえば、ソファーの外観はクラス内でも大きく異なります。ただし、それらを識別するのに役立つ共通の特性があります。たとえば、それらはすべて、座るための水平面と支えるための背面を備えています。一方、識別された意味論は幾何学的推論の解空間を正規化することができます。たとえば、シーン内で犬が認識された場合、対応する 3D 構造は犬の 3D 形状モデルに準拠する必要があります。

図4: 異なる視点からのビデオの2つのフレームから複雑な動的シーンの点群を再構築する

方向3: 関係のモデリング

リレーショナルモデリングには大きな研究の可能性もあります。シーンを完全に理解するには、シーン内のターゲット エンティティ間の関係と相互作用をモデル化することが非常に重要です (図 4)。それぞれ人物と馬が描かれた 2 枚の絵を考えてみましょう。片方の絵には人が馬に乗っている様子が描かれ、もう片方の絵には馬が人を踏みつけている様子が描かれている場合、この 2 つの絵がまったく異なる意味を表現していることは明らかです。さらに、リレーショナル モデリングを通じて抽出された基礎となるシーン構造は、データが限られているために現在のディープラーニング手法が抱える曖昧さや不確実性の問題を補うのに役立ちます。リレーショナルモデリングの問題に対処するための努力は行われてきましたが、この研究はまだ初期段階であり、調査の余地が大いにあります。

図5 物体検出における関係ネットワーク。オブジェクトの外観と幾何学的特徴を示す

方向性4: 学び方を学ぶ

ここで言及する価値のあるもう一つの方向性は、学習プロセスを学習することを目的としたメタ学習です。このトピックは最近かなり注目を集めており、ニューラルアーキテクチャ検索もその応用の 1 つと考えられます。

しかし、学習プロセスをモデル化するメカニズム、表現、アルゴリズムはまだ比較的初歩的なため、メタ学習の研究はまだ初期段階にあります。既存のネットワーク モジュールの単純な組み合わせに限定されているニューラル アーキテクチャ検索を例に挙げてみましょう。メタ学習者は、新しいネットワーク モジュールを作成するために必要な微妙な直感と鋭い洞察力を捉えることができません。メタ学習の進歩により、自動アーキテクチャ設計の可能性が最大限に発揮され、手動で設計されたネットワーク構造をはるかに超えるネットワーク構造が実現される可能性があります。

図6 メタ学習の最近の進歩。左から右へ: メタ学習ハイパーパラメータ最適化、ニューラルアーキテクチャ検索、少数ショット画像分類

今は画像認識に取り組むには刺激的な時期であり、この分野を前進させ、将来のアプリケーションに影響を与える機会に満ちています。私たちは、これから起こる進歩を心待ちにしており、これらの新しいテクノロジーが私たちの生活を根本的かつ魔法のように変えることを期待しています。

<<:  調査によると、米国の公共部門のIT意思決定者の70%にとってAIは「ミッションクリティカル」

>>:  自動運転のためのマルチモーダルセンサーフュージョンのレビュー

ブログ    
ブログ    
ブログ    

推薦する

オブジェクト ストレージが AI と機械学習に適している 3 つの理由!

[[329860]] 【51CTO.com クイック翻訳】あらゆる種類の企業が AI や機械学習プ...

ドローンが小型化するにつれて、その開発が成熟するためには3つの点を考慮する必要があります。

近年、コア技術の継続的な進歩と市場需要の継続的な解放により、ドローン産業は急速に発展しています。アプ...

知能ロボットは人間との交流を終わらせるのでしょうか?

[[187072]]人間同士の交流はどうなったのでしょうか? 最新のテクノロジーの流行を真剣に受け...

人工知能プロジェクト: 注目すべき 7 つのポイント

最近、業界調査会社ガートナーは、AI プロジェクトの 85% は CIO に引き渡されないという大胆...

人工知能搭載の携帯電話は私たちの生活をどのように変えるのでしょうか? 携帯電話メーカーが何をしてきたか見てみましょう。

チャットができる「インテリジェント音声アシスタント」から、さまざまな家電を操作できるスマートスピーカ...

「成熟した」大型モデルが登場したときだけでしょうか? MIT: GPT-4はコードを自己修正できるが、GPT-3.5はできない

大規模言語モデルがコード生成において並外れた能力を発揮していることは誰もが知っています。しかし、コン...

米国のテクノロジー業界が冬を乗り切る中、プログラマーたちは仕事を維持するために率先して給与を削減している。 35歳の会社員:給料をもう少し下げてもいい

テクノロジー業界は歴史的に平均給与が最も高い業界の一つであり、リストのトップにランクされることも少な...

5Gが企業に与える影響

画像ソース: https://pixabay.com/images/id-1069218/ 2024...

任澤平:「新インフラ」は時代の痕跡を刻む

【51CTO.comオリジナル記事】今年、我が国では間違いなく新しいインフラがホットな話題です。 2...

清華大学張北院士:融合乗算による第三世代人工知能の三空間融合モデルの解釈

人工知能は今どの段階に達しているのでしょうか?どのような問題や限界があるのか​​?どのように突破する...

アリババが国際AIサミットを主催、医療AIとマルチメディアコンテンツ理解が話題に

10月15日、記者はアリババが主催する2020 ACMマルチメディア(以下、ACM MM 2020)...

クレイジーすぎる、GPTsがオンライン:ウルトラマンがマスクの大型模型の手こすりを披露、誰かがサードパーティのマーケットを作った

数日前の開発者会議で、OpenAIは、メンバーシップを購入すれば、GPT-4大規模モデルの新バージョ...

「電子ミバエ」がマスク氏を警戒させた!その背後には、コンピューターで実行できる13万個のニューロンからなる脳全体の地図がある。

脳科学研究は大きな前進を遂げました!プリンストン大学の科学者らは最近、成体動物の全脳コネクトームマッ...

...