最近、「少量のデータによるニューラル ネットワークのトレーニング - ドラフト」と題された IEEE の論文では、少量のデータを使用してニューラル ネットワークをトレーニングする新しい方法、つまり極座標空間での放射状変換による画像強化を実現する方法が提案されました。データの情報内容は変わりませんが、データの多様性が向上し、最終的にはニューラル ネットワークの一般化パフォーマンスが向上します。 論文アドレス: https://arxiv.org/pdf/1708.04347.pdf 概要: ディープ ニューラル ネットワークは、多数のノード層で構成される複雑なアーキテクチャであり、トレーニング中に評価する必要がある重み、バイアスなどの多数のパラメーターが生成されます。より大規模で複雑なニューラル ネットワークでは、より単純なアーキテクチャよりも適切な収束を実現するために、より多くのトレーニング データが必要になります。ただし、ネットワークのトレーニングに使用できるデータは限られているか、不均衡です。より少ないデータでニューラル ネットワークをトレーニングできるように、画像拡張のための極座標空間でのラジアル変換を提案します。ピクセル単位の座標変換により、元の画像と拡張されたデータが極座標系で表現され、弱い表現による画像カテゴリの多様性が向上します。私たちが提案した方法を使用して、MNIST と、AlxNet および GoogLeNet ニューラル ネットワーク モデルを使用した一連のマルチモーダル医療画像に対する実験では、非常に高い分類精度が示されました。 図 1: ラジアル変換サンプリング。 a) ラジアル変換を使用して、サンプルを直交座標 (左) から極座標 (右) にマッピングします。 b) 極座標系における放射状変換。 c) ラジアル変換を使用して、256 × 256 画像 (2D 平面) 内の離散サンプルをフィルタリングします。任意に選択された極はピクセル (170, 50) にあります。 d) c) で選択したサンプルを極座標系から直交座標系にマッピングします。赤いサンプルは、サンプル c) から d) へのマッピング方向を示しています。 図2: MNISTデータセットからのサンプルと、極座標でのラジアル変換RT(·)を使用した対応する表現。 図 3: マルチモーダル医療データセットのサンプルと、極座標系での放射状変換を使用した対応する表現。 表 4: MNIST および Medical Multimodal データセットからのオリジナル画像と放射状変換画像を使用してトレーニングされた AlexNet モデルと GoogLeNet モデルの収束動作。 「RT」という用語は放射状に変換された画像を指し、「オリジナル」という用語は非常に少ないオリジナル画像でトレーニングされたモデルを指します。 x 軸はトレーニングの反復を表し、左の y 軸はトレーニング中のモデル損失を表し、右の y 軸は検証データセットを使用してトレーニングしたときのモデルの精度を表します。 表 1: オリジナルおよび放射状変換されたマルチモーダル医療画像でトレーニングされた AlexNet と GoogLeNet の精度 (「Acc.」 %) と信頼度 (「Conf.」 %) の値。 「Abd」は腹部MRI、「Std」は標準偏差を表します。太字部分は***の結果です。 表 2: 元の MNIST 画像と放射状変換された MNIST 画像でトレーニングされた AlexNet と GoogLeNet の精度 (「Acc.」 %) と信頼度 (「Conf.」 %) の値。 「Std」は標準偏差です。太字部分は***の結果です。 結論は ディープ ニューラル ネットワークを正常にトレーニングするには、バランスの取れた大量のデータが必要です。実際には、ほとんどのデータセットは不均衡であるか、特定のクラスで利用できるデータが限られています。本稿では、データセット内のサンプル数を増やし、ニューラル ネットワークのトレーニングを支援するために、極座標系の放射状変換を提案します。提案されたデータ拡張方法は、データの情報内容を変更するのではなく、データの多様性を向上させます。私たちの結果は、このアプローチによりニューラル ネットワークの一般化パフォーマンス、つまり機械学習モデルが未知のデータの出力値を予測できる精度が向上することを示しています。最先端の AlexNet および GooLeNet ニューラル ネットワーク モデルを非常に少ないデータでトレーニングすると、この方法では学習プロセス全体を通じてトレーニング損失と検証精度に大きな変動があることがわかります。 |
<<: 顔の特徴を検出するシンプルなディープラーニング手法を教えます
>>: Google の社内機械学習プロジェクト「Project Ninja」の秘密を解明します。
[[266878]]中国における人工知能に関する議論の多くは体系化されておらず、断片的であり、人工...
人工知能技術が生活のあらゆる分野で登場し、スマート経済が繁栄するにつれて、人類の文明は新たな段階に入...
画像や動画の生成には AI に頼らなければならないと誰が言ったのでしょうか?プリンストン大学の新しい...
Google、Apple、BATなどの国内外の大手企業がAR/AI分野に多額の投資を行っている中、...
Firefly のグラフィック デザイン ツールの新バージョンが Adobe Spring Fe...
日本のアニメに詳しい友人なら、間違いなくメカウォーズにも詳しいでしょう。たとえば、最も人気があり愛さ...
ニュージーランドの広大な草原で、羊の群れがのんびりと散歩しながら草を食べており、その後ろを牧羊犬が追...
自動運転の普及初期には交通渋滞が悪化するだろう。これは、自動運転についてのあなたの理解と異なりますか...
最も強力な中国語 - 英語バイリンガル モデルがオープン ソースになりました。今日、Wudao Ti...
最近、「つながりとインテリジェンス、より安全な世界の構築」をテーマにした2021年世界セキュリティ博...
[51CTO.com からのオリジナル記事] 少し前に、LinkedIn と IBM が多数の専門...
トップレベルの設計を継続的に改善し、コンピュータービジョン、音声認識、機械学習、ナレッジグラフなどの...
[[244104]] Scientific American誌によると、近い将来、人工知能(AI)が...
ChatGPTはリリースされてから9か月が経ちました。この 9 か月間、この驚異的なアプリケーショ...