IEEEの論文では、画像強調を実現するための放射状変換を提案している

IEEEの論文では、画像強調を実現するための放射状変換を提案している

[[202259]]

最近、「少量のデータによるニューラル ネットワークのトレーニング - ドラフト」と題された IEEE の論文では、少量のデータを使用してニューラル ネットワークをトレーニングする新しい方法、つまり極座標空間での放射状変換による画像強化を実現する方法が提案されました。データの情報内容は変わりませんが、データの多様性が向上し、最終的にはニューラル ネットワークの一般化パフォーマンスが向上します。

論文アドレス: https://arxiv.org/pdf/1708.04347.pdf

概要: ディープ ニューラル ネットワークは、多数のノード層で構成される複雑なアーキテクチャであり、トレーニング中に評価する必要がある重み、バイアスなどの多数のパラメーターが生成されます。より大規模で複雑なニューラル ネットワークでは、より単純なアーキテクチャよりも適切な収束を実現するために、より多くのトレーニング データが必要になります。ただし、ネットワークのトレーニングに使用できるデータは限られているか、不均衡です。より少ないデータでニューラル ネットワークをトレーニングできるように、画像拡張のための極座標空間でのラジアル変換を提案します。ピクセル単位の座標変換により、元の画像と拡張されたデータが極座標系で表現され、弱い表現による画像カテゴリの多様性が向上します。私たちが提案した方法を使用して、MNIST と、AlxNet および GoogLeNet ニューラル ネットワーク モデルを使用した一連のマルチモーダル医療画像に対する実験では、非常に高い分類精度が示されました。

図 1: ラジアル変換サンプリング。 a) ラジアル変換を使用して、サンプルを直交座標 (左) から極座標 (右) にマッピングします。 b) 極座標系における放射状変換。 c) ラジアル変換を使用して、256 × 256 画像 (2D 平面) 内の離散サンプルをフィルタリングします。任意に選択された極はピクセル (170, 50) にあります。 d) c) で選択したサンプルを極座標系から直交座標系にマッピングします。赤いサンプルは、サンプル c) から d) へのマッピング方向を示しています。

図2: MNISTデータセットからのサンプルと、極座標でのラジアル変換RT(·)を使用した対応する表現。

図 3: マルチモーダル医療データセットのサンプルと、極座標系での放射状変換を使用した対応する表現。

表 4: MNIST および Medical Multimodal データセットからのオリジナル画像と放射状変換画像を使用してトレーニングされた AlexNet モデルと GoogLeNet モデルの収束動作。 「RT」という用語は放射状に変換された画像を指し、「オリジナル」という用語は非常に少ないオリジナル画像でトレーニングされたモデルを指します。 x 軸はトレーニングの反復を表し、左の y 軸はトレーニング中のモデル損失を表し、右の y 軸は検証データセットを使用してトレーニングしたときのモデルの精度を表します。

表 1: オリジナルおよび放射状変換されたマルチモーダル医療画像でトレーニングされた AlexNet と GoogLeNet の精度 (「Acc.」 %) と信頼度 (「Conf.」 %) の値。 「Abd」は腹部MRI、「Std」は標準偏差を表します。太字部分は***の結果です。

表 2: 元の MNIST 画像と放射状変換された MNIST 画像でトレーニングされた AlexNet と GoogLeNet の精度 (「Acc.」 %) と信頼度 (「Conf.」 %) の値。 「Std」は標準偏差です。太字部分は***の結果です。

結論は

ディープ ニューラル ネットワークを正常にトレーニングするには、バランスの取れた大量のデータが必要です。実際には、ほとんどのデータセットは不均衡であるか、特定のクラスで利用できるデータが限られています。本稿では、データセット内のサンプル数を増やし、ニューラル ネットワークのトレーニングを支援するために、極座標系の放射状変換を提案します。提案されたデータ拡張方法は、データの情報内容を変更するのではなく、データの多様性を向上させます。私たちの結果は、このアプローチによりニューラル ネットワークの一般化パフォーマンス、つまり機械学習モデルが未知のデータの出力値を予測できる精度が向上することを示しています。最先端の AlexNet および GooLeNet ニューラル ネットワーク モデルを非常に少ないデータでトレーニングすると、この方法では学習プロセス全体を通じてトレーニング損失と検証精度に大きな変動があることがわかります。

<<:  顔の特徴を検出するシンプルなディープラーニング手法を教えます

>>:  Google の社内機械学習プロジェクト「Project Ninja」の秘密を解明します。

ブログ    
ブログ    

推薦する

...

数学をしっかり学べないMLエンジニアは優れたデータサイエンティストではない

数学はすべての科目の基礎であり、数学の学習には終わりがありません。ビジネスに携わっている場合、または...

教師なしニューラル機械翻訳: 単一言語コーパスのみを使用する

概要: ニューラル機械翻訳 (NMT) は最近、標準ベンチマークで大きな成功を収めていますが、大規模...

2019 年に読むべき 5 つの無料機械学習電子書籍

[51CTO.com クイック翻訳] 現在、機械学習は主要なソフトウェアエンジニアリング分野における...

上海は質の高い農業の発展を推進:科学技術設備の改善と無人農場の建設

農業の発展は人々の生存と社会の安定に関係しています。近年、農業需要の継続的な解放、農業労働力の継続的...

Nvidiaの次世代GPUが発表、H100を超える!最初の3nmマルチチップモジュール設計は2024年にデビュー予定

3nmプロセス、H100をはるかに超える性能!つい最近、海外メディアのDigiTimesが、コードネ...

解説: ジェネレーティブ AI の仕組みとその違い

ChatGPT のような強力な生成 AI システムはどのように機能し、他の種類の人工知能とどう違うの...

...

Ma Yi と Shen Xiangyang が協力して、最初の CPAL 賞を発表します。 16人がライジングスター賞を受賞、その半数は中国の学者

ちょうど昨日、第 1 回 CPAL ミニマリスト アカデミック カンファレンスで、ライジング スター...

OpenAIが安全チームを設置 準備: AIのリスクを評価し、外部からの悪用を防ぐ

OpenAIは10月27日、汎用人工知能(AGI)によって引き起こされる可能性のある壊滅的なリスクを...

マーケターが人工知能を採用する時が来た

[[275753]] [51CTO.com クイック翻訳] あらゆる業界の先進的な企業は、人工知能を...

...

RAGから富へ:人工知能の幻想を払拭する

検索拡張生成は、AI モデルがデータを改善し、幻覚を軽減できるようにする最も有望な技術の 1 つと考...

AI の力: Docker による機械学習アプリケーションの導入とスケーラビリティの簡素化

翻訳者 |李睿レビュー | Chonglou近年、機械学習の応用が爆発的に増加しており、堅牢でスケー...

新しいNeRF技術は、ビデオを簡単に制御できる3Dモデルに変換できます。

翻訳者 |ブガッティレビュー | Chonglou人間の動きが複雑で、環境によって見た目が微妙に異な...