IEEEの論文では、画像強調を実現するための放射状変換を提案している

IEEEの論文では、画像強調を実現するための放射状変換を提案している

[[202259]]

最近、「少量のデータによるニューラル ネットワークのトレーニング - ドラフト」と題された IEEE の論文では、少量のデータを使用してニューラル ネットワークをトレーニングする新しい方法、つまり極座標空間での放射状変換による画像強化を実現する方法が提案されました。データの情報内容は変わりませんが、データの多様性が向上し、最終的にはニューラル ネットワークの一般化パフォーマンスが向上します。

論文アドレス: https://arxiv.org/pdf/1708.04347.pdf

概要: ディープ ニューラル ネットワークは、多数のノード層で構成される複雑なアーキテクチャであり、トレーニング中に評価する必要がある重み、バイアスなどの多数のパラメーターが生成されます。より大規模で複雑なニューラル ネットワークでは、より単純なアーキテクチャよりも適切な収束を実現するために、より多くのトレーニング データが必要になります。ただし、ネットワークのトレーニングに使用できるデータは限られているか、不均衡です。より少ないデータでニューラル ネットワークをトレーニングできるように、画像拡張のための極座標空間でのラジアル変換を提案します。ピクセル単位の座標変換により、元の画像と拡張されたデータが極座標系で表現され、弱い表現による画像カテゴリの多様性が向上します。私たちが提案した方法を使用して、MNIST と、AlxNet および GoogLeNet ニューラル ネットワーク モデルを使用した一連のマルチモーダル医療画像に対する実験では、非常に高い分類精度が示されました。

図 1: ラジアル変換サンプリング。 a) ラジアル変換を使用して、サンプルを直交座標 (左) から極座標 (右) にマッピングします。 b) 極座標系における放射状変換。 c) ラジアル変換を使用して、256 × 256 画像 (2D 平面) 内の離散サンプルをフィルタリングします。任意に選択された極はピクセル (170, 50) にあります。 d) c) で選択したサンプルを極座標系から直交座標系にマッピングします。赤いサンプルは、サンプル c) から d) へのマッピング方向を示しています。

図2: MNISTデータセットからのサンプルと、極座標でのラジアル変換RT(·)を使用した対応する表現。

図 3: マルチモーダル医療データセットのサンプルと、極座標系での放射状変換を使用した対応する表現。

表 4: MNIST および Medical Multimodal データセットからのオリジナル画像と放射状変換画像を使用してトレーニングされた AlexNet モデルと GoogLeNet モデルの収束動作。 「RT」という用語は放射状に変換された画像を指し、「オリジナル」という用語は非常に少ないオリジナル画像でトレーニングされたモデルを指します。 x 軸はトレーニングの反復を表し、左の y 軸はトレーニング中のモデル損失を表し、右の y 軸は検証データセットを使用してトレーニングしたときのモデルの精度を表します。

表 1: オリジナルおよび放射状変換されたマルチモーダル医療画像でトレーニングされた AlexNet と GoogLeNet の精度 (「Acc.」 %) と信頼度 (「Conf.」 %) の値。 「Abd」は腹部MRI、「Std」は標準偏差を表します。太字部分は***の結果です。

表 2: 元の MNIST 画像と放射状変換された MNIST 画像でトレーニングされた AlexNet と GoogLeNet の精度 (「Acc.」 %) と信頼度 (「Conf.」 %) の値。 「Std」は標準偏差です。太字部分は***の結果です。

結論は

ディープ ニューラル ネットワークを正常にトレーニングするには、バランスの取れた大量のデータが必要です。実際には、ほとんどのデータセットは不均衡であるか、特定のクラスで利用できるデータが限られています。本稿では、データセット内のサンプル数を増やし、ニューラル ネットワークのトレーニングを支援するために、極座標系の放射状変換を提案します。提案されたデータ拡張方法は、データの情報内容を変更するのではなく、データの多様性を向上させます。私たちの結果は、このアプローチによりニューラル ネットワークの一般化パフォーマンス、つまり機械学習モデルが未知のデータの出力値を予測できる精度が向上することを示しています。最先端の AlexNet および GooLeNet ニューラル ネットワーク モデルを非常に少ないデータでトレーニングすると、この方法では学習プロセス全体を通じてトレーニング損失と検証精度に大きな変動があることがわかります。

<<:  顔の特徴を検出するシンプルなディープラーニング手法を教えます

>>:  Google の社内機械学習プロジェクト「Project Ninja」の秘密を解明します。

ブログ    
ブログ    

推薦する

AI支援ツールを使用してソフトウェア要件を定義する

Userdoc は、ソフトウェア要件ド​​キュメントの作成を支援する AI 支援サービスです。最近の...

...

RPAのグローバルリーダーであるUiPathが中国市場への本格参入を発表

UiPath は、世界的なロボティック プロセス オートメーション (RPA) 分野の主要プラットフ...

人工知能がリスク管理分野に参入すると、生身の人間は職を失うことになるのでしょうか?

スティーブ・ジョブズの「電話の再発明」は携帯電話を再定義しただけでなく、世界を変え、人類をモバイルイ...

...

...

孤独を研究していますか? Reddit のホットな話題: AI のゴッドファーザー、ヤン・ルカンが提案した「エネルギー モデル」とは一体何でしょうか?

「エネルギー自己教師学習っていったい何?」と多くのRedditネットユーザーがコメントした。ちょう...

次世代の AI 人材をどう育成するか?

AI 人材とプロジェクト パイプラインを構築するには、教育的価値だけでなく技術的価値も必要です。そ...

LangChain をベースに LLM アプリケーションを構築する方法

皆さんこんにちは、Lugaです。今日も引き続き、人工知能(AI)エコシステムに関連する技術であるLa...

...

OpenAIの公式プロンプトエンジニアリングガイド:ChatGPTはこのようにプレイできます

ChatGPT や GPT-4 などの大規模言語モデル (LLM) の出現により、迅速なエンジニアリ...

機械学習および予測アプリケーション用の 50 を超える API。どれを選びますか?

この記事では、2018 年以降、顔と画像の認識、テキスト分析、自然言語処理、感情分析、言語翻訳、機械...

マイクロソフトが新しいハイブリッド会議機能をリリース: Teams Rooms、リモート プレゼンテーション カメオ、Viva Connections モバイル アプリ

IT Homeは9月10日、マイクロソフトが、オフラインの会議室に中央制御のオーディオデバイスを設置...

人工知能が教育評価の近代化に貢献

教育評価は、教育の質の継続的な向上を促進する「牛の鼻」として、確立された教育目標に基づき、一定の教育...

AIは「技術力」の集中を加速させる。巨大企業によるAIの独占は深刻な結果をもたらすのか?

AI テクノロジーがかなり集中化しており、テクノロジー大手が優位に立っていることにお気づきですか?...