AIアルゴリズムは携帯電話の画像プロセッサを置き換え、携帯電話で一眼レフのような写真を撮ることができる

AIアルゴリズムは携帯電話の画像プロセッサを置き換え、携帯電話で一眼レフのような写真を撮ることができる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

写真撮影は携帯電話の最大のセールスポイントとなっており、大手メーカーは1億画素、スーパーナイトシーン、光学ズームなど、さまざまな機能でDxOのスコアを磨くことに熱心に取り組んでいます。

[[316548]]

しかし、異なる携帯電話で撮影した写真の質感は異なります。一方ではレンズモジュールが異なり、他方ではイメージプロセッサ(ISP)のソフトウェアチューニングも異なります。

最近、スイス連邦工科大学チューリッヒ校(ETHZ)は、携帯電話のISPを単一のエンドツーエンドのディープラーニングモデルで置き換えることができる新しいアルゴリズムPyNetを提案しました。

トレーニングしたカメラ アルゴリズムは、携帯電話の ISP を使用せずに、ある携帯電話から別の携帯電話に移植できます。たとえ 2 つの携帯電話チップが異なるメーカーのものであるとしても、まったく問題はありません。

Huawei P20とCanon SLRカメラ5D Mark IVで調整されたアルゴリズムがBlackBerry KeyOneに移植され、オリジナルのISP出力に比べて写真品質が大幅に向上しました。

Huawei P20はKirin 970チップと12メガピクセルのSony IMX 380カメラを採用しており、BlackBerry KeyOneはSnapdragon 625と12メガピクセルのSony IMX 378カメラを採用しています。

現在、PyNET のソースコード、データセット、事前トレーニング済みモデルが GitHub で公開されています。

PyNET の原則

シャッターボタンを押すと、1秒以内に携帯電話から写真が出力されますが、その背後にあるプロセスは非常に複雑です。

携帯電話で写真を撮ると、最初に出力されるのは、変更されていない元の感光情報ファイルRAWです。

RAW は、携帯電話の SoC 内の ISP による一連の処理を経て、画像計算専用に使用され、元々暗い元の画像が美しい結果に変わります。

プロセスには、ノイズの除去、ホワイトバランスの補正、露出の調整、色のコントラストの補正、超解像度などが含まれます。

現在、NPU などの AI コアを搭載した携帯電話が増えており、AI コンピューティング能力はますます強化されています。将来、NPU は画像コンピューティングの ISP の代わりに使用できるでしょうか?これはETHZの研究者の考えです。

研究者らはまず、Huawei P20で撮影された2万枚のRAWオリジナル画像と、Canon SLR 5D Mark IVで同じシーンで撮影された写真をトレーニング用のデータセットとして収集した。

ただし、トレーニング プロセスでは画像の元のサイズは使用されず、代わりに 448×448 ウィンドウを使用して画像の一部が選択され、最終的に 48043 個の RAW-RGB 画像ペアが生成されました。

より小規模なトレーニング結果を元のサイズの画像で使用できるようにするために、PyNET は階層型アーキテクチャを採用しています。

以下は PyNET のネットワーク アーキテクチャです。このモデルは逆ピラミッド型になっており、5 つの異なるレベルで画像を処理できます。

PyNET アーキテクチャには、さまざまなサイズ (3×3 から 9×9) の畳み込みフィルターを使用して特徴マップを並列に処理し、対応する畳み込み層の出力を連結する複数のブロックがあります。

より低いスケールで得られた出力は、転置畳み込み層を介してアップサンプリングされ、高レベルの特徴マップと積み重ねられ、その後、後続の畳み込み層で処理されます。

PyNET は最下層から順番にモデルをトレーニングします。まず低いスケールで良好な画像再構築結果を取得し、それを使用して非常に低解像度の画像を処理し、グローバルな画像操作を実行します。

最下層を事前トレーニングした後、元の解像度の画像でトレーニングされるまで、同じ手順が次のレベルに適用されます。

それぞれの上位レベルでは、モデルの下位部分から高レベルで高品質な特徴を取得し、主に、欠落している低レベルの詳細を再構築して結果を改良することを学習します。

トレーニング後、Huawei P20 で撮影された RAW 画像は処理のために PyNET に送信され、画像は Huawei の内蔵 ISP と同様に処理されます。

Amazon Mechanical Turk プラットフォームでの手動スコアリングでは、PyNet で処理された画像は P20 で直接出力された画像よりも見栄えが良いことが示されています。

インストールとトレーニング

PyNET は TensorFlow で実装されており、SciPy、NumPy、imageio、pillow のインストールが必要です。トレーニング中に CUDA と cuDNN が必要になるため、NVIDIA GPU も必須です。

さらに、事前トレーニング済みの VGG-19、PyNet モデル、および RAW-RGB 画像ペア データセットをダウンロードする必要があります。

著者らは、16GB のビデオ メモリを搭載した Tesla V100 GPU でモデルをトレーニングすることを推奨しています。

強力なコンピューティング リソースがない場合は、オープン ソース コードの dng_to_png.py を使用して RAW を PNG 形式の画像に変換することもできますが、ここで使用されているのは公式の P20 および Canon SLR チューニング結果です。

論文アドレス: https://arxiv.org/abs/2002.05509

ソースコード: https://github.com/aiff22/PyNET

<<:  2020年中国インテリジェントIoT(AIoT)白書

>>:  世界自動運転年間「強さ」リストが発表、百度がウェイモを抜いて首位に、ウェイモ:評価基準に反対

ブログ    
ブログ    
ブログ    

推薦する

ドローンは将来のスマートシティで重要な役割を果たすだろう

「スマートシティ」という概念は何十年も前から存在していたが、その最新版では、住民の生活を向上させるた...

人工知能が普及すると、家事労働者はロボットに置き換えられるのでしょうか?

リチャード・マーティンの家族は執事としてロボットを購入しました。そのロボットはアンドリューと名付けら...

オープンソースの人工知能アルゴリズム 新しいスーパーピクセルサンプリング、ネットワーク深層特徴推定スーパーピクセル

オープンソース AI アルゴリズム 新しいスーパーピクセル サンプリング、ネットワーク ディープ フ...

PyTorch でテンソルを操作するための 5 つの基本関数

ニューラル ネットワークを正確かつ効率的に構築する能力は、ディープラーニング エンジニアの採用担当者...

...

マイクロソフトは産業用メタバースプロジェクトProject Airsimを中止し、人工知能戦略をOpenAIに転換

10月25日、外国メディアは事情に詳しい関係者の話として、月曜日に「インダストリアル・メタバース」プ...

AIがビジネスプロセスとインテリジェントセキュリティをサポートする方法

今年初め以来、ChatGPT のような生成型人工知能 (AI) ツールが世界を席巻しています。それは...

...

ChatGPTのモバイル収益は9月に460万ドルという過去最高を記録し、成長疲れが現れ始めている。

10月10日、人工知能チャットボットChatGPTのモバイル分野での取り組みは大きな成果をもたらし...

...

...

...

量子コンピューティングとブロックチェーンの未来

量子コンピューティングはブロックチェーンを破壊するのか、それともより安全にするのか? 01 序文コン...

アリババ初のAIチップ「Pingtou Ge」が発売! NVIDIA P4 より 46 倍高速で、推論パフォーマンスの世界新記録を樹立

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...