AIアルゴリズムは携帯電話の画像プロセッサを置き換え、携帯電話で一眼レフのような写真を撮ることができる

AIアルゴリズムは携帯電話の画像プロセッサを置き換え、携帯電話で一眼レフのような写真を撮ることができる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

写真撮影は携帯電話の最大のセールスポイントとなっており、大手メーカーは1億画素、スーパーナイトシーン、光学ズームなど、さまざまな機能でDxOのスコアを磨くことに熱心に取り組んでいます。

[[316548]]

しかし、異なる携帯電話で撮影した写真の質感は異なります。一方ではレンズモジュールが異なり、他方ではイメージプロセッサ(ISP)のソフトウェアチューニングも異なります。

最近、スイス連邦工科大学チューリッヒ校(ETHZ)は、携帯電話のISPを単一のエンドツーエンドのディープラーニングモデルで置き換えることができる新しいアルゴリズムPyNetを提案しました。

トレーニングしたカメラ アルゴリズムは、携帯電話の ISP を使用せずに、ある携帯電話から別の携帯電話に移植できます。たとえ 2 つの携帯電話チップが異なるメーカーのものであるとしても、まったく問題はありません。

Huawei P20とCanon SLRカメラ5D Mark IVで調整されたアルゴリズムがBlackBerry KeyOneに移植され、オリジナルのISP出力に比べて写真品質が大幅に向上しました。

Huawei P20はKirin 970チップと12メガピクセルのSony IMX 380カメラを採用しており、BlackBerry KeyOneはSnapdragon 625と12メガピクセルのSony IMX 378カメラを採用しています。

現在、PyNET のソースコード、データセット、事前トレーニング済みモデルが GitHub で公開されています。

PyNET の原則

シャッターボタンを押すと、1秒以内に携帯電話から写真が出力されますが、その背後にあるプロセスは非常に複雑です。

携帯電話で写真を撮ると、最初に出力されるのは、変更されていない元の感光情報ファイルRAWです。

RAW は、携帯電話の SoC 内の ISP による一連の処理を経て、画像計算専用に使用され、元々暗い元の画像が美しい結果に変わります。

プロセスには、ノイズの除去、ホワイトバランスの補正、露出の調整、色のコントラストの補正、超解像度などが含まれます。

現在、NPU などの AI コアを搭載した携帯電話が増えており、AI コンピューティング能力はますます強化されています。将来、NPU は画像コンピューティングの ISP の代わりに使用できるでしょうか?これはETHZの研究者の考えです。

研究者らはまず、Huawei P20で撮影された2万枚のRAWオリジナル画像と、Canon SLR 5D Mark IVで同じシーンで撮影された写真をトレーニング用のデータセットとして収集した。

ただし、トレーニング プロセスでは画像の元のサイズは使用されず、代わりに 448×448 ウィンドウを使用して画像の一部が選択され、最終的に 48043 個の RAW-RGB 画像ペアが生成されました。

より小規模なトレーニング結果を元のサイズの画像で使用できるようにするために、PyNET は階層型アーキテクチャを採用しています。

以下は PyNET のネットワーク アーキテクチャです。このモデルは逆ピラミッド型になっており、5 つの異なるレベルで画像を処理できます。

PyNET アーキテクチャには、さまざまなサイズ (3×3 から 9×9) の畳み込みフィルターを使用して特徴マップを並列に処理し、対応する畳み込み層の出力を連結する複数のブロックがあります。

より低いスケールで得られた出力は、転置畳み込み層を介してアップサンプリングされ、高レベルの特徴マップと積み重ねられ、その後、後続の畳み込み層で処理されます。

PyNET は最下層から順番にモデルをトレーニングします。まず低いスケールで良好な画像再構築結果を取得し、それを使用して非常に低解像度の画像を処理し、グローバルな画像操作を実行します。

最下層を事前トレーニングした後、元の解像度の画像でトレーニングされるまで、同じ手順が次のレベルに適用されます。

それぞれの上位レベルでは、モデルの下位部分から高レベルで高品質な特徴を取得し、主に、欠落している低レベルの詳細を再構築して結果を改良することを学習します。

トレーニング後、Huawei P20 で撮影された RAW 画像は処理のために PyNET に送信され、画像は Huawei の内蔵 ISP と同様に処理されます。

Amazon Mechanical Turk プラットフォームでの手動スコアリングでは、PyNet で処理された画像は P20 で直接出力された画像よりも見栄えが良いことが示されています。

インストールとトレーニング

PyNET は TensorFlow で実装されており、SciPy、NumPy、imageio、pillow のインストールが必要です。トレーニング中に CUDA と cuDNN が必要になるため、NVIDIA GPU も必須です。

さらに、事前トレーニング済みの VGG-19、PyNet モデル、および RAW-RGB 画像ペア データセットをダウンロードする必要があります。

著者らは、16GB のビデオ メモリを搭載した Tesla V100 GPU でモデルをトレーニングすることを推奨しています。

強力なコンピューティング リソースがない場合は、オープン ソース コードの dng_to_png.py を使用して RAW を PNG 形式の画像に変換することもできますが、ここで使用されているのは公式の P20 および Canon SLR チューニング結果です。

論文アドレス: https://arxiv.org/abs/2002.05509

ソースコード: https://github.com/aiff22/PyNET

<<:  2020年中国インテリジェントIoT(AIoT)白書

>>:  世界自動運転年間「強さ」リストが発表、百度がウェイモを抜いて首位に、ウェイモ:評価基準に反対

ブログ    
ブログ    
ブログ    

推薦する

Torch7 オープンソース PyTorch: Python ファーストのディープラーニング フレームワーク

PyTorch は、次の 2 つの高レベル機能を提供する Python パッケージです。強力な GP...

人工知能は希少疾患を患う4億人の患者がより効果的な診断を受けるのに役立っている

[[284630]] ▲人工知能は数百万の遺伝子変異を高速で検索し、希少疾患の原因を特定することがで...

KuaishouとNVIDIAが提携し、業界最先端のGPUコンピューティングインフラストラクチャを展開

1日あたり2億人以上のアクティブユーザーを抱える快手には、130億本以上の短編動画が蓄積されており、...

AIがサイバーセキュリティにできること、できないこと

過去数か月間にネットユーザーを最も怖がらせたものは何かと問われれば、それは以下のウイルス攻撃だろう。...

2020 年の AI トレンド トップ 10

デジタル労働力をサポートし維持するために職場で AI が普及することは、2020 年の明確なトレンド...

インテリジェント運転ビッグデータの最先端の研究の進歩と典型的な応用

1. はじめにインテリジェント運転とは、一般的には、自動運転や車両のインターネット(IoV)などの技...

調査によると、2024年は「AIメガネ」市場元年となる

AppleのVision Proヘッドセットは2024年第1四半期に発売される予定だが、業界の専門家...

GPT-4はバードに追い抜かれても納得せず、最新モデルが市場に投入された

「ビッグモデル予選コンペティション」チャットボット アリーナの公式リストが更新されました: Goog...

人工知能にはどのような分野が含まれますか?どのように機能しますか?

現代の産業技術の発展により、私たちの生活は大きく改善されました。新しい家具が次々と登場しています。キ...

企業における機械学習の導入を妨げる4つの障害

[51CTO.com クイック翻訳] 機械学習には多くの利点があるのに、なぜ誰もが導入しないのでしょ...

人工知能の未来は人類にとって何を意味するのでしょうか?

人工知能(AI)について多くの人が最初に尋ねる質問は、「それは良いものか、悪いものか?」です。答えは...

因果関係に着想を得た解釈可能なフレームワーク:大規模モデルを説明する効率的な方法

大規模モデルの背後にある科学をより深く理解し、その安全性を確保するためには、解釈可能性がますます重要...

ロボットと人工知能の違いは何でしょうか?

テクノロジーの世界では、「ロボット工学」と「人工知能(AI)」という 2 つの用語がしばしば結び付け...

新しいテクノロジー、古い問題: NLP における聞こえない「声」

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...