AIアルゴリズムは携帯電話の画像プロセッサを置き換え、携帯電話で一眼レフのような写真を撮ることができる

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

写真撮影は携帯電話の最大のセールスポイントとなっており、大手メーカーは1億画素、スーパーナイトシーン、光学ズームなど、さまざまな機能でDxOのスコアを磨くことに熱心に取り組んでいます。

しかし、異なる携帯電話で撮影した写真の質感は異なります。一方ではレンズモジュールが異なり、他方ではイメージプロセッサ（ISP）のソフトウェアチューニングも異なります。

最近、スイス連邦工科大学チューリッヒ校（ETHZ）は、携帯電話のISPを単一のエンドツーエンドのディープラーニングモデルで置き換えることができる新しいアルゴリズムPyNetを提案しました。

トレーニングしたカメラアルゴリズムは、携帯電話の ISP を使用せずに、ある携帯電話から別の携帯電話に移植できます。たとえ 2 つの携帯電話チップが異なるメーカーのものであるとしても、まったく問題はありません。

Huawei P20とCanon SLRカメラ5D Mark IVで調整されたアルゴリズムがBlackBerry KeyOneに移植され、オリジナルのISP出力に比べて写真品質が大幅に向上しました。

Huawei P20はKirin 970チップと12メガピクセルのSony IMX 380カメラを採用しており、BlackBerry KeyOneはSnapdragon 625と12メガピクセルのSony IMX 378カメラを採用しています。

現在、PyNET のソースコード、データセット、事前トレーニング済みモデルが GitHub で公開されています。

PyNET の原則

シャッターボタンを押すと、1秒以内に携帯電話から写真が出力されますが、その背後にあるプロセスは非常に複雑です。

携帯電話で写真を撮ると、最初に出力されるのは、変更されていない元の感光情報ファイルRAWです。

RAW は、携帯電話の SoC 内の ISP による一連の処理を経て、画像計算専用に使用され、元々暗い元の画像が美しい結果に変わります。

プロセスには、ノイズの除去、ホワイトバランスの補正、露出の調整、色のコントラストの補正、超解像度などが含まれます。

現在、NPU などの AI コアを搭載した携帯電話が増えており、AI コンピューティング能力はますます強化されています。将来、NPU は画像コンピューティングの ISP の代わりに使用できるでしょうか?これはETHZの研究者の考えです。

研究者らはまず、Huawei P20で撮影された2万枚のRAWオリジナル画像と、Canon SLR 5D Mark IVで同じシーンで撮影された写真をトレーニング用のデータセットとして収集した。

ただし、トレーニングプロセスでは画像の元のサイズは使用されず、代わりに 448×448 ウィンドウを使用して画像の一部が選択され、最終的に 48043 個の RAW-RGB 画像ペアが生成されました。

より小規模なトレーニング結果を元のサイズの画像で使用できるようにするために、PyNET は階層型アーキテクチャを採用しています。

以下は PyNET のネットワークアーキテクチャです。このモデルは逆ピラミッド型になっており、5 つの異なるレベルで画像を処理できます。

PyNET アーキテクチャには、さまざまなサイズ (3×3 から 9×9) の畳み込みフィルターを使用して特徴マップを並列に処理し、対応する畳み込み層の出力を連結する複数のブロックがあります。

より低いスケールで得られた出力は、転置畳み込み層を介してアップサンプリングされ、高レベルの特徴マップと積み重ねられ、その後、後続の畳み込み層で処理されます。

PyNET は最下層から順番にモデルをトレーニングします。まず低いスケールで良好な画像再構築結果を取得し、それを使用して非常に低解像度の画像を処理し、グローバルな画像操作を実行します。

最下層を事前トレーニングした後、元の解像度の画像でトレーニングされるまで、同じ手順が次のレベルに適用されます。

それぞれの上位レベルでは、モデルの下位部分から高レベルで高品質な特徴を取得し、主に、欠落している低レベルの詳細を再構築して結果を改良することを学習します。

トレーニング後、Huawei P20 で撮影された RAW 画像は処理のために PyNET に送信され、画像は Huawei の内蔵 ISP と同様に処理されます。

Amazon Mechanical Turk プラットフォームでの手動スコアリングでは、PyNet で処理された画像は P20 で直接出力された画像よりも見栄えが良いことが示されています。

インストールとトレーニング

PyNET は TensorFlow で実装されており、SciPy、NumPy、imageio、pillow のインストールが必要です。トレーニング中に CUDA と cuDNN が必要になるため、NVIDIA GPU も必須です。

さらに、事前トレーニング済みの VGG-19、PyNet モデル、および RAW-RGB 画像ペアデータセットをダウンロードする必要があります。

著者らは、16GB のビデオメモリを搭載した Tesla V100 GPU でモデルをトレーニングすることを推奨しています。

強力なコンピューティングリソースがない場合は、オープンソースコードの dng_to_png.py を使用して RAW を PNG 形式の画像に変換することもできますが、ここで使用されているのは公式の P20 および Canon SLR チューニング結果です。

論文アドレス: https://arxiv.org/abs/2002.05509

ソースコード: https://github.com/aiff22/PyNET

<<: 2020年中国インテリジェントIoT（AIoT）白書

>>: 世界自動運転年間「強さ」リストが発表、百度がウェイモを抜いて首位に、ウェイモ：評価基準に反対

ブログ

世界中の経営幹部の93%がAIに期待を抱いているが、65%はまだその恩恵を受けていないと答えている。

ブログ

求職者は偽者でしょうか？詐欺師はディープフェイクを使って身元を盗み、遠隔地の仕事に応募する。FBI：話すときに識別できる

AIアルゴリズムは携帯電話の画像プロセッサを置き換え、携帯電話で一眼レフのような写真を撮ることができる

PyNET の原則

インストールとトレーニング

世界中の経営幹部の93%がAIに期待を抱いているが、65%はまだその恩恵を受けていないと答えている。

求職者は偽者でしょうか？詐欺師はディープフェイクを使って身元を盗み、遠隔地の仕事に応募する。FBI：話すときに識別できる

彼女はウルトラマンを追い出すキーパーソンなのか？ OpenAI CTOがビッグニュースを発表

10万ドル＋26日、低コスト1000億パラメータLLMが誕生

開発者にとって朗報：中国初の AI 自動脆弱性マイニングシステムが公開テストを開始

在庫 | 今年の世界の AI 事情

興味深い質問です。2025年までに自動運転車が普及したとしても、運転免許証を取得する必要はあるのでしょうか?

推薦する

ナレッジグラフをビッグモデルの仲間にしよう

大きなモデルが常に「事実」を間違えた場合はどうすればよいでしょうか? 300以上の論文のレビューはこちら

機械学習における 5 つの現実的な問題とビジネスへの影響

Nature: ネイチャーインデックスではUSTCと南京大学が清華大学や北京大学よりも上位にランクイン。中山大学と山東大学の自然科学論文の発表数は過去3年間で急増している。

RustベースのZedエディタがオープンソース化され、OpenAIとGitHub Copilotのサポートが組み込まれました

畳み込みニューラルネットワークの基礎を1つの記事で学びます。

ニューラルネットワークにおけるBPアルゴリズムの原理とPython実装のソースコード解析

消費財の画像認識：無人店舗を支える商品認識技術

Google の大きな暴露: 謎の AI ツールが明らかに、Gemini が PaLM 2 に取って代わる

Java ソートアルゴリズムの概要 (II): 選択ソート

エネルギーの未来: 仮想発電所はエネルギー転換を加速できるか?