モザイクから高精細画像まで、AIの画像作成能力は強化されてきましたが、美しさと歪みのバランスをどう実現するのでしょうか。

モザイクから高精細画像まで、AIの画像作成能力は強化されてきましたが、美しさと歪みのバランスをどう実現するのでしょうか。

サスペンスやSF作品では、ぼやけた写真がコンピューターの画面に表示され、捜査官が画像を強調するように依頼すると、画像が魔法のように鮮明になり、重要な手がかりが明らかになる、といったシーンがよく見られます。

これは素晴らしいことのように思えるかもしれないが、実際には何十年もの間、完全に架空の筋書きだったのだ。 AI の生成能力が成長し始めたときでさえ、しばらくの間は困難でした。「画像を拡大しただけでは、ぼやけてしまいます。細部はたくさんありますが、すべてが間違っています」と、Nvidia の応用ディープラーニング研究担当副社長、ブライアン・カタンザーロ氏は言います。

しかし、研究者たちは最近、画像強化ツールに AI アルゴリズムを組み込み始めており、プロセスはより簡単かつ強力になっていますが、画像から取得できるデータには依然として限界があります。しかし、研究者たちは拡張アルゴリズムの限界を押し広げ続ける中で、これらの制限に対処する新しい方法、さらにはそれらを克服する方法を見つけています。

過去 10 年間、研究者たちは、詳細で印象的な写真を生成できる生成的敵対的ネットワーク (GAN) モデルを使用して画像を強化し始めました。

「突然、画像がずっと良く見えるようになった」とイスラエルのテヘラン工科大学の電気技師、トメル・ミカエリ氏は言う。しかし、彼はGANによって生成された画像が、拡張された画像が表示されている基礎となる現実にどれだけ近いかを測定する歪みのレベルが高いことにも驚いた。 GAN によって生成された画像は美しく自然に見えますが、実際には不正確な詳細を「捏造」または「想像」しており、大きな歪みが生じています。

ミカエリ氏は、写真修復の分野は主に 2 つのカテゴリに分かれることに気づきました。1 つは美しい写真で、その多くは GAN によって生成されました。もう 1 つはデータを表示しますが、見栄えが良くないため、写真はあまり表示されません。

2017 年、ミカエリ氏と大学院生のヨチャイ・ブラウ氏は、人間の主観的判断と相関する知覚品質の既知の尺度を使用して、歪みと知覚品質の観点からさまざまな画像強調アルゴリズムのパフォーマンスをより正式に調査しました。ミカエリ氏の予想通り、いくつかのアルゴリズムは非常に高い視覚品質を備えており、他のアルゴリズムは非常に正確で歪みが非常に少ないものでした。しかし、どちらも両方の利点を備えているわけではないので、どちらか一方を選択する必要があります。これは知覚歪みのトレードオフとして知られています。

ミカエリ氏はまた、きれいな画像アルゴリズムと優れた統計アルゴリズムを公平に比較​​するために、特定のレベルの歪みに対して最高の画像品質を生み出すアルゴリズムを考案するよう他の研究者に要求しました。それ以来、何百人もの AI 研究者が、このトレードオフを説明するミカエリとブラウの論文を引用しながら、アルゴリズムの歪みと知覚品質を発表してきました。

知覚の歪みのトレードオフの影響は、それほどひどくない場合もあります。たとえば、Nvidia は高解像度の画面では一部の低解像度のビジュアル コンテンツをうまくレンダリングできないことを発見し、2023 年 2 月にディープラーニングを使用してストリーミング ビデオの品質を向上させるツールをリリースしました。この場合、Nvidia のエンジニアは、アルゴリズムがビデオをアップスケールすると元のビデオにはなかった視覚的な詳細が生成されるという事実を受け入れ、正確さよりも知覚的な品質を選択しました。

「このモデルは空想だ。すべては推測だ」とカタンザーロ氏は語った。 「超解像モデルがほとんどの場合間違った推測をしたとしても、それが一貫している限りは問題ではありません。」

マウスの脳内の血流の表示(左)と、AI ツールを使用して画像の品質と精度を向上させた後の同じ表示。画像提供: デューク大学のJunjie Yao氏とXiaoyi Zhu氏。

特に、研究や医療の分野での応用では、より高い精度が求められます。 AIは画像処理の分野で大きな進歩を遂げてきたが、「過剰適合や誤った特徴の追加など、望ましくない副作用が生じることもあるため、細心の注意を払って扱う必要がある」と、ノースカロライナ州ダーラムにあるデューク大学の生物医学エンジニア、ジュンジエ・ヤオ氏は言う。

昨年、彼は論文の中で、知覚と歪みのトレードオフの正確さの面で安全に動作しながら、脳の血流と代謝を測定する既存の方法を改善するために AI ツールを使用する方法について説明しました。

画像から抽出できるデータ量の制限を回避する 1 つの方法は、より多くの画像からのデータを単純に組み合わせることです。これまで、画像を通じて環境を研究する研究者たちは、さまざまな情報源からの視覚データを統合する上で一定の進歩を遂げてきた。2021年には、中国と英国の研究者が2つの異なるタイプのデータを融合し、コンゴ盆地の森林破壊をより詳しく調査した。コンゴ盆地は世界で 2 番目に大きい熱帯雨林であり、生物多様性に最も富んだ地域のひとつです。研究者らは、数十年にわたって森林破壊を測定してきた2機のランドサットからデータを取得し、ディープラーニング技術を使用して画像の解像度を30メートルから10メートルに向上させた。次に、研究者たちはこの画像セットを、わずかに異なる検出器アレイを持つ2つのSentinel-2衛星のデータと融合しました。実験では、この複合画像により、「Sentinel-2 または Landsat-7/8 画像を単独で使用した場合よりも 11% ~ 21% 多くの乱れた領域を検出できる」ことが示されました。

直接的な突破口が開けない場合、ミカエリ氏は情報の入手可能性を厳しく制限する別の方法を提案している。低品質の画像をどのように改善するかについて明確な答えを求めるのではなく、モデルは元の画像の複数の異なる解釈を示すことができます。彼は論文「Explorable Super Resolution」の中で、画像強化ツールがユーザーに複数の提案を提供できる方法を示しました。灰色のシャツを着ているように見える人物のぼやけた低解像度画像は、シャツが白黒の縦縞、横縞、またはチェック柄である高解像度画像に再構築できます。これらはすべて、同様に妥当です。

別の例では、ミカエリ氏はナンバープレートの低品質の写真を撮影し、AI 画像強化を使用して、ナンバープレートの数字 1 が 0 に最も似ていることを示しました。しかし、ミカエリ氏が設計した、よりオープンエンドな別のアルゴリズムで画像を処理したところ、その数字は 0、1、8 のどれになる可能性も同じくらい高くなりました。このアプローチは、数値が 0 であると誤って結論付けることなく、他の数値を除外するのに役立ちます。

こうした幻想を和らげることはできるが、犯罪を解決する強力な「ブースト」ボタンは依然として夢のままだ。

さまざまな分野のさまざまな専門分野が独自の方法で知覚と歪みのトレードオフを探求する中、AI 画像からどれだけの情報を抽出できるか、そしてこれらの画像はどの程度信頼できるかという中心的な疑問が残っています。

「これらの美しい画像を出力するには、アルゴリズムが細部を作り上げているだけであることを忘れてはならない」とミカエリ氏は語った。

<<:  GPT-4Vに匹敵し、120万データと8つのA100のみを使用し、トレーニングは1日で完了し、LLaVA-1.5は11のベンチマークSOTAを更新しました。

>>:  GPUが急成長を遂げるGenAIの時代において、AMDはNvidiaのCUDAソフトウェアの堀を超えつつある

ブログ    
ブログ    

推薦する

NTUは、3枚の画像のみを使用して高品質の3Dシーンを合成するSparseNeRFを提案しています。

ディープラーニングと 3D テクノロジーの発展により、Neural Radiance Fields ...

ビジネスの自動化は、企業のデジタル変革における重要な課題となっている。

多くの企業が、ロボティック・プロセス・オートメーション(RPA)を監督することを主な責務とする最高オ...

成長痛に遭遇: 2017 年の AI およびビッグデータ業界のレビュー

2017 年、人工知能とビッグデータの開発では次の 10 の成長痛が発生しました。 [[216307...

...

遺伝的アルゴリズムの基本概念と実装(Java 実装例付き)

上図(左)に示すように、個体が複数の染色体で構成され、各染色体が複数の遺伝子で構成されている場合に遺...

2021年の人工知能業界の予測

[[375635]] 2020 年は激動の年であり、組織は数多くの課題に直面しました。 2021年に...

15歳の少女が農場の収穫機にヒントを得てピンポン球を拾うロボットを発明

最近、上海の15歳の中学生が卓球ボールを拾うロボットを発明した。体育館の床に散らばった卓球ボールを自...

この病院のAI看護師は、人間の看護師の作業負荷を30%削減するためにオンライン化されました

[[270607]]看護師は医療現場を問わず需要が高いです。米国労働統計局の報告によると、看護師の求...

欧州が世界クラスの人工知能研究機関を建設へ

英国の「ガーディアン」ウェブサイトは、この新しい研究所を設立した理由は、欧州原子核研究機構を設立した...

データ分析 VS アルゴリズムモデル、どのように作業を分割し、効率的に連携するか?

[[438791]]この記事はWeChat公式アカウント「地道学院」から転載したもので、著者は地道...

物体検出にディープラーニングを使用する方法

[51CTO.com クイック翻訳]ディープニューラルネットワークは、視覚情報を処理する強力な能力で...

とてもかっこいいですね! Python で人工知能の最適化アルゴリズムを 5 分で理解する

概要勾配降下法は、ニューラル ネットワークでよく使われる最適化アルゴリズムの 1 つです。一般的に、...

AI、IoTセンサー、ハイブリッドクラウドによるインダストリー4.0の拡張

AI の成熟度が増すということは、あらゆる規模の組織が AI をより簡単に使用して、重大で複雑な問題...

DAMO アカデミーの 2020 年の予測: AI は知覚知能から認知知能へと進化する

1月2日、アリババDAMOアカデミーは2020年のトップ10テクノロジートレンドを発表しました。これ...