3 人のインド人が圧縮アルゴリズムを変更し、夏の間ずっとそれを実行することを主張しましたが、単純な理由で資金を調達できませんでした。

3 人のインド人が圧縮アルゴリズムを変更し、夏の間ずっとそれを実行することを主張しましたが、単純な理由で資金を調達できませんでした。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

世界最高の圧縮ソフトウェアは何ですか?

微信。

このジョークを聞いたことがある人は多いと思います。

数メガバイトの写真でも、WeChat で送信すればすぐに数百キロバイトにまで縮小できます。

△非可逆圧縮だと画質が落ちる(右の空は波紋がある)

これは不満ではありますが、u1s1、画像や動画の圧縮は実は非常に必要な技術です。

たとえば、ビデオ通話や大量の画像の転送を行う場合、圧縮を使用しないと、画像がまったく送信できないか、待機するだけになります。

そのため、デジタル時代の過去数十年間に、JPEG や H.26X など、多くの関連技術が登場しました。

しかし、これらの技術の起源が47 年前にまで遡ることはご存じないかもしれません。

3 人の無名のインド人エンジニアは「独自の道を歩み」、研究資金を申請せずに夏休みを利用してある技術を改良しました。後に、この技術は画像とビデオの圧縮における業界標準となりました。

DCTです。

正式名称は「離散コサイン変換」、つまり離散コサイン変換です。

興味深いのは、DCT が最初に作成されたとき、作者自身もそれが将来これほど大きな影響を与えるとは予想していなかったことです。

DCTがなければJPEG/MPEGは存在しない

DCT が何であるか知らない人も多いかもしれませんが、 JPEGについては誰もが聞いたことがあるはずです。

一般的な画像ファイル拡張子であることに加えて、画像を左側から右側に変換できる非可逆圧縮規格でもあります。

ps. 非可逆圧縮と可逆圧縮の違い: 可逆圧縮では画像を 100% 復元できますが、非可逆圧縮では復元できませんが、非可逆圧縮後の画像サイズは大幅に縮小されます。

DCT はこのプロセスを実現するための基本技術です。

これは、画像を空間領域から周波数領域に変換できる、つまり、画像をピクセル マトリックスから周波数などの情報を持つ関数に変換できるフーリエ変換の一種です。

具体的な変換プロセスについては、画像内の 3x3 ピクセル ブロックを例に挙げます。

△ 画像出典: Blog Garden ブロガー @Silent Back X-Pacific

このピクセル ブロックに対して DTC 変換を実行することは、最初のピクセルを除くピクセルの部分情報を最初のグリッドに抽出することと同じです。

このように、最初のグリッドのピクセル値は画像の全体的な外観を表し、これは低周波情報と呼ばれ、残りのグリッドは画像内の人物や物体の詳細を表し、これは高周波情報と呼ばれます。

DCT 変換後、各 3x3 ピクセル ブロックは 1 つの DC (直流) 係数 (最初のグリッドに配置) と 8 つの AC (交流) 係数 (残りのグリッド) を生成します。前者は DCTの最も重要な出力です。

画像エネルギーの大部分は低周波部分に集中しているため、変換後の DC 係数値出力は比較的大きくなり、AC 係数値出力は比較的小さくなります。

「人間の目は高周波画像よりも低周波画像に敏感である」という原理を利用して、量子化によって低周波成分を保持し、高周波成分を破棄(ほとんどのAC係数値を0に変更)し、視覚効果への影響が少ない情報を破棄することで、圧縮目的を達成します。

次の 2 つの画像の 3 次元投影から、DCT 変換によってもたらされた変化がわかります。

(上: 元の画像、下: DCT 変換後)

実際の JPEG 圧縮規格では、画像は複数の 8x8 ピクセルのブロックに分割されます(不十分なブロックは空白で埋められます)

色空間を RGB から YUV に変換した後、各ブロックに対して左から右、上から下に DCT 変換が実行されます。

各ブロック変換から得られた係数は量子化されます。このプロセスでは、いくつかの重要なコンポーネントが削除され、復元できなくなります。

したがって、これは不可逆な非可逆圧縮技術です。

そして量子化後に得られたAC係数とDC係数を別々にエンコードし、ハフマン符号化すると、次のような長い数字の列が得られます。

解凍時に、各画像ブロックに対して逆 DCT 変換 (IDCT) を実行することで、完全な画像を再構築できます。

具体的な計算手順は以下のとおりです。

まず、画像内の各ピクセルの元のグレースケールと明るさの値は、8 ビット、つまり (0, 255) の範囲で表されます。

ほとんどの値は 128 の周辺に分布しているので、これらの値から 128 を減算すると、0 の値が多くなり、圧縮に役立ちます。このとき、範囲は (-128, 127) になります。

次に、変換に DCT 変換式を使用します。2 次元変換の場合は、次のようにします。

変換後、量子化テーブルに従って量子化が行われ、ほとんどの係数が 0 に変更されて圧縮が完了します。

ps. 量子化テーブルは、人間の目の量子化誤差の視覚閾値に基づいて決定され、固定テーブルが存在します。

以下は、前述の一連のエンコード処理です。

この技術は、1974 年 1 月に IEEE Transactions on Computers で初めて発表されました。

それ以来、画像とビデオの圧縮における業界標準が誕生しました。

1998年の世界初の動画圧縮規格H.261、1992年のJPEGとMPEG、2010年のWebP、2013年のHEIF、2018年にGoogleやAmazonなどが共同で作成したAV1…などの圧縮規格はすべてこの技術に基づいており、現在まで使用されています。

40年以上も知られていなかった発明家

DCT の著者はNasir AhmedKR RaoT. Natarajan の 3 人です。

ナシル氏はニューメキシコ大学電気・コンピュータ工学部の名誉教授です。

彼は1940年にインドのバンガロールで生まれ、1966年にニューメキシコ大学で博士号を取得しました。

1966年から1968年までハネウェル社の主任エンジニアとして勤務し、1968年から1983年までカンザス州立大学の教授を務めた。

1983 年から 2001 年まで、彼はニューメキシコ大学に戻り、電気およびコンピュータ工学の教授を務めました。この間、彼は学部長および大学院学部長を務めた。

今年、ナシルさんは82歳になります。

もう一人の主要著者はKR Raoです。

彼はインド系アメリカ人の学者でもある。

1960年にフロリダ大学で原子力工学の博士号を取得した。 1966年、ニューメキシコ大学で電気およびコンピュータ工学の博士号を取得。

その後50年間、彼はテキサス大学アーリントン校で電気工学の教授として働きました。

同時に、彼はIEEEフェローでもあります。

2021年1月15日、ラオ教授は89歳で亡くなりました。

T. ナタラジャンは当時ナシルの博士課程の学生でしたが、現在では彼に関する情報はインターネット上でほとんど見つかりません。

有名な DCT と比較すると、その発明者の多くはあまり知られていないと言えます。

実際、40 年以上にわたって、DCT の発明の背景にある物語はほとんど注目されてきませんでした。

ナシルさんの息子も「父の影響力がこれほど大きいとは思ってもみませんでした」と語っています。

ナシル氏を舞台裏から表舞台へと押し上げたのは、アメリカのテレビシリーズにおける一連のトリビュートだった。

2020年には、「Days of Our Lives」でナシルがビデオ通話を通じて妻との愛の物語を語るというストーリーがありました。

映画製作者らは、このシーンをデザインした当初の意図は、インターネットを通じて写真や動画を素早く送信できる現在の能力はナシル氏の作品と切り離せないものだということを、より多くの人々に理解してもらうことだったと語った。

ドラマ放送後、多くのメディアはDCTを「世界を変えるアルゴリズム」と定義し、無名エンジニアだったナシルがついに舞台裏から表舞台に押し出されたとも評した。

しかし、ナシル氏は回想録ビデオの中で、DCTがこれほど大きな影響を与えるとは思っていなかったと語った。

また、テクノロジーがこれほど急速に進化するとは予想もできず、FaceTime のようなアプリの登場には非常に驚きました。

△ 幼い頃のナシル(左)

ご存知のとおり、DCT は当初、誕生当初にほぼ消滅しかけていました。

1972年、すでにDCTについてのアイデアを持っていたナシルは、DCTに関する研究に対してNSFが資金援助してくれることを期待して、国立科学財団(NSF)に申請書を提出した。

しかし、ナシル氏の驚いたことに、申請は即座に却下され、審査員のコメントは「あまりにも単純すぎる」というものでした。

幸いなことに、ナシルは諦めませんでした。彼は常にこのアイデアが非常に革新的だと考えていました。

彼が心配しているのは、休暇をDCT関連の仕事にしか使えず、その間収入がないかもしれないということだけだ。

そこでナシルは家に帰って妻にこう言いました。

これは追求する価値のあることだという予感がします。給料なしで夏をどう過ごすかを計画する必要があるだけです。

彼の妻はためらうことなく彼を支持した。

こうして、1973 年の夏に、DCT の研究作業が正式に始まりました

この研究には、ナシルさんの親友ラオさんと博士課程の学生ナタラジャンさんも参加した。

ラオ氏は、ナシル氏の DCT 研究を支援した重要人物の一人でもありました。

ナシルさんの申請が却下された後、彼はすぐに親友のラオさんに自分のアイデアについて話しました。

ラオ氏はこう答えた。

これらの結果を短い論文の形ですぐに発表してください。

こうして「離散コサイン変換を思いついた経緯」が誕生しました。

その後、この記事は画像とビデオの圧縮の分野では必読の記事となりました。

これから述べる物語は、私たち全員が知っていることです。

1974 年に、「離散コサイン変換」が IEEE Transactions on Computers に掲載されました。

現在までにこの記事は5,878回引用されています。

ナシル氏はかつてインタビューで、人生で最大の贈り物は人々がDCTを認めてくれたことだと語ったことがある。

<<:  人工知能は地球規模の気候危機に対処するために何ができるでしょうか?

>>:  脳コンピューターインターフェースでケーキを食べる

ブログ    
ブログ    

推薦する

サービスロボット防疫シリーズ:食品の配達、消毒、誘導などにより、感染症の予防と抑制に貢献

新たな流行が猛烈に迫っており、特に河北省の流行は絶えず捜索されており、人々をパニックに陥れています。...

研究者はAIを使って、人間には判別が難しい火星のクレーターを発見する

惑星科学者たちは、このような高度な天文学研究に人工知能を利用することは画期的なことだと述べている。 ...

HKUST & MSRA リサーチ: 画像から画像への変換に必要なのは微調整だけ

多くのコンテンツ作成プロジェクトでは、単純なスケッチをリアルな絵に変換する必要があります。これには、...

人工知能が私たちの日常生活を変える5つの方法

人工知能はもはや未来的な概念ではなく、私たちの日常生活に欠かせないものとなっています。私たちが目覚め...

実際のシナリオにおける知識グラフに基づく大規模モデル幻覚の原因、評価、緩和戦略の探究

大規模モデルの実用化の問題に関しては、現在業界では大規模モデルを使用して質疑応答を行うのが一般的です...

Google はなぜいつも AI に芸術を強制するのでしょうか?

Google の人工知能といえば、チェスマシンの AlphaGo や Waymo の自動運転車を思...

モザイクがワンクリックでHDになる?魔法のAI「ロスレス拡大」ツール

写真を鮮明に見るにはどうすればいいですか?サムネイルを何度も拡大すると、モザイクしか見えなくなる場合...

ビジネス上の問題を機械学習の問題に変換するにはどうすればよいでしょうか?

[[197632]]機械学習が価値を変革するための最も重要なステップは何ですか?ビジネス上の問題に...

3D編集をPhotoshopと同じくらい簡単に。新しいアルゴリズムGaussianEditorは、3Dシーンの追加、削除、変更を数分で完了できます。

3D編集はゲームやバーチャルリアリティなどの分野で重要な役割を果たします。しかし、これまでの3D編...

...

eSIM テクノロジーはどのようにしてグローバル BVLOS ドローンの運用を簡素化できるのでしょうか?

近年、ドローンは農業から物流、世界的な軍事作戦まで、多くの産業に革命をもたらしました。 これらの飛行...

注目すべきデータ視覚化の5つの新たなトレンド

[[412404]]データの視覚化はビジネス指標を理解するための最新の方法です情報の世界におけるテク...

この記事では、インテリジェントな注釈の原理について説明します。人工知能が注釈の問題を解決する方法を学びます。

従来の機械学習の分野でも、今日注目されているディープラーニングの分野でも、明確なラベルや結果を持つト...

清華大学とアリババDAMOアカデミーが開発した業界初の少数サンプルNERデータセット

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...