3 人のインド人が圧縮アルゴリズムを変更し、夏の間ずっとそれを実行することを主張しましたが、単純な理由で資金を調達できませんでした。

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

世界最高の圧縮ソフトウェアは何ですか?

微信。

このジョークを聞いたことがある人は多いと思います。

数メガバイトの写真でも、WeChat で送信すればすぐに数百キロバイトにまで縮小できます。

△非可逆圧縮だと画質が落ちる（右の空は波紋がある）

これは不満ではありますが、u1s1、画像や動画の圧縮は実は非常に必要な技術です。

たとえば、ビデオ通話や大量の画像の転送を行う場合、圧縮を使用しないと、画像がまったく送信できないか、待機するだけになります。

そのため、デジタル時代の過去数十年間に、JPEG や H.26X など、多くの関連技術が登場しました。

しかし、これらの技術の起源が47 年前にまで遡ることはご存じないかもしれません。

3 人の無名のインド人エンジニアは「独自の道を歩み」、研究資金を申請せずに夏休みを利用してある技術を改良しました。後に、この技術は画像とビデオの圧縮における業界標準となりました。

DCTです。

正式名称は「離散コサイン変換」、つまり離散コサイン変換です。

興味深いのは、DCT が最初に作成されたとき、作者自身もそれが将来これほど大きな影響を与えるとは予想していなかったことです。

DCTがなければJPEG/MPEGは存在しない

DCT が何であるか知らない人も多いかもしれませんが、 JPEGについては誰もが聞いたことがあるはずです。

一般的な画像ファイル拡張子であることに加えて、画像を左側から右側に変換できる非可逆圧縮規格でもあります。

ps. 非可逆圧縮と可逆圧縮の違い: 可逆圧縮では画像を 100% 復元できますが、非可逆圧縮では復元できませんが、非可逆圧縮後の画像サイズは大幅に縮小されます。

DCT はこのプロセスを実現するための基本技術です。

これは、画像を空間領域から周波数領域に変換できる、つまり、画像をピクセルマトリックスから周波数などの情報を持つ関数に変換できるフーリエ変換の一種です。

具体的な変換プロセスについては、画像内の 3x3 ピクセルブロックを例に挙げます。

△ 画像出典: Blog Garden ブロガー @Silent Back X-Pacific

このピクセルブロックに対して DTC 変換を実行することは、最初のピクセルを除くピクセルの部分情報を最初のグリッドに抽出することと同じです。

このように、最初のグリッドのピクセル値は画像の全体的な外観を表し、これは低周波情報と呼ばれ、残りのグリッドは画像内の人物や物体の詳細を表し、これは高周波情報と呼ばれます。

DCT 変換後、各 3x3 ピクセルブロックは 1 つの DC (直流) 係数 (最初のグリッドに配置) と 8 つの AC (交流) 係数 (残りのグリッド) を生成します。前者は DCTの最も重要な出力です。

画像エネルギーの大部分は低周波部分に集中しているため、変換後の DC 係数値出力は比較的大きくなり、AC 係数値出力は比較的小さくなります。

「人間の目は高周波画像よりも低周波画像に敏感である」という原理を利用して、量子化によって低周波成分を保持し、高周波成分を破棄（ほとんどのAC係数値を0に変更）し、視覚効果への影響が少ない情報を破棄することで、圧縮目的を達成します。

次の 2 つの画像の 3 次元投影から、DCT 変換によってもたらされた変化がわかります。

(上: 元の画像、下: DCT 変換後)

実際の JPEG 圧縮規格では、画像は複数の 8x8 ピクセルのブロックに分割されます(不十分なブロックは空白で埋められます) 。

色空間を RGB から YUV に変換した後、各ブロックに対して左から右、上から下に DCT 変換が実行されます。

各ブロック変換から得られた係数は量子化されます。このプロセスでは、いくつかの重要なコンポーネントが削除され、復元できなくなります。

したがって、これは不可逆な非可逆圧縮技術です。

そして量子化後に得られたAC係数とDC係数を別々にエンコードし、ハフマン符号化すると、次のような長い数字の列が得られます。

解凍時に、各画像ブロックに対して逆 DCT 変換 (IDCT) を実行することで、完全な画像を再構築できます。

具体的な計算手順は以下のとおりです。

まず、画像内の各ピクセルの元のグレースケールと明るさの値は、8 ビット、つまり (0, 255) の範囲で表されます。

ほとんどの値は 128 の周辺に分布しているので、これらの値から 128 を減算すると、0 の値が多くなり、圧縮に役立ちます。このとき、範囲は (-128, 127) になります。

次に、変換に DCT 変換式を使用します。2 次元変換の場合は、次のようにします。

変換後、量子化テーブルに従って量子化が行われ、ほとんどの係数が 0 に変更されて圧縮が完了します。

ps. 量子化テーブルは、人間の目の量子化誤差の視覚閾値に基づいて決定され、固定テーブルが存在します。

以下は、前述の一連のエンコード処理です。

この技術は、1974 年 1 月に IEEE Transactions on Computers で初めて発表されました。

それ以来、画像とビデオの圧縮における業界標準が誕生しました。

1998年の世界初の動画圧縮規格H.261、1992年のJPEGとMPEG、2010年のWebP、2013年のHEIF、2018年にGoogleやAmazonなどが共同で作成したAV1…などの圧縮規格はすべてこの技術に基づいており、現在まで使用されています。

40年以上も知られていなかった発明家

DCT の著者はNasir Ahmed 、 KR Rao 、 T. Natarajan の 3 人です。

ナシル氏はニューメキシコ大学電気・コンピュータ工学部の名誉教授です。

彼は1940年にインドのバンガロールで生まれ、1966年にニューメキシコ大学で博士号を取得しました。

1966年から1968年までハネウェル社の主任エンジニアとして勤務し、1968年から1983年までカンザス州立大学の教授を務めた。

1983 年から 2001 年まで、彼はニューメキシコ大学に戻り、電気およびコンピュータ工学の教授を務めました。この間、彼は学部長および大学院学部長を務めた。

今年、ナシルさんは82歳になります。

もう一人の主要著者はKR Raoです。

彼はインド系アメリカ人の学者でもある。

1960年にフロリダ大学で原子力工学の博士号を取得した。 1966年、ニューメキシコ大学で電気およびコンピュータ工学の博士号を取得。

その後50年間、彼はテキサス大学アーリントン校で電気工学の教授として働きました。

同時に、彼はIEEEフェローでもあります。

2021年1月15日、ラオ教授は89歳で亡くなりました。

T. ナタラジャンは当時ナシルの博士課程の学生でしたが、現在では彼に関する情報はインターネット上でほとんど見つかりません。

有名な DCT と比較すると、その発明者の多くはあまり知られていないと言えます。

実際、40 年以上にわたって、DCT の発明の背景にある物語はほとんど注目されてきませんでした。

ナシルさんの息子も「父の影響力がこれほど大きいとは思ってもみませんでした」と語っています。

ナシル氏を舞台裏から表舞台へと押し上げたのは、アメリカのテレビシリーズにおける一連のトリビュートだった。

2020年には、「Days of Our Lives」でナシルがビデオ通話を通じて妻との愛の物語を語るというストーリーがありました。

映画製作者らは、このシーンをデザインした当初の意図は、インターネットを通じて写真や動画を素早く送信できる現在の能力はナシル氏の作品と切り離せないものだということを、より多くの人々に理解してもらうことだったと語った。

ドラマ放送後、多くのメディアはDCTを「世界を変えるアルゴリズム」と定義し、無名エンジニアだったナシルがついに舞台裏から表舞台に押し出されたとも評した。

しかし、ナシル氏は回想録ビデオの中で、DCTがこれほど大きな影響を与えるとは思っていなかったと語った。

また、テクノロジーがこれほど急速に進化するとは予想もできず、FaceTime のようなアプリの登場には非常に驚きました。

△ 幼い頃のナシル（左）

ご存知のとおり、DCT は当初、誕生当初にほぼ消滅しかけていました。

1972年、すでにDCTについてのアイデアを持っていたナシルは、DCTに関する研究に対してNSFが資金援助してくれることを期待して、国立科学財団（NSF）に申請書を提出した。

しかし、ナシル氏の驚いたことに、申請は即座に却下され、審査員のコメントは「あまりにも単純すぎる」というものでした。

幸いなことに、ナシルは諦めませんでした。彼は常にこのアイデアが非常に革新的だと考えていました。

彼が心配しているのは、休暇をDCT関連の仕事にしか使えず、その間収入がないかもしれないということだけだ。

そこでナシルは家に帰って妻にこう言いました。

これは追求する価値のあることだという予感がします。給料なしで夏をどう過ごすかを計画する必要があるだけです。

彼の妻はためらうことなく彼を支持した。

こうして、1973 年の夏に、DCT の研究作業が正式に始まりました。

この研究には、ナシルさんの親友ラオさんと博士課程の学生ナタラジャンさんも参加した。

ラオ氏は、ナシル氏の DCT 研究を支援した重要人物の一人でもありました。

ナシルさんの申請が却下された後、彼はすぐに親友のラオさんに自分のアイデアについて話しました。

ラオ氏はこう答えた。

これらの結果を短い論文の形ですぐに発表してください。

こうして「離散コサイン変換を思いついた経緯」が誕生しました。

その後、この記事は画像とビデオの圧縮の分野では必読の記事となりました。

これから述べる物語は、私たち全員が知っていることです。

1974 年に、「離散コサイン変換」が IEEE Transactions on Computers に掲載されました。

現在までにこの記事は5,878回引用されています。

ナシル氏はかつてインタビューで、人生で最大の贈り物は人々がDCTを認めてくれたことだと語ったことがある。

<<: 人工知能は地球規模の気候危機に対処するために何ができるでしょうか?

>>: 脳コンピューターインターフェースでケーキを食べる

ドーパミンが来る！ Google が新しい強化学習フレームワーク Dopamine を発表

ブログ

顔認証ロック解除を使用するとき、携帯電話はどのようにしてあなたを「認識」するのでしょうか?顔認識について詳しく知る

ブログ

倫理的な AI の今後はどうなるのでしょうか?

ブログ

3 人のインド人が圧縮アルゴリズムを変更し、夏の間ずっとそれを実行することを主張しましたが、単純な理由で資金を調達できませんでした。

DCTがなければJPEG/MPEGは存在しない

40年以上も知られていなかった発明家

ドーパミンが来る！ Google が新しい強化学習フレームワーク Dopamine を発表

顔認証ロック解除を使用するとき、携帯電話はどのようにしてあなたを「認識」するのでしょうか?顔認識について詳しく知る

倫理的な AI の今後はどうなるのでしょうか?

推薦する

2019年のAI技術のブレークスルーをすべて見る

時代を先取り: パーソナライズされたマーケティング: 人工知能がカスタマーサービス業界にもたらす変化

このアルゴリズムは顔認識の「マスク」問題を解決し、2日間で1,000人のコミュニティで97％の精度を達成しました | AIが疫病と戦う

人工知能とモノのインターネット：スマートシティの交通管理

AIが人事と採用を変える3つの方法

予知保全: 畳み込みニューラルネットワーク (CNN) を使用したセンサー障害の検出

ビッグデータの機械理解の秘密：クラスタリングアルゴリズムの詳細な説明

アリババ、量子アルゴリズムとエラー訂正の探究をサポートする量子シミュレータ「Taizhang 2.0」をオープンソース化

AGI（汎用人工知能）は数年のうちに実現されるでしょうか？ 3つのテクノロジー大手が判決を下す

プログラマー試験ノート4: ソートアルゴリズム