3 人のインド人が圧縮アルゴリズムを変更し、夏の間ずっとそれを実行することを主張しましたが、単純な理由で資金を調達できませんでした。

3 人のインド人が圧縮アルゴリズムを変更し、夏の間ずっとそれを実行することを主張しましたが、単純な理由で資金を調達できませんでした。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

世界最高の圧縮ソフトウェアは何ですか?

微信。

このジョークを聞いたことがある人は多いと思います。

数メガバイトの写真でも、WeChat で送信すればすぐに数百キロバイトにまで縮小できます。

△非可逆圧縮だと画質が落ちる(右の空は波紋がある)

これは不満ではありますが、u1s1、画像や動画の圧縮は実は非常に必要な技術です。

たとえば、ビデオ通話や大量の画像の転送を行う場合、圧縮を使用しないと、画像がまったく送信できないか、待機するだけになります。

そのため、デジタル時代の過去数十年間に、JPEG や H.26X など、多くの関連技術が登場しました。

しかし、これらの技術の起源が47 年前にまで遡ることはご存じないかもしれません。

3 人の無名のインド人エンジニアは「独自の道を歩み」、研究資金を申請せずに夏休みを利用してある技術を改良しました。後に、この技術は画像とビデオの圧縮における業界標準となりました。

DCTです。

正式名称は「離散コサイン変換」、つまり離散コサイン変換です。

興味深いのは、DCT が最初に作成されたとき、作者自身もそれが将来これほど大きな影響を与えるとは予想していなかったことです。

DCTがなければJPEG/MPEGは存在しない

DCT が何であるか知らない人も多いかもしれませんが、 JPEGについては誰もが聞いたことがあるはずです。

一般的な画像ファイル拡張子であることに加えて、画像を左側から右側に変換できる非可逆圧縮規格でもあります。

ps. 非可逆圧縮と可逆圧縮の違い: 可逆圧縮では画像を 100% 復元できますが、非可逆圧縮では復元できませんが、非可逆圧縮後の画像サイズは大幅に縮小されます。

DCT はこのプロセスを実現するための基本技術です。

これは、画像を空間領域から周波数領域に変換できる、つまり、画像をピクセル マトリックスから周波数などの情報を持つ関数に変換できるフーリエ変換の一種です。

具体的な変換プロセスについては、画像内の 3x3 ピクセル ブロックを例に挙げます。

△ 画像出典: Blog Garden ブロガー @Silent Back X-Pacific

このピクセル ブロックに対して DTC 変換を実行することは、最初のピクセルを除くピクセルの部分情報を最初のグリッドに抽出することと同じです。

このように、最初のグリッドのピクセル値は画像の全体的な外観を表し、これは低周波情報と呼ばれ、残りのグリッドは画像内の人物や物体の詳細を表し、これは高周波情報と呼ばれます。

DCT 変換後、各 3x3 ピクセル ブロックは 1 つの DC (直流) 係数 (最初のグリッドに配置) と 8 つの AC (交流) 係数 (残りのグリッド) を生成します。前者は DCTの最も重要な出力です。

画像エネルギーの大部分は低周波部分に集中しているため、変換後の DC 係数値出力は比較的大きくなり、AC 係数値出力は比較的小さくなります。

「人間の目は高周波画像よりも低周波画像に敏感である」という原理を利用して、量子化によって低周波成分を保持し、高周波成分を破棄(ほとんどのAC係数値を0に変更)し、視覚効果への影響が少ない情報を破棄することで、圧縮目的を達成します。

次の 2 つの画像の 3 次元投影から、DCT 変換によってもたらされた変化がわかります。

(上: 元の画像、下: DCT 変換後)

実際の JPEG 圧縮規格では、画像は複数の 8x8 ピクセルのブロックに分割されます(不十分なブロックは空白で埋められます)

色空間を RGB から YUV に変換した後、各ブロックに対して左から右、上から下に DCT 変換が実行されます。

各ブロック変換から得られた係数は量子化されます。このプロセスでは、いくつかの重要なコンポーネントが削除され、復元できなくなります。

したがって、これは不可逆な非可逆圧縮技術です。

そして量子化後に得られたAC係数とDC係数を別々にエンコードし、ハフマン符号化すると、次のような長い数字の列が得られます。

解凍時に、各画像ブロックに対して逆 DCT 変換 (IDCT) を実行することで、完全な画像を再構築できます。

具体的な計算手順は以下のとおりです。

まず、画像内の各ピクセルの元のグレースケールと明るさの値は、8 ビット、つまり (0, 255) の範囲で表されます。

ほとんどの値は 128 の周辺に分布しているので、これらの値から 128 を減算すると、0 の値が多くなり、圧縮に役立ちます。このとき、範囲は (-128, 127) になります。

次に、変換に DCT 変換式を使用します。2 次元変換の場合は、次のようにします。

変換後、量子化テーブルに従って量子化が行われ、ほとんどの係数が 0 に変更されて圧縮が完了します。

ps. 量子化テーブルは、人間の目の量子化誤差の視覚閾値に基づいて決定され、固定テーブルが存在します。

以下は、前述の一連のエンコード処理です。

この技術は、1974 年 1 月に IEEE Transactions on Computers で初めて発表されました。

それ以来、画像とビデオの圧縮における業界標準が誕生しました。

1998年の世界初の動画圧縮規格H.261、1992年のJPEGとMPEG、2010年のWebP、2013年のHEIF、2018年にGoogleやAmazonなどが共同で作成したAV1…などの圧縮規格はすべてこの技術に基づいており、現在まで使用されています。

40年以上も知られていなかった発明家

DCT の著者はNasir AhmedKR RaoT. Natarajan の 3 人です。

ナシル氏はニューメキシコ大学電気・コンピュータ工学部の名誉教授です。

彼は1940年にインドのバンガロールで生まれ、1966年にニューメキシコ大学で博士号を取得しました。

1966年から1968年までハネウェル社の主任エンジニアとして勤務し、1968年から1983年までカンザス州立大学の教授を務めた。

1983 年から 2001 年まで、彼はニューメキシコ大学に戻り、電気およびコンピュータ工学の教授を務めました。この間、彼は学部長および大学院学部長を務めた。

今年、ナシルさんは82歳になります。

もう一人の主要著者はKR Raoです。

彼はインド系アメリカ人の学者でもある。

1960年にフロリダ大学で原子力工学の博士号を取得した。 1966年、ニューメキシコ大学で電気およびコンピュータ工学の博士号を取得。

その後50年間、彼はテキサス大学アーリントン校で電気工学の教授として働きました。

同時に、彼はIEEEフェローでもあります。

2021年1月15日、ラオ教授は89歳で亡くなりました。

T. ナタラジャンは当時ナシルの博士課程の学生でしたが、現在では彼に関する情報はインターネット上でほとんど見つかりません。

有名な DCT と比較すると、その発明者の多くはあまり知られていないと言えます。

実際、40 年以上にわたって、DCT の発明の背景にある物語はほとんど注目されてきませんでした。

ナシルさんの息子も「父の影響力がこれほど大きいとは思ってもみませんでした」と語っています。

ナシル氏を舞台裏から表舞台へと押し上げたのは、アメリカのテレビシリーズにおける一連のトリビュートだった。

2020年には、「Days of Our Lives」でナシルがビデオ通話を通じて妻との愛の物語を語るというストーリーがありました。

映画製作者らは、このシーンをデザインした当初の意図は、インターネットを通じて写真や動画を素早く送信できる現在の能力はナシル氏の作品と切り離せないものだということを、より多くの人々に理解してもらうことだったと語った。

ドラマ放送後、多くのメディアはDCTを「世界を変えるアルゴリズム」と定義し、無名エンジニアだったナシルがついに舞台裏から表舞台に押し出されたとも評した。

しかし、ナシル氏は回想録ビデオの中で、DCTがこれほど大きな影響を与えるとは思っていなかったと語った。

また、テクノロジーがこれほど急速に進化するとは予想もできず、FaceTime のようなアプリの登場には非常に驚きました。

△ 幼い頃のナシル(左)

ご存知のとおり、DCT は当初、誕生当初にほぼ消滅しかけていました。

1972年、すでにDCTについてのアイデアを持っていたナシルは、DCTに関する研究に対してNSFが資金援助してくれることを期待して、国立科学財団(NSF)に申請書を提出した。

しかし、ナシル氏の驚いたことに、申請は即座に却下され、審査員のコメントは「あまりにも単純すぎる」というものでした。

幸いなことに、ナシルは諦めませんでした。彼は常にこのアイデアが非常に革新的だと考えていました。

彼が心配しているのは、休暇をDCT関連の仕事にしか使えず、その間収入がないかもしれないということだけだ。

そこでナシルは家に帰って妻にこう言いました。

これは追求する価値のあることだという予感がします。給料なしで夏をどう過ごすかを計画する必要があるだけです。

彼の妻はためらうことなく彼を支持した。

こうして、1973 年の夏に、DCT の研究作業が正式に始まりました

この研究には、ナシルさんの親友ラオさんと博士課程の学生ナタラジャンさんも参加した。

ラオ氏は、ナシル氏の DCT 研究を支援した重要人物の一人でもありました。

ナシルさんの申請が却下された後、彼はすぐに親友のラオさんに自分のアイデアについて話しました。

ラオ氏はこう答えた。

これらの結果を短い論文の形ですぐに発表してください。

こうして「離散コサイン変換を思いついた経緯」が誕生しました。

その後、この記事は画像とビデオの圧縮の分野では必読の記事となりました。

これから述べる物語は、私たち全員が知っていることです。

1974 年に、「離散コサイン変換」が IEEE Transactions on Computers に掲載されました。

現在までにこの記事は5,878回引用されています。

ナシル氏はかつてインタビューで、人生で最大の贈り物は人々がDCTを認めてくれたことだと語ったことがある。

<<:  人工知能は地球規模の気候危機に対処するために何ができるでしょうか?

>>:  脳コンピューターインターフェースでケーキを食べる

ブログ    

推薦する

テスラロボットに人間の脳意識が搭載される?マスク氏独占インタビュー:AIがミスを犯すことへの恐怖

いつも衝撃的な発言をするマスク氏がまたもや発言した。 最近、Insiderの親会社であるAxel S...

宮崎駿のアニメで新垣結衣を見たことがありますか?このオープンソースのアニメジェネレーターは、写真を数秒で手描きの日本のアニメに変換します

写真を撮るだけで、宮崎駿や新海誠などの日本のアニメ巨匠の手描き風に変換できます。アニメ画像を生成する...

私たちが作ったAIは私たちを裏切るでしょうか?

数千年前、そろばんは暗算よりも速い計算ができる魔法の道具でした。 [[418541]]そろばんを使っ...

Facebook Cityは楽しいです!ドローンで遠隔地の山岳地帯にモバイルネットワークを提供

[51CTO.comからのオリジナル記事] Facebookは、インド政府および通信会社と協議し、太...

IoTロボットが製造業と医療現場の危険を防止

IoT とロボティクスはそれぞれ単独でもビジネス組織に多くの利点をもたらしますが、組み合わせて使用​...

商用アプリケーション向けディープラーニング画像キャプション技術

[51CTO.com クイック翻訳]人工知能を使用して画像上のピクセルシーケンスをテキストに変換する...

AIは人間の雇用を脅かすものではなく、成長と革新の触媒である

何十年もの間、ニュースの見出しやSF小説では、トラック運転手やショッピングモールの警備員から芸術家や...

...

南京大学人工知能学院が人材募集開始:年俸は40万元から

3月6日、南京大学は人工知能学院の正式な設立を発表した。一流の人工知能基礎研究拠点と人材育成拠点の構...

ビル・ゲイツ:AIが最大の影響を与えるには何十年もかかる

[[271684]]ビル・ゲイツは、世界を変えるトレンドを予見し、それを活用することで、史上最も成功...

...

プライベートUNIT学習ノート - 対話システムの構築を簡単に始めることができます

対話システムの構築は比較的専門的で複雑なプロセスであり、通常は 3 つの主要な段階に分かれています。...

人工知能やビッグデータ製品の開発において、特に注意すべき点は何でしょうか?

近年、人工知能は科学技術の発展の重要な方向となっており、ビッグデータの収集、マイニング、応用の技術は...

深層強化学習入門: TensorFlow で初めてのゲーム AI を構築する

[[210667]]昨年、DeepMindのAlphaGoは世界囲碁チャンピオンのイ・セドルを4対1...

工業情報化部など8つの部門:地域人工知能データ処理センターの建設を検討

12月29日、工業情報化部、国家発展改革委員会、教育部、財政部、中国人民銀行、国家税務総局、金融監督...