清華大学のJiTuアップデート:微分可能レンダリングをサポートし、マルチタスク速度はPyTorchを上回る

清華大学のJiTuアップデート:微分可能レンダリングをサポートし、マルチタスク速度はPyTorchを上回る

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

微分可能レンダリングを勉強したいのですが、適切なフレームワークが見つからないのではないかと心配ですか?

[[356673]]

微分可能レンダリングを公式にサポートする世界のディープラーニング フレームワークが登場しました。

清華大学が独自に開発したJittorディープラーニング フレームワークの更新バージョンに、微分化可能なレンダリング ライブラリが追加されました。

微分可能レンダリングは、コンピュータグラフィックスのホットな分野です。CVPR 2020 の Best Paper Award は、微分可能レンダリングの関連研究に授与されました (Jittor はオープンソースの関連コードを最適化しました)。

もちろん、コンピュータグラフィックスに重点を置いたディープラーニングフレームワークとして、Jittor のアップデートも「トレンドに追随」しており、Vision Transformer などの最新モジュールが追加されています。そのパフォーマンス最適化は、PyTorch などのフレームワークよりもはるかに優れています。

見てみましょう。

微分可能レンダリングは画像再構成のための強力なツールです

レンダリングとは何でしょうか?

簡単に言えば、「レンダリング」とは通常、3D シーンを 2D 画像に変換するプロセスを指します。

現実の世界には自然光がたくさんあり、人間の目は光の反射を通してあらゆる方向にある物体の奥行きや形を見ることができるため、これは人間の目にとって非常に簡単です。

しかし、コンピュータが見る 3D シーンには、現実世界にあるようなさまざまな種類の光がありません。この場合、生成された 2D 画像にはパラメータがないだけでなく、その形状にもエラーが発生しやすくなります。では、あらゆる方向から来る光をすべてコンピューター内で直接シミュレートするのですか?

計算量が多すぎます。

そのため、コンピュータで生成される画像をより良くするために、つまり、人間の目で見るものに近い 2D 画像を、より速く、よりリアルに生成するために、「レンダリング」は現在グラフィックスにおける重要な研究分野となっており、アニメーション映画を作るなどの方向でよく使用されています。

[[356676]]

では、微分可能なレンダリングはどうでしょうか?

これは「レンダリング」の「逆操作」に少し似ており、3D ジオメトリ、照明、マテリアル、パースペクティブなど、2D 画像から必要な 3D シーン情報を生成します。

ディープラーニングを使用して 3D シーンを生成するプロセスでは、微分可能レンダリングを使用する勾配降下法の最適化アルゴリズムも必要です。

現在、グラフィックスの分野では、微分可能レンダリングはまだ非常に新しい方向ですが、比較すると、微分可能レンダリングに関する関連作業を容易にする関連ライブラリを確立したディープラーニング フレームワークはありません。

清華大学基図は、インスタンスセグメンテーションモデルライブラリと3Dポイントクラウドモデルライブラリをリリースした後、objの読み込みと保存、三角メッシュモデルのレンダリングをサポートする微分可能レンダリングライブラリを正式にリリースしました。

さらに、この微分可能レンダリングライブラリには、主流の微分可能レンダラーが 2 つ組み込まれており、複数のマテリアルのレンダリングをサポートし、PyTorch よりも 1.49 ~ 13.04 倍高速です。

もちろん、今回の「Jitu」のアップデートでは、これら以外にも多くの驚きがもたらされます。

ビジュアルゲーマーに朗報:トレーニング速度はPyTorchよりも速い

TransformerはNLP分野で最高のパフォーマンスを達成した後、画像分野に参入しました。現在、Vision Transformerは視覚分類でも最高の結果を達成しています。

Vision Transformerに関しては、「Jitu」で再現性を実現しており、トレーニング速度はPyTorchより20%高速化しています。

同時に、このアップデートではYOLOv3の高速化と再現も実現され、PyTorch と比較してトレーニング速度が 11% 向上します。

もともと Jittor 上で実行可能だったMobileNetのトレーニングおよび推論速度も全面的に改善されました。速度の向上は、さまざまな画像やバッチ サイズで 10% から 50% の範囲です。

これは視覚分類プレイヤーにとって本当に朗報です。

グラフィックスにはどのディープラーニング フレームワークを選択すればよいでしょうか?

従来の主要な主流フレームワークに関しては、Caffe の速度と比較すると、Tensorflow と PyTorch は「簡単に始められる」ことに重点を置いています。

Tensorflow と比較すると、PyTorch はより高いレベルで構築されています。よりユーザーフレンドリーですが、トレーニング速度は遅くなります。

また、これらのディープラーニングフレームワークは、「グラフィックス」のようなグラフィックの分野に完全に特化したものではないため、レンダリングであれ、グラフィック処理であれ、あらゆる新しい分野にタイムリーに追いつくことはできません。

Caffe の作者 Jia Yangqing 氏も Zhihu で、「Jitu」は計算グラフの最適化と JIT (リアルタイム) コンパイルに重点を置いていると述べています。

[[356679]]

つまり、トレーニング速度と使いやすさの点で「Jitu」はPyTorchよりも優れており、インターフェースはPyTorchを模倣しているため、誰もが新しいフレームワークに早く適応できます。

では、この差別化可能なレンダリング ライブラリは、Hu Yuanming の Taichi レンダリング ツールとどのように比較されるのでしょうか?

開発者の一人である梁盾氏によれば、両者は一般的に異なる分野に属しているという。

Taichi は以下に示すような微分可能な物理シミュレーションを実行し、Jittor は微分可能なレンダリング ライブラリを追加します。

しかし、レンダリングの分野では、Taichi には差別化可能なレンダリング部分がなく、主に光の屈折の物理的なシミュレーションを通じて単純なレンダリング作業を完了します。

つまり、レンダリングは 3 次元モデルと画像の間の変換を完了することであり、物理シミュレーションは 3 次元モデルと力の間の変更を完了することです。

体系的に CV を始めたい場合は、JiTu が優れたディープラーニング フレームワークになります。

著者について

「Jitu」の開発チームは、すべて清華大学コンピュータサイエンス学部グラフィックス研究室出身者で構成されており、責任者は清華大学コンピュータサイエンス学部の胡世民教授です。

開発の主要責任者は、研究室の博士課程の学生であるLiang Dun、Yang Guoye、Yang Guowei、Zhou Wenyangなどです。

Liang Dun氏は、今回の「Jitu」のアップグレードは革新的かつ先進的であり、差別化可能なレンダリングもますます注目される研究分野であると考えています。

Vision transformer のトレーニング速度も、多くの国際的な主流プラットフォームよりも高速です。

興味のある学生は「Jitu」をアップデート/インストールできます〜

Jittorプロジェクトアドレス:

出典: github.com

<<:  Transformerを廃止すれば、完全な畳み込みネットワークでもE2E検出を実現できる。

>>:  高校生たちは皆ニューラルネットワークを勉強しており、教師である私は圧倒されています

ブログ    

推薦する

企業は機械学習の運用を活用してビジネス上の利益を得ています

企業が初めて AI を導入し、機械学習プロジェクトを開始するときは、理論的なレベルに焦点が当てられる...

EasyDL モデルのトレーニングから EdgeBoard 推論までのステップバイステップ ガイド

まとめ: EdgeBoard は Baidu が開発した FPGA ベースの組み込み AI ソリュー...

他人があなたのコンピュータに触れることをもう恐れる必要はありません! Pythonによるリアルタイム監視

序文最近、突然素晴らしいアイデアが浮かびました。コンピューターの画面に顔を向けると、コンピューターは...

13歳の天才少年がAIスピーカーを開発。2010年代以降の世代は単純ではない

現代のティーンエイジャーにとってクールなものは何でしょうか?おそらくそれは AJ シューズを履くこと...

2015年に中国の電子商取引消費者に最も優しい製品が発表されました:ビッグデータアルゴリズム+専門家のコメント=優れた中国のデザイン

消費者の実際の購買行動や実際のユーザーレビューのビッグデータ分析に基づいた中国初の「2015年中国電...

DeepMind、ロボットの物体積み重ね能力を向上させるための新たなベンチマークを提案

ほとんどの人にとって、あるオブジェクトを別のオブジェクトの上に重ねることは簡単な作業です。しかし、最...

AIと自動化を活用して機密データを大規模に識別する方法

AIベースの機密情報検出サービスプロバイダーであるText IQのCEO、Apoorv Agarwa...

...

大規模なオープンソースデータセットが衝撃的なスキャンダルを暴露、人気AI企業が関与していた

執筆者 | Qingzhu制作:51CTO テクノロジースタック(WeChat ID:blog)ビッ...

マイクロソフト、2023年までに8つの人工知能プロジェクトをオープンソース化へ

著者 | ツァミア・アンサリ企画 | ヤン・ジェンマイクロソフトは、ソフトウェア大手の元CEO、ステ...

53ページのPDFが広く出回り、中核社員が次々と退職。OpenAIにはどんな秘密があるのか​​?

「OpenAIが2027年にAGIを実現する」という53ページのPDFがインターネット上で広く流通...

7,346 人が参加したアルゴリズム コンテストは JD.com に何をもたらしたのでしょうか?

[51CTO.comより引用] 今年3月中旬、JD.comとIntelが共同主催するJDataアル...

合成データとAIの「非現実的な」世界を探る

最近、アクセンチュアは「メタバースで出会う:テクノロジーとエクスペリエンスの連続体のビジネスを再構築...

効率的なコーディングのための 5 つの IntelliJ IDEA プラグイン

人工知能(AI)は現在、将来のトレンドと発展の方向性として広く認識されています。 AI がすべての仕...

エッジ AI は何ができるのでしょうか?

人工知能 (AI) は、デバイスがユーザーと最も近接するインタラクションポイントでデータに基づく意思...