高速微分ソートアルゴリズム、カスタムC++、CUDAのパッケージで、パフォーマンスが向上しました。

高速微分ソートアルゴリズム、カスタムC++、CUDAのパッケージで、パフォーマンスが向上しました。

[[390293]]

昨年の初め、Google は論文「Fast Differentiable Sorting and Ranking」で、O(nlogn) の時間計算量と O(n) の空間計算量を持つ初の微分可能ソート アルゴリズムを発表しました。これは、既存の方法よりも桁違いに高速です。

最近、誰かが GitHub でプロジェクトをオープンソース化しました。これは、ソフトウェア パッケージの形式で高速な微分ソートとランキングを実装したものです。このプロジェクトは数日間オンラインになり、300 以上のスターを獲得しました。

  • プロジェクトアドレス: https://github.com/teddykoker/torchsort
  • 高速微分ソートおよびランキングの論文アドレス: https://arxiv.org/pdf/2002.08871.pdf

トーチソート

Torchsort は、Blondel らによって提案された高速微分ソートおよびランキングを実装し、純粋な PyTorch で実装されています。コードの大部分は、プロジェクト「google-research/fast-soft-sort」のオリジナルの Numpy 実装からコピーされており、高速パフォーマンスのためにカスタム C++ および CUDA カーネルが使用されています。

Torchsort のインストールは非常に簡単です。一般的に使用されている pip インストール方法を使用できます。インストール コードは次のとおりです。

  1. pip インストール torchsort

CUDA 拡張機能をビルドする場合は、CUDA ツールチェーンをインストールする必要があります。 CUDA 以外のランタイム環境で docker などのアプリケーションをビルドする場合は、インストール前に環境変数「TORCH_CUDA_ARCH_LIST="Pascal;Volta;Turing"」をエクスポートする必要があります。

使い方

torchsort には、soft_rank と soft_sort という 2 つの関数があり、それぞれに、regularization (l2 または kl) (正規化関数) とregularization_strength (スカラー値) というパラメーターがあります。それぞれは、正規化の強度に応じて精度を変えながら、2D テンソルの最後の次元をソートします。

  1. 輸入トーチ
  2. トーチソートをインポートする
  3. x = torch.tensor([[ 8 , 0 , 5 , 3 , 2 , 1 , 6 , 7 , 9 ]])
  4. torchsort.soft_sort(x, 正規化の強度= 1.0 )
  5. # テンソル([[ 0.5556 , 1.5556 , 2.5556 , 3.5556 , 4.5556 , 5.5556 , 6.5556 , 7.5556 , 8.5556 ]])
  6. torchsort.soft_sort(x, 正規化の強度= 0.1 )
  7. # テンソル([[- 0 ., 1 ., 2 ., 3 ., 5 ., 6 ., 7 ., 8 ., 9 .]])
  8. トーチソート.ソフトランク(x)
  9. # テンソル([[ 8 ., 1 ., 5 ., 4 ., 3 ., 2 ., 6 ., 7 ., 9 .]])

どちらの操作も完全に微分可能であり、次のように CPU または GPU に実装できます。

  1. x = torch.tensor([[ 8 ., 0 ., 5 ., 3 ., 2 ., 1 ., 6 ., 7 ., 9 .]], requires_grad=True).cuda()
  2. y = トーチソート.soft_sort(x)
  3. torch.autograd.grad(y[ 0,0 ],x) の関数
  4. # (テンソル([[ 0.1111 , 0.1111 , 0.1111 , 0.1111 , 0.1111 , 0.1111 , 0.1111 , 0.1111 ]],
  5. # デバイス = 'cuda:0' ),)

表示例

スピアマン順位係数は、2 つの変数間の単調な相関を測定するのに非常に役立つ指標です。 Torchsort を使用して微分可能なスピアマン順位係数関数を作成し、そのメトリックに対してモデルを直接最適化することができます。

  1. 輸入トーチ
  2. トーチソートをインポートする
  3. 定義spearmanr(予測、ターゲット、**kw):
  4. pred = torchsort.soft_rank(pred, **kw)
  5. ターゲット = torchsort.soft_rank(ターゲット、**kw)
  6. pred = pred - pred.mean()
  7. pred = pred / pred.norm()
  8. ターゲット = ターゲット - ターゲット.mean()
  9. ターゲット = ターゲット / ターゲット.norm()
  10. 戻り値(予測 * ターゲット).sum()
  11. pred = torch.tensor([[ 1 ., 2 ., 3 ., 4 ., 5 .]], requires_grad=True)
  12. ターゲット = torch.tensor([[ 5 ., 6 ., 7 ., 8 ., 7 .]])
  13. スピアマン = スピアマンr(予測、ターゲット)
  14. # テンソル( 0.8321 )
  15. torch.autograd.grad(スピアマン、予測)
  16. # (テンソル([[- 5 .5470e- 02 , 2 .9802e- 09 , 5 .5470e- 02 , 1 .1094e- 01 , - 1 .1094e- 01 ]]),)

ベンチマーク

torchsort と fast_soft_sort はどちらも時間計算量が O(n log n) で、組み込みの torch.sort と比較してオーバーヘッドが若干追加されます。 Numba JIT のバッチ サイズが 1 の場合 (左の図を参照)、fast_soft_sort のフォワード パスは Torchsort CPU カーネルとほぼ同じパフォーマンスを発揮しますが、バックワード パスは依然として一部の Python コードに依存しているため、パフォーマンスが大幅に低下します。

さらに、torchsort カーネルはバッチ処理をサポートしており、バッチ サイズが大きくなるにつれて fast_soft_sort よりも優れたパフォーマンスが得られます。

トーチソート CUDA カーネルは、2000 未満のシーケンス長では優れたパフォーマンスを発揮し、非常に大きなバッチに拡張できます。将来的には、CUDA カーネルがさらに最適化され、組み込みの torch.sort に近いパフォーマンスが実現される可能性があります。

<<:  2025年までに音声認識市場は267億9000万ドルに達する

>>:  NLP を上手に使いこなすには、適切な「武器」が必要です。GLUE で 1 位にランクされている武器をご存知ですか?

ブログ    

推薦する

ディープラーニングは、データが不足している場合、無力なのでしょうか?ここにいくつかの良いアイデアがあります!

ディープラーニングは、データが大量にある場合、どんなに複雑な問題でも問題ありません。しかし、データが...

テクノロジーの本質: コンピューターは私たちの社会をどのように形作るのでしょうか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

...

...

あなたの GPU は Llama 2 のような大規模なモデルを実行できますか?このオープンソースプロジェクトを試してみてください

コンピューティング能力が重要視される時代に、GPU は大規模モデル (LLM) をスムーズに実行でき...

AIの4つのタイプについてお話しましょう

人工知能が流行するにつれ、人々はそれがどのように機能し、何ができるのかについて多くの疑問を抱いていま...

人工知能関連のキャリアと給与に関する 7 つの統計

現在、人手不足で高収入の AI 職種は何でしょうか? 需要が高い職種はどれでしょうか? AI はどれ...

...

AIのダークサイド: AIを信頼できるものにする方法

セキュリティとプライバシーに関する懸念は、AI 導入に対する最大の障壁であり、それには十分な理由があ...

MLP は視覚研究に潜在的な驚きをもたらすでしょうか?最近のMLP画像分類作業の概要と分析

画像分類は、コンピューター ビジョン研究において常に非常に基本的で重要なタスクです。過去 10 年間...

...

Google の自動運転車の秘密の世界を解明: 初めて公開された強力なツールの数々

[[201428]]アトランティック誌は今週、アルファベット傘下の自動運転企業ウェイモの謎を解明す...

アルトマン:解雇されて戻ってくるのは辛かったが、OpenAIにとっては良いことだ

1月8日、OpenAIのCEOサム・アルトマン氏は、タイム誌編集長とのインタビューで、昨年末に同社と...

ホワイトハウスは開発者にCとC++を放棄するよう求める声明を発表した。メモリの安全性のためにRustが「選ばれた」

最近、ホワイトハウスの国家サイバースペース局長室(ONCD)は、「基本的な構成要素への回帰:安全なソ...

...