3月 18, 2023 / 最終更新日時 : 3月 18, 2023 Shuji Suzuki (shu) プログラミング PyTorch 2.0の新機能「torch.compile」使ってみた 今回は3/16についに出たPyTorch 2.0の目玉機能である「torch.comple」について実際に動かしてみて計算時間を測定してみたので、そのまとめになります。 時間計測の部分で測定に使ったコードはここにあげてあ […]
2月 19, 2023 / 最終更新日時 : 2月 19, 2023 Shuji Suzuki (shu) プログラミング CUDAの高速化の復習2023年版 Histogram(主にatomicAdd)編 Reduction、vectrized memory accessに続き、今回はhistogramを題材にして主にatomicAddのパフォーマンスが最近どうなっているのかを見ていきたいと思います。 Histogramは […]
2月 14, 2023 / 最終更新日時 : 2月 18, 2023 Shuji Suzuki (shu) プログラミング CUDAの高速化の復習2023年版 Vectorized Memory Access編 前回Reductionを例に今時のCUDAの高速化で何が効いているのか?を確認したまとめの記事を書きました。今回はその中には登場しなかったCUDAの高速化テクニックの「Vectorized Memory Access」が […]
5月 10, 2021 / 最終更新日時 : 5月 10, 2021 Shuji Suzuki (shu) プログラミング PyTorchのPERFORMANCE TUNING GUIDEの効果を確認してみる その2 「Fuse pointwise operations」 PyTorchには「PERFORMANCE TUNING GUIDE」という学習を速くするためのテクニック集があります。このドキュメントでは個々のテクニックでどれくらい速くなるか具体的な数値が示されていないので、それを確 […]
3月 21, 2021 / 最終更新日時 : 3月 21, 2021 Shuji Suzuki (shu) プログラミング PyTorchでGPUの計算時間を正しく計測する 今回の記事ではPyTorchでGPUで実行した関数の計算時間を正しく測定する方法とその後に詳しい説明をしていきます。 はじめに 仕事がらPyTorchで高速な学習方法をいろいろ調べることがよくあります。その際、blog記 […]