Update for recent MIOpen integration (#11)

* update for MIOpen integration [ROCm/composable_kernel commit: 3406a1148a]
2026-05-20 12:59:49 +00:00 · 2020-01-27 15:29:33 -06:00
parent 8b51bc4b1d
commit 81e3c745dc
20 changed files with 270 additions and 198 deletions
--- a/driver/include/device_convolution_backward_data_implicit_gemm_v2r1_nchw_kcyx_nkhw.hpp
+++ b/driver/include/device_convolution_backward_data_implicit_gemm_v2r1_nchw_kcyx_nkhw.hpp
@@ -152,11 +152,11 @@ void device_convolution_backward_data_implicit_gemm_v2r1_nchw_kcyx_nkhw(InDesc i
    constexpr index_t GemmCThreadCopyDstDataPerWrite_GemmN1 = 4;
 #endif

-    constexpr index_t hcf_stride_dilation_h = math::hcf(ConvStrideH, ConvDilationH);
-    constexpr index_t hcf_stride_dilation_w = math::hcf(ConvStrideW, ConvDilationW);
+    constexpr index_t gcd_stride_dilation_h = math::gcd(ConvStrideH, ConvDilationH);
+    constexpr index_t gcd_stride_dilation_w = math::gcd(ConvStrideW, ConvDilationW);

-    constexpr index_t Ytilda = ConvStrideH / hcf_stride_dilation_h;
-    constexpr index_t Xtilda = ConvStrideW / hcf_stride_dilation_w;
+    constexpr index_t Ytilda = ConvStrideH / gcd_stride_dilation_h;
+    constexpr index_t Xtilda = ConvStrideW / gcd_stride_dilation_w;

    constexpr index_t Ydot = math::integer_divide_ceil(Y, Ytilda);
    constexpr index_t Xdot = math::integer_divide_ceil(X, Xtilda);
--- a/driver/include/device_convolution_backward_data_implicit_gemm_v3r1_nchw_kcyx_nkhw.hpp
+++ b/driver/include/device_convolution_backward_data_implicit_gemm_v3r1_nchw_kcyx_nkhw.hpp
@@ -91,11 +91,11 @@ void device_convolution_backward_data_implicit_gemm_v3r1_nchw_kcyx_nkhw(InDesc i
    constexpr index_t GemmCThreadCopyDstDataPerWrite_GemmN1 = 1;
 #endif

-    constexpr index_t hcf_stride_dilation_h = math::hcf(ConvStrideH, ConvDilationH);
-    constexpr index_t hcf_stride_dilation_w = math::hcf(ConvStrideW, ConvDilationW);
+    constexpr index_t gcd_stride_dilation_h = math::gcd(ConvStrideH, ConvDilationH);
+    constexpr index_t gcd_stride_dilation_w = math::gcd(ConvStrideW, ConvDilationW);

-    constexpr index_t Ytilda = ConvStrideH / hcf_stride_dilation_h;
-    constexpr index_t Xtilda = ConvStrideW / hcf_stride_dilation_w;
+    constexpr index_t Ytilda = ConvStrideH / gcd_stride_dilation_h;
+    constexpr index_t Xtilda = ConvStrideW / gcd_stride_dilation_w;

    constexpr index_t Ydot = math::integer_divide_ceil(Y, Ytilda);
    constexpr index_t Xdot = math::integer_divide_ceil(X, Xtilda);
--- a/driver/include/device_convolution_backward_data_implicit_gemm_v4r1_nchw_kcyx_nkhw.hpp
+++ b/driver/include/device_convolution_backward_data_implicit_gemm_v4r1_nchw_kcyx_nkhw.hpp
@@ -2,13 +2,18 @@
 #include <unistd.h>
 #include "device.hpp"
 #include "tensor.hpp"
-#include "gridwise_operation_wrapper.hpp"
 #include "gridwise_convolution_backward_data_implicit_gemm_v4r1_nchw_kcyx_nkhw.hpp"

 namespace launcher {

 using namespace ck;

+template <typename GridwiseOp, index_t GemmId, typename... Xs>
+__global__ void run_gridwise_convolution_backward_data_v4r1(Xs... xs)
+{
+    GridwiseOp::template Run<GemmId>(xs...);
+}
+
 template <typename T,
          typename InDesc,
          typename WeiDesc,
@@ -119,11 +124,11 @@ void device_convolution_backward_data_implicit_gemm_v4r1_nchw_kcyx_nkhw(InDesc i
    constexpr index_t GemmCThreadCopyDstDataPerWrite_GemmN1 = 1;
 #endif

-    constexpr index_t hcf_stride_dilation_h = math::hcf(ConvStrideH, ConvDilationH);
-    constexpr index_t hcf_stride_dilation_w = math::hcf(ConvStrideW, ConvDilationW);
+    constexpr index_t gcd_stride_dilation_h = math::gcd(ConvStrideH, ConvDilationH);
+    constexpr index_t gcd_stride_dilation_w = math::gcd(ConvStrideW, ConvDilationW);

-    constexpr index_t Ytilda = ConvStrideH / hcf_stride_dilation_h;
-    constexpr index_t Xtilda = ConvStrideW / hcf_stride_dilation_w;
+    constexpr index_t Ytilda = ConvStrideH / gcd_stride_dilation_h;
+    constexpr index_t Xtilda = ConvStrideW / gcd_stride_dilation_w;

    constexpr index_t Ydot = math::integer_divide_ceil(Y, Ytilda);
    constexpr index_t Xdot = math::integer_divide_ceil(X, Xtilda);
@@ -154,69 +159,61 @@ void device_convolution_backward_data_implicit_gemm_v4r1_nchw_kcyx_nkhw(InDesc i

    for(index_t i = 0; i < nrepeat; ++i)
    {
-        KernelTimer timer;
+        using GridwiseConv = GridwiseConvolutionBackwardDataImplicitGemm_v4r1_nchw_kcyx_nkhw<
+            GridSize,
+            BlockSize,
+            T,
+            T,
+            decltype(in_nchw_desc),
+            decltype(wei_kcyx_desc),
+            decltype(out_nkhw_desc),
+            ConvStrides,
+            ConvDilations,
+            InLeftPads,
+            InRightPads,
+            GemmMPerBlock,
+            GemmNPerBlock,
+            GemmKPerBlock,
+            GemmMPerThreadSubC,
+            GemmNPerThreadSubC,
+            GemmMLevel0Cluster,
+            GemmNLevel0Cluster,
+            GemmMLevel1Cluster,
+            GemmNLevel1Cluster,
+            GemmKPerThreadLoop,
+            GemmThreadGemmDataPerReadM,
+            GemmThreadGemmDataPerReadN,
+            GemmABlockCopyThreadSliceLengths_GemmK_GemmM,
+            GemmABlockCopyThreadClusterLengths_GemmK_GemmM,
+            GemmABlockCopySrcDataPerRead_GemmM,
+            GemmABlockCopyDstDataPerWrite_GemmM,
+            GemmBBlockCopyThreadSliceLengths_GemmK_GemmN,
+            GemmBBlockCopyThreadClusterLengths_GemmK_GemmN,
+            GemmBBlockCopySrcDataPerRead_GemmN,
+            GemmBBlockCopyDstDataPerWrite_GemmN,
+            GemmCThreadCopyDstDataPerWrite_GemmN1>;

+        KernelTimer timer;
        timer.Start();

-        static_for<0, Ytilda, 1>{}([&](auto ytilda_) {
-            static_for<0, Xtilda, 1>{}([&](auto xtilda_) {
-                constexpr index_t ytilda = decltype(ytilda_){};
-                constexpr index_t xtilda = decltype(xtilda_){};
+        static_for<0, GridwiseConv::GetNumberOfGemm(), 1>{}([&](auto gemm_id_) {
+            constexpr index_t gemm_id = decltype(gemm_id_){};

-                constexpr auto gridwise_conv =
-                    GridwiseConvolutionBackwardDataImplicitGemm_v4r1_nchw_kcyx_nkhw<
-                        GridSize,
-                        BlockSize,
-                        T,
-                        T,
-                        decltype(in_nchw_desc),
-                        decltype(wei_kcyx_desc),
-                        decltype(out_nkhw_desc),
-                        ConvStrides,
-                        ConvDilations,
-                        InLeftPads,
-                        InRightPads,
-                        ytilda,
-                        xtilda,
-                        GemmMPerBlock,
-                        GemmNPerBlock,
-                        GemmKPerBlock,
-                        GemmMPerThreadSubC,
-                        GemmNPerThreadSubC,
-                        GemmMLevel0Cluster,
-                        GemmNLevel0Cluster,
-                        GemmMLevel1Cluster,
-                        GemmNLevel1Cluster,
-                        GemmKPerThreadLoop,
-                        GemmThreadGemmDataPerReadM,
-                        GemmThreadGemmDataPerReadN,
-                        GemmABlockCopyThreadSliceLengths_GemmK_GemmM,
-                        GemmABlockCopyThreadClusterLengths_GemmK_GemmM,
-                        GemmABlockCopySrcDataPerRead_GemmM,
-                        GemmABlockCopyDstDataPerWrite_GemmM,
-                        GemmBBlockCopyThreadSliceLengths_GemmK_GemmN,
-                        GemmBBlockCopyThreadClusterLengths_GemmK_GemmN,
-                        GemmBBlockCopySrcDataPerRead_GemmN,
-                        GemmBBlockCopyDstDataPerWrite_GemmN,
-                        GemmCThreadCopyDstDataPerWrite_GemmN1>{};
-
-                launch_and_time_kernel(run_gridwise_operation<decltype(gridwise_conv),
-                                                              T* const __restrict__,
-                                                              const T* const __restrict__,
-                                                              const T* const __restrict__>,
-                                       dim3(GridSize),
-                                       dim3(BlockSize),
-                                       0,
-                                       0,
-                                       gridwise_conv,
-                                       static_cast<T*>(in_nchw_device_buf.GetDeviceBuffer()),
-                                       static_cast<T*>(wei_kcyx_device_buf.GetDeviceBuffer()),
-                                       static_cast<T*>(out_nkhw_device_buf.GetDeviceBuffer()));
-            });
+            launch_kernel(run_gridwise_convolution_backward_data_v4r1<GridwiseConv,
+                                                                      gemm_id,
+                                                                      T* const __restrict__,
+                                                                      const T* const __restrict__,
+                                                                      const T* const __restrict__>,
+                          dim3(GridSize),
+                          dim3(BlockSize),
+                          0,
+                          0,
+                          static_cast<T*>(in_nchw_device_buf.GetDeviceBuffer()),
+                          static_cast<T*>(wei_kcyx_device_buf.GetDeviceBuffer()),
+                          static_cast<T*>(out_nkhw_device_buf.GetDeviceBuffer()));
        });

        timer.End();
-
        float time = timer.GetElapsedTime();

        printf("Elapsed time : %f ms, %f TFlop/s\n",
--- a/driver/include/device_convolution_implicit_gemm_v4r1_nchw_kcyx_nkhw.hpp
+++ b/driver/include/device_convolution_implicit_gemm_v4r1_nchw_kcyx_nkhw.hpp
@@ -54,7 +54,7 @@ void device_convolution_implicit_gemm_v4r1_nchw_kcyx_nkhw(InDesc,
    wei_kcyx_device_buf.ToDevice(wei_kcyx.mData.data());
    out_nkhw_device_buf.ToDevice(out_nkhw.mData.data());

-#if 1
+#if 0
    // BlockSize = 256, EperBlock = 8, each thread hold 64 data
    constexpr index_t BlockSize = 256;

@@ -127,7 +127,45 @@ void device_convolution_implicit_gemm_v4r1_nchw_kcyx_nkhw(InDesc,
    using WeiBlockCopyDstAccessOrder            = Sequence<0, 1>; // [E, K]

    constexpr index_t WeiBlockCopySrcDataPerRead_E  = 4;
-    constexpr index_t WeiBlockCopyDstDataPerWrite_K = 1;
+    constexpr index_t WeiBlockCopyDstDataPerWrite_K = 2;
+#elif 1
+    // BlockSize = 256, EPerBlock = 16, each thread hold 64 data
+    // for 1x1
+    constexpr index_t BlockSize = 256;
+
+    constexpr index_t BPerBlock = 16;
+    constexpr index_t KPerBlock = 128;
+    constexpr index_t EPerBlock = 16;
+
+    constexpr index_t GemmNRepeat = 2;
+
+    constexpr index_t GemmMPerThreadSubC = 4;
+    constexpr index_t GemmNPerThreadSubC = 4;
+    constexpr index_t GemmMLevel0Cluster = 4;
+    constexpr index_t GemmNLevel0Cluster = 4;
+    constexpr index_t GemmMLevel1Cluster = 4;
+    constexpr index_t GemmNLevel1Cluster = 4;
+    constexpr index_t GemmKPerThreadLoop = 1;
+    constexpr index_t GemmDataPerReadA   = 4;
+    constexpr index_t GemmDataPerReadB   = 4;
+
+    using InBlockCopySubLengths_E_N1_B_N2      = Sequence<4, 1, 1, 2>;
+    using InBlockCopyClusterLengths_E_N1_B_N2  = Sequence<4, 2, 16, 2>;
+    using InBlockCopyThreadClusterArrangeOrder = Sequence<0, 1, 3, 2>; // [E, N1, N2, B]
+    using InBlockCopySrcAccessOrder            = Sequence<0, 2, 1, 3>; // [E, B, N1, N2]
+    using InBlockCopyDstAccessOrder            = Sequence<0, 1, 2, 3>; // [E, N1, B, N2]
+
+    constexpr index_t InBlockCopySrcDataPerRead_B   = 1;
+    constexpr index_t InBlockCopyDstDataPerWrite_N2 = 2;
+
+    using WeiBlockCopySubLengths_E_K            = Sequence<4, 2>;
+    using WeiBlockCopyClusterLengths_E_K        = Sequence<4, 64>;
+    using WeiBlockCopyThreadClusterArrangeOrder = Sequence<1, 0>; // [K, E]
+    using WeiBlockCopySrcAccessOrder            = Sequence<1, 0>; // [K, E]
+    using WeiBlockCopyDstAccessOrder            = Sequence<0, 1>; // [E, K]
+
+    constexpr index_t WeiBlockCopySrcDataPerRead_E  = 4;
+    constexpr index_t WeiBlockCopyDstDataPerWrite_K = 2;
 #elif 1
    // BlockSize = 64, each thread hold 64 data
    constexpr index_t BlockSize = 64;
--- a/driver/include/device_convolution_implicit_gemm_v4r4_nchw_kcyx_nkhw.hpp
+++ b/driver/include/device_convolution_implicit_gemm_v4r4_nchw_kcyx_nkhw.hpp
@@ -84,7 +84,7 @@ void device_convolution_implicit_gemm_v4r4_nchw_kcyx_nkhw(InDesc,
    constexpr index_t GemmBBlockCopyDstDataPerWrite_GemmN = 1;

    constexpr index_t GemmCThreadCopyDstDataPerWrite_GemmN1 = 1;
-#elif 1
+#elif 0
    // BlockSize = 256, GemmKPerBlock = 16
    constexpr index_t BlockSize = 256;

@@ -117,7 +117,7 @@ void device_convolution_implicit_gemm_v4r4_nchw_kcyx_nkhw(InDesc,
    constexpr index_t GemmCThreadCopyDstDataPerWrite_GemmN1 = 1;
 #elif 0
    // BlockSize = 256, GemmKPerBlock = 8
-    // 1x1 filter, 8x8 image
+    // for 1x1 filter, vector-read-b = 4
    constexpr index_t BlockSize = 256;

    constexpr index_t GemmMPerBlock = 128;
@@ -149,7 +149,7 @@ void device_convolution_implicit_gemm_v4r4_nchw_kcyx_nkhw(InDesc,
    constexpr index_t GemmCThreadCopyDstDataPerWrite_GemmN1 = 4;
 #elif 1
    // BlockSize = 256, GemmKPerBlock = 16
-    // 1x1 filter, 8x8 image
+    // for 1x1 filter, vector-read-b = 4
    constexpr index_t BlockSize = 256;

    constexpr index_t GemmMPerBlock = 128;