Added bwd data v3r1 v4r1, tweaking v1 (#10)

* Added bwd data v3r1: breaking down compute into a series of load balanced GEMM, and launch in a single kernel * Added bwd data v4r1: like v3r1, but launch GEMMs in multiple kernels * Tweaked v1r1 and v1r2 (atomic) on AMD GPU [ROCm/composable_kernel commit: c5da0377fb]
2026-05-24 23:05:54 +00:00 · 2020-01-20 10:20:03 -06:00
parent 24f7d66609
commit 7c9100b53f
43 changed files with 2123 additions and 452 deletions
--- a/driver/include/device.hpp
+++ b/driver/include/device.hpp
@@ -30,33 +30,81 @@ struct KernelTimer
    std::unique_ptr<KernelTimerImpl> impl;
 };

+#if CK_DEVICE_BACKEND_AMD
+using device_stream_t = hipStream_t;
+
 template <typename... Args, typename F>
-float launch_kernel(F kernel, dim3 grid_dim, dim3 block_dim, std::size_t lds_byte, Args... args)
+void launch_kernel(F kernel,
+                   dim3 grid_dim,
+                   dim3 block_dim,
+                   std::size_t lds_byte,
+                   hipStream_t stream_id,
+                   Args... args)
+{
+    hipLaunchKernelGGL(kernel, grid_dim, block_dim, lds_byte, stream_id, args...);
+}
+
+template <typename... Args, typename F>
+float launch_and_time_kernel(F kernel,
+                             dim3 grid_dim,
+                             dim3 block_dim,
+                             std::size_t lds_byte,
+                             hipStream_t stream_id,
+                             Args... args)
 {
    KernelTimer timer;

-#if CK_DEVICE_BACKEND_AMD
    timer.Start();

-    hipLaunchKernelGGL(kernel, grid_dim, block_dim, lds_byte, 0, args...);
+    hipLaunchKernelGGL(kernel, grid_dim, block_dim, lds_byte, stream_id, args...);

    timer.End();

    hipGetErrorString(hipGetLastError());
+
+    return timer.GetElapsedTime();
+}
+
 #elif CK_DEVICE_BACKEND_NVIDIA
+using device_stream_t = cudaStream_t;
+
+template <typename... Args, typename F>
+void launch_kernel(F kernel,
+                   dim3 grid_dim,
+                   dim3 block_dim,
+                   std::size_t lds_byte,
+                   cudaStream_t stream_id,
+                   Args... args)
+{
+    const void* f  = reinterpret_cast<const void*>(kernel);
+    void* p_args[] = {&args...};
+
+    cudaError_t error = cudaLaunchKernel(f, grid_dim, block_dim, p_args, lds_byte, stream_id);
+}
+
+template <typename... Args, typename F>
+float launch_and_time_kernel(F kernel,
+                             dim3 grid_dim,
+                             dim3 block_dim,
+                             std::size_t lds_byte,
+                             cudaStream_t stream_id,
+                             Args... args)
+{
+    KernelTimer timer;
+
    const void* f  = reinterpret_cast<const void*>(kernel);
    void* p_args[] = {&args...};

    timer.Start();

-    cudaError_t error = cudaLaunchKernel(f, grid_dim, block_dim, p_args, lds_byte, 0);
+    cudaError_t error = cudaLaunchKernel(f, grid_dim, block_dim, p_args, lds_byte, stream_id);

    timer.End();

    checkCudaErrors(error);
-#endif

    return timer.GetElapsedTime();
 }
+#endif

 #endif