composable_kernel

mirror of https://github.com/ROCm/composable_kernel.git synced 2026-05-12 17:26:00 +00:00

Author	SHA1	Message	Date
Chao Liu	bc9ea646f8	use ford/for instead of static_ford/static_for in threadwise copy, somehow register spill is greatly reduced on AMD	2019-08-07 19:09:13 -05:00
Chao Liu	5636576f9b	bug fix in ford, forgot to reorder lengths	2019-08-07 18:27:10 -05:00
Chao Liu	9d99a58072	adding ThreadwiseGenericTensorSliceCopy_v1r2	2019-08-07 16:51:14 -05:00
Chao Liu	1b3c2e4035	reworked ThreadwiseGenericTensorSliceCopy_v1	2019-08-07 00:52:13 -05:00
Chao Liu	fdcfae3a62	reimplement threadwise copy	2019-08-06 17:41:58 -05:00
Chao Liu	adc1008836	tweak	2019-08-03 15:05:25 -05:00
Chao Liu	c2d246696f	added implicit gemm v4r4 and double buffer	2019-08-03 00:19:19 -05:00
Chao Liu	c01af89928	added new tensor copy operator	2019-08-03 00:02:24 -05:00
Chao Liu	a9a392b44d	experimenting TensorCoordinate and new merged tensor copy operator	2019-08-01 15:32:40 -05:00
Chao Liu	2eeeb1766b	refactor	2019-07-30 22:50:51 -05:00
Chao Liu	08cbac98cc	added (1x4)x(2x4) threadwise gemm	2019-07-30 18:20:55 -05:00
Chao Liu	c5e5a9307b	retune implicit gemm v4r1	2019-07-30 12:10:28 -05:00
Chao Liu	cd8de11218	experimenting new merged tensor copy	2019-07-30 09:35:54 -05:00
Chao Liu	284e7bb317	refactored implicit gemm v1r3	2019-07-29 15:25:38 -05:00
Chao Liu	efd419ecbe	refactored implicit gemm v1r3	2019-07-29 15:01:01 -05:00
Chao Liu	9ba3b49158	adding implicit gemm v4r4	2019-07-28 19:39:57 -05:00
Chao Liu	8669e242ad	debugging	2019-07-15 22:00:48 -05:00
Chao Liu	5f82fdd9d3	adding implicit gemm v4r3	2019-07-15 17:42:18 -05:00
Chao Liu	61faf02b52	adding implicit GEMM v4r2	2019-07-15 16:17:36 -05:00
Chao Liu	1480375fa6	adding implicit GEMM v4r2	2019-07-14 01:32:40 -05:00
Chao Liu	a4b524615b	adding implicit GEMM v4r2	2019-07-13 22:10:42 -05:00
Chao Liu	e87aa851ea	adding implcit GEMM v4r2	2019-07-13 17:44:13 -05:00
Chao Liu	96d73c2154	Merge remote-tracking branch 'origin/build_0705' into implicit_gemm_v4r2	2019-07-05 16:29:20 -05:00
Chao Liu	8133713e96	adding implicit gemm v4r2	2019-07-05 15:35:21 -05:00
Chao Liu	923578a389	adding implicit gemm v4r2	2019-07-05 15:35:11 -05:00
Chao Liu	3276a5e9b9	update build	2019-07-05 15:33:58 -05:00
Chao Liu	85ae70d3d3	do more benchmark	2019-06-26 21:43:26 -05:00
Chao Liu	e55cfe1536	debugging vector load for generic tensor copy	2019-06-24 11:49:13 -05:00
Chao Liu	df29a7e097	enabling vector load on merged dim	2019-06-24 11:20:19 -05:00
Chao Liu	33d1e0e2e5	refactoring for miopen	2019-06-17 14:58:44 -05:00
Chao Liu	b1cb48a04d	added strides and dilations suppport to implicit gemm v4	2019-06-13 16:20:10 -05:00
Chao Liu	1566b31736	reorginzed files	2019-06-13 15:12:12 -05:00

32 Commits