composable_kernel

mirror of https://github.com/ROCm/composable_kernel.git synced 2026-07-14 11:07:44 +00:00

Author	SHA1	Message	Date
Chao Liu	bc9ea646f8	use ford/for instead of static_ford/static_for in threadwise copy, somehow register spill is greatly reduced on AMD	2019-08-07 19:09:13 -05:00
Chao Liu	5636576f9b	bug fix in ford, forgot to reorder lengths	2019-08-07 18:27:10 -05:00
Chao Liu	9d99a58072	adding ThreadwiseGenericTensorSliceCopy_v1r2	2019-08-07 16:51:14 -05:00
Chao Liu	1b3c2e4035	reworked ThreadwiseGenericTensorSliceCopy_v1	2019-08-07 00:52:13 -05:00
Chao Liu	41cdde99e5	add looping Orders into ford and static_ford	2019-08-06 20:23:11 -05:00
Chao Liu	0271338ed4	added ReorderGiveOld2New() in Sequence and ConstantTensorDescriptor	2019-08-06 18:48:05 -05:00
Chao Liu	fdcfae3a62	reimplement threadwise copy	2019-08-06 17:41:58 -05:00
Chao Liu	adc1008836	tweak	2019-08-03 15:05:25 -05:00
Chao Liu	4a1e97cf86	tweak	2019-08-03 14:33:39 -05:00
Chao Liu	c2d246696f	added implicit gemm v4r4 and double buffer	2019-08-03 00:19:19 -05:00
Chao Liu	c01af89928	added new tensor copy operator	2019-08-03 00:02:24 -05:00
Chao Liu	e9733a9f89	experimenting TensorCoordinate and new merged tensor copy operator	2019-08-02 02:30:43 -05:00
Chao Liu	b9663356ff	experimenting new merged tensor copy	2019-08-02 01:57:01 -05:00
Chao Liu	a9a392b44d	experimenting TensorCoordinate and new merged tensor copy operator	2019-08-01 15:32:40 -05:00
Chao Liu	2eeeb1766b	refactor	2019-07-30 22:50:51 -05:00
Chao Liu	08cbac98cc	added (1x4)x(2x4) threadwise gemm	2019-07-30 18:20:55 -05:00
Chao Liu	c5e5a9307b	retune implicit gemm v4r1	2019-07-30 12:10:28 -05:00
Chao Liu	cd8de11218	experimenting new merged tensor copy	2019-07-30 09:35:54 -05:00
Chao Liu	284e7bb317	refactored implicit gemm v1r3	2019-07-29 15:25:38 -05:00
Chao Liu	efd419ecbe	refactored implicit gemm v1r3	2019-07-29 15:01:01 -05:00
Chao Liu	9ba3b49158	adding implicit gemm v4r4	2019-07-28 19:39:57 -05:00
Chao Liu	8669e242ad	debugging	2019-07-15 22:00:48 -05:00
Chao Liu	5f82fdd9d3	adding implicit gemm v4r3	2019-07-15 17:42:18 -05:00
Chao Liu	61faf02b52	adding implicit GEMM v4r2	2019-07-15 16:17:36 -05:00
Chao Liu	1480375fa6	adding implicit GEMM v4r2	2019-07-14 01:32:40 -05:00
Chao Liu	a4b524615b	adding implicit GEMM v4r2	2019-07-13 22:10:42 -05:00
Chao Liu	e87aa851ea	adding implcit GEMM v4r2	2019-07-13 17:44:13 -05:00
Chao Liu	ce4ec7dcaa	update build	2019-07-05 16:33:48 -05:00
Chao Liu	96d73c2154	Merge remote-tracking branch 'origin/build_0705' into implicit_gemm_v4r2	2019-07-05 16:29:20 -05:00
Chao Liu	8133713e96	adding implicit gemm v4r2	2019-07-05 15:35:21 -05:00
Chao Liu	923578a389	adding implicit gemm v4r2	2019-07-05 15:35:11 -05:00
Chao Liu	3276a5e9b9	update build	2019-07-05 15:33:58 -05:00
Chao Liu	c15ff3c825	update compile script	2019-07-03 16:03:12 -05:00
Chao Liu	f0716f5b10	some benchmark on vega 7	2019-06-28 16:13:54 -05:00
Chao Liu	dab2938937	tested on P100	2019-06-27 15:46:09 -05:00
Chao Liu	85ae70d3d3	do more benchmark	2019-06-26 21:43:26 -05:00
Chao Liu	35269cf77a	add more test	2019-06-26 15:51:22 -05:00
Chao Liu	e55cfe1536	debugging vector load for generic tensor copy	2019-06-24 11:49:13 -05:00
Chao Liu	df29a7e097	enabling vector load on merged dim	2019-06-24 11:20:19 -05:00
Chao Liu	37b82b7e54	refactor	2019-06-19 22:26:45 -05:00
Chao Liu	1f2cfcebb3	fixed amd build	2019-06-19 18:51:19 -05:00
Chao Liu	21f7e9f103	refactor	2019-06-19 17:43:56 -05:00
Chao Liu	9de63930c0	refactor	2019-06-18 03:19:56 -05:00
Chao Liu	23f633cdc5	clean up for miopen	2019-06-17 20:14:18 -05:00
Chao Liu	3c0646d490	bring back some inline asm	2019-06-17 17:28:24 -05:00
Chao Liu	9d59a39af3	refactoring	2019-06-17 15:37:19 -05:00
Chao Liu	33d1e0e2e5	refactoring for miopen	2019-06-17 14:58:44 -05:00
Chao Liu	b1cb48a04d	added strides and dilations suppport to implicit gemm v4	2019-06-13 16:20:10 -05:00
Chao Liu	1566b31736	reorginzed files	2019-06-13 15:12:12 -05:00
Chao Liu	c82b833d8e	change build	2019-06-12 10:47:25 -05:00

1 2 3 4 5 ...

290 Commits