diff --git a/example/ck_tile/01_fmha/codegen/ops/fmha_bwd.py b/example/ck_tile/01_fmha/codegen/ops/fmha_bwd.py index 15a3ac6b46..402f8157ab 100644 --- a/example/ck_tile/01_fmha/codegen/ops/fmha_bwd.py +++ b/example/ck_tile/01_fmha/codegen/ops/fmha_bwd.py @@ -224,6 +224,52 @@ struct __attribute__((packed)) fmha_bwd_asm_args p3 _p15; }}; +struct __attribute__((packed)) fmha_bwd_xqa_asm_args +{{ + void* ptr_dq; + p2 _p0; + void* ptr_dk; + p2 _p1; + void* ptr_dv; + p2 _p2; + const void* ptr_q; + p2 _p3; + const void* ptr_k; + p2 _p4; + const void* ptr_v; + p2 _p5; + const void* ptr_do; + p2 _p6; + const void* ptr_lse; + p2 _p7; + const void* ptr_d; + p2 _p8; + float scalar; + p3 _p9; + float log2e; + p3 _p10; + unsigned int seq_len; + p3 _p11; + unsigned int Ts; + p3 _p12; + unsigned int Hs; + p3 _p13; + unsigned int BAs; + p3 _p14; + unsigned int Seqs; + p3 _p15; + unsigned int ratio; + p3 _p16; + unsigned int Hs_kv; + p3 _p17; + unsigned int BAs_kv; + p3 _p18; + unsigned int Seqs_kv; + p3 _p19; + unsigned int Seqs_dkv; + p3 _p20; +}}; + struct fmha_bwd_ext_traits {{ int b; @@ -278,6 +324,38 @@ class fmha_bwd_ext_kernel reinterpret_cast(&config))); }} + void + launch_kernel(fmha_bwd_ext_traits fmha_ext_traits, fmha_bwd_xqa_asm_args args, const ck_tile::stream_config& s) const + {{ + size_t arg_size = sizeof(args); + void* config[] = {{HIP_LAUNCH_PARAM_BUFFER_POINTER, + &args, + HIP_LAUNCH_PARAM_BUFFER_SIZE, + &arg_size, + HIP_LAUNCH_PARAM_END}}; + + int bdx = 256; + int gdx = fmha_ext_traits.s / fmha_ext_traits.ts_kv; + int gdy = fmha_ext_traits.h; + int gdz = fmha_ext_traits.b; + if(fmha_ext_traits.mask > 0) + {{ + int num_tg = fmha_ext_traits.s / fmha_ext_traits.ts_kv; + gdx = (num_tg % 2) ? (num_tg / 2 + 1) : (num_tg / 2); + }} + HIP_CALL(hipModuleLaunchKernel(kernel_func, + gdx, + gdy, + gdz, + bdx, + 1, + 1, + 0, + s.stream_id_, + NULL, + reinterpret_cast(&config))); + }} + private: hipModule_t module; hipFunction_t kernel_func; @@ -343,6 +421,69 @@ float fmha_ext_bwd_(const ck_tile::stream_config& s, fmha_bwd_args a, unsigned ); }} +template +float fmha_ext_bwd_xqa_(const ck_tile::stream_config& s, fmha_bwd_args a, unsigned char bwd_ext_asm[], const std::string& bwd_ext_name, bool io_perm) +{{ + if(s.log_level_ > 0) + std::cout << ", " << fmha_bwd_dot_do_o_get_name_() << ", " << bwd_ext_name << std::flush; + fmha_bwd_xqa_asm_args args; + args.ptr_dq = a.dq_ptr; + args.ptr_dk = a.dk_ptr; + args.ptr_dv = a.dv_ptr; + args.ptr_q = a.q_ptr; + args.ptr_k = a.k_ptr; + args.ptr_v = a.v_ptr; + args.ptr_do = a.do_ptr; + args.ptr_lse = a.lse_ptr; + args.ptr_d = a.d_ptr; + args.scalar = a.scale; + args.log2e = ck_tile::log2e_v; + args.seq_len = a.seqlen_q; + + int stride_tg = 128 * a.hdim_q * 2; + int stride_head = a.seqlen_q * a.hdim_q * 2; + int stride_batch = a.nhead_q * a.seqlen_q * a.hdim_q * 2; + int stride_seqlen = a.hdim_q * 2; + + int stride_head_kv = a.seqlen_q * a.hdim_q * 2; + int stride_batch_kv = a.nhead_k * a.seqlen_q * a.hdim_q * 2; + int stride_seqlen_kv = a.hdim_q * 2; + int stride_seqlen_dkv = a.hdim_q * 2; + if(io_perm == 0) //BSHD + {{ + stride_seqlen = a.nhead_q * a.hdim_q * 2; + stride_head = a.hdim_q * 2; + + stride_seqlen_kv = a.nhead_k * a.hdim_q * 2; + stride_seqlen_dkv = a.nhead_q * a.hdim_q * 2; + stride_tg = 128 * stride_seqlen_kv; + stride_head_kv = a.hdim_q * 2; + }} + args.Ts = stride_tg; + args.Hs = stride_head; + args.BAs = stride_batch; + args.Seqs = stride_seqlen; + + args.ratio = a.nhead_q / a.nhead_k; + args.Hs_kv = stride_head_kv; + args.BAs_kv = stride_batch_kv; + args.Seqs_kv = stride_seqlen_kv; + args.Seqs_dkv = stride_seqlen_dkv; + auto traits = fmha_bwd_ext_traits{{a.batch, + a.nhead_q, + a.seqlen_q, + a.hdim_q, + 1, + a.mask_type, + 32, + 128}}; + fmha_bwd_ext_kernel impl(HSA_KERNEL, bwd_ext_asm); + return ck_tile::launch_kernel(s, + [=](const ck_tile::stream_config& s_){{ fmha_bwd_dot_do_o_oneshot_(s_, a); }}, + [=](const ck_tile::stream_config& s_){{ impl.launch_kernel(traits, args, s_); }} + ); +}} + template float fmha_ext_bwd_(const ck_tile::stream_config& s, fmha_bwd_args a, unsigned char bwd_ext_asm[], const std::string& bwd_ext_name, bool io_perm) {{ @@ -398,11 +539,11 @@ float fmha_bwd(fmha_bwd_traits t, fmha_bwd_args a, const ck_tile::stream_config& if (t.uses_ext_asm == true){{ if ((t.is_group_mode == false) && (t.bias_type == bias_enum::no_bias) && (t.has_dbias == false) && (t.has_dropout == false) && (a.seqlen_q == a.seqlen_k) && (a.seqlen_k % 128 == 0) && (a.hdim_q == 128) && (a.hdim_v == 128) && (t.is_deterministic == false) && - (a.stride_q == a.stride_dq /*i_perm == o_perm*/) && (a.stride_k == a.stride_dk /*i_perm == o_perm*/) && - (a.stride_v == a.stride_dv /*i_perm == o_perm*/) && (a.nhead_q == a.nhead_k /*MQA/GQA not supported yet*/)) {{ + (a.stride_q == a.stride_o /*i_perm == o_perm*/)) {{ if(t.data_type.compare("fp16") == 0){{ if(t.mask_type == mask_enum::no_mask){{ - if((t.is_asm_atomic_fp32 == true) && (a.nhead_stride_dq_acc > a.stride_dq_acc /*dq_acc only support BHSD*/)){{ + if((t.is_asm_atomic_fp32 == true) && (a.nhead_q == a.nhead_k /*MQA/GQA not supported yet*/) + && (a.nhead_stride_dq_acc > a.stride_dq_acc /*dq_acc only support BHSD*/)){{ if(t.is_asm_no_coex == true){{ using dot_do_o_trait_ = fmha_bwd_dot_do_o_traits_<128, ck_tile::fp16_t, false, false, false>; using convert_dq_trait_ = fmha_bwd_convert_dq_traits_<128, ck_tile::fp16_t, false, false, false, false>; @@ -420,16 +561,17 @@ float fmha_bwd(fmha_bwd_traits t, fmha_bwd_args a, const ck_tile::stream_config& return r; }} }} - else if(t.is_asm_atomic_fp32 == false){{ + else if((t.is_asm_atomic_fp32 == false) && (a.nhead_q % a.nhead_k == 0)){{ using dot_do_o_trait_ = fmha_bwd_dot_do_o_traits_<128, ck_tile::fp16_t, false, false, false>; const std::string bwd_ext_name = "bwd_ext_fp16_a16"; bool io_perm = a.nhead_stride_q > a.stride_q; - r = fmha_ext_bwd_(s, a, bwd_fp16_a16, bwd_ext_name, io_perm); + r = fmha_ext_bwd_xqa_(s, a, bwd_fp16_a16, bwd_ext_name, io_perm); return r; }} }} else if((t.mask_type != mask_enum::no_mask) && ((a.window_size_left == -1) && (a.window_size_right == 0))){{ - if((t.is_asm_atomic_fp32 == true) && (a.nhead_stride_dq_acc > a.stride_dq_acc /*dq_acc only support BHSD*/)){{ + if((t.is_asm_atomic_fp32 == true) && (a.nhead_q == a.nhead_k /*MQA/GQA not supported yet*/) + && (a.nhead_stride_dq_acc > a.stride_dq_acc /*dq_acc only support BHSD*/)){{ if(t.is_asm_no_coex == true){{ using dot_do_o_trait_ = fmha_bwd_dot_do_o_traits_<128, ck_tile::fp16_t, false, false, false>; using convert_dq_trait_ = fmha_bwd_convert_dq_traits_<128, ck_tile::fp16_t, false, false, false, false>; @@ -447,18 +589,19 @@ float fmha_bwd(fmha_bwd_traits t, fmha_bwd_args a, const ck_tile::stream_config& return r; }} }} - else if(t.is_asm_atomic_fp32 == false){{ + else if((t.is_asm_atomic_fp32 == false) && (a.nhead_q % a.nhead_k == 0)){{ using dot_do_o_trait_ = fmha_bwd_dot_do_o_traits_<128, ck_tile::fp16_t, false, false, false>; const std::string bwd_ext_name = "bwd_ext_fp16_causal_a16"; bool io_perm = a.nhead_stride_q > a.stride_q; - r = fmha_ext_bwd_(s, a, bwd_fp16_causal_a16, bwd_ext_name, io_perm); + r = fmha_ext_bwd_xqa_(s, a, bwd_fp16_causal_a16, bwd_ext_name, io_perm); return r; }} }} }} else if(t.data_type.compare("bf16") == 0){{ if(t.mask_type == mask_enum::no_mask){{ - if((t.is_asm_atomic_fp32 == true) && (a.nhead_stride_dq_acc > a.stride_dq_acc /*dq_acc only support BHSD*/)){{ + if((t.is_asm_atomic_fp32 == true) && (a.nhead_q == a.nhead_k /*MQA/GQA not supported yet*/) + && (a.nhead_stride_dq_acc > a.stride_dq_acc /*dq_acc only support BHSD*/)){{ if(t.is_asm_no_coex == true){{ using dot_do_o_trait_ = fmha_bwd_dot_do_o_traits_<128, ck_tile::bf16_t, false, false, false>; using convert_dq_trait_ = fmha_bwd_convert_dq_traits_<128, ck_tile::bf16_t, false, false, false, false>; @@ -476,16 +619,17 @@ float fmha_bwd(fmha_bwd_traits t, fmha_bwd_args a, const ck_tile::stream_config& return r; }} }} - else if(t.is_asm_atomic_fp32 == false){{ + else if((t.is_asm_atomic_fp32 == false) && (a.nhead_q % a.nhead_k == 0)){{ using dot_do_o_trait_ = fmha_bwd_dot_do_o_traits_<128, ck_tile::bf16_t, false, false, false>; const std::string bwd_ext_name = "bwd_ext_bf16_a16"; bool io_perm = a.nhead_stride_q > a.stride_q; - r = fmha_ext_bwd_(s, a, bwd_bf16_a16, bwd_ext_name, io_perm); + r = fmha_ext_bwd_xqa_(s, a, bwd_bf16_a16, bwd_ext_name, io_perm); return r; }} }} else if((t.mask_type != mask_enum::no_mask) && ((a.window_size_left == -1) && (a.window_size_right == 0))){{ - if((t.is_asm_atomic_fp32 == true) && (a.nhead_stride_dq_acc > a.stride_dq_acc /*dq_acc only support BHSD*/)){{ + if((t.is_asm_atomic_fp32 == true) && (a.nhead_q == a.nhead_k /*MQA/GQA not supported yet*/) + && (a.nhead_stride_dq_acc > a.stride_dq_acc /*dq_acc only support BHSD*/)){{ if(t.is_asm_no_coex == true){{ using dot_do_o_trait_ = fmha_bwd_dot_do_o_traits_<128, ck_tile::bf16_t, false, false, false>; using convert_dq_trait_ = fmha_bwd_convert_dq_traits_<128, ck_tile::bf16_t, false, false, false, false>; @@ -503,11 +647,11 @@ float fmha_bwd(fmha_bwd_traits t, fmha_bwd_args a, const ck_tile::stream_config& return r; }} }} - else if(t.is_asm_atomic_fp32 == false){{ + else if((t.is_asm_atomic_fp32 == false) && (a.nhead_q % a.nhead_k == 0)){{ using dot_do_o_trait_ = fmha_bwd_dot_do_o_traits_<128, ck_tile::bf16_t, false, false, false>; const std::string bwd_ext_name = "bwd_ext_bf16_causal_a16"; bool io_perm = a.nhead_stride_q > a.stride_q; - r = fmha_ext_bwd_(s, a, bwd_bf16_causal_a16, bwd_ext_name, io_perm); + r = fmha_ext_bwd_xqa_(s, a, bwd_bf16_causal_a16, bwd_ext_name, io_perm); return r; }} }} diff --git a/example/ck_tile/01_fmha/hsaco/bwd_bf16_a16.cpp b/example/ck_tile/01_fmha/hsaco/bwd_bf16_a16.cpp index abdc4335c3..ad9a58f7ab 100644 --- a/example/ck_tile/01_fmha/hsaco/bwd_bf16_a16.cpp +++ b/example/ck_tile/01_fmha/hsaco/bwd_bf16_a16.cpp @@ -5,39 +5,39 @@ unsigned char bwd_bf16_a16[] = { 0x7F, 0x45, 0x4C, 0x46, 0x02, 0x01, 0x01, 0x40, 0x03, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x03, 0x00, 0xE0, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x18, 0x8D, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x48, 0x93, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x4C, 0x05, 0x00, 0x00, 0x40, 0x00, 0x38, 0x00, 0x08, 0x00, 0x40, 0x00, 0x0D, 0x00, 0x0B, 0x00, 0x06, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xC0, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xC0, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x08, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x40, 0x11, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x40, 0x11, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x01, 0x00, 0x00, 0x00, 0x05, 0x00, 0x00, 0x00, 0x00, 0x12, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x22, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x22, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x14, 0x79, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x14, 0x79, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x40, 0x16, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x40, 0x16, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x01, 0x00, 0x00, 0x00, 0x05, 0x00, 0x00, 0x00, 0x00, 0x17, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x27, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x27, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x44, 0x7A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x44, 0x7A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x06, 0x00, 0x00, 0x00, - 0x18, 0x8B, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x18, 0xAB, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x18, 0xAB, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x70, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x48, 0x91, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x48, 0xB1, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x48, 0xB1, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x70, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x70, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x02, 0x00, 0x00, 0x00, 0x06, 0x00, 0x00, 0x00, 0x18, 0x8B, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x18, 0xAB, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x18, 0xAB, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x02, 0x00, 0x00, 0x00, 0x06, 0x00, 0x00, 0x00, 0x48, 0x91, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x48, 0xB1, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x48, 0xB1, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x70, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x70, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x08, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x52, 0xE5, 0x74, 0x64, 0x04, 0x00, 0x00, 0x00, - 0x18, 0x8B, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x18, 0xAB, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x18, 0xAB, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x70, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0xE8, 0x04, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x48, 0x91, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x48, 0xB1, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x48, 0xB1, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x70, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xB8, 0x0E, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x51, 0xE5, 0x74, 0x64, 0x06, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x1C, 0x0E, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x1C, 0x0E, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x07, 0x00, 0x00, 0x00, 0x08, 0x0E, 0x00, 0x00, 0x20, 0x00, 0x00, 0x00, 0x41, 0x4D, 0x44, 0x47, + 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x54, 0x13, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x54, 0x13, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x07, 0x00, 0x00, 0x00, 0x40, 0x13, 0x00, 0x00, 0x20, 0x00, 0x00, 0x00, 0x41, 0x4D, 0x44, 0x47, 0x50, 0x55, 0x00, 0x00, 0x82, 0xAE, 0x61, 0x6D, 0x64, 0x68, 0x73, 0x61, 0x2E, 0x6B, 0x65, 0x72, - 0x6E, 0x65, 0x6C, 0x73, 0x91, 0x8C, 0xA5, 0x2E, 0x61, 0x72, 0x67, 0x73, 0xDC, 0x00, 0x2E, 0x86, + 0x6E, 0x65, 0x6C, 0x73, 0x91, 0x8C, 0xA5, 0x2E, 0x61, 0x72, 0x67, 0x73, 0xDC, 0x00, 0x42, 0x86, 0xAE, 0x2E, 0x61, 0x63, 0x74, 0x75, 0x61, 0x6C, 0x5F, 0x61, 0x63, 0x63, 0x65, 0x73, 0x73, 0xAA, 0x72, 0x65, 0x61, 0x64, 0x5F, 0x77, 0x72, 0x69, 0x74, 0x65, 0xAE, 0x2E, 0x61, 0x64, 0x64, 0x72, 0x65, 0x73, 0x73, 0x5F, 0x73, 0x70, 0x61, 0x63, 0x65, 0xA6, 0x67, 0x6C, 0x6F, 0x62, 0x61, 0x6C, @@ -244,37 +244,117 @@ unsigned char bwd_bf16_a16[] = { 0x65, 0x74, 0xCC, 0xFC, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, - 0xB9, 0x2E, 0x67, 0x72, 0x6F, 0x75, 0x70, 0x5F, 0x73, 0x65, 0x67, 0x6D, 0x65, 0x6E, 0x74, 0x5F, - 0x66, 0x69, 0x78, 0x65, 0x64, 0x5F, 0x73, 0x69, 0x7A, 0x65, 0xCE, 0x00, 0x01, 0x00, 0x00, 0xB6, + 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA5, 0x72, 0x61, 0x74, 0x69, 0x6F, 0xA7, 0x2E, 0x6F, + 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x00, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, + 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, + 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, + 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, 0xA7, + 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x04, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, + 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, + 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, + 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, + 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x08, 0xA5, 0x2E, 0x73, 0x69, + 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, + 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, + 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, + 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x0C, 0xA5, 0x2E, + 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, + 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, + 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, + 0x65, 0xA5, 0x48, 0x73, 0x5F, 0x6B, 0x76, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, + 0x01, 0x10, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, + 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, + 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, + 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, + 0x74, 0xCD, 0x01, 0x14, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, + 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, + 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, + 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, + 0x73, 0x65, 0x74, 0xCD, 0x01, 0x18, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, + 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, + 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, + 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, + 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x1C, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, + 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, + 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, + 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA6, 0x42, 0x41, 0x73, 0x5F, + 0x6B, 0x76, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x20, 0xA5, 0x2E, 0x73, + 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, + 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, + 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, + 0xA3, 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x24, 0xA5, + 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, + 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, + 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, + 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, + 0x28, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, + 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, + 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, + 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, + 0xCD, 0x01, 0x2C, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, + 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, + 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, + 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA7, 0x53, 0x65, 0x71, 0x73, 0x5F, 0x6B, 0x76, 0xA7, 0x2E, + 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x30, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, + 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, + 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, + 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, + 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x34, 0xA5, 0x2E, 0x73, 0x69, 0x7A, + 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, + 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, + 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, + 0x61, 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x38, 0xA5, 0x2E, 0x73, + 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, + 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, + 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, + 0xA3, 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x3C, 0xA5, + 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, + 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, + 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, + 0x6D, 0x65, 0xA8, 0x53, 0x65, 0x71, 0x73, 0x5F, 0x64, 0x6B, 0x76, 0xA7, 0x2E, 0x6F, 0x66, 0x66, + 0x73, 0x65, 0x74, 0xCD, 0x01, 0x40, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, + 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, + 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, + 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, + 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x44, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, + 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, + 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, + 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, 0xA7, + 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x48, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, + 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, + 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, + 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, + 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x4C, 0xA5, 0x2E, 0x73, 0x69, + 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, + 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, + 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0xB9, 0x2E, 0x67, 0x72, 0x6F, 0x75, 0x70, 0x5F, + 0x73, 0x65, 0x67, 0x6D, 0x65, 0x6E, 0x74, 0x5F, 0x66, 0x69, 0x78, 0x65, 0x64, 0x5F, 0x73, 0x69, + 0x7A, 0x65, 0xCE, 0x00, 0x01, 0x00, 0x00, 0xB6, 0x2E, 0x6B, 0x65, 0x72, 0x6E, 0x61, 0x72, 0x67, + 0x5F, 0x73, 0x65, 0x67, 0x6D, 0x65, 0x6E, 0x74, 0x5F, 0x61, 0x6C, 0x69, 0x67, 0x6E, 0x04, 0xB5, 0x2E, 0x6B, 0x65, 0x72, 0x6E, 0x61, 0x72, 0x67, 0x5F, 0x73, 0x65, 0x67, 0x6D, 0x65, 0x6E, 0x74, - 0x5F, 0x61, 0x6C, 0x69, 0x67, 0x6E, 0x04, 0xB5, 0x2E, 0x6B, 0x65, 0x72, 0x6E, 0x61, 0x72, 0x67, - 0x5F, 0x73, 0x65, 0x67, 0x6D, 0x65, 0x6E, 0x74, 0x5F, 0x73, 0x69, 0x7A, 0x65, 0xCD, 0x01, 0x00, - 0xB8, 0x2E, 0x6D, 0x61, 0x78, 0x5F, 0x66, 0x6C, 0x61, 0x74, 0x5F, 0x77, 0x6F, 0x72, 0x6B, 0x67, - 0x72, 0x6F, 0x75, 0x70, 0x5F, 0x73, 0x69, 0x7A, 0x65, 0xCD, 0x01, 0x00, 0xA5, 0x2E, 0x6E, 0x61, - 0x6D, 0x65, 0xAB, 0x6B, 0x65, 0x72, 0x6E, 0x65, 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, 0xBB, 0x2E, - 0x70, 0x72, 0x69, 0x76, 0x61, 0x74, 0x65, 0x5F, 0x73, 0x65, 0x67, 0x6D, 0x65, 0x6E, 0x74, 0x5F, - 0x66, 0x69, 0x78, 0x65, 0x64, 0x5F, 0x73, 0x69, 0x7A, 0x65, 0x00, 0xB4, 0x2E, 0x72, 0x65, 0x71, - 0x64, 0x5F, 0x77, 0x6F, 0x72, 0x6B, 0x67, 0x72, 0x6F, 0x75, 0x70, 0x5F, 0x73, 0x69, 0x7A, 0x65, - 0x93, 0xCD, 0x01, 0x00, 0x01, 0x01, 0xAB, 0x2E, 0x73, 0x67, 0x70, 0x72, 0x5F, 0x63, 0x6F, 0x75, - 0x6E, 0x74, 0x60, 0xA7, 0x2E, 0x73, 0x79, 0x6D, 0x62, 0x6F, 0x6C, 0xAE, 0x6B, 0x65, 0x72, 0x6E, - 0x65, 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, 0x2E, 0x6B, 0x64, 0xAB, 0x2E, 0x76, 0x67, 0x70, 0x72, - 0x5F, 0x63, 0x6F, 0x75, 0x6E, 0x74, 0xCD, 0x02, 0x00, 0xAF, 0x2E, 0x77, 0x61, 0x76, 0x65, 0x66, - 0x72, 0x6F, 0x6E, 0x74, 0x5F, 0x73, 0x69, 0x7A, 0x65, 0x40, 0xAE, 0x61, 0x6D, 0x64, 0x68, 0x73, - 0x61, 0x2E, 0x76, 0x65, 0x72, 0x73, 0x69, 0x6F, 0x6E, 0x92, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x12, 0x03, 0x07, 0x00, - 0x00, 0x22, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x0D, 0x00, 0x00, 0x00, 0x11, 0x00, 0x06, 0x00, 0x00, 0x11, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, - 0x01, 0x00, 0x00, 0x00, 0x1A, 0x00, 0x00, 0x00, 0x02, 0x40, 0x02, 0x04, 0x00, 0x00, 0x00, 0x00, - 0x01, 0x00, 0x00, 0x00, 0x10, 0xBA, 0xA0, 0x06, 0x4F, 0x9E, 0xA8, 0x68, 0x03, 0x00, 0x00, 0x00, - 0x03, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x6B, 0x65, 0x72, - 0x6E, 0x65, 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, 0x00, 0x6B, 0x65, 0x72, 0x6E, 0x65, 0x6C, 0x5F, - 0x66, 0x75, 0x6E, 0x63, 0x2E, 0x6B, 0x64, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x5F, 0x73, 0x69, 0x7A, 0x65, 0xCD, 0x01, 0x50, 0xB8, 0x2E, 0x6D, 0x61, 0x78, 0x5F, 0x66, 0x6C, + 0x61, 0x74, 0x5F, 0x77, 0x6F, 0x72, 0x6B, 0x67, 0x72, 0x6F, 0x75, 0x70, 0x5F, 0x73, 0x69, 0x7A, + 0x65, 0xCD, 0x01, 0x00, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xAB, 0x6B, 0x65, 0x72, 0x6E, 0x65, + 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, 0xBB, 0x2E, 0x70, 0x72, 0x69, 0x76, 0x61, 0x74, 0x65, 0x5F, + 0x73, 0x65, 0x67, 0x6D, 0x65, 0x6E, 0x74, 0x5F, 0x66, 0x69, 0x78, 0x65, 0x64, 0x5F, 0x73, 0x69, + 0x7A, 0x65, 0x00, 0xB4, 0x2E, 0x72, 0x65, 0x71, 0x64, 0x5F, 0x77, 0x6F, 0x72, 0x6B, 0x67, 0x72, + 0x6F, 0x75, 0x70, 0x5F, 0x73, 0x69, 0x7A, 0x65, 0x93, 0xCD, 0x01, 0x00, 0x01, 0x01, 0xAB, 0x2E, + 0x73, 0x67, 0x70, 0x72, 0x5F, 0x63, 0x6F, 0x75, 0x6E, 0x74, 0x60, 0xA7, 0x2E, 0x73, 0x79, 0x6D, + 0x62, 0x6F, 0x6C, 0xAE, 0x6B, 0x65, 0x72, 0x6E, 0x65, 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, 0x2E, + 0x6B, 0x64, 0xAB, 0x2E, 0x76, 0x67, 0x70, 0x72, 0x5F, 0x63, 0x6F, 0x75, 0x6E, 0x74, 0xCD, 0x02, + 0x00, 0xAF, 0x2E, 0x77, 0x61, 0x76, 0x65, 0x66, 0x72, 0x6F, 0x6E, 0x74, 0x5F, 0x73, 0x69, 0x7A, + 0x65, 0x40, 0xAE, 0x61, 0x6D, 0x64, 0x68, 0x73, 0x61, 0x2E, 0x76, 0x65, 0x72, 0x73, 0x69, 0x6F, + 0x6E, 0x92, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x01, 0x00, 0x00, 0x00, 0x12, 0x03, 0x07, 0x00, 0x00, 0x27, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x0D, 0x00, 0x00, 0x00, 0x11, 0x00, 0x06, 0x00, + 0x00, 0x16, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x01, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x1A, 0x00, 0x00, 0x00, + 0x02, 0x40, 0x02, 0x04, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x10, 0xBA, 0xA0, 0x06, + 0x4F, 0x9E, 0xA8, 0x68, 0x03, 0x00, 0x00, 0x00, 0x03, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x01, 0x00, 0x00, 0x00, 0x00, 0x6B, 0x65, 0x72, 0x6E, 0x65, 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, + 0x00, 0x6B, 0x65, 0x72, 0x6E, 0x65, 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, 0x2E, 0x6B, 0x64, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x11, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x3F, 0x00, 0x00, 0x00, @@ -299,52 +379,65 @@ unsigned char bwd_bf16_a16[] = { 0x00, 0x0C, 0x02, 0xC0, 0x90, 0x00, 0x00, 0x00, 0x40, 0x0C, 0x02, 0xC0, 0xA0, 0x00, 0x00, 0x00, 0x80, 0x0C, 0x02, 0xC0, 0xB0, 0x00, 0x00, 0x00, 0xC0, 0x0C, 0x02, 0xC0, 0xC0, 0x00, 0x00, 0x00, 0x00, 0x0D, 0x02, 0xC0, 0xD0, 0x00, 0x00, 0x00, 0x40, 0x0D, 0x02, 0xC0, 0xE0, 0x00, 0x00, 0x00, - 0x80, 0x11, 0x02, 0xC0, 0xF0, 0x00, 0x00, 0x00, 0x8A, 0x00, 0x02, 0x20, 0x8A, 0x02, 0x04, 0x20, - 0xFF, 0x04, 0x04, 0x26, 0xFF, 0x03, 0x00, 0x00, 0xFF, 0x02, 0x02, 0x26, 0xFF, 0x03, 0x00, 0x00, - 0xFF, 0x00, 0x00, 0x26, 0xFF, 0x03, 0x00, 0x00, 0x86, 0x00, 0x06, 0x20, 0xBF, 0x00, 0x00, 0x26, - 0x02, 0x00, 0xAC, 0xBE, 0x03, 0x00, 0xAD, 0xBE, 0x04, 0x00, 0xAE, 0xBE, 0x03, 0x05, 0x5E, 0x7E, - 0x7F, 0xC0, 0x8C, 0xBF, 0xFF, 0x00, 0x8A, 0xBE, 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x8E, 0xBE, - 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x92, 0xBE, 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x96, 0xBE, - 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x9A, 0xBE, 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x9E, 0xBE, - 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0xA6, 0xBE, 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0xAA, 0xBE, - 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x8B, 0xBE, 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x8F, 0xBE, - 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x93, 0xBE, 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x97, 0xBE, - 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x9B, 0xBE, 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x9F, 0xBE, - 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0xA7, 0xBE, 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0xAB, 0xBE, - 0x00, 0x00, 0x02, 0x00, 0x09, 0xFF, 0x09, 0x86, 0xFF, 0xFF, 0x00, 0x00, 0x0D, 0xFF, 0x0D, 0x86, - 0xFF, 0xFF, 0x00, 0x00, 0x11, 0xFF, 0x11, 0x86, 0xFF, 0xFF, 0x00, 0x00, 0x15, 0xFF, 0x15, 0x86, - 0xFF, 0xFF, 0x00, 0x00, 0x19, 0xFF, 0x19, 0x86, 0xFF, 0xFF, 0x00, 0x00, 0x1D, 0xFF, 0x1D, 0x86, - 0xFF, 0xFF, 0x00, 0x00, 0x25, 0xFF, 0x25, 0x86, 0xFF, 0xFF, 0x00, 0x00, 0x29, 0xFF, 0x29, 0x86, - 0xFF, 0xFF, 0x00, 0x00, 0x09, 0xFF, 0x09, 0x87, 0x00, 0x00, 0x04, 0x00, 0x0D, 0xFF, 0x0D, 0x87, - 0x00, 0x00, 0x04, 0x00, 0x11, 0xFF, 0x11, 0x87, 0x00, 0x00, 0x04, 0x00, 0x15, 0xFF, 0x15, 0x87, - 0x00, 0x00, 0x04, 0x00, 0x19, 0xFF, 0x19, 0x87, 0x00, 0x00, 0x04, 0x00, 0x1D, 0xFF, 0x1D, 0x87, - 0x00, 0x00, 0x04, 0x00, 0x25, 0xFF, 0x25, 0x87, 0x00, 0x00, 0x04, 0x00, 0x29, 0xFF, 0x29, 0x87, - 0x00, 0x00, 0x04, 0x00, 0xFF, 0x40, 0xD9, 0xD3, 0x80, 0x00, 0x00, 0x18, 0x80, 0x02, 0xEE, 0x7F, - 0x08, 0x00, 0xCE, 0xBE, 0x0C, 0x00, 0xD0, 0xBE, 0x10, 0x00, 0xD2, 0xBE, 0x14, 0x00, 0xD4, 0xBE, - 0x20, 0x00, 0xCC, 0xBE, 0x09, 0x00, 0xCF, 0xBE, 0x0D, 0x00, 0xD1, 0xBE, 0x11, 0x00, 0xD3, 0xBE, - 0x15, 0x00, 0xD5, 0xBE, 0x21, 0x00, 0xCD, 0xBE, 0x30, 0x02, 0x38, 0x7E, 0x31, 0x38, 0x38, 0x0A, - 0x80, 0x00, 0xC2, 0xBE, 0x32, 0x00, 0xBA, 0xBE, 0x80, 0x00, 0xBB, 0xBE, 0xFF, 0x00, 0xBF, 0xBE, - 0x00, 0x01, 0x04, 0x05, 0xFF, 0x00, 0xC0, 0xBE, 0x02, 0x03, 0x06, 0x07, 0x1C, 0x05, 0x72, 0x7E, - 0xFF, 0x02, 0x3C, 0x7E, 0x06, 0x07, 0x02, 0x03, 0x3F, 0x02, 0x38, 0x7E, 0x81, 0x00, 0x3A, 0x26, - 0x81, 0x3A, 0x94, 0x7D, 0x1C, 0x3D, 0x1C, 0x00, 0xFF, 0x02, 0xEA, 0x7F, 0x00, 0x00, 0xFF, 0xFF, - 0xFF, 0x02, 0xEC, 0x7F, 0x00, 0x00, 0xFF, 0x7F, 0xFF, 0x02, 0xEE, 0x7F, 0xFF, 0x7F, 0x00, 0x00, - 0x2F, 0x82, 0x0A, 0xBF, 0x18, 0x1C, 0x18, 0x85, 0x19, 0x1D, 0x19, 0x85, 0x1A, 0x1E, 0x1A, 0x85, - 0x1B, 0x1F, 0x1B, 0x85, 0x2F, 0x81, 0x3C, 0x8F, 0x3C, 0x88, 0x3C, 0x8E, 0xFF, 0x3C, 0x4A, 0x80, - 0x00, 0xC7, 0x00, 0x00, 0xFF, 0x4A, 0x4B, 0x80, 0x00, 0x02, 0x00, 0x00, 0x4A, 0x00, 0xFC, 0xBE, - 0xA0, 0x46, 0x43, 0x92, 0xA0, 0x46, 0x44, 0x92, 0xA0, 0x00, 0xC5, 0xBE, 0x2C, 0x33, 0x3C, 0x92, - 0x2D, 0x34, 0x3D, 0x92, 0x2E, 0x35, 0x3E, 0x92, 0x3C, 0x3D, 0x36, 0x80, 0x36, 0x3E, 0x36, 0x80, - 0x3D, 0x3E, 0x37, 0x80, 0x37, 0x00, 0xB8, 0xBE, 0x2E, 0x35, 0x3E, 0x92, 0x3E, 0x86, 0x3E, 0x8F, - 0x2D, 0x32, 0x3D, 0x92, 0x84, 0x3D, 0x3D, 0x92, 0x3D, 0x3E, 0x41, 0x80, 0x83, 0x00, 0x38, 0x20, + 0x80, 0x11, 0x02, 0xC0, 0xF0, 0x00, 0x00, 0x00, 0x00, 0x0B, 0x02, 0xC0, 0x00, 0x01, 0x00, 0x00, + 0x40, 0x01, 0x02, 0xC0, 0x10, 0x01, 0x00, 0x00, 0x80, 0x01, 0x02, 0xC0, 0x20, 0x01, 0x00, 0x00, + 0xC0, 0x01, 0x02, 0xC0, 0x30, 0x01, 0x00, 0x00, 0x80, 0x0B, 0x02, 0xC0, 0x40, 0x01, 0x00, 0x00, + 0x8A, 0x00, 0x02, 0x20, 0x8A, 0x02, 0x04, 0x20, 0xFF, 0x04, 0x04, 0x26, 0xFF, 0x03, 0x00, 0x00, + 0xFF, 0x02, 0x02, 0x26, 0xFF, 0x03, 0x00, 0x00, 0xFF, 0x00, 0x00, 0x26, 0xFF, 0x03, 0x00, 0x00, + 0x86, 0x00, 0x06, 0x20, 0xBF, 0x00, 0x00, 0x26, 0x02, 0x00, 0x82, 0xBE, 0x03, 0x00, 0x83, 0xBE, + 0x04, 0x00, 0x84, 0xBE, 0x03, 0x05, 0x5E, 0x7E, 0x7F, 0xC0, 0x8C, 0xBF, 0xFF, 0x00, 0x8A, 0xBE, + 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x8E, 0xBE, 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x92, 0xBE, + 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x96, 0xBE, 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x9A, 0xBE, + 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x9E, 0xBE, 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0xA6, 0xBE, + 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0xAA, 0xBE, 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x8B, 0xBE, + 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x8F, 0xBE, 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x93, 0xBE, + 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x97, 0xBE, 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x9B, 0xBE, + 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x9F, 0xBE, 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0xA7, 0xBE, + 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0xAB, 0xBE, 0x00, 0x00, 0x02, 0x00, 0x09, 0xFF, 0x09, 0x86, + 0xFF, 0xFF, 0x00, 0x00, 0x0D, 0xFF, 0x0D, 0x86, 0xFF, 0xFF, 0x00, 0x00, 0x11, 0xFF, 0x11, 0x86, + 0xFF, 0xFF, 0x00, 0x00, 0x15, 0xFF, 0x15, 0x86, 0xFF, 0xFF, 0x00, 0x00, 0x19, 0xFF, 0x19, 0x86, + 0xFF, 0xFF, 0x00, 0x00, 0x1D, 0xFF, 0x1D, 0x86, 0xFF, 0xFF, 0x00, 0x00, 0x25, 0xFF, 0x25, 0x86, + 0xFF, 0xFF, 0x00, 0x00, 0x29, 0xFF, 0x29, 0x86, 0xFF, 0xFF, 0x00, 0x00, 0x09, 0xFF, 0x09, 0x87, + 0x00, 0x00, 0x04, 0x00, 0x0D, 0xFF, 0x0D, 0x87, 0x00, 0x00, 0x04, 0x00, 0x11, 0xFF, 0x11, 0x87, + 0x00, 0x00, 0x04, 0x00, 0x15, 0xFF, 0x15, 0x87, 0x00, 0x00, 0x04, 0x00, 0x19, 0xFF, 0x19, 0x87, + 0x00, 0x00, 0x04, 0x00, 0x1D, 0xFF, 0x1D, 0x87, 0x00, 0x00, 0x04, 0x00, 0x25, 0xFF, 0x25, 0x87, + 0x00, 0x00, 0x04, 0x00, 0x29, 0xFF, 0x29, 0x87, 0x00, 0x00, 0x04, 0x00, 0xFF, 0x40, 0xD9, 0xD3, + 0x80, 0x00, 0x00, 0x18, 0x80, 0x02, 0xEE, 0x7F, 0x08, 0x00, 0xCE, 0xBE, 0x0C, 0x00, 0xD0, 0xBE, + 0x10, 0x00, 0xD2, 0xBE, 0x14, 0x00, 0xD4, 0xBE, 0x20, 0x00, 0xCC, 0xBE, 0x09, 0x00, 0xCF, 0xBE, + 0x0D, 0x00, 0xD1, 0xBE, 0x11, 0x00, 0xD3, 0xBE, 0x15, 0x00, 0xD5, 0xBE, 0x21, 0x00, 0xCD, 0xBE, + 0x03, 0x00, 0xC7, 0xBE, 0x2C, 0x0C, 0x38, 0x7E, 0x80, 0x2C, 0xBC, 0x81, 0x1C, 0x47, 0x38, 0x7E, + 0x00, 0x00, 0x80, 0xBF, 0xFF, 0x38, 0x38, 0x0A, 0xFE, 0xFF, 0x7F, 0x4F, 0x1C, 0x0F, 0x38, 0x7E, + 0x1D, 0x00, 0x85, 0xD2, 0x3C, 0x38, 0x02, 0x00, 0x1D, 0x00, 0x86, 0xD2, 0x1C, 0x3B, 0x02, 0x00, + 0x1C, 0x3B, 0x38, 0x68, 0x1C, 0x00, 0x86, 0xD2, 0x47, 0x38, 0x02, 0x00, 0x1D, 0x00, 0x85, 0xD2, + 0x1C, 0x59, 0x00, 0x00, 0x47, 0x3A, 0x3E, 0x6A, 0x81, 0x38, 0x3C, 0x68, 0x2C, 0x3E, 0x96, 0x7D, + 0x2C, 0x3E, 0x3A, 0x6C, 0x00, 0x00, 0x80, 0xBF, 0x1C, 0x3D, 0x38, 0x00, 0x1F, 0x3B, 0x3E, 0x00, + 0x81, 0x38, 0x3A, 0x68, 0x2C, 0x3E, 0x96, 0x7D, 0x01, 0x00, 0x80, 0xBF, 0x1C, 0x3B, 0x3E, 0x00, + 0x03, 0x00, 0x80, 0xBF, 0x1F, 0x05, 0x5A, 0x7E, 0x03, 0x00, 0x80, 0xBF, 0x30, 0x02, 0x38, 0x7E, + 0x31, 0x38, 0x38, 0x0A, 0x80, 0x00, 0xC2, 0xBE, 0x32, 0x00, 0xBA, 0xBE, 0x80, 0x00, 0xBB, 0xBE, + 0xFF, 0x00, 0xBF, 0xBE, 0x00, 0x01, 0x04, 0x05, 0xFF, 0x00, 0xC0, 0xBE, 0x02, 0x03, 0x06, 0x07, + 0x1C, 0x05, 0x72, 0x7E, 0xFF, 0x02, 0x3C, 0x7E, 0x06, 0x07, 0x02, 0x03, 0x3F, 0x02, 0x38, 0x7E, + 0x81, 0x00, 0x3A, 0x26, 0x81, 0x3A, 0x94, 0x7D, 0x1C, 0x3D, 0x1C, 0x00, 0xFF, 0x02, 0xEA, 0x7F, + 0x00, 0x00, 0xFF, 0xFF, 0xFF, 0x02, 0xEC, 0x7F, 0x00, 0x00, 0xFF, 0x7F, 0xFF, 0x02, 0xEE, 0x7F, + 0xFF, 0x7F, 0x00, 0x00, 0x2F, 0x82, 0x0A, 0xBF, 0x18, 0x1C, 0x18, 0x85, 0x19, 0x1D, 0x19, 0x85, + 0x1A, 0x1E, 0x1A, 0x85, 0x1B, 0x1F, 0x1B, 0x85, 0x2F, 0x81, 0x3C, 0x8F, 0x3C, 0x88, 0x3C, 0x8E, + 0xFF, 0x3C, 0x4A, 0x80, 0x00, 0xC7, 0x00, 0x00, 0xFF, 0x4A, 0x4B, 0x80, 0x00, 0x02, 0x00, 0x00, + 0x4A, 0x00, 0xFC, 0xBE, 0xA0, 0x46, 0x43, 0x92, 0xA0, 0x46, 0x44, 0x92, 0xA0, 0x00, 0xC5, 0xBE, + 0x02, 0x33, 0x3C, 0x92, 0x2D, 0x05, 0x3D, 0x92, 0x04, 0x06, 0x3E, 0x92, 0x3C, 0x3D, 0x36, 0x80, + 0x36, 0x3E, 0x36, 0x80, 0x03, 0x34, 0x3D, 0x92, 0x04, 0x35, 0x3E, 0x92, 0x3D, 0x3E, 0x37, 0x80, + 0x37, 0x00, 0xB8, 0xBE, 0x04, 0x35, 0x3E, 0x92, 0x3E, 0x86, 0x3E, 0x8F, 0x03, 0x32, 0x3D, 0x92, + 0x84, 0x3D, 0x3D, 0x92, 0x3D, 0x3E, 0x41, 0x80, 0x07, 0x00, 0xC7, 0xBE, 0x83, 0x00, 0x38, 0x20, 0x81, 0x38, 0x3A, 0x26, 0x81, 0x3A, 0x3A, 0x24, 0x84, 0x38, 0x3C, 0x26, 0x1E, 0x3B, 0x3A, 0x68, - 0x82, 0x38, 0x3C, 0x26, 0x82, 0x3C, 0x3C, 0x24, 0x1E, 0x3B, 0x3A, 0x68, 0x46, 0x3A, 0x3A, 0x0C, + 0x82, 0x38, 0x3C, 0x26, 0x82, 0x3C, 0x3C, 0x24, 0x1E, 0x3B, 0x3A, 0x68, 0x47, 0x3A, 0x3A, 0x0C, 0x87, 0x00, 0x38, 0x26, 0x84, 0x38, 0x38, 0x24, 0x1C, 0x3B, 0x02, 0x68, 0x81, 0x2F, 0x3C, 0x86, - 0x3C, 0x46, 0x3C, 0x92, 0x3C, 0x90, 0x3C, 0x92, 0x2F, 0x81, 0x3D, 0x8F, 0x3D, 0xFF, 0x3D, 0x92, - 0x80, 0x00, 0x00, 0x00, 0x3C, 0x3D, 0x3C, 0x80, 0x3C, 0x02, 0x02, 0x68, 0x46, 0x02, 0x04, 0x68, + 0x3C, 0x47, 0x3C, 0x92, 0x3C, 0x90, 0x3C, 0x92, 0x2F, 0x81, 0x3D, 0x8F, 0x3D, 0xFF, 0x3D, 0x92, + 0x80, 0x00, 0x00, 0x00, 0x3C, 0x3D, 0x3C, 0x80, 0x3C, 0x02, 0x02, 0x68, 0x47, 0x02, 0x04, 0x68, 0x82, 0x02, 0x02, 0x20, 0x82, 0x04, 0x04, 0x20, 0x36, 0x50, 0x0C, 0x80, 0x80, 0x51, 0x0D, 0x82, 0x36, 0x52, 0x10, 0x80, 0x80, 0x53, 0x11, 0x82, 0x37, 0x4E, 0x08, 0x80, 0x80, 0x4F, 0x09, 0x82, 0x38, 0x54, 0x14, 0x80, 0x80, 0x55, 0x15, 0x82, 0x9F, 0x00, 0x10, 0x26, 0x82, 0x10, 0x10, 0x24, - 0x41, 0x10, 0x10, 0x68, 0x82, 0x10, 0x10, 0x20, 0xA0, 0x46, 0x3C, 0x92, 0x2F, 0x3C, 0x3C, 0x92, - 0x82, 0x00, 0x06, 0x24, 0x3C, 0x06, 0x06, 0x68, 0x36, 0x06, 0x06, 0x68, 0x82, 0x06, 0x06, 0x20, + 0x41, 0x10, 0x10, 0x68, 0x82, 0x10, 0x10, 0x20, 0xA0, 0x2E, 0x3C, 0x92, 0x2F, 0x3C, 0x3C, 0x92, + 0x82, 0x00, 0x06, 0x24, 0x3C, 0x06, 0x06, 0x68, 0xFF, 0x2E, 0x3C, 0x92, 0x80, 0x00, 0x00, 0x00, + 0x02, 0x3C, 0x3C, 0x92, 0x03, 0x05, 0x3D, 0x92, 0x04, 0x06, 0x3E, 0x92, 0x3E, 0x2C, 0x3E, 0x92, + 0x3C, 0x3D, 0x3C, 0x80, 0x3C, 0x3E, 0x3C, 0x80, 0x3C, 0x06, 0x06, 0x68, 0x82, 0x06, 0x06, 0x20, 0x03, 0x03, 0x08, 0x7E, 0x88, 0x46, 0x3C, 0x92, 0x2F, 0x3C, 0x3C, 0x92, 0x82, 0x00, 0x0A, 0x24, 0x3C, 0x0A, 0x0A, 0x68, 0x37, 0x4C, 0x20, 0x80, 0x80, 0x4D, 0x21, 0x82, 0x05, 0x03, 0x0C, 0x7E, 0x80, 0x02, 0x0E, 0x7E, 0x83, 0x00, 0x38, 0x20, 0x81, 0x38, 0x3A, 0x26, 0x83, 0x3A, 0x3A, 0x24, @@ -385,13 +478,13 @@ unsigned char bwd_bf16_a16[] = { 0x82, 0x38, 0x3A, 0x26, 0x1D, 0x23, 0x22, 0x68, 0x84, 0x38, 0x3A, 0x26, 0x82, 0x3A, 0x3A, 0x20, 0xFF, 0x3A, 0x3A, 0x0C, 0x10, 0x01, 0x00, 0x00, 0x1D, 0x23, 0x22, 0x68, 0x2F, 0xFF, 0x3C, 0x92, 0x20, 0x02, 0x00, 0x00, 0x3C, 0x22, 0x22, 0x68, 0x82, 0x22, 0x22, 0x24, 0x00, 0x20, 0x5C, 0xE0, - 0x01, 0x40, 0x03, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x44, 0x03, 0x80, 0xA0, 0x46, 0x3C, 0x92, + 0x01, 0x40, 0x03, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x44, 0x03, 0x80, 0xA0, 0x07, 0x3C, 0x92, 0x3C, 0x0C, 0x0C, 0x80, 0x80, 0x0D, 0x0D, 0x82, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x48, 0x03, 0x80, - 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x4C, 0x03, 0x80, 0xA0, 0x46, 0x3C, 0x92, 0x3C, 0x0C, 0x0C, 0x80, + 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x4C, 0x03, 0x80, 0xA0, 0x07, 0x3C, 0x92, 0x3C, 0x0C, 0x0C, 0x80, 0x80, 0x0D, 0x0D, 0x82, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x50, 0x03, 0x80, 0x00, 0x20, 0x5C, 0xE0, - 0x02, 0x54, 0x03, 0x80, 0xA0, 0x46, 0x3C, 0x92, 0x3C, 0x0C, 0x0C, 0x80, 0x80, 0x0D, 0x0D, 0x82, + 0x02, 0x54, 0x03, 0x80, 0xA0, 0x07, 0x3C, 0x92, 0x3C, 0x0C, 0x0C, 0x80, 0x80, 0x0D, 0x0D, 0x82, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x58, 0x03, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x5C, 0x03, 0x80, - 0xA0, 0x46, 0x3C, 0x92, 0x3C, 0x0C, 0x0C, 0x80, 0x80, 0x0D, 0x0D, 0x82, 0x74, 0x0F, 0x8C, 0xBF, + 0xA0, 0x07, 0x3C, 0x92, 0x3C, 0x0C, 0x0C, 0x80, 0x80, 0x0D, 0x0D, 0x82, 0x74, 0x0F, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x60, 0x00, 0xED, 0xD1, 0x44, 0x81, 0xFE, 0x00, 0x61, 0x00, 0xED, 0xD1, 0x44, 0x81, 0x02, 0x01, 0x62, 0x00, 0xED, 0xD1, 0x45, 0x83, 0xFE, 0x00, 0x63, 0x00, 0xED, 0xD1, 0x45, 0x83, 0x02, 0x01, 0x64, 0x00, 0xED, 0xD1, 0x46, 0x85, 0xFE, 0x00, 0x65, 0x00, 0xED, 0xD1, @@ -413,9 +506,9 @@ unsigned char bwd_bf16_a16[] = { 0x0A, 0x46, 0x00, 0x00, 0x00, 0x21, 0x9A, 0xD8, 0x0A, 0x48, 0x00, 0x00, 0x00, 0x23, 0x9A, 0xD8, 0x0A, 0x4A, 0x00, 0x00, 0x10, 0x21, 0x9A, 0xD8, 0x0A, 0x4C, 0x00, 0x00, 0x10, 0x23, 0x9A, 0xD8, 0x0A, 0x4E, 0x00, 0x00, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x40, 0x04, 0x80, 0x00, 0x20, 0x5C, 0xE0, - 0x02, 0x44, 0x04, 0x80, 0xA0, 0x46, 0x3C, 0x92, 0x3C, 0x10, 0x10, 0x80, 0x80, 0x11, 0x11, 0x82, + 0x02, 0x44, 0x04, 0x80, 0xA0, 0x07, 0x3C, 0x92, 0x3C, 0x10, 0x10, 0x80, 0x80, 0x11, 0x11, 0x82, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x48, 0x04, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x4C, 0x04, 0x80, - 0xA0, 0x46, 0x3C, 0x92, 0x3C, 0x10, 0x10, 0x80, 0x80, 0x11, 0x11, 0x82, 0x7F, 0xC0, 0x8C, 0xBF, + 0xA0, 0x07, 0x3C, 0x92, 0x3C, 0x10, 0x10, 0x80, 0x80, 0x11, 0x11, 0x82, 0x7F, 0xC0, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x00, 0x84, 0xFE, 0xDB, 0x16, 0x00, 0x00, 0x20, 0x00, 0x85, 0xFE, 0xDB, 0x16, 0x00, 0x00, 0x24, 0x00, 0xA5, 0xFE, 0xDB, 0x16, 0x00, 0x00, 0x28, 0x00, 0xA6, 0xFE, 0xDB, 0x16, 0x00, 0x00, 0x2C, 0x74, 0x00, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x60, 0x00, 0xED, 0xD1, @@ -439,9 +532,9 @@ unsigned char bwd_bf16_a16[] = { 0x0A, 0x54, 0x00, 0x00, 0x10, 0x44, 0x9A, 0xD8, 0x0A, 0x56, 0x00, 0x00, 0x00, 0x63, 0x9A, 0xD8, 0x0A, 0x58, 0x00, 0x00, 0x00, 0x65, 0x9A, 0xD8, 0x0A, 0x5A, 0x00, 0x00, 0x10, 0x63, 0x9A, 0xD8, 0x0A, 0x5C, 0x00, 0x00, 0x10, 0x65, 0x9A, 0xD8, 0x0A, 0x5E, 0x00, 0x00, 0x00, 0x20, 0x5C, 0xE0, - 0x01, 0x50, 0x04, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x54, 0x04, 0x80, 0xA0, 0x46, 0x3C, 0x92, + 0x01, 0x50, 0x04, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x54, 0x04, 0x80, 0xA0, 0x07, 0x3C, 0x92, 0x3C, 0x10, 0x10, 0x80, 0x80, 0x11, 0x11, 0x82, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x58, 0x04, 0x80, - 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x5C, 0x04, 0x80, 0xA0, 0x46, 0x3C, 0x92, 0x3C, 0x10, 0x10, 0x80, + 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x5C, 0x04, 0x80, 0xA0, 0x07, 0x3C, 0x92, 0x3C, 0x10, 0x10, 0x80, 0x80, 0x11, 0x11, 0x82, 0x7F, 0xC0, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x00, 0x84, 0xFE, 0xDB, 0x16, 0x00, 0x00, 0x30, 0x00, 0x85, 0xFE, 0xDB, 0x16, 0x00, 0x00, 0x34, 0x00, 0xA5, 0xFE, 0xDB, 0x16, 0x00, 0x00, 0x38, 0x00, 0xA6, 0xFE, 0xDB, 0x16, 0x00, 0x00, 0x3C, 0x00, 0x00, 0xFE, 0xDB, @@ -453,7 +546,13 @@ unsigned char bwd_bf16_a16[] = { 0x0A, 0x42, 0x00, 0x00, 0x10, 0x00, 0x9A, 0xD8, 0x0A, 0x44, 0x00, 0x00, 0x10, 0x02, 0x9A, 0xD8, 0x0A, 0x46, 0x00, 0x00, 0x00, 0x21, 0x9A, 0xD8, 0x0A, 0x48, 0x00, 0x00, 0x00, 0x23, 0x9A, 0xD8, 0x0A, 0x4A, 0x00, 0x00, 0x10, 0x21, 0x9A, 0xD8, 0x0A, 0x4C, 0x00, 0x00, 0x10, 0x23, 0x9A, 0xD8, - 0x0A, 0x4E, 0x00, 0x00, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x20, 0x02, 0x80, 0x00, 0x20, 0x5C, 0xE0, + 0x0A, 0x4E, 0x00, 0x00, 0x46, 0x00, 0xC7, 0xBE, 0x83, 0x00, 0x38, 0x20, 0x81, 0x38, 0x3A, 0x26, + 0x81, 0x3A, 0x3A, 0x24, 0x84, 0x38, 0x3C, 0x26, 0x1E, 0x3B, 0x3A, 0x68, 0x82, 0x38, 0x3C, 0x26, + 0x82, 0x3C, 0x3C, 0x24, 0x1E, 0x3B, 0x3A, 0x68, 0x47, 0x3A, 0x3A, 0x0C, 0x87, 0x00, 0x38, 0x26, + 0x84, 0x38, 0x38, 0x24, 0x1C, 0x3B, 0x02, 0x68, 0x81, 0x2F, 0x3C, 0x86, 0x3C, 0x47, 0x3C, 0x92, + 0x3C, 0x90, 0x3C, 0x92, 0x2F, 0x81, 0x3D, 0x8F, 0x3D, 0xFF, 0x3D, 0x92, 0x80, 0x00, 0x00, 0x00, + 0x3C, 0x3D, 0x3C, 0x80, 0x3C, 0x02, 0x02, 0x68, 0x47, 0x02, 0x04, 0x68, 0x82, 0x02, 0x02, 0x20, + 0x82, 0x04, 0x04, 0x20, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x20, 0x02, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x24, 0x02, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x30, 0x05, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x34, 0x05, 0x80, 0x7F, 0xC0, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x44, 0x08, 0x08, 0x80, 0x80, 0x09, 0x09, 0x82, 0x44, 0x14, 0x14, 0x80, 0x80, 0x15, 0x15, 0x82, 0x74, 0x00, 0x8C, 0xBF, @@ -1959,38 +2058,38 @@ unsigned char bwd_bf16_a16[] = { 0x30, 0x0C, 0xFE, 0xD9, 0x15, 0x00, 0x00, 0x4C, 0x40, 0x10, 0xFE, 0xD9, 0x15, 0x00, 0x00, 0x50, 0x50, 0x14, 0xFE, 0xD9, 0x15, 0x00, 0x00, 0x54, 0x60, 0x18, 0xFE, 0xD9, 0x15, 0x00, 0x00, 0x58, 0x70, 0x1C, 0xFE, 0xD9, 0x15, 0x00, 0x00, 0x5C, 0x7F, 0xC0, 0x8C, 0xBF, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x40, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x41, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x42, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x43, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x44, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x45, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x46, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x47, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x48, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x49, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x4A, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x4B, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x4C, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x4D, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x4E, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x4F, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x50, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x51, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x52, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x53, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x54, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x55, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x56, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x57, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x58, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x59, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x5A, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x5B, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x5C, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x5D, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x5E, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x5F, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x00, 0x8A, 0xBF, + 0x03, 0x40, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x41, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x42, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x43, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x44, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x45, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x46, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x47, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x48, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x49, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x4A, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x4B, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x4C, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x4D, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x4E, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x4F, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x50, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x51, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x52, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x53, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x54, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x55, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x56, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x57, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x58, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x59, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x5A, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x5B, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x5C, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x5D, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x5E, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x5F, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x00, 0x8A, 0xBF, 0x80, 0x40, 0xD8, 0xD3, 0xC0, 0x01, 0x00, 0x18, 0x81, 0x40, 0xD8, 0xD3, 0xC1, 0x01, 0x00, 0x18, 0x48, 0x00, 0x48, 0xD0, 0x80, 0x01, 0x03, 0x00, 0xF4, 0x00, 0xC8, 0xD1, 0x80, 0x21, 0x05, 0x02, 0xF4, 0x00, 0xFF, 0xD1, 0x80, 0xE9, 0xDF, 0x07, 0x1C, 0x00, 0x00, 0xD1, 0xF4, 0xED, 0x23, 0x01, @@ -2196,68 +2295,68 @@ unsigned char bwd_bf16_a16[] = { 0x30, 0x0C, 0xFE, 0xD9, 0x15, 0x00, 0x00, 0x8C, 0x40, 0x10, 0xFE, 0xD9, 0x15, 0x00, 0x00, 0x90, 0x50, 0x14, 0xFE, 0xD9, 0x15, 0x00, 0x00, 0x94, 0x60, 0x18, 0xFE, 0xD9, 0x15, 0x00, 0x00, 0x98, 0x70, 0x1C, 0xFE, 0xD9, 0x15, 0x00, 0x00, 0x9C, 0x7F, 0xC0, 0x8C, 0xBF, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x80, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x81, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x82, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x83, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x84, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x85, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x86, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x87, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x88, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x89, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x8A, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x8B, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x8C, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x8D, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x8E, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x8F, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x90, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x91, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x92, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x93, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x94, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x95, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x96, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x97, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x98, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x99, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x9A, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x9B, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x9C, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x9D, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x9E, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x9F, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x00, 0x8C, 0xBF, + 0x04, 0x80, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x81, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x82, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x83, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x84, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x85, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x86, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x87, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x88, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x89, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x8A, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x8B, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x8C, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x8D, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x8E, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x8F, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x90, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x91, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x92, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x93, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x94, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x95, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x96, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x97, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x98, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x99, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x9A, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x9B, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x9C, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x9D, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x9E, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x9F, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x00, 0x8C, 0xBF, 0x00, 0x00, 0x81, 0xBF, 0x00, 0x00, 0x00, 0x00, 0x06, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x20, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x0B, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x58, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x0B, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x18, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x05, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0xAC, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x0A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xE4, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x0A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x1C, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xF5, 0xFE, 0xFF, 0x6F, 0x00, 0x00, 0x00, 0x00, - 0x68, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x8C, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xA0, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xC4, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x4C, 0x69, 0x6E, 0x6B, 0x65, 0x72, 0x3A, 0x20, 0x41, 0x4D, 0x44, 0x20, 0x4C, 0x4C, 0x44, 0x20, 0x31, 0x37, 0x2E, 0x30, 0x2E, 0x30, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, - 0xE4, 0x56, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x0C, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0x14, 0x35, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x14, 0x5D, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x0C, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0x44, 0x3B, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x17, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, - 0xC8, 0x56, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x22, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0x98, 0x78, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xF8, 0x5C, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x22, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0xC8, 0x7E, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x48, 0x00, 0x00, 0x00, 0x00, 0x02, 0x08, 0x00, - 0x18, 0xAB, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x2D, 0x00, 0x00, 0x00, 0x12, 0x03, 0x07, 0x00, 0x00, 0x22, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x48, 0xB1, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x2D, 0x00, 0x00, 0x00, 0x12, 0x03, 0x07, 0x00, 0x00, 0x27, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x39, 0x00, 0x00, 0x00, 0x11, 0x00, 0x06, 0x00, - 0x00, 0x11, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x16, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x2E, 0x6E, 0x6F, 0x74, 0x65, 0x00, 0x2E, 0x64, 0x79, 0x6E, 0x73, 0x79, 0x6D, 0x00, 0x2E, 0x67, 0x6E, 0x75, 0x2E, 0x68, 0x61, 0x73, 0x68, 0x00, 0x2E, 0x68, 0x61, 0x73, 0x68, 0x00, 0x2E, 0x64, 0x79, 0x6E, 0x73, 0x74, 0x72, 0x00, 0x2E, 0x72, 0x6F, 0x64, 0x61, 0x74, 0x61, 0x00, 0x2E, 0x74, 0x65, 0x78, 0x74, 0x00, 0x2E, 0x64, 0x79, 0x6E, 0x61, 0x6D, 0x69, 0x63, 0x00, 0x2E, 0x63, 0x6F, 0x6D, 0x6D, 0x65, 0x6E, 0x74, 0x00, 0x2E, 0x73, 0x79, 0x6D, 0x74, 0x61, 0x62, 0x00, 0x2E, 0x73, 0x68, 0x73, 0x74, 0x72, 0x74, 0x61, 0x62, 0x00, 0x2E, 0x73, 0x74, 0x72, 0x74, 0x61, 0x62, - 0x00, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x44, 0x33, 0x39, 0x00, 0x6C, 0x61, 0x62, - 0x65, 0x6C, 0x5F, 0x30, 0x34, 0x43, 0x35, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x44, - 0x33, 0x32, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x31, 0x35, 0x41, 0x36, 0x00, 0x6B, 0x65, + 0x00, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x44, 0x38, 0x35, 0x00, 0x6C, 0x61, 0x62, + 0x65, 0x6C, 0x5F, 0x30, 0x35, 0x31, 0x31, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x44, + 0x37, 0x45, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x31, 0x35, 0x46, 0x32, 0x00, 0x6B, 0x65, 0x72, 0x6E, 0x65, 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, 0x00, 0x6B, 0x65, 0x72, 0x6E, 0x65, 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, 0x2E, 0x6B, 0x64, 0x00, 0x5F, 0x44, 0x59, 0x4E, 0x41, 0x4D, 0x49, 0x43, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, @@ -2266,50 +2365,50 @@ unsigned char bwd_bf16_a16[] = { 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x07, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x1C, 0x0E, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x54, 0x13, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0x00, 0x00, 0x0B, 0x00, 0x00, 0x00, - 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x20, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x20, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x48, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x58, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x58, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x48, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x05, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x08, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x18, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x0F, 0x00, 0x00, 0x00, 0xF6, 0xFF, 0xFF, 0x6F, - 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x68, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x68, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x24, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xA0, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xA0, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x24, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x08, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x19, 0x00, 0x00, 0x00, 0x05, 0x00, 0x00, 0x00, - 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x8C, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x8C, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x20, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xC4, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xC4, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x20, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x1F, 0x00, 0x00, 0x00, 0x03, 0x00, 0x00, 0x00, - 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xAC, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0xAC, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x1C, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xE4, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xE4, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x1C, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x27, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, - 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x11, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x11, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x16, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x16, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x2F, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, - 0x06, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x22, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x12, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x14, 0x79, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x06, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x27, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x17, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x44, 0x7A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x35, 0x00, 0x00, 0x00, 0x06, 0x00, 0x00, 0x00, - 0x03, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x18, 0xAB, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x18, 0x8B, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x70, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x03, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x48, 0xB1, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x48, 0x91, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x70, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x05, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x08, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x3E, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x30, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x88, 0x8B, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x17, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xB8, 0x91, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x17, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x47, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0xA0, 0x8B, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xC0, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xD0, 0x91, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xC0, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x0C, 0x00, 0x00, 0x00, 0x06, 0x00, 0x00, 0x00, 0x08, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x18, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x4F, 0x00, 0x00, 0x00, 0x03, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x60, 0x8C, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x61, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x90, 0x92, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x61, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x59, 0x00, 0x00, 0x00, 0x03, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0xC1, 0x8C, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x51, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xF1, 0x92, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x51, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00}; diff --git a/example/ck_tile/01_fmha/hsaco/bwd_bf16_causal_a16.cpp b/example/ck_tile/01_fmha/hsaco/bwd_bf16_causal_a16.cpp index 0a8a4cc13f..9c66a41569 100644 --- a/example/ck_tile/01_fmha/hsaco/bwd_bf16_causal_a16.cpp +++ b/example/ck_tile/01_fmha/hsaco/bwd_bf16_causal_a16.cpp @@ -5,39 +5,39 @@ unsigned char bwd_bf16_causal_a16[] = { 0x7F, 0x45, 0x4C, 0x46, 0x02, 0x01, 0x01, 0x40, 0x03, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x03, 0x00, 0xE0, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x60, 0x94, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x90, 0x9A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x4C, 0x05, 0x00, 0x00, 0x40, 0x00, 0x38, 0x00, 0x08, 0x00, 0x40, 0x00, 0x0D, 0x00, 0x0B, 0x00, 0x06, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xC0, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xC0, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x08, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x40, 0x11, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x40, 0x11, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x01, 0x00, 0x00, 0x00, 0x05, 0x00, 0x00, 0x00, 0x00, 0x12, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x22, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x22, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x24, 0x7F, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x24, 0x7F, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x40, 0x16, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x40, 0x16, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x01, 0x00, 0x00, 0x00, 0x05, 0x00, 0x00, 0x00, 0x00, 0x17, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x27, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x27, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x54, 0x80, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x54, 0x80, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x06, 0x00, 0x00, 0x00, - 0x28, 0x91, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x28, 0xB1, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x28, 0xB1, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x70, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x58, 0x97, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x58, 0xB7, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x58, 0xB7, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x70, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x70, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x02, 0x00, 0x00, 0x00, 0x06, 0x00, 0x00, 0x00, 0x28, 0x91, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x28, 0xB1, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x28, 0xB1, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x02, 0x00, 0x00, 0x00, 0x06, 0x00, 0x00, 0x00, 0x58, 0x97, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x58, 0xB7, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x58, 0xB7, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x70, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x70, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x08, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x52, 0xE5, 0x74, 0x64, 0x04, 0x00, 0x00, 0x00, - 0x28, 0x91, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x28, 0xB1, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x28, 0xB1, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x70, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0xD8, 0x0E, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x58, 0x97, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x58, 0xB7, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x58, 0xB7, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x70, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xA8, 0x08, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x51, 0xE5, 0x74, 0x64, 0x06, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x1C, 0x0E, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x1C, 0x0E, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x07, 0x00, 0x00, 0x00, 0x08, 0x0E, 0x00, 0x00, 0x20, 0x00, 0x00, 0x00, 0x41, 0x4D, 0x44, 0x47, + 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x54, 0x13, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x54, 0x13, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x07, 0x00, 0x00, 0x00, 0x40, 0x13, 0x00, 0x00, 0x20, 0x00, 0x00, 0x00, 0x41, 0x4D, 0x44, 0x47, 0x50, 0x55, 0x00, 0x00, 0x82, 0xAE, 0x61, 0x6D, 0x64, 0x68, 0x73, 0x61, 0x2E, 0x6B, 0x65, 0x72, - 0x6E, 0x65, 0x6C, 0x73, 0x91, 0x8C, 0xA5, 0x2E, 0x61, 0x72, 0x67, 0x73, 0xDC, 0x00, 0x2E, 0x86, + 0x6E, 0x65, 0x6C, 0x73, 0x91, 0x8C, 0xA5, 0x2E, 0x61, 0x72, 0x67, 0x73, 0xDC, 0x00, 0x42, 0x86, 0xAE, 0x2E, 0x61, 0x63, 0x74, 0x75, 0x61, 0x6C, 0x5F, 0x61, 0x63, 0x63, 0x65, 0x73, 0x73, 0xAA, 0x72, 0x65, 0x61, 0x64, 0x5F, 0x77, 0x72, 0x69, 0x74, 0x65, 0xAE, 0x2E, 0x61, 0x64, 0x64, 0x72, 0x65, 0x73, 0x73, 0x5F, 0x73, 0x70, 0x61, 0x63, 0x65, 0xA6, 0x67, 0x6C, 0x6F, 0x62, 0x61, 0x6C, @@ -244,37 +244,117 @@ unsigned char bwd_bf16_causal_a16[] = { 0x65, 0x74, 0xCC, 0xFC, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, - 0xB9, 0x2E, 0x67, 0x72, 0x6F, 0x75, 0x70, 0x5F, 0x73, 0x65, 0x67, 0x6D, 0x65, 0x6E, 0x74, 0x5F, - 0x66, 0x69, 0x78, 0x65, 0x64, 0x5F, 0x73, 0x69, 0x7A, 0x65, 0xCE, 0x00, 0x01, 0x00, 0x00, 0xB6, + 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA5, 0x72, 0x61, 0x74, 0x69, 0x6F, 0xA7, 0x2E, 0x6F, + 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x00, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, + 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, + 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, + 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, 0xA7, + 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x04, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, + 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, + 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, + 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, + 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x08, 0xA5, 0x2E, 0x73, 0x69, + 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, + 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, + 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, + 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x0C, 0xA5, 0x2E, + 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, + 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, + 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, + 0x65, 0xA5, 0x48, 0x73, 0x5F, 0x6B, 0x76, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, + 0x01, 0x10, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, + 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, + 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, + 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, + 0x74, 0xCD, 0x01, 0x14, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, + 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, + 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, + 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, + 0x73, 0x65, 0x74, 0xCD, 0x01, 0x18, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, + 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, + 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, + 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, + 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x1C, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, + 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, + 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, + 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA6, 0x42, 0x41, 0x73, 0x5F, + 0x6B, 0x76, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x20, 0xA5, 0x2E, 0x73, + 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, + 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, + 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, + 0xA3, 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x24, 0xA5, + 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, + 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, + 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, + 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, + 0x28, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, + 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, + 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, + 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, + 0xCD, 0x01, 0x2C, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, + 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, + 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, + 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA7, 0x53, 0x65, 0x71, 0x73, 0x5F, 0x6B, 0x76, 0xA7, 0x2E, + 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x30, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, + 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, + 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, + 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, + 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x34, 0xA5, 0x2E, 0x73, 0x69, 0x7A, + 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, + 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, + 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, + 0x61, 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x38, 0xA5, 0x2E, 0x73, + 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, + 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, + 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, + 0xA3, 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x3C, 0xA5, + 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, + 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, + 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, + 0x6D, 0x65, 0xA8, 0x53, 0x65, 0x71, 0x73, 0x5F, 0x64, 0x6B, 0x76, 0xA7, 0x2E, 0x6F, 0x66, 0x66, + 0x73, 0x65, 0x74, 0xCD, 0x01, 0x40, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, + 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, + 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, + 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, + 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x44, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, + 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, + 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, + 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, 0xA7, + 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x48, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, + 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, + 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, + 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, + 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x4C, 0xA5, 0x2E, 0x73, 0x69, + 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, + 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, + 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0xB9, 0x2E, 0x67, 0x72, 0x6F, 0x75, 0x70, 0x5F, + 0x73, 0x65, 0x67, 0x6D, 0x65, 0x6E, 0x74, 0x5F, 0x66, 0x69, 0x78, 0x65, 0x64, 0x5F, 0x73, 0x69, + 0x7A, 0x65, 0xCE, 0x00, 0x01, 0x00, 0x00, 0xB6, 0x2E, 0x6B, 0x65, 0x72, 0x6E, 0x61, 0x72, 0x67, + 0x5F, 0x73, 0x65, 0x67, 0x6D, 0x65, 0x6E, 0x74, 0x5F, 0x61, 0x6C, 0x69, 0x67, 0x6E, 0x04, 0xB5, 0x2E, 0x6B, 0x65, 0x72, 0x6E, 0x61, 0x72, 0x67, 0x5F, 0x73, 0x65, 0x67, 0x6D, 0x65, 0x6E, 0x74, - 0x5F, 0x61, 0x6C, 0x69, 0x67, 0x6E, 0x04, 0xB5, 0x2E, 0x6B, 0x65, 0x72, 0x6E, 0x61, 0x72, 0x67, - 0x5F, 0x73, 0x65, 0x67, 0x6D, 0x65, 0x6E, 0x74, 0x5F, 0x73, 0x69, 0x7A, 0x65, 0xCD, 0x01, 0x00, - 0xB8, 0x2E, 0x6D, 0x61, 0x78, 0x5F, 0x66, 0x6C, 0x61, 0x74, 0x5F, 0x77, 0x6F, 0x72, 0x6B, 0x67, - 0x72, 0x6F, 0x75, 0x70, 0x5F, 0x73, 0x69, 0x7A, 0x65, 0xCD, 0x01, 0x00, 0xA5, 0x2E, 0x6E, 0x61, - 0x6D, 0x65, 0xAB, 0x6B, 0x65, 0x72, 0x6E, 0x65, 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, 0xBB, 0x2E, - 0x70, 0x72, 0x69, 0x76, 0x61, 0x74, 0x65, 0x5F, 0x73, 0x65, 0x67, 0x6D, 0x65, 0x6E, 0x74, 0x5F, - 0x66, 0x69, 0x78, 0x65, 0x64, 0x5F, 0x73, 0x69, 0x7A, 0x65, 0x00, 0xB4, 0x2E, 0x72, 0x65, 0x71, - 0x64, 0x5F, 0x77, 0x6F, 0x72, 0x6B, 0x67, 0x72, 0x6F, 0x75, 0x70, 0x5F, 0x73, 0x69, 0x7A, 0x65, - 0x93, 0xCD, 0x01, 0x00, 0x01, 0x01, 0xAB, 0x2E, 0x73, 0x67, 0x70, 0x72, 0x5F, 0x63, 0x6F, 0x75, - 0x6E, 0x74, 0x60, 0xA7, 0x2E, 0x73, 0x79, 0x6D, 0x62, 0x6F, 0x6C, 0xAE, 0x6B, 0x65, 0x72, 0x6E, - 0x65, 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, 0x2E, 0x6B, 0x64, 0xAB, 0x2E, 0x76, 0x67, 0x70, 0x72, - 0x5F, 0x63, 0x6F, 0x75, 0x6E, 0x74, 0xCD, 0x02, 0x00, 0xAF, 0x2E, 0x77, 0x61, 0x76, 0x65, 0x66, - 0x72, 0x6F, 0x6E, 0x74, 0x5F, 0x73, 0x69, 0x7A, 0x65, 0x40, 0xAE, 0x61, 0x6D, 0x64, 0x68, 0x73, - 0x61, 0x2E, 0x76, 0x65, 0x72, 0x73, 0x69, 0x6F, 0x6E, 0x92, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x12, 0x03, 0x07, 0x00, - 0x00, 0x22, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x0D, 0x00, 0x00, 0x00, 0x11, 0x00, 0x06, 0x00, 0x00, 0x11, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, - 0x01, 0x00, 0x00, 0x00, 0x1A, 0x00, 0x00, 0x00, 0x02, 0x40, 0x02, 0x04, 0x00, 0x00, 0x00, 0x00, - 0x01, 0x00, 0x00, 0x00, 0x10, 0xBA, 0xA0, 0x06, 0x4F, 0x9E, 0xA8, 0x68, 0x03, 0x00, 0x00, 0x00, - 0x03, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x6B, 0x65, 0x72, - 0x6E, 0x65, 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, 0x00, 0x6B, 0x65, 0x72, 0x6E, 0x65, 0x6C, 0x5F, - 0x66, 0x75, 0x6E, 0x63, 0x2E, 0x6B, 0x64, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x5F, 0x73, 0x69, 0x7A, 0x65, 0xCD, 0x01, 0x50, 0xB8, 0x2E, 0x6D, 0x61, 0x78, 0x5F, 0x66, 0x6C, + 0x61, 0x74, 0x5F, 0x77, 0x6F, 0x72, 0x6B, 0x67, 0x72, 0x6F, 0x75, 0x70, 0x5F, 0x73, 0x69, 0x7A, + 0x65, 0xCD, 0x01, 0x00, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xAB, 0x6B, 0x65, 0x72, 0x6E, 0x65, + 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, 0xBB, 0x2E, 0x70, 0x72, 0x69, 0x76, 0x61, 0x74, 0x65, 0x5F, + 0x73, 0x65, 0x67, 0x6D, 0x65, 0x6E, 0x74, 0x5F, 0x66, 0x69, 0x78, 0x65, 0x64, 0x5F, 0x73, 0x69, + 0x7A, 0x65, 0x00, 0xB4, 0x2E, 0x72, 0x65, 0x71, 0x64, 0x5F, 0x77, 0x6F, 0x72, 0x6B, 0x67, 0x72, + 0x6F, 0x75, 0x70, 0x5F, 0x73, 0x69, 0x7A, 0x65, 0x93, 0xCD, 0x01, 0x00, 0x01, 0x01, 0xAB, 0x2E, + 0x73, 0x67, 0x70, 0x72, 0x5F, 0x63, 0x6F, 0x75, 0x6E, 0x74, 0x60, 0xA7, 0x2E, 0x73, 0x79, 0x6D, + 0x62, 0x6F, 0x6C, 0xAE, 0x6B, 0x65, 0x72, 0x6E, 0x65, 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, 0x2E, + 0x6B, 0x64, 0xAB, 0x2E, 0x76, 0x67, 0x70, 0x72, 0x5F, 0x63, 0x6F, 0x75, 0x6E, 0x74, 0xCD, 0x02, + 0x00, 0xAF, 0x2E, 0x77, 0x61, 0x76, 0x65, 0x66, 0x72, 0x6F, 0x6E, 0x74, 0x5F, 0x73, 0x69, 0x7A, + 0x65, 0x40, 0xAE, 0x61, 0x6D, 0x64, 0x68, 0x73, 0x61, 0x2E, 0x76, 0x65, 0x72, 0x73, 0x69, 0x6F, + 0x6E, 0x92, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x01, 0x00, 0x00, 0x00, 0x12, 0x03, 0x07, 0x00, 0x00, 0x27, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x0D, 0x00, 0x00, 0x00, 0x11, 0x00, 0x06, 0x00, + 0x00, 0x16, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x01, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x1A, 0x00, 0x00, 0x00, + 0x02, 0x40, 0x02, 0x04, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x10, 0xBA, 0xA0, 0x06, + 0x4F, 0x9E, 0xA8, 0x68, 0x03, 0x00, 0x00, 0x00, 0x03, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x01, 0x00, 0x00, 0x00, 0x00, 0x6B, 0x65, 0x72, 0x6E, 0x65, 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, + 0x00, 0x6B, 0x65, 0x72, 0x6E, 0x65, 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, 0x2E, 0x6B, 0x64, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x11, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x3F, 0x00, 0x00, 0x00, @@ -299,58 +379,71 @@ unsigned char bwd_bf16_causal_a16[] = { 0x00, 0x0C, 0x02, 0xC0, 0x90, 0x00, 0x00, 0x00, 0x40, 0x0C, 0x02, 0xC0, 0xA0, 0x00, 0x00, 0x00, 0x80, 0x0C, 0x02, 0xC0, 0xB0, 0x00, 0x00, 0x00, 0xC0, 0x0C, 0x02, 0xC0, 0xC0, 0x00, 0x00, 0x00, 0x00, 0x0D, 0x02, 0xC0, 0xD0, 0x00, 0x00, 0x00, 0x40, 0x0D, 0x02, 0xC0, 0xE0, 0x00, 0x00, 0x00, - 0x00, 0x13, 0x02, 0xC0, 0xF0, 0x00, 0x00, 0x00, 0x8A, 0x00, 0x02, 0x20, 0x8A, 0x02, 0x04, 0x20, - 0xFF, 0x04, 0x04, 0x26, 0xFF, 0x03, 0x00, 0x00, 0xFF, 0x02, 0x02, 0x26, 0xFF, 0x03, 0x00, 0x00, - 0xFF, 0x00, 0x00, 0x26, 0xFF, 0x03, 0x00, 0x00, 0x86, 0x00, 0x06, 0x20, 0xBF, 0x00, 0x00, 0x26, - 0x02, 0x00, 0xAC, 0xBE, 0x03, 0x00, 0xAD, 0xBE, 0x04, 0x00, 0xAE, 0xBE, 0x03, 0x05, 0x5E, 0x7E, - 0x7F, 0xC0, 0x8C, 0xBF, 0xFF, 0x00, 0x8A, 0xBE, 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x8E, 0xBE, - 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x92, 0xBE, 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x96, 0xBE, - 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x9A, 0xBE, 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x9E, 0xBE, - 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0xA6, 0xBE, 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0xAA, 0xBE, - 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x8B, 0xBE, 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x8F, 0xBE, - 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x93, 0xBE, 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x97, 0xBE, - 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x9B, 0xBE, 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x9F, 0xBE, - 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0xA7, 0xBE, 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0xAB, 0xBE, - 0x00, 0x00, 0x02, 0x00, 0x09, 0xFF, 0x09, 0x86, 0xFF, 0xFF, 0x00, 0x00, 0x0D, 0xFF, 0x0D, 0x86, - 0xFF, 0xFF, 0x00, 0x00, 0x11, 0xFF, 0x11, 0x86, 0xFF, 0xFF, 0x00, 0x00, 0x15, 0xFF, 0x15, 0x86, - 0xFF, 0xFF, 0x00, 0x00, 0x19, 0xFF, 0x19, 0x86, 0xFF, 0xFF, 0x00, 0x00, 0x1D, 0xFF, 0x1D, 0x86, - 0xFF, 0xFF, 0x00, 0x00, 0x25, 0xFF, 0x25, 0x86, 0xFF, 0xFF, 0x00, 0x00, 0x29, 0xFF, 0x29, 0x86, - 0xFF, 0xFF, 0x00, 0x00, 0x09, 0xFF, 0x09, 0x87, 0x00, 0x00, 0x04, 0x00, 0x0D, 0xFF, 0x0D, 0x87, - 0x00, 0x00, 0x04, 0x00, 0x11, 0xFF, 0x11, 0x87, 0x00, 0x00, 0x04, 0x00, 0x15, 0xFF, 0x15, 0x87, - 0x00, 0x00, 0x04, 0x00, 0x19, 0xFF, 0x19, 0x87, 0x00, 0x00, 0x04, 0x00, 0x1D, 0xFF, 0x1D, 0x87, - 0x00, 0x00, 0x04, 0x00, 0x25, 0xFF, 0x25, 0x87, 0x00, 0x00, 0x04, 0x00, 0x29, 0xFF, 0x29, 0x87, - 0x00, 0x00, 0x04, 0x00, 0xFF, 0x40, 0xD9, 0xD3, 0x80, 0x00, 0x00, 0x18, 0x80, 0x02, 0xEE, 0x7F, - 0x08, 0x00, 0xD4, 0xBE, 0x0C, 0x00, 0xD6, 0xBE, 0x10, 0x00, 0xD8, 0xBE, 0x14, 0x00, 0xDA, 0xBE, - 0x20, 0x00, 0xD2, 0xBE, 0x09, 0x00, 0xD5, 0xBE, 0x0D, 0x00, 0xD7, 0xBE, 0x11, 0x00, 0xD9, 0xBE, - 0x15, 0x00, 0xDB, 0xBE, 0x21, 0x00, 0xD3, 0xBE, 0x30, 0x02, 0x38, 0x7E, 0x31, 0x38, 0x38, 0x0A, - 0x32, 0x00, 0xBA, 0xBE, 0x80, 0x00, 0xBB, 0xBE, 0xFF, 0x00, 0xBF, 0xBE, 0x00, 0x01, 0x04, 0x05, - 0xFF, 0x00, 0xC0, 0xBE, 0x02, 0x03, 0x06, 0x07, 0x1C, 0x05, 0x72, 0x7E, 0xFF, 0x02, 0x3C, 0x7E, - 0x06, 0x07, 0x02, 0x03, 0x3F, 0x02, 0x38, 0x7E, 0x81, 0x00, 0x3A, 0x26, 0x81, 0x3A, 0x94, 0x7D, - 0x1C, 0x3D, 0x1C, 0x00, 0xFF, 0x02, 0xEA, 0x7F, 0x00, 0x00, 0xFF, 0xFF, 0xFF, 0x02, 0xEC, 0x7F, - 0x00, 0x00, 0xFF, 0x7F, 0xFF, 0x02, 0xEE, 0x7F, 0xFF, 0x7F, 0x00, 0x00, 0x2F, 0x82, 0x0A, 0xBF, - 0x18, 0x1C, 0x18, 0x85, 0x19, 0x1D, 0x19, 0x85, 0x1A, 0x1E, 0x1A, 0x85, 0x1B, 0x1F, 0x1B, 0x85, - 0x2F, 0x81, 0x3C, 0x8F, 0x3C, 0x88, 0x3C, 0x8E, 0xFF, 0x3C, 0x50, 0x80, 0x00, 0xC7, 0x00, 0x00, - 0xFF, 0x50, 0x51, 0x80, 0x00, 0x02, 0x00, 0x00, 0xA0, 0x4C, 0x43, 0x92, 0x80, 0x00, 0xC8, 0xBE, - 0x81, 0x00, 0xC9, 0xBE, 0x32, 0x87, 0x3C, 0x8F, 0x3C, 0x81, 0xBC, 0x81, 0x2C, 0x81, 0x3D, 0x8E, - 0x3D, 0x3C, 0x00, 0xBF, 0x49, 0x82, 0x49, 0x85, 0x50, 0x00, 0xFC, 0xBE, 0x80, 0x00, 0xC2, 0xBE, - 0xFF, 0x02, 0x3E, 0x7E, 0x00, 0x00, 0x80, 0xFF, 0x80, 0x00, 0xC5, 0xBE, 0xA0, 0x4C, 0x4A, 0x92, - 0xA0, 0x00, 0xCB, 0xBE, 0x2C, 0x33, 0x3C, 0x92, 0x2D, 0x34, 0x3D, 0x92, 0x2E, 0x35, 0x3E, 0x92, - 0x3C, 0x3D, 0x36, 0x80, 0x36, 0x3E, 0x36, 0x80, 0x3D, 0x3E, 0x37, 0x80, 0xFF, 0x2C, 0x3C, 0x92, - 0x80, 0x00, 0x00, 0x00, 0x4C, 0x3C, 0x3C, 0x92, 0x3C, 0x37, 0x37, 0x80, 0xFF, 0x2C, 0x3B, 0x92, - 0x80, 0x00, 0x00, 0x00, 0xA0, 0x3B, 0x4D, 0x80, 0x37, 0x00, 0xB8, 0xBE, 0x2E, 0x35, 0x3E, 0x92, - 0x3E, 0x86, 0x3E, 0x8F, 0x2D, 0x32, 0x3D, 0x92, 0x84, 0x3D, 0x3D, 0x92, 0x3D, 0x3E, 0x41, 0x80, - 0xFF, 0x2C, 0x3C, 0x92, 0x00, 0x02, 0x00, 0x00, 0x3C, 0x41, 0x41, 0x80, 0x83, 0x00, 0x38, 0x20, + 0x80, 0x11, 0x02, 0xC0, 0xF0, 0x00, 0x00, 0x00, 0x00, 0x0B, 0x02, 0xC0, 0x00, 0x01, 0x00, 0x00, + 0x40, 0x01, 0x02, 0xC0, 0x10, 0x01, 0x00, 0x00, 0x80, 0x01, 0x02, 0xC0, 0x20, 0x01, 0x00, 0x00, + 0xC0, 0x01, 0x02, 0xC0, 0x30, 0x01, 0x00, 0x00, 0x80, 0x0B, 0x02, 0xC0, 0x40, 0x01, 0x00, 0x00, + 0x8A, 0x00, 0x02, 0x20, 0x8A, 0x02, 0x04, 0x20, 0xFF, 0x04, 0x04, 0x26, 0xFF, 0x03, 0x00, 0x00, + 0xFF, 0x02, 0x02, 0x26, 0xFF, 0x03, 0x00, 0x00, 0xFF, 0x00, 0x00, 0x26, 0xFF, 0x03, 0x00, 0x00, + 0x86, 0x00, 0x06, 0x20, 0xBF, 0x00, 0x00, 0x26, 0x02, 0x00, 0x82, 0xBE, 0x03, 0x00, 0x83, 0xBE, + 0x04, 0x00, 0x84, 0xBE, 0x03, 0x05, 0x5E, 0x7E, 0x7F, 0xC0, 0x8C, 0xBF, 0xFF, 0x00, 0x8A, 0xBE, + 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x8E, 0xBE, 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x92, 0xBE, + 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x96, 0xBE, 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x9A, 0xBE, + 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x9E, 0xBE, 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0xA6, 0xBE, + 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0xAA, 0xBE, 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x8B, 0xBE, + 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x8F, 0xBE, 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x93, 0xBE, + 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x97, 0xBE, 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x9B, 0xBE, + 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x9F, 0xBE, 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0xA7, 0xBE, + 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0xAB, 0xBE, 0x00, 0x00, 0x02, 0x00, 0x09, 0xFF, 0x09, 0x86, + 0xFF, 0xFF, 0x00, 0x00, 0x0D, 0xFF, 0x0D, 0x86, 0xFF, 0xFF, 0x00, 0x00, 0x11, 0xFF, 0x11, 0x86, + 0xFF, 0xFF, 0x00, 0x00, 0x15, 0xFF, 0x15, 0x86, 0xFF, 0xFF, 0x00, 0x00, 0x19, 0xFF, 0x19, 0x86, + 0xFF, 0xFF, 0x00, 0x00, 0x1D, 0xFF, 0x1D, 0x86, 0xFF, 0xFF, 0x00, 0x00, 0x25, 0xFF, 0x25, 0x86, + 0xFF, 0xFF, 0x00, 0x00, 0x29, 0xFF, 0x29, 0x86, 0xFF, 0xFF, 0x00, 0x00, 0x09, 0xFF, 0x09, 0x87, + 0x00, 0x00, 0x04, 0x00, 0x0D, 0xFF, 0x0D, 0x87, 0x00, 0x00, 0x04, 0x00, 0x11, 0xFF, 0x11, 0x87, + 0x00, 0x00, 0x04, 0x00, 0x15, 0xFF, 0x15, 0x87, 0x00, 0x00, 0x04, 0x00, 0x19, 0xFF, 0x19, 0x87, + 0x00, 0x00, 0x04, 0x00, 0x1D, 0xFF, 0x1D, 0x87, 0x00, 0x00, 0x04, 0x00, 0x25, 0xFF, 0x25, 0x87, + 0x00, 0x00, 0x04, 0x00, 0x29, 0xFF, 0x29, 0x87, 0x00, 0x00, 0x04, 0x00, 0xFF, 0x40, 0xD9, 0xD3, + 0x80, 0x00, 0x00, 0x18, 0x80, 0x02, 0xEE, 0x7F, 0x08, 0x00, 0xD4, 0xBE, 0x0C, 0x00, 0xD6, 0xBE, + 0x10, 0x00, 0xD8, 0xBE, 0x14, 0x00, 0xDA, 0xBE, 0x20, 0x00, 0xD2, 0xBE, 0x09, 0x00, 0xD5, 0xBE, + 0x0D, 0x00, 0xD7, 0xBE, 0x11, 0x00, 0xD9, 0xBE, 0x15, 0x00, 0xDB, 0xBE, 0x21, 0x00, 0xD3, 0xBE, + 0x03, 0x00, 0xC7, 0xBE, 0x2C, 0x0C, 0x38, 0x7E, 0x80, 0x2C, 0xBC, 0x81, 0x1C, 0x47, 0x38, 0x7E, + 0x00, 0x00, 0x80, 0xBF, 0xFF, 0x38, 0x38, 0x0A, 0xFE, 0xFF, 0x7F, 0x4F, 0x1C, 0x0F, 0x38, 0x7E, + 0x1D, 0x00, 0x85, 0xD2, 0x3C, 0x38, 0x02, 0x00, 0x1D, 0x00, 0x86, 0xD2, 0x1C, 0x3B, 0x02, 0x00, + 0x1C, 0x3B, 0x38, 0x68, 0x1C, 0x00, 0x86, 0xD2, 0x47, 0x38, 0x02, 0x00, 0x1D, 0x00, 0x85, 0xD2, + 0x1C, 0x59, 0x00, 0x00, 0x47, 0x3A, 0x3E, 0x6A, 0x81, 0x38, 0x3C, 0x68, 0x2C, 0x3E, 0x96, 0x7D, + 0x2C, 0x3E, 0x3A, 0x6C, 0x00, 0x00, 0x80, 0xBF, 0x1C, 0x3D, 0x38, 0x00, 0x1F, 0x3B, 0x3E, 0x00, + 0x81, 0x38, 0x3A, 0x68, 0x2C, 0x3E, 0x96, 0x7D, 0x01, 0x00, 0x80, 0xBF, 0x1C, 0x3B, 0x3E, 0x00, + 0x03, 0x00, 0x80, 0xBF, 0x1F, 0x05, 0x5A, 0x7E, 0x03, 0x00, 0x80, 0xBF, 0x30, 0x02, 0x38, 0x7E, + 0x31, 0x38, 0x38, 0x0A, 0x32, 0x00, 0xBA, 0xBE, 0x80, 0x00, 0xBB, 0xBE, 0xFF, 0x00, 0xBF, 0xBE, + 0x00, 0x01, 0x04, 0x05, 0xFF, 0x00, 0xC0, 0xBE, 0x02, 0x03, 0x06, 0x07, 0x1C, 0x05, 0x72, 0x7E, + 0xFF, 0x02, 0x3C, 0x7E, 0x06, 0x07, 0x02, 0x03, 0x3F, 0x02, 0x38, 0x7E, 0x81, 0x00, 0x3A, 0x26, + 0x81, 0x3A, 0x94, 0x7D, 0x1C, 0x3D, 0x1C, 0x00, 0xFF, 0x02, 0xEA, 0x7F, 0x00, 0x00, 0xFF, 0xFF, + 0xFF, 0x02, 0xEC, 0x7F, 0x00, 0x00, 0xFF, 0x7F, 0xFF, 0x02, 0xEE, 0x7F, 0xFF, 0x7F, 0x00, 0x00, + 0x2F, 0x82, 0x0A, 0xBF, 0x18, 0x1C, 0x18, 0x85, 0x19, 0x1D, 0x19, 0x85, 0x1A, 0x1E, 0x1A, 0x85, + 0x1B, 0x1F, 0x1B, 0x85, 0x2F, 0x81, 0x3C, 0x8F, 0x3C, 0x88, 0x3C, 0x8E, 0xFF, 0x3C, 0x50, 0x80, + 0x00, 0xC7, 0x00, 0x00, 0xFF, 0x50, 0x51, 0x80, 0x00, 0x02, 0x00, 0x00, 0xA0, 0x46, 0x43, 0x92, + 0x80, 0x00, 0xCC, 0xBE, 0x81, 0x00, 0xCD, 0xBE, 0x32, 0x87, 0x3C, 0x8F, 0x3C, 0x81, 0xBC, 0x81, + 0x02, 0x81, 0x3D, 0x8E, 0x3D, 0x3C, 0x00, 0xBF, 0x4D, 0x82, 0x4D, 0x85, 0x50, 0x00, 0xFC, 0xBE, + 0x80, 0x00, 0xC2, 0xBE, 0xFF, 0x02, 0x3E, 0x7E, 0x00, 0x00, 0x80, 0xFF, 0x80, 0x00, 0xC8, 0xBE, + 0xA0, 0x46, 0x44, 0x92, 0xA0, 0x00, 0xC5, 0xBE, 0x02, 0x33, 0x3C, 0x92, 0x2D, 0x05, 0x3D, 0x92, + 0x04, 0x06, 0x3E, 0x92, 0x3C, 0x3D, 0x36, 0x80, 0x36, 0x3E, 0x36, 0x80, 0x03, 0x34, 0x3D, 0x92, + 0x04, 0x35, 0x3E, 0x92, 0x3D, 0x3E, 0x37, 0x80, 0xFF, 0x02, 0x3C, 0x92, 0x80, 0x00, 0x00, 0x00, + 0x46, 0x3C, 0x3C, 0x92, 0x3C, 0x37, 0x37, 0x80, 0xFF, 0x02, 0x3B, 0x92, 0x80, 0x00, 0x00, 0x00, + 0xA0, 0x3B, 0x49, 0x80, 0x37, 0x00, 0xB8, 0xBE, 0x04, 0x35, 0x3E, 0x92, 0x3E, 0x86, 0x3E, 0x8F, + 0x03, 0x32, 0x3D, 0x92, 0x84, 0x3D, 0x3D, 0x92, 0x3D, 0x3E, 0x41, 0x80, 0xFF, 0x02, 0x3C, 0x92, + 0x00, 0x02, 0x00, 0x00, 0x3C, 0x41, 0x41, 0x80, 0x07, 0x00, 0xC7, 0xBE, 0x83, 0x00, 0x38, 0x20, 0x81, 0x38, 0x3A, 0x26, 0x81, 0x3A, 0x3A, 0x24, 0x84, 0x38, 0x3C, 0x26, 0x1E, 0x3B, 0x3A, 0x68, - 0x82, 0x38, 0x3C, 0x26, 0x82, 0x3C, 0x3C, 0x24, 0x1E, 0x3B, 0x3A, 0x68, 0x4C, 0x3A, 0x3A, 0x0C, + 0x82, 0x38, 0x3C, 0x26, 0x82, 0x3C, 0x3C, 0x24, 0x1E, 0x3B, 0x3A, 0x68, 0x47, 0x3A, 0x3A, 0x0C, 0x87, 0x00, 0x38, 0x26, 0x84, 0x38, 0x38, 0x24, 0x1C, 0x3B, 0x02, 0x68, 0x81, 0x2F, 0x3C, 0x86, - 0x3C, 0x4C, 0x3C, 0x92, 0x3C, 0x90, 0x3C, 0x92, 0x2F, 0x81, 0x3D, 0x8F, 0x3D, 0xFF, 0x3D, 0x92, - 0x80, 0x00, 0x00, 0x00, 0x3C, 0x3D, 0x3C, 0x80, 0x3C, 0x02, 0x02, 0x68, 0x4C, 0x02, 0x04, 0x68, + 0x3C, 0x47, 0x3C, 0x92, 0x3C, 0x90, 0x3C, 0x92, 0x2F, 0x81, 0x3D, 0x8F, 0x3D, 0xFF, 0x3D, 0x92, + 0x80, 0x00, 0x00, 0x00, 0x3C, 0x3D, 0x3C, 0x80, 0x3C, 0x02, 0x02, 0x68, 0x47, 0x02, 0x04, 0x68, 0x82, 0x02, 0x02, 0x20, 0x82, 0x04, 0x04, 0x20, 0x36, 0x56, 0x0C, 0x80, 0x80, 0x57, 0x0D, 0x82, 0x36, 0x58, 0x10, 0x80, 0x80, 0x59, 0x11, 0x82, 0x37, 0x54, 0x08, 0x80, 0x80, 0x55, 0x09, 0x82, 0x38, 0x5A, 0x14, 0x80, 0x80, 0x5B, 0x15, 0x82, 0x9F, 0x00, 0x10, 0x26, 0x82, 0x10, 0x10, 0x24, - 0x41, 0x10, 0x10, 0x68, 0x82, 0x10, 0x10, 0x20, 0xA0, 0x4C, 0x3C, 0x92, 0x2F, 0x3C, 0x3C, 0x92, - 0x82, 0x00, 0x06, 0x24, 0x3C, 0x06, 0x06, 0x68, 0x36, 0x06, 0x06, 0x68, 0x82, 0x06, 0x06, 0x20, - 0x03, 0x03, 0x08, 0x7E, 0x88, 0x4C, 0x3C, 0x92, 0x2F, 0x3C, 0x3C, 0x92, 0x82, 0x00, 0x0A, 0x24, + 0x41, 0x10, 0x10, 0x68, 0x82, 0x10, 0x10, 0x20, 0xA0, 0x2E, 0x3C, 0x92, 0x2F, 0x3C, 0x3C, 0x92, + 0x82, 0x00, 0x06, 0x24, 0x3C, 0x06, 0x06, 0x68, 0xFF, 0x2E, 0x3C, 0x92, 0x80, 0x00, 0x00, 0x00, + 0x02, 0x3C, 0x3C, 0x92, 0x03, 0x05, 0x3D, 0x92, 0x04, 0x06, 0x3E, 0x92, 0x3E, 0x2C, 0x3E, 0x92, + 0x3C, 0x3D, 0x3C, 0x80, 0x3C, 0x3E, 0x3C, 0x80, 0x3C, 0x06, 0x06, 0x68, 0x82, 0x06, 0x06, 0x20, + 0x03, 0x03, 0x08, 0x7E, 0x88, 0x46, 0x3C, 0x92, 0x2F, 0x3C, 0x3C, 0x92, 0x82, 0x00, 0x0A, 0x24, 0x3C, 0x0A, 0x0A, 0x68, 0x37, 0x52, 0x20, 0x80, 0x80, 0x53, 0x21, 0x82, 0x05, 0x03, 0x0C, 0x7E, 0x80, 0x02, 0x0E, 0x7E, 0x83, 0x00, 0x38, 0x20, 0x81, 0x38, 0x3A, 0x26, 0x83, 0x3A, 0x3A, 0x24, 0x84, 0x38, 0x3C, 0x26, 0x82, 0x3C, 0x3C, 0x24, 0x1E, 0x3B, 0x3A, 0x68, 0x82, 0x38, 0x3C, 0x26, @@ -390,13 +483,13 @@ unsigned char bwd_bf16_causal_a16[] = { 0x82, 0x38, 0x3A, 0x26, 0x1D, 0x23, 0x22, 0x68, 0x84, 0x38, 0x3A, 0x26, 0x82, 0x3A, 0x3A, 0x20, 0xFF, 0x3A, 0x3A, 0x0C, 0x10, 0x01, 0x00, 0x00, 0x1D, 0x23, 0x22, 0x68, 0x2F, 0xFF, 0x3C, 0x92, 0x20, 0x02, 0x00, 0x00, 0x3C, 0x22, 0x22, 0x68, 0x82, 0x22, 0x22, 0x24, 0x00, 0x20, 0x5C, 0xE0, - 0x01, 0x40, 0x03, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x44, 0x03, 0x80, 0xA0, 0x4C, 0x3C, 0x92, + 0x01, 0x40, 0x03, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x44, 0x03, 0x80, 0xA0, 0x07, 0x3C, 0x92, 0x3C, 0x0C, 0x0C, 0x80, 0x80, 0x0D, 0x0D, 0x82, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x48, 0x03, 0x80, - 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x4C, 0x03, 0x80, 0xA0, 0x4C, 0x3C, 0x92, 0x3C, 0x0C, 0x0C, 0x80, + 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x4C, 0x03, 0x80, 0xA0, 0x07, 0x3C, 0x92, 0x3C, 0x0C, 0x0C, 0x80, 0x80, 0x0D, 0x0D, 0x82, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x50, 0x03, 0x80, 0x00, 0x20, 0x5C, 0xE0, - 0x02, 0x54, 0x03, 0x80, 0xA0, 0x4C, 0x3C, 0x92, 0x3C, 0x0C, 0x0C, 0x80, 0x80, 0x0D, 0x0D, 0x82, + 0x02, 0x54, 0x03, 0x80, 0xA0, 0x07, 0x3C, 0x92, 0x3C, 0x0C, 0x0C, 0x80, 0x80, 0x0D, 0x0D, 0x82, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x58, 0x03, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x5C, 0x03, 0x80, - 0xA0, 0x4C, 0x3C, 0x92, 0x3C, 0x0C, 0x0C, 0x80, 0x80, 0x0D, 0x0D, 0x82, 0x74, 0x0F, 0x8C, 0xBF, + 0xA0, 0x07, 0x3C, 0x92, 0x3C, 0x0C, 0x0C, 0x80, 0x80, 0x0D, 0x0D, 0x82, 0x74, 0x0F, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x60, 0x00, 0xED, 0xD1, 0x44, 0x81, 0xFE, 0x00, 0x61, 0x00, 0xED, 0xD1, 0x44, 0x81, 0x02, 0x01, 0x62, 0x00, 0xED, 0xD1, 0x45, 0x83, 0xFE, 0x00, 0x63, 0x00, 0xED, 0xD1, 0x45, 0x83, 0x02, 0x01, 0x64, 0x00, 0xED, 0xD1, 0x46, 0x85, 0xFE, 0x00, 0x65, 0x00, 0xED, 0xD1, @@ -418,9 +511,9 @@ unsigned char bwd_bf16_causal_a16[] = { 0x0A, 0x46, 0x00, 0x00, 0x00, 0x21, 0x9A, 0xD8, 0x0A, 0x48, 0x00, 0x00, 0x00, 0x23, 0x9A, 0xD8, 0x0A, 0x4A, 0x00, 0x00, 0x10, 0x21, 0x9A, 0xD8, 0x0A, 0x4C, 0x00, 0x00, 0x10, 0x23, 0x9A, 0xD8, 0x0A, 0x4E, 0x00, 0x00, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x40, 0x04, 0x80, 0x00, 0x20, 0x5C, 0xE0, - 0x02, 0x44, 0x04, 0x80, 0xA0, 0x4C, 0x3C, 0x92, 0x3C, 0x10, 0x10, 0x80, 0x80, 0x11, 0x11, 0x82, + 0x02, 0x44, 0x04, 0x80, 0xA0, 0x07, 0x3C, 0x92, 0x3C, 0x10, 0x10, 0x80, 0x80, 0x11, 0x11, 0x82, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x48, 0x04, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x4C, 0x04, 0x80, - 0xA0, 0x4C, 0x3C, 0x92, 0x3C, 0x10, 0x10, 0x80, 0x80, 0x11, 0x11, 0x82, 0x7F, 0xC0, 0x8C, 0xBF, + 0xA0, 0x07, 0x3C, 0x92, 0x3C, 0x10, 0x10, 0x80, 0x80, 0x11, 0x11, 0x82, 0x7F, 0xC0, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x00, 0x84, 0xFE, 0xDB, 0x16, 0x00, 0x00, 0x20, 0x00, 0x85, 0xFE, 0xDB, 0x16, 0x00, 0x00, 0x24, 0x00, 0xA5, 0xFE, 0xDB, 0x16, 0x00, 0x00, 0x28, 0x00, 0xA6, 0xFE, 0xDB, 0x16, 0x00, 0x00, 0x2C, 0x74, 0x00, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x60, 0x00, 0xED, 0xD1, @@ -444,9 +537,9 @@ unsigned char bwd_bf16_causal_a16[] = { 0x0A, 0x54, 0x00, 0x00, 0x10, 0x44, 0x9A, 0xD8, 0x0A, 0x56, 0x00, 0x00, 0x00, 0x63, 0x9A, 0xD8, 0x0A, 0x58, 0x00, 0x00, 0x00, 0x65, 0x9A, 0xD8, 0x0A, 0x5A, 0x00, 0x00, 0x10, 0x63, 0x9A, 0xD8, 0x0A, 0x5C, 0x00, 0x00, 0x10, 0x65, 0x9A, 0xD8, 0x0A, 0x5E, 0x00, 0x00, 0x00, 0x20, 0x5C, 0xE0, - 0x01, 0x50, 0x04, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x54, 0x04, 0x80, 0xA0, 0x4C, 0x3C, 0x92, + 0x01, 0x50, 0x04, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x54, 0x04, 0x80, 0xA0, 0x07, 0x3C, 0x92, 0x3C, 0x10, 0x10, 0x80, 0x80, 0x11, 0x11, 0x82, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x58, 0x04, 0x80, - 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x5C, 0x04, 0x80, 0xA0, 0x4C, 0x3C, 0x92, 0x3C, 0x10, 0x10, 0x80, + 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x5C, 0x04, 0x80, 0xA0, 0x07, 0x3C, 0x92, 0x3C, 0x10, 0x10, 0x80, 0x80, 0x11, 0x11, 0x82, 0x7F, 0xC0, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x00, 0x84, 0xFE, 0xDB, 0x16, 0x00, 0x00, 0x30, 0x00, 0x85, 0xFE, 0xDB, 0x16, 0x00, 0x00, 0x34, 0x00, 0xA5, 0xFE, 0xDB, 0x16, 0x00, 0x00, 0x38, 0x00, 0xA6, 0xFE, 0xDB, 0x16, 0x00, 0x00, 0x3C, 0x00, 0x00, 0xFE, 0xDB, @@ -458,10 +551,16 @@ unsigned char bwd_bf16_causal_a16[] = { 0x0A, 0x42, 0x00, 0x00, 0x10, 0x00, 0x9A, 0xD8, 0x0A, 0x44, 0x00, 0x00, 0x10, 0x02, 0x9A, 0xD8, 0x0A, 0x46, 0x00, 0x00, 0x00, 0x21, 0x9A, 0xD8, 0x0A, 0x48, 0x00, 0x00, 0x00, 0x23, 0x9A, 0xD8, 0x0A, 0x4A, 0x00, 0x00, 0x10, 0x21, 0x9A, 0xD8, 0x0A, 0x4C, 0x00, 0x00, 0x10, 0x23, 0x9A, 0xD8, - 0x0A, 0x4E, 0x00, 0x00, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x20, 0x02, 0x80, 0x00, 0x20, 0x5C, 0xE0, + 0x0A, 0x4E, 0x00, 0x00, 0x46, 0x00, 0xC7, 0xBE, 0x83, 0x00, 0x38, 0x20, 0x81, 0x38, 0x3A, 0x26, + 0x81, 0x3A, 0x3A, 0x24, 0x84, 0x38, 0x3C, 0x26, 0x1E, 0x3B, 0x3A, 0x68, 0x82, 0x38, 0x3C, 0x26, + 0x82, 0x3C, 0x3C, 0x24, 0x1E, 0x3B, 0x3A, 0x68, 0x47, 0x3A, 0x3A, 0x0C, 0x87, 0x00, 0x38, 0x26, + 0x84, 0x38, 0x38, 0x24, 0x1C, 0x3B, 0x02, 0x68, 0x81, 0x2F, 0x3C, 0x86, 0x3C, 0x47, 0x3C, 0x92, + 0x3C, 0x90, 0x3C, 0x92, 0x2F, 0x81, 0x3D, 0x8F, 0x3D, 0xFF, 0x3D, 0x92, 0x80, 0x00, 0x00, 0x00, + 0x3C, 0x3D, 0x3C, 0x80, 0x3C, 0x02, 0x02, 0x68, 0x47, 0x02, 0x04, 0x68, 0x82, 0x02, 0x02, 0x20, + 0x82, 0x04, 0x04, 0x20, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x20, 0x02, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x24, 0x02, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x30, 0x05, 0x80, 0x00, 0x20, 0x5C, 0xE0, - 0x02, 0x34, 0x05, 0x80, 0x7F, 0xC0, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x4A, 0x08, 0x08, 0x80, - 0x80, 0x09, 0x09, 0x82, 0x4A, 0x14, 0x14, 0x80, 0x80, 0x15, 0x15, 0x82, 0x74, 0x00, 0x8C, 0xBF, + 0x02, 0x34, 0x05, 0x80, 0x7F, 0xC0, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x44, 0x08, 0x08, 0x80, + 0x80, 0x09, 0x09, 0x82, 0x44, 0x14, 0x14, 0x80, 0x80, 0x15, 0x15, 0x82, 0x74, 0x00, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x00, 0x42, 0x9A, 0xD8, 0x0A, 0x50, 0x00, 0x00, 0x00, 0x44, 0x9A, 0xD8, 0x0A, 0x52, 0x00, 0x00, 0x10, 0x42, 0x9A, 0xD8, 0x0A, 0x54, 0x00, 0x00, 0x10, 0x44, 0x9A, 0xD8, 0x0A, 0x56, 0x00, 0x00, 0x00, 0x63, 0x9A, 0xD8, 0x0A, 0x58, 0x00, 0x00, 0x00, 0x65, 0x9A, 0xD8, @@ -472,10 +571,10 @@ unsigned char bwd_bf16_causal_a16[] = { 0x15, 0x00, 0x00, 0x40, 0x10, 0x04, 0xFE, 0xDB, 0x15, 0x00, 0x00, 0x44, 0x40, 0x08, 0xFE, 0xDB, 0x15, 0x00, 0x00, 0x48, 0x50, 0x0C, 0xFE, 0xDB, 0x15, 0x00, 0x00, 0x4C, 0x80, 0x10, 0xFE, 0xDB, 0x15, 0x00, 0x00, 0x50, 0x90, 0x14, 0xFE, 0xDB, 0x15, 0x00, 0x00, 0x54, 0xC0, 0x18, 0xFE, 0xDB, - 0x15, 0x00, 0x00, 0x58, 0xD0, 0x1C, 0xFE, 0xDB, 0x15, 0x00, 0x00, 0x5C, 0x4A, 0x08, 0x08, 0x80, - 0x80, 0x09, 0x09, 0x82, 0x4A, 0x14, 0x14, 0x80, 0x80, 0x15, 0x15, 0x82, 0x74, 0x00, 0x8C, 0xBF, + 0x15, 0x00, 0x00, 0x58, 0xD0, 0x1C, 0xFE, 0xDB, 0x15, 0x00, 0x00, 0x5C, 0x44, 0x08, 0x08, 0x80, + 0x80, 0x09, 0x09, 0x82, 0x44, 0x14, 0x14, 0x80, 0x80, 0x15, 0x15, 0x82, 0x74, 0x00, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x00, 0x20, 0x51, 0xE0, 0x08, 0x00, 0x06, 0x80, 0x51, 0x00, 0xFC, 0xBE, - 0x4B, 0x10, 0x10, 0x68, 0x70, 0x00, 0xED, 0xD1, 0x24, 0x41, 0xFE, 0x00, 0x71, 0x00, 0xED, 0xD1, + 0x45, 0x10, 0x10, 0x68, 0x70, 0x00, 0xED, 0xD1, 0x24, 0x41, 0xFE, 0x00, 0x71, 0x00, 0xED, 0xD1, 0x24, 0x41, 0x02, 0x01, 0x72, 0x00, 0xED, 0xD1, 0x25, 0x43, 0xFE, 0x00, 0x73, 0x00, 0xED, 0xD1, 0x25, 0x43, 0x02, 0x01, 0x74, 0x00, 0xED, 0xD1, 0x26, 0x45, 0xFE, 0x00, 0x75, 0x00, 0xED, 0xD1, 0x26, 0x45, 0x02, 0x01, 0x76, 0x00, 0xED, 0xD1, 0x27, 0x47, 0xFE, 0x00, 0x77, 0x00, 0xED, 0xD1, @@ -486,7 +585,7 @@ unsigned char bwd_bf16_causal_a16[] = { 0x0D, 0x77, 0x00, 0x00, 0x00, 0x00, 0x9A, 0xD8, 0x0A, 0x20, 0x00, 0x00, 0x00, 0x02, 0x9A, 0xD8, 0x0A, 0x22, 0x00, 0x00, 0x10, 0x00, 0x9A, 0xD8, 0x0A, 0x24, 0x00, 0x00, 0x10, 0x02, 0x9A, 0xD8, 0x0A, 0x26, 0x00, 0x00, 0x00, 0x20, 0x51, 0xE0, 0x08, 0x00, 0x06, 0x80, 0x50, 0x00, 0xFC, 0xBE, - 0x4B, 0x10, 0x10, 0x68, 0x78, 0x00, 0xED, 0xD1, 0x34, 0x61, 0xFE, 0x00, 0x79, 0x00, 0xED, 0xD1, + 0x45, 0x10, 0x10, 0x68, 0x78, 0x00, 0xED, 0xD1, 0x34, 0x61, 0xFE, 0x00, 0x79, 0x00, 0xED, 0xD1, 0x34, 0x61, 0x02, 0x01, 0x7A, 0x00, 0xED, 0xD1, 0x35, 0x63, 0xFE, 0x00, 0x7B, 0x00, 0xED, 0xD1, 0x35, 0x63, 0x02, 0x01, 0x7C, 0x00, 0xED, 0xD1, 0x36, 0x65, 0xFE, 0x00, 0x7D, 0x00, 0xED, 0xD1, 0x36, 0x65, 0x02, 0x01, 0x7E, 0x00, 0xED, 0xD1, 0x37, 0x67, 0xFE, 0x00, 0x7F, 0x00, 0xED, 0xD1, @@ -582,7 +681,7 @@ unsigned char bwd_bf16_causal_a16[] = { 0x00, 0x00, 0x8A, 0xBF, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x20, 0x02, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x24, 0x02, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x30, 0x05, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x34, 0x05, 0x80, 0x00, 0x20, 0x51, 0xE0, 0x08, 0x00, 0x06, 0x80, 0x51, 0x00, 0xFC, 0xBE, - 0x4B, 0x10, 0x10, 0x68, 0x4A, 0x08, 0x08, 0x80, 0x80, 0x09, 0x09, 0x82, 0x4A, 0x14, 0x14, 0x80, + 0x45, 0x10, 0x10, 0x68, 0x44, 0x08, 0x08, 0x80, 0x80, 0x09, 0x09, 0x82, 0x44, 0x14, 0x14, 0x80, 0x80, 0x15, 0x15, 0x82, 0x31, 0x90, 0x91, 0x0B, 0x31, 0x98, 0x99, 0x0B, 0x31, 0xA0, 0xA1, 0x0B, 0x31, 0xA8, 0xA9, 0x0B, 0x70, 0x00, 0xED, 0xD1, 0x2C, 0x51, 0xFE, 0x00, 0x71, 0x00, 0xED, 0xD1, 0x2C, 0x51, 0x02, 0x01, 0x72, 0x00, 0xED, 0xD1, 0x2D, 0x53, 0xFE, 0x00, 0x73, 0x00, 0xED, 0xD1, @@ -651,20 +750,20 @@ unsigned char bwd_bf16_causal_a16[] = { 0xEB, 0xE9, 0xDF, 0x07, 0x1D, 0x00, 0x00, 0xD1, 0xF4, 0xED, 0x3B, 0x01, 0xE3, 0x00, 0x01, 0xD2, 0x1D, 0xEB, 0x73, 0x04, 0x40, 0x00, 0xE0, 0xD3, 0x6C, 0x19, 0x02, 0x1D, 0x40, 0x6B, 0xFE, 0xD9, 0x0B, 0x00, 0x00, 0xB0, 0x20, 0xAA, 0xBE, 0xD9, 0x13, 0xE0, 0x00, 0x00, 0x40, 0x00, 0xE0, 0xD3, - 0x6E, 0x1D, 0x02, 0x1D, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xF1, 0x20, 0x00, 0x4C, 0x0C, 0x0C, 0x68, + 0x6E, 0x1D, 0x02, 0x1D, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xF1, 0x20, 0x00, 0x46, 0x0C, 0x0C, 0x68, 0x40, 0x00, 0xE0, 0xD3, 0x70, 0x21, 0x02, 0x1D, 0x40, 0x6C, 0xFE, 0xD9, 0x0B, 0x00, 0x00, 0xB4, 0x40, 0x00, 0xE0, 0xD3, 0x72, 0x25, 0x02, 0x1D, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xF2, 0x20, 0x00, - 0x4C, 0x0C, 0x0C, 0x68, 0x40, 0x00, 0xE0, 0xD3, 0x74, 0x29, 0x02, 0x1D, 0x80, 0x73, 0xFE, 0xD9, + 0x46, 0x0C, 0x0C, 0x68, 0x40, 0x00, 0xE0, 0xD3, 0x74, 0x29, 0x02, 0x1D, 0x80, 0x73, 0xFE, 0xD9, 0x0B, 0x00, 0x00, 0xB8, 0x10, 0x42, 0x9A, 0xD8, 0x0A, 0x3C, 0x00, 0x00, 0x10, 0x44, 0x9A, 0xD8, 0x0A, 0x3E, 0x00, 0x00, 0x40, 0x00, 0xE0, 0xD3, 0x76, 0x2D, 0x02, 0x1D, 0x40, 0x00, 0xE0, 0xD3, 0x78, 0x31, 0x02, 0x1D, 0x80, 0x74, 0xFE, 0xD9, 0x0B, 0x00, 0x00, 0xBC, 0x00, 0x00, 0x9A, 0xD8, 0x0A, 0x28, 0x00, 0x00, 0x00, 0x02, 0x9A, 0xD8, 0x0A, 0x2A, 0x00, 0x00, 0x40, 0x00, 0xE0, 0xD3, - 0x7A, 0x35, 0x02, 0x1D, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xF3, 0x20, 0x00, 0x4C, 0x0C, 0x0C, 0x68, + 0x7A, 0x35, 0x02, 0x1D, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xF3, 0x20, 0x00, 0x46, 0x0C, 0x0C, 0x68, 0x42, 0x20, 0x20, 0x80, 0x80, 0x21, 0x21, 0x82, 0x05, 0x03, 0x0C, 0x7E, 0x40, 0x00, 0xE0, 0xD3, 0x7C, 0x39, 0x02, 0x1D, 0xC0, 0x7B, 0xFE, 0xD9, 0x0B, 0x00, 0x00, 0xC0, 0x10, 0x00, 0x9A, 0xD8, 0x0A, 0x2C, 0x00, 0x00, 0x10, 0x02, 0x9A, 0xD8, 0x0A, 0x2E, 0x00, 0x00, 0x40, 0x00, 0xE0, 0xD3, - 0x7E, 0x3D, 0x02, 0x1D, 0xC0, 0x7C, 0xFE, 0xD9, 0x0B, 0x00, 0x00, 0xC4, 0x45, 0x2F, 0x05, 0xBF, - 0x00, 0x00, 0x80, 0xBF, 0x56, 0x00, 0x84, 0xBF, 0x45, 0x2F, 0x04, 0xBF, 0x44, 0x00, 0x85, 0xBF, + 0x7E, 0x3D, 0x02, 0x1D, 0xC0, 0x7C, 0xFE, 0xD9, 0x0B, 0x00, 0x00, 0xC4, 0x48, 0x2F, 0x05, 0xBF, + 0x00, 0x00, 0x80, 0xBF, 0x56, 0x00, 0x84, 0xBF, 0x48, 0x2F, 0x04, 0xBF, 0x44, 0x00, 0x85, 0xBF, 0xC2, 0x00, 0xBC, 0xBE, 0xFF, 0x00, 0xBD, 0xBE, 0xE0, 0xFF, 0xFF, 0xFF, 0x40, 0x00, 0x00, 0xD1, 0x40, 0x3F, 0xF2, 0x00, 0x3C, 0x81, 0x3C, 0x8E, 0x3D, 0x81, 0x3D, 0x8E, 0x41, 0x00, 0x00, 0xD1, 0x41, 0x3F, 0xF2, 0x00, 0x3C, 0x81, 0x3C, 0x8E, 0x3D, 0x81, 0x3D, 0x8E, 0x42, 0x00, 0x00, 0xD1, @@ -686,7 +785,7 @@ unsigned char bwd_bf16_causal_a16[] = { 0x1F, 0x03, 0x88, 0x7E, 0x1F, 0x03, 0x8A, 0x7E, 0x1F, 0x03, 0x8C, 0x7E, 0x1F, 0x03, 0x8E, 0x7E, 0x1F, 0x03, 0x90, 0x7E, 0x1F, 0x03, 0x92, 0x7E, 0x1F, 0x03, 0x94, 0x7E, 0x1F, 0x03, 0x96, 0x7E, 0x1F, 0x03, 0x98, 0x7E, 0x1F, 0x03, 0x9A, 0x7E, 0x1F, 0x03, 0x9C, 0x7E, 0x1F, 0x03, 0x9E, 0x7E, - 0x01, 0x00, 0x45, 0xB7, 0x7F, 0xCA, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x60, 0x00, 0xE0, 0xD3, + 0x01, 0x00, 0x48, 0xB7, 0x7F, 0xCA, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x60, 0x00, 0xE0, 0xD3, 0x88, 0x81, 0x02, 0x12, 0x00, 0x21, 0xFE, 0xDB, 0x0B, 0x00, 0x00, 0x60, 0x00, 0xA6, 0x6C, 0xD8, 0x12, 0x00, 0x00, 0xEC, 0x10, 0xA6, 0x6C, 0xD8, 0x12, 0x00, 0x00, 0xED, 0x20, 0xA6, 0x6C, 0xD8, 0x12, 0x00, 0x00, 0xEE, 0x60, 0x00, 0xE0, 0xD3, 0x8A, 0x85, 0x82, 0x15, 0x02, 0x00, 0x80, 0xBF, @@ -820,7 +919,7 @@ unsigned char bwd_bf16_causal_a16[] = { 0x45, 0x00, 0xED, 0xD1, 0x0F, 0xCB, 0x3A, 0x04, 0xFA, 0x02, 0x1E, 0x7E, 0x66, 0xB1, 0x00, 0xFF, 0x46, 0x00, 0xED, 0xD1, 0x0F, 0xCD, 0x3A, 0x04, 0xFA, 0x02, 0x1E, 0x7E, 0x67, 0xB1, 0x00, 0xFF, 0x47, 0x00, 0xED, 0xD1, 0x0F, 0xCF, 0x3A, 0x04, 0xE0, 0x80, 0xE0, 0xD3, 0xBC, 0x09, 0x83, 0x07, - 0x00, 0x80, 0x48, 0xDD, 0x06, 0xEC, 0x20, 0x00, 0x4C, 0x0C, 0x0C, 0x68, 0xE0, 0x80, 0xE0, 0xD3, + 0x00, 0x80, 0x48, 0xDD, 0x06, 0xEC, 0x20, 0x00, 0x46, 0x0C, 0x0C, 0x68, 0xE0, 0x80, 0xE0, 0xD3, 0xBE, 0x0D, 0x83, 0x07, 0x00, 0x85, 0x1A, 0xD8, 0x11, 0x44, 0x00, 0x00, 0x20, 0x85, 0x1A, 0xD8, 0x11, 0x45, 0x00, 0x00, 0x80, 0x85, 0x1A, 0xD8, 0x11, 0x46, 0x00, 0x00, 0xA0, 0x85, 0x1A, 0xD8, 0x11, 0x47, 0x00, 0x00, 0xF0, 0x80, 0xE0, 0xD3, 0xC0, 0x01, 0xC3, 0x07, 0xF0, 0x80, 0xE0, 0xD3, @@ -829,24 +928,24 @@ unsigned char bwd_bf16_causal_a16[] = { 0xC4, 0x09, 0xC3, 0x07, 0xF0, 0x80, 0xE0, 0xD3, 0xC6, 0x0D, 0xC3, 0x07, 0x10, 0x21, 0x1A, 0xD8, 0x0D, 0x75, 0x00, 0x00, 0x20, 0x21, 0x1A, 0xD8, 0x0D, 0x76, 0x00, 0x00, 0x30, 0x21, 0x1A, 0xD8, 0x0D, 0x77, 0x00, 0x00, 0x00, 0x00, 0x8A, 0xBF, 0x80, 0x80, 0xE0, 0xD3, 0x60, 0xC1, 0x02, 0x0E, - 0x00, 0x80, 0x48, 0xDD, 0x06, 0xED, 0x20, 0x00, 0x4C, 0x0C, 0x0C, 0x68, 0x80, 0x80, 0xE0, 0xD3, + 0x00, 0x80, 0x48, 0xDD, 0x06, 0xED, 0x20, 0x00, 0x46, 0x0C, 0x0C, 0x68, 0x80, 0x80, 0xE0, 0xD3, 0x62, 0xC5, 0x02, 0x0E, 0x00, 0xC9, 0x6C, 0xD8, 0x14, 0x00, 0x00, 0xC8, 0x20, 0xC9, 0x6C, 0xD8, 0x14, 0x00, 0x00, 0xCC, 0x00, 0xCA, 0x6C, 0xD8, 0x14, 0x00, 0x00, 0xD8, 0x20, 0xCA, 0x6C, 0xD8, 0x14, 0x00, 0x00, 0xD9, 0x80, 0x80, 0xE0, 0xD3, 0x64, 0xC9, 0x02, 0x0E, 0x80, 0x80, 0xE0, 0xD3, 0x66, 0xCD, 0x02, 0x0E, 0x40, 0xC9, 0x6C, 0xD8, 0x14, 0x00, 0x00, 0xD0, 0x60, 0xC9, 0x6C, 0xD8, 0x14, 0x00, 0x00, 0xD4, 0x40, 0xCA, 0x6C, 0xD8, 0x14, 0x00, 0x00, 0xDA, 0x60, 0xCA, 0x6C, 0xD8, 0x14, 0x00, 0x00, 0xDB, 0x90, 0x80, 0xE0, 0xD3, 0x68, 0xC1, 0x42, 0x0E, 0x7F, 0xC6, 0x8C, 0xBF, - 0x00, 0x00, 0x8A, 0xBF, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xEE, 0x20, 0x00, 0x4C, 0x0C, 0x0C, 0x68, + 0x00, 0x00, 0x8A, 0xBF, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xEE, 0x20, 0x00, 0x46, 0x0C, 0x0C, 0x68, 0x90, 0x80, 0xE0, 0xD3, 0x6A, 0xC5, 0x42, 0x0E, 0x00, 0x84, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0x40, 0x40, 0x88, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0x44, 0x90, 0x80, 0xE0, 0xD3, 0x6C, 0xC9, 0x42, 0x0E, 0x90, 0x80, 0xE0, 0xD3, 0x6E, 0xCD, 0x42, 0x0E, 0x80, 0x8C, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0x48, 0xC0, 0x90, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0x4C, 0xA0, 0x80, 0xE0, 0xD3, 0x70, 0xC1, 0x82, 0x0E, - 0x00, 0x80, 0x48, 0xDD, 0x06, 0xEF, 0x20, 0x00, 0x4C, 0x0C, 0x0C, 0x68, 0xA0, 0x80, 0xE0, 0xD3, + 0x00, 0x80, 0x48, 0xDD, 0x06, 0xEF, 0x20, 0x00, 0x46, 0x0C, 0x0C, 0x68, 0xA0, 0x80, 0xE0, 0xD3, 0x72, 0xC5, 0x82, 0x0E, 0x00, 0x95, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0x50, 0x40, 0x99, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0x54, 0xA0, 0x80, 0xE0, 0xD3, 0x74, 0xC9, 0x82, 0x0E, 0xA0, 0x80, 0xE0, 0xD3, 0x76, 0xCD, 0x82, 0x0E, 0x80, 0x9D, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0x58, 0xC0, 0xA1, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0x5C, 0xB0, 0x80, 0xE0, 0xD3, 0x78, 0xC1, 0xC2, 0x0E, 0x00, 0x80, 0x48, 0xDD, - 0x06, 0xF0, 0x20, 0x00, 0x4C, 0x0C, 0x0C, 0x68, 0xB0, 0x80, 0xE0, 0xD3, 0x7A, 0xC5, 0xC2, 0x0E, + 0x06, 0xF0, 0x20, 0x00, 0x46, 0x0C, 0x0C, 0x68, 0xB0, 0x80, 0xE0, 0xD3, 0x7A, 0xC5, 0xC2, 0x0E, 0x00, 0x63, 0x1A, 0xD8, 0x0C, 0x78, 0x00, 0x00, 0x10, 0x63, 0x1A, 0xD8, 0x0C, 0x79, 0x00, 0x00, 0x20, 0x63, 0x1A, 0xD8, 0x0C, 0x7A, 0x00, 0x00, 0x30, 0x63, 0x1A, 0xD8, 0x0C, 0x7B, 0x00, 0x00, 0xB0, 0x80, 0xE0, 0xD3, 0x7C, 0xC9, 0xC2, 0x0E, 0xB0, 0x80, 0xE0, 0xD3, 0x7E, 0xCD, 0xC2, 0x0E, @@ -888,9 +987,9 @@ unsigned char bwd_bf16_causal_a16[] = { 0xD4, 0x55, 0x00, 0xFF, 0xFA, 0x02, 0xA8, 0x7F, 0xD4, 0x00, 0x00, 0xFF, 0xDC, 0x00, 0xE0, 0xD3, 0x3A, 0xB5, 0x72, 0x0F, 0x80, 0x52, 0xFE, 0xD9, 0x09, 0x00, 0x00, 0x98, 0x90, 0x56, 0xFE, 0xD9, 0x09, 0x00, 0x00, 0x9C, 0xFF, 0x3B, 0x3C, 0x80, 0x80, 0x00, 0x00, 0x00, 0x3C, 0x3A, 0x0A, 0xBF, - 0x4A, 0x80, 0x4A, 0x85, 0x4B, 0x80, 0x4B, 0x85, 0x4A, 0x08, 0x08, 0x80, 0x80, 0x09, 0x09, 0x82, - 0x4A, 0x14, 0x14, 0x80, 0x80, 0x15, 0x15, 0x82, 0xDC, 0x00, 0xE0, 0xD3, 0x3C, 0xB9, 0x72, 0x0F, - 0x50, 0x00, 0xFC, 0xBE, 0x4B, 0x10, 0x10, 0x68, 0x3B, 0x4D, 0x09, 0xBF, 0x43, 0x42, 0x42, 0x85, + 0x44, 0x80, 0x44, 0x85, 0x45, 0x80, 0x45, 0x85, 0x44, 0x08, 0x08, 0x80, 0x80, 0x09, 0x09, 0x82, + 0x44, 0x14, 0x14, 0x80, 0x80, 0x15, 0x15, 0x82, 0xDC, 0x00, 0xE0, 0xD3, 0x3C, 0xB9, 0x72, 0x0F, + 0x50, 0x00, 0xFC, 0xBE, 0x45, 0x10, 0x10, 0x68, 0x3B, 0x49, 0x09, 0xBF, 0x43, 0x42, 0x42, 0x85, 0xDC, 0x00, 0xE0, 0xD3, 0x3E, 0xBD, 0x72, 0x0F, 0xC0, 0x5A, 0xFE, 0xD9, 0x09, 0x00, 0x00, 0xA0, 0xD0, 0x5E, 0xFE, 0xD9, 0x09, 0x00, 0x00, 0xA4, 0x20, 0x00, 0x3B, 0xB7, 0x3B, 0x3A, 0x04, 0xBF, 0x91, 0x04, 0x84, 0xBF, 0x7F, 0xC8, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x40, 0x00, 0xE0, 0xD3, @@ -943,20 +1042,20 @@ unsigned char bwd_bf16_causal_a16[] = { 0xEB, 0xE9, 0xDF, 0x07, 0x1D, 0x00, 0x00, 0xD1, 0xF4, 0xED, 0x3B, 0x01, 0xE3, 0x00, 0x01, 0xD2, 0x1D, 0xEB, 0x73, 0x04, 0x40, 0x00, 0xE0, 0xD3, 0x6C, 0x19, 0x02, 0x1D, 0x40, 0x6B, 0xFE, 0xD9, 0x0B, 0x00, 0x00, 0xB0, 0x20, 0xAA, 0xBE, 0xD9, 0x13, 0xE0, 0x00, 0x00, 0x40, 0x00, 0xE0, 0xD3, - 0x6E, 0x1D, 0x02, 0x1D, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xF1, 0x20, 0x00, 0x4C, 0x0C, 0x0C, 0x68, + 0x6E, 0x1D, 0x02, 0x1D, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xF1, 0x20, 0x00, 0x46, 0x0C, 0x0C, 0x68, 0x40, 0x00, 0xE0, 0xD3, 0x70, 0x21, 0x02, 0x1D, 0x40, 0x6C, 0xFE, 0xD9, 0x0B, 0x00, 0x00, 0xB4, 0x40, 0x00, 0xE0, 0xD3, 0x72, 0x25, 0x02, 0x1D, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xF2, 0x20, 0x00, - 0x4C, 0x0C, 0x0C, 0x68, 0x40, 0x00, 0xE0, 0xD3, 0x74, 0x29, 0x02, 0x1D, 0x80, 0x73, 0xFE, 0xD9, + 0x46, 0x0C, 0x0C, 0x68, 0x40, 0x00, 0xE0, 0xD3, 0x74, 0x29, 0x02, 0x1D, 0x80, 0x73, 0xFE, 0xD9, 0x0B, 0x00, 0x00, 0xB8, 0x10, 0x42, 0x9A, 0xD8, 0x0A, 0x34, 0x00, 0x00, 0x10, 0x44, 0x9A, 0xD8, 0x0A, 0x36, 0x00, 0x00, 0x40, 0x00, 0xE0, 0xD3, 0x76, 0x2D, 0x02, 0x1D, 0x40, 0x00, 0xE0, 0xD3, 0x78, 0x31, 0x02, 0x1D, 0x80, 0x74, 0xFE, 0xD9, 0x0B, 0x00, 0x00, 0xBC, 0x00, 0x00, 0x9A, 0xD8, 0x0A, 0x20, 0x00, 0x00, 0x00, 0x02, 0x9A, 0xD8, 0x0A, 0x22, 0x00, 0x00, 0x40, 0x00, 0xE0, 0xD3, - 0x7A, 0x35, 0x02, 0x1D, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xF3, 0x20, 0x00, 0x4C, 0x0C, 0x0C, 0x68, + 0x7A, 0x35, 0x02, 0x1D, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xF3, 0x20, 0x00, 0x46, 0x0C, 0x0C, 0x68, 0x42, 0x20, 0x20, 0x80, 0x80, 0x21, 0x21, 0x82, 0x05, 0x03, 0x0C, 0x7E, 0x40, 0x00, 0xE0, 0xD3, 0x7C, 0x39, 0x02, 0x1D, 0xC0, 0x7B, 0xFE, 0xD9, 0x0B, 0x00, 0x00, 0xC0, 0x10, 0x00, 0x9A, 0xD8, 0x0A, 0x24, 0x00, 0x00, 0x10, 0x02, 0x9A, 0xD8, 0x0A, 0x26, 0x00, 0x00, 0x40, 0x00, 0xE0, 0xD3, - 0x7E, 0x3D, 0x02, 0x1D, 0xC0, 0x7C, 0xFE, 0xD9, 0x0B, 0x00, 0x00, 0xC4, 0x45, 0x2F, 0x05, 0xBF, - 0x00, 0x00, 0x80, 0xBF, 0x56, 0x00, 0x84, 0xBF, 0x45, 0x2F, 0x04, 0xBF, 0x44, 0x00, 0x85, 0xBF, + 0x7E, 0x3D, 0x02, 0x1D, 0xC0, 0x7C, 0xFE, 0xD9, 0x0B, 0x00, 0x00, 0xC4, 0x48, 0x2F, 0x05, 0xBF, + 0x00, 0x00, 0x80, 0xBF, 0x56, 0x00, 0x84, 0xBF, 0x48, 0x2F, 0x04, 0xBF, 0x44, 0x00, 0x85, 0xBF, 0xC2, 0x00, 0xBC, 0xBE, 0xFF, 0x00, 0xBD, 0xBE, 0xE0, 0xFF, 0xFF, 0xFF, 0x40, 0x00, 0x00, 0xD1, 0x40, 0x3F, 0xF2, 0x00, 0x3C, 0x81, 0x3C, 0x8E, 0x3D, 0x81, 0x3D, 0x8E, 0x41, 0x00, 0x00, 0xD1, 0x41, 0x3F, 0xF2, 0x00, 0x3C, 0x81, 0x3C, 0x8E, 0x3D, 0x81, 0x3D, 0x8E, 0x42, 0x00, 0x00, 0xD1, @@ -978,7 +1077,7 @@ unsigned char bwd_bf16_causal_a16[] = { 0x1F, 0x03, 0x88, 0x7E, 0x1F, 0x03, 0x8A, 0x7E, 0x1F, 0x03, 0x8C, 0x7E, 0x1F, 0x03, 0x8E, 0x7E, 0x1F, 0x03, 0x90, 0x7E, 0x1F, 0x03, 0x92, 0x7E, 0x1F, 0x03, 0x94, 0x7E, 0x1F, 0x03, 0x96, 0x7E, 0x1F, 0x03, 0x98, 0x7E, 0x1F, 0x03, 0x9A, 0x7E, 0x1F, 0x03, 0x9C, 0x7E, 0x1F, 0x03, 0x9E, 0x7E, - 0x01, 0x00, 0x45, 0xB7, 0x7F, 0xCA, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x60, 0x00, 0xE0, 0xD3, + 0x01, 0x00, 0x48, 0xB7, 0x7F, 0xCA, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x60, 0x00, 0xE0, 0xD3, 0x88, 0x81, 0x02, 0x12, 0x00, 0x21, 0xFE, 0xDB, 0x0B, 0x00, 0x00, 0x60, 0x00, 0xA6, 0x6C, 0xD8, 0x12, 0x00, 0x00, 0xEC, 0x10, 0xA6, 0x6C, 0xD8, 0x12, 0x00, 0x00, 0xED, 0x20, 0xA6, 0x6C, 0xD8, 0x12, 0x00, 0x00, 0xEE, 0x60, 0x00, 0xE0, 0xD3, 0x8A, 0x85, 0x82, 0x15, 0x02, 0x00, 0x80, 0xBF, @@ -1112,7 +1211,7 @@ unsigned char bwd_bf16_causal_a16[] = { 0x45, 0x00, 0xED, 0xD1, 0x0F, 0xCB, 0x3A, 0x04, 0xFA, 0x02, 0x1E, 0x7E, 0x66, 0xB1, 0x00, 0xFF, 0x46, 0x00, 0xED, 0xD1, 0x0F, 0xCD, 0x3A, 0x04, 0xFA, 0x02, 0x1E, 0x7E, 0x67, 0xB1, 0x00, 0xFF, 0x47, 0x00, 0xED, 0xD1, 0x0F, 0xCF, 0x3A, 0x04, 0xE0, 0x80, 0xE0, 0xD3, 0xBC, 0x09, 0x83, 0x07, - 0x00, 0x80, 0x48, 0xDD, 0x06, 0xEC, 0x20, 0x00, 0x4C, 0x0C, 0x0C, 0x68, 0xE0, 0x80, 0xE0, 0xD3, + 0x00, 0x80, 0x48, 0xDD, 0x06, 0xEC, 0x20, 0x00, 0x46, 0x0C, 0x0C, 0x68, 0xE0, 0x80, 0xE0, 0xD3, 0xBE, 0x0D, 0x83, 0x07, 0x00, 0x85, 0x1A, 0xD8, 0x11, 0x44, 0x00, 0x00, 0x20, 0x85, 0x1A, 0xD8, 0x11, 0x45, 0x00, 0x00, 0x80, 0x85, 0x1A, 0xD8, 0x11, 0x46, 0x00, 0x00, 0xA0, 0x85, 0x1A, 0xD8, 0x11, 0x47, 0x00, 0x00, 0xF0, 0x80, 0xE0, 0xD3, 0xC0, 0x01, 0xC3, 0x07, 0xF0, 0x80, 0xE0, 0xD3, @@ -1121,24 +1220,24 @@ unsigned char bwd_bf16_causal_a16[] = { 0xC4, 0x09, 0xC3, 0x07, 0xF0, 0x80, 0xE0, 0xD3, 0xC6, 0x0D, 0xC3, 0x07, 0x10, 0x21, 0x1A, 0xD8, 0x0D, 0x75, 0x00, 0x00, 0x20, 0x21, 0x1A, 0xD8, 0x0D, 0x76, 0x00, 0x00, 0x30, 0x21, 0x1A, 0xD8, 0x0D, 0x77, 0x00, 0x00, 0x00, 0x00, 0x8A, 0xBF, 0x80, 0x80, 0xE0, 0xD3, 0x60, 0xC1, 0x02, 0x0E, - 0x00, 0x80, 0x48, 0xDD, 0x06, 0xED, 0x20, 0x00, 0x4C, 0x0C, 0x0C, 0x68, 0x80, 0x80, 0xE0, 0xD3, + 0x00, 0x80, 0x48, 0xDD, 0x06, 0xED, 0x20, 0x00, 0x46, 0x0C, 0x0C, 0x68, 0x80, 0x80, 0xE0, 0xD3, 0x62, 0xC5, 0x02, 0x0E, 0x00, 0xC7, 0x6C, 0xD8, 0x14, 0x00, 0x00, 0xC8, 0x20, 0xC7, 0x6C, 0xD8, 0x14, 0x00, 0x00, 0xCC, 0x00, 0xC8, 0x6C, 0xD8, 0x14, 0x00, 0x00, 0xD8, 0x20, 0xC8, 0x6C, 0xD8, 0x14, 0x00, 0x00, 0xD9, 0x80, 0x80, 0xE0, 0xD3, 0x64, 0xC9, 0x02, 0x0E, 0x80, 0x80, 0xE0, 0xD3, 0x66, 0xCD, 0x02, 0x0E, 0x40, 0xC7, 0x6C, 0xD8, 0x14, 0x00, 0x00, 0xD0, 0x60, 0xC7, 0x6C, 0xD8, 0x14, 0x00, 0x00, 0xD4, 0x40, 0xC8, 0x6C, 0xD8, 0x14, 0x00, 0x00, 0xDA, 0x60, 0xC8, 0x6C, 0xD8, 0x14, 0x00, 0x00, 0xDB, 0x90, 0x80, 0xE0, 0xD3, 0x68, 0xC1, 0x42, 0x0E, 0x7F, 0xC6, 0x8C, 0xBF, - 0x00, 0x00, 0x8A, 0xBF, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xEE, 0x20, 0x00, 0x4C, 0x0C, 0x0C, 0x68, + 0x00, 0x00, 0x8A, 0xBF, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xEE, 0x20, 0x00, 0x46, 0x0C, 0x0C, 0x68, 0x90, 0x80, 0xE0, 0xD3, 0x6A, 0xC5, 0x42, 0x0E, 0x00, 0x84, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0x40, 0x40, 0x88, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0x44, 0x90, 0x80, 0xE0, 0xD3, 0x6C, 0xC9, 0x42, 0x0E, 0x90, 0x80, 0xE0, 0xD3, 0x6E, 0xCD, 0x42, 0x0E, 0x80, 0x8C, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0x48, 0xC0, 0x90, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0x4C, 0xA0, 0x80, 0xE0, 0xD3, 0x70, 0xC1, 0x82, 0x0E, - 0x00, 0x80, 0x48, 0xDD, 0x06, 0xEF, 0x20, 0x00, 0x4C, 0x0C, 0x0C, 0x68, 0xA0, 0x80, 0xE0, 0xD3, + 0x00, 0x80, 0x48, 0xDD, 0x06, 0xEF, 0x20, 0x00, 0x46, 0x0C, 0x0C, 0x68, 0xA0, 0x80, 0xE0, 0xD3, 0x72, 0xC5, 0x82, 0x0E, 0x00, 0x95, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0x50, 0x40, 0x99, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0x54, 0xA0, 0x80, 0xE0, 0xD3, 0x74, 0xC9, 0x82, 0x0E, 0xA0, 0x80, 0xE0, 0xD3, 0x76, 0xCD, 0x82, 0x0E, 0x80, 0x9D, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0x58, 0xC0, 0xA1, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0x5C, 0xB0, 0x80, 0xE0, 0xD3, 0x78, 0xC1, 0xC2, 0x0E, 0x00, 0x80, 0x48, 0xDD, - 0x06, 0xF0, 0x20, 0x00, 0x4C, 0x0C, 0x0C, 0x68, 0xB0, 0x80, 0xE0, 0xD3, 0x7A, 0xC5, 0xC2, 0x0E, + 0x06, 0xF0, 0x20, 0x00, 0x46, 0x0C, 0x0C, 0x68, 0xB0, 0x80, 0xE0, 0xD3, 0x7A, 0xC5, 0xC2, 0x0E, 0x00, 0x63, 0x1A, 0xD8, 0x0C, 0x78, 0x00, 0x00, 0x10, 0x63, 0x1A, 0xD8, 0x0C, 0x79, 0x00, 0x00, 0x20, 0x63, 0x1A, 0xD8, 0x0C, 0x7A, 0x00, 0x00, 0x30, 0x63, 0x1A, 0xD8, 0x0C, 0x7B, 0x00, 0x00, 0xB0, 0x80, 0xE0, 0xD3, 0x7C, 0xC9, 0xC2, 0x0E, 0xB0, 0x80, 0xE0, 0xD3, 0x7E, 0xCD, 0xC2, 0x0E, @@ -1180,9 +1279,9 @@ unsigned char bwd_bf16_causal_a16[] = { 0xD4, 0x55, 0x00, 0xFF, 0xFA, 0x02, 0xA8, 0x7F, 0xD4, 0x00, 0x00, 0xFF, 0xDC, 0x00, 0xE0, 0xD3, 0x3A, 0xB5, 0x72, 0x0F, 0x80, 0x52, 0xFE, 0xD9, 0x09, 0x00, 0x00, 0x98, 0x90, 0x56, 0xFE, 0xD9, 0x09, 0x00, 0x00, 0x9C, 0xFF, 0x3B, 0x3C, 0x80, 0x80, 0x00, 0x00, 0x00, 0x3C, 0x3A, 0x0A, 0xBF, - 0x4A, 0x80, 0x4A, 0x85, 0x4B, 0x80, 0x4B, 0x85, 0x4A, 0x08, 0x08, 0x80, 0x80, 0x09, 0x09, 0x82, - 0x4A, 0x14, 0x14, 0x80, 0x80, 0x15, 0x15, 0x82, 0xDC, 0x00, 0xE0, 0xD3, 0x3C, 0xB9, 0x72, 0x0F, - 0x51, 0x00, 0xFC, 0xBE, 0x4B, 0x10, 0x10, 0x68, 0x3B, 0x4D, 0x09, 0xBF, 0x43, 0x42, 0x42, 0x85, + 0x44, 0x80, 0x44, 0x85, 0x45, 0x80, 0x45, 0x85, 0x44, 0x08, 0x08, 0x80, 0x80, 0x09, 0x09, 0x82, + 0x44, 0x14, 0x14, 0x80, 0x80, 0x15, 0x15, 0x82, 0xDC, 0x00, 0xE0, 0xD3, 0x3C, 0xB9, 0x72, 0x0F, + 0x51, 0x00, 0xFC, 0xBE, 0x45, 0x10, 0x10, 0x68, 0x3B, 0x49, 0x09, 0xBF, 0x43, 0x42, 0x42, 0x85, 0xDC, 0x00, 0xE0, 0xD3, 0x3E, 0xBD, 0x72, 0x0F, 0xC0, 0x5A, 0xFE, 0xD9, 0x09, 0x00, 0x00, 0xA0, 0xD0, 0x5E, 0xFE, 0xD9, 0x09, 0x00, 0x00, 0xA4, 0x20, 0x00, 0x3B, 0xB7, 0x3B, 0x3A, 0x04, 0xBF, 0x01, 0x00, 0x84, 0xBF, 0xDF, 0xF6, 0x82, 0xBF, 0x00, 0x00, 0x80, 0xBF, 0x00, 0x00, 0x80, 0xBF, @@ -1236,21 +1335,21 @@ unsigned char bwd_bf16_causal_a16[] = { 0xEB, 0xD7, 0x03, 0x00, 0xF4, 0x00, 0xC8, 0xD1, 0xEB, 0x21, 0x05, 0x02, 0xF4, 0x00, 0xFF, 0xD1, 0xEB, 0xE9, 0xDF, 0x07, 0x1D, 0x00, 0x00, 0xD1, 0xF4, 0xED, 0x3B, 0x01, 0xE3, 0x00, 0x01, 0xD2, 0x1D, 0xEB, 0x73, 0x04, 0x40, 0x00, 0xE0, 0xD3, 0x6C, 0x19, 0x02, 0x1D, 0x00, 0x80, 0x48, 0xDD, - 0x06, 0xF1, 0x20, 0x00, 0x4C, 0x0C, 0x0C, 0x68, 0x40, 0x00, 0xE0, 0xD3, 0x6E, 0x1D, 0x02, 0x1D, + 0x06, 0xF1, 0x20, 0x00, 0x46, 0x0C, 0x0C, 0x68, 0x40, 0x00, 0xE0, 0xD3, 0x6E, 0x1D, 0x02, 0x1D, 0x40, 0x6B, 0xFE, 0xD9, 0x0B, 0x00, 0x00, 0xB0, 0x20, 0xAA, 0xBE, 0xD9, 0x13, 0xE0, 0x00, 0x00, 0x40, 0x00, 0xE0, 0xD3, 0x70, 0x21, 0x02, 0x1D, 0x40, 0x00, 0xE0, 0xD3, 0x72, 0x25, 0x02, 0x1D, 0x40, 0x6C, 0xFE, 0xD9, 0x0B, 0x00, 0x00, 0xB4, 0x10, 0x42, 0x9A, 0xD8, 0x0A, 0x3C, 0x00, 0x00, 0x10, 0x44, 0x9A, 0xD8, 0x0A, 0x3E, 0x00, 0x00, 0x40, 0x00, 0xE0, 0xD3, 0x74, 0x29, 0x02, 0x1D, - 0x00, 0x80, 0x48, 0xDD, 0x06, 0xF2, 0x20, 0x00, 0x4C, 0x0C, 0x0C, 0x68, 0x40, 0x00, 0xE0, 0xD3, + 0x00, 0x80, 0x48, 0xDD, 0x06, 0xF2, 0x20, 0x00, 0x46, 0x0C, 0x0C, 0x68, 0x40, 0x00, 0xE0, 0xD3, 0x76, 0x2D, 0x02, 0x1D, 0x80, 0x73, 0xFE, 0xD9, 0x0B, 0x00, 0x00, 0xB8, 0x00, 0x00, 0x9A, 0xD8, 0x0A, 0x28, 0x00, 0x00, 0x00, 0x02, 0x9A, 0xD8, 0x0A, 0x2A, 0x00, 0x00, 0x40, 0x00, 0xE0, 0xD3, - 0x78, 0x31, 0x02, 0x1D, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xF3, 0x20, 0x00, 0x4C, 0x0C, 0x0C, 0x68, + 0x78, 0x31, 0x02, 0x1D, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xF3, 0x20, 0x00, 0x46, 0x0C, 0x0C, 0x68, 0x42, 0x20, 0x20, 0x80, 0x80, 0x21, 0x21, 0x82, 0x05, 0x03, 0x0C, 0x7E, 0x40, 0x00, 0xE0, 0xD3, 0x7A, 0x35, 0x02, 0x1D, 0x80, 0x74, 0xFE, 0xD9, 0x0B, 0x00, 0x00, 0xBC, 0x10, 0x00, 0x9A, 0xD8, 0x0A, 0x2C, 0x00, 0x00, 0x10, 0x02, 0x9A, 0xD8, 0x0A, 0x2E, 0x00, 0x00, 0x40, 0x00, 0xE0, 0xD3, 0x7C, 0x39, 0x02, 0x1D, 0x40, 0x00, 0xE0, 0xD3, 0x7E, 0x3D, 0x02, 0x1D, 0xC0, 0x7B, 0xFE, 0xD9, - 0x0B, 0x00, 0x00, 0xC0, 0xC0, 0x7C, 0xFE, 0xD9, 0x0B, 0x00, 0x00, 0xC4, 0x45, 0x2F, 0x05, 0xBF, - 0x00, 0x00, 0x80, 0xBF, 0x56, 0x00, 0x84, 0xBF, 0x45, 0x2F, 0x04, 0xBF, 0x44, 0x00, 0x85, 0xBF, + 0x0B, 0x00, 0x00, 0xC0, 0xC0, 0x7C, 0xFE, 0xD9, 0x0B, 0x00, 0x00, 0xC4, 0x48, 0x2F, 0x05, 0xBF, + 0x00, 0x00, 0x80, 0xBF, 0x56, 0x00, 0x84, 0xBF, 0x48, 0x2F, 0x04, 0xBF, 0x44, 0x00, 0x85, 0xBF, 0xC2, 0x00, 0xBC, 0xBE, 0xFF, 0x00, 0xBD, 0xBE, 0xE0, 0xFF, 0xFF, 0xFF, 0x40, 0x00, 0x00, 0xD1, 0x40, 0x3F, 0xF2, 0x00, 0x3C, 0x81, 0x3C, 0x8E, 0x3D, 0x81, 0x3D, 0x8E, 0x41, 0x00, 0x00, 0xD1, 0x41, 0x3F, 0xF2, 0x00, 0x3C, 0x81, 0x3C, 0x8E, 0x3D, 0x81, 0x3D, 0x8E, 0x42, 0x00, 0x00, 0xD1, @@ -1272,7 +1371,7 @@ unsigned char bwd_bf16_causal_a16[] = { 0x1F, 0x03, 0x88, 0x7E, 0x1F, 0x03, 0x8A, 0x7E, 0x1F, 0x03, 0x8C, 0x7E, 0x1F, 0x03, 0x8E, 0x7E, 0x1F, 0x03, 0x90, 0x7E, 0x1F, 0x03, 0x92, 0x7E, 0x1F, 0x03, 0x94, 0x7E, 0x1F, 0x03, 0x96, 0x7E, 0x1F, 0x03, 0x98, 0x7E, 0x1F, 0x03, 0x9A, 0x7E, 0x1F, 0x03, 0x9C, 0x7E, 0x1F, 0x03, 0x9E, 0x7E, - 0x01, 0x00, 0x45, 0xB7, 0x7F, 0xCA, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x60, 0x00, 0xE0, 0xD3, + 0x01, 0x00, 0x48, 0xB7, 0x7F, 0xCA, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x60, 0x00, 0xE0, 0xD3, 0x88, 0x81, 0x02, 0x12, 0x02, 0x00, 0x80, 0xBF, 0x40, 0x00, 0xCB, 0xD1, 0x40, 0x73, 0x20, 0x87, 0x41, 0x00, 0xCB, 0xD1, 0x41, 0x73, 0x24, 0x87, 0x42, 0x00, 0xCB, 0xD1, 0x42, 0x73, 0x28, 0x87, 0x43, 0x00, 0xCB, 0xD1, 0x43, 0x73, 0x2C, 0x87, 0x60, 0x00, 0xE0, 0xD3, 0x8A, 0x85, 0x82, 0x15, @@ -1409,7 +1508,7 @@ unsigned char bwd_bf16_causal_a16[] = { 0x00, 0x85, 0x1A, 0xD8, 0x11, 0x44, 0x00, 0x00, 0x20, 0x85, 0x1A, 0xD8, 0x11, 0x45, 0x00, 0x00, 0x80, 0x85, 0x1A, 0xD8, 0x11, 0x46, 0x00, 0x00, 0xA0, 0x85, 0x1A, 0xD8, 0x11, 0x47, 0x00, 0x00, 0xE0, 0x80, 0xE0, 0xD3, 0xBE, 0x0D, 0x83, 0x07, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xEC, 0x20, 0x00, - 0x4C, 0x0C, 0x0C, 0x68, 0xF0, 0x80, 0xE0, 0xD3, 0xC0, 0x01, 0xC3, 0x07, 0x20, 0x21, 0x1A, 0xD8, + 0x46, 0x0C, 0x0C, 0x68, 0xF0, 0x80, 0xE0, 0xD3, 0xC0, 0x01, 0xC3, 0x07, 0x20, 0x21, 0x1A, 0xD8, 0x0C, 0x72, 0x00, 0x00, 0x30, 0x21, 0x1A, 0xD8, 0x0C, 0x73, 0x00, 0x00, 0x00, 0x21, 0x1A, 0xD8, 0x0D, 0x74, 0x00, 0x00, 0xF0, 0x80, 0xE0, 0xD3, 0xC2, 0x05, 0xC3, 0x07, 0xF0, 0x80, 0xE0, 0xD3, 0xC4, 0x09, 0xC3, 0x07, 0x10, 0x21, 0x1A, 0xD8, 0x0D, 0x75, 0x00, 0x00, 0x20, 0x21, 0x1A, 0xD8, @@ -1418,23 +1517,23 @@ unsigned char bwd_bf16_causal_a16[] = { 0x00, 0xC9, 0x6C, 0xD8, 0x14, 0x00, 0x00, 0xC8, 0x20, 0xC9, 0x6C, 0xD8, 0x14, 0x00, 0x00, 0xCC, 0x00, 0xCA, 0x6C, 0xD8, 0x14, 0x00, 0x00, 0xD8, 0x20, 0xCA, 0x6C, 0xD8, 0x14, 0x00, 0x00, 0xD9, 0x80, 0x80, 0xE0, 0xD3, 0x62, 0xC5, 0x02, 0x0E, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xED, 0x20, 0x00, - 0x4C, 0x0C, 0x0C, 0x68, 0x80, 0x80, 0xE0, 0xD3, 0x64, 0xC9, 0x02, 0x0E, 0x40, 0xC9, 0x6C, 0xD8, + 0x46, 0x0C, 0x0C, 0x68, 0x80, 0x80, 0xE0, 0xD3, 0x64, 0xC9, 0x02, 0x0E, 0x40, 0xC9, 0x6C, 0xD8, 0x14, 0x00, 0x00, 0xD0, 0x60, 0xC9, 0x6C, 0xD8, 0x14, 0x00, 0x00, 0xD4, 0x40, 0xCA, 0x6C, 0xD8, 0x14, 0x00, 0x00, 0xDA, 0x60, 0xCA, 0x6C, 0xD8, 0x14, 0x00, 0x00, 0xDB, 0x80, 0x80, 0xE0, 0xD3, 0x66, 0xCD, 0x02, 0x0E, 0x90, 0x80, 0xE0, 0xD3, 0x68, 0xC1, 0x42, 0x0E, 0x7F, 0xC6, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x00, 0x84, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0x40, 0x40, 0x88, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0x44, 0x90, 0x80, 0xE0, 0xD3, 0x6A, 0xC5, 0x42, 0x0E, 0x00, 0x80, 0x48, 0xDD, - 0x06, 0xEE, 0x20, 0x00, 0x4C, 0x0C, 0x0C, 0x68, 0x90, 0x80, 0xE0, 0xD3, 0x6C, 0xC9, 0x42, 0x0E, + 0x06, 0xEE, 0x20, 0x00, 0x46, 0x0C, 0x0C, 0x68, 0x90, 0x80, 0xE0, 0xD3, 0x6C, 0xC9, 0x42, 0x0E, 0x80, 0x8C, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0x48, 0xC0, 0x90, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0x4C, 0x90, 0x80, 0xE0, 0xD3, 0x6E, 0xCD, 0x42, 0x0E, 0xA0, 0x80, 0xE0, 0xD3, 0x70, 0xC1, 0x82, 0x0E, 0x00, 0x95, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0x50, 0x40, 0x99, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0x54, 0xA0, 0x80, 0xE0, 0xD3, 0x72, 0xC5, 0x82, 0x0E, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xEF, 0x20, 0x00, - 0x4C, 0x0C, 0x0C, 0x68, 0xA0, 0x80, 0xE0, 0xD3, 0x74, 0xC9, 0x82, 0x0E, 0x80, 0x9D, 0xFE, 0xD9, + 0x46, 0x0C, 0x0C, 0x68, 0xA0, 0x80, 0xE0, 0xD3, 0x74, 0xC9, 0x82, 0x0E, 0x80, 0x9D, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0x58, 0xC0, 0xA1, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0x5C, 0xA0, 0x80, 0xE0, 0xD3, 0x76, 0xCD, 0x82, 0x0E, 0xB0, 0x80, 0xE0, 0xD3, 0x78, 0xC1, 0xC2, 0x0E, 0x00, 0x63, 0x1A, 0xD8, 0x0C, 0x78, 0x00, 0x00, 0x10, 0x63, 0x1A, 0xD8, 0x0C, 0x79, 0x00, 0x00, 0x20, 0x63, 0x1A, 0xD8, 0x0C, 0x7A, 0x00, 0x00, 0x30, 0x63, 0x1A, 0xD8, 0x0C, 0x7B, 0x00, 0x00, 0xB0, 0x80, 0xE0, 0xD3, - 0x7A, 0xC5, 0xC2, 0x0E, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xF0, 0x20, 0x00, 0x4C, 0x0C, 0x0C, 0x68, + 0x7A, 0xC5, 0xC2, 0x0E, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xF0, 0x20, 0x00, 0x46, 0x0C, 0x0C, 0x68, 0xB0, 0x80, 0xE0, 0xD3, 0x7C, 0xC9, 0xC2, 0x0E, 0x00, 0x63, 0x1A, 0xD8, 0x0D, 0x7C, 0x00, 0x00, 0x10, 0x63, 0x1A, 0xD8, 0x0D, 0x7D, 0x00, 0x00, 0x20, 0x63, 0x1A, 0xD8, 0x0D, 0x7E, 0x00, 0x00, 0x30, 0x63, 0x1A, 0xD8, 0x0D, 0x7F, 0x00, 0x00, 0xB0, 0x80, 0xE0, 0xD3, 0x7E, 0xCD, 0xC2, 0x0E, @@ -1474,11 +1573,11 @@ unsigned char bwd_bf16_causal_a16[] = { 0xD4, 0xFF, 0x00, 0xFF, 0xFA, 0x02, 0xAC, 0x7F, 0xD4, 0xAA, 0x00, 0xFF, 0xDC, 0x00, 0xE0, 0xD3, 0x3A, 0xB5, 0x72, 0x0F, 0xFA, 0x02, 0xAA, 0x7F, 0xD4, 0x55, 0x00, 0xFF, 0xFA, 0x02, 0xA8, 0x7F, 0xD4, 0x00, 0x00, 0xFF, 0xFF, 0x3B, 0x3C, 0x80, 0x80, 0x00, 0x00, 0x00, 0x3C, 0x3A, 0x0A, 0xBF, - 0x4A, 0x80, 0x4A, 0x85, 0x4B, 0x80, 0x4B, 0x85, 0x4A, 0x08, 0x08, 0x80, 0x80, 0x09, 0x09, 0x82, - 0x4A, 0x14, 0x14, 0x80, 0x80, 0x15, 0x15, 0x82, 0xDC, 0x00, 0xE0, 0xD3, 0x3C, 0xB9, 0x72, 0x0F, + 0x44, 0x80, 0x44, 0x85, 0x45, 0x80, 0x45, 0x85, 0x44, 0x08, 0x08, 0x80, 0x80, 0x09, 0x09, 0x82, + 0x44, 0x14, 0x14, 0x80, 0x80, 0x15, 0x15, 0x82, 0xDC, 0x00, 0xE0, 0xD3, 0x3C, 0xB9, 0x72, 0x0F, 0xC0, 0x5A, 0xFE, 0xD9, 0x09, 0x00, 0x00, 0xA0, 0xD0, 0x5E, 0xFE, 0xD9, 0x09, 0x00, 0x00, 0xA4, - 0x3B, 0x4D, 0x09, 0xBF, 0x43, 0x42, 0x42, 0x85, 0xDC, 0x00, 0xE0, 0xD3, 0x3E, 0xBD, 0x72, 0x0F, - 0x50, 0x00, 0xFC, 0xBE, 0x4B, 0x10, 0x10, 0x68, 0x20, 0x00, 0x3B, 0xB7, 0x3B, 0x3A, 0x04, 0xBF, + 0x3B, 0x49, 0x09, 0xBF, 0x43, 0x42, 0x42, 0x85, 0xDC, 0x00, 0xE0, 0xD3, 0x3E, 0xBD, 0x72, 0x0F, + 0x50, 0x00, 0xFC, 0xBE, 0x45, 0x10, 0x10, 0x68, 0x20, 0x00, 0x3B, 0xB7, 0x3B, 0x3A, 0x04, 0xBF, 0x69, 0xFB, 0x84, 0xBF, 0x7F, 0xC8, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x40, 0x00, 0xE0, 0xD3, 0x60, 0x01, 0x02, 0x1A, 0x30, 0xB8, 0xB9, 0x0B, 0x30, 0xBA, 0xBB, 0x0B, 0x30, 0xBC, 0xBD, 0x0B, 0x30, 0xBE, 0xBF, 0x0B, 0x30, 0xC0, 0xC1, 0x0B, 0x30, 0xC2, 0xC3, 0x0B, 0x40, 0x00, 0xE0, 0xD3, @@ -1528,21 +1627,21 @@ unsigned char bwd_bf16_causal_a16[] = { 0xEB, 0xD7, 0x03, 0x00, 0xF4, 0x00, 0xC8, 0xD1, 0xEB, 0x21, 0x05, 0x02, 0xF4, 0x00, 0xFF, 0xD1, 0xEB, 0xE9, 0xDF, 0x07, 0x1D, 0x00, 0x00, 0xD1, 0xF4, 0xED, 0x3B, 0x01, 0xE3, 0x00, 0x01, 0xD2, 0x1D, 0xEB, 0x73, 0x04, 0x40, 0x00, 0xE0, 0xD3, 0x6C, 0x19, 0x02, 0x1D, 0x00, 0x80, 0x48, 0xDD, - 0x06, 0xF1, 0x20, 0x00, 0x4C, 0x0C, 0x0C, 0x68, 0x40, 0x00, 0xE0, 0xD3, 0x6E, 0x1D, 0x02, 0x1D, + 0x06, 0xF1, 0x20, 0x00, 0x46, 0x0C, 0x0C, 0x68, 0x40, 0x00, 0xE0, 0xD3, 0x6E, 0x1D, 0x02, 0x1D, 0x40, 0x6B, 0xFE, 0xD9, 0x0B, 0x00, 0x00, 0xB0, 0x20, 0xAA, 0xBE, 0xD9, 0x13, 0xE0, 0x00, 0x00, 0x40, 0x00, 0xE0, 0xD3, 0x70, 0x21, 0x02, 0x1D, 0x40, 0x00, 0xE0, 0xD3, 0x72, 0x25, 0x02, 0x1D, 0x40, 0x6C, 0xFE, 0xD9, 0x0B, 0x00, 0x00, 0xB4, 0x10, 0x42, 0x9A, 0xD8, 0x0A, 0x34, 0x00, 0x00, 0x10, 0x44, 0x9A, 0xD8, 0x0A, 0x36, 0x00, 0x00, 0x40, 0x00, 0xE0, 0xD3, 0x74, 0x29, 0x02, 0x1D, - 0x00, 0x80, 0x48, 0xDD, 0x06, 0xF2, 0x20, 0x00, 0x4C, 0x0C, 0x0C, 0x68, 0x40, 0x00, 0xE0, 0xD3, + 0x00, 0x80, 0x48, 0xDD, 0x06, 0xF2, 0x20, 0x00, 0x46, 0x0C, 0x0C, 0x68, 0x40, 0x00, 0xE0, 0xD3, 0x76, 0x2D, 0x02, 0x1D, 0x80, 0x73, 0xFE, 0xD9, 0x0B, 0x00, 0x00, 0xB8, 0x00, 0x00, 0x9A, 0xD8, 0x0A, 0x20, 0x00, 0x00, 0x00, 0x02, 0x9A, 0xD8, 0x0A, 0x22, 0x00, 0x00, 0x40, 0x00, 0xE0, 0xD3, - 0x78, 0x31, 0x02, 0x1D, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xF3, 0x20, 0x00, 0x4C, 0x0C, 0x0C, 0x68, + 0x78, 0x31, 0x02, 0x1D, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xF3, 0x20, 0x00, 0x46, 0x0C, 0x0C, 0x68, 0x42, 0x20, 0x20, 0x80, 0x80, 0x21, 0x21, 0x82, 0x05, 0x03, 0x0C, 0x7E, 0x40, 0x00, 0xE0, 0xD3, 0x7A, 0x35, 0x02, 0x1D, 0x80, 0x74, 0xFE, 0xD9, 0x0B, 0x00, 0x00, 0xBC, 0x10, 0x00, 0x9A, 0xD8, 0x0A, 0x24, 0x00, 0x00, 0x10, 0x02, 0x9A, 0xD8, 0x0A, 0x26, 0x00, 0x00, 0x40, 0x00, 0xE0, 0xD3, 0x7C, 0x39, 0x02, 0x1D, 0x40, 0x00, 0xE0, 0xD3, 0x7E, 0x3D, 0x02, 0x1D, 0xC0, 0x7B, 0xFE, 0xD9, - 0x0B, 0x00, 0x00, 0xC0, 0xC0, 0x7C, 0xFE, 0xD9, 0x0B, 0x00, 0x00, 0xC4, 0x45, 0x2F, 0x05, 0xBF, - 0x00, 0x00, 0x80, 0xBF, 0x56, 0x00, 0x84, 0xBF, 0x45, 0x2F, 0x04, 0xBF, 0x44, 0x00, 0x85, 0xBF, + 0x0B, 0x00, 0x00, 0xC0, 0xC0, 0x7C, 0xFE, 0xD9, 0x0B, 0x00, 0x00, 0xC4, 0x48, 0x2F, 0x05, 0xBF, + 0x00, 0x00, 0x80, 0xBF, 0x56, 0x00, 0x84, 0xBF, 0x48, 0x2F, 0x04, 0xBF, 0x44, 0x00, 0x85, 0xBF, 0xC2, 0x00, 0xBC, 0xBE, 0xFF, 0x00, 0xBD, 0xBE, 0xE0, 0xFF, 0xFF, 0xFF, 0x40, 0x00, 0x00, 0xD1, 0x40, 0x3F, 0xF2, 0x00, 0x3C, 0x81, 0x3C, 0x8E, 0x3D, 0x81, 0x3D, 0x8E, 0x41, 0x00, 0x00, 0xD1, 0x41, 0x3F, 0xF2, 0x00, 0x3C, 0x81, 0x3C, 0x8E, 0x3D, 0x81, 0x3D, 0x8E, 0x42, 0x00, 0x00, 0xD1, @@ -1564,7 +1663,7 @@ unsigned char bwd_bf16_causal_a16[] = { 0x1F, 0x03, 0x88, 0x7E, 0x1F, 0x03, 0x8A, 0x7E, 0x1F, 0x03, 0x8C, 0x7E, 0x1F, 0x03, 0x8E, 0x7E, 0x1F, 0x03, 0x90, 0x7E, 0x1F, 0x03, 0x92, 0x7E, 0x1F, 0x03, 0x94, 0x7E, 0x1F, 0x03, 0x96, 0x7E, 0x1F, 0x03, 0x98, 0x7E, 0x1F, 0x03, 0x9A, 0x7E, 0x1F, 0x03, 0x9C, 0x7E, 0x1F, 0x03, 0x9E, 0x7E, - 0x01, 0x00, 0x45, 0xB7, 0x7F, 0xCA, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x60, 0x00, 0xE0, 0xD3, + 0x01, 0x00, 0x48, 0xB7, 0x7F, 0xCA, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x60, 0x00, 0xE0, 0xD3, 0x88, 0x81, 0x02, 0x12, 0x02, 0x00, 0x80, 0xBF, 0x40, 0x00, 0xCB, 0xD1, 0x40, 0x73, 0x20, 0x87, 0x41, 0x00, 0xCB, 0xD1, 0x41, 0x73, 0x24, 0x87, 0x42, 0x00, 0xCB, 0xD1, 0x42, 0x73, 0x28, 0x87, 0x43, 0x00, 0xCB, 0xD1, 0x43, 0x73, 0x2C, 0x87, 0x60, 0x00, 0xE0, 0xD3, 0x8A, 0x85, 0x82, 0x15, @@ -1701,7 +1800,7 @@ unsigned char bwd_bf16_causal_a16[] = { 0x00, 0x85, 0x1A, 0xD8, 0x11, 0x44, 0x00, 0x00, 0x20, 0x85, 0x1A, 0xD8, 0x11, 0x45, 0x00, 0x00, 0x80, 0x85, 0x1A, 0xD8, 0x11, 0x46, 0x00, 0x00, 0xA0, 0x85, 0x1A, 0xD8, 0x11, 0x47, 0x00, 0x00, 0xE0, 0x80, 0xE0, 0xD3, 0xBE, 0x0D, 0x83, 0x07, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xEC, 0x20, 0x00, - 0x4C, 0x0C, 0x0C, 0x68, 0xF0, 0x80, 0xE0, 0xD3, 0xC0, 0x01, 0xC3, 0x07, 0x20, 0x21, 0x1A, 0xD8, + 0x46, 0x0C, 0x0C, 0x68, 0xF0, 0x80, 0xE0, 0xD3, 0xC0, 0x01, 0xC3, 0x07, 0x20, 0x21, 0x1A, 0xD8, 0x0C, 0x72, 0x00, 0x00, 0x30, 0x21, 0x1A, 0xD8, 0x0C, 0x73, 0x00, 0x00, 0x00, 0x21, 0x1A, 0xD8, 0x0D, 0x74, 0x00, 0x00, 0xF0, 0x80, 0xE0, 0xD3, 0xC2, 0x05, 0xC3, 0x07, 0xF0, 0x80, 0xE0, 0xD3, 0xC4, 0x09, 0xC3, 0x07, 0x10, 0x21, 0x1A, 0xD8, 0x0D, 0x75, 0x00, 0x00, 0x20, 0x21, 0x1A, 0xD8, @@ -1710,23 +1809,23 @@ unsigned char bwd_bf16_causal_a16[] = { 0x00, 0xC7, 0x6C, 0xD8, 0x14, 0x00, 0x00, 0xC8, 0x20, 0xC7, 0x6C, 0xD8, 0x14, 0x00, 0x00, 0xCC, 0x00, 0xC8, 0x6C, 0xD8, 0x14, 0x00, 0x00, 0xD8, 0x20, 0xC8, 0x6C, 0xD8, 0x14, 0x00, 0x00, 0xD9, 0x80, 0x80, 0xE0, 0xD3, 0x62, 0xC5, 0x02, 0x0E, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xED, 0x20, 0x00, - 0x4C, 0x0C, 0x0C, 0x68, 0x80, 0x80, 0xE0, 0xD3, 0x64, 0xC9, 0x02, 0x0E, 0x40, 0xC7, 0x6C, 0xD8, + 0x46, 0x0C, 0x0C, 0x68, 0x80, 0x80, 0xE0, 0xD3, 0x64, 0xC9, 0x02, 0x0E, 0x40, 0xC7, 0x6C, 0xD8, 0x14, 0x00, 0x00, 0xD0, 0x60, 0xC7, 0x6C, 0xD8, 0x14, 0x00, 0x00, 0xD4, 0x40, 0xC8, 0x6C, 0xD8, 0x14, 0x00, 0x00, 0xDA, 0x60, 0xC8, 0x6C, 0xD8, 0x14, 0x00, 0x00, 0xDB, 0x80, 0x80, 0xE0, 0xD3, 0x66, 0xCD, 0x02, 0x0E, 0x90, 0x80, 0xE0, 0xD3, 0x68, 0xC1, 0x42, 0x0E, 0x7F, 0xC6, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x00, 0x84, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0x40, 0x40, 0x88, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0x44, 0x90, 0x80, 0xE0, 0xD3, 0x6A, 0xC5, 0x42, 0x0E, 0x00, 0x80, 0x48, 0xDD, - 0x06, 0xEE, 0x20, 0x00, 0x4C, 0x0C, 0x0C, 0x68, 0x90, 0x80, 0xE0, 0xD3, 0x6C, 0xC9, 0x42, 0x0E, + 0x06, 0xEE, 0x20, 0x00, 0x46, 0x0C, 0x0C, 0x68, 0x90, 0x80, 0xE0, 0xD3, 0x6C, 0xC9, 0x42, 0x0E, 0x80, 0x8C, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0x48, 0xC0, 0x90, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0x4C, 0x90, 0x80, 0xE0, 0xD3, 0x6E, 0xCD, 0x42, 0x0E, 0xA0, 0x80, 0xE0, 0xD3, 0x70, 0xC1, 0x82, 0x0E, 0x00, 0x95, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0x50, 0x40, 0x99, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0x54, 0xA0, 0x80, 0xE0, 0xD3, 0x72, 0xC5, 0x82, 0x0E, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xEF, 0x20, 0x00, - 0x4C, 0x0C, 0x0C, 0x68, 0xA0, 0x80, 0xE0, 0xD3, 0x74, 0xC9, 0x82, 0x0E, 0x80, 0x9D, 0xFE, 0xD9, + 0x46, 0x0C, 0x0C, 0x68, 0xA0, 0x80, 0xE0, 0xD3, 0x74, 0xC9, 0x82, 0x0E, 0x80, 0x9D, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0x58, 0xC0, 0xA1, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0x5C, 0xA0, 0x80, 0xE0, 0xD3, 0x76, 0xCD, 0x82, 0x0E, 0xB0, 0x80, 0xE0, 0xD3, 0x78, 0xC1, 0xC2, 0x0E, 0x00, 0x63, 0x1A, 0xD8, 0x0C, 0x78, 0x00, 0x00, 0x10, 0x63, 0x1A, 0xD8, 0x0C, 0x79, 0x00, 0x00, 0x20, 0x63, 0x1A, 0xD8, 0x0C, 0x7A, 0x00, 0x00, 0x30, 0x63, 0x1A, 0xD8, 0x0C, 0x7B, 0x00, 0x00, 0xB0, 0x80, 0xE0, 0xD3, - 0x7A, 0xC5, 0xC2, 0x0E, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xF0, 0x20, 0x00, 0x4C, 0x0C, 0x0C, 0x68, + 0x7A, 0xC5, 0xC2, 0x0E, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xF0, 0x20, 0x00, 0x46, 0x0C, 0x0C, 0x68, 0xB0, 0x80, 0xE0, 0xD3, 0x7C, 0xC9, 0xC2, 0x0E, 0x00, 0x63, 0x1A, 0xD8, 0x0D, 0x7C, 0x00, 0x00, 0x10, 0x63, 0x1A, 0xD8, 0x0D, 0x7D, 0x00, 0x00, 0x20, 0x63, 0x1A, 0xD8, 0x0D, 0x7E, 0x00, 0x00, 0x30, 0x63, 0x1A, 0xD8, 0x0D, 0x7F, 0x00, 0x00, 0xB0, 0x80, 0xE0, 0xD3, 0x7E, 0xCD, 0xC2, 0x0E, @@ -1766,14 +1865,14 @@ unsigned char bwd_bf16_causal_a16[] = { 0xD4, 0xFF, 0x00, 0xFF, 0xFA, 0x02, 0xAC, 0x7F, 0xD4, 0xAA, 0x00, 0xFF, 0xDC, 0x00, 0xE0, 0xD3, 0x3A, 0xB5, 0x72, 0x0F, 0xFA, 0x02, 0xAA, 0x7F, 0xD4, 0x55, 0x00, 0xFF, 0xFA, 0x02, 0xA8, 0x7F, 0xD4, 0x00, 0x00, 0xFF, 0xFF, 0x3B, 0x3C, 0x80, 0x80, 0x00, 0x00, 0x00, 0x3C, 0x3A, 0x0A, 0xBF, - 0x4A, 0x80, 0x4A, 0x85, 0x4B, 0x80, 0x4B, 0x85, 0x4A, 0x08, 0x08, 0x80, 0x80, 0x09, 0x09, 0x82, - 0x4A, 0x14, 0x14, 0x80, 0x80, 0x15, 0x15, 0x82, 0xDC, 0x00, 0xE0, 0xD3, 0x3C, 0xB9, 0x72, 0x0F, + 0x44, 0x80, 0x44, 0x85, 0x45, 0x80, 0x45, 0x85, 0x44, 0x08, 0x08, 0x80, 0x80, 0x09, 0x09, 0x82, + 0x44, 0x14, 0x14, 0x80, 0x80, 0x15, 0x15, 0x82, 0xDC, 0x00, 0xE0, 0xD3, 0x3C, 0xB9, 0x72, 0x0F, 0xC0, 0x5A, 0xFE, 0xD9, 0x09, 0x00, 0x00, 0xA0, 0xD0, 0x5E, 0xFE, 0xD9, 0x09, 0x00, 0x00, 0xA4, - 0x3B, 0x4D, 0x09, 0xBF, 0x43, 0x42, 0x42, 0x85, 0xDC, 0x00, 0xE0, 0xD3, 0x3E, 0xBD, 0x72, 0x0F, - 0x51, 0x00, 0xFC, 0xBE, 0x4B, 0x10, 0x10, 0x68, 0x20, 0x00, 0x3B, 0xB7, 0x3B, 0x3A, 0x04, 0xBF, + 0x3B, 0x49, 0x09, 0xBF, 0x43, 0x42, 0x42, 0x85, 0xDC, 0x00, 0xE0, 0xD3, 0x3E, 0xBD, 0x72, 0x0F, + 0x51, 0x00, 0xFC, 0xBE, 0x45, 0x10, 0x10, 0x68, 0x20, 0x00, 0x3B, 0xB7, 0x3B, 0x3A, 0x04, 0xBF, 0xD9, 0xF6, 0x84, 0xBF, 0xDF, 0xF6, 0x82, 0xBF, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xF1, 0x20, 0x00, - 0x4C, 0x0C, 0x0C, 0x68, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xF2, 0x20, 0x00, 0x4C, 0x0C, 0x0C, 0x68, - 0x00, 0x80, 0x48, 0xDD, 0x06, 0xF3, 0x20, 0x00, 0x4C, 0x0C, 0x0C, 0x68, 0x42, 0x20, 0x20, 0x80, + 0x46, 0x0C, 0x0C, 0x68, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xF2, 0x20, 0x00, 0x46, 0x0C, 0x0C, 0x68, + 0x00, 0x80, 0x48, 0xDD, 0x06, 0xF3, 0x20, 0x00, 0x46, 0x0C, 0x0C, 0x68, 0x42, 0x20, 0x20, 0x80, 0x80, 0x21, 0x21, 0x82, 0x05, 0x03, 0x0C, 0x7E, 0x85, 0x00, 0x38, 0x20, 0x83, 0x38, 0x2C, 0x24, 0x9F, 0x00, 0x38, 0x26, 0x82, 0x38, 0x3A, 0x20, 0xFF, 0x3A, 0x3A, 0x0C, 0x04, 0x01, 0x00, 0x00, 0x1D, 0x2D, 0x2C, 0x68, 0x83, 0x38, 0x3A, 0x26, 0x1D, 0x2D, 0x2C, 0x68, 0x2F, 0xFF, 0x3C, 0x92, @@ -1826,12 +1925,12 @@ unsigned char bwd_bf16_causal_a16[] = { 0x12, 0x00, 0x00, 0xEF, 0x40, 0xA6, 0x6C, 0xD8, 0x12, 0x00, 0x00, 0xF0, 0x50, 0xA6, 0x6C, 0xD8, 0x12, 0x00, 0x00, 0xF1, 0x60, 0xA6, 0x6C, 0xD8, 0x12, 0x00, 0x00, 0xF2, 0x70, 0xA6, 0x6C, 0xD8, 0x12, 0x00, 0x00, 0xF3, 0x7F, 0xC0, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x00, 0x80, 0x48, 0xDD, - 0x06, 0xEC, 0x20, 0x00, 0x4C, 0x0C, 0x0C, 0x68, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xED, 0x20, 0x00, - 0x4C, 0x0C, 0x0C, 0x68, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xEE, 0x20, 0x00, 0x4C, 0x0C, 0x0C, 0x68, - 0x00, 0x80, 0x48, 0xDD, 0x06, 0xEF, 0x20, 0x00, 0x4C, 0x0C, 0x0C, 0x68, 0x00, 0x80, 0x48, 0xDD, - 0x06, 0xF0, 0x20, 0x00, 0x4C, 0x0C, 0x0C, 0x68, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xF1, 0x20, 0x00, - 0x4C, 0x0C, 0x0C, 0x68, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xF2, 0x20, 0x00, 0x4C, 0x0C, 0x0C, 0x68, - 0x00, 0x80, 0x48, 0xDD, 0x06, 0xF3, 0x20, 0x00, 0x4C, 0x0C, 0x0C, 0x68, 0x82, 0x00, 0x2A, 0x24, + 0x06, 0xEC, 0x20, 0x00, 0x46, 0x0C, 0x0C, 0x68, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xED, 0x20, 0x00, + 0x46, 0x0C, 0x0C, 0x68, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xEE, 0x20, 0x00, 0x46, 0x0C, 0x0C, 0x68, + 0x00, 0x80, 0x48, 0xDD, 0x06, 0xEF, 0x20, 0x00, 0x46, 0x0C, 0x0C, 0x68, 0x00, 0x80, 0x48, 0xDD, + 0x06, 0xF0, 0x20, 0x00, 0x46, 0x0C, 0x0C, 0x68, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xF1, 0x20, 0x00, + 0x46, 0x0C, 0x0C, 0x68, 0x00, 0x80, 0x48, 0xDD, 0x06, 0xF2, 0x20, 0x00, 0x46, 0x0C, 0x0C, 0x68, + 0x00, 0x80, 0x48, 0xDD, 0x06, 0xF3, 0x20, 0x00, 0x46, 0x0C, 0x0C, 0x68, 0x82, 0x00, 0x2A, 0x24, 0x2F, 0xFF, 0x3C, 0x92, 0x20, 0x08, 0x00, 0x00, 0x3C, 0x2A, 0x2A, 0x68, 0x82, 0x2A, 0x2A, 0x24, 0x40, 0x40, 0xD8, 0xD3, 0x80, 0x01, 0x00, 0x18, 0x41, 0x40, 0xD8, 0xD3, 0x81, 0x01, 0x00, 0x18, 0x30, 0x80, 0x80, 0x0A, 0x30, 0x82, 0x82, 0x0A, 0x4E, 0x00, 0x48, 0xD0, 0x40, 0x81, 0x02, 0x00, @@ -2054,38 +2153,38 @@ unsigned char bwd_bf16_causal_a16[] = { 0x30, 0x0C, 0xFE, 0xD9, 0x15, 0x00, 0x00, 0x4C, 0x40, 0x10, 0xFE, 0xD9, 0x15, 0x00, 0x00, 0x50, 0x50, 0x14, 0xFE, 0xD9, 0x15, 0x00, 0x00, 0x54, 0x60, 0x18, 0xFE, 0xD9, 0x15, 0x00, 0x00, 0x58, 0x70, 0x1C, 0xFE, 0xD9, 0x15, 0x00, 0x00, 0x5C, 0x7F, 0xC0, 0x8C, 0xBF, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x40, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x41, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x42, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x43, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x44, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x45, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x46, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x47, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x48, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x49, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x4A, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x4B, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x4C, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x4D, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x4E, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x4F, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x50, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x51, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x52, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x53, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x54, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x55, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x56, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x57, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x58, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x59, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x5A, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x5B, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x5C, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x5D, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x5E, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x5F, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x00, 0x8A, 0xBF, + 0x03, 0x40, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x41, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x42, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x43, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x44, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x45, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x46, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x47, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x48, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x49, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x4A, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x4B, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x4C, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x4D, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x4E, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x4F, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x50, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x51, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x52, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x53, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x54, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x55, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x56, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x57, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x58, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x59, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x5A, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x5B, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x5C, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x5D, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x5E, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x5F, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x00, 0x8A, 0xBF, 0x80, 0x40, 0xD8, 0xD3, 0xC0, 0x01, 0x00, 0x18, 0x81, 0x40, 0xD8, 0xD3, 0xC1, 0x01, 0x00, 0x18, 0x4E, 0x00, 0x48, 0xD0, 0x80, 0x01, 0x03, 0x00, 0xF4, 0x00, 0xC8, 0xD1, 0x80, 0x21, 0x05, 0x02, 0xF4, 0x00, 0xFF, 0xD1, 0x80, 0xE9, 0xDF, 0x07, 0x1C, 0x00, 0x00, 0xD1, 0xF4, 0xED, 0x3B, 0x01, @@ -2291,74 +2390,74 @@ unsigned char bwd_bf16_causal_a16[] = { 0x30, 0x0C, 0xFE, 0xD9, 0x15, 0x00, 0x00, 0x8C, 0x40, 0x10, 0xFE, 0xD9, 0x15, 0x00, 0x00, 0x90, 0x50, 0x14, 0xFE, 0xD9, 0x15, 0x00, 0x00, 0x94, 0x60, 0x18, 0xFE, 0xD9, 0x15, 0x00, 0x00, 0x98, 0x70, 0x1C, 0xFE, 0xD9, 0x15, 0x00, 0x00, 0x9C, 0x7F, 0xC0, 0x8C, 0xBF, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x80, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x81, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x82, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x83, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x84, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x85, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x86, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x87, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x88, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x89, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x8A, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x8B, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x8C, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x8D, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x8E, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x8F, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x90, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x91, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x92, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x93, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x94, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x95, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x96, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x97, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x98, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x99, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x9A, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x9B, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x9C, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x9D, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x9E, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x9F, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x00, 0x8C, 0xBF, + 0x04, 0x80, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x81, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x82, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x83, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x84, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x85, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x86, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x87, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x88, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x89, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x8A, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x8B, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x8C, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x8D, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x8E, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x8F, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x90, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x91, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x92, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x93, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x94, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x95, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x96, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x97, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x98, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x99, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x9A, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x9B, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x9C, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x9D, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x9E, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x9F, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x00, 0x8C, 0xBF, 0x52, 0x00, 0xA0, 0xBE, 0x53, 0x00, 0xA1, 0xBE, 0x32, 0x87, 0x3C, 0x8F, 0x3C, 0x81, 0xBC, 0x81, - 0x3C, 0x2C, 0xAC, 0x81, 0x01, 0x00, 0x48, 0xB7, 0x48, 0x49, 0x04, 0xBF, 0xDE, 0xE0, 0x85, 0xBF, + 0x3C, 0x02, 0x82, 0x81, 0x01, 0x00, 0x4C, 0xB7, 0x4C, 0x4D, 0x04, 0xBF, 0xBB, 0xE0, 0x85, 0xBF, 0x00, 0x00, 0x81, 0xBF, 0x00, 0x00, 0x00, 0x00, 0x06, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x20, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x0B, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x58, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x0B, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x18, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x05, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0xAC, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x0A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xE4, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x0A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x1C, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xF5, 0xFE, 0xFF, 0x6F, 0x00, 0x00, 0x00, 0x00, - 0x68, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x8C, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xA0, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xC4, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x4C, 0x69, 0x6E, 0x6B, 0x65, 0x72, 0x3A, 0x20, 0x41, 0x4D, 0x44, 0x20, 0x4C, 0x4C, 0x44, 0x20, 0x31, 0x37, 0x2E, 0x30, 0x2E, 0x30, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, - 0x98, 0x24, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x0C, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0x04, 0x5A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x3C, 0x2A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x0C, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0x34, 0x60, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x17, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, - 0x64, 0x35, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x22, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0xB0, 0x3A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x94, 0x3B, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x22, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0xE0, 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x2D, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, - 0x70, 0x3A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x38, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0xE8, 0x59, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xA0, 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x38, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0x18, 0x60, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x43, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, - 0xF0, 0x4C, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x4E, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0xB0, 0x4C, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x20, 0x53, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x4E, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0xE0, 0x52, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x59, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, - 0x88, 0x7E, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x64, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0x50, 0x5F, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xB8, 0x84, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x64, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0x80, 0x65, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x6F, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, - 0x10, 0x5F, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x7A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0x90, 0x71, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x40, 0x65, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x7A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0xC0, 0x77, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x85, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, - 0x50, 0x71, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0xAB, 0x00, 0x00, 0x00, 0x00, 0x02, 0x08, 0x00, 0x28, 0xB1, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x80, 0x77, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xAB, 0x00, 0x00, 0x00, 0x00, 0x02, 0x08, 0x00, 0x58, 0xB7, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x90, 0x00, 0x00, 0x00, 0x12, 0x03, 0x07, 0x00, - 0x00, 0x22, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x9C, 0x00, 0x00, 0x00, 0x11, 0x00, 0x06, 0x00, 0x00, 0x11, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x27, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x9C, 0x00, 0x00, 0x00, 0x11, 0x00, 0x06, 0x00, 0x00, 0x16, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x2E, 0x6E, 0x6F, 0x74, 0x65, 0x00, 0x2E, 0x64, 0x79, 0x6E, 0x73, 0x79, 0x6D, 0x00, 0x2E, 0x67, 0x6E, 0x75, 0x2E, 0x68, 0x61, 0x73, 0x68, 0x00, 0x2E, 0x68, 0x61, 0x73, 0x68, 0x00, 0x2E, 0x64, 0x79, 0x6E, 0x73, 0x74, 0x72, 0x00, 0x2E, @@ -2366,15 +2465,15 @@ unsigned char bwd_bf16_causal_a16[] = { 0x6E, 0x61, 0x6D, 0x69, 0x63, 0x00, 0x2E, 0x63, 0x6F, 0x6D, 0x6D, 0x65, 0x6E, 0x74, 0x00, 0x2E, 0x73, 0x79, 0x6D, 0x74, 0x61, 0x62, 0x00, 0x2E, 0x73, 0x68, 0x73, 0x74, 0x72, 0x74, 0x61, 0x62, 0x00, 0x2E, 0x73, 0x74, 0x72, 0x74, 0x61, 0x62, 0x00, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, - 0x30, 0x30, 0x41, 0x36, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x45, 0x30, 0x31, 0x00, - 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x34, 0x44, 0x39, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, - 0x5F, 0x30, 0x36, 0x32, 0x43, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x36, 0x31, 0x43, - 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x44, 0x46, 0x41, 0x00, 0x6C, 0x61, 0x62, 0x65, - 0x6C, 0x5F, 0x30, 0x41, 0x42, 0x43, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x41, 0x41, - 0x43, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x31, 0x37, 0x32, 0x32, 0x00, 0x6C, 0x61, 0x62, - 0x65, 0x6C, 0x5F, 0x30, 0x46, 0x35, 0x34, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x46, - 0x34, 0x34, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x31, 0x33, 0x45, 0x34, 0x00, 0x6C, 0x61, - 0x62, 0x65, 0x6C, 0x5F, 0x31, 0x33, 0x44, 0x34, 0x00, 0x6B, 0x65, 0x72, 0x6E, 0x65, 0x6C, 0x5F, + 0x30, 0x30, 0x43, 0x46, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x45, 0x34, 0x44, 0x00, + 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x35, 0x32, 0x35, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, + 0x5F, 0x30, 0x36, 0x37, 0x38, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x36, 0x36, 0x38, + 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x45, 0x34, 0x36, 0x00, 0x6C, 0x61, 0x62, 0x65, + 0x6C, 0x5F, 0x30, 0x42, 0x30, 0x38, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x41, 0x46, + 0x38, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x31, 0x37, 0x36, 0x45, 0x00, 0x6C, 0x61, 0x62, + 0x65, 0x6C, 0x5F, 0x30, 0x46, 0x41, 0x30, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x46, + 0x39, 0x30, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x31, 0x34, 0x33, 0x30, 0x00, 0x6C, 0x61, + 0x62, 0x65, 0x6C, 0x5F, 0x31, 0x34, 0x32, 0x30, 0x00, 0x6B, 0x65, 0x72, 0x6E, 0x65, 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, 0x00, 0x6B, 0x65, 0x72, 0x6E, 0x65, 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, 0x2E, 0x6B, 0x64, 0x00, 0x5F, 0x44, 0x59, 0x4E, 0x41, 0x4D, 0x49, 0x43, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, @@ -2383,49 +2482,49 @@ unsigned char bwd_bf16_causal_a16[] = { 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x07, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x1C, 0x0E, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x54, 0x13, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0x00, 0x00, 0x0B, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x20, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x20, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x58, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x58, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x48, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x05, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x08, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x18, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x0F, 0x00, 0x00, 0x00, 0xF6, 0xFF, 0xFF, 0x6F, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x68, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x68, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xA0, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xA0, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x24, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x08, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x19, 0x00, 0x00, 0x00, 0x05, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x8C, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x8C, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xC4, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xC4, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x20, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x1F, 0x00, 0x00, 0x00, 0x03, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0xAC, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xAC, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xE4, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xE4, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x1C, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x27, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x11, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x11, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x16, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x16, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x2F, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x06, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x22, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x12, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x24, 0x7F, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x27, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x17, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x54, 0x80, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x35, 0x00, 0x00, 0x00, 0x06, 0x00, 0x00, 0x00, 0x03, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x28, 0xB1, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x28, 0x91, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x58, 0xB7, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x58, 0x97, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x70, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x05, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x08, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x3E, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x30, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x98, 0x91, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xC8, 0x97, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x17, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x47, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xB0, 0x91, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xE0, 0x97, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x98, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x0C, 0x00, 0x00, 0x00, 0x0F, 0x00, 0x00, 0x00, 0x08, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x18, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x4F, 0x00, 0x00, 0x00, 0x03, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x48, 0x93, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x78, 0x99, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x61, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x59, 0x00, 0x00, 0x00, 0x03, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xA9, 0x93, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xD9, 0x99, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xB4, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00}; diff --git a/example/ck_tile/01_fmha/hsaco/bwd_fp16_a16.cpp b/example/ck_tile/01_fmha/hsaco/bwd_fp16_a16.cpp index 31b33adde5..132e3f4e86 100644 --- a/example/ck_tile/01_fmha/hsaco/bwd_fp16_a16.cpp +++ b/example/ck_tile/01_fmha/hsaco/bwd_fp16_a16.cpp @@ -5,39 +5,39 @@ unsigned char bwd_fp16_a16[] = { 0x7F, 0x45, 0x4C, 0x46, 0x02, 0x01, 0x01, 0x40, 0x03, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x03, 0x00, 0xE0, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xE0, 0x5F, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x10, 0x66, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x4C, 0x05, 0x00, 0x00, 0x40, 0x00, 0x38, 0x00, 0x08, 0x00, 0x40, 0x00, 0x0D, 0x00, 0x0B, 0x00, 0x06, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xC0, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xC0, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x08, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x40, 0x11, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x40, 0x11, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x01, 0x00, 0x00, 0x00, 0x05, 0x00, 0x00, 0x00, 0x00, 0x12, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x22, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x22, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0xDC, 0x4B, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xDC, 0x4B, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x40, 0x16, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x40, 0x16, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x01, 0x00, 0x00, 0x00, 0x05, 0x00, 0x00, 0x00, 0x00, 0x17, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x27, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x27, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x0C, 0x4D, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x0C, 0x4D, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x06, 0x00, 0x00, 0x00, - 0xE0, 0x5D, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xE0, 0x7D, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0xE0, 0x7D, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x70, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x10, 0x64, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x10, 0x84, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x10, 0x84, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x70, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x70, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x02, 0x00, 0x00, 0x00, 0x06, 0x00, 0x00, 0x00, 0xE0, 0x5D, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0xE0, 0x7D, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xE0, 0x7D, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x02, 0x00, 0x00, 0x00, 0x06, 0x00, 0x00, 0x00, 0x10, 0x64, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x10, 0x84, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x10, 0x84, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x70, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x70, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x08, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x52, 0xE5, 0x74, 0x64, 0x04, 0x00, 0x00, 0x00, - 0xE0, 0x5D, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xE0, 0x7D, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0xE0, 0x7D, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x70, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x20, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x10, 0x64, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x10, 0x84, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x10, 0x84, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x70, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xF0, 0x0B, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x51, 0xE5, 0x74, 0x64, 0x06, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x1C, 0x0E, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x1C, 0x0E, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x07, 0x00, 0x00, 0x00, 0x08, 0x0E, 0x00, 0x00, 0x20, 0x00, 0x00, 0x00, 0x41, 0x4D, 0x44, 0x47, + 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x54, 0x13, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x54, 0x13, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x07, 0x00, 0x00, 0x00, 0x40, 0x13, 0x00, 0x00, 0x20, 0x00, 0x00, 0x00, 0x41, 0x4D, 0x44, 0x47, 0x50, 0x55, 0x00, 0x00, 0x82, 0xAE, 0x61, 0x6D, 0x64, 0x68, 0x73, 0x61, 0x2E, 0x6B, 0x65, 0x72, - 0x6E, 0x65, 0x6C, 0x73, 0x91, 0x8C, 0xA5, 0x2E, 0x61, 0x72, 0x67, 0x73, 0xDC, 0x00, 0x2E, 0x86, + 0x6E, 0x65, 0x6C, 0x73, 0x91, 0x8C, 0xA5, 0x2E, 0x61, 0x72, 0x67, 0x73, 0xDC, 0x00, 0x42, 0x86, 0xAE, 0x2E, 0x61, 0x63, 0x74, 0x75, 0x61, 0x6C, 0x5F, 0x61, 0x63, 0x63, 0x65, 0x73, 0x73, 0xAA, 0x72, 0x65, 0x61, 0x64, 0x5F, 0x77, 0x72, 0x69, 0x74, 0x65, 0xAE, 0x2E, 0x61, 0x64, 0x64, 0x72, 0x65, 0x73, 0x73, 0x5F, 0x73, 0x70, 0x61, 0x63, 0x65, 0xA6, 0x67, 0x6C, 0x6F, 0x62, 0x61, 0x6C, @@ -244,37 +244,117 @@ unsigned char bwd_fp16_a16[] = { 0x65, 0x74, 0xCC, 0xFC, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, - 0xB9, 0x2E, 0x67, 0x72, 0x6F, 0x75, 0x70, 0x5F, 0x73, 0x65, 0x67, 0x6D, 0x65, 0x6E, 0x74, 0x5F, - 0x66, 0x69, 0x78, 0x65, 0x64, 0x5F, 0x73, 0x69, 0x7A, 0x65, 0xCE, 0x00, 0x01, 0x00, 0x00, 0xB6, + 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA5, 0x72, 0x61, 0x74, 0x69, 0x6F, 0xA7, 0x2E, 0x6F, + 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x00, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, + 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, + 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, + 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, 0xA7, + 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x04, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, + 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, + 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, + 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, + 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x08, 0xA5, 0x2E, 0x73, 0x69, + 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, + 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, + 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, + 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x0C, 0xA5, 0x2E, + 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, + 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, + 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, + 0x65, 0xA5, 0x48, 0x73, 0x5F, 0x6B, 0x76, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, + 0x01, 0x10, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, + 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, + 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, + 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, + 0x74, 0xCD, 0x01, 0x14, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, + 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, + 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, + 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, + 0x73, 0x65, 0x74, 0xCD, 0x01, 0x18, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, + 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, + 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, + 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, + 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x1C, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, + 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, + 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, + 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA6, 0x42, 0x41, 0x73, 0x5F, + 0x6B, 0x76, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x20, 0xA5, 0x2E, 0x73, + 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, + 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, + 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, + 0xA3, 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x24, 0xA5, + 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, + 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, + 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, + 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, + 0x28, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, + 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, + 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, + 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, + 0xCD, 0x01, 0x2C, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, + 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, + 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, + 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA7, 0x53, 0x65, 0x71, 0x73, 0x5F, 0x6B, 0x76, 0xA7, 0x2E, + 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x30, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, + 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, + 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, + 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, + 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x34, 0xA5, 0x2E, 0x73, 0x69, 0x7A, + 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, + 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, + 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, + 0x61, 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x38, 0xA5, 0x2E, 0x73, + 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, + 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, + 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, + 0xA3, 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x3C, 0xA5, + 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, + 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, + 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, + 0x6D, 0x65, 0xA8, 0x53, 0x65, 0x71, 0x73, 0x5F, 0x64, 0x6B, 0x76, 0xA7, 0x2E, 0x6F, 0x66, 0x66, + 0x73, 0x65, 0x74, 0xCD, 0x01, 0x40, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, + 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, + 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, + 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, + 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x44, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, + 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, + 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, + 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, 0xA7, + 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x48, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, + 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, + 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, + 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, + 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x4C, 0xA5, 0x2E, 0x73, 0x69, + 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, + 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, + 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0xB9, 0x2E, 0x67, 0x72, 0x6F, 0x75, 0x70, 0x5F, + 0x73, 0x65, 0x67, 0x6D, 0x65, 0x6E, 0x74, 0x5F, 0x66, 0x69, 0x78, 0x65, 0x64, 0x5F, 0x73, 0x69, + 0x7A, 0x65, 0xCE, 0x00, 0x01, 0x00, 0x00, 0xB6, 0x2E, 0x6B, 0x65, 0x72, 0x6E, 0x61, 0x72, 0x67, + 0x5F, 0x73, 0x65, 0x67, 0x6D, 0x65, 0x6E, 0x74, 0x5F, 0x61, 0x6C, 0x69, 0x67, 0x6E, 0x04, 0xB5, 0x2E, 0x6B, 0x65, 0x72, 0x6E, 0x61, 0x72, 0x67, 0x5F, 0x73, 0x65, 0x67, 0x6D, 0x65, 0x6E, 0x74, - 0x5F, 0x61, 0x6C, 0x69, 0x67, 0x6E, 0x04, 0xB5, 0x2E, 0x6B, 0x65, 0x72, 0x6E, 0x61, 0x72, 0x67, - 0x5F, 0x73, 0x65, 0x67, 0x6D, 0x65, 0x6E, 0x74, 0x5F, 0x73, 0x69, 0x7A, 0x65, 0xCD, 0x01, 0x00, - 0xB8, 0x2E, 0x6D, 0x61, 0x78, 0x5F, 0x66, 0x6C, 0x61, 0x74, 0x5F, 0x77, 0x6F, 0x72, 0x6B, 0x67, - 0x72, 0x6F, 0x75, 0x70, 0x5F, 0x73, 0x69, 0x7A, 0x65, 0xCD, 0x01, 0x00, 0xA5, 0x2E, 0x6E, 0x61, - 0x6D, 0x65, 0xAB, 0x6B, 0x65, 0x72, 0x6E, 0x65, 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, 0xBB, 0x2E, - 0x70, 0x72, 0x69, 0x76, 0x61, 0x74, 0x65, 0x5F, 0x73, 0x65, 0x67, 0x6D, 0x65, 0x6E, 0x74, 0x5F, - 0x66, 0x69, 0x78, 0x65, 0x64, 0x5F, 0x73, 0x69, 0x7A, 0x65, 0x00, 0xB4, 0x2E, 0x72, 0x65, 0x71, - 0x64, 0x5F, 0x77, 0x6F, 0x72, 0x6B, 0x67, 0x72, 0x6F, 0x75, 0x70, 0x5F, 0x73, 0x69, 0x7A, 0x65, - 0x93, 0xCD, 0x01, 0x00, 0x01, 0x01, 0xAB, 0x2E, 0x73, 0x67, 0x70, 0x72, 0x5F, 0x63, 0x6F, 0x75, - 0x6E, 0x74, 0x60, 0xA7, 0x2E, 0x73, 0x79, 0x6D, 0x62, 0x6F, 0x6C, 0xAE, 0x6B, 0x65, 0x72, 0x6E, - 0x65, 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, 0x2E, 0x6B, 0x64, 0xAB, 0x2E, 0x76, 0x67, 0x70, 0x72, - 0x5F, 0x63, 0x6F, 0x75, 0x6E, 0x74, 0xCD, 0x02, 0x00, 0xAF, 0x2E, 0x77, 0x61, 0x76, 0x65, 0x66, - 0x72, 0x6F, 0x6E, 0x74, 0x5F, 0x73, 0x69, 0x7A, 0x65, 0x40, 0xAE, 0x61, 0x6D, 0x64, 0x68, 0x73, - 0x61, 0x2E, 0x76, 0x65, 0x72, 0x73, 0x69, 0x6F, 0x6E, 0x92, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x12, 0x03, 0x07, 0x00, - 0x00, 0x22, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x0D, 0x00, 0x00, 0x00, 0x11, 0x00, 0x06, 0x00, 0x00, 0x11, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, - 0x01, 0x00, 0x00, 0x00, 0x1A, 0x00, 0x00, 0x00, 0x02, 0x40, 0x02, 0x04, 0x00, 0x00, 0x00, 0x00, - 0x01, 0x00, 0x00, 0x00, 0x10, 0xBA, 0xA0, 0x06, 0x4F, 0x9E, 0xA8, 0x68, 0x03, 0x00, 0x00, 0x00, - 0x03, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x6B, 0x65, 0x72, - 0x6E, 0x65, 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, 0x00, 0x6B, 0x65, 0x72, 0x6E, 0x65, 0x6C, 0x5F, - 0x66, 0x75, 0x6E, 0x63, 0x2E, 0x6B, 0x64, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x5F, 0x73, 0x69, 0x7A, 0x65, 0xCD, 0x01, 0x50, 0xB8, 0x2E, 0x6D, 0x61, 0x78, 0x5F, 0x66, 0x6C, + 0x61, 0x74, 0x5F, 0x77, 0x6F, 0x72, 0x6B, 0x67, 0x72, 0x6F, 0x75, 0x70, 0x5F, 0x73, 0x69, 0x7A, + 0x65, 0xCD, 0x01, 0x00, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xAB, 0x6B, 0x65, 0x72, 0x6E, 0x65, + 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, 0xBB, 0x2E, 0x70, 0x72, 0x69, 0x76, 0x61, 0x74, 0x65, 0x5F, + 0x73, 0x65, 0x67, 0x6D, 0x65, 0x6E, 0x74, 0x5F, 0x66, 0x69, 0x78, 0x65, 0x64, 0x5F, 0x73, 0x69, + 0x7A, 0x65, 0x00, 0xB4, 0x2E, 0x72, 0x65, 0x71, 0x64, 0x5F, 0x77, 0x6F, 0x72, 0x6B, 0x67, 0x72, + 0x6F, 0x75, 0x70, 0x5F, 0x73, 0x69, 0x7A, 0x65, 0x93, 0xCD, 0x01, 0x00, 0x01, 0x01, 0xAB, 0x2E, + 0x73, 0x67, 0x70, 0x72, 0x5F, 0x63, 0x6F, 0x75, 0x6E, 0x74, 0x60, 0xA7, 0x2E, 0x73, 0x79, 0x6D, + 0x62, 0x6F, 0x6C, 0xAE, 0x6B, 0x65, 0x72, 0x6E, 0x65, 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, 0x2E, + 0x6B, 0x64, 0xAB, 0x2E, 0x76, 0x67, 0x70, 0x72, 0x5F, 0x63, 0x6F, 0x75, 0x6E, 0x74, 0xCD, 0x02, + 0x00, 0xAF, 0x2E, 0x77, 0x61, 0x76, 0x65, 0x66, 0x72, 0x6F, 0x6E, 0x74, 0x5F, 0x73, 0x69, 0x7A, + 0x65, 0x40, 0xAE, 0x61, 0x6D, 0x64, 0x68, 0x73, 0x61, 0x2E, 0x76, 0x65, 0x72, 0x73, 0x69, 0x6F, + 0x6E, 0x92, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x01, 0x00, 0x00, 0x00, 0x12, 0x03, 0x07, 0x00, 0x00, 0x27, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x0D, 0x00, 0x00, 0x00, 0x11, 0x00, 0x06, 0x00, + 0x00, 0x16, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x01, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x1A, 0x00, 0x00, 0x00, + 0x02, 0x40, 0x02, 0x04, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x10, 0xBA, 0xA0, 0x06, + 0x4F, 0x9E, 0xA8, 0x68, 0x03, 0x00, 0x00, 0x00, 0x03, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x01, 0x00, 0x00, 0x00, 0x00, 0x6B, 0x65, 0x72, 0x6E, 0x65, 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, + 0x00, 0x6B, 0x65, 0x72, 0x6E, 0x65, 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, 0x2E, 0x6B, 0x64, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x11, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x3F, 0x00, 0x00, 0x00, @@ -299,52 +379,65 @@ unsigned char bwd_fp16_a16[] = { 0x00, 0x0C, 0x02, 0xC0, 0x90, 0x00, 0x00, 0x00, 0x40, 0x0C, 0x02, 0xC0, 0xA0, 0x00, 0x00, 0x00, 0x80, 0x0C, 0x02, 0xC0, 0xB0, 0x00, 0x00, 0x00, 0xC0, 0x0C, 0x02, 0xC0, 0xC0, 0x00, 0x00, 0x00, 0x00, 0x0D, 0x02, 0xC0, 0xD0, 0x00, 0x00, 0x00, 0x40, 0x0D, 0x02, 0xC0, 0xE0, 0x00, 0x00, 0x00, - 0x80, 0x11, 0x02, 0xC0, 0xF0, 0x00, 0x00, 0x00, 0x8A, 0x00, 0x02, 0x20, 0x8A, 0x02, 0x04, 0x20, - 0xFF, 0x04, 0x04, 0x26, 0xFF, 0x03, 0x00, 0x00, 0xFF, 0x02, 0x02, 0x26, 0xFF, 0x03, 0x00, 0x00, - 0xFF, 0x00, 0x00, 0x26, 0xFF, 0x03, 0x00, 0x00, 0x86, 0x00, 0x06, 0x20, 0xBF, 0x00, 0x00, 0x26, - 0x02, 0x00, 0xAC, 0xBE, 0x03, 0x00, 0xAD, 0xBE, 0x04, 0x00, 0xAE, 0xBE, 0x03, 0x05, 0x5E, 0x7E, - 0x7F, 0xC0, 0x8C, 0xBF, 0xFF, 0x00, 0x8A, 0xBE, 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x8E, 0xBE, - 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x92, 0xBE, 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x96, 0xBE, - 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x9A, 0xBE, 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x9E, 0xBE, - 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0xA2, 0xBE, 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0xA6, 0xBE, - 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0xAA, 0xBE, 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x8B, 0xBE, - 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x8F, 0xBE, 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x93, 0xBE, - 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x97, 0xBE, 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x9B, 0xBE, - 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x9F, 0xBE, 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0xA3, 0xBE, - 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0xA7, 0xBE, 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0xAB, 0xBE, - 0x00, 0x00, 0x02, 0x00, 0x09, 0xFF, 0x09, 0x86, 0xFF, 0xFF, 0x00, 0x00, 0x0D, 0xFF, 0x0D, 0x86, - 0xFF, 0xFF, 0x00, 0x00, 0x11, 0xFF, 0x11, 0x86, 0xFF, 0xFF, 0x00, 0x00, 0x15, 0xFF, 0x15, 0x86, - 0xFF, 0xFF, 0x00, 0x00, 0x19, 0xFF, 0x19, 0x86, 0xFF, 0xFF, 0x00, 0x00, 0x1D, 0xFF, 0x1D, 0x86, - 0xFF, 0xFF, 0x00, 0x00, 0x21, 0xFF, 0x21, 0x86, 0xFF, 0xFF, 0x00, 0x00, 0x25, 0xFF, 0x25, 0x86, - 0xFF, 0xFF, 0x00, 0x00, 0x29, 0xFF, 0x29, 0x86, 0xFF, 0xFF, 0x00, 0x00, 0x09, 0xFF, 0x09, 0x87, - 0x00, 0x00, 0x04, 0x00, 0x0D, 0xFF, 0x0D, 0x87, 0x00, 0x00, 0x04, 0x00, 0x11, 0xFF, 0x11, 0x87, - 0x00, 0x00, 0x04, 0x00, 0x15, 0xFF, 0x15, 0x87, 0x00, 0x00, 0x04, 0x00, 0x19, 0xFF, 0x19, 0x87, - 0x00, 0x00, 0x04, 0x00, 0x1D, 0xFF, 0x1D, 0x87, 0x00, 0x00, 0x04, 0x00, 0x21, 0xFF, 0x21, 0x87, - 0x00, 0x00, 0x04, 0x00, 0x25, 0xFF, 0x25, 0x87, 0x00, 0x00, 0x04, 0x00, 0x29, 0xFF, 0x29, 0x87, - 0x00, 0x00, 0x04, 0x00, 0xFF, 0x40, 0xD9, 0xD3, 0x80, 0x00, 0x00, 0x18, 0x80, 0x02, 0xE6, 0x7F, - 0x08, 0x00, 0xCA, 0xBE, 0x0C, 0x00, 0xCC, 0xBE, 0x10, 0x00, 0xCE, 0xBE, 0x14, 0x00, 0xD0, 0xBE, - 0x09, 0x00, 0xCB, 0xBE, 0x0D, 0x00, 0xCD, 0xBE, 0x11, 0x00, 0xCF, 0xBE, 0x15, 0x00, 0xD1, 0xBE, - 0x30, 0x02, 0x38, 0x7E, 0x31, 0x38, 0x38, 0x0A, 0x80, 0x00, 0xC2, 0xBE, 0x32, 0x00, 0xBA, 0xBE, - 0x80, 0x00, 0xBB, 0xBE, 0xFF, 0x00, 0xBF, 0xBE, 0x00, 0x01, 0x04, 0x05, 0xFF, 0x00, 0xC0, 0xBE, - 0x02, 0x03, 0x06, 0x07, 0x1C, 0x05, 0x72, 0x7E, 0xFF, 0x02, 0x3C, 0x7E, 0x06, 0x07, 0x02, 0x03, - 0x3F, 0x02, 0x38, 0x7E, 0x81, 0x00, 0x3A, 0x26, 0x81, 0x3A, 0x94, 0x7D, 0x1C, 0x3D, 0x26, 0x00, - 0x2F, 0x82, 0x0A, 0xBF, 0x18, 0x1C, 0x18, 0x85, 0x19, 0x1D, 0x19, 0x85, 0x1A, 0x1E, 0x1A, 0x85, - 0x1B, 0x1F, 0x1B, 0x85, 0x2F, 0x81, 0x3C, 0x8F, 0x3C, 0x88, 0x3C, 0x8E, 0xFF, 0x3C, 0x48, 0x80, - 0x00, 0xC7, 0x00, 0x00, 0xFF, 0x48, 0x49, 0x80, 0x00, 0x02, 0x00, 0x00, 0x48, 0x00, 0xFC, 0xBE, - 0xA0, 0x46, 0x43, 0x92, 0xA0, 0x46, 0x44, 0x92, 0xA0, 0x00, 0xC5, 0xBE, 0x2C, 0x33, 0x3C, 0x92, - 0x2D, 0x34, 0x3D, 0x92, 0x2E, 0x35, 0x3E, 0x92, 0x3C, 0x3D, 0x36, 0x80, 0x36, 0x3E, 0x36, 0x80, - 0x3D, 0x3E, 0x37, 0x80, 0x37, 0x00, 0xB8, 0xBE, 0x2E, 0x35, 0x3E, 0x92, 0x3E, 0x86, 0x3E, 0x8F, - 0x2D, 0x32, 0x3D, 0x92, 0x84, 0x3D, 0x3D, 0x92, 0x3D, 0x3E, 0x41, 0x80, 0x83, 0x00, 0x38, 0x20, + 0x80, 0x11, 0x02, 0xC0, 0xF0, 0x00, 0x00, 0x00, 0x00, 0x0B, 0x02, 0xC0, 0x00, 0x01, 0x00, 0x00, + 0x40, 0x01, 0x02, 0xC0, 0x10, 0x01, 0x00, 0x00, 0x80, 0x01, 0x02, 0xC0, 0x20, 0x01, 0x00, 0x00, + 0xC0, 0x01, 0x02, 0xC0, 0x30, 0x01, 0x00, 0x00, 0x80, 0x0B, 0x02, 0xC0, 0x40, 0x01, 0x00, 0x00, + 0x8A, 0x00, 0x02, 0x20, 0x8A, 0x02, 0x04, 0x20, 0xFF, 0x04, 0x04, 0x26, 0xFF, 0x03, 0x00, 0x00, + 0xFF, 0x02, 0x02, 0x26, 0xFF, 0x03, 0x00, 0x00, 0xFF, 0x00, 0x00, 0x26, 0xFF, 0x03, 0x00, 0x00, + 0x86, 0x00, 0x06, 0x20, 0xBF, 0x00, 0x00, 0x26, 0x02, 0x00, 0x82, 0xBE, 0x03, 0x00, 0x83, 0xBE, + 0x04, 0x00, 0x84, 0xBE, 0x03, 0x05, 0x5E, 0x7E, 0x7F, 0xC0, 0x8C, 0xBF, 0xFF, 0x00, 0x8A, 0xBE, + 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x8E, 0xBE, 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x92, 0xBE, + 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x96, 0xBE, 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x9A, 0xBE, + 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x9E, 0xBE, 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0xA2, 0xBE, + 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0xA6, 0xBE, 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0xAA, 0xBE, + 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x8B, 0xBE, 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x8F, 0xBE, + 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x93, 0xBE, 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x97, 0xBE, + 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x9B, 0xBE, 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x9F, 0xBE, + 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0xA3, 0xBE, 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0xA7, 0xBE, + 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0xAB, 0xBE, 0x00, 0x00, 0x02, 0x00, 0x09, 0xFF, 0x09, 0x86, + 0xFF, 0xFF, 0x00, 0x00, 0x0D, 0xFF, 0x0D, 0x86, 0xFF, 0xFF, 0x00, 0x00, 0x11, 0xFF, 0x11, 0x86, + 0xFF, 0xFF, 0x00, 0x00, 0x15, 0xFF, 0x15, 0x86, 0xFF, 0xFF, 0x00, 0x00, 0x19, 0xFF, 0x19, 0x86, + 0xFF, 0xFF, 0x00, 0x00, 0x1D, 0xFF, 0x1D, 0x86, 0xFF, 0xFF, 0x00, 0x00, 0x21, 0xFF, 0x21, 0x86, + 0xFF, 0xFF, 0x00, 0x00, 0x25, 0xFF, 0x25, 0x86, 0xFF, 0xFF, 0x00, 0x00, 0x29, 0xFF, 0x29, 0x86, + 0xFF, 0xFF, 0x00, 0x00, 0x09, 0xFF, 0x09, 0x87, 0x00, 0x00, 0x04, 0x00, 0x0D, 0xFF, 0x0D, 0x87, + 0x00, 0x00, 0x04, 0x00, 0x11, 0xFF, 0x11, 0x87, 0x00, 0x00, 0x04, 0x00, 0x15, 0xFF, 0x15, 0x87, + 0x00, 0x00, 0x04, 0x00, 0x19, 0xFF, 0x19, 0x87, 0x00, 0x00, 0x04, 0x00, 0x1D, 0xFF, 0x1D, 0x87, + 0x00, 0x00, 0x04, 0x00, 0x21, 0xFF, 0x21, 0x87, 0x00, 0x00, 0x04, 0x00, 0x25, 0xFF, 0x25, 0x87, + 0x00, 0x00, 0x04, 0x00, 0x29, 0xFF, 0x29, 0x87, 0x00, 0x00, 0x04, 0x00, 0xFF, 0x40, 0xD9, 0xD3, + 0x80, 0x00, 0x00, 0x18, 0x80, 0x02, 0xE6, 0x7F, 0x08, 0x00, 0xCA, 0xBE, 0x0C, 0x00, 0xCC, 0xBE, + 0x10, 0x00, 0xCE, 0xBE, 0x14, 0x00, 0xD0, 0xBE, 0x09, 0x00, 0xCB, 0xBE, 0x0D, 0x00, 0xCD, 0xBE, + 0x11, 0x00, 0xCF, 0xBE, 0x15, 0x00, 0xD1, 0xBE, 0x03, 0x00, 0xC7, 0xBE, 0x2C, 0x0C, 0x38, 0x7E, + 0x80, 0x2C, 0xBC, 0x81, 0x1C, 0x47, 0x38, 0x7E, 0x00, 0x00, 0x80, 0xBF, 0xFF, 0x38, 0x38, 0x0A, + 0xFE, 0xFF, 0x7F, 0x4F, 0x1C, 0x0F, 0x38, 0x7E, 0x1D, 0x00, 0x85, 0xD2, 0x3C, 0x38, 0x02, 0x00, + 0x1D, 0x00, 0x86, 0xD2, 0x1C, 0x3B, 0x02, 0x00, 0x1C, 0x3B, 0x38, 0x68, 0x1C, 0x00, 0x86, 0xD2, + 0x47, 0x38, 0x02, 0x00, 0x1D, 0x00, 0x85, 0xD2, 0x1C, 0x59, 0x00, 0x00, 0x47, 0x3A, 0x3E, 0x6A, + 0x81, 0x38, 0x3C, 0x68, 0x2C, 0x3E, 0x96, 0x7D, 0x2C, 0x3E, 0x3A, 0x6C, 0x00, 0x00, 0x80, 0xBF, + 0x1C, 0x3D, 0x38, 0x00, 0x1F, 0x3B, 0x3E, 0x00, 0x81, 0x38, 0x3A, 0x68, 0x2C, 0x3E, 0x96, 0x7D, + 0x01, 0x00, 0x80, 0xBF, 0x1C, 0x3B, 0x3E, 0x00, 0x03, 0x00, 0x80, 0xBF, 0x1F, 0x05, 0x5A, 0x7E, + 0x03, 0x00, 0x80, 0xBF, 0x30, 0x02, 0x38, 0x7E, 0x31, 0x38, 0x38, 0x0A, 0x80, 0x00, 0xC2, 0xBE, + 0x32, 0x00, 0xBA, 0xBE, 0x80, 0x00, 0xBB, 0xBE, 0xFF, 0x00, 0xBF, 0xBE, 0x00, 0x01, 0x04, 0x05, + 0xFF, 0x00, 0xC0, 0xBE, 0x02, 0x03, 0x06, 0x07, 0x1C, 0x05, 0x72, 0x7E, 0xFF, 0x02, 0x3C, 0x7E, + 0x06, 0x07, 0x02, 0x03, 0x3F, 0x02, 0x38, 0x7E, 0x81, 0x00, 0x3A, 0x26, 0x81, 0x3A, 0x94, 0x7D, + 0x1C, 0x3D, 0x26, 0x00, 0x2F, 0x82, 0x0A, 0xBF, 0x18, 0x1C, 0x18, 0x85, 0x19, 0x1D, 0x19, 0x85, + 0x1A, 0x1E, 0x1A, 0x85, 0x1B, 0x1F, 0x1B, 0x85, 0x2F, 0x81, 0x3C, 0x8F, 0x3C, 0x88, 0x3C, 0x8E, + 0xFF, 0x3C, 0x48, 0x80, 0x00, 0xC7, 0x00, 0x00, 0xFF, 0x48, 0x49, 0x80, 0x00, 0x02, 0x00, 0x00, + 0x48, 0x00, 0xFC, 0xBE, 0xA0, 0x46, 0x43, 0x92, 0xA0, 0x46, 0x44, 0x92, 0xA0, 0x00, 0xC5, 0xBE, + 0x02, 0x33, 0x3C, 0x92, 0x2D, 0x05, 0x3D, 0x92, 0x04, 0x06, 0x3E, 0x92, 0x3C, 0x3D, 0x36, 0x80, + 0x36, 0x3E, 0x36, 0x80, 0x03, 0x34, 0x3D, 0x92, 0x04, 0x35, 0x3E, 0x92, 0x3D, 0x3E, 0x37, 0x80, + 0x37, 0x00, 0xB8, 0xBE, 0x04, 0x35, 0x3E, 0x92, 0x3E, 0x86, 0x3E, 0x8F, 0x03, 0x32, 0x3D, 0x92, + 0x84, 0x3D, 0x3D, 0x92, 0x3D, 0x3E, 0x41, 0x80, 0x07, 0x00, 0xC7, 0xBE, 0x83, 0x00, 0x38, 0x20, 0x81, 0x38, 0x3A, 0x26, 0x81, 0x3A, 0x3A, 0x24, 0x84, 0x38, 0x3C, 0x26, 0x1E, 0x3B, 0x3A, 0x68, - 0x82, 0x38, 0x3C, 0x26, 0x82, 0x3C, 0x3C, 0x24, 0x1E, 0x3B, 0x3A, 0x68, 0x46, 0x3A, 0x3A, 0x0C, + 0x82, 0x38, 0x3C, 0x26, 0x82, 0x3C, 0x3C, 0x24, 0x1E, 0x3B, 0x3A, 0x68, 0x47, 0x3A, 0x3A, 0x0C, 0x87, 0x00, 0x38, 0x26, 0x84, 0x38, 0x38, 0x24, 0x1C, 0x3B, 0x02, 0x68, 0x81, 0x2F, 0x3C, 0x86, - 0x3C, 0x46, 0x3C, 0x92, 0x3C, 0x90, 0x3C, 0x92, 0x2F, 0x81, 0x3D, 0x8F, 0x3D, 0xFF, 0x3D, 0x92, - 0x80, 0x00, 0x00, 0x00, 0x3C, 0x3D, 0x3C, 0x80, 0x3C, 0x02, 0x02, 0x68, 0x46, 0x02, 0x04, 0x68, + 0x3C, 0x47, 0x3C, 0x92, 0x3C, 0x90, 0x3C, 0x92, 0x2F, 0x81, 0x3D, 0x8F, 0x3D, 0xFF, 0x3D, 0x92, + 0x80, 0x00, 0x00, 0x00, 0x3C, 0x3D, 0x3C, 0x80, 0x3C, 0x02, 0x02, 0x68, 0x47, 0x02, 0x04, 0x68, 0x82, 0x02, 0x02, 0x20, 0x82, 0x04, 0x04, 0x20, 0x36, 0x4C, 0x0C, 0x80, 0x80, 0x4D, 0x0D, 0x82, 0x36, 0x4E, 0x10, 0x80, 0x80, 0x4F, 0x11, 0x82, 0x37, 0x4A, 0x08, 0x80, 0x80, 0x4B, 0x09, 0x82, 0x38, 0x50, 0x14, 0x80, 0x80, 0x51, 0x15, 0x82, 0x9F, 0x00, 0x1A, 0x26, 0x82, 0x1A, 0x1A, 0x24, - 0x41, 0x1A, 0x1A, 0x68, 0x82, 0x1A, 0x1A, 0x20, 0xA0, 0x46, 0x3C, 0x92, 0x2F, 0x3C, 0x3C, 0x92, - 0x82, 0x00, 0x06, 0x24, 0x3C, 0x06, 0x06, 0x68, 0x36, 0x06, 0x06, 0x68, 0x82, 0x06, 0x06, 0x20, + 0x41, 0x1A, 0x1A, 0x68, 0x82, 0x1A, 0x1A, 0x20, 0xA0, 0x2E, 0x3C, 0x92, 0x2F, 0x3C, 0x3C, 0x92, + 0x82, 0x00, 0x06, 0x24, 0x3C, 0x06, 0x06, 0x68, 0xFF, 0x2E, 0x3C, 0x92, 0x80, 0x00, 0x00, 0x00, + 0x02, 0x3C, 0x3C, 0x92, 0x03, 0x05, 0x3D, 0x92, 0x04, 0x06, 0x3E, 0x92, 0x3E, 0x2C, 0x3E, 0x92, + 0x3C, 0x3D, 0x3C, 0x80, 0x3C, 0x3E, 0x3C, 0x80, 0x3C, 0x06, 0x06, 0x68, 0x82, 0x06, 0x06, 0x20, 0x03, 0x03, 0x08, 0x7E, 0x88, 0x46, 0x3C, 0x92, 0x2F, 0x3C, 0x3C, 0x92, 0x82, 0x00, 0x0A, 0x24, 0x3C, 0x0A, 0x0A, 0x68, 0x37, 0x0A, 0x0A, 0x68, 0x82, 0x0A, 0x0A, 0x20, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x0A, 0x0C, 0x68, 0x3C, 0x0C, 0x0E, 0x68, 0x3C, 0x0E, 0x10, 0x68, 0x3C, 0x10, 0x12, 0x68, @@ -387,12 +480,12 @@ unsigned char bwd_fp16_a16[] = { 0x84, 0x38, 0x3A, 0x26, 0x82, 0x3A, 0x3A, 0x20, 0xFF, 0x3A, 0x3A, 0x0C, 0x10, 0x01, 0x00, 0x00, 0x1D, 0x2D, 0x2C, 0x68, 0x2F, 0xFF, 0x3C, 0x92, 0x20, 0x02, 0x00, 0x00, 0x3C, 0x2C, 0x2C, 0x68, 0x82, 0x2C, 0x2C, 0x24, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x40, 0x03, 0x80, 0x00, 0x20, 0x5C, 0xE0, - 0x02, 0x44, 0x03, 0x80, 0xA0, 0x46, 0x3C, 0x92, 0x3C, 0x0C, 0x0C, 0x80, 0x80, 0x0D, 0x0D, 0x82, + 0x02, 0x44, 0x03, 0x80, 0xA0, 0x07, 0x3C, 0x92, 0x3C, 0x0C, 0x0C, 0x80, 0x80, 0x0D, 0x0D, 0x82, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x48, 0x03, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x4C, 0x03, 0x80, - 0xA0, 0x46, 0x3C, 0x92, 0x3C, 0x0C, 0x0C, 0x80, 0x80, 0x0D, 0x0D, 0x82, 0x00, 0x20, 0x5C, 0xE0, - 0x01, 0x50, 0x03, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x54, 0x03, 0x80, 0xA0, 0x46, 0x3C, 0x92, + 0xA0, 0x07, 0x3C, 0x92, 0x3C, 0x0C, 0x0C, 0x80, 0x80, 0x0D, 0x0D, 0x82, 0x00, 0x20, 0x5C, 0xE0, + 0x01, 0x50, 0x03, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x54, 0x03, 0x80, 0xA0, 0x07, 0x3C, 0x92, 0x3C, 0x0C, 0x0C, 0x80, 0x80, 0x0D, 0x0D, 0x82, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x58, 0x03, 0x80, - 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x5C, 0x03, 0x80, 0xA0, 0x46, 0x3C, 0x92, 0x3C, 0x0C, 0x0C, 0x80, + 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x5C, 0x03, 0x80, 0xA0, 0x07, 0x3C, 0x92, 0x3C, 0x0C, 0x0C, 0x80, 0x80, 0x0D, 0x0D, 0x82, 0x74, 0x0F, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x60, 0x00, 0xED, 0xD1, 0x44, 0x81, 0xFE, 0x00, 0x61, 0x00, 0xED, 0xD1, 0x44, 0x81, 0x02, 0x01, 0x62, 0x00, 0xED, 0xD1, 0x45, 0x83, 0xFE, 0x00, 0x63, 0x00, 0xED, 0xD1, 0x45, 0x83, 0x02, 0x01, 0x64, 0x00, 0xED, 0xD1, @@ -414,9 +507,9 @@ unsigned char bwd_fp16_a16[] = { 0x0F, 0x44, 0x00, 0x00, 0x10, 0x02, 0x9A, 0xD8, 0x0F, 0x46, 0x00, 0x00, 0x00, 0x21, 0x9A, 0xD8, 0x0F, 0x48, 0x00, 0x00, 0x00, 0x23, 0x9A, 0xD8, 0x0F, 0x4A, 0x00, 0x00, 0x10, 0x21, 0x9A, 0xD8, 0x0F, 0x4C, 0x00, 0x00, 0x10, 0x23, 0x9A, 0xD8, 0x0F, 0x4E, 0x00, 0x00, 0x00, 0x20, 0x5C, 0xE0, - 0x01, 0x40, 0x04, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x44, 0x04, 0x80, 0xA0, 0x46, 0x3C, 0x92, + 0x01, 0x40, 0x04, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x44, 0x04, 0x80, 0xA0, 0x07, 0x3C, 0x92, 0x3C, 0x10, 0x10, 0x80, 0x80, 0x11, 0x11, 0x82, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x48, 0x04, 0x80, - 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x4C, 0x04, 0x80, 0xA0, 0x46, 0x3C, 0x92, 0x3C, 0x10, 0x10, 0x80, + 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x4C, 0x04, 0x80, 0xA0, 0x07, 0x3C, 0x92, 0x3C, 0x10, 0x10, 0x80, 0x80, 0x11, 0x11, 0x82, 0x7F, 0xC0, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x00, 0x84, 0xFE, 0xDB, 0x1B, 0x00, 0x00, 0x20, 0x00, 0x85, 0xFE, 0xDB, 0x1B, 0x00, 0x00, 0x24, 0x00, 0xA5, 0xFE, 0xDB, 0x1B, 0x00, 0x00, 0x28, 0x00, 0xA6, 0xFE, 0xDB, 0x1B, 0x00, 0x00, 0x2C, 0x74, 0x00, 0x8C, 0xBF, @@ -441,9 +534,9 @@ unsigned char bwd_fp16_a16[] = { 0x0F, 0x56, 0x00, 0x00, 0x00, 0x63, 0x9A, 0xD8, 0x0F, 0x58, 0x00, 0x00, 0x00, 0x65, 0x9A, 0xD8, 0x0F, 0x5A, 0x00, 0x00, 0x10, 0x63, 0x9A, 0xD8, 0x0F, 0x5C, 0x00, 0x00, 0x10, 0x65, 0x9A, 0xD8, 0x0F, 0x5E, 0x00, 0x00, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x50, 0x04, 0x80, 0x00, 0x20, 0x5C, 0xE0, - 0x02, 0x54, 0x04, 0x80, 0xA0, 0x46, 0x3C, 0x92, 0x3C, 0x10, 0x10, 0x80, 0x80, 0x11, 0x11, 0x82, + 0x02, 0x54, 0x04, 0x80, 0xA0, 0x07, 0x3C, 0x92, 0x3C, 0x10, 0x10, 0x80, 0x80, 0x11, 0x11, 0x82, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x58, 0x04, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x5C, 0x04, 0x80, - 0xA0, 0x46, 0x3C, 0x92, 0x3C, 0x10, 0x10, 0x80, 0x80, 0x11, 0x11, 0x82, 0x7F, 0xC0, 0x8C, 0xBF, + 0xA0, 0x07, 0x3C, 0x92, 0x3C, 0x10, 0x10, 0x80, 0x80, 0x11, 0x11, 0x82, 0x7F, 0xC0, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x00, 0x84, 0xFE, 0xDB, 0x1B, 0x00, 0x00, 0x30, 0x00, 0x85, 0xFE, 0xDB, 0x1B, 0x00, 0x00, 0x34, 0x00, 0xA5, 0xFE, 0xDB, 0x1B, 0x00, 0x00, 0x38, 0x00, 0xA6, 0xFE, 0xDB, 0x1B, 0x00, 0x00, 0x3C, 0x00, 0x00, 0xFE, 0xDB, 0x1A, 0x00, 0x00, 0x00, 0x10, 0x04, 0xFE, 0xDB, @@ -454,7 +547,13 @@ unsigned char bwd_fp16_a16[] = { 0x0F, 0x40, 0x00, 0x00, 0x00, 0x02, 0x9A, 0xD8, 0x0F, 0x42, 0x00, 0x00, 0x10, 0x00, 0x9A, 0xD8, 0x0F, 0x44, 0x00, 0x00, 0x10, 0x02, 0x9A, 0xD8, 0x0F, 0x46, 0x00, 0x00, 0x00, 0x21, 0x9A, 0xD8, 0x0F, 0x48, 0x00, 0x00, 0x00, 0x23, 0x9A, 0xD8, 0x0F, 0x4A, 0x00, 0x00, 0x10, 0x21, 0x9A, 0xD8, - 0x0F, 0x4C, 0x00, 0x00, 0x10, 0x23, 0x9A, 0xD8, 0x0F, 0x4E, 0x00, 0x00, 0x00, 0x20, 0x5C, 0xE0, + 0x0F, 0x4C, 0x00, 0x00, 0x10, 0x23, 0x9A, 0xD8, 0x0F, 0x4E, 0x00, 0x00, 0x46, 0x00, 0xC7, 0xBE, + 0x83, 0x00, 0x38, 0x20, 0x81, 0x38, 0x3A, 0x26, 0x81, 0x3A, 0x3A, 0x24, 0x84, 0x38, 0x3C, 0x26, + 0x1E, 0x3B, 0x3A, 0x68, 0x82, 0x38, 0x3C, 0x26, 0x82, 0x3C, 0x3C, 0x24, 0x1E, 0x3B, 0x3A, 0x68, + 0x47, 0x3A, 0x3A, 0x0C, 0x87, 0x00, 0x38, 0x26, 0x84, 0x38, 0x38, 0x24, 0x1C, 0x3B, 0x02, 0x68, + 0x81, 0x2F, 0x3C, 0x86, 0x3C, 0x47, 0x3C, 0x92, 0x3C, 0x90, 0x3C, 0x92, 0x2F, 0x81, 0x3D, 0x8F, + 0x3D, 0xFF, 0x3D, 0x92, 0x80, 0x00, 0x00, 0x00, 0x3C, 0x3D, 0x3C, 0x80, 0x3C, 0x02, 0x02, 0x68, + 0x47, 0x02, 0x04, 0x68, 0x82, 0x02, 0x02, 0x20, 0x82, 0x04, 0x04, 0x20, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x20, 0x02, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x24, 0x02, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x30, 0x05, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x34, 0x05, 0x80, 0x7F, 0xC0, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x44, 0x08, 0x08, 0x80, 0x80, 0x09, 0x09, 0x82, 0x44, 0x14, 0x14, 0x80, @@ -1371,38 +1470,38 @@ unsigned char bwd_fp16_a16[] = { 0x20, 0x08, 0xFE, 0xD9, 0x1A, 0x00, 0x00, 0x48, 0x30, 0x0C, 0xFE, 0xD9, 0x1A, 0x00, 0x00, 0x4C, 0x40, 0x10, 0xFE, 0xD9, 0x1A, 0x00, 0x00, 0x50, 0x50, 0x14, 0xFE, 0xD9, 0x1A, 0x00, 0x00, 0x54, 0x60, 0x18, 0xFE, 0xD9, 0x1A, 0x00, 0x00, 0x58, 0x70, 0x1C, 0xFE, 0xD9, 0x1A, 0x00, 0x00, 0x5C, - 0x7F, 0xC0, 0x8C, 0xBF, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x40, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x41, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x42, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x43, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x44, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x45, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x46, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x47, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x48, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x49, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x4A, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x4B, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x4C, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x4D, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x4E, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x4F, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x50, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x51, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x52, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x53, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x54, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x55, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x56, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x57, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x58, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x59, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x5A, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x5B, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x5C, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x5D, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x5E, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x5F, 0x09, 0x80, 0x46, 0x82, 0x3C, 0x8F, + 0x7F, 0xC0, 0x8C, 0xBF, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x40, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x41, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x42, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x43, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x44, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x45, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x46, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x47, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x48, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x49, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x4A, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x4B, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x4C, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x4D, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x4E, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x4F, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x50, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x51, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x52, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x53, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x54, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x55, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x56, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x57, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x58, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x59, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x5A, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x5B, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x5C, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x5D, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x5E, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x03, 0x5F, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x00, 0x8A, 0xBF, 0x80, 0x40, 0xD8, 0xD3, 0xC0, 0x01, 0x00, 0x18, 0x81, 0x40, 0xD8, 0xD3, 0xC1, 0x01, 0x00, 0x18, 0x80, 0x00, 0x96, 0xD2, 0x80, 0x03, 0x03, 0x00, 0x82, 0x40, 0xD8, 0xD3, 0xC2, 0x01, 0x00, 0x18, 0x83, 0x40, 0xD8, 0xD3, 0xC3, 0x01, 0x00, 0x18, @@ -1472,59 +1571,59 @@ unsigned char bwd_fp16_a16[] = { 0x20, 0x08, 0xFE, 0xD9, 0x1A, 0x00, 0x00, 0x88, 0x30, 0x0C, 0xFE, 0xD9, 0x1A, 0x00, 0x00, 0x8C, 0x40, 0x10, 0xFE, 0xD9, 0x1A, 0x00, 0x00, 0x90, 0x50, 0x14, 0xFE, 0xD9, 0x1A, 0x00, 0x00, 0x94, 0x60, 0x18, 0xFE, 0xD9, 0x1A, 0x00, 0x00, 0x98, 0x70, 0x1C, 0xFE, 0xD9, 0x1A, 0x00, 0x00, 0x9C, - 0x7F, 0xC0, 0x8C, 0xBF, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x80, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x81, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x82, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x83, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x84, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x85, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x86, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x87, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x88, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x89, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x8A, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x8B, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x8C, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x8D, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x8E, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x8F, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x90, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x91, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x92, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x93, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x94, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x95, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x96, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x97, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x98, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x99, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x9A, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x9B, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x9C, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x9D, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x9E, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, - 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x9F, 0x0A, 0x80, 0x46, 0x82, 0x3C, 0x8F, + 0x7F, 0xC0, 0x8C, 0xBF, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x80, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x81, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x82, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x83, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x84, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x85, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x86, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x87, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x88, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x89, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x8A, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x8B, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x8C, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x8D, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x8E, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x8F, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x90, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x91, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x92, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x93, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x94, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x95, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x96, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x97, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x98, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x99, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x9A, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x9B, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x9C, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x9D, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x9E, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, + 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, 0x04, 0x9F, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x00, 0x8C, 0xBF, 0x00, 0x00, 0x81, 0xBF, 0x00, 0x00, 0x00, 0x00, - 0x06, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x20, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x06, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x58, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x0B, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x18, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x05, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xAC, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x05, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xE4, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x0A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x1C, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0xF5, 0xFE, 0xFF, 0x6F, 0x00, 0x00, 0x00, 0x00, 0x68, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x04, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x8C, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xF5, 0xFE, 0xFF, 0x6F, 0x00, 0x00, 0x00, 0x00, 0xA0, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x04, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xC4, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x4C, 0x69, 0x6E, 0x6B, 0x65, 0x72, 0x3A, 0x20, 0x41, 0x4D, 0x44, 0x20, 0x4C, 0x4C, 0x44, 0x20, 0x31, 0x37, 0x2E, 0x30, 0x2E, 0x30, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0xFC, 0x49, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0x2C, 0x50, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x0C, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, - 0x2C, 0x35, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x17, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0xE0, 0x49, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x5C, 0x3B, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x17, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0x10, 0x50, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x22, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, - 0xB0, 0x5E, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x48, 0x00, 0x00, 0x00, 0x00, 0x02, 0x08, 0x00, 0xE0, 0x7D, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xE0, 0x64, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x48, 0x00, 0x00, 0x00, 0x00, 0x02, 0x08, 0x00, 0x10, 0x84, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x2D, 0x00, 0x00, 0x00, 0x12, 0x03, 0x07, 0x00, - 0x00, 0x22, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x39, 0x00, 0x00, 0x00, 0x11, 0x00, 0x06, 0x00, 0x00, 0x11, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x27, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x39, 0x00, 0x00, 0x00, 0x11, 0x00, 0x06, 0x00, 0x00, 0x16, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x2E, 0x6E, 0x6F, 0x74, 0x65, 0x00, 0x2E, 0x64, 0x79, 0x6E, 0x73, 0x79, 0x6D, 0x00, 0x2E, 0x67, 0x6E, 0x75, 0x2E, 0x68, 0x61, 0x73, 0x68, 0x00, 0x2E, 0x68, 0x61, 0x73, 0x68, 0x00, 0x2E, 0x64, 0x79, 0x6E, 0x73, 0x74, 0x72, 0x00, 0x2E, @@ -1532,9 +1631,9 @@ unsigned char bwd_fp16_a16[] = { 0x6E, 0x61, 0x6D, 0x69, 0x63, 0x00, 0x2E, 0x63, 0x6F, 0x6D, 0x6D, 0x65, 0x6E, 0x74, 0x00, 0x2E, 0x73, 0x79, 0x6D, 0x74, 0x61, 0x62, 0x00, 0x2E, 0x73, 0x68, 0x73, 0x74, 0x72, 0x74, 0x61, 0x62, 0x00, 0x2E, 0x73, 0x74, 0x72, 0x74, 0x61, 0x62, 0x00, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, - 0x30, 0x39, 0x46, 0x46, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x34, 0x43, 0x42, 0x00, - 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x39, 0x46, 0x38, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, - 0x5F, 0x30, 0x46, 0x32, 0x43, 0x00, 0x6B, 0x65, 0x72, 0x6E, 0x65, 0x6C, 0x5F, 0x66, 0x75, 0x6E, + 0x30, 0x41, 0x34, 0x42, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x35, 0x31, 0x37, 0x00, + 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x41, 0x34, 0x34, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, + 0x5F, 0x30, 0x46, 0x37, 0x38, 0x00, 0x6B, 0x65, 0x72, 0x6E, 0x65, 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, 0x00, 0x6B, 0x65, 0x72, 0x6E, 0x65, 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, 0x2E, 0x6B, 0x64, 0x00, 0x5F, 0x44, 0x59, 0x4E, 0x41, 0x4D, 0x49, 0x43, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, @@ -1543,49 +1642,49 @@ unsigned char bwd_fp16_a16[] = { 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x07, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x1C, 0x0E, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x54, 0x13, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0x00, 0x00, 0x0B, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x20, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x20, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x58, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x58, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x48, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x05, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x08, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x18, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x0F, 0x00, 0x00, 0x00, 0xF6, 0xFF, 0xFF, 0x6F, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x68, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x68, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xA0, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xA0, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x24, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x08, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x19, 0x00, 0x00, 0x00, 0x05, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x8C, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x8C, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xC4, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xC4, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x20, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x1F, 0x00, 0x00, 0x00, 0x03, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0xAC, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xAC, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xE4, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xE4, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x1C, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x27, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x11, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x11, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x16, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x16, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x2F, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x06, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x22, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x12, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0xDC, 0x4B, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x27, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x17, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x0C, 0x4D, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x35, 0x00, 0x00, 0x00, 0x06, 0x00, 0x00, 0x00, 0x03, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0xE0, 0x7D, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xE0, 0x5D, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x10, 0x84, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x10, 0x64, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x70, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x05, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x08, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x3E, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x30, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x50, 0x5E, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x80, 0x64, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x17, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x47, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x68, 0x5E, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x98, 0x64, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xC0, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x0C, 0x00, 0x00, 0x00, 0x06, 0x00, 0x00, 0x00, 0x08, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x18, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x4F, 0x00, 0x00, 0x00, 0x03, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x28, 0x5F, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x58, 0x65, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x61, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x59, 0x00, 0x00, 0x00, 0x03, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x89, 0x5F, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xB9, 0x65, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x51, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00}; diff --git a/example/ck_tile/01_fmha/hsaco/bwd_fp16_causal_a16.cpp b/example/ck_tile/01_fmha/hsaco/bwd_fp16_causal_a16.cpp index 8ae1eb63d5..53388792eb 100644 --- a/example/ck_tile/01_fmha/hsaco/bwd_fp16_causal_a16.cpp +++ b/example/ck_tile/01_fmha/hsaco/bwd_fp16_causal_a16.cpp @@ -5,39 +5,39 @@ unsigned char bwd_fp16_causal_a16[] = { 0x7F, 0x45, 0x4C, 0x46, 0x02, 0x01, 0x01, 0x40, 0x03, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x03, 0x00, 0xE0, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x30, 0x67, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x60, 0x6D, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x4C, 0x05, 0x00, 0x00, 0x40, 0x00, 0x38, 0x00, 0x08, 0x00, 0x40, 0x00, 0x0D, 0x00, 0x0B, 0x00, 0x06, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xC0, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xC0, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x08, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x40, 0x11, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x40, 0x11, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x01, 0x00, 0x00, 0x00, 0x05, 0x00, 0x00, 0x00, 0x00, 0x12, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x22, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x22, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0xF4, 0x51, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xF4, 0x51, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x40, 0x16, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x40, 0x16, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x01, 0x00, 0x00, 0x00, 0x05, 0x00, 0x00, 0x00, 0x00, 0x17, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x27, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x27, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x24, 0x53, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x24, 0x53, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x06, 0x00, 0x00, 0x00, - 0xF8, 0x63, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xF8, 0x83, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0xF8, 0x83, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x70, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x28, 0x6A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x28, 0x8A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x28, 0x8A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x70, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x70, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x02, 0x00, 0x00, 0x00, 0x06, 0x00, 0x00, 0x00, 0xF8, 0x63, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0xF8, 0x83, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xF8, 0x83, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x02, 0x00, 0x00, 0x00, 0x06, 0x00, 0x00, 0x00, 0x28, 0x6A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x28, 0x8A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x28, 0x8A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x70, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x70, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x08, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x52, 0xE5, 0x74, 0x64, 0x04, 0x00, 0x00, 0x00, - 0xF8, 0x63, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xF8, 0x83, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0xF8, 0x83, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x70, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x08, 0x0C, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x28, 0x6A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x28, 0x8A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x28, 0x8A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x70, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xD8, 0x05, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x51, 0xE5, 0x74, 0x64, 0x06, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x1C, 0x0E, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x1C, 0x0E, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x07, 0x00, 0x00, 0x00, 0x08, 0x0E, 0x00, 0x00, 0x20, 0x00, 0x00, 0x00, 0x41, 0x4D, 0x44, 0x47, + 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x54, 0x13, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x54, 0x13, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x07, 0x00, 0x00, 0x00, 0x40, 0x13, 0x00, 0x00, 0x20, 0x00, 0x00, 0x00, 0x41, 0x4D, 0x44, 0x47, 0x50, 0x55, 0x00, 0x00, 0x82, 0xAE, 0x61, 0x6D, 0x64, 0x68, 0x73, 0x61, 0x2E, 0x6B, 0x65, 0x72, - 0x6E, 0x65, 0x6C, 0x73, 0x91, 0x8C, 0xA5, 0x2E, 0x61, 0x72, 0x67, 0x73, 0xDC, 0x00, 0x2E, 0x86, + 0x6E, 0x65, 0x6C, 0x73, 0x91, 0x8C, 0xA5, 0x2E, 0x61, 0x72, 0x67, 0x73, 0xDC, 0x00, 0x42, 0x86, 0xAE, 0x2E, 0x61, 0x63, 0x74, 0x75, 0x61, 0x6C, 0x5F, 0x61, 0x63, 0x63, 0x65, 0x73, 0x73, 0xAA, 0x72, 0x65, 0x61, 0x64, 0x5F, 0x77, 0x72, 0x69, 0x74, 0x65, 0xAE, 0x2E, 0x61, 0x64, 0x64, 0x72, 0x65, 0x73, 0x73, 0x5F, 0x73, 0x70, 0x61, 0x63, 0x65, 0xA6, 0x67, 0x6C, 0x6F, 0x62, 0x61, 0x6C, @@ -244,37 +244,117 @@ unsigned char bwd_fp16_causal_a16[] = { 0x65, 0x74, 0xCC, 0xFC, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, - 0xB9, 0x2E, 0x67, 0x72, 0x6F, 0x75, 0x70, 0x5F, 0x73, 0x65, 0x67, 0x6D, 0x65, 0x6E, 0x74, 0x5F, - 0x66, 0x69, 0x78, 0x65, 0x64, 0x5F, 0x73, 0x69, 0x7A, 0x65, 0xCE, 0x00, 0x01, 0x00, 0x00, 0xB6, + 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA5, 0x72, 0x61, 0x74, 0x69, 0x6F, 0xA7, 0x2E, 0x6F, + 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x00, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, + 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, + 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, + 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, 0xA7, + 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x04, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, + 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, + 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, + 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, + 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x08, 0xA5, 0x2E, 0x73, 0x69, + 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, + 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, + 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, + 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x0C, 0xA5, 0x2E, + 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, + 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, + 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, + 0x65, 0xA5, 0x48, 0x73, 0x5F, 0x6B, 0x76, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, + 0x01, 0x10, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, + 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, + 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, + 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, + 0x74, 0xCD, 0x01, 0x14, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, + 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, + 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, + 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, + 0x73, 0x65, 0x74, 0xCD, 0x01, 0x18, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, + 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, + 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, + 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, + 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x1C, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, + 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, + 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, + 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA6, 0x42, 0x41, 0x73, 0x5F, + 0x6B, 0x76, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x20, 0xA5, 0x2E, 0x73, + 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, + 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, + 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, + 0xA3, 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x24, 0xA5, + 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, + 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, + 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, + 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, + 0x28, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, + 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, + 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, + 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, + 0xCD, 0x01, 0x2C, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, + 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, + 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, + 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA7, 0x53, 0x65, 0x71, 0x73, 0x5F, 0x6B, 0x76, 0xA7, 0x2E, + 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x30, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, + 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, + 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, + 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, + 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x34, 0xA5, 0x2E, 0x73, 0x69, 0x7A, + 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, + 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, + 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, + 0x61, 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x38, 0xA5, 0x2E, 0x73, + 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, + 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, + 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, + 0xA3, 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x3C, 0xA5, + 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, + 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, + 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, + 0x6D, 0x65, 0xA8, 0x53, 0x65, 0x71, 0x73, 0x5F, 0x64, 0x6B, 0x76, 0xA7, 0x2E, 0x6F, 0x66, 0x66, + 0x73, 0x65, 0x74, 0xCD, 0x01, 0x40, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, + 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, + 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, + 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, 0xA7, 0x2E, 0x6F, + 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x44, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, 0x04, 0xAB, + 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, 0x5F, 0x76, + 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, 0x70, 0x65, + 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, 0x64, 0xA7, + 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x48, 0xA5, 0x2E, 0x73, 0x69, 0x7A, 0x65, + 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, 0x62, 0x79, + 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x74, 0x79, + 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0x85, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xA3, 0x70, 0x61, + 0x64, 0xA7, 0x2E, 0x6F, 0x66, 0x66, 0x73, 0x65, 0x74, 0xCD, 0x01, 0x4C, 0xA5, 0x2E, 0x73, 0x69, + 0x7A, 0x65, 0x04, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, 0x6B, 0x69, 0x6E, 0x64, 0xA8, + 0x62, 0x79, 0x5F, 0x76, 0x61, 0x6C, 0x75, 0x65, 0xAB, 0x2E, 0x76, 0x61, 0x6C, 0x75, 0x65, 0x5F, + 0x74, 0x79, 0x70, 0x65, 0xA3, 0x69, 0x33, 0x32, 0xB9, 0x2E, 0x67, 0x72, 0x6F, 0x75, 0x70, 0x5F, + 0x73, 0x65, 0x67, 0x6D, 0x65, 0x6E, 0x74, 0x5F, 0x66, 0x69, 0x78, 0x65, 0x64, 0x5F, 0x73, 0x69, + 0x7A, 0x65, 0xCE, 0x00, 0x01, 0x00, 0x00, 0xB6, 0x2E, 0x6B, 0x65, 0x72, 0x6E, 0x61, 0x72, 0x67, + 0x5F, 0x73, 0x65, 0x67, 0x6D, 0x65, 0x6E, 0x74, 0x5F, 0x61, 0x6C, 0x69, 0x67, 0x6E, 0x04, 0xB5, 0x2E, 0x6B, 0x65, 0x72, 0x6E, 0x61, 0x72, 0x67, 0x5F, 0x73, 0x65, 0x67, 0x6D, 0x65, 0x6E, 0x74, - 0x5F, 0x61, 0x6C, 0x69, 0x67, 0x6E, 0x04, 0xB5, 0x2E, 0x6B, 0x65, 0x72, 0x6E, 0x61, 0x72, 0x67, - 0x5F, 0x73, 0x65, 0x67, 0x6D, 0x65, 0x6E, 0x74, 0x5F, 0x73, 0x69, 0x7A, 0x65, 0xCD, 0x01, 0x00, - 0xB8, 0x2E, 0x6D, 0x61, 0x78, 0x5F, 0x66, 0x6C, 0x61, 0x74, 0x5F, 0x77, 0x6F, 0x72, 0x6B, 0x67, - 0x72, 0x6F, 0x75, 0x70, 0x5F, 0x73, 0x69, 0x7A, 0x65, 0xCD, 0x01, 0x00, 0xA5, 0x2E, 0x6E, 0x61, - 0x6D, 0x65, 0xAB, 0x6B, 0x65, 0x72, 0x6E, 0x65, 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, 0xBB, 0x2E, - 0x70, 0x72, 0x69, 0x76, 0x61, 0x74, 0x65, 0x5F, 0x73, 0x65, 0x67, 0x6D, 0x65, 0x6E, 0x74, 0x5F, - 0x66, 0x69, 0x78, 0x65, 0x64, 0x5F, 0x73, 0x69, 0x7A, 0x65, 0x00, 0xB4, 0x2E, 0x72, 0x65, 0x71, - 0x64, 0x5F, 0x77, 0x6F, 0x72, 0x6B, 0x67, 0x72, 0x6F, 0x75, 0x70, 0x5F, 0x73, 0x69, 0x7A, 0x65, - 0x93, 0xCD, 0x01, 0x00, 0x01, 0x01, 0xAB, 0x2E, 0x73, 0x67, 0x70, 0x72, 0x5F, 0x63, 0x6F, 0x75, - 0x6E, 0x74, 0x60, 0xA7, 0x2E, 0x73, 0x79, 0x6D, 0x62, 0x6F, 0x6C, 0xAE, 0x6B, 0x65, 0x72, 0x6E, - 0x65, 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, 0x2E, 0x6B, 0x64, 0xAB, 0x2E, 0x76, 0x67, 0x70, 0x72, - 0x5F, 0x63, 0x6F, 0x75, 0x6E, 0x74, 0xCD, 0x02, 0x00, 0xAF, 0x2E, 0x77, 0x61, 0x76, 0x65, 0x66, - 0x72, 0x6F, 0x6E, 0x74, 0x5F, 0x73, 0x69, 0x7A, 0x65, 0x40, 0xAE, 0x61, 0x6D, 0x64, 0x68, 0x73, - 0x61, 0x2E, 0x76, 0x65, 0x72, 0x73, 0x69, 0x6F, 0x6E, 0x92, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x12, 0x03, 0x07, 0x00, - 0x00, 0x22, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x0D, 0x00, 0x00, 0x00, 0x11, 0x00, 0x06, 0x00, 0x00, 0x11, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, - 0x01, 0x00, 0x00, 0x00, 0x1A, 0x00, 0x00, 0x00, 0x02, 0x40, 0x02, 0x04, 0x00, 0x00, 0x00, 0x00, - 0x01, 0x00, 0x00, 0x00, 0x10, 0xBA, 0xA0, 0x06, 0x4F, 0x9E, 0xA8, 0x68, 0x03, 0x00, 0x00, 0x00, - 0x03, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x6B, 0x65, 0x72, - 0x6E, 0x65, 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, 0x00, 0x6B, 0x65, 0x72, 0x6E, 0x65, 0x6C, 0x5F, - 0x66, 0x75, 0x6E, 0x63, 0x2E, 0x6B, 0x64, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x5F, 0x73, 0x69, 0x7A, 0x65, 0xCD, 0x01, 0x50, 0xB8, 0x2E, 0x6D, 0x61, 0x78, 0x5F, 0x66, 0x6C, + 0x61, 0x74, 0x5F, 0x77, 0x6F, 0x72, 0x6B, 0x67, 0x72, 0x6F, 0x75, 0x70, 0x5F, 0x73, 0x69, 0x7A, + 0x65, 0xCD, 0x01, 0x00, 0xA5, 0x2E, 0x6E, 0x61, 0x6D, 0x65, 0xAB, 0x6B, 0x65, 0x72, 0x6E, 0x65, + 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, 0xBB, 0x2E, 0x70, 0x72, 0x69, 0x76, 0x61, 0x74, 0x65, 0x5F, + 0x73, 0x65, 0x67, 0x6D, 0x65, 0x6E, 0x74, 0x5F, 0x66, 0x69, 0x78, 0x65, 0x64, 0x5F, 0x73, 0x69, + 0x7A, 0x65, 0x00, 0xB4, 0x2E, 0x72, 0x65, 0x71, 0x64, 0x5F, 0x77, 0x6F, 0x72, 0x6B, 0x67, 0x72, + 0x6F, 0x75, 0x70, 0x5F, 0x73, 0x69, 0x7A, 0x65, 0x93, 0xCD, 0x01, 0x00, 0x01, 0x01, 0xAB, 0x2E, + 0x73, 0x67, 0x70, 0x72, 0x5F, 0x63, 0x6F, 0x75, 0x6E, 0x74, 0x60, 0xA7, 0x2E, 0x73, 0x79, 0x6D, + 0x62, 0x6F, 0x6C, 0xAE, 0x6B, 0x65, 0x72, 0x6E, 0x65, 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, 0x2E, + 0x6B, 0x64, 0xAB, 0x2E, 0x76, 0x67, 0x70, 0x72, 0x5F, 0x63, 0x6F, 0x75, 0x6E, 0x74, 0xCD, 0x02, + 0x00, 0xAF, 0x2E, 0x77, 0x61, 0x76, 0x65, 0x66, 0x72, 0x6F, 0x6E, 0x74, 0x5F, 0x73, 0x69, 0x7A, + 0x65, 0x40, 0xAE, 0x61, 0x6D, 0x64, 0x68, 0x73, 0x61, 0x2E, 0x76, 0x65, 0x72, 0x73, 0x69, 0x6F, + 0x6E, 0x92, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x01, 0x00, 0x00, 0x00, 0x12, 0x03, 0x07, 0x00, 0x00, 0x27, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x0D, 0x00, 0x00, 0x00, 0x11, 0x00, 0x06, 0x00, + 0x00, 0x16, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x01, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x1A, 0x00, 0x00, 0x00, + 0x02, 0x40, 0x02, 0x04, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x10, 0xBA, 0xA0, 0x06, + 0x4F, 0x9E, 0xA8, 0x68, 0x03, 0x00, 0x00, 0x00, 0x03, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x01, 0x00, 0x00, 0x00, 0x00, 0x6B, 0x65, 0x72, 0x6E, 0x65, 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, + 0x00, 0x6B, 0x65, 0x72, 0x6E, 0x65, 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, 0x2E, 0x6B, 0x64, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x11, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x3F, 0x00, 0x00, 0x00, @@ -299,60 +379,73 @@ unsigned char bwd_fp16_causal_a16[] = { 0x00, 0x0C, 0x02, 0xC0, 0x90, 0x00, 0x00, 0x00, 0x40, 0x0C, 0x02, 0xC0, 0xA0, 0x00, 0x00, 0x00, 0x80, 0x0C, 0x02, 0xC0, 0xB0, 0x00, 0x00, 0x00, 0xC0, 0x0C, 0x02, 0xC0, 0xC0, 0x00, 0x00, 0x00, 0x00, 0x0D, 0x02, 0xC0, 0xD0, 0x00, 0x00, 0x00, 0x40, 0x0D, 0x02, 0xC0, 0xE0, 0x00, 0x00, 0x00, - 0x00, 0x13, 0x02, 0xC0, 0xF0, 0x00, 0x00, 0x00, 0x8A, 0x00, 0x02, 0x20, 0x8A, 0x02, 0x04, 0x20, - 0xFF, 0x04, 0x04, 0x26, 0xFF, 0x03, 0x00, 0x00, 0xFF, 0x02, 0x02, 0x26, 0xFF, 0x03, 0x00, 0x00, - 0xFF, 0x00, 0x00, 0x26, 0xFF, 0x03, 0x00, 0x00, 0x86, 0x00, 0x06, 0x20, 0xBF, 0x00, 0x00, 0x26, - 0x02, 0x00, 0xAC, 0xBE, 0x03, 0x00, 0xAD, 0xBE, 0x04, 0x00, 0xAE, 0xBE, 0x03, 0x05, 0x5E, 0x7E, - 0x7F, 0xC0, 0x8C, 0xBF, 0xFF, 0x00, 0x8A, 0xBE, 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x8E, 0xBE, - 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x92, 0xBE, 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x96, 0xBE, - 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x9A, 0xBE, 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x9E, 0xBE, - 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0xA2, 0xBE, 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0xA6, 0xBE, - 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0xAA, 0xBE, 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x8B, 0xBE, - 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x8F, 0xBE, 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x93, 0xBE, - 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x97, 0xBE, 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x9B, 0xBE, - 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x9F, 0xBE, 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0xA3, 0xBE, - 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0xA7, 0xBE, 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0xAB, 0xBE, - 0x00, 0x00, 0x02, 0x00, 0x09, 0xFF, 0x09, 0x86, 0xFF, 0xFF, 0x00, 0x00, 0x0D, 0xFF, 0x0D, 0x86, - 0xFF, 0xFF, 0x00, 0x00, 0x11, 0xFF, 0x11, 0x86, 0xFF, 0xFF, 0x00, 0x00, 0x15, 0xFF, 0x15, 0x86, - 0xFF, 0xFF, 0x00, 0x00, 0x19, 0xFF, 0x19, 0x86, 0xFF, 0xFF, 0x00, 0x00, 0x1D, 0xFF, 0x1D, 0x86, - 0xFF, 0xFF, 0x00, 0x00, 0x21, 0xFF, 0x21, 0x86, 0xFF, 0xFF, 0x00, 0x00, 0x25, 0xFF, 0x25, 0x86, - 0xFF, 0xFF, 0x00, 0x00, 0x29, 0xFF, 0x29, 0x86, 0xFF, 0xFF, 0x00, 0x00, 0x09, 0xFF, 0x09, 0x87, - 0x00, 0x00, 0x04, 0x00, 0x0D, 0xFF, 0x0D, 0x87, 0x00, 0x00, 0x04, 0x00, 0x11, 0xFF, 0x11, 0x87, - 0x00, 0x00, 0x04, 0x00, 0x15, 0xFF, 0x15, 0x87, 0x00, 0x00, 0x04, 0x00, 0x19, 0xFF, 0x19, 0x87, - 0x00, 0x00, 0x04, 0x00, 0x1D, 0xFF, 0x1D, 0x87, 0x00, 0x00, 0x04, 0x00, 0x21, 0xFF, 0x21, 0x87, - 0x00, 0x00, 0x04, 0x00, 0x25, 0xFF, 0x25, 0x87, 0x00, 0x00, 0x04, 0x00, 0x29, 0xFF, 0x29, 0x87, - 0x00, 0x00, 0x04, 0x00, 0xFF, 0x40, 0xD9, 0xD3, 0x80, 0x00, 0x00, 0x18, 0x80, 0x02, 0xE6, 0x7F, - 0x08, 0x00, 0xD2, 0xBE, 0x0C, 0x00, 0xD4, 0xBE, 0x10, 0x00, 0xD6, 0xBE, 0x14, 0x00, 0xD8, 0xBE, - 0x20, 0x00, 0xD0, 0xBE, 0x09, 0x00, 0xD3, 0xBE, 0x0D, 0x00, 0xD5, 0xBE, 0x11, 0x00, 0xD7, 0xBE, - 0x15, 0x00, 0xD9, 0xBE, 0x21, 0x00, 0xD1, 0xBE, 0x30, 0x02, 0x38, 0x7E, 0x31, 0x38, 0x38, 0x0A, - 0x32, 0x00, 0xBA, 0xBE, 0x80, 0x00, 0xBB, 0xBE, 0xFF, 0x00, 0xBF, 0xBE, 0x00, 0x01, 0x04, 0x05, - 0xFF, 0x00, 0xC0, 0xBE, 0x02, 0x03, 0x06, 0x07, 0x1C, 0x05, 0x72, 0x7E, 0xFF, 0x02, 0x3C, 0x7E, - 0x06, 0x07, 0x02, 0x03, 0x3F, 0x02, 0x38, 0x7E, 0x81, 0x00, 0x3A, 0x26, 0x81, 0x3A, 0x94, 0x7D, - 0x1C, 0x3D, 0x26, 0x00, 0x2F, 0x82, 0x0A, 0xBF, 0x18, 0x1C, 0x18, 0x85, 0x19, 0x1D, 0x19, 0x85, - 0x1A, 0x1E, 0x1A, 0x85, 0x1B, 0x1F, 0x1B, 0x85, 0x2F, 0x81, 0x3C, 0x8F, 0x3C, 0x88, 0x3C, 0x8E, - 0xFF, 0x3C, 0x4E, 0x80, 0x00, 0xC7, 0x00, 0x00, 0xFF, 0x4E, 0x4F, 0x80, 0x00, 0x02, 0x00, 0x00, - 0xA0, 0x4C, 0x43, 0x92, 0x80, 0x00, 0xC8, 0xBE, 0x81, 0x00, 0xC9, 0xBE, 0x32, 0x87, 0x3C, 0x8F, - 0x3C, 0x81, 0xBC, 0x81, 0x2C, 0x81, 0x3D, 0x8E, 0x3D, 0x3C, 0x00, 0xBF, 0x49, 0x82, 0x49, 0x85, - 0x4E, 0x00, 0xFC, 0xBE, 0x80, 0x00, 0xC2, 0xBE, 0xFF, 0x02, 0x3E, 0x7E, 0x00, 0x00, 0x80, 0xFF, - 0x80, 0x00, 0xC5, 0xBE, 0xA0, 0x4C, 0x4A, 0x92, 0xA0, 0x00, 0xCB, 0xBE, 0x2C, 0x33, 0x3C, 0x92, - 0x2D, 0x34, 0x3D, 0x92, 0x2E, 0x35, 0x3E, 0x92, 0x3C, 0x3D, 0x36, 0x80, 0x36, 0x3E, 0x36, 0x80, - 0x3D, 0x3E, 0x37, 0x80, 0xFF, 0x2C, 0x3C, 0x92, 0x80, 0x00, 0x00, 0x00, 0x4C, 0x3C, 0x3C, 0x92, - 0x3C, 0x37, 0x37, 0x80, 0xFF, 0x2C, 0x3B, 0x92, 0x80, 0x00, 0x00, 0x00, 0xA0, 0x3B, 0x4D, 0x80, - 0x37, 0x00, 0xB8, 0xBE, 0x2E, 0x35, 0x3E, 0x92, 0x3E, 0x86, 0x3E, 0x8F, 0x2D, 0x32, 0x3D, 0x92, - 0x84, 0x3D, 0x3D, 0x92, 0x3D, 0x3E, 0x41, 0x80, 0xFF, 0x2C, 0x3C, 0x92, 0x00, 0x02, 0x00, 0x00, - 0x3C, 0x41, 0x41, 0x80, 0x83, 0x00, 0x38, 0x20, 0x81, 0x38, 0x3A, 0x26, 0x81, 0x3A, 0x3A, 0x24, + 0x80, 0x11, 0x02, 0xC0, 0xF0, 0x00, 0x00, 0x00, 0x00, 0x0B, 0x02, 0xC0, 0x00, 0x01, 0x00, 0x00, + 0x40, 0x01, 0x02, 0xC0, 0x10, 0x01, 0x00, 0x00, 0x80, 0x01, 0x02, 0xC0, 0x20, 0x01, 0x00, 0x00, + 0xC0, 0x01, 0x02, 0xC0, 0x30, 0x01, 0x00, 0x00, 0x80, 0x0B, 0x02, 0xC0, 0x40, 0x01, 0x00, 0x00, + 0x8A, 0x00, 0x02, 0x20, 0x8A, 0x02, 0x04, 0x20, 0xFF, 0x04, 0x04, 0x26, 0xFF, 0x03, 0x00, 0x00, + 0xFF, 0x02, 0x02, 0x26, 0xFF, 0x03, 0x00, 0x00, 0xFF, 0x00, 0x00, 0x26, 0xFF, 0x03, 0x00, 0x00, + 0x86, 0x00, 0x06, 0x20, 0xBF, 0x00, 0x00, 0x26, 0x02, 0x00, 0x82, 0xBE, 0x03, 0x00, 0x83, 0xBE, + 0x04, 0x00, 0x84, 0xBE, 0x03, 0x05, 0x5E, 0x7E, 0x7F, 0xC0, 0x8C, 0xBF, 0xFF, 0x00, 0x8A, 0xBE, + 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x8E, 0xBE, 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x92, 0xBE, + 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x96, 0xBE, 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x9A, 0xBE, + 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x9E, 0xBE, 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0xA2, 0xBE, + 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0xA6, 0xBE, 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0xAA, 0xBE, + 0x00, 0x00, 0x00, 0x80, 0xFF, 0x00, 0x8B, 0xBE, 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x8F, 0xBE, + 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x93, 0xBE, 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x97, 0xBE, + 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x9B, 0xBE, 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0x9F, 0xBE, + 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0xA3, 0xBE, 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0xA7, 0xBE, + 0x00, 0x00, 0x02, 0x00, 0xFF, 0x00, 0xAB, 0xBE, 0x00, 0x00, 0x02, 0x00, 0x09, 0xFF, 0x09, 0x86, + 0xFF, 0xFF, 0x00, 0x00, 0x0D, 0xFF, 0x0D, 0x86, 0xFF, 0xFF, 0x00, 0x00, 0x11, 0xFF, 0x11, 0x86, + 0xFF, 0xFF, 0x00, 0x00, 0x15, 0xFF, 0x15, 0x86, 0xFF, 0xFF, 0x00, 0x00, 0x19, 0xFF, 0x19, 0x86, + 0xFF, 0xFF, 0x00, 0x00, 0x1D, 0xFF, 0x1D, 0x86, 0xFF, 0xFF, 0x00, 0x00, 0x21, 0xFF, 0x21, 0x86, + 0xFF, 0xFF, 0x00, 0x00, 0x25, 0xFF, 0x25, 0x86, 0xFF, 0xFF, 0x00, 0x00, 0x29, 0xFF, 0x29, 0x86, + 0xFF, 0xFF, 0x00, 0x00, 0x09, 0xFF, 0x09, 0x87, 0x00, 0x00, 0x04, 0x00, 0x0D, 0xFF, 0x0D, 0x87, + 0x00, 0x00, 0x04, 0x00, 0x11, 0xFF, 0x11, 0x87, 0x00, 0x00, 0x04, 0x00, 0x15, 0xFF, 0x15, 0x87, + 0x00, 0x00, 0x04, 0x00, 0x19, 0xFF, 0x19, 0x87, 0x00, 0x00, 0x04, 0x00, 0x1D, 0xFF, 0x1D, 0x87, + 0x00, 0x00, 0x04, 0x00, 0x21, 0xFF, 0x21, 0x87, 0x00, 0x00, 0x04, 0x00, 0x25, 0xFF, 0x25, 0x87, + 0x00, 0x00, 0x04, 0x00, 0x29, 0xFF, 0x29, 0x87, 0x00, 0x00, 0x04, 0x00, 0xFF, 0x40, 0xD9, 0xD3, + 0x80, 0x00, 0x00, 0x18, 0x80, 0x02, 0xE6, 0x7F, 0x08, 0x00, 0xD2, 0xBE, 0x0C, 0x00, 0xD4, 0xBE, + 0x10, 0x00, 0xD6, 0xBE, 0x14, 0x00, 0xD8, 0xBE, 0x20, 0x00, 0xD0, 0xBE, 0x09, 0x00, 0xD3, 0xBE, + 0x0D, 0x00, 0xD5, 0xBE, 0x11, 0x00, 0xD7, 0xBE, 0x15, 0x00, 0xD9, 0xBE, 0x21, 0x00, 0xD1, 0xBE, + 0x03, 0x00, 0xC7, 0xBE, 0x2C, 0x0C, 0x38, 0x7E, 0x80, 0x2C, 0xBC, 0x81, 0x1C, 0x47, 0x38, 0x7E, + 0x00, 0x00, 0x80, 0xBF, 0xFF, 0x38, 0x38, 0x0A, 0xFE, 0xFF, 0x7F, 0x4F, 0x1C, 0x0F, 0x38, 0x7E, + 0x1D, 0x00, 0x85, 0xD2, 0x3C, 0x38, 0x02, 0x00, 0x1D, 0x00, 0x86, 0xD2, 0x1C, 0x3B, 0x02, 0x00, + 0x1C, 0x3B, 0x38, 0x68, 0x1C, 0x00, 0x86, 0xD2, 0x47, 0x38, 0x02, 0x00, 0x1D, 0x00, 0x85, 0xD2, + 0x1C, 0x59, 0x00, 0x00, 0x47, 0x3A, 0x3E, 0x6A, 0x81, 0x38, 0x3C, 0x68, 0x2C, 0x3E, 0x96, 0x7D, + 0x2C, 0x3E, 0x3A, 0x6C, 0x00, 0x00, 0x80, 0xBF, 0x1C, 0x3D, 0x38, 0x00, 0x1F, 0x3B, 0x3E, 0x00, + 0x81, 0x38, 0x3A, 0x68, 0x2C, 0x3E, 0x96, 0x7D, 0x01, 0x00, 0x80, 0xBF, 0x1C, 0x3B, 0x3E, 0x00, + 0x03, 0x00, 0x80, 0xBF, 0x1F, 0x05, 0x5A, 0x7E, 0x03, 0x00, 0x80, 0xBF, 0x30, 0x02, 0x38, 0x7E, + 0x31, 0x38, 0x38, 0x0A, 0x32, 0x00, 0xBA, 0xBE, 0x80, 0x00, 0xBB, 0xBE, 0xFF, 0x00, 0xBF, 0xBE, + 0x00, 0x01, 0x04, 0x05, 0xFF, 0x00, 0xC0, 0xBE, 0x02, 0x03, 0x06, 0x07, 0x1C, 0x05, 0x72, 0x7E, + 0xFF, 0x02, 0x3C, 0x7E, 0x06, 0x07, 0x02, 0x03, 0x3F, 0x02, 0x38, 0x7E, 0x81, 0x00, 0x3A, 0x26, + 0x81, 0x3A, 0x94, 0x7D, 0x1C, 0x3D, 0x26, 0x00, 0x2F, 0x82, 0x0A, 0xBF, 0x18, 0x1C, 0x18, 0x85, + 0x19, 0x1D, 0x19, 0x85, 0x1A, 0x1E, 0x1A, 0x85, 0x1B, 0x1F, 0x1B, 0x85, 0x2F, 0x81, 0x3C, 0x8F, + 0x3C, 0x88, 0x3C, 0x8E, 0xFF, 0x3C, 0x4E, 0x80, 0x00, 0xC7, 0x00, 0x00, 0xFF, 0x4E, 0x4F, 0x80, + 0x00, 0x02, 0x00, 0x00, 0xA0, 0x46, 0x43, 0x92, 0x80, 0x00, 0xCC, 0xBE, 0x81, 0x00, 0xCD, 0xBE, + 0x32, 0x87, 0x3C, 0x8F, 0x3C, 0x81, 0xBC, 0x81, 0x02, 0x81, 0x3D, 0x8E, 0x3D, 0x3C, 0x00, 0xBF, + 0x4D, 0x82, 0x4D, 0x85, 0x4E, 0x00, 0xFC, 0xBE, 0x80, 0x00, 0xC2, 0xBE, 0xFF, 0x02, 0x3E, 0x7E, + 0x00, 0x00, 0x80, 0xFF, 0x80, 0x00, 0xC8, 0xBE, 0xA0, 0x46, 0x44, 0x92, 0xA0, 0x00, 0xC5, 0xBE, + 0x02, 0x33, 0x3C, 0x92, 0x2D, 0x05, 0x3D, 0x92, 0x04, 0x06, 0x3E, 0x92, 0x3C, 0x3D, 0x36, 0x80, + 0x36, 0x3E, 0x36, 0x80, 0x03, 0x34, 0x3D, 0x92, 0x04, 0x35, 0x3E, 0x92, 0x3D, 0x3E, 0x37, 0x80, + 0xFF, 0x02, 0x3C, 0x92, 0x80, 0x00, 0x00, 0x00, 0x46, 0x3C, 0x3C, 0x92, 0x3C, 0x37, 0x37, 0x80, + 0xFF, 0x02, 0x3B, 0x92, 0x80, 0x00, 0x00, 0x00, 0xA0, 0x3B, 0x49, 0x80, 0x37, 0x00, 0xB8, 0xBE, + 0x04, 0x35, 0x3E, 0x92, 0x3E, 0x86, 0x3E, 0x8F, 0x03, 0x32, 0x3D, 0x92, 0x84, 0x3D, 0x3D, 0x92, + 0x3D, 0x3E, 0x41, 0x80, 0xFF, 0x02, 0x3C, 0x92, 0x00, 0x02, 0x00, 0x00, 0x3C, 0x41, 0x41, 0x80, + 0x07, 0x00, 0xC7, 0xBE, 0x83, 0x00, 0x38, 0x20, 0x81, 0x38, 0x3A, 0x26, 0x81, 0x3A, 0x3A, 0x24, 0x84, 0x38, 0x3C, 0x26, 0x1E, 0x3B, 0x3A, 0x68, 0x82, 0x38, 0x3C, 0x26, 0x82, 0x3C, 0x3C, 0x24, - 0x1E, 0x3B, 0x3A, 0x68, 0x4C, 0x3A, 0x3A, 0x0C, 0x87, 0x00, 0x38, 0x26, 0x84, 0x38, 0x38, 0x24, - 0x1C, 0x3B, 0x02, 0x68, 0x81, 0x2F, 0x3C, 0x86, 0x3C, 0x4C, 0x3C, 0x92, 0x3C, 0x90, 0x3C, 0x92, + 0x1E, 0x3B, 0x3A, 0x68, 0x47, 0x3A, 0x3A, 0x0C, 0x87, 0x00, 0x38, 0x26, 0x84, 0x38, 0x38, 0x24, + 0x1C, 0x3B, 0x02, 0x68, 0x81, 0x2F, 0x3C, 0x86, 0x3C, 0x47, 0x3C, 0x92, 0x3C, 0x90, 0x3C, 0x92, 0x2F, 0x81, 0x3D, 0x8F, 0x3D, 0xFF, 0x3D, 0x92, 0x80, 0x00, 0x00, 0x00, 0x3C, 0x3D, 0x3C, 0x80, - 0x3C, 0x02, 0x02, 0x68, 0x4C, 0x02, 0x04, 0x68, 0x82, 0x02, 0x02, 0x20, 0x82, 0x04, 0x04, 0x20, + 0x3C, 0x02, 0x02, 0x68, 0x47, 0x02, 0x04, 0x68, 0x82, 0x02, 0x02, 0x20, 0x82, 0x04, 0x04, 0x20, 0x36, 0x54, 0x0C, 0x80, 0x80, 0x55, 0x0D, 0x82, 0x36, 0x56, 0x10, 0x80, 0x80, 0x57, 0x11, 0x82, 0x37, 0x52, 0x08, 0x80, 0x80, 0x53, 0x09, 0x82, 0x38, 0x58, 0x14, 0x80, 0x80, 0x59, 0x15, 0x82, 0x9F, 0x00, 0x1A, 0x26, 0x82, 0x1A, 0x1A, 0x24, 0x41, 0x1A, 0x1A, 0x68, 0x82, 0x1A, 0x1A, 0x20, - 0xA0, 0x4C, 0x3C, 0x92, 0x2F, 0x3C, 0x3C, 0x92, 0x82, 0x00, 0x06, 0x24, 0x3C, 0x06, 0x06, 0x68, - 0x36, 0x06, 0x06, 0x68, 0x82, 0x06, 0x06, 0x20, 0x03, 0x03, 0x08, 0x7E, 0x88, 0x4C, 0x3C, 0x92, + 0xA0, 0x2E, 0x3C, 0x92, 0x2F, 0x3C, 0x3C, 0x92, 0x82, 0x00, 0x06, 0x24, 0x3C, 0x06, 0x06, 0x68, + 0xFF, 0x2E, 0x3C, 0x92, 0x80, 0x00, 0x00, 0x00, 0x02, 0x3C, 0x3C, 0x92, 0x03, 0x05, 0x3D, 0x92, + 0x04, 0x06, 0x3E, 0x92, 0x3E, 0x2C, 0x3E, 0x92, 0x3C, 0x3D, 0x3C, 0x80, 0x3C, 0x3E, 0x3C, 0x80, + 0x3C, 0x06, 0x06, 0x68, 0x82, 0x06, 0x06, 0x20, 0x03, 0x03, 0x08, 0x7E, 0x88, 0x46, 0x3C, 0x92, 0x2F, 0x3C, 0x3C, 0x92, 0x82, 0x00, 0x0A, 0x24, 0x3C, 0x0A, 0x0A, 0x68, 0x37, 0x0A, 0x0A, 0x68, - 0x82, 0x0A, 0x0A, 0x20, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x0A, 0x0C, 0x68, 0x3C, 0x0C, 0x0E, 0x68, + 0x82, 0x0A, 0x0A, 0x20, 0x46, 0x82, 0x3C, 0x8F, 0x3C, 0x0A, 0x0C, 0x68, 0x3C, 0x0C, 0x0E, 0x68, 0x3C, 0x0E, 0x10, 0x68, 0x3C, 0x10, 0x12, 0x68, 0x3C, 0x12, 0x14, 0x68, 0x3C, 0x14, 0x16, 0x68, 0x3C, 0x16, 0x18, 0x68, 0x83, 0x00, 0x38, 0x20, 0x81, 0x38, 0x3A, 0x26, 0x83, 0x3A, 0x3A, 0x24, 0x84, 0x38, 0x3C, 0x26, 0x82, 0x3C, 0x3C, 0x24, 0x1E, 0x3B, 0x3A, 0x68, 0x82, 0x38, 0x3C, 0x26, @@ -392,13 +485,13 @@ unsigned char bwd_fp16_causal_a16[] = { 0x82, 0x38, 0x3A, 0x26, 0x1D, 0x2D, 0x2C, 0x68, 0x84, 0x38, 0x3A, 0x26, 0x82, 0x3A, 0x3A, 0x20, 0xFF, 0x3A, 0x3A, 0x0C, 0x10, 0x01, 0x00, 0x00, 0x1D, 0x2D, 0x2C, 0x68, 0x2F, 0xFF, 0x3C, 0x92, 0x20, 0x02, 0x00, 0x00, 0x3C, 0x2C, 0x2C, 0x68, 0x82, 0x2C, 0x2C, 0x24, 0x00, 0x20, 0x5C, 0xE0, - 0x01, 0x40, 0x03, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x44, 0x03, 0x80, 0xA0, 0x4C, 0x3C, 0x92, + 0x01, 0x40, 0x03, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x44, 0x03, 0x80, 0xA0, 0x07, 0x3C, 0x92, 0x3C, 0x0C, 0x0C, 0x80, 0x80, 0x0D, 0x0D, 0x82, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x48, 0x03, 0x80, - 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x4C, 0x03, 0x80, 0xA0, 0x4C, 0x3C, 0x92, 0x3C, 0x0C, 0x0C, 0x80, + 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x4C, 0x03, 0x80, 0xA0, 0x07, 0x3C, 0x92, 0x3C, 0x0C, 0x0C, 0x80, 0x80, 0x0D, 0x0D, 0x82, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x50, 0x03, 0x80, 0x00, 0x20, 0x5C, 0xE0, - 0x02, 0x54, 0x03, 0x80, 0xA0, 0x4C, 0x3C, 0x92, 0x3C, 0x0C, 0x0C, 0x80, 0x80, 0x0D, 0x0D, 0x82, + 0x02, 0x54, 0x03, 0x80, 0xA0, 0x07, 0x3C, 0x92, 0x3C, 0x0C, 0x0C, 0x80, 0x80, 0x0D, 0x0D, 0x82, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x58, 0x03, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x5C, 0x03, 0x80, - 0xA0, 0x4C, 0x3C, 0x92, 0x3C, 0x0C, 0x0C, 0x80, 0x80, 0x0D, 0x0D, 0x82, 0x74, 0x0F, 0x8C, 0xBF, + 0xA0, 0x07, 0x3C, 0x92, 0x3C, 0x0C, 0x0C, 0x80, 0x80, 0x0D, 0x0D, 0x82, 0x74, 0x0F, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x60, 0x00, 0xED, 0xD1, 0x44, 0x81, 0xFE, 0x00, 0x61, 0x00, 0xED, 0xD1, 0x44, 0x81, 0x02, 0x01, 0x62, 0x00, 0xED, 0xD1, 0x45, 0x83, 0xFE, 0x00, 0x63, 0x00, 0xED, 0xD1, 0x45, 0x83, 0x02, 0x01, 0x64, 0x00, 0xED, 0xD1, 0x46, 0x85, 0xFE, 0x00, 0x65, 0x00, 0xED, 0xD1, @@ -420,9 +513,9 @@ unsigned char bwd_fp16_causal_a16[] = { 0x0F, 0x46, 0x00, 0x00, 0x00, 0x21, 0x9A, 0xD8, 0x0F, 0x48, 0x00, 0x00, 0x00, 0x23, 0x9A, 0xD8, 0x0F, 0x4A, 0x00, 0x00, 0x10, 0x21, 0x9A, 0xD8, 0x0F, 0x4C, 0x00, 0x00, 0x10, 0x23, 0x9A, 0xD8, 0x0F, 0x4E, 0x00, 0x00, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x40, 0x04, 0x80, 0x00, 0x20, 0x5C, 0xE0, - 0x02, 0x44, 0x04, 0x80, 0xA0, 0x4C, 0x3C, 0x92, 0x3C, 0x10, 0x10, 0x80, 0x80, 0x11, 0x11, 0x82, + 0x02, 0x44, 0x04, 0x80, 0xA0, 0x07, 0x3C, 0x92, 0x3C, 0x10, 0x10, 0x80, 0x80, 0x11, 0x11, 0x82, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x48, 0x04, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x4C, 0x04, 0x80, - 0xA0, 0x4C, 0x3C, 0x92, 0x3C, 0x10, 0x10, 0x80, 0x80, 0x11, 0x11, 0x82, 0x7F, 0xC0, 0x8C, 0xBF, + 0xA0, 0x07, 0x3C, 0x92, 0x3C, 0x10, 0x10, 0x80, 0x80, 0x11, 0x11, 0x82, 0x7F, 0xC0, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x00, 0x84, 0xFE, 0xDB, 0x1B, 0x00, 0x00, 0x20, 0x00, 0x85, 0xFE, 0xDB, 0x1B, 0x00, 0x00, 0x24, 0x00, 0xA5, 0xFE, 0xDB, 0x1B, 0x00, 0x00, 0x28, 0x00, 0xA6, 0xFE, 0xDB, 0x1B, 0x00, 0x00, 0x2C, 0x74, 0x00, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x60, 0x00, 0xED, 0xD1, @@ -446,9 +539,9 @@ unsigned char bwd_fp16_causal_a16[] = { 0x0F, 0x54, 0x00, 0x00, 0x10, 0x44, 0x9A, 0xD8, 0x0F, 0x56, 0x00, 0x00, 0x00, 0x63, 0x9A, 0xD8, 0x0F, 0x58, 0x00, 0x00, 0x00, 0x65, 0x9A, 0xD8, 0x0F, 0x5A, 0x00, 0x00, 0x10, 0x63, 0x9A, 0xD8, 0x0F, 0x5C, 0x00, 0x00, 0x10, 0x65, 0x9A, 0xD8, 0x0F, 0x5E, 0x00, 0x00, 0x00, 0x20, 0x5C, 0xE0, - 0x01, 0x50, 0x04, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x54, 0x04, 0x80, 0xA0, 0x4C, 0x3C, 0x92, + 0x01, 0x50, 0x04, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x54, 0x04, 0x80, 0xA0, 0x07, 0x3C, 0x92, 0x3C, 0x10, 0x10, 0x80, 0x80, 0x11, 0x11, 0x82, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x58, 0x04, 0x80, - 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x5C, 0x04, 0x80, 0xA0, 0x4C, 0x3C, 0x92, 0x3C, 0x10, 0x10, 0x80, + 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x5C, 0x04, 0x80, 0xA0, 0x07, 0x3C, 0x92, 0x3C, 0x10, 0x10, 0x80, 0x80, 0x11, 0x11, 0x82, 0x7F, 0xC0, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x00, 0x84, 0xFE, 0xDB, 0x1B, 0x00, 0x00, 0x30, 0x00, 0x85, 0xFE, 0xDB, 0x1B, 0x00, 0x00, 0x34, 0x00, 0xA5, 0xFE, 0xDB, 0x1B, 0x00, 0x00, 0x38, 0x00, 0xA6, 0xFE, 0xDB, 0x1B, 0x00, 0x00, 0x3C, 0x00, 0x00, 0xFE, 0xDB, @@ -460,10 +553,16 @@ unsigned char bwd_fp16_causal_a16[] = { 0x0F, 0x42, 0x00, 0x00, 0x10, 0x00, 0x9A, 0xD8, 0x0F, 0x44, 0x00, 0x00, 0x10, 0x02, 0x9A, 0xD8, 0x0F, 0x46, 0x00, 0x00, 0x00, 0x21, 0x9A, 0xD8, 0x0F, 0x48, 0x00, 0x00, 0x00, 0x23, 0x9A, 0xD8, 0x0F, 0x4A, 0x00, 0x00, 0x10, 0x21, 0x9A, 0xD8, 0x0F, 0x4C, 0x00, 0x00, 0x10, 0x23, 0x9A, 0xD8, - 0x0F, 0x4E, 0x00, 0x00, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x20, 0x02, 0x80, 0x00, 0x20, 0x5C, 0xE0, + 0x0F, 0x4E, 0x00, 0x00, 0x46, 0x00, 0xC7, 0xBE, 0x83, 0x00, 0x38, 0x20, 0x81, 0x38, 0x3A, 0x26, + 0x81, 0x3A, 0x3A, 0x24, 0x84, 0x38, 0x3C, 0x26, 0x1E, 0x3B, 0x3A, 0x68, 0x82, 0x38, 0x3C, 0x26, + 0x82, 0x3C, 0x3C, 0x24, 0x1E, 0x3B, 0x3A, 0x68, 0x47, 0x3A, 0x3A, 0x0C, 0x87, 0x00, 0x38, 0x26, + 0x84, 0x38, 0x38, 0x24, 0x1C, 0x3B, 0x02, 0x68, 0x81, 0x2F, 0x3C, 0x86, 0x3C, 0x47, 0x3C, 0x92, + 0x3C, 0x90, 0x3C, 0x92, 0x2F, 0x81, 0x3D, 0x8F, 0x3D, 0xFF, 0x3D, 0x92, 0x80, 0x00, 0x00, 0x00, + 0x3C, 0x3D, 0x3C, 0x80, 0x3C, 0x02, 0x02, 0x68, 0x47, 0x02, 0x04, 0x68, 0x82, 0x02, 0x02, 0x20, + 0x82, 0x04, 0x04, 0x20, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x20, 0x02, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x24, 0x02, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x30, 0x05, 0x80, 0x00, 0x20, 0x5C, 0xE0, - 0x02, 0x34, 0x05, 0x80, 0x7F, 0xC0, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x4A, 0x08, 0x08, 0x80, - 0x80, 0x09, 0x09, 0x82, 0x4A, 0x14, 0x14, 0x80, 0x80, 0x15, 0x15, 0x82, 0x74, 0x00, 0x8C, 0xBF, + 0x02, 0x34, 0x05, 0x80, 0x7F, 0xC0, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x44, 0x08, 0x08, 0x80, + 0x80, 0x09, 0x09, 0x82, 0x44, 0x14, 0x14, 0x80, 0x80, 0x15, 0x15, 0x82, 0x74, 0x00, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x00, 0x42, 0x9A, 0xD8, 0x0F, 0x50, 0x00, 0x00, 0x00, 0x44, 0x9A, 0xD8, 0x0F, 0x52, 0x00, 0x00, 0x10, 0x42, 0x9A, 0xD8, 0x0F, 0x54, 0x00, 0x00, 0x10, 0x44, 0x9A, 0xD8, 0x0F, 0x56, 0x00, 0x00, 0x00, 0x63, 0x9A, 0xD8, 0x0F, 0x58, 0x00, 0x00, 0x00, 0x65, 0x9A, 0xD8, @@ -474,10 +573,10 @@ unsigned char bwd_fp16_causal_a16[] = { 0x1A, 0x00, 0x00, 0x40, 0x10, 0x04, 0xFE, 0xDB, 0x1A, 0x00, 0x00, 0x44, 0x40, 0x08, 0xFE, 0xDB, 0x1A, 0x00, 0x00, 0x48, 0x50, 0x0C, 0xFE, 0xDB, 0x1A, 0x00, 0x00, 0x4C, 0x80, 0x10, 0xFE, 0xDB, 0x1A, 0x00, 0x00, 0x50, 0x90, 0x14, 0xFE, 0xDB, 0x1A, 0x00, 0x00, 0x54, 0xC0, 0x18, 0xFE, 0xDB, - 0x1A, 0x00, 0x00, 0x58, 0xD0, 0x1C, 0xFE, 0xDB, 0x1A, 0x00, 0x00, 0x5C, 0x4A, 0x08, 0x08, 0x80, - 0x80, 0x09, 0x09, 0x82, 0x4A, 0x14, 0x14, 0x80, 0x80, 0x15, 0x15, 0x82, 0x74, 0x00, 0x8C, 0xBF, + 0x1A, 0x00, 0x00, 0x58, 0xD0, 0x1C, 0xFE, 0xDB, 0x1A, 0x00, 0x00, 0x5C, 0x44, 0x08, 0x08, 0x80, + 0x80, 0x09, 0x09, 0x82, 0x44, 0x14, 0x14, 0x80, 0x80, 0x15, 0x15, 0x82, 0x74, 0x00, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x00, 0x20, 0x51, 0xE0, 0x0D, 0x00, 0x06, 0x80, 0x4F, 0x00, 0xFC, 0xBE, - 0x4B, 0x1A, 0x1A, 0x68, 0x70, 0x00, 0xED, 0xD1, 0x24, 0x41, 0xFE, 0x00, 0x71, 0x00, 0xED, 0xD1, + 0x45, 0x1A, 0x1A, 0x68, 0x70, 0x00, 0xED, 0xD1, 0x24, 0x41, 0xFE, 0x00, 0x71, 0x00, 0xED, 0xD1, 0x24, 0x41, 0x02, 0x01, 0x72, 0x00, 0xED, 0xD1, 0x25, 0x43, 0xFE, 0x00, 0x73, 0x00, 0xED, 0xD1, 0x25, 0x43, 0x02, 0x01, 0x74, 0x00, 0xED, 0xD1, 0x26, 0x45, 0xFE, 0x00, 0x75, 0x00, 0xED, 0xD1, 0x26, 0x45, 0x02, 0x01, 0x76, 0x00, 0xED, 0xD1, 0x27, 0x47, 0xFE, 0x00, 0x77, 0x00, 0xED, 0xD1, @@ -488,7 +587,7 @@ unsigned char bwd_fp16_causal_a16[] = { 0x12, 0x77, 0x00, 0x00, 0x00, 0x00, 0x9A, 0xD8, 0x0F, 0x20, 0x00, 0x00, 0x00, 0x02, 0x9A, 0xD8, 0x0F, 0x22, 0x00, 0x00, 0x10, 0x00, 0x9A, 0xD8, 0x0F, 0x24, 0x00, 0x00, 0x10, 0x02, 0x9A, 0xD8, 0x0F, 0x26, 0x00, 0x00, 0x00, 0x20, 0x51, 0xE0, 0x0D, 0x00, 0x06, 0x80, 0x4E, 0x00, 0xFC, 0xBE, - 0x4B, 0x1A, 0x1A, 0x68, 0x78, 0x00, 0xED, 0xD1, 0x34, 0x61, 0xFE, 0x00, 0x79, 0x00, 0xED, 0xD1, + 0x45, 0x1A, 0x1A, 0x68, 0x78, 0x00, 0xED, 0xD1, 0x34, 0x61, 0xFE, 0x00, 0x79, 0x00, 0xED, 0xD1, 0x34, 0x61, 0x02, 0x01, 0x7A, 0x00, 0xED, 0xD1, 0x35, 0x63, 0xFE, 0x00, 0x7B, 0x00, 0xED, 0xD1, 0x35, 0x63, 0x02, 0x01, 0x7C, 0x00, 0xED, 0xD1, 0x36, 0x65, 0xFE, 0x00, 0x7D, 0x00, 0xED, 0xD1, 0x36, 0x65, 0x02, 0x01, 0x7E, 0x00, 0xED, 0xD1, 0x37, 0x67, 0xFE, 0x00, 0x7F, 0x00, 0xED, 0xD1, @@ -584,7 +683,7 @@ unsigned char bwd_fp16_causal_a16[] = { 0x00, 0x00, 0x8A, 0xBF, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x20, 0x02, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x24, 0x02, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x01, 0x30, 0x05, 0x80, 0x00, 0x20, 0x5C, 0xE0, 0x02, 0x34, 0x05, 0x80, 0x00, 0x20, 0x51, 0xE0, 0x0D, 0x00, 0x06, 0x80, 0x4F, 0x00, 0xFC, 0xBE, - 0x4B, 0x1A, 0x1A, 0x68, 0x4A, 0x08, 0x08, 0x80, 0x80, 0x09, 0x09, 0x82, 0x4A, 0x14, 0x14, 0x80, + 0x45, 0x1A, 0x1A, 0x68, 0x44, 0x08, 0x08, 0x80, 0x80, 0x09, 0x09, 0x82, 0x44, 0x14, 0x14, 0x80, 0x80, 0x15, 0x15, 0x82, 0x31, 0x90, 0x91, 0x0B, 0x31, 0x98, 0x99, 0x0B, 0x31, 0xA0, 0xA1, 0x0B, 0x31, 0xA8, 0xA9, 0x0B, 0x70, 0x00, 0xED, 0xD1, 0x2C, 0x51, 0xFE, 0x00, 0x71, 0x00, 0xED, 0xD1, 0x2C, 0x51, 0x02, 0x01, 0x72, 0x00, 0xED, 0xD1, 0x2D, 0x53, 0xFE, 0x00, 0x73, 0x00, 0xED, 0xD1, @@ -630,8 +729,8 @@ unsigned char bwd_fp16_causal_a16[] = { 0x0C, 0xF3, 0x08, 0x80, 0x42, 0x20, 0x20, 0x80, 0x80, 0x21, 0x21, 0x82, 0x40, 0x00, 0xCC, 0xD3, 0x7C, 0x39, 0x02, 0x1D, 0xC0, 0x7B, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0xC0, 0x10, 0x00, 0x9A, 0xD8, 0x0F, 0x2C, 0x00, 0x00, 0x10, 0x02, 0x9A, 0xD8, 0x0F, 0x2E, 0x00, 0x00, 0x40, 0x00, 0xCC, 0xD3, - 0x7E, 0x3D, 0x02, 0x1D, 0xC0, 0x7C, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0xC4, 0x45, 0x2F, 0x05, 0xBF, - 0x00, 0x00, 0x80, 0xBF, 0x56, 0x00, 0x84, 0xBF, 0x45, 0x2F, 0x04, 0xBF, 0x44, 0x00, 0x85, 0xBF, + 0x7E, 0x3D, 0x02, 0x1D, 0xC0, 0x7C, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0xC4, 0x48, 0x2F, 0x05, 0xBF, + 0x00, 0x00, 0x80, 0xBF, 0x56, 0x00, 0x84, 0xBF, 0x48, 0x2F, 0x04, 0xBF, 0x44, 0x00, 0x85, 0xBF, 0xC2, 0x00, 0xBC, 0xBE, 0xFF, 0x00, 0xBD, 0xBE, 0xE0, 0xFF, 0xFF, 0xFF, 0x40, 0x00, 0x00, 0xD1, 0x40, 0x3F, 0xF2, 0x00, 0x3C, 0x81, 0x3C, 0x8E, 0x3D, 0x81, 0x3D, 0x8E, 0x41, 0x00, 0x00, 0xD1, 0x41, 0x3F, 0xF2, 0x00, 0x3C, 0x81, 0x3C, 0x8E, 0x3D, 0x81, 0x3D, 0x8E, 0x42, 0x00, 0x00, 0xD1, @@ -653,7 +752,7 @@ unsigned char bwd_fp16_causal_a16[] = { 0x1F, 0x03, 0x88, 0x7E, 0x1F, 0x03, 0x8A, 0x7E, 0x1F, 0x03, 0x8C, 0x7E, 0x1F, 0x03, 0x8E, 0x7E, 0x1F, 0x03, 0x90, 0x7E, 0x1F, 0x03, 0x92, 0x7E, 0x1F, 0x03, 0x94, 0x7E, 0x1F, 0x03, 0x96, 0x7E, 0x1F, 0x03, 0x98, 0x7E, 0x1F, 0x03, 0x9A, 0x7E, 0x1F, 0x03, 0x9C, 0x7E, 0x1F, 0x03, 0x9E, 0x7E, - 0x01, 0x00, 0x45, 0xB7, 0x7F, 0xCA, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x60, 0x00, 0xCC, 0xD3, + 0x01, 0x00, 0x48, 0xB7, 0x7F, 0xCA, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x60, 0x00, 0xCC, 0xD3, 0x88, 0x81, 0x02, 0x12, 0x00, 0x21, 0xFE, 0xDB, 0x10, 0x00, 0x00, 0x60, 0x00, 0xA6, 0x6C, 0xD8, 0x17, 0x00, 0x00, 0xEC, 0x10, 0xA6, 0x6C, 0xD8, 0x17, 0x00, 0x00, 0xED, 0x20, 0xA6, 0x6C, 0xD8, 0x17, 0x00, 0x00, 0xEE, 0x60, 0x00, 0xCC, 0xD3, 0x8A, 0x85, 0x82, 0x15, 0x02, 0x00, 0x80, 0xBF, @@ -786,9 +885,9 @@ unsigned char bwd_fp16_causal_a16[] = { 0xD4, 0x55, 0x00, 0xFF, 0xFA, 0x02, 0xA8, 0x7F, 0xD4, 0x00, 0x00, 0xFF, 0xDC, 0x00, 0xCC, 0xD3, 0x3A, 0xB5, 0x72, 0x0F, 0x80, 0x52, 0xFE, 0xD9, 0x0E, 0x00, 0x00, 0x98, 0x90, 0x56, 0xFE, 0xD9, 0x0E, 0x00, 0x00, 0x9C, 0xFF, 0x3B, 0x3C, 0x80, 0x80, 0x00, 0x00, 0x00, 0x3C, 0x3A, 0x0A, 0xBF, - 0x4A, 0x80, 0x4A, 0x85, 0x4B, 0x80, 0x4B, 0x85, 0x4A, 0x08, 0x08, 0x80, 0x80, 0x09, 0x09, 0x82, - 0x4A, 0x14, 0x14, 0x80, 0x80, 0x15, 0x15, 0x82, 0xDC, 0x00, 0xCC, 0xD3, 0x3C, 0xB9, 0x72, 0x0F, - 0x4E, 0x00, 0xFC, 0xBE, 0x4B, 0x1A, 0x1A, 0x68, 0x3B, 0x4D, 0x09, 0xBF, 0x43, 0x42, 0x42, 0x85, + 0x44, 0x80, 0x44, 0x85, 0x45, 0x80, 0x45, 0x85, 0x44, 0x08, 0x08, 0x80, 0x80, 0x09, 0x09, 0x82, + 0x44, 0x14, 0x14, 0x80, 0x80, 0x15, 0x15, 0x82, 0xDC, 0x00, 0xCC, 0xD3, 0x3C, 0xB9, 0x72, 0x0F, + 0x4E, 0x00, 0xFC, 0xBE, 0x45, 0x1A, 0x1A, 0x68, 0x3B, 0x49, 0x09, 0xBF, 0x43, 0x42, 0x42, 0x85, 0xDC, 0x00, 0xCC, 0xD3, 0x3E, 0xBD, 0x72, 0x0F, 0xC0, 0x5A, 0xFE, 0xD9, 0x0E, 0x00, 0x00, 0xA0, 0xD0, 0x5E, 0xFE, 0xD9, 0x0E, 0x00, 0x00, 0xA4, 0x20, 0x00, 0x3B, 0xB7, 0x3B, 0x3A, 0x04, 0xBF, 0xF1, 0x02, 0x84, 0xBF, 0x7F, 0xC8, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x40, 0x00, 0xCC, 0xD3, @@ -818,8 +917,8 @@ unsigned char bwd_fp16_causal_a16[] = { 0x0C, 0xF3, 0x08, 0x80, 0x42, 0x20, 0x20, 0x80, 0x80, 0x21, 0x21, 0x82, 0x40, 0x00, 0xCC, 0xD3, 0x7C, 0x39, 0x02, 0x1D, 0xC0, 0x7B, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0xC0, 0x10, 0x00, 0x9A, 0xD8, 0x0F, 0x24, 0x00, 0x00, 0x10, 0x02, 0x9A, 0xD8, 0x0F, 0x26, 0x00, 0x00, 0x40, 0x00, 0xCC, 0xD3, - 0x7E, 0x3D, 0x02, 0x1D, 0xC0, 0x7C, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0xC4, 0x45, 0x2F, 0x05, 0xBF, - 0x00, 0x00, 0x80, 0xBF, 0x56, 0x00, 0x84, 0xBF, 0x45, 0x2F, 0x04, 0xBF, 0x44, 0x00, 0x85, 0xBF, + 0x7E, 0x3D, 0x02, 0x1D, 0xC0, 0x7C, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0xC4, 0x48, 0x2F, 0x05, 0xBF, + 0x00, 0x00, 0x80, 0xBF, 0x56, 0x00, 0x84, 0xBF, 0x48, 0x2F, 0x04, 0xBF, 0x44, 0x00, 0x85, 0xBF, 0xC2, 0x00, 0xBC, 0xBE, 0xFF, 0x00, 0xBD, 0xBE, 0xE0, 0xFF, 0xFF, 0xFF, 0x40, 0x00, 0x00, 0xD1, 0x40, 0x3F, 0xF2, 0x00, 0x3C, 0x81, 0x3C, 0x8E, 0x3D, 0x81, 0x3D, 0x8E, 0x41, 0x00, 0x00, 0xD1, 0x41, 0x3F, 0xF2, 0x00, 0x3C, 0x81, 0x3C, 0x8E, 0x3D, 0x81, 0x3D, 0x8E, 0x42, 0x00, 0x00, 0xD1, @@ -841,7 +940,7 @@ unsigned char bwd_fp16_causal_a16[] = { 0x1F, 0x03, 0x88, 0x7E, 0x1F, 0x03, 0x8A, 0x7E, 0x1F, 0x03, 0x8C, 0x7E, 0x1F, 0x03, 0x8E, 0x7E, 0x1F, 0x03, 0x90, 0x7E, 0x1F, 0x03, 0x92, 0x7E, 0x1F, 0x03, 0x94, 0x7E, 0x1F, 0x03, 0x96, 0x7E, 0x1F, 0x03, 0x98, 0x7E, 0x1F, 0x03, 0x9A, 0x7E, 0x1F, 0x03, 0x9C, 0x7E, 0x1F, 0x03, 0x9E, 0x7E, - 0x01, 0x00, 0x45, 0xB7, 0x7F, 0xCA, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x60, 0x00, 0xCC, 0xD3, + 0x01, 0x00, 0x48, 0xB7, 0x7F, 0xCA, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x60, 0x00, 0xCC, 0xD3, 0x88, 0x81, 0x02, 0x12, 0x00, 0x21, 0xFE, 0xDB, 0x10, 0x00, 0x00, 0x60, 0x00, 0xA6, 0x6C, 0xD8, 0x17, 0x00, 0x00, 0xEC, 0x10, 0xA6, 0x6C, 0xD8, 0x17, 0x00, 0x00, 0xED, 0x20, 0xA6, 0x6C, 0xD8, 0x17, 0x00, 0x00, 0xEE, 0x60, 0x00, 0xCC, 0xD3, 0x8A, 0x85, 0x82, 0x15, 0x02, 0x00, 0x80, 0xBF, @@ -974,9 +1073,9 @@ unsigned char bwd_fp16_causal_a16[] = { 0xD4, 0x55, 0x00, 0xFF, 0xFA, 0x02, 0xA8, 0x7F, 0xD4, 0x00, 0x00, 0xFF, 0xDC, 0x00, 0xCC, 0xD3, 0x3A, 0xB5, 0x72, 0x0F, 0x80, 0x52, 0xFE, 0xD9, 0x0E, 0x00, 0x00, 0x98, 0x90, 0x56, 0xFE, 0xD9, 0x0E, 0x00, 0x00, 0x9C, 0xFF, 0x3B, 0x3C, 0x80, 0x80, 0x00, 0x00, 0x00, 0x3C, 0x3A, 0x0A, 0xBF, - 0x4A, 0x80, 0x4A, 0x85, 0x4B, 0x80, 0x4B, 0x85, 0x4A, 0x08, 0x08, 0x80, 0x80, 0x09, 0x09, 0x82, - 0x4A, 0x14, 0x14, 0x80, 0x80, 0x15, 0x15, 0x82, 0xDC, 0x00, 0xCC, 0xD3, 0x3C, 0xB9, 0x72, 0x0F, - 0x4F, 0x00, 0xFC, 0xBE, 0x4B, 0x1A, 0x1A, 0x68, 0x3B, 0x4D, 0x09, 0xBF, 0x43, 0x42, 0x42, 0x85, + 0x44, 0x80, 0x44, 0x85, 0x45, 0x80, 0x45, 0x85, 0x44, 0x08, 0x08, 0x80, 0x80, 0x09, 0x09, 0x82, + 0x44, 0x14, 0x14, 0x80, 0x80, 0x15, 0x15, 0x82, 0xDC, 0x00, 0xCC, 0xD3, 0x3C, 0xB9, 0x72, 0x0F, + 0x4F, 0x00, 0xFC, 0xBE, 0x45, 0x1A, 0x1A, 0x68, 0x3B, 0x49, 0x09, 0xBF, 0x43, 0x42, 0x42, 0x85, 0xDC, 0x00, 0xCC, 0xD3, 0x3E, 0xBD, 0x72, 0x0F, 0xC0, 0x5A, 0xFE, 0xD9, 0x0E, 0x00, 0x00, 0xA0, 0xD0, 0x5E, 0xFE, 0xD9, 0x0E, 0x00, 0x00, 0xA4, 0x20, 0x00, 0x3B, 0xB7, 0x3B, 0x3A, 0x04, 0xBF, 0x01, 0x00, 0x84, 0xBF, 0x1F, 0xFA, 0x82, 0xBF, 0x00, 0x00, 0x80, 0xBF, 0x00, 0x00, 0x80, 0xBF, @@ -1008,8 +1107,8 @@ unsigned char bwd_fp16_causal_a16[] = { 0x7A, 0x35, 0x02, 0x1D, 0x80, 0x74, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0xBC, 0x10, 0x00, 0x9A, 0xD8, 0x0F, 0x2C, 0x00, 0x00, 0x10, 0x02, 0x9A, 0xD8, 0x0F, 0x2E, 0x00, 0x00, 0x40, 0x00, 0xCC, 0xD3, 0x7C, 0x39, 0x02, 0x1D, 0x40, 0x00, 0xCC, 0xD3, 0x7E, 0x3D, 0x02, 0x1D, 0xC0, 0x7B, 0xFE, 0xD9, - 0x10, 0x00, 0x00, 0xC0, 0xC0, 0x7C, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0xC4, 0x45, 0x2F, 0x05, 0xBF, - 0x00, 0x00, 0x80, 0xBF, 0x56, 0x00, 0x84, 0xBF, 0x45, 0x2F, 0x04, 0xBF, 0x44, 0x00, 0x85, 0xBF, + 0x10, 0x00, 0x00, 0xC0, 0xC0, 0x7C, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0xC4, 0x48, 0x2F, 0x05, 0xBF, + 0x00, 0x00, 0x80, 0xBF, 0x56, 0x00, 0x84, 0xBF, 0x48, 0x2F, 0x04, 0xBF, 0x44, 0x00, 0x85, 0xBF, 0xC2, 0x00, 0xBC, 0xBE, 0xFF, 0x00, 0xBD, 0xBE, 0xE0, 0xFF, 0xFF, 0xFF, 0x40, 0x00, 0x00, 0xD1, 0x40, 0x3F, 0xF2, 0x00, 0x3C, 0x81, 0x3C, 0x8E, 0x3D, 0x81, 0x3D, 0x8E, 0x41, 0x00, 0x00, 0xD1, 0x41, 0x3F, 0xF2, 0x00, 0x3C, 0x81, 0x3C, 0x8E, 0x3D, 0x81, 0x3D, 0x8E, 0x42, 0x00, 0x00, 0xD1, @@ -1031,7 +1130,7 @@ unsigned char bwd_fp16_causal_a16[] = { 0x1F, 0x03, 0x88, 0x7E, 0x1F, 0x03, 0x8A, 0x7E, 0x1F, 0x03, 0x8C, 0x7E, 0x1F, 0x03, 0x8E, 0x7E, 0x1F, 0x03, 0x90, 0x7E, 0x1F, 0x03, 0x92, 0x7E, 0x1F, 0x03, 0x94, 0x7E, 0x1F, 0x03, 0x96, 0x7E, 0x1F, 0x03, 0x98, 0x7E, 0x1F, 0x03, 0x9A, 0x7E, 0x1F, 0x03, 0x9C, 0x7E, 0x1F, 0x03, 0x9E, 0x7E, - 0x01, 0x00, 0x45, 0xB7, 0x7F, 0xCA, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x60, 0x00, 0xCC, 0xD3, + 0x01, 0x00, 0x48, 0xB7, 0x7F, 0xCA, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x60, 0x00, 0xCC, 0xD3, 0x88, 0x81, 0x02, 0x12, 0x02, 0x00, 0x80, 0xBF, 0x40, 0x00, 0xCB, 0xD1, 0x40, 0x73, 0x20, 0x87, 0x41, 0x00, 0xCB, 0xD1, 0x41, 0x73, 0x24, 0x87, 0x42, 0x00, 0xCB, 0xD1, 0x42, 0x73, 0x28, 0x87, 0x43, 0x00, 0xCB, 0xD1, 0x43, 0x73, 0x2C, 0x87, 0x60, 0x00, 0xCC, 0xD3, 0x8A, 0x85, 0x82, 0x15, @@ -1164,11 +1263,11 @@ unsigned char bwd_fp16_causal_a16[] = { 0xD4, 0xFF, 0x00, 0xFF, 0xFA, 0x02, 0xAC, 0x7F, 0xD4, 0xAA, 0x00, 0xFF, 0xDC, 0x00, 0xCC, 0xD3, 0x3A, 0xB5, 0x72, 0x0F, 0xFA, 0x02, 0xAA, 0x7F, 0xD4, 0x55, 0x00, 0xFF, 0xFA, 0x02, 0xA8, 0x7F, 0xD4, 0x00, 0x00, 0xFF, 0xFF, 0x3B, 0x3C, 0x80, 0x80, 0x00, 0x00, 0x00, 0x3C, 0x3A, 0x0A, 0xBF, - 0x4A, 0x80, 0x4A, 0x85, 0x4B, 0x80, 0x4B, 0x85, 0x4A, 0x08, 0x08, 0x80, 0x80, 0x09, 0x09, 0x82, - 0x4A, 0x14, 0x14, 0x80, 0x80, 0x15, 0x15, 0x82, 0xDC, 0x00, 0xCC, 0xD3, 0x3C, 0xB9, 0x72, 0x0F, + 0x44, 0x80, 0x44, 0x85, 0x45, 0x80, 0x45, 0x85, 0x44, 0x08, 0x08, 0x80, 0x80, 0x09, 0x09, 0x82, + 0x44, 0x14, 0x14, 0x80, 0x80, 0x15, 0x15, 0x82, 0xDC, 0x00, 0xCC, 0xD3, 0x3C, 0xB9, 0x72, 0x0F, 0xC0, 0x5A, 0xFE, 0xD9, 0x0E, 0x00, 0x00, 0xA0, 0xD0, 0x5E, 0xFE, 0xD9, 0x0E, 0x00, 0x00, 0xA4, - 0x3B, 0x4D, 0x09, 0xBF, 0x43, 0x42, 0x42, 0x85, 0xDC, 0x00, 0xCC, 0xD3, 0x3E, 0xBD, 0x72, 0x0F, - 0x4E, 0x00, 0xFC, 0xBE, 0x4B, 0x1A, 0x1A, 0x68, 0x20, 0x00, 0x3B, 0xB7, 0x3B, 0x3A, 0x04, 0xBF, + 0x3B, 0x49, 0x09, 0xBF, 0x43, 0x42, 0x42, 0x85, 0xDC, 0x00, 0xCC, 0xD3, 0x3E, 0xBD, 0x72, 0x0F, + 0x4E, 0x00, 0xFC, 0xBE, 0x45, 0x1A, 0x1A, 0x68, 0x20, 0x00, 0x3B, 0xB7, 0x3B, 0x3A, 0x04, 0xBF, 0x09, 0xFD, 0x84, 0xBF, 0x7F, 0xC8, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x40, 0x00, 0xCC, 0xD3, 0x60, 0x01, 0x02, 0x1A, 0x30, 0xB8, 0xB9, 0x0B, 0x30, 0xBA, 0xBB, 0x0B, 0x30, 0xBC, 0xBD, 0x0B, 0x30, 0xBE, 0xBF, 0x0B, 0x30, 0xC0, 0xC1, 0x0B, 0x30, 0xC2, 0xC3, 0x0B, 0x40, 0x00, 0xCC, 0xD3, @@ -1196,8 +1295,8 @@ unsigned char bwd_fp16_causal_a16[] = { 0x7A, 0x35, 0x02, 0x1D, 0x80, 0x74, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0xBC, 0x10, 0x00, 0x9A, 0xD8, 0x0F, 0x24, 0x00, 0x00, 0x10, 0x02, 0x9A, 0xD8, 0x0F, 0x26, 0x00, 0x00, 0x40, 0x00, 0xCC, 0xD3, 0x7C, 0x39, 0x02, 0x1D, 0x40, 0x00, 0xCC, 0xD3, 0x7E, 0x3D, 0x02, 0x1D, 0xC0, 0x7B, 0xFE, 0xD9, - 0x10, 0x00, 0x00, 0xC0, 0xC0, 0x7C, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0xC4, 0x45, 0x2F, 0x05, 0xBF, - 0x00, 0x00, 0x80, 0xBF, 0x56, 0x00, 0x84, 0xBF, 0x45, 0x2F, 0x04, 0xBF, 0x44, 0x00, 0x85, 0xBF, + 0x10, 0x00, 0x00, 0xC0, 0xC0, 0x7C, 0xFE, 0xD9, 0x10, 0x00, 0x00, 0xC4, 0x48, 0x2F, 0x05, 0xBF, + 0x00, 0x00, 0x80, 0xBF, 0x56, 0x00, 0x84, 0xBF, 0x48, 0x2F, 0x04, 0xBF, 0x44, 0x00, 0x85, 0xBF, 0xC2, 0x00, 0xBC, 0xBE, 0xFF, 0x00, 0xBD, 0xBE, 0xE0, 0xFF, 0xFF, 0xFF, 0x40, 0x00, 0x00, 0xD1, 0x40, 0x3F, 0xF2, 0x00, 0x3C, 0x81, 0x3C, 0x8E, 0x3D, 0x81, 0x3D, 0x8E, 0x41, 0x00, 0x00, 0xD1, 0x41, 0x3F, 0xF2, 0x00, 0x3C, 0x81, 0x3C, 0x8E, 0x3D, 0x81, 0x3D, 0x8E, 0x42, 0x00, 0x00, 0xD1, @@ -1219,7 +1318,7 @@ unsigned char bwd_fp16_causal_a16[] = { 0x1F, 0x03, 0x88, 0x7E, 0x1F, 0x03, 0x8A, 0x7E, 0x1F, 0x03, 0x8C, 0x7E, 0x1F, 0x03, 0x8E, 0x7E, 0x1F, 0x03, 0x90, 0x7E, 0x1F, 0x03, 0x92, 0x7E, 0x1F, 0x03, 0x94, 0x7E, 0x1F, 0x03, 0x96, 0x7E, 0x1F, 0x03, 0x98, 0x7E, 0x1F, 0x03, 0x9A, 0x7E, 0x1F, 0x03, 0x9C, 0x7E, 0x1F, 0x03, 0x9E, 0x7E, - 0x01, 0x00, 0x45, 0xB7, 0x7F, 0xCA, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x60, 0x00, 0xCC, 0xD3, + 0x01, 0x00, 0x48, 0xB7, 0x7F, 0xCA, 0x8C, 0xBF, 0x00, 0x00, 0x8A, 0xBF, 0x60, 0x00, 0xCC, 0xD3, 0x88, 0x81, 0x02, 0x12, 0x02, 0x00, 0x80, 0xBF, 0x40, 0x00, 0xCB, 0xD1, 0x40, 0x73, 0x20, 0x87, 0x41, 0x00, 0xCB, 0xD1, 0x41, 0x73, 0x24, 0x87, 0x42, 0x00, 0xCB, 0xD1, 0x42, 0x73, 0x28, 0x87, 0x43, 0x00, 0xCB, 0xD1, 0x43, 0x73, 0x2C, 0x87, 0x60, 0x00, 0xCC, 0xD3, 0x8A, 0x85, 0x82, 0x15, @@ -1352,11 +1451,11 @@ unsigned char bwd_fp16_causal_a16[] = { 0xD4, 0xFF, 0x00, 0xFF, 0xFA, 0x02, 0xAC, 0x7F, 0xD4, 0xAA, 0x00, 0xFF, 0xDC, 0x00, 0xCC, 0xD3, 0x3A, 0xB5, 0x72, 0x0F, 0xFA, 0x02, 0xAA, 0x7F, 0xD4, 0x55, 0x00, 0xFF, 0xFA, 0x02, 0xA8, 0x7F, 0xD4, 0x00, 0x00, 0xFF, 0xFF, 0x3B, 0x3C, 0x80, 0x80, 0x00, 0x00, 0x00, 0x3C, 0x3A, 0x0A, 0xBF, - 0x4A, 0x80, 0x4A, 0x85, 0x4B, 0x80, 0x4B, 0x85, 0x4A, 0x08, 0x08, 0x80, 0x80, 0x09, 0x09, 0x82, - 0x4A, 0x14, 0x14, 0x80, 0x80, 0x15, 0x15, 0x82, 0xDC, 0x00, 0xCC, 0xD3, 0x3C, 0xB9, 0x72, 0x0F, + 0x44, 0x80, 0x44, 0x85, 0x45, 0x80, 0x45, 0x85, 0x44, 0x08, 0x08, 0x80, 0x80, 0x09, 0x09, 0x82, + 0x44, 0x14, 0x14, 0x80, 0x80, 0x15, 0x15, 0x82, 0xDC, 0x00, 0xCC, 0xD3, 0x3C, 0xB9, 0x72, 0x0F, 0xC0, 0x5A, 0xFE, 0xD9, 0x0E, 0x00, 0x00, 0xA0, 0xD0, 0x5E, 0xFE, 0xD9, 0x0E, 0x00, 0x00, 0xA4, - 0x3B, 0x4D, 0x09, 0xBF, 0x43, 0x42, 0x42, 0x85, 0xDC, 0x00, 0xCC, 0xD3, 0x3E, 0xBD, 0x72, 0x0F, - 0x4F, 0x00, 0xFC, 0xBE, 0x4B, 0x1A, 0x1A, 0x68, 0x20, 0x00, 0x3B, 0xB7, 0x3B, 0x3A, 0x04, 0xBF, + 0x3B, 0x49, 0x09, 0xBF, 0x43, 0x42, 0x42, 0x85, 0xDC, 0x00, 0xCC, 0xD3, 0x3E, 0xBD, 0x72, 0x0F, + 0x4F, 0x00, 0xFC, 0xBE, 0x45, 0x1A, 0x1A, 0x68, 0x20, 0x00, 0x3B, 0xB7, 0x3B, 0x3A, 0x04, 0xBF, 0x19, 0xFA, 0x84, 0xBF, 0x1F, 0xFA, 0x82, 0xBF, 0x00, 0x20, 0x38, 0xE1, 0x0A, 0xF1, 0x08, 0x80, 0x00, 0x20, 0x38, 0xE1, 0x0B, 0xF2, 0x08, 0x80, 0x00, 0x20, 0x38, 0xE1, 0x0C, 0xF3, 0x08, 0x80, 0x42, 0x20, 0x20, 0x80, 0x80, 0x21, 0x21, 0x82, 0x85, 0x00, 0x38, 0x20, 0x83, 0x38, 0x36, 0x24, @@ -1467,38 +1566,38 @@ unsigned char bwd_fp16_causal_a16[] = { 0x30, 0x0C, 0xFE, 0xD9, 0x1A, 0x00, 0x00, 0x4C, 0x40, 0x10, 0xFE, 0xD9, 0x1A, 0x00, 0x00, 0x50, 0x50, 0x14, 0xFE, 0xD9, 0x1A, 0x00, 0x00, 0x54, 0x60, 0x18, 0xFE, 0xD9, 0x1A, 0x00, 0x00, 0x58, 0x70, 0x1C, 0xFE, 0xD9, 0x1A, 0x00, 0x00, 0x5C, 0x7F, 0xC0, 0x8C, 0xBF, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x40, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x41, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x42, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x43, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x44, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x45, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x46, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x47, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x48, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x49, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x4A, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x4B, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x4C, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x4D, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x4E, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x4F, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x50, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x51, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x52, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x53, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x54, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x55, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x56, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x57, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x58, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x59, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x5A, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x5B, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x5C, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x5D, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x5E, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x03, 0x5F, 0x09, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x00, 0x8A, 0xBF, + 0x03, 0x40, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x41, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x42, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x43, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x44, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x45, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x46, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x47, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x48, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x49, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x4A, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x4B, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x4C, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x4D, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x4E, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x4F, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x50, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x51, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x52, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x53, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x54, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x55, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x56, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x57, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x58, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x59, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x5A, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x5B, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x5C, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x5D, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x5E, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x03, 0x5F, 0x09, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x06, 0x06, 0x68, 0x00, 0x00, 0x8A, 0xBF, 0x80, 0x40, 0xD8, 0xD3, 0xC0, 0x01, 0x00, 0x18, 0x81, 0x40, 0xD8, 0xD3, 0xC1, 0x01, 0x00, 0x18, 0x80, 0x00, 0x96, 0xD2, 0x80, 0x03, 0x03, 0x00, 0x82, 0x40, 0xD8, 0xD3, 0xC2, 0x01, 0x00, 0x18, 0x83, 0x40, 0xD8, 0xD3, 0xC3, 0x01, 0x00, 0x18, 0x81, 0x00, 0x96, 0xD2, 0x82, 0x07, 0x03, 0x00, @@ -1568,74 +1667,74 @@ unsigned char bwd_fp16_causal_a16[] = { 0x30, 0x0C, 0xFE, 0xD9, 0x1A, 0x00, 0x00, 0x8C, 0x40, 0x10, 0xFE, 0xD9, 0x1A, 0x00, 0x00, 0x90, 0x50, 0x14, 0xFE, 0xD9, 0x1A, 0x00, 0x00, 0x94, 0x60, 0x18, 0xFE, 0xD9, 0x1A, 0x00, 0x00, 0x98, 0x70, 0x1C, 0xFE, 0xD9, 0x1A, 0x00, 0x00, 0x9C, 0x7F, 0xC0, 0x8C, 0xBF, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x80, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x81, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x82, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x83, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x84, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x85, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x86, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x87, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x88, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x89, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x8A, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x8B, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x8C, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x8D, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x8E, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x8F, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x90, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x91, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x92, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x93, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x94, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x95, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x96, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x97, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x98, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x99, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x9A, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x9B, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x9C, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x9D, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x9E, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, - 0x04, 0x9F, 0x0A, 0x80, 0x4C, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x00, 0x8C, 0xBF, + 0x04, 0x80, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x81, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x82, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x83, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x84, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x85, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x86, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x87, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x88, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x89, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x8A, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x8B, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x8C, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x8D, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x8E, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x8F, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x90, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x91, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x92, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x93, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x94, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x95, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x96, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x97, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x98, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x99, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x9A, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x9B, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x9C, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x9D, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x9E, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x20, 0x70, 0xE0, + 0x04, 0x9F, 0x0A, 0x80, 0x2E, 0x82, 0x3C, 0x8F, 0x3C, 0x08, 0x08, 0x68, 0x00, 0x00, 0x8C, 0xBF, 0x50, 0x00, 0xA0, 0xBE, 0x51, 0x00, 0xA1, 0xBE, 0x32, 0x87, 0x3C, 0x8F, 0x3C, 0x81, 0xBC, 0x81, - 0x3C, 0x2C, 0xAC, 0x81, 0x01, 0x00, 0x48, 0xB7, 0x48, 0x49, 0x04, 0xBF, 0x2C, 0xEC, 0x85, 0xBF, + 0x3C, 0x02, 0x82, 0x81, 0x01, 0x00, 0x4C, 0xB7, 0x4C, 0x4D, 0x04, 0xBF, 0x09, 0xEC, 0x85, 0xBF, 0x00, 0x00, 0x81, 0xBF, 0x00, 0x00, 0x00, 0x00, 0x06, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x20, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x0B, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x58, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x0B, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x18, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x05, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0xAC, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x0A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xE4, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x0A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x1C, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xF5, 0xFE, 0xFF, 0x6F, 0x00, 0x00, 0x00, 0x00, - 0x68, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x8C, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xA0, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xC4, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x4C, 0x69, 0x6E, 0x6B, 0x65, 0x72, 0x3A, 0x20, 0x41, 0x4D, 0x44, 0x20, 0x4C, 0x4C, 0x44, 0x20, 0x31, 0x37, 0x2E, 0x30, 0x2E, 0x30, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, - 0xA0, 0x24, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x0C, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0x24, 0x4D, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x44, 0x2A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x0C, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0x54, 0x53, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x17, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, - 0x84, 0x35, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x22, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0xA0, 0x38, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xB4, 0x3B, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x22, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0xD0, 0x3E, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x2D, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, - 0x60, 0x38, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x38, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0x08, 0x4D, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x90, 0x3E, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x38, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0x38, 0x53, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x43, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, - 0x60, 0x44, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x4E, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0x20, 0x44, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x90, 0x4A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x4E, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0x50, 0x4A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x59, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, - 0xA8, 0x64, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x64, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0x40, 0x50, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xD8, 0x6A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x64, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0x70, 0x56, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x6F, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, - 0x00, 0x50, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x7A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0x00, 0x5C, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x30, 0x56, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x7A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0x30, 0x62, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x85, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, - 0xC0, 0x5B, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0xAB, 0x00, 0x00, 0x00, 0x00, 0x02, 0x08, 0x00, 0xF8, 0x83, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xF0, 0x61, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xAB, 0x00, 0x00, 0x00, 0x00, 0x02, 0x08, 0x00, 0x28, 0x8A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x90, 0x00, 0x00, 0x00, 0x12, 0x03, 0x07, 0x00, - 0x00, 0x22, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x9C, 0x00, 0x00, 0x00, 0x11, 0x00, 0x06, 0x00, 0x00, 0x11, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x27, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x9C, 0x00, 0x00, 0x00, 0x11, 0x00, 0x06, 0x00, 0x00, 0x16, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x2E, 0x6E, 0x6F, 0x74, 0x65, 0x00, 0x2E, 0x64, 0x79, 0x6E, 0x73, 0x79, 0x6D, 0x00, 0x2E, 0x67, 0x6E, 0x75, 0x2E, 0x68, 0x61, 0x73, 0x68, 0x00, 0x2E, 0x68, 0x61, 0x73, 0x68, 0x00, 0x2E, 0x64, 0x79, 0x6E, 0x73, 0x74, 0x72, 0x00, 0x2E, @@ -1643,15 +1742,15 @@ unsigned char bwd_fp16_causal_a16[] = { 0x6E, 0x61, 0x6D, 0x69, 0x63, 0x00, 0x2E, 0x63, 0x6F, 0x6D, 0x6D, 0x65, 0x6E, 0x74, 0x00, 0x2E, 0x73, 0x79, 0x6D, 0x74, 0x61, 0x62, 0x00, 0x2E, 0x73, 0x68, 0x73, 0x74, 0x72, 0x74, 0x61, 0x62, 0x00, 0x2E, 0x73, 0x74, 0x72, 0x74, 0x61, 0x62, 0x00, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, - 0x30, 0x30, 0x41, 0x38, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x41, 0x43, 0x39, 0x00, - 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x34, 0x45, 0x31, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, - 0x5F, 0x30, 0x35, 0x41, 0x38, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x35, 0x39, 0x38, - 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x41, 0x43, 0x32, 0x00, 0x6C, 0x61, 0x62, 0x65, - 0x6C, 0x5F, 0x30, 0x38, 0x39, 0x38, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x38, 0x38, - 0x38, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x31, 0x30, 0x41, 0x41, 0x00, 0x6C, 0x61, 0x62, - 0x65, 0x6C, 0x5F, 0x30, 0x42, 0x39, 0x30, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x42, - 0x38, 0x30, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x45, 0x38, 0x30, 0x00, 0x6C, 0x61, - 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x45, 0x37, 0x30, 0x00, 0x6B, 0x65, 0x72, 0x6E, 0x65, 0x6C, 0x5F, + 0x30, 0x30, 0x44, 0x31, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x42, 0x31, 0x35, 0x00, + 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x35, 0x32, 0x44, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, + 0x5F, 0x30, 0x35, 0x46, 0x34, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x35, 0x45, 0x34, + 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x42, 0x30, 0x45, 0x00, 0x6C, 0x61, 0x62, 0x65, + 0x6C, 0x5F, 0x30, 0x38, 0x45, 0x34, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x38, 0x44, + 0x34, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x31, 0x30, 0x46, 0x36, 0x00, 0x6C, 0x61, 0x62, + 0x65, 0x6C, 0x5F, 0x30, 0x42, 0x44, 0x43, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x42, + 0x43, 0x43, 0x00, 0x6C, 0x61, 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x45, 0x43, 0x43, 0x00, 0x6C, 0x61, + 0x62, 0x65, 0x6C, 0x5F, 0x30, 0x45, 0x42, 0x43, 0x00, 0x6B, 0x65, 0x72, 0x6E, 0x65, 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, 0x00, 0x6B, 0x65, 0x72, 0x6E, 0x65, 0x6C, 0x5F, 0x66, 0x75, 0x6E, 0x63, 0x2E, 0x6B, 0x64, 0x00, 0x5F, 0x44, 0x59, 0x4E, 0x41, 0x4D, 0x49, 0x43, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, @@ -1660,49 +1759,49 @@ unsigned char bwd_fp16_causal_a16[] = { 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x07, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x1C, 0x0E, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x54, 0x13, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x07, 0x00, 0x00, 0x00, 0x0B, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x20, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x20, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x58, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x58, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x48, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x05, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x08, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x18, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x0F, 0x00, 0x00, 0x00, 0xF6, 0xFF, 0xFF, 0x6F, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x68, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x68, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xA0, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xA0, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x24, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x08, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x19, 0x00, 0x00, 0x00, 0x05, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x8C, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x8C, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xC4, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xC4, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x20, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x04, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x1F, 0x00, 0x00, 0x00, 0x03, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0xAC, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xAC, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0xE4, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xE4, 0x15, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x1C, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x27, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x11, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x11, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x16, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x16, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x40, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x2F, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x06, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x22, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x12, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0xF4, 0x51, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x27, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x17, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x24, 0x53, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x35, 0x00, 0x00, 0x00, 0x06, 0x00, 0x00, 0x00, 0x03, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0xF8, 0x83, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xF8, 0x63, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x28, 0x8A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x28, 0x6A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x70, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x05, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x08, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x3E, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x30, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x68, 0x64, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x98, 0x6A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x17, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x47, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x80, 0x64, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xB0, 0x6A, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x98, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x0C, 0x00, 0x00, 0x00, 0x0F, 0x00, 0x00, 0x00, 0x08, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x18, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x4F, 0x00, 0x00, 0x00, 0x03, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x18, 0x66, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x48, 0x6C, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x61, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x59, 0x00, 0x00, 0x00, 0x03, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, - 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x79, 0x66, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, + 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xA9, 0x6C, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xB4, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00}; diff --git a/example/ck_tile/01_fmha/script/smoke_test_bwd_ext.sh b/example/ck_tile/01_fmha/script/smoke_test_bwd_ext.sh index 923bbcb503..2e380993fd 100644 --- a/example/ck_tile/01_fmha/script/smoke_test_bwd_ext.sh +++ b/example/ck_tile/01_fmha/script/smoke_test_bwd_ext.sh @@ -15,8 +15,8 @@ for asm_atomic_fp32 in 0 1 ; do for asm_no_coex in 0 1 ; do for mask in 0 1 ; do -$EXE -prec=$prec -b=4 -h=2 -d=$hdim -s=512 -iperm=$perm -operm=$perm -mask=$mask -ext_asm=1 -asm_atomic_fp32=$asm_atomic_fp32 -asm_no_coex=$asm_no_coex -v=1 -mode=0 -kname=$KNAME $COMMON_ARGS -$EXE -prec=$prec -b=1 -h=3 -d=$hdim -s=768 -iperm=$perm -operm=$perm -mask=$mask -ext_asm=1 -asm_atomic_fp32=$asm_atomic_fp32 -asm_no_coex=$asm_no_coex -v=1 -mode=0 -kname=$KNAME $COMMON_ARGS +$EXE -prec=$prec -b=4 -h=2 -d=$hdim -s=512 -iperm=$perm -operm=$perm -mask=$mask -ext_asm=1 -asm_atomic_fp32=$asm_atomic_fp32 -asm_no_coex=$asm_no_coex -mode=0 -kname=$KNAME $COMMON_ARGS +$EXE -prec=$prec -b=1 -h=3 -d=$hdim -s=768 -iperm=$perm -operm=$perm -mask=$mask -ext_asm=1 -asm_atomic_fp32=$asm_atomic_fp32 -asm_no_coex=$asm_no_coex -mode=0 -kname=$KNAME $COMMON_ARGS done done diff --git a/example/ck_tile/01_fmha/script/smoke_test_bwd_xqa_ext.sh b/example/ck_tile/01_fmha/script/smoke_test_bwd_xqa_ext.sh new file mode 100644 index 0000000000..ad2e34fe13 --- /dev/null +++ b/example/ck_tile/01_fmha/script/smoke_test_bwd_xqa_ext.sh @@ -0,0 +1,23 @@ +#!/bin/sh +# TODO: run this script from CK root or build directory +EXE="$(find . -name tile_example_fmha_bwd -type f | head -n 1)" +KNAME=1 + +export CK_WARMUP=0 +export CK_REPEAT=1 + +COMMON_ARGS='-v=1' +set -x +for prec in "fp16" "bf16" ; do +for perm in 0 1 ; do +for hdim in 128 ; do +for mask in 0 1 ; do + +$EXE -prec=$prec -b=2 -h=4 -h_k=2 -d=$hdim -s=512 -iperm=$perm -operm=$perm -mask=$mask -ext_asm=1 -asm_atomic_fp32=0 -mode=0 -kname=$KNAME $COMMON_ARGS +$EXE -prec=$prec -b=1 -h=3 -h_k=1 -d=$hdim -s=768 -iperm=$perm -operm=$perm -mask=$mask -ext_asm=1 -asm_atomic_fp32=0 -mode=0 -kname=$KNAME $COMMON_ARGS + +done +done +done +done +set +x