使用官方的Qwen-xxB-Chat-Int4转TRT，都用greedy sereach，TRT和torch的结果不一致正常吗 #57

byjswr · 2023-12-29T06:45:31Z

使用官方的Qwen-xxB-Chat-Int4转TRT，都用greedy sereach，TRT和torch的结果不一致正常吗
python build.py --hf_model_dir Qwen-7B-Chat-Int4/
--quant_ckpt_path Qwen-7B-Chat-Int4/
--dtype float16
--remove_input_padding
--use_gpt_attention_plugin float16
--enable_context_fmha
--use_gemm_plugin float16
--use_weight_only
--weight_only_precision int4_gptq
--per_group
--world_size 1
--tp_size 1
--output_dir models/7B-int4/1_fp16-gpu

Tlntin · 2023-12-29T07:48:40Z

或许正常，可以给一个案例说明一下，可能是推理参数不一样导致的。

byjswr · 2023-12-30T09:25:19Z

请问一下，我用了8张40G的A100 将72B的模型转fp16，rotary_base=1000000，max_input_len=12000，max_output_le=2048，debug看了一下gpt_attention后的结果与torch的fp16误差较大有可能是什么情况

byjswr · 2023-12-30T09:28:53Z

用register_network_output方式打印的，gpt_attention之前的值是一模一样的，但是过了gpt_attention就变得有点大了。

Tlntin · 2023-12-31T01:41:36Z

Debug的时候检查一下Attention的 seq_length是否传对了，应该是32k。

byjswr · 2023-12-31T02:06:50Z

我用的好像就是seq_length = 32768，

byjswr · 2023-12-31T02:23:38Z

补充一下，7B的我测试了，转fp16是一致的，里面的value和最终输出的结果和torchfp16保持一致

byjswr · 2023-12-31T02:24:20Z

是不是7B和72B的gpt_attention部分有些许的不同导致的

Tlntin · 2023-12-31T05:12:06Z

我用的好像就是seq_length = 32768，

Debug的时候看看attention那里传入的参数配置看看是否正常。

Hukongtao · 2024-01-31T10:24:04Z

用register_network_output方式打印的，gpt_attention之前的值是一模一样的，但是过了gpt_attention就变得有点大了。

Is your problem solved? Qwen 1.8B model also has this problem

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

使用官方的Qwen-xxB-Chat-Int4转TRT，都用greedy sereach，TRT和torch的结果不一致正常吗 #57

使用官方的Qwen-xxB-Chat-Int4转TRT，都用greedy sereach，TRT和torch的结果不一致正常吗 #57

byjswr commented Dec 29, 2023

Tlntin commented Dec 29, 2023

byjswr commented Dec 30, 2023

byjswr commented Dec 30, 2023

Tlntin commented Dec 31, 2023

byjswr commented Dec 31, 2023

byjswr commented Dec 31, 2023

byjswr commented Dec 31, 2023

Tlntin commented Dec 31, 2023

Hukongtao commented Jan 31, 2024

使用官方的Qwen-xxB-Chat-Int4转TRT，都用greedy sereach，TRT和torch的结果不一致正常吗 #57

使用官方的Qwen-xxB-Chat-Int4转TRT，都用greedy sereach，TRT和torch的结果不一致正常吗 #57

Comments

byjswr commented Dec 29, 2023

Tlntin commented Dec 29, 2023

byjswr commented Dec 30, 2023

byjswr commented Dec 30, 2023

Tlntin commented Dec 31, 2023

byjswr commented Dec 31, 2023

byjswr commented Dec 31, 2023

byjswr commented Dec 31, 2023

Tlntin commented Dec 31, 2023

Hukongtao commented Jan 31, 2024