mlcommons
diff --git a/‎closed/MLCommons/compliance/RTX4090x1-nvidia-gpu-TensorRT-default_config/bert-99/offline/TEST01/accuracy/accuracy.txt
+1-1 b/‎closed/MLCommons/compliance/RTX4090x1-nvidia-gpu-TensorRT-default_config/bert-99/offline/TEST01/accuracy/accuracy.txt
+1-1
diff --git a/‎closed/MLCommons/compliance/RTX4090x1-nvidia-gpu-TensorRT-default_config/bert-99/offline/TEST01/accuracy/baseline_accuracy.txt
+1-1 b/‎closed/MLCommons/compliance/RTX4090x1-nvidia-gpu-TensorRT-default_config/bert-99/offline/TEST01/accuracy/baseline_accuracy.txt
+1-1
diff --git a/‎closed/MLCommons/compliance/RTX4090x1-nvidia-gpu-TensorRT-default_config/bert-99/offline/TEST01/accuracy/compliance_accuracy.txt
+1-1 b/‎closed/MLCommons/compliance/RTX4090x1-nvidia-gpu-TensorRT-default_config/bert-99/offline/TEST01/accuracy/compliance_accuracy.txt
+1-1
diff --git a/‎closed/MLCommons/compliance/RTX4090x1-nvidia-gpu-TensorRT-default_config/bert-99/offline/TEST01/accuracy/mlperf_log_accuracy.json
+13-13 b/‎closed/MLCommons/compliance/RTX4090x1-nvidia-gpu-TensorRT-default_config/bert-99/offline/TEST01/accuracy/mlperf_log_accuracy.json
+13-13
diff --git a/‎closed/MLCommons/compliance/RTX4090x1-nvidia-gpu-TensorRT-default_config/bert-99/offline/TEST01/performance/run_1/mlperf_log_detail.txt
+88-88 b/‎closed/MLCommons/compliance/RTX4090x1-nvidia-gpu-TensorRT-default_config/bert-99/offline/TEST01/performance/run_1/mlperf_log_detail.txt
+88-88
diff --git a/‎closed/MLCommons/compliance/RTX4090x1-nvidia-gpu-TensorRT-default_config/bert-99/offline/TEST01/performance/run_1/mlperf_log_summary.txt
+12-12 b/‎closed/MLCommons/compliance/RTX4090x1-nvidia-gpu-TensorRT-default_config/bert-99/offline/TEST01/performance/run_1/mlperf_log_summary.txt
+12-12
diff --git a/‎closed/MLCommons/compliance/RTX4090x1-nvidia-gpu-TensorRT-default_config/bert-99/offline/TEST01/verify_accuracy.txt
+3-3 b/‎closed/MLCommons/compliance/RTX4090x1-nvidia-gpu-TensorRT-default_config/bert-99/offline/TEST01/verify_accuracy.txt
+3-3
diff --git a/‎closed/MLCommons/compliance/RTX4090x1-nvidia-gpu-TensorRT-default_config/bert-99/offline/TEST01/verify_performance.txt
+2-2 b/‎closed/MLCommons/compliance/RTX4090x1-nvidia-gpu-TensorRT-default_config/bert-99/offline/TEST01/verify_performance.txt
+2-2
diff --git a/‎closed/MLCommons/compliance/RTX4090x1-nvidia-gpu-TensorRT-default_config/bert-99/singlestream/TEST01/accuracy/accuracy.txt
+1-1 b/‎closed/MLCommons/compliance/RTX4090x1-nvidia-gpu-TensorRT-default_config/bert-99/singlestream/TEST01/accuracy/accuracy.txt
+1-1
diff --git a/‎closed/MLCommons/compliance/RTX4090x1-nvidia-gpu-TensorRT-default_config/bert-99/singlestream/TEST01/accuracy/mlperf_log_accuracy.json
+6-6 b/‎closed/MLCommons/compliance/RTX4090x1-nvidia-gpu-TensorRT-default_config/bert-99/singlestream/TEST01/accuracy/mlperf_log_accuracy.json
+6-6
diff --git a/‎closed/MLCommons/compliance/RTX4090x1-nvidia-gpu-TensorRT-default_config/bert-99/singlestream/TEST01/performance/run_1/mlperf_log_detail.txt
+92-92 b/‎closed/MLCommons/compliance/RTX4090x1-nvidia-gpu-TensorRT-default_config/bert-99/singlestream/TEST01/performance/run_1/mlperf_log_detail.txt
+92-92
diff --git a/‎closed/MLCommons/compliance/RTX4090x1-nvidia-gpu-TensorRT-default_config/bert-99/singlestream/TEST01/performance/run_1/mlperf_log_summary.txt
+17-17 b/‎closed/MLCommons/compliance/RTX4090x1-nvidia-gpu-TensorRT-default_config/bert-99/singlestream/TEST01/performance/run_1/mlperf_log_summary.txt
+17-17
diff --git a/‎closed/MLCommons/compliance/RTX4090x1-nvidia-gpu-TensorRT-default_config/bert-99/singlestream/TEST01/verify_accuracy.txt
+2-2 b/‎closed/MLCommons/compliance/RTX4090x1-nvidia-gpu-TensorRT-default_config/bert-99/singlestream/TEST01/verify_accuracy.txt
+2-2
diff --git a/‎closed/MLCommons/compliance/RTX4090x1-nvidia-gpu-TensorRT-default_config/bert-99/singlestream/TEST01/verify_performance.txt
+2-2 b/‎closed/MLCommons/compliance/RTX4090x1-nvidia-gpu-TensorRT-default_config/bert-99/singlestream/TEST01/verify_performance.txt
+2-2
diff --git a/‎closed/MLCommons/measurements/RTX4090x1-nvidia-gpu-TensorRT-default_config/README.md
+4-4 b/‎closed/MLCommons/measurements/RTX4090x1-nvidia-gpu-TensorRT-default_config/README.md
+4-4
diff --git a/‎closed/MLCommons/measurements/RTX4090x1-nvidia-gpu-TensorRT-default_config/bert-99/offline/README.md
+4-4 b/‎closed/MLCommons/measurements/RTX4090x1-nvidia-gpu-TensorRT-default_config/bert-99/offline/README.md
+4-4
diff --git a/‎closed/MLCommons/measurements/RTX4090x1-nvidia-gpu-TensorRT-default_config/bert-99/offline/RTX4090x1-nvidia-gpu-TensorRT-default_config.json
+1-1 b/‎closed/MLCommons/measurements/RTX4090x1-nvidia-gpu-TensorRT-default_config/bert-99/offline/RTX4090x1-nvidia-gpu-TensorRT-default_config.json
+1-1
@@ -1,2 +1,2 @@
 
-hash=182b35bd45a00bbb889a0adc85afda3a54cb7773f18afbcd72008faf01150c1e
+hash=f77b73c361844de012c0dce885370820d5ccae64260df910ac9384b532b9f28b
@@ -1,4 +1,4 @@
-{"exact_match": 26.18732261116367, "f1": 28.449692786466613}
+{"exact_match": 25.799432355723745, "f1": 28.172649034606692}
 Reading examples...
 No cached features at 'eval_features.pickle'... converting from examples...
 Creating tokenizer...
 
@@ -1,4 +1,4 @@
-{"exact_match": 26.18732261116367, "f1": 28.449692786466613}
+{"exact_match": 25.789971617786186, "f1": 28.170756887019184}
 Reading examples...
 Loading cached features from 'eval_features.pickle'...
 Loading LoadGen logs...
 
@@ -4,7 +4,7 @@ MLPerf Results Summary
 SUT name : BERT SERVER
 Scenario : Offline
 Mode     : PerformanceOnly
-Samples per second: 1672.43
+Samples per second: 4120.16
 Result is : VALID
   Min duration satisfied : Yes
   Min queries satisfied : Yes
@@ -13,21 +13,21 @@ Result is : VALID
 ================================================
 Additional Stats
 ================================================
-Min latency (ns)                : 822817546
-Max latency (ns)                : 666130717761
-Mean latency (ns)               : 402968489190
-50.00 percentile latency (ns)   : 429025220682
-90.00 percentile latency (ns)   : 635209685133
-95.00 percentile latency (ns)   : 653646093200
-97.00 percentile latency (ns)   : 659606890333
-99.00 percentile latency (ns)   : 664432670132
-99.90 percentile latency (ns)   : 666000837204
+Min latency (ns)                : 708599146
+Max latency (ns)                : 666754266053
+Mean latency (ns)               : 404151575983
+50.00 percentile latency (ns)   : 430375053769
+90.00 percentile latency (ns)   : 635778038883
+95.00 percentile latency (ns)   : 654116521706
+97.00 percentile latency (ns)   : 660124427593
+99.00 percentile latency (ns)   : 664937581583
+99.90 percentile latency (ns)   : 666620759680
 
 ================================================
 Test Parameters Used
 ================================================
-samples_per_query : 1114055
-target_qps : 1687.96
+samples_per_query : 2747131
+target_qps : 4162.32
 target_latency (ns): 0
 max_async_queries : 1
 min_duration (ms): 600000
 
@@ -4,9 +4,9 @@ Reading performance mode results...
 num_acc_log_entries = 10833
 num_acc_log_duplicate_keys = 0
 num_acc_log_data_mismatch = 0
-num_perf_log_entries = 4110
-num_perf_log_qsl_idx_match = 4110
-num_perf_log_data_mismatch = 48
+num_perf_log_entries = 4096
+num_perf_log_qsl_idx_match = 4096
+num_perf_log_data_mismatch = 25
 num_missing_qsl_idxs = 0
 TEST FAIL
 
@@ -1,4 +1,4 @@
 Verifying performance.
-reference score = 1671.25
-test score = 1672.43
+reference score = 4121.11
+test score = 4120.16
 TEST PASS
@@ -1,2 +1,2 @@
 
-hash=d2c37222acfeea679dec6f7bd86f5c9b63a0bd7c958924cad8514cab68deb5c6
+hash=382cfb5879ab79c72dee498e0548e998fe96136cffa8fb5d96685e3ea0a5b0d8
@@ -4,38 +4,38 @@ MLPerf Results Summary
 SUT name : BERT SERVER
 Scenario : SingleStream
 Mode     : PerformanceOnly
-90th percentile latency (ns) : 2165646
+90th percentile latency (ns) : 1009856
 Result is : VALID
   Min duration satisfied : Yes
   Min queries satisfied : Yes
   Early stopping satisfied: Yes
 Early Stopping Result:
- * Processed at least 64 queries (391306).
- * Would discard 38693 highest latency queries.
- * Early stopping 90th percentile estimate: 2166096
- * Early stopping 99th percentile estimate: 2625785
+ * Processed at least 64 queries (645364).
+ * Would discard 63974 highest latency queries.
+ * Early stopping 90th percentile estimate: 1010076
+ * Early stopping 99th percentile estimate: 1183040
 
 ================================================
 Additional Stats
 ================================================
-QPS w/ loadgen overhead         : 652.17
-QPS w/o loadgen overhead        : 656.82
+QPS w/ loadgen overhead         : 1075.60
+QPS w/o loadgen overhead        : 1080.65
 
-Min latency (ns)                : 1164215
-Max latency (ns)                : 9621612
-Mean latency (ns)               : 1522486
-50.00 percentile latency (ns)   : 1435792
-90.00 percentile latency (ns)   : 2165646
-95.00 percentile latency (ns)   : 2359727
-97.00 percentile latency (ns)   : 2604855
-99.00 percentile latency (ns)   : 2625684
-99.90 percentile latency (ns)   : 2667282
+Min latency (ns)                : 853634
+Max latency (ns)                : 1457922
+Mean latency (ns)               : 925365
+50.00 percentile latency (ns)   : 903487
+90.00 percentile latency (ns)   : 1009856
+95.00 percentile latency (ns)   : 1075739
+97.00 percentile latency (ns)   : 1168011
+99.00 percentile latency (ns)   : 1182999
+99.90 percentile latency (ns)   : 1187137
 
 ================================================
 Test Parameters Used
 ================================================
 samples_per_query : 1
-target_qps : 1643.87
+target_qps : 2702.33
 target_latency (ns): 0
 max_async_queries : 1
 min_duration (ms): 600000
 
@@ -4,8 +4,8 @@ Reading performance mode results...
 num_acc_log_entries = 10833
 num_acc_log_duplicate_keys = 0
 num_acc_log_data_mismatch = 0
-num_perf_log_entries = 1620
-num_perf_log_qsl_idx_match = 1620
+num_perf_log_entries = 1663
+num_perf_log_qsl_idx_match = 1663
 num_perf_log_data_mismatch = 0
 num_missing_qsl_idxs = 0
 TEST PASS
 
@@ -1,4 +1,4 @@
 Verifying performance.
-reference score = 2165616
-test score = 2166096
+reference score = 1009657
+test score = 1010076
 TEST PASS
@@ -1,4 +1,4 @@
-| Model        | Scenario     |   Accuracy |   Throughput | Latency (in ms)   | Power Efficiency (in samples/J)   | TEST01   |
-|--------------|--------------|------------|--------------|-------------------|-----------------------------------|----------|
-| 3d-unet-99.9 | offline      |    0.86236 |        4.157 | -                 |                                   | passed   |
-| 3d-unet-99.9 | singlestream |    0.86236 |        2.309 | 433.121           |                                   | passed   |
+| Model   | Scenario     |   Accuracy |   Throughput | Latency (in ms)   | Power Efficiency (in samples/J)   | TEST01   |
+|---------|--------------|------------|--------------|-------------------|-----------------------------------|----------|
+| bert-99 | offline      |    90.1528 |     4121.11  | -                 |                                   | passed   |
+| bert-99 | singlestream |    90.2668 |      990.099 | 1.01              |                                   | passed   |
@@ -17,7 +17,7 @@ pip install -U mlcflow
 
 mlc rm cache -f
 
-mlc pull repo mlcommons@mlperf-automations --checkout=03d9201c1c9305c7c3eaa0262984af76c7f2287f
+mlc pull repo mlcommons@mlperf-automations --checkout=6a917925e946fcf6a1511578ba101067d4a88532
 
 
 ```
@@ -35,10 +35,10 @@ mlc rm cache -f
 
 Platform: RTX4090x1-nvidia-gpu-TensorRT-default_config
 
-Model Precision: fp16
+Model Precision: int8
 
 ### Accuracy Results 
-`F1`: `90.88324`, Required accuracy for closed division `>= 90.78313`
+`F1`: `90.15279`, Required accuracy for closed division `>= 89.96526`
 
 ### Performance Results 
-`Samples per second`: `1671.25`
+`Samples per second`: `4121.11`
@@ -2,6 +2,6 @@
   "starting_weights_filename": "https://armi.in/files/bert_large_v1_1_fake_quant.onnx",
   "retraining": "no",
   "input_data_types": "int32",
-  "weight_data_types": "fp16",
+  "weight_data_types": "int8",
   "weight_transformations": "quantization, affine fusion"
 }
Original file line number	Diff line number	Diff line change
`@@ -1,2 +1,2 @@`
`1`	`1`
`2`		`-hash=182b35bd45a00bbb889a0adc85afda3a54cb7773f18afbcd72008faf01150c1e`
	`2`	`+hash=f77b73c361844de012c0dce885370820d5ccae64260df910ac9384b532b9f28b`
Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-{"exact_match": 26.18732261116367, "f1": 28.449692786466613}`
	`1`	`+{"exact_match": 25.799432355723745, "f1": 28.172649034606692}`
`2`	`2`	`Reading examples...`
`3`	`3`	`No cached features at 'eval_features.pickle'... converting from examples...`
`4`	`4`	`Creating tokenizer...`
Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-{"exact_match": 26.18732261116367, "f1": 28.449692786466613}`
	`1`	`+{"exact_match": 25.789971617786186, "f1": 28.170756887019184}`
`2`	`2`	`Reading examples...`
`3`	`3`	`Loading cached features from 'eval_features.pickle'...`
`4`	`4`	`Loading LoadGen logs...`
Original file line number	Diff line number	Diff line change
`@@ -1,2 +1,2 @@`
`1`	`1`
`2`		`-hash=d2c37222acfeea679dec6f7bd86f5c9b63a0bd7c958924cad8514cab68deb5c6`
	`2`	`+hash=382cfb5879ab79c72dee498e0548e998fe96136cffa8fb5d96685e3ea0a5b0d8`
Original file line number	Diff line number	Diff line change
`@@ -2,6 +2,6 @@`
`2`	`2`	`"starting_weights_filename": "https://armi.in/files/bert_large_v1_1_fake_quant.onnx",`
`3`	`3`	`"retraining": "no",`
`4`	`4`	`"input_data_types": "int32",`
`5`		`- "weight_data_types": "fp16",`
	`5`	`+ "weight_data_types": "int8",`
`6`	`6`	`"weight_transformations": "quantization, affine fusion"`
`7`	`7`	`}`