diff --git a/core/runtime/Platform.cpp b/core/runtime/Platform.cpp
index a20159cd91..03d9e7580b 100644
--- a/core/runtime/Platform.cpp
+++ b/core/runtime/Platform.cpp
@@ -36,7 +36,6 @@ Platform::Platform() : _platform{Platform::PlatformEnum::kUNKNOWN} {}
 Platform::Platform(Platform::PlatformEnum val) : _platform{val} {}
 
 Platform::Platform(const std::string& platform_str) {
-  LOG_ERROR("Platform constructor: " << platform_str);
   auto name_map = get_name_to_platform_map();
   auto it = name_map.find(platform_str);
   if (it != name_map.end()) {
diff --git a/docs/_cpp_api/classtorch__tensorrt_1_1DataType.html b/docs/_cpp_api/classtorch__tensorrt_1_1DataType.html
index 31e6b0f3e3..bf2a98805e 100644
--- a/docs/_cpp_api/classtorch__tensorrt_1_1DataType.html
+++ b/docs/_cpp_api/classtorch__tensorrt_1_1DataType.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Class DataType &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Class DataType &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/classtorch__tensorrt_1_1Device_1_1DeviceType.html b/docs/_cpp_api/classtorch__tensorrt_1_1Device_1_1DeviceType.html
index ec2f7172ba..b6e941d3c1 100644
--- a/docs/_cpp_api/classtorch__tensorrt_1_1Device_1_1DeviceType.html
+++ b/docs/_cpp_api/classtorch__tensorrt_1_1Device_1_1DeviceType.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Class Device::DeviceType &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Class Device::DeviceType &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/classtorch__tensorrt_1_1TensorFormat.html b/docs/_cpp_api/classtorch__tensorrt_1_1TensorFormat.html
index 70c50627f4..4cfffeea31 100644
--- a/docs/_cpp_api/classtorch__tensorrt_1_1TensorFormat.html
+++ b/docs/_cpp_api/classtorch__tensorrt_1_1TensorFormat.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Class TensorFormat &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Class TensorFormat &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/classtorch__tensorrt_1_1ptq_1_1Int8CacheCalibrator.html b/docs/_cpp_api/classtorch__tensorrt_1_1ptq_1_1Int8CacheCalibrator.html
index b8489e5efa..86212bd359 100644
--- a/docs/_cpp_api/classtorch__tensorrt_1_1ptq_1_1Int8CacheCalibrator.html
+++ b/docs/_cpp_api/classtorch__tensorrt_1_1ptq_1_1Int8CacheCalibrator.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Template Class Int8CacheCalibrator &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Template Class Int8CacheCalibrator &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/classtorch__tensorrt_1_1ptq_1_1Int8Calibrator.html b/docs/_cpp_api/classtorch__tensorrt_1_1ptq_1_1Int8Calibrator.html
index c85615e854..5c05cefe88 100644
--- a/docs/_cpp_api/classtorch__tensorrt_1_1ptq_1_1Int8Calibrator.html
+++ b/docs/_cpp_api/classtorch__tensorrt_1_1ptq_1_1Int8Calibrator.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Template Class Int8Calibrator &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Template Class Int8Calibrator &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/define_macros_8h_1a18d295a837ac71add5578860b55e5502.html b/docs/_cpp_api/define_macros_8h_1a18d295a837ac71add5578860b55e5502.html
index a433a4c113..7479a7bcc5 100644
--- a/docs/_cpp_api/define_macros_8h_1a18d295a837ac71add5578860b55e5502.html
+++ b/docs/_cpp_api/define_macros_8h_1a18d295a837ac71add5578860b55e5502.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Define STR &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Define STR &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/define_macros_8h_1a282fd3c0b1c3a215148ae372070e1268.html b/docs/_cpp_api/define_macros_8h_1a282fd3c0b1c3a215148ae372070e1268.html
index 9ffed532b5..15ea36fa48 100644
--- a/docs/_cpp_api/define_macros_8h_1a282fd3c0b1c3a215148ae372070e1268.html
+++ b/docs/_cpp_api/define_macros_8h_1a282fd3c0b1c3a215148ae372070e1268.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Define TORCH_TENSORRT_PATCH_VERSION &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Define TORCH_TENSORRT_PATCH_VERSION &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/define_macros_8h_1a31398a6d4d27e28817afb0f0139e909e.html b/docs/_cpp_api/define_macros_8h_1a31398a6d4d27e28817afb0f0139e909e.html
index f5b76d65ec..95eaefaf9b 100644
--- a/docs/_cpp_api/define_macros_8h_1a31398a6d4d27e28817afb0f0139e909e.html
+++ b/docs/_cpp_api/define_macros_8h_1a31398a6d4d27e28817afb0f0139e909e.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Define TORCH_TENSORRT_MAJOR_VERSION &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Define TORCH_TENSORRT_MAJOR_VERSION &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/define_macros_8h_1a35703561b26b1a9d2738ad7d58b27827.html b/docs/_cpp_api/define_macros_8h_1a35703561b26b1a9d2738ad7d58b27827.html
index 516d81e51e..a6b97324d5 100644
--- a/docs/_cpp_api/define_macros_8h_1a35703561b26b1a9d2738ad7d58b27827.html
+++ b/docs/_cpp_api/define_macros_8h_1a35703561b26b1a9d2738ad7d58b27827.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Define TORCH_TENSORRT_MINOR_VERSION &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Define TORCH_TENSORRT_MINOR_VERSION &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/define_macros_8h_1abd1465eb38256d3f22cc1426b23d516b.html b/docs/_cpp_api/define_macros_8h_1abd1465eb38256d3f22cc1426b23d516b.html
index 9ea0983bbb..12fda77cb5 100644
--- a/docs/_cpp_api/define_macros_8h_1abd1465eb38256d3f22cc1426b23d516b.html
+++ b/docs/_cpp_api/define_macros_8h_1abd1465eb38256d3f22cc1426b23d516b.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Define TORCHTRT_API &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Define TORCHTRT_API &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/define_macros_8h_1abe87b341f562fd1cf40b7672e4d759da.html b/docs/_cpp_api/define_macros_8h_1abe87b341f562fd1cf40b7672e4d759da.html
index 1dc0c8ad7c..13de35adbc 100644
--- a/docs/_cpp_api/define_macros_8h_1abe87b341f562fd1cf40b7672e4d759da.html
+++ b/docs/_cpp_api/define_macros_8h_1abe87b341f562fd1cf40b7672e4d759da.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Define XSTR &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Define XSTR &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/define_macros_8h_1ad19939408f7be171a74a89928b36eb59.html b/docs/_cpp_api/define_macros_8h_1ad19939408f7be171a74a89928b36eb59.html
index 16d42190a2..bbf22b806f 100644
--- a/docs/_cpp_api/define_macros_8h_1ad19939408f7be171a74a89928b36eb59.html
+++ b/docs/_cpp_api/define_macros_8h_1ad19939408f7be171a74a89928b36eb59.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Define TORCHTRT_HIDDEN &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Define TORCHTRT_HIDDEN &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/define_macros_8h_1adad592a7b1b7eed529cdf6acd584c883.html b/docs/_cpp_api/define_macros_8h_1adad592a7b1b7eed529cdf6acd584c883.html
index 02ccfdfef0..5068def6da 100644
--- a/docs/_cpp_api/define_macros_8h_1adad592a7b1b7eed529cdf6acd584c883.html
+++ b/docs/_cpp_api/define_macros_8h_1adad592a7b1b7eed529cdf6acd584c883.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Define TORCH_TENSORRT_VERSION &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Define TORCH_TENSORRT_VERSION &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/dir_cpp.html b/docs/_cpp_api/dir_cpp.html
index f8d936ca00..205143791a 100644
--- a/docs/_cpp_api/dir_cpp.html
+++ b/docs/_cpp_api/dir_cpp.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Directory cpp &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Directory cpp &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -273,7 +273,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -314,6 +314,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -339,7 +342,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/dir_cpp_include.html b/docs/_cpp_api/dir_cpp_include.html
index 5bd8e32dcb..0fc4d1b8d1 100644
--- a/docs/_cpp_api/dir_cpp_include.html
+++ b/docs/_cpp_api/dir_cpp_include.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Directory include &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Directory include &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -273,7 +273,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -314,6 +314,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -339,7 +342,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/dir_cpp_include_torch_tensorrt.html b/docs/_cpp_api/dir_cpp_include_torch_tensorrt.html
index 2b6ec936a2..aeae674d0e 100644
--- a/docs/_cpp_api/dir_cpp_include_torch_tensorrt.html
+++ b/docs/_cpp_api/dir_cpp_include_torch_tensorrt.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Directory torch_tensorrt &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Directory torch_tensorrt &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -273,7 +273,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -314,6 +314,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -339,7 +342,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/enum_namespacetorch__tensorrt_1_1logging_1a130f65408ad8cbaee060f05e8db69558.html b/docs/_cpp_api/enum_namespacetorch__tensorrt_1_1logging_1a130f65408ad8cbaee060f05e8db69558.html
index 88d1bf933f..5ca232b20b 100644
--- a/docs/_cpp_api/enum_namespacetorch__tensorrt_1_1logging_1a130f65408ad8cbaee060f05e8db69558.html
+++ b/docs/_cpp_api/enum_namespacetorch__tensorrt_1_1logging_1a130f65408ad8cbaee060f05e8db69558.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Enum Level &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Enum Level &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/enum_namespacetorch__tensorrt_1a3fbe5d72e4fc624dbd038853079620eb.html b/docs/_cpp_api/enum_namespacetorch__tensorrt_1a3fbe5d72e4fc624dbd038853079620eb.html
index 2bd0fe9493..294db733f0 100644
--- a/docs/_cpp_api/enum_namespacetorch__tensorrt_1a3fbe5d72e4fc624dbd038853079620eb.html
+++ b/docs/_cpp_api/enum_namespacetorch__tensorrt_1a3fbe5d72e4fc624dbd038853079620eb.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Enum EngineCapability &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Enum EngineCapability &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/file_cpp_include_torch_tensorrt_logging.h.html b/docs/_cpp_api/file_cpp_include_torch_tensorrt_logging.h.html
index 14dd18617e..002b7b81ac 100644
--- a/docs/_cpp_api/file_cpp_include_torch_tensorrt_logging.h.html
+++ b/docs/_cpp_api/file_cpp_include_torch_tensorrt_logging.h.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>File logging.h &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>File logging.h &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -273,7 +273,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -314,6 +314,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -339,7 +342,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/file_cpp_include_torch_tensorrt_macros.h.html b/docs/_cpp_api/file_cpp_include_torch_tensorrt_macros.h.html
index 96c429fa9d..d675a45257 100644
--- a/docs/_cpp_api/file_cpp_include_torch_tensorrt_macros.h.html
+++ b/docs/_cpp_api/file_cpp_include_torch_tensorrt_macros.h.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>File macros.h &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>File macros.h &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -273,7 +273,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -314,6 +314,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -339,7 +342,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/file_cpp_include_torch_tensorrt_ptq.h.html b/docs/_cpp_api/file_cpp_include_torch_tensorrt_ptq.h.html
index 2ad5cb396e..4c857b25a1 100644
--- a/docs/_cpp_api/file_cpp_include_torch_tensorrt_ptq.h.html
+++ b/docs/_cpp_api/file_cpp_include_torch_tensorrt_ptq.h.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>File ptq.h &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>File ptq.h &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -273,7 +273,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -314,6 +314,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -339,7 +342,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/file_cpp_include_torch_tensorrt_torch_tensorrt.h.html b/docs/_cpp_api/file_cpp_include_torch_tensorrt_torch_tensorrt.h.html
index 407cab6a57..1bcca64dd7 100644
--- a/docs/_cpp_api/file_cpp_include_torch_tensorrt_torch_tensorrt.h.html
+++ b/docs/_cpp_api/file_cpp_include_torch_tensorrt_torch_tensorrt.h.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>File torch_tensorrt.h &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>File torch_tensorrt.h &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -273,7 +273,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -314,6 +314,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -339,7 +342,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/function_namespacetorch__tensorrt_1_1logging_1a0593f776f469c20469e2f729fc7861a3.html b/docs/_cpp_api/function_namespacetorch__tensorrt_1_1logging_1a0593f776f469c20469e2f729fc7861a3.html
index f7a5ad663a..19cbec2837 100644
--- a/docs/_cpp_api/function_namespacetorch__tensorrt_1_1logging_1a0593f776f469c20469e2f729fc7861a3.html
+++ b/docs/_cpp_api/function_namespacetorch__tensorrt_1_1logging_1a0593f776f469c20469e2f729fc7861a3.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Function torch_tensorrt::logging::get_logging_prefix &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Function torch_tensorrt::logging::get_logging_prefix &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/function_namespacetorch__tensorrt_1_1logging_1a0c012cb374addd90eb1f42eaec570650.html b/docs/_cpp_api/function_namespacetorch__tensorrt_1_1logging_1a0c012cb374addd90eb1f42eaec570650.html
index e552eadb27..e45b666a00 100644
--- a/docs/_cpp_api/function_namespacetorch__tensorrt_1_1logging_1a0c012cb374addd90eb1f42eaec570650.html
+++ b/docs/_cpp_api/function_namespacetorch__tensorrt_1_1logging_1a0c012cb374addd90eb1f42eaec570650.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Function torch_tensorrt::logging::get_reportable_log_level &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Function torch_tensorrt::logging::get_reportable_log_level &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/function_namespacetorch__tensorrt_1_1logging_1a56e110feaaba2c3fd44bd201fd21a76a.html b/docs/_cpp_api/function_namespacetorch__tensorrt_1_1logging_1a56e110feaaba2c3fd44bd201fd21a76a.html
index 25a9acee0a..0f9d251cfc 100644
--- a/docs/_cpp_api/function_namespacetorch__tensorrt_1_1logging_1a56e110feaaba2c3fd44bd201fd21a76a.html
+++ b/docs/_cpp_api/function_namespacetorch__tensorrt_1_1logging_1a56e110feaaba2c3fd44bd201fd21a76a.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Function torch_tensorrt::logging::get_is_colored_output_on &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Function torch_tensorrt::logging::get_is_colored_output_on &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/function_namespacetorch__tensorrt_1_1logging_1a7cb50492421ea9de4e3db895819df6f2.html b/docs/_cpp_api/function_namespacetorch__tensorrt_1_1logging_1a7cb50492421ea9de4e3db895819df6f2.html
index ab7ca3c3d9..b154d22aa1 100644
--- a/docs/_cpp_api/function_namespacetorch__tensorrt_1_1logging_1a7cb50492421ea9de4e3db895819df6f2.html
+++ b/docs/_cpp_api/function_namespacetorch__tensorrt_1_1logging_1a7cb50492421ea9de4e3db895819df6f2.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Function torch_tensorrt::logging::set_reportable_log_level &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Function torch_tensorrt::logging::set_reportable_log_level &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/function_namespacetorch__tensorrt_1_1logging_1ac46ac0901cb97e3ae6e93b45f24e90b8.html b/docs/_cpp_api/function_namespacetorch__tensorrt_1_1logging_1ac46ac0901cb97e3ae6e93b45f24e90b8.html
index c91a7c1318..60f579ff66 100644
--- a/docs/_cpp_api/function_namespacetorch__tensorrt_1_1logging_1ac46ac0901cb97e3ae6e93b45f24e90b8.html
+++ b/docs/_cpp_api/function_namespacetorch__tensorrt_1_1logging_1ac46ac0901cb97e3ae6e93b45f24e90b8.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Function torch_tensorrt::logging::log &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Function torch_tensorrt::logging::log &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/function_namespacetorch__tensorrt_1_1logging_1ad2efd47b6c3689e58ccc595680579ae5.html b/docs/_cpp_api/function_namespacetorch__tensorrt_1_1logging_1ad2efd47b6c3689e58ccc595680579ae5.html
index 6539a9fa08..66171ecc9b 100644
--- a/docs/_cpp_api/function_namespacetorch__tensorrt_1_1logging_1ad2efd47b6c3689e58ccc595680579ae5.html
+++ b/docs/_cpp_api/function_namespacetorch__tensorrt_1_1logging_1ad2efd47b6c3689e58ccc595680579ae5.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Function torch_tensorrt::logging::set_is_colored_output_on &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Function torch_tensorrt::logging::set_is_colored_output_on &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/function_namespacetorch__tensorrt_1_1logging_1af8f3443813315af7901903d25dd495cc.html b/docs/_cpp_api/function_namespacetorch__tensorrt_1_1logging_1af8f3443813315af7901903d25dd495cc.html
index cb3438fbd4..0dd4ac29da 100644
--- a/docs/_cpp_api/function_namespacetorch__tensorrt_1_1logging_1af8f3443813315af7901903d25dd495cc.html
+++ b/docs/_cpp_api/function_namespacetorch__tensorrt_1_1logging_1af8f3443813315af7901903d25dd495cc.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Function torch_tensorrt::logging::set_logging_prefix &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Function torch_tensorrt::logging::set_logging_prefix &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/function_namespacetorch__tensorrt_1_1ptq_1a226e3c83379d1012cde8578c1c86b16c.html b/docs/_cpp_api/function_namespacetorch__tensorrt_1_1ptq_1a226e3c83379d1012cde8578c1c86b16c.html
index 39eb779e61..a226db5cad 100644
--- a/docs/_cpp_api/function_namespacetorch__tensorrt_1_1ptq_1a226e3c83379d1012cde8578c1c86b16c.html
+++ b/docs/_cpp_api/function_namespacetorch__tensorrt_1_1ptq_1a226e3c83379d1012cde8578c1c86b16c.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Template Function torch_tensorrt::ptq::make_int8_cache_calibrator &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Template Function torch_tensorrt::ptq::make_int8_cache_calibrator &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/function_namespacetorch__tensorrt_1_1ptq_1a6186e305f47c1d94b6130ef6c7f7e178.html b/docs/_cpp_api/function_namespacetorch__tensorrt_1_1ptq_1a6186e305f47c1d94b6130ef6c7f7e178.html
index 68a2191bfa..ec7f2a9203 100644
--- a/docs/_cpp_api/function_namespacetorch__tensorrt_1_1ptq_1a6186e305f47c1d94b6130ef6c7f7e178.html
+++ b/docs/_cpp_api/function_namespacetorch__tensorrt_1_1ptq_1a6186e305f47c1d94b6130ef6c7f7e178.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Template Function torch_tensorrt::ptq::make_int8_calibrator &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Template Function torch_tensorrt::ptq::make_int8_calibrator &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/function_namespacetorch__tensorrt_1_1torchscript_1a5b405fd3bf3c8fc2e2a54cbbab979797.html b/docs/_cpp_api/function_namespacetorch__tensorrt_1_1torchscript_1a5b405fd3bf3c8fc2e2a54cbbab979797.html
index 7a611c9e68..08597feb01 100644
--- a/docs/_cpp_api/function_namespacetorch__tensorrt_1_1torchscript_1a5b405fd3bf3c8fc2e2a54cbbab979797.html
+++ b/docs/_cpp_api/function_namespacetorch__tensorrt_1_1torchscript_1a5b405fd3bf3c8fc2e2a54cbbab979797.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Function torch_tensorrt::torchscript::check_method_operator_support &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Function torch_tensorrt::torchscript::check_method_operator_support &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/function_namespacetorch__tensorrt_1_1torchscript_1a6e19490a08fb1553c9dd347a5ae79db9.html b/docs/_cpp_api/function_namespacetorch__tensorrt_1_1torchscript_1a6e19490a08fb1553c9dd347a5ae79db9.html
index 95bb8b9f20..4e2fdde13c 100644
--- a/docs/_cpp_api/function_namespacetorch__tensorrt_1_1torchscript_1a6e19490a08fb1553c9dd347a5ae79db9.html
+++ b/docs/_cpp_api/function_namespacetorch__tensorrt_1_1torchscript_1a6e19490a08fb1553c9dd347a5ae79db9.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Function torch_tensorrt::torchscript::compile &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Function torch_tensorrt::torchscript::compile &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/function_namespacetorch__tensorrt_1_1torchscript_1a81f9783517335dda877d8cfcf38987c9.html b/docs/_cpp_api/function_namespacetorch__tensorrt_1_1torchscript_1a81f9783517335dda877d8cfcf38987c9.html
index 5596faa1e8..bfe03233e2 100644
--- a/docs/_cpp_api/function_namespacetorch__tensorrt_1_1torchscript_1a81f9783517335dda877d8cfcf38987c9.html
+++ b/docs/_cpp_api/function_namespacetorch__tensorrt_1_1torchscript_1a81f9783517335dda877d8cfcf38987c9.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Function torch_tensorrt::torchscript::embed_engine_in_new_module &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Function torch_tensorrt::torchscript::embed_engine_in_new_module &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/function_namespacetorch__tensorrt_1_1torchscript_1ae8d56472106eeef37fbe51ff7f40c9b2.html b/docs/_cpp_api/function_namespacetorch__tensorrt_1_1torchscript_1ae8d56472106eeef37fbe51ff7f40c9b2.html
index a77675787a..ebc880f7b4 100644
--- a/docs/_cpp_api/function_namespacetorch__tensorrt_1_1torchscript_1ae8d56472106eeef37fbe51ff7f40c9b2.html
+++ b/docs/_cpp_api/function_namespacetorch__tensorrt_1_1torchscript_1ae8d56472106eeef37fbe51ff7f40c9b2.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Function torch_tensorrt::torchscript::convert_method_to_trt_engine &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Function torch_tensorrt::torchscript::convert_method_to_trt_engine &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/function_namespacetorch__tensorrt_1ac4ab8313ae72c2c899ea31548b528528.html b/docs/_cpp_api/function_namespacetorch__tensorrt_1ac4ab8313ae72c2c899ea31548b528528.html
index 88bd6c2ced..83277c0813 100644
--- a/docs/_cpp_api/function_namespacetorch__tensorrt_1ac4ab8313ae72c2c899ea31548b528528.html
+++ b/docs/_cpp_api/function_namespacetorch__tensorrt_1ac4ab8313ae72c2c899ea31548b528528.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Function torch_tensorrt::get_build_info &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Function torch_tensorrt::get_build_info &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/function_namespacetorch__tensorrt_1ad1acd06eaeaffbbcf6e7ebf426891384.html b/docs/_cpp_api/function_namespacetorch__tensorrt_1ad1acd06eaeaffbbcf6e7ebf426891384.html
index a1ed2686c1..21df901f52 100644
--- a/docs/_cpp_api/function_namespacetorch__tensorrt_1ad1acd06eaeaffbbcf6e7ebf426891384.html
+++ b/docs/_cpp_api/function_namespacetorch__tensorrt_1ad1acd06eaeaffbbcf6e7ebf426891384.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Function torch_tensorrt::set_device &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Function torch_tensorrt::set_device &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/function_namespacetorch__tensorrt_1ad6a4ee8ca6c8f6e5519eb1128ec7f4a1.html b/docs/_cpp_api/function_namespacetorch__tensorrt_1ad6a4ee8ca6c8f6e5519eb1128ec7f4a1.html
index 82be1de9b6..fccbf44c67 100644
--- a/docs/_cpp_api/function_namespacetorch__tensorrt_1ad6a4ee8ca6c8f6e5519eb1128ec7f4a1.html
+++ b/docs/_cpp_api/function_namespacetorch__tensorrt_1ad6a4ee8ca6c8f6e5519eb1128ec7f4a1.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Function torch_tensorrt::dump_build_info &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Function torch_tensorrt::dump_build_info &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/namespace_torch_tensorrt.html b/docs/_cpp_api/namespace_torch_tensorrt.html
index 96a0d5fdcc..698b41c524 100644
--- a/docs/_cpp_api/namespace_torch_tensorrt.html
+++ b/docs/_cpp_api/namespace_torch_tensorrt.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Namespace torch_tensorrt &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Namespace torch_tensorrt &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/namespace_torch_tensorrt__logging.html b/docs/_cpp_api/namespace_torch_tensorrt__logging.html
index 34d0fe3a5a..21d0632d2b 100644
--- a/docs/_cpp_api/namespace_torch_tensorrt__logging.html
+++ b/docs/_cpp_api/namespace_torch_tensorrt__logging.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Namespace torch_tensorrt::logging &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Namespace torch_tensorrt::logging &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/namespace_torch_tensorrt__ptq.html b/docs/_cpp_api/namespace_torch_tensorrt__ptq.html
index 7527a31589..029460073a 100644
--- a/docs/_cpp_api/namespace_torch_tensorrt__ptq.html
+++ b/docs/_cpp_api/namespace_torch_tensorrt__ptq.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Namespace torch_tensorrt::ptq &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Namespace torch_tensorrt::ptq &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/namespace_torch_tensorrt__torchscript.html b/docs/_cpp_api/namespace_torch_tensorrt__torchscript.html
index 674ebdbd62..d5b6745481 100644
--- a/docs/_cpp_api/namespace_torch_tensorrt__torchscript.html
+++ b/docs/_cpp_api/namespace_torch_tensorrt__torchscript.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Namespace torch_tensorrt::torchscript &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Namespace torch_tensorrt::torchscript &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/program_listing_file_cpp_include_torch_tensorrt_logging.h.html b/docs/_cpp_api/program_listing_file_cpp_include_torch_tensorrt_logging.h.html
index c95192e7b3..2ab9c757d0 100644
--- a/docs/_cpp_api/program_listing_file_cpp_include_torch_tensorrt_logging.h.html
+++ b/docs/_cpp_api/program_listing_file_cpp_include_torch_tensorrt_logging.h.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Program Listing for File logging.h &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Program Listing for File logging.h &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -273,7 +273,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -314,6 +314,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -339,7 +342,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/program_listing_file_cpp_include_torch_tensorrt_macros.h.html b/docs/_cpp_api/program_listing_file_cpp_include_torch_tensorrt_macros.h.html
index 4d26e6ee09..751efa791a 100644
--- a/docs/_cpp_api/program_listing_file_cpp_include_torch_tensorrt_macros.h.html
+++ b/docs/_cpp_api/program_listing_file_cpp_include_torch_tensorrt_macros.h.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Program Listing for File macros.h &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Program Listing for File macros.h &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -273,7 +273,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -314,6 +314,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -339,7 +342,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/program_listing_file_cpp_include_torch_tensorrt_ptq.h.html b/docs/_cpp_api/program_listing_file_cpp_include_torch_tensorrt_ptq.h.html
index 8934a73239..ae17d3ca24 100644
--- a/docs/_cpp_api/program_listing_file_cpp_include_torch_tensorrt_ptq.h.html
+++ b/docs/_cpp_api/program_listing_file_cpp_include_torch_tensorrt_ptq.h.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Program Listing for File ptq.h &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Program Listing for File ptq.h &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -273,7 +273,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -314,6 +314,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -339,7 +342,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/program_listing_file_cpp_include_torch_tensorrt_torch_tensorrt.h.html b/docs/_cpp_api/program_listing_file_cpp_include_torch_tensorrt_torch_tensorrt.h.html
index d536fb5050..7bd771ebaf 100644
--- a/docs/_cpp_api/program_listing_file_cpp_include_torch_tensorrt_torch_tensorrt.h.html
+++ b/docs/_cpp_api/program_listing_file_cpp_include_torch_tensorrt_torch_tensorrt.h.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Program Listing for File torch_tensorrt.h &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Program Listing for File torch_tensorrt.h &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -273,7 +273,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -314,6 +314,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -339,7 +342,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/structtorch__tensorrt_1_1Device.html b/docs/_cpp_api/structtorch__tensorrt_1_1Device.html
index b0b5055f12..d1173d5cb5 100644
--- a/docs/_cpp_api/structtorch__tensorrt_1_1Device.html
+++ b/docs/_cpp_api/structtorch__tensorrt_1_1Device.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Struct Device &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Struct Device &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/structtorch__tensorrt_1_1GraphInputs.html b/docs/_cpp_api/structtorch__tensorrt_1_1GraphInputs.html
index e151e4ab5a..bc6f7ab5d1 100644
--- a/docs/_cpp_api/structtorch__tensorrt_1_1GraphInputs.html
+++ b/docs/_cpp_api/structtorch__tensorrt_1_1GraphInputs.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Struct GraphInputs &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Struct GraphInputs &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/structtorch__tensorrt_1_1Input.html b/docs/_cpp_api/structtorch__tensorrt_1_1Input.html
index 803d44a2bc..c3058a8c41 100644
--- a/docs/_cpp_api/structtorch__tensorrt_1_1Input.html
+++ b/docs/_cpp_api/structtorch__tensorrt_1_1Input.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Struct Input &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Struct Input &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/structtorch__tensorrt_1_1torchscript_1_1CompileSpec.html b/docs/_cpp_api/structtorch__tensorrt_1_1torchscript_1_1CompileSpec.html
index 12201ef875..ec3a8e9864 100644
--- a/docs/_cpp_api/structtorch__tensorrt_1_1torchscript_1_1CompileSpec.html
+++ b/docs/_cpp_api/structtorch__tensorrt_1_1torchscript_1_1CompileSpec.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Struct CompileSpec &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Struct CompileSpec &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/torch_tensort_cpp.html b/docs/_cpp_api/torch_tensort_cpp.html
index 5cf53677b5..578a191a92 100644
--- a/docs/_cpp_api/torch_tensort_cpp.html
+++ b/docs/_cpp_api/torch_tensort_cpp.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Torch-TensorRT C++ API &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Torch-TensorRT C++ API &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_cpp_api/unabridged_orphan.html b/docs/_cpp_api/unabridged_orphan.html
index 8125ef370b..8e9003f519 100644
--- a/docs/_cpp_api/unabridged_orphan.html
+++ b/docs/_cpp_api/unabridged_orphan.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Full API &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Full API &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -273,7 +273,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -314,6 +314,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -339,7 +342,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_downloads/06a1dddfb8c2b5515b697700d863a453/engine_caching_bert_example.ipynb b/docs/_downloads/06a1dddfb8c2b5515b697700d863a453/engine_caching_bert_example.ipynb
new file mode 100644
index 0000000000..fe7a070b26
--- /dev/null
+++ b/docs/_downloads/06a1dddfb8c2b5515b697700d863a453/engine_caching_bert_example.ipynb
@@ -0,0 +1,43 @@
+{
+  "cells": [
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "\n\n# Engine Caching (BERT)\n\nSmall caching example on BERT.\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "collapsed": false
+      },
+      "outputs": [],
+      "source": [
+        "import numpy as np\nimport torch\nimport torch_tensorrt\nfrom engine_caching_example import remove_timing_cache\nfrom transformers import BertModel\n\nnp.random.seed(0)\ntorch.manual_seed(0)\n\nmodel = BertModel.from_pretrained(\"bert-base-uncased\", return_dict=False).cuda().eval()\ninputs = [\n    torch.randint(0, 2, (1, 14), dtype=torch.int32).to(\"cuda\"),\n    torch.randint(0, 2, (1, 14), dtype=torch.int32).to(\"cuda\"),\n]\n\n\ndef compile_bert(iterations=3):\n    times = []\n    start = torch.cuda.Event(enable_timing=True)\n    end = torch.cuda.Event(enable_timing=True)\n\n    # The 1st iteration is to measure the compilation time without engine caching\n    # The 2nd and 3rd iterations are to measure the compilation time with engine caching.\n    # Since the 2nd iteration needs to compile and save the engine, it will be slower than the 1st iteration.\n    # The 3rd iteration should be faster than the 1st iteration because it loads the cached engine.\n    for i in range(iterations):\n        # remove timing cache and reset dynamo for engine caching messurement\n        remove_timing_cache()\n        torch._dynamo.reset()\n\n        if i == 0:\n            cache_built_engines = False\n            reuse_cached_engines = False\n        else:\n            cache_built_engines = True\n            reuse_cached_engines = True\n\n        start.record()\n        compilation_kwargs = {\n            \"use_python_runtime\": False,\n            \"enabled_precisions\": {torch.float},\n            \"truncate_double\": True,\n            \"debug\": False,\n            \"min_block_size\": 1,\n            \"make_refitable\": True,\n            \"cache_built_engines\": cache_built_engines,\n            \"reuse_cached_engines\": reuse_cached_engines,\n            \"engine_cache_dir\": \"/tmp/torch_trt_bert_engine_cache\",\n            \"engine_cache_size\": 1 << 30,  # 1GB\n        }\n        optimized_model = torch.compile(\n            model,\n            backend=\"torch_tensorrt\",\n            options=compilation_kwargs,\n        )\n        optimized_model(*inputs)\n        end.record()\n        torch.cuda.synchronize()\n        times.append(start.elapsed_time(end))\n\n    print(\"-----compile bert-----> compilation time:\\n\", times, \"milliseconds\")\n\n\nif __name__ == \"__main__\":\n    compile_bert()"
+      ]
+    }
+  ],
+  "metadata": {
+    "kernelspec": {
+      "display_name": "Python 3",
+      "language": "python",
+      "name": "python3"
+    },
+    "language_info": {
+      "codemirror_mode": {
+        "name": "ipython",
+        "version": 3
+      },
+      "file_extension": ".py",
+      "mimetype": "text/x-python",
+      "name": "python",
+      "nbconvert_exporter": "python",
+      "pygments_lexer": "ipython3",
+      "version": "3.11.0"
+    }
+  },
+  "nbformat": 4,
+  "nbformat_minor": 0
+}
\ No newline at end of file
diff --git a/docs/_downloads/1c759c0181fe2845e5579cc82e5b7a7a/engine_caching_example.py b/docs/_downloads/1c759c0181fe2845e5579cc82e5b7a7a/engine_caching_example.py
new file mode 100644
index 0000000000..5154dc1e2c
--- /dev/null
+++ b/docs/_downloads/1c759c0181fe2845e5579cc82e5b7a7a/engine_caching_example.py
@@ -0,0 +1,288 @@
+"""
+
+.. _engine_caching_example:
+
+Engine Caching
+=======================
+
+As model sizes increase, the cost of compilation will as well. With AOT methods
+like ``torch.dynamo.compile``, this cost is paid upfront. However if the weights
+change, the session ends or you are using JIT methods like ``torch.compile``, as
+graphs get invalidated they get re-compiled, this cost will get paid repeatedly.
+Engine caching is a way to mitigate this cost by saving constructed engines to disk
+and re-using them when possible. This tutorial demonstrates how to use engine caching
+with TensorRT in PyTorch. Engine caching can significantly speed up subsequent model
+compilations reusing previously built TensorRT engines.
+
+We'll explore two approaches:
+
+    1. Using torch_tensorrt.dynamo.compile
+    2. Using torch.compile with the TensorRT backend
+
+The example uses a pre-trained ResNet18 model and shows the
+differences between compilation without caching, with caching enabled,
+and when reusing cached engines.
+"""
+
+import os
+from typing import Dict, Optional
+
+import numpy as np
+import torch
+import torch_tensorrt as torch_trt
+import torchvision.models as models
+from torch_tensorrt.dynamo._defaults import TIMING_CACHE_PATH
+from torch_tensorrt.dynamo._engine_cache import BaseEngineCache
+
+np.random.seed(0)
+torch.manual_seed(0)
+
+model = models.resnet18(pretrained=True).eval().to("cuda")
+enabled_precisions = {torch.float}
+debug = False
+min_block_size = 1
+use_python_runtime = False
+
+
+def remove_timing_cache(path=TIMING_CACHE_PATH):
+    if os.path.exists(path):
+        os.remove(path)
+
+
+# %%
+# Engine Caching for JIT Compilation
+# ----------------------------------
+#
+# The primary goal of engine caching is to help speed up JIT workflows. ``torch.compile``
+# provides a great deal of flexibility in model construction which makes it a good
+# first tool to try when looking to speed up your workflow. However, historically
+# the cost of compilation and in particular recompilation has been a barrier to entry
+# for many users. If for some reason a subgraph gets invalidated, that graph is reconstructed
+# scratch prior to the addition of engine caching. Now as engines are constructed, with ``cache_built_engines=True``,
+# engines are saved to disk tied to a hash of their corresponding PyTorch subgraph. If
+# in a subsequent compilation, either as part of this session or a new session, the cache will
+# pull the built engine and **refit** the weights which can reduce compilation times by orders of magnitude.
+# As such, in order to insert a new engine into the cache (i.e. ``cache_built_engines=True``),
+# the engine must be refitable (``make_refittable=True``). See :ref:`refit_engine_example` for more details.
+
+
+def torch_compile(iterations=3):
+    times = []
+    start = torch.cuda.Event(enable_timing=True)
+    end = torch.cuda.Event(enable_timing=True)
+
+    # The 1st iteration is to measure the compilation time without engine caching
+    # The 2nd and 3rd iterations are to measure the compilation time with engine caching.
+    # Since the 2nd iteration needs to compile and save the engine, it will be slower than the 1st iteration.
+    # The 3rd iteration should be faster than the 1st iteration because it loads the cached engine.
+    for i in range(iterations):
+        inputs = [torch.rand((100, 3, 224, 224)).to("cuda")]
+        # remove timing cache and reset dynamo just for engine caching messurement
+        remove_timing_cache()
+        torch._dynamo.reset()
+
+        if i == 0:
+            cache_built_engines = False
+            reuse_cached_engines = False
+        else:
+            cache_built_engines = True
+            reuse_cached_engines = True
+
+        start.record()
+        compiled_model = torch.compile(
+            model,
+            backend="tensorrt",
+            options={
+                "use_python_runtime": True,
+                "enabled_precisions": enabled_precisions,
+                "debug": debug,
+                "min_block_size": min_block_size,
+                "make_refitable": True,
+                "cache_built_engines": cache_built_engines,
+                "reuse_cached_engines": reuse_cached_engines,
+            },
+        )
+        compiled_model(*inputs)  # trigger the compilation
+        end.record()
+        torch.cuda.synchronize()
+        times.append(start.elapsed_time(end))
+
+    print("----------------torch_compile----------------")
+    print("disable engine caching, used:", times[0], "ms")
+    print("enable engine caching to cache engines, used:", times[1], "ms")
+    print("enable engine caching to reuse engines, used:", times[2], "ms")
+
+
+torch_compile()
+
+# %%
+# Engine Caching for AOT Compilation
+# ----------------------------------
+# Similarly to the JIT workflow, AOT workflows can benefit from engine caching.
+# As the same architecture or common subgraphs get recompiled, the cache will pull
+# previously built engines and refit the weights.
+
+
+def dynamo_compile(iterations=3):
+    times = []
+    start = torch.cuda.Event(enable_timing=True)
+    end = torch.cuda.Event(enable_timing=True)
+
+    example_inputs = (torch.randn((100, 3, 224, 224)).to("cuda"),)
+    # Mark the dim0 of inputs as dynamic
+    batch = torch.export.Dim("batch", min=1, max=200)
+    exp_program = torch.export.export(
+        model, args=example_inputs, dynamic_shapes={"x": {0: batch}}
+    )
+
+    # The 1st iteration is to measure the compilation time without engine caching
+    # The 2nd and 3rd iterations are to measure the compilation time with engine caching.
+    # Since the 2nd iteration needs to compile and save the engine, it will be slower than the 1st iteration.
+    # The 3rd iteration should be faster than the 1st iteration because it loads the cached engine.
+    for i in range(iterations):
+        inputs = [torch.rand((100 + i, 3, 224, 224)).to("cuda")]
+        remove_timing_cache()  # remove timing cache just for engine caching messurement
+        if i == 0:
+            cache_built_engines = False
+            reuse_cached_engines = False
+        else:
+            cache_built_engines = True
+            reuse_cached_engines = True
+
+        start.record()
+        trt_gm = torch_trt.dynamo.compile(
+            exp_program,
+            tuple(inputs),
+            use_python_runtime=use_python_runtime,
+            enabled_precisions=enabled_precisions,
+            debug=debug,
+            min_block_size=min_block_size,
+            make_refitable=True,
+            cache_built_engines=cache_built_engines,
+            reuse_cached_engines=reuse_cached_engines,
+            engine_cache_size=1 << 30,  # 1GB
+        )
+        # output = trt_gm(*inputs)
+        end.record()
+        torch.cuda.synchronize()
+        times.append(start.elapsed_time(end))
+
+    print("----------------dynamo_compile----------------")
+    print("disable engine caching, used:", times[0], "ms")
+    print("enable engine caching to cache engines, used:", times[1], "ms")
+    print("enable engine caching to reuse engines, used:", times[2], "ms")
+
+
+dynamo_compile()
+
+# %%
+# Custom Engine Cache
+# ----------------------
+#
+# By default, the engine cache is stored in the system's temporary directory. Both the cache directory and
+# size limit can be customized by passing ``engine_cache_dir`` and ``engine_cache_size``.
+# Users can also define their own engine cache implementation by extending the ``BaseEngineCache`` class.
+# This allows for remote or shared caching if so desired.
+#
+# The custom engine cache should implement the following methods:
+#   - ``save``: Save the engine blob to the cache.
+#   - ``load``: Load the engine blob from the cache.
+#
+# The hash provided by the cache systen is a weight agnostic hash of the originating PyTorch subgraph (post lowering).
+# The blob contains a serialized engine, calling spec data, and weight map information in the pickle format
+#
+# Below is an example of a custom engine cache implementation that implents a ``RAMEngineCache``.
+
+
+class RAMEngineCache(BaseEngineCache):
+    def __init__(
+        self,
+    ) -> None:
+        """
+        Constructs a user held engine cache in memory.
+        """
+        self.engine_cache: Dict[str, bytes] = {}
+
+    def save(
+        self,
+        hash: str,
+        blob: bytes,
+    ):
+        """
+        Insert the engine blob to the cache.
+
+        Args:
+            hash (str): The hash key to associate with the engine blob.
+            blob (bytes): The engine blob to be saved.
+
+        Returns:
+            None
+        """
+        self.engine_cache[hash] = blob
+
+    def load(self, hash: str) -> Optional[bytes]:
+        """
+        Load the engine blob from the cache.
+
+        Args:
+            hash (str): The hash key of the engine to load.
+
+        Returns:
+            Optional[bytes]: The engine blob if found, None otherwise.
+        """
+        if hash in self.engine_cache:
+            return self.engine_cache[hash]
+        else:
+            return None
+
+
+def torch_compile_my_cache(iterations=3):
+    times = []
+    engine_cache = RAMEngineCache()
+    start = torch.cuda.Event(enable_timing=True)
+    end = torch.cuda.Event(enable_timing=True)
+
+    # The 1st iteration is to measure the compilation time without engine caching
+    # The 2nd and 3rd iterations are to measure the compilation time with engine caching.
+    # Since the 2nd iteration needs to compile and save the engine, it will be slower than the 1st iteration.
+    # The 3rd iteration should be faster than the 1st iteration because it loads the cached engine.
+    for i in range(iterations):
+        inputs = [torch.rand((100, 3, 224, 224)).to("cuda")]
+        # remove timing cache and reset dynamo just for engine caching messurement
+        remove_timing_cache()
+        torch._dynamo.reset()
+
+        if i == 0:
+            cache_built_engines = False
+            reuse_cached_engines = False
+        else:
+            cache_built_engines = True
+            reuse_cached_engines = True
+
+        start.record()
+        compiled_model = torch.compile(
+            model,
+            backend="tensorrt",
+            options={
+                "use_python_runtime": True,
+                "enabled_precisions": enabled_precisions,
+                "debug": debug,
+                "min_block_size": min_block_size,
+                "make_refitable": True,
+                "cache_built_engines": cache_built_engines,
+                "reuse_cached_engines": reuse_cached_engines,
+                "custom_engine_cache": engine_cache,
+            },
+        )
+        compiled_model(*inputs)  # trigger the compilation
+        end.record()
+        torch.cuda.synchronize()
+        times.append(start.elapsed_time(end))
+
+    print("----------------torch_compile----------------")
+    print("disable engine caching, used:", times[0], "ms")
+    print("enable engine caching to cache engines, used:", times[1], "ms")
+    print("enable engine caching to reuse engines, used:", times[2], "ms")
+
+
+torch_compile_my_cache()
diff --git a/docs/_downloads/2a9ac10f2667047a7f398d1593b7ca33/torch_export_gpt2.py b/docs/_downloads/2a9ac10f2667047a7f398d1593b7ca33/torch_export_gpt2.py
new file mode 100644
index 0000000000..a26305e4a3
--- /dev/null
+++ b/docs/_downloads/2a9ac10f2667047a7f398d1593b7ca33/torch_export_gpt2.py
@@ -0,0 +1,86 @@
+"""
+.. _torch_export_gpt2:
+
+Compiling GPT2 using the Torch-TensorRT with dynamo backend
+==========================================================
+
+This interactive script is intended as a sample of the Torch-TensorRT workflow with dynamo backend on a GPT2 model."""
+
+# %%
+# Imports and Model Definition
+# ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+import torch
+import torch_tensorrt
+from transformers import AutoModelForCausalLM, AutoTokenizer
+from utils import export_llm, generate
+
+# %%
+
+# Define the parameters and initialize the model
+MAX_TOKENS = 32
+DEVICE = torch.device("cuda:0")
+
+# Define the GPT2 model from hugging face
+# kv_cache is not supported in Torch-TRT currently.
+# CPU is used here so that GPU memory is reserved for TRT compilation.
+with torch.no_grad():
+    tokenizer = AutoTokenizer.from_pretrained("gpt2")
+    model = AutoModelForCausalLM.from_pretrained(
+        "gpt2",
+        pad_token_id=tokenizer.eos_token_id,
+        use_cache=False,
+        attn_implementation="eager",
+    ).eval()
+
+# %%
+# Tokenize a sample input prompt and get pytorch model outputs
+prompt = "I enjoy walking with my cute dog"
+model_inputs = tokenizer(prompt, return_tensors="pt")
+input_ids = model_inputs["input_ids"]
+
+# Auto-regressive generation loop for greedy decoding using PyTorch model
+# We use a custom generate function which is very similar to the huggingface one.
+pyt_gen_tokens = generate(model, input_ids, MAX_TOKENS, tokenizer.eos_token_id)
+
+
+# %%
+# Compilation with `Torch-TensorRT` using dynamo backend and generate TensorRT outputs
+# ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+
+# Export the GPT2 model into an ExportedProgram which is input of TRT compilation
+gpt2_ep = export_llm(model, input_ids, max_seq_len=1024)
+trt_model = torch_tensorrt.dynamo.compile(
+    gpt2_ep,
+    inputs=[input_ids],
+    enabled_precisions={torch.float32},
+    truncate_double=True,
+    device=DEVICE,
+    disable_tf32=True,
+)
+
+# Auto-regressive generation loop for greedy decoding using TensorRT model
+# We use a custom generate function which is very similar to the huggingface one.
+# Move inputs to GPU
+input_ids = input_ids.to(DEVICE)
+trt_gen_tokens = generate(trt_model, input_ids, MAX_TOKENS, tokenizer.eos_token_id)
+
+# %%
+# Decode the output sentences of PyTorch and TensorRT
+# ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+print("=============================")
+print(
+    "Pytorch model generated text: ",
+    tokenizer.decode(pyt_gen_tokens[0], skip_special_tokens=True),
+)
+print("=============================")
+print(
+    "TensorRT model generated text: ",
+    tokenizer.decode(trt_gen_tokens[0], skip_special_tokens=True),
+)
+
+# %%
+# The output sentences should look like
+# =============================
+# Pytorch model generated text:  I enjoy walking with my cute dog, but I'm not sure if I'll ever be able to walk with my dog. I'm not sure if I'll ever be able to walk with my
+# =============================
+# TensorRT model generated text:  I enjoy walking with my cute dog, but I'm not sure if I'll ever be able to walk with my dog. I'm not sure if I'll ever be able to walk with my
diff --git a/docs/_downloads/34421db2f2a82ea2b3d9a9cc85624784/torch_export_gpt2.ipynb b/docs/_downloads/34421db2f2a82ea2b3d9a9cc85624784/torch_export_gpt2.ipynb
new file mode 100644
index 0000000000..4623ccd105
--- /dev/null
+++ b/docs/_downloads/34421db2f2a82ea2b3d9a9cc85624784/torch_export_gpt2.ipynb
@@ -0,0 +1,122 @@
+{
+  "cells": [
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "\n\n# Compiling GPT2 using the Torch-TensorRT with dynamo backend\n\nThis interactive script is intended as a sample of the Torch-TensorRT workflow with dynamo backend on a GPT2 model.\n"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "## Imports and Model Definition\n\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "collapsed": false
+      },
+      "outputs": [],
+      "source": [
+        "import torch\nimport torch_tensorrt\nfrom transformers import AutoModelForCausalLM, AutoTokenizer\nfrom utils import export_llm, generate"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "collapsed": false
+      },
+      "outputs": [],
+      "source": [
+        "# Define the parameters and initialize the model\nMAX_TOKENS = 32\nDEVICE = torch.device(\"cuda:0\")\n\n# Define the GPT2 model from hugging face\n# kv_cache is not supported in Torch-TRT currently.\n# CPU is used here so that GPU memory is reserved for TRT compilation.\nwith torch.no_grad():\n    tokenizer = AutoTokenizer.from_pretrained(\"gpt2\")\n    model = AutoModelForCausalLM.from_pretrained(\n        \"gpt2\",\n        pad_token_id=tokenizer.eos_token_id,\n        use_cache=False,\n        attn_implementation=\"eager\",\n    ).eval()"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "Tokenize a sample input prompt and get pytorch model outputs\n\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "collapsed": false
+      },
+      "outputs": [],
+      "source": [
+        "prompt = \"I enjoy walking with my cute dog\"\nmodel_inputs = tokenizer(prompt, return_tensors=\"pt\")\ninput_ids = model_inputs[\"input_ids\"]\n\n# Auto-regressive generation loop for greedy decoding using PyTorch model\n# We use a custom generate function which is very similar to the huggingface one.\npyt_gen_tokens = generate(model, input_ids, MAX_TOKENS, tokenizer.eos_token_id)"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "## Compilation with `Torch-TensorRT` using dynamo backend and generate TensorRT outputs\n\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "collapsed": false
+      },
+      "outputs": [],
+      "source": [
+        "# Export the GPT2 model into an ExportedProgram which is input of TRT compilation\ngpt2_ep = export_llm(model, input_ids, max_seq_len=1024)\ntrt_model = torch_tensorrt.dynamo.compile(\n    gpt2_ep,\n    inputs=[input_ids],\n    enabled_precisions={torch.float32},\n    truncate_double=True,\n    device=DEVICE,\n    disable_tf32=True,\n)\n\n# Auto-regressive generation loop for greedy decoding using TensorRT model\n# We use a custom generate function which is very similar to the huggingface one.\n# Move inputs to GPU\ninput_ids = input_ids.to(DEVICE)\ntrt_gen_tokens = generate(trt_model, input_ids, MAX_TOKENS, tokenizer.eos_token_id)"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "## Decode the output sentences of PyTorch and TensorRT\n\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "collapsed": false
+      },
+      "outputs": [],
+      "source": [
+        "print(\"=============================\")\nprint(\n    \"Pytorch model generated text: \",\n    tokenizer.decode(pyt_gen_tokens[0], skip_special_tokens=True),\n)\nprint(\"=============================\")\nprint(\n    \"TensorRT model generated text: \",\n    tokenizer.decode(trt_gen_tokens[0], skip_special_tokens=True),\n)"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "# The output sentences should look like\nPytorch model generated text:  I enjoy walking with my cute dog, but I'm not sure if I'll ever be able to walk with my dog. I'm not sure if I'll ever be able to walk with my\n=============================\nTensorRT model generated text:  I enjoy walking with my cute dog, but I'm not sure if I'll ever be able to walk with my dog. I'm not sure if I'll ever be able to walk with my\n\n"
+      ]
+    }
+  ],
+  "metadata": {
+    "kernelspec": {
+      "display_name": "Python 3",
+      "language": "python",
+      "name": "python3"
+    },
+    "language_info": {
+      "codemirror_mode": {
+        "name": "ipython",
+        "version": 3
+      },
+      "file_extension": ".py",
+      "mimetype": "text/x-python",
+      "name": "python",
+      "nbconvert_exporter": "python",
+      "pygments_lexer": "ipython3",
+      "version": "3.11.0"
+    }
+  },
+  "nbformat": 4,
+  "nbformat_minor": 0
+}
\ No newline at end of file
diff --git a/docs/_downloads/3454ee6d4b68e83cdf0c757f0059986b/engine_caching_example.ipynb b/docs/_downloads/3454ee6d4b68e83cdf0c757f0059986b/engine_caching_example.ipynb
new file mode 100644
index 0000000000..5df63748b4
--- /dev/null
+++ b/docs/_downloads/3454ee6d4b68e83cdf0c757f0059986b/engine_caching_example.ipynb
@@ -0,0 +1,97 @@
+{
+  "cells": [
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "\n\n# Engine Caching\n\nAs model sizes increase, the cost of compilation will as well. With AOT methods\nlike ``torch.dynamo.compile``, this cost is paid upfront. However if the weights\nchange, the session ends or you are using JIT methods like ``torch.compile``, as\ngraphs get invalidated they get re-compiled, this cost will get paid repeatedly.\nEngine caching is a way to mitigate this cost by saving constructed engines to disk\nand re-using them when possible. This tutorial demonstrates how to use engine caching\nwith TensorRT in PyTorch. Engine caching can significantly speed up subsequent model\ncompilations reusing previously built TensorRT engines.\n\nWe'll explore two approaches:\n\n    1. Using torch_tensorrt.dynamo.compile\n    2. Using torch.compile with the TensorRT backend\n\nThe example uses a pre-trained ResNet18 model and shows the\ndifferences between compilation without caching, with caching enabled,\nand when reusing cached engines.\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "collapsed": false
+      },
+      "outputs": [],
+      "source": [
+        "import os\nfrom typing import Dict, Optional\n\nimport numpy as np\nimport torch\nimport torch_tensorrt as torch_trt\nimport torchvision.models as models\nfrom torch_tensorrt.dynamo._defaults import TIMING_CACHE_PATH\nfrom torch_tensorrt.dynamo._engine_cache import BaseEngineCache\n\nnp.random.seed(0)\ntorch.manual_seed(0)\n\nmodel = models.resnet18(pretrained=True).eval().to(\"cuda\")\nenabled_precisions = {torch.float}\ndebug = False\nmin_block_size = 1\nuse_python_runtime = False\n\n\ndef remove_timing_cache(path=TIMING_CACHE_PATH):\n    if os.path.exists(path):\n        os.remove(path)"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "## Engine Caching for JIT Compilation\n\nThe primary goal of engine caching is to help speed up JIT workflows. ``torch.compile``\nprovides a great deal of flexibility in model construction which makes it a good\nfirst tool to try when looking to speed up your workflow. However, historically\nthe cost of compilation and in particular recompilation has been a barrier to entry\nfor many users. If for some reason a subgraph gets invalidated, that graph is reconstructed\nscratch prior to the addition of engine caching. Now as engines are constructed, with ``cache_built_engines=True``,\nengines are saved to disk tied to a hash of their corresponding PyTorch subgraph. If\nin a subsequent compilation, either as part of this session or a new session, the cache will\npull the built engine and **refit** the weights which can reduce compilation times by orders of magnitude.\nAs such, in order to insert a new engine into the cache (i.e. ``cache_built_engines=True``),\nthe engine must be refitable (``make_refittable=True``). See `refit_engine_example` for more details.\n\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "collapsed": false
+      },
+      "outputs": [],
+      "source": [
+        "def torch_compile(iterations=3):\n    times = []\n    start = torch.cuda.Event(enable_timing=True)\n    end = torch.cuda.Event(enable_timing=True)\n\n    # The 1st iteration is to measure the compilation time without engine caching\n    # The 2nd and 3rd iterations are to measure the compilation time with engine caching.\n    # Since the 2nd iteration needs to compile and save the engine, it will be slower than the 1st iteration.\n    # The 3rd iteration should be faster than the 1st iteration because it loads the cached engine.\n    for i in range(iterations):\n        inputs = [torch.rand((100, 3, 224, 224)).to(\"cuda\")]\n        # remove timing cache and reset dynamo just for engine caching messurement\n        remove_timing_cache()\n        torch._dynamo.reset()\n\n        if i == 0:\n            cache_built_engines = False\n            reuse_cached_engines = False\n        else:\n            cache_built_engines = True\n            reuse_cached_engines = True\n\n        start.record()\n        compiled_model = torch.compile(\n            model,\n            backend=\"tensorrt\",\n            options={\n                \"use_python_runtime\": True,\n                \"enabled_precisions\": enabled_precisions,\n                \"debug\": debug,\n                \"min_block_size\": min_block_size,\n                \"make_refitable\": True,\n                \"cache_built_engines\": cache_built_engines,\n                \"reuse_cached_engines\": reuse_cached_engines,\n            },\n        )\n        compiled_model(*inputs)  # trigger the compilation\n        end.record()\n        torch.cuda.synchronize()\n        times.append(start.elapsed_time(end))\n\n    print(\"----------------torch_compile----------------\")\n    print(\"disable engine caching, used:\", times[0], \"ms\")\n    print(\"enable engine caching to cache engines, used:\", times[1], \"ms\")\n    print(\"enable engine caching to reuse engines, used:\", times[2], \"ms\")\n\n\ntorch_compile()"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "## Engine Caching for AOT Compilation\nSimilarly to the JIT workflow, AOT workflows can benefit from engine caching.\nAs the same architecture or common subgraphs get recompiled, the cache will pull\npreviously built engines and refit the weights.\n\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "collapsed": false
+      },
+      "outputs": [],
+      "source": [
+        "def dynamo_compile(iterations=3):\n    times = []\n    start = torch.cuda.Event(enable_timing=True)\n    end = torch.cuda.Event(enable_timing=True)\n\n    example_inputs = (torch.randn((100, 3, 224, 224)).to(\"cuda\"),)\n    # Mark the dim0 of inputs as dynamic\n    batch = torch.export.Dim(\"batch\", min=1, max=200)\n    exp_program = torch.export.export(\n        model, args=example_inputs, dynamic_shapes={\"x\": {0: batch}}\n    )\n\n    # The 1st iteration is to measure the compilation time without engine caching\n    # The 2nd and 3rd iterations are to measure the compilation time with engine caching.\n    # Since the 2nd iteration needs to compile and save the engine, it will be slower than the 1st iteration.\n    # The 3rd iteration should be faster than the 1st iteration because it loads the cached engine.\n    for i in range(iterations):\n        inputs = [torch.rand((100 + i, 3, 224, 224)).to(\"cuda\")]\n        remove_timing_cache()  # remove timing cache just for engine caching messurement\n        if i == 0:\n            cache_built_engines = False\n            reuse_cached_engines = False\n        else:\n            cache_built_engines = True\n            reuse_cached_engines = True\n\n        start.record()\n        trt_gm = torch_trt.dynamo.compile(\n            exp_program,\n            tuple(inputs),\n            use_python_runtime=use_python_runtime,\n            enabled_precisions=enabled_precisions,\n            debug=debug,\n            min_block_size=min_block_size,\n            make_refitable=True,\n            cache_built_engines=cache_built_engines,\n            reuse_cached_engines=reuse_cached_engines,\n            engine_cache_size=1 << 30,  # 1GB\n        )\n        # output = trt_gm(*inputs)\n        end.record()\n        torch.cuda.synchronize()\n        times.append(start.elapsed_time(end))\n\n    print(\"----------------dynamo_compile----------------\")\n    print(\"disable engine caching, used:\", times[0], \"ms\")\n    print(\"enable engine caching to cache engines, used:\", times[1], \"ms\")\n    print(\"enable engine caching to reuse engines, used:\", times[2], \"ms\")\n\n\ndynamo_compile()"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "## Custom Engine Cache\n\nBy default, the engine cache is stored in the system's temporary directory. Both the cache directory and\nsize limit can be customized by passing ``engine_cache_dir`` and ``engine_cache_size``.\nUsers can also define their own engine cache implementation by extending the ``BaseEngineCache`` class.\nThis allows for remote or shared caching if so desired.\n\nThe custom engine cache should implement the following methods:\n  - ``save``: Save the engine blob to the cache.\n  - ``load``: Load the engine blob from the cache.\n\nThe hash provided by the cache systen is a weight agnostic hash of the originating PyTorch subgraph (post lowering).\nThe blob contains a serialized engine, calling spec data, and weight map information in the pickle format\n\nBelow is an example of a custom engine cache implementation that implents a ``RAMEngineCache``.\n\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "collapsed": false
+      },
+      "outputs": [],
+      "source": [
+        "class RAMEngineCache(BaseEngineCache):\n    def __init__(\n        self,\n    ) -> None:\n        \"\"\"\n        Constructs a user held engine cache in memory.\n        \"\"\"\n        self.engine_cache: Dict[str, bytes] = {}\n\n    def save(\n        self,\n        hash: str,\n        blob: bytes,\n    ):\n        \"\"\"\n        Insert the engine blob to the cache.\n\n        Args:\n            hash (str): The hash key to associate with the engine blob.\n            blob (bytes): The engine blob to be saved.\n\n        Returns:\n            None\n        \"\"\"\n        self.engine_cache[hash] = blob\n\n    def load(self, hash: str) -> Optional[bytes]:\n        \"\"\"\n        Load the engine blob from the cache.\n\n        Args:\n            hash (str): The hash key of the engine to load.\n\n        Returns:\n            Optional[bytes]: The engine blob if found, None otherwise.\n        \"\"\"\n        if hash in self.engine_cache:\n            return self.engine_cache[hash]\n        else:\n            return None\n\n\ndef torch_compile_my_cache(iterations=3):\n    times = []\n    engine_cache = RAMEngineCache()\n    start = torch.cuda.Event(enable_timing=True)\n    end = torch.cuda.Event(enable_timing=True)\n\n    # The 1st iteration is to measure the compilation time without engine caching\n    # The 2nd and 3rd iterations are to measure the compilation time with engine caching.\n    # Since the 2nd iteration needs to compile and save the engine, it will be slower than the 1st iteration.\n    # The 3rd iteration should be faster than the 1st iteration because it loads the cached engine.\n    for i in range(iterations):\n        inputs = [torch.rand((100, 3, 224, 224)).to(\"cuda\")]\n        # remove timing cache and reset dynamo just for engine caching messurement\n        remove_timing_cache()\n        torch._dynamo.reset()\n\n        if i == 0:\n            cache_built_engines = False\n            reuse_cached_engines = False\n        else:\n            cache_built_engines = True\n            reuse_cached_engines = True\n\n        start.record()\n        compiled_model = torch.compile(\n            model,\n            backend=\"tensorrt\",\n            options={\n                \"use_python_runtime\": True,\n                \"enabled_precisions\": enabled_precisions,\n                \"debug\": debug,\n                \"min_block_size\": min_block_size,\n                \"make_refitable\": True,\n                \"cache_built_engines\": cache_built_engines,\n                \"reuse_cached_engines\": reuse_cached_engines,\n                \"custom_engine_cache\": engine_cache,\n            },\n        )\n        compiled_model(*inputs)  # trigger the compilation\n        end.record()\n        torch.cuda.synchronize()\n        times.append(start.elapsed_time(end))\n\n    print(\"----------------torch_compile----------------\")\n    print(\"disable engine caching, used:\", times[0], \"ms\")\n    print(\"enable engine caching to cache engines, used:\", times[1], \"ms\")\n    print(\"enable engine caching to reuse engines, used:\", times[2], \"ms\")\n\n\ntorch_compile_my_cache()"
+      ]
+    }
+  ],
+  "metadata": {
+    "kernelspec": {
+      "display_name": "Python 3",
+      "language": "python",
+      "name": "python3"
+    },
+    "language_info": {
+      "codemirror_mode": {
+        "name": "ipython",
+        "version": 3
+      },
+      "file_extension": ".py",
+      "mimetype": "text/x-python",
+      "name": "python",
+      "nbconvert_exporter": "python",
+      "pygments_lexer": "ipython3",
+      "version": "3.11.0"
+    }
+  },
+  "nbformat": 4,
+  "nbformat_minor": 0
+}
\ No newline at end of file
diff --git a/docs/_downloads/6a6052d9668b2cb8332d349d328e21c1/_rendered_examples_jupyter.zip b/docs/_downloads/6a6052d9668b2cb8332d349d328e21c1/_rendered_examples_jupyter.zip
index 9ebd46bac6..339f7611aa 100644
Binary files a/docs/_downloads/6a6052d9668b2cb8332d349d328e21c1/_rendered_examples_jupyter.zip and b/docs/_downloads/6a6052d9668b2cb8332d349d328e21c1/_rendered_examples_jupyter.zip differ
diff --git a/docs/_downloads/798cda8f83bd9f5e2cc93f329a04332c/_rendered_examples_python.zip b/docs/_downloads/798cda8f83bd9f5e2cc93f329a04332c/_rendered_examples_python.zip
index 43eba5e840..22af738e35 100644
Binary files a/docs/_downloads/798cda8f83bd9f5e2cc93f329a04332c/_rendered_examples_python.zip and b/docs/_downloads/798cda8f83bd9f5e2cc93f329a04332c/_rendered_examples_python.zip differ
diff --git a/docs/_downloads/7b7004dc2ea6f839be532665e16e0426/torch_export_llama2.py b/docs/_downloads/7b7004dc2ea6f839be532665e16e0426/torch_export_llama2.py
new file mode 100644
index 0000000000..195944688b
--- /dev/null
+++ b/docs/_downloads/7b7004dc2ea6f839be532665e16e0426/torch_export_llama2.py
@@ -0,0 +1,90 @@
+"""
+.. _torch_export_llama2:
+
+Compiling Llama2 using the Torch-TensorRT with dynamo backend
+==========================================================
+
+This interactive script is intended as a sample of the Torch-TensorRT workflow with dynamo backend on a Llama2 model."""
+
+# %%
+# Imports and Model Definition
+# ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+import torch
+import torch_tensorrt
+from transformers import AutoModelForCausalLM, AutoTokenizer
+from utils import export_llm, generate
+
+# %%
+# Define the parameters and initialize the model
+MAX_TOKENS = 32
+DEVICE = torch.device("cuda:0")
+
+# Define the Llama2 model from hugging face
+# kv_cache is not supported in Torch-TRT currently.
+# CPU is used here so that GPU memory is reserved for TRT compilation.
+llama_path = "meta-llama/Llama-2-7b-chat-hf"
+with torch.no_grad():
+    model = AutoModelForCausalLM.from_pretrained(
+        llama_path, use_cache=False, attn_implementation="eager"
+    ).eval()
+
+tokenizer = AutoTokenizer.from_pretrained(llama_path)
+
+# %%
+# Tokenize a sample input prompt and get pytorch model outputs
+prompt = "What is dynamic programming?"
+model_inputs = tokenizer(prompt, return_tensors="pt")
+input_ids = model_inputs.input_ids
+
+# Auto-regressive generation loop for greedy decoding using PyTorch model
+# We use a custom generate function which is very similar to the huggingface one.
+pyt_gen_tokens = generate(model, input_ids, MAX_TOKENS, tokenizer.eos_token_id)
+
+# %%
+# Compilation with `Torch-TensorRT` using dynamo backend and generate TensorRT outputs
+# ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+
+# Export the llama2 model into an ExportedProgram which is input of TRT compilation
+llama2_ep = export_llm(model, input_ids, max_seq_len=64)
+trt_model = torch_tensorrt.dynamo.compile(
+    llama2_ep,
+    inputs=[input_ids],
+    enabled_precisions={torch.float32},
+    min_block_size=1,
+    truncate_double=True,
+    device=DEVICE,
+    disable_tf32=True,
+)
+
+# Auto-regressive generation loop for greedy decoding using TensorRT model
+# We use a custom generate function which is very similar to the huggingface one.
+# Move inputs to GPU
+input_ids = input_ids.to(DEVICE)
+trt_gen_tokens = generate(trt_model, input_ids, MAX_TOKENS, tokenizer.eos_token_id)
+
+# %%
+# Decode the output sentences of PyTorch and TensorRT
+# ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+print("=============================")
+print(
+    "Pytorch model generated text: ",
+    tokenizer.batch_decode(
+        pyt_gen_tokens, skip_special_tokens=True, clean_up_tokenization_spaces=False
+    )[0],
+)
+print("=============================")
+print(
+    "TensorRT model generated text: ",
+    tokenizer.batch_decode(
+        trt_gen_tokens,
+        skip_special_tokens=True,
+        clean_up_tokenization_spaces=False,
+    )[0],
+)
+
+# %%
+# The output sentences should look like
+# =============================
+# Pytorch model generated text:  I enjoy walking with my cute dog, but I'm not sure if I'll ever be able to walk with my dog. I'm not sure if I'll ever be able to walk with my
+# =============================
+# TensorRT model generated text:  I enjoy walking with my cute dog, but I'm not sure if I'll ever be able to walk with my dog. I'm not sure if I'll ever be able to walk with my
diff --git a/docs/_downloads/7e3a125a2d4ba8274a41b46f5e0723fa/refit_engine_example.py b/docs/_downloads/7e3a125a2d4ba8274a41b46f5e0723fa/refit_engine_example.py
index c8cd5590d3..1feb033a3a 100644
--- a/docs/_downloads/7e3a125a2d4ba8274a41b46f5e0723fa/refit_engine_example.py
+++ b/docs/_downloads/7e3a125a2d4ba8274a41b46f5e0723fa/refit_engine_example.py
@@ -1,19 +1,26 @@
 """
 .. _refit_engine_example:
 
-Refit  TenorRT Graph Module with Torch-TensorRT
+Refitting Torch-TensorRT Programs with New Weights
 ===================================================================
 
-We are going to demonstrate how a compiled TensorRT Graph Module can be refitted with updated weights.
-
-In many cases, we frequently update the weights of models, such as applying various LoRA to Stable Diffusion or constant A/B testing of AI products.
-That poses challenges for TensorRT inference optimizations, as compiling the TensorRT engines takes significant time, making repetitive compilation highly inefficient.
-Torch-TensorRT supports refitting TensorRT graph modules without re-compiling the engine, considerably accelerating the workflow.
+Compilation is an expensive operation as it involves many graph transformations, translations
+and optimizations applied on the model. In cases were the weights of a model might be updated
+occasionally (e.g. inserting LoRA adapters), the large cost of recompilation can make it infeasible
+to use TensorRT if the compiled program needed to be built from scratch each time. Torch-TensorRT
+provides a PyTorch native mechanism to update the weights of a compiled TensorRT program without
+recompiling from scratch through weight refitting.
 
 In this tutorial, we are going to walk through
-1. Compiling a PyTorch model to a TensorRT Graph Module
-2. Save and load a graph module
-3. Refit the graph module
+
+    1. Compiling a PyTorch model to a TensorRT Graph Module
+    2. Save and load a graph module
+    3. Refit the graph module
+
+This tutorial focuses mostly on the AOT workflow where it is most likely that a user might need to
+manually refit a module. In the JIT workflow, weight changes trigger recompilation. As the engine
+has previously been built, with an engine cache enabled, Torch-TensorRT can automatically recognize
+a previously built engine, trigger refit and short cut recompilation on behalf of the user (see: :ref:`engine_caching_example`).
 """
 
 # %%
@@ -36,10 +43,17 @@
 
 
 # %%
-# Compile the module for the first time and save it.
-# ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
-
-model = models.resnet18(pretrained=True).eval().to("cuda")
+# Make a Refitable Compilation Program
+# ---------------------------------------
+#
+# The inital step is to compile a module and save it as with a normal. Note that there is an
+# additional parameter `make_refitable` that is set to `True`. This parameter is used to
+# indicate that the engine being built should support weight refitting later. Engines built without
+# these setttings will not be able to be refit.
+#
+# In this case we are going to compile a ResNet18 model with randomly initialized weights and save it.
+
+model = models.resnet18(pretrained=False).eval().to("cuda")
 exp_program = torch.export.export(model, tuple(inputs))
 enabled_precisions = {torch.float}
 debug = False
@@ -59,16 +73,20 @@
 )  # Output is a torch.fx.GraphModule
 
 # Save the graph module as an exported program
-# This is only supported when use_python_runtime = False
 torch_trt.save(trt_gm, "./compiled.ep", inputs=inputs)
 
 
 # %%
-# Refit the module with update model weights
-# ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+# Refit the Program with Pretrained Weights
+# ------------------------------------------
+#
+# Random weights are not useful for inference. But now instead of recompiling the model, we can
+# refit the model with the pretrained weights. This is done by setting up another PyTorch module
+# with the target weights and exporting it as an ExportedProgram. Then the ``refit_module_weights``
+# function is used to update the weights of the compiled module with the new weights.
 
 # Create and compile the updated model
-model2 = models.resnet18(pretrained=False).eval().to("cuda")
+model2 = models.resnet18(pretrained=True).eval().to("cuda")
 exp_program2 = torch.export.export(model2, tuple(inputs))
 
 
@@ -91,8 +109,32 @@
 print("Refit successfully!")
 
 # %%
-# Alternative Workflow using Python Runtime
+#
+# Advanced Usage
 # -----------------------------
-
-# Currently python runtime does not support engine serialization. So the refitting will be done in the same runtime.
-# This usecase is more useful when you need to switch different weights in the same runtime, such as using Stable Diffusion.
+#
+# There are a number of settings you can use to control the refit process
+#
+# Weight Map Cache
+# ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+#
+# Weight refitting works by matching the weights of the compiled module with the new weights from
+# the user supplied ExportedProgram. Since 1:1 name matching from PyTorch to TensorRT is hard to accomplish,
+# the only gaurenteed way to match weights at *refit-time* is to pass the new ExportedProgram through the
+# early phases of the compilation process to generate near identical weight names. This can be expensive
+# and is not always necessary.
+#
+# To avoid this, **At initial compile**, Torch-TensorRt will attempt to cache a direct mapping from PyTorch
+# weights to TensorRT weights. This cache is stored in the compiled module as metadata and can be used
+# to speed up refit. If the cache is not present, the refit system will fallback to rebuilding the mapping at
+# refit-time. Use of this cache is controlled by the ``use_weight_map_cache`` parameter.
+#
+# Since the cache uses a heuristic based system for matching PyTorch and TensorRT weights, you may want to verify the refitting. This can be done by setting
+# ``verify_output`` to True and providing sample ``arg_inputs`` and ``kwarg_inputs``. When this is done, the refit
+# system will run the refitted module and the user supplied module on the same inputs and compare the outputs.
+#
+# In-Place Refit
+# ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+#
+# ``in_place`` allows the user to refit the module in place. This is useful when the user wants to update the weights
+# of the compiled module without creating a new module.
diff --git a/docs/_downloads/9e148ac48490c84d381ee281904f3226/torch_export_llama2.ipynb b/docs/_downloads/9e148ac48490c84d381ee281904f3226/torch_export_llama2.ipynb
new file mode 100644
index 0000000000..d19be753a0
--- /dev/null
+++ b/docs/_downloads/9e148ac48490c84d381ee281904f3226/torch_export_llama2.ipynb
@@ -0,0 +1,129 @@
+{
+  "cells": [
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "\n\n# Compiling Llama2 using the Torch-TensorRT with dynamo backend\n\nThis interactive script is intended as a sample of the Torch-TensorRT workflow with dynamo backend on a Llama2 model.\n"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "## Imports and Model Definition\n\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "collapsed": false
+      },
+      "outputs": [],
+      "source": [
+        "import torch\nimport torch_tensorrt\nfrom transformers import AutoModelForCausalLM, AutoTokenizer\nfrom utils import export_llm, generate"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "Define the parameters and initialize the model\n\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "collapsed": false
+      },
+      "outputs": [],
+      "source": [
+        "MAX_TOKENS = 32\nDEVICE = torch.device(\"cuda:0\")\n\n# Define the Llama2 model from hugging face\n# kv_cache is not supported in Torch-TRT currently.\n# CPU is used here so that GPU memory is reserved for TRT compilation.\nllama_path = \"meta-llama/Llama-2-7b-chat-hf\"\nwith torch.no_grad():\n    model = AutoModelForCausalLM.from_pretrained(\n        llama_path, use_cache=False, attn_implementation=\"eager\"\n    ).eval()\n\ntokenizer = AutoTokenizer.from_pretrained(llama_path)"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "Tokenize a sample input prompt and get pytorch model outputs\n\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "collapsed": false
+      },
+      "outputs": [],
+      "source": [
+        "prompt = \"What is dynamic programming?\"\nmodel_inputs = tokenizer(prompt, return_tensors=\"pt\")\ninput_ids = model_inputs.input_ids\n\n# Auto-regressive generation loop for greedy decoding using PyTorch model\n# We use a custom generate function which is very similar to the huggingface one.\npyt_gen_tokens = generate(model, input_ids, MAX_TOKENS, tokenizer.eos_token_id)"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "## Compilation with `Torch-TensorRT` using dynamo backend and generate TensorRT outputs\n\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "collapsed": false
+      },
+      "outputs": [],
+      "source": [
+        "# Export the llama2 model into an ExportedProgram which is input of TRT compilation\nllama2_ep = export_llm(model, input_ids, max_seq_len=64)\ntrt_model = torch_tensorrt.dynamo.compile(\n    llama2_ep,\n    inputs=[input_ids],\n    enabled_precisions={torch.float32},\n    min_block_size=1,\n    truncate_double=True,\n    device=DEVICE,\n    disable_tf32=True,\n)\n\n# Auto-regressive generation loop for greedy decoding using TensorRT model\n# We use a custom generate function which is very similar to the huggingface one.\n# Move inputs to GPU\ninput_ids = input_ids.to(DEVICE)\ntrt_gen_tokens = generate(trt_model, input_ids, MAX_TOKENS, tokenizer.eos_token_id)"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "## Decode the output sentences of PyTorch and TensorRT\n\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "collapsed": false
+      },
+      "outputs": [],
+      "source": [
+        "print(\"=============================\")\nprint(\n    \"Pytorch model generated text: \",\n    tokenizer.batch_decode(\n        pyt_gen_tokens, skip_special_tokens=True, clean_up_tokenization_spaces=False\n    )[0],\n)\nprint(\"=============================\")\nprint(\n    \"TensorRT model generated text: \",\n    tokenizer.batch_decode(\n        trt_gen_tokens,\n        skip_special_tokens=True,\n        clean_up_tokenization_spaces=False,\n    )[0],\n)"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "# The output sentences should look like\nPytorch model generated text:  I enjoy walking with my cute dog, but I'm not sure if I'll ever be able to walk with my dog. I'm not sure if I'll ever be able to walk with my\n=============================\nTensorRT model generated text:  I enjoy walking with my cute dog, but I'm not sure if I'll ever be able to walk with my dog. I'm not sure if I'll ever be able to walk with my\n\n"
+      ]
+    }
+  ],
+  "metadata": {
+    "kernelspec": {
+      "display_name": "Python 3",
+      "language": "python",
+      "name": "python3"
+    },
+    "language_info": {
+      "codemirror_mode": {
+        "name": "ipython",
+        "version": 3
+      },
+      "file_extension": ".py",
+      "mimetype": "text/x-python",
+      "name": "python",
+      "nbconvert_exporter": "python",
+      "pygments_lexer": "ipython3",
+      "version": "3.11.0"
+    }
+  },
+  "nbformat": 4,
+  "nbformat_minor": 0
+}
\ No newline at end of file
diff --git a/docs/_downloads/d9a9caffd95dc397ffb9ea9d37a89f06/refit_engine_example.ipynb b/docs/_downloads/d9a9caffd95dc397ffb9ea9d37a89f06/refit_engine_example.ipynb
index 901f5b7743..8cf6de7904 100644
--- a/docs/_downloads/d9a9caffd95dc397ffb9ea9d37a89f06/refit_engine_example.ipynb
+++ b/docs/_downloads/d9a9caffd95dc397ffb9ea9d37a89f06/refit_engine_example.ipynb
@@ -4,7 +4,7 @@
       "cell_type": "markdown",
       "metadata": {},
       "source": [
-        "\n\n# Refit  TenorRT Graph Module with Torch-TensorRT\n\nWe are going to demonstrate how a compiled TensorRT Graph Module can be refitted with updated weights.\n\nIn many cases, we frequently update the weights of models, such as applying various LoRA to Stable Diffusion or constant A/B testing of AI products.\nThat poses challenges for TensorRT inference optimizations, as compiling the TensorRT engines takes significant time, making repetitive compilation highly inefficient.\nTorch-TensorRT supports refitting TensorRT graph modules without re-compiling the engine, considerably accelerating the workflow.\n\nIn this tutorial, we are going to walk through\n1. Compiling a PyTorch model to a TensorRT Graph Module\n2. Save and load a graph module\n3. Refit the graph module\n"
+        "\n\n# Refitting Torch-TensorRT Programs with New Weights\n\nCompilation is an expensive operation as it involves many graph transformations, translations\nand optimizations applied on the model. In cases were the weights of a model might be updated\noccasionally (e.g. inserting LoRA adapters), the large cost of recompilation can make it infeasible\nto use TensorRT if the compiled program needed to be built from scratch each time. Torch-TensorRT\nprovides a PyTorch native mechanism to update the weights of a compiled TensorRT program without\nrecompiling from scratch through weight refitting.\n\nIn this tutorial, we are going to walk through\n\n    1. Compiling a PyTorch model to a TensorRT Graph Module\n    2. Save and load a graph module\n    3. Refit the graph module\n\nThis tutorial focuses mostly on the AOT workflow where it is most likely that a user might need to\nmanually refit a module. In the JIT workflow, weight changes trigger recompilation. As the engine\nhas previously been built, with an engine cache enabled, Torch-TensorRT can automatically recognize\na previously built engine, trigger refit and short cut recompilation on behalf of the user (see: `engine_caching_example`).\n"
       ]
     },
     {
@@ -36,7 +36,7 @@
       "cell_type": "markdown",
       "metadata": {},
       "source": [
-        "### Compile the module for the first time and save it.\n\n"
+        "## Make a Refitable Compilation Program\n\nThe inital step is to compile a module and save it as with a normal. Note that there is an\nadditional parameter `make_refitable` that is set to `True`. This parameter is used to\nindicate that the engine being built should support weight refitting later. Engines built without\nthese setttings will not be able to be refit.\n\nIn this case we are going to compile a ResNet18 model with randomly initialized weights and save it.\n\n"
       ]
     },
     {
@@ -47,14 +47,14 @@
       },
       "outputs": [],
       "source": [
-        "model = models.resnet18(pretrained=True).eval().to(\"cuda\")\nexp_program = torch.export.export(model, tuple(inputs))\nenabled_precisions = {torch.float}\ndebug = False\nworkspace_size = 20 << 30\nmin_block_size = 0\nuse_python_runtime = False\ntorch_executed_ops = {}\ntrt_gm = torch_trt.dynamo.compile(\n    exp_program,\n    tuple(inputs),\n    use_python_runtime=use_python_runtime,\n    enabled_precisions=enabled_precisions,\n    debug=debug,\n    min_block_size=min_block_size,\n    torch_executed_ops=torch_executed_ops,\n    make_refitable=True,\n)  # Output is a torch.fx.GraphModule\n\n# Save the graph module as an exported program\n# This is only supported when use_python_runtime = False\ntorch_trt.save(trt_gm, \"./compiled.ep\", inputs=inputs)"
+        "model = models.resnet18(pretrained=False).eval().to(\"cuda\")\nexp_program = torch.export.export(model, tuple(inputs))\nenabled_precisions = {torch.float}\ndebug = False\nworkspace_size = 20 << 30\nmin_block_size = 0\nuse_python_runtime = False\ntorch_executed_ops = {}\ntrt_gm = torch_trt.dynamo.compile(\n    exp_program,\n    tuple(inputs),\n    use_python_runtime=use_python_runtime,\n    enabled_precisions=enabled_precisions,\n    debug=debug,\n    min_block_size=min_block_size,\n    torch_executed_ops=torch_executed_ops,\n    make_refitable=True,\n)  # Output is a torch.fx.GraphModule\n\n# Save the graph module as an exported program\ntorch_trt.save(trt_gm, \"./compiled.ep\", inputs=inputs)"
       ]
     },
     {
       "cell_type": "markdown",
       "metadata": {},
       "source": [
-        "### Refit the module with update model weights\n\n"
+        "## Refit the Program with Pretrained Weights\n\nRandom weights are not useful for inference. But now instead of recompiling the model, we can\nrefit the model with the pretrained weights. This is done by setting up another PyTorch module\nwith the target weights and exporting it as an ExportedProgram. Then the ``refit_module_weights``\nfunction is used to update the weights of the compiled module with the new weights.\n\n"
       ]
     },
     {
@@ -65,25 +65,14 @@
       },
       "outputs": [],
       "source": [
-        "# Create and compile the updated model\nmodel2 = models.resnet18(pretrained=False).eval().to(\"cuda\")\nexp_program2 = torch.export.export(model2, tuple(inputs))\n\n\ncompiled_trt_ep = torch_trt.load(\"./compiled.ep\")\n\n# This returns a new module with updated weights\nnew_trt_gm = refit_module_weights(\n    compiled_module=compiled_trt_ep,\n    new_weight_module=exp_program2,\n    arg_inputs=inputs,\n)\n\n# Check the output\nexpected_outputs, refitted_outputs = exp_program2.module()(*inputs), new_trt_gm(*inputs)\nfor expected_output, refitted_output in zip(expected_outputs, refitted_outputs):\n    assert torch.allclose(\n        expected_output, refitted_output, 1e-2, 1e-2\n    ), \"Refit Result is not correct. Refit failed\"\n\nprint(\"Refit successfully!\")"
+        "# Create and compile the updated model\nmodel2 = models.resnet18(pretrained=True).eval().to(\"cuda\")\nexp_program2 = torch.export.export(model2, tuple(inputs))\n\n\ncompiled_trt_ep = torch_trt.load(\"./compiled.ep\")\n\n# This returns a new module with updated weights\nnew_trt_gm = refit_module_weights(\n    compiled_module=compiled_trt_ep,\n    new_weight_module=exp_program2,\n    arg_inputs=inputs,\n)\n\n# Check the output\nexpected_outputs, refitted_outputs = exp_program2.module()(*inputs), new_trt_gm(*inputs)\nfor expected_output, refitted_output in zip(expected_outputs, refitted_outputs):\n    assert torch.allclose(\n        expected_output, refitted_output, 1e-2, 1e-2\n    ), \"Refit Result is not correct. Refit failed\"\n\nprint(\"Refit successfully!\")"
       ]
     },
     {
       "cell_type": "markdown",
       "metadata": {},
       "source": [
-        "## Alternative Workflow using Python Runtime\n\n"
-      ]
-    },
-    {
-      "cell_type": "code",
-      "execution_count": null,
-      "metadata": {
-        "collapsed": false
-      },
-      "outputs": [],
-      "source": [
-        "# Currently python runtime does not support engine serialization. So the refitting will be done in the same runtime.\n# This usecase is more useful when you need to switch different weights in the same runtime, such as using Stable Diffusion."
+        "## Advanced Usage\n\nThere are a number of settings you can use to control the refit process\n\n### Weight Map Cache\n\nWeight refitting works by matching the weights of the compiled module with the new weights from\nthe user supplied ExportedProgram. Since 1:1 name matching from PyTorch to TensorRT is hard to accomplish,\nthe only gaurenteed way to match weights at *refit-time* is to pass the new ExportedProgram through the\nearly phases of the compilation process to generate near identical weight names. This can be expensive\nand is not always necessary.\n\nTo avoid this, **At initial compile**, Torch-TensorRt will attempt to cache a direct mapping from PyTorch\nweights to TensorRT weights. This cache is stored in the compiled module as metadata and can be used\nto speed up refit. If the cache is not present, the refit system will fallback to rebuilding the mapping at\nrefit-time. Use of this cache is controlled by the ``use_weight_map_cache`` parameter.\n\nSince the cache uses a heuristic based system for matching PyTorch and TensorRT weights, you may want to verify the refitting. This can be done by setting\n``verify_output`` to True and providing sample ``arg_inputs`` and ``kwarg_inputs``. When this is done, the refit\nsystem will run the refitted module and the user supplied module on the same inputs and compare the outputs.\n\n### In-Place Refit\n\n``in_place`` allows the user to refit the module in place. This is useful when the user wants to update the weights\nof the compiled module without creating a new module.\n\n"
       ]
     }
   ],
diff --git a/docs/_downloads/fdd0cb7713d049345adec03926d28414/engine_caching_bert_example.py b/docs/_downloads/fdd0cb7713d049345adec03926d28414/engine_caching_bert_example.py
new file mode 100644
index 0000000000..428c414a06
--- /dev/null
+++ b/docs/_downloads/fdd0cb7713d049345adec03926d28414/engine_caching_bert_example.py
@@ -0,0 +1,75 @@
+"""
+
+.. _engine_caching_bert_example:
+
+Engine Caching (BERT)
+=======================
+
+Small caching example on BERT.
+"""
+
+import numpy as np
+import torch
+import torch_tensorrt
+from engine_caching_example import remove_timing_cache
+from transformers import BertModel
+
+np.random.seed(0)
+torch.manual_seed(0)
+
+model = BertModel.from_pretrained("bert-base-uncased", return_dict=False).cuda().eval()
+inputs = [
+    torch.randint(0, 2, (1, 14), dtype=torch.int32).to("cuda"),
+    torch.randint(0, 2, (1, 14), dtype=torch.int32).to("cuda"),
+]
+
+
+def compile_bert(iterations=3):
+    times = []
+    start = torch.cuda.Event(enable_timing=True)
+    end = torch.cuda.Event(enable_timing=True)
+
+    # The 1st iteration is to measure the compilation time without engine caching
+    # The 2nd and 3rd iterations are to measure the compilation time with engine caching.
+    # Since the 2nd iteration needs to compile and save the engine, it will be slower than the 1st iteration.
+    # The 3rd iteration should be faster than the 1st iteration because it loads the cached engine.
+    for i in range(iterations):
+        # remove timing cache and reset dynamo for engine caching messurement
+        remove_timing_cache()
+        torch._dynamo.reset()
+
+        if i == 0:
+            cache_built_engines = False
+            reuse_cached_engines = False
+        else:
+            cache_built_engines = True
+            reuse_cached_engines = True
+
+        start.record()
+        compilation_kwargs = {
+            "use_python_runtime": False,
+            "enabled_precisions": {torch.float},
+            "truncate_double": True,
+            "debug": False,
+            "min_block_size": 1,
+            "make_refitable": True,
+            "cache_built_engines": cache_built_engines,
+            "reuse_cached_engines": reuse_cached_engines,
+            "engine_cache_dir": "/tmp/torch_trt_bert_engine_cache",
+            "engine_cache_size": 1 << 30,  # 1GB
+        }
+        optimized_model = torch.compile(
+            model,
+            backend="torch_tensorrt",
+            options=compilation_kwargs,
+        )
+        optimized_model(*inputs)
+        end.record()
+        torch.cuda.synchronize()
+        times.append(start.elapsed_time(end))
+
+    print("-----compile bert-----> compilation time:\n", times, "milliseconds")
+
+
+if __name__ == "__main__":
+    compile_bert()
diff --git a/docs/_images/sphx_glr_engine_caching_bert_example_thumb.png b/docs/_images/sphx_glr_engine_caching_bert_example_thumb.png
new file mode 100644
index 0000000000..8a5fed589d
Binary files /dev/null and b/docs/_images/sphx_glr_engine_caching_bert_example_thumb.png differ
diff --git a/docs/_images/sphx_glr_engine_caching_example_thumb.png b/docs/_images/sphx_glr_engine_caching_example_thumb.png
new file mode 100644
index 0000000000..8a5fed589d
Binary files /dev/null and b/docs/_images/sphx_glr_engine_caching_example_thumb.png differ
diff --git a/docs/_images/sphx_glr_torch_export_gpt2_thumb.png b/docs/_images/sphx_glr_torch_export_gpt2_thumb.png
new file mode 100644
index 0000000000..8a5fed589d
Binary files /dev/null and b/docs/_images/sphx_glr_torch_export_gpt2_thumb.png differ
diff --git a/docs/_images/sphx_glr_torch_export_llama2_thumb.png b/docs/_images/sphx_glr_torch_export_llama2_thumb.png
new file mode 100644
index 0000000000..8a5fed589d
Binary files /dev/null and b/docs/_images/sphx_glr_torch_export_llama2_thumb.png differ
diff --git a/docs/_modules/index.html b/docs/_modules/index.html
index 2cf3f16ce4..70585be3fc 100644
--- a/docs/_modules/index.html
+++ b/docs/_modules/index.html
@@ -9,7 +9,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Overview: module code &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Overview: module code &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -272,7 +272,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -313,6 +313,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -338,7 +341,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_modules/torch_tensorrt/_Device.html b/docs/_modules/torch_tensorrt/_Device.html
index 96eeeca9d5..9cb3211cd7 100644
--- a/docs/_modules/torch_tensorrt/_Device.html
+++ b/docs/_modules/torch_tensorrt/_Device.html
@@ -9,7 +9,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>torch_tensorrt._Device &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>torch_tensorrt._Device &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -272,7 +272,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -313,6 +313,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -338,7 +341,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_modules/torch_tensorrt/_Input.html b/docs/_modules/torch_tensorrt/_Input.html
index c30abf2797..f0f59f2901 100644
--- a/docs/_modules/torch_tensorrt/_Input.html
+++ b/docs/_modules/torch_tensorrt/_Input.html
@@ -9,7 +9,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>torch_tensorrt._Input &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>torch_tensorrt._Input &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -272,7 +272,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -313,6 +313,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -338,7 +341,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_modules/torch_tensorrt/_compile.html b/docs/_modules/torch_tensorrt/_compile.html
index cd403e1bbb..eb02c1886d 100644
--- a/docs/_modules/torch_tensorrt/_compile.html
+++ b/docs/_modules/torch_tensorrt/_compile.html
@@ -9,7 +9,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>torch_tensorrt._compile &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>torch_tensorrt._compile &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -272,7 +272,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -313,6 +313,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -338,7 +341,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
@@ -841,7 +843,7 @@ <h1>Source code for torch_tensorrt._compile</h1><div class="highlight"><pre>
         <span class="n">torchtrt_kwarg_inputs</span> <span class="o">=</span> <span class="n">prepare_inputs</span><span class="p">(</span><span class="n">kwarg_inputs</span><span class="p">)</span>
 
         <span class="n">exp_program</span> <span class="o">=</span> <span class="n">torch_tensorrt</span><span class="o">.</span><span class="n">dynamo</span><span class="o">.</span><span class="n">trace</span><span class="p">(</span>
-            <span class="n">module</span><span class="p">,</span> <span class="n">torchtrt_arg_inputs</span><span class="p">,</span> <span class="n">kwarg_inputs</span><span class="o">=</span><span class="n">torchtrt_kwarg_inputs</span><span class="o">**</span><span class="n">kwargs</span>
+            <span class="n">module</span><span class="p">,</span> <span class="n">torchtrt_arg_inputs</span><span class="p">,</span> <span class="n">kwarg_inputs</span><span class="o">=</span><span class="n">torchtrt_kwarg_inputs</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span>
         <span class="p">)</span>
 
         <span class="k">return</span> <span class="n">dynamo_convert_exported_program_to_serialized_trt_engine</span><span class="p">(</span>
diff --git a/docs/_modules/torch_tensorrt/_enums.html b/docs/_modules/torch_tensorrt/_enums.html
index 153d62a6f4..15ac34ce4a 100644
--- a/docs/_modules/torch_tensorrt/_enums.html
+++ b/docs/_modules/torch_tensorrt/_enums.html
@@ -9,7 +9,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>torch_tensorrt._enums &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>torch_tensorrt._enums &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -272,7 +272,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -313,6 +313,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -338,7 +341,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_modules/torch_tensorrt/dynamo/_compiler.html b/docs/_modules/torch_tensorrt/dynamo/_compiler.html
index 76e9f99b56..7d2fd097f5 100644
--- a/docs/_modules/torch_tensorrt/dynamo/_compiler.html
+++ b/docs/_modules/torch_tensorrt/dynamo/_compiler.html
@@ -9,7 +9,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>torch_tensorrt.dynamo._compiler &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>torch_tensorrt.dynamo._compiler &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -272,7 +272,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -313,6 +313,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -338,7 +341,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
@@ -471,6 +473,7 @@ <h1>Source code for torch_tensorrt.dynamo._compiler</h1><div class="highlight"><
     <span class="n">dryrun_stats_display</span><span class="p">,</span>
     <span class="n">parse_non_trt_nodes</span><span class="p">,</span>
 <span class="p">)</span>
+<span class="kn">from</span> <span class="nn">torch_tensorrt.dynamo._engine_cache</span> <span class="kn">import</span> <span class="n">BaseEngineCache</span><span class="p">,</span> <span class="n">DiskEngineCache</span>
 <span class="kn">from</span> <span class="nn">torch_tensorrt.dynamo.conversion</span> <span class="kn">import</span> <span class="p">(</span>
     <span class="n">CompilationSettings</span><span class="p">,</span>
     <span class="n">UnsupportedOperatorException</span><span class="p">,</span>
@@ -488,8 +491,7 @@ <h1>Source code for torch_tensorrt.dynamo._compiler</h1><div class="highlight"><
 <span class="p">)</span>
 <span class="kn">from</span> <span class="nn">torch_tensorrt.dynamo.utils</span> <span class="kn">import</span> <span class="p">(</span>
     <span class="n">get_flat_args_with_check</span><span class="p">,</span>
-    <span class="n">get_torch_inputs</span><span class="p">,</span>
-    <span class="n">parse_complex_tensor_structs</span><span class="p">,</span>
+    <span class="n">parse_graph_io</span><span class="p">,</span>
     <span class="n">prepare_inputs</span><span class="p">,</span>
     <span class="n">set_log_level</span><span class="p">,</span>
     <span class="n">to_torch_device</span><span class="p">,</span>
@@ -536,6 +538,11 @@ <h1>Source code for torch_tensorrt.dynamo._compiler</h1><div class="highlight"><
     <span class="n">hardware_compatible</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="n">_defaults</span><span class="o">.</span><span class="n">HARDWARE_COMPATIBLE</span><span class="p">,</span>
     <span class="n">timing_cache_path</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">_defaults</span><span class="o">.</span><span class="n">TIMING_CACHE_PATH</span><span class="p">,</span>
     <span class="n">lazy_engine_init</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="n">_defaults</span><span class="o">.</span><span class="n">LAZY_ENGINE_INIT</span><span class="p">,</span>
+    <span class="n">cache_built_engines</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="n">_defaults</span><span class="o">.</span><span class="n">CACHE_BUILT_ENGINES</span><span class="p">,</span>
+    <span class="n">reuse_cached_engines</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="n">_defaults</span><span class="o">.</span><span class="n">REUSE_CACHED_ENGINES</span><span class="p">,</span>
+    <span class="n">engine_cache_dir</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">_defaults</span><span class="o">.</span><span class="n">ENGINE_CACHE_DIR</span><span class="p">,</span>
+    <span class="n">engine_cache_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">_defaults</span><span class="o">.</span><span class="n">ENGINE_CACHE_SIZE</span><span class="p">,</span>
+    <span class="n">custom_engine_cache</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">BaseEngineCache</span><span class="p">]</span> <span class="o">=</span> <span class="n">_defaults</span><span class="o">.</span><span class="n">CUSTOM_ENGINE_CACHE</span><span class="p">,</span>
     <span class="o">**</span><span class="n">kwargs</span><span class="p">:</span> <span class="n">Any</span><span class="p">,</span>
 <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">torch</span><span class="o">.</span><span class="n">fx</span><span class="o">.</span><span class="n">GraphModule</span><span class="p">:</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Compile an ExportedProgram module for NVIDIA GPUs using TensorRT</span>
@@ -601,6 +608,11 @@ <h1>Source code for torch_tensorrt.dynamo._compiler</h1><div class="highlight"><
 <span class="sd">        hardware_compatible (bool): Build the TensorRT engines compatible with GPU architectures other than that of the GPU on which the engine was built (currently works for NVIDIA Ampere and newer)</span>
 <span class="sd">        timing_cache_path (str): Path to the timing cache if it exists (or) where it will be saved after compilation</span>
 <span class="sd">        lazy_engine_init (bool): Defer setting up engines until the compilation of all engines is complete. Can allow larger models with multiple graph breaks to compile but can lead to oversubscription of GPU memory at runtime.</span>
+<span class="sd">        cache_built_engines (bool): Whether to save the compiled TRT engines to storage</span>
+<span class="sd">        reuse_cached_engines (bool): Whether to load the compiled TRT engines from storage</span>
+<span class="sd">        engine_cache_dir (Optional[str]): Directory to store the cached TRT engines</span>
+<span class="sd">        engine_cache_size (Optional[int]): Maximum hard-disk space (bytes) to use for the engine cache, default is 1GB. If the cache exceeds this size, the oldest engines will be removed by default</span>
+<span class="sd">        custom_engine_cache (Optional[BaseEngineCache]): Engine cache instance to use for saving and loading engines. Users can provide their own engine cache by inheriting from BaseEngineCache. If used, engine_cache_dir and engine_cache_size will be ignored.</span>
 <span class="sd">        **kwargs: Any,</span>
 <span class="sd">    Returns:</span>
 <span class="sd">        torch.fx.GraphModule: Compiled FX Module, when run it will execute via TensorRT</span>
@@ -673,10 +685,22 @@ <h1>Source code for torch_tensorrt.dynamo._compiler</h1><div class="highlight"><
     <span class="p">)</span>
     <span class="n">gm</span> <span class="o">=</span> <span class="n">exported_program</span><span class="o">.</span><span class="n">module</span><span class="p">()</span>
     <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="s2">&quot;Input graph: &quot;</span> <span class="o">+</span> <span class="nb">str</span><span class="p">(</span><span class="n">gm</span><span class="o">.</span><span class="n">graph</span><span class="p">))</span>
+
     <span class="c1"># Apply lowering on the graph module</span>
     <span class="n">gm</span> <span class="o">=</span> <span class="n">post_lowering</span><span class="p">(</span><span class="n">gm</span><span class="p">)</span>
     <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="s2">&quot;Lowered Input graph: &quot;</span> <span class="o">+</span> <span class="nb">str</span><span class="p">(</span><span class="n">gm</span><span class="o">.</span><span class="n">graph</span><span class="p">))</span>
 
+    <span class="n">engine_cache</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="k">if</span> <span class="n">cache_built_engines</span> <span class="ow">or</span> <span class="n">reuse_cached_engines</span><span class="p">:</span>
+        <span class="k">assert</span> <span class="p">(</span>
+            <span class="n">make_refitable</span>
+        <span class="p">),</span> <span class="s2">&quot;Engine caching requires make_refitable to be set to True&quot;</span>
+        <span class="n">engine_cache</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">custom_engine_cache</span>
+            <span class="k">if</span> <span class="n">custom_engine_cache</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+            <span class="k">else</span> <span class="n">DiskEngineCache</span><span class="p">(</span><span class="n">engine_cache_dir</span><span class="p">,</span> <span class="n">engine_cache_size</span><span class="p">)</span>
+        <span class="p">)</span>
+
     <span class="n">compilation_options</span> <span class="o">=</span> <span class="p">{</span>
         <span class="s2">&quot;enabled_precisions&quot;</span><span class="p">:</span> <span class="p">(</span>
             <span class="n">enabled_precisions</span> <span class="k">if</span> <span class="n">enabled_precisions</span> <span class="k">else</span> <span class="n">_defaults</span><span class="o">.</span><span class="n">ENABLED_PRECISIONS</span>
@@ -710,11 +734,15 @@ <h1>Source code for torch_tensorrt.dynamo._compiler</h1><div class="highlight"><
         <span class="s2">&quot;hardware_compatible&quot;</span><span class="p">:</span> <span class="n">hardware_compatible</span><span class="p">,</span>
         <span class="s2">&quot;timing_cache_path&quot;</span><span class="p">:</span> <span class="n">timing_cache_path</span><span class="p">,</span>
         <span class="s2">&quot;lazy_engine_init&quot;</span><span class="p">:</span> <span class="n">lazy_engine_init</span><span class="p">,</span>
+        <span class="s2">&quot;cache_built_engines&quot;</span><span class="p">:</span> <span class="n">cache_built_engines</span><span class="p">,</span>
+        <span class="s2">&quot;reuse_cached_engines&quot;</span><span class="p">:</span> <span class="n">reuse_cached_engines</span><span class="p">,</span>
     <span class="p">}</span>
 
     <span class="n">settings</span> <span class="o">=</span> <span class="n">CompilationSettings</span><span class="p">(</span><span class="o">**</span><span class="n">compilation_options</span><span class="p">)</span>
     <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s2">&quot;Compilation Settings: </span><span class="si">%s</span><span class="se">\n</span><span class="s2">&quot;</span><span class="p">,</span> <span class="n">settings</span><span class="p">)</span>
-    <span class="n">trt_gm</span> <span class="o">=</span> <span class="n">compile_module</span><span class="p">(</span><span class="n">gm</span><span class="p">,</span> <span class="n">trt_arg_inputs</span><span class="p">,</span> <span class="n">trt_kwarg_inputs</span><span class="p">,</span> <span class="n">settings</span><span class="p">)</span>
+    <span class="n">trt_gm</span> <span class="o">=</span> <span class="n">compile_module</span><span class="p">(</span>
+        <span class="n">gm</span><span class="p">,</span> <span class="n">trt_arg_inputs</span><span class="p">,</span> <span class="n">trt_kwarg_inputs</span><span class="p">,</span> <span class="n">settings</span><span class="p">,</span> <span class="n">engine_cache</span>
+    <span class="p">)</span>
     <span class="k">return</span> <span class="n">trt_gm</span></div>
 
 
@@ -723,6 +751,7 @@ <h1>Source code for torch_tensorrt.dynamo._compiler</h1><div class="highlight"><
     <span class="n">sample_arg_inputs</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="n">Input</span><span class="p">],</span>
     <span class="n">sample_kwarg_inputs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">[</span><span class="n">Any</span><span class="p">,</span> <span class="n">Any</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
     <span class="n">settings</span><span class="p">:</span> <span class="n">CompilationSettings</span> <span class="o">=</span> <span class="n">CompilationSettings</span><span class="p">(),</span>
+    <span class="n">engine_cache</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">BaseEngineCache</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
 <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">torch</span><span class="o">.</span><span class="n">fx</span><span class="o">.</span><span class="n">GraphModule</span><span class="p">:</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Compile a traced FX module</span>
 
@@ -733,6 +762,7 @@ <h1>Source code for torch_tensorrt.dynamo._compiler</h1><div class="highlight"><
 <span class="sd">        arg_inputs: Inputs to the module</span>
 <span class="sd">        kwarg_inputs: kwargs to the module</span>
 <span class="sd">        settings: Compilation settings</span>
+<span class="sd">        engine_cache: Engine cache instance to store/load compiled engines</span>
 <span class="sd">    Returns:</span>
 <span class="sd">        Compiled FX GraphModule</span>
 <span class="sd">    &quot;&quot;&quot;</span>
@@ -752,14 +782,6 @@ <h1>Source code for torch_tensorrt.dynamo._compiler</h1><div class="highlight"><
 
     <span class="n">dryrun_tracker</span><span class="o">.</span><span class="n">total_ops_in_graph</span> <span class="o">=</span> <span class="n">total_ops</span>
     <span class="n">dryrun_tracker</span><span class="o">.</span><span class="n">supported_ops_in_graph</span> <span class="o">=</span> <span class="n">num_supported_ops</span>
-    <span class="n">dryrun_tracker</span><span class="o">.</span><span class="n">graph_input_shapes</span> <span class="o">=</span> <span class="n">parse_complex_tensor_structs</span><span class="p">(</span>
-        <span class="n">sample_arg_inputs</span><span class="p">,</span>
-        <span class="s2">&quot;shape&quot;</span><span class="p">,</span>
-        <span class="k">lambda</span> <span class="n">x</span><span class="p">:</span> <span class="nb">dict</span><span class="p">(</span><span class="n">x</span><span class="p">)</span> <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="nb">dict</span><span class="p">)</span> <span class="k">else</span> <span class="nb">tuple</span><span class="p">(</span><span class="n">x</span><span class="p">),</span>
-    <span class="p">)</span>
-    <span class="n">dryrun_tracker</span><span class="o">.</span><span class="n">graph_input_dtypes</span> <span class="o">=</span> <span class="n">parse_complex_tensor_structs</span><span class="p">(</span>
-        <span class="n">sample_arg_inputs</span><span class="p">,</span> <span class="s2">&quot;dtype&quot;</span><span class="p">,</span> <span class="k">lambda</span> <span class="n">t</span><span class="p">:</span> <span class="n">t</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span> <span class="n">use_default</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
-    <span class="p">)</span>
     <span class="n">dryrun_tracker</span><span class="o">.</span><span class="n">compilation_settings</span> <span class="o">=</span> <span class="n">settings</span>
 
     <span class="k">if</span> <span class="n">settings</span><span class="o">.</span><span class="n">dryrun</span> <span class="ow">and</span> <span class="n">settings</span><span class="o">.</span><span class="n">min_block_size</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">:</span>
@@ -846,6 +868,11 @@ <h1>Source code for torch_tensorrt.dynamo._compiler</h1><div class="highlight"><
         <span class="c1"># Criteria for a module to be convertible to TRT</span>
         <span class="k">if</span> <span class="n">settings</span><span class="o">.</span><span class="n">use_fast_partitioner</span> <span class="ow">and</span> <span class="s2">&quot;_run_on_acc&quot;</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">name</span><span class="p">:</span>
             <span class="n">dryrun_tracker</span><span class="o">.</span><span class="n">to_run_in_torch</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">parse_non_trt_nodes</span><span class="p">(</span><span class="n">submodule</span><span class="p">))</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span>
+                <span class="s2">&quot;Submodule in PyTorch: </span><span class="si">%s</span><span class="se">\n</span><span class="s2"> </span><span class="si">%s</span><span class="s2">&quot;</span><span class="p">,</span>
+                <span class="nb">str</span><span class="p">(</span><span class="n">name</span><span class="p">),</span>
+                <span class="nb">str</span><span class="p">(</span><span class="n">submodule</span><span class="o">.</span><span class="n">graph</span><span class="p">),</span>
+            <span class="p">)</span>
             <span class="k">continue</span>
 
         <span class="n">subgraph_data</span> <span class="o">=</span> <span class="n">PerSubgraphData</span><span class="p">()</span>
@@ -880,28 +907,8 @@ <h1>Source code for torch_tensorrt.dynamo._compiler</h1><div class="highlight"><
                 <span class="n">name</span><span class="p">,</span>
             <span class="p">)</span>
 
-        <span class="n">subgraph_data</span><span class="o">.</span><span class="n">subgraph_input_shapes</span> <span class="o">=</span> <span class="n">parse_complex_tensor_structs</span><span class="p">(</span>
-            <span class="n">submodule_inputs</span><span class="p">,</span>
-            <span class="s2">&quot;shape&quot;</span><span class="p">,</span>
-            <span class="k">lambda</span> <span class="n">x</span><span class="p">:</span> <span class="nb">dict</span><span class="p">(</span><span class="n">x</span><span class="p">)</span> <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="nb">dict</span><span class="p">)</span> <span class="k">else</span> <span class="nb">tuple</span><span class="p">(</span><span class="n">x</span><span class="p">),</span>
-        <span class="p">)</span>
-        <span class="n">subgraph_data</span><span class="o">.</span><span class="n">subgraph_input_dtypes</span> <span class="o">=</span> <span class="n">parse_complex_tensor_structs</span><span class="p">(</span>
-            <span class="n">submodule_inputs</span><span class="p">,</span> <span class="s2">&quot;dtype&quot;</span><span class="p">,</span> <span class="k">lambda</span> <span class="n">t</span><span class="p">:</span> <span class="n">t</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
-        <span class="p">)</span>
-
-        <span class="n">submodule_outputs</span> <span class="o">=</span> <span class="n">submodule</span><span class="p">(</span>
-            <span class="o">*</span><span class="n">get_torch_inputs</span><span class="p">(</span><span class="n">submodule_inputs</span><span class="p">,</span> <span class="n">to_torch_device</span><span class="p">(</span><span class="n">settings</span><span class="o">.</span><span class="n">device</span><span class="p">))</span>
-        <span class="p">)</span>
-
-        <span class="n">subgraph_data</span><span class="o">.</span><span class="n">subgraph_output_shapes</span> <span class="o">=</span> <span class="n">parse_complex_tensor_structs</span><span class="p">(</span>
-            <span class="n">submodule_outputs</span><span class="p">,</span>
-            <span class="s2">&quot;shape&quot;</span><span class="p">,</span>
-            <span class="k">lambda</span> <span class="n">x</span><span class="p">:</span> <span class="nb">dict</span><span class="p">(</span><span class="n">x</span><span class="p">)</span> <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="nb">dict</span><span class="p">)</span> <span class="k">else</span> <span class="nb">tuple</span><span class="p">(</span><span class="n">x</span><span class="p">),</span>
-        <span class="p">)</span>
-        <span class="n">subgraph_data</span><span class="o">.</span><span class="n">subgraph_output_dtypes</span> <span class="o">=</span> <span class="n">parse_complex_tensor_structs</span><span class="p">(</span>
-            <span class="n">submodule_outputs</span><span class="p">,</span> <span class="s2">&quot;dtype&quot;</span>
-        <span class="p">)</span>
-
+        <span class="c1"># Parse the subgraph I/O and store it</span>
+        <span class="n">parse_graph_io</span><span class="p">(</span><span class="n">submodule</span><span class="p">,</span> <span class="n">subgraph_data</span><span class="p">)</span>
         <span class="n">dryrun_tracker</span><span class="o">.</span><span class="n">tensorrt_graph_count</span> <span class="o">+=</span> <span class="mi">1</span>
         <span class="n">dryrun_tracker</span><span class="o">.</span><span class="n">per_subgraph_data</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">subgraph_data</span><span class="p">)</span>
 
@@ -912,27 +919,13 @@ <h1>Source code for torch_tensorrt.dynamo._compiler</h1><div class="highlight"><
                 <span class="n">submodule_inputs</span><span class="p">,</span>
                 <span class="n">settings</span><span class="o">=</span><span class="n">settings</span><span class="p">,</span>
                 <span class="n">name</span><span class="o">=</span><span class="n">name</span><span class="p">,</span>
+                <span class="n">engine_cache</span><span class="o">=</span><span class="n">engine_cache</span><span class="p">,</span>
             <span class="p">)</span>
 
             <span class="n">trt_modules</span><span class="p">[</span><span class="n">name</span><span class="p">]</span> <span class="o">=</span> <span class="n">trt_module</span>
 
-    <span class="n">torch_sample_arg_inputs</span> <span class="o">=</span> <span class="n">get_torch_inputs</span><span class="p">(</span>
-        <span class="n">sample_arg_inputs</span><span class="p">,</span> <span class="n">to_torch_device</span><span class="p">(</span><span class="n">settings</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
-    <span class="p">)</span>
-    <span class="n">torch_sample_kwarg_inputs</span> <span class="o">=</span> <span class="n">get_torch_inputs</span><span class="p">(</span>
-        <span class="n">sample_kwarg_inputs</span><span class="p">,</span> <span class="n">to_torch_device</span><span class="p">(</span><span class="n">settings</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
-    <span class="p">)</span>
-    <span class="n">sample_outputs</span> <span class="o">=</span> <span class="n">gm</span><span class="p">(</span><span class="o">*</span><span class="n">torch_sample_arg_inputs</span><span class="p">,</span> <span class="o">**</span><span class="n">torch_sample_kwarg_inputs</span><span class="p">)</span>
-
-    <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">sample_outputs</span><span class="p">,</span> <span class="p">(</span><span class="nb">list</span><span class="p">,</span> <span class="nb">tuple</span><span class="p">)):</span>
-        <span class="n">sample_outputs</span> <span class="o">=</span> <span class="p">[</span><span class="n">sample_outputs</span><span class="p">]</span>
-
-    <span class="n">dryrun_tracker</span><span class="o">.</span><span class="n">graph_output_shapes</span> <span class="o">=</span> <span class="n">parse_complex_tensor_structs</span><span class="p">(</span>
-        <span class="n">sample_outputs</span><span class="p">,</span> <span class="s2">&quot;shape&quot;</span><span class="p">,</span> <span class="k">lambda</span> <span class="n">x</span><span class="p">:</span> <span class="nb">dict</span><span class="p">(</span><span class="n">x</span><span class="p">)</span> <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="nb">dict</span><span class="p">)</span> <span class="k">else</span> <span class="nb">tuple</span><span class="p">(</span><span class="n">x</span><span class="p">)</span>
-    <span class="p">)</span>
-    <span class="n">dryrun_tracker</span><span class="o">.</span><span class="n">graph_output_dtypes</span> <span class="o">=</span> <span class="n">parse_complex_tensor_structs</span><span class="p">(</span>
-        <span class="n">sample_outputs</span><span class="p">,</span> <span class="s2">&quot;dtype&quot;</span>
-    <span class="p">)</span>
+    <span class="c1"># Parse the graph I/O and store it in dryrun tracker</span>
+    <span class="n">parse_graph_io</span><span class="p">(</span><span class="n">gm</span><span class="p">,</span> <span class="n">dryrun_tracker</span><span class="p">)</span>
 
     <span class="c1"># Replace all FX Modules with TRT Modules</span>
     <span class="k">for</span> <span class="n">name</span><span class="p">,</span> <span class="n">trt_module</span> <span class="ow">in</span> <span class="n">trt_modules</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
@@ -1066,10 +1059,10 @@ <h1>Source code for torch_tensorrt.dynamo._compiler</h1><div class="highlight"><
             <span class="ne">DeprecationWarning</span><span class="p">,</span>
             <span class="n">stacklevel</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span>
         <span class="p">)</span>
-    <span class="k">if</span> <span class="ow">not</span> <span class="n">arg_inputs</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">inputs</span><span class="p">:</span>
+    <span class="k">if</span> <span class="n">arg_inputs</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">inputs</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
         <span class="k">raise</span> <span class="ne">AssertionError</span><span class="p">(</span><span class="s2">&quot;&#39;arg_inputs&#39; and &#39;inputs&#39; should not both be None.&quot;</span><span class="p">)</span>
 
-    <span class="k">elif</span> <span class="n">arg_inputs</span> <span class="ow">and</span> <span class="n">inputs</span><span class="p">:</span>
+    <span class="k">elif</span> <span class="n">arg_inputs</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">inputs</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
         <span class="k">raise</span> <span class="ne">AssertionError</span><span class="p">(</span>
             <span class="s2">&quot;&#39;arg_inputs&#39; and &#39;inputs&#39; should not be used at the same time.&quot;</span>
         <span class="p">)</span>
diff --git a/docs/_modules/torch_tensorrt/dynamo/_exporter.html b/docs/_modules/torch_tensorrt/dynamo/_exporter.html
index 7beef6382d..f3d4462113 100644
--- a/docs/_modules/torch_tensorrt/dynamo/_exporter.html
+++ b/docs/_modules/torch_tensorrt/dynamo/_exporter.html
@@ -9,7 +9,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>torch_tensorrt.dynamo._exporter &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>torch_tensorrt.dynamo._exporter &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -272,7 +272,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -313,6 +313,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -338,7 +341,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_modules/torch_tensorrt/dynamo/_refit.html b/docs/_modules/torch_tensorrt/dynamo/_refit.html
index 154ae0777e..e76c68fa67 100644
--- a/docs/_modules/torch_tensorrt/dynamo/_refit.html
+++ b/docs/_modules/torch_tensorrt/dynamo/_refit.html
@@ -9,7 +9,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>torch_tensorrt.dynamo._refit &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>torch_tensorrt.dynamo._refit &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -272,7 +272,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -313,6 +313,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -338,7 +341,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
@@ -459,7 +461,6 @@ <h1>Source code for torch_tensorrt.dynamo._refit</h1><div class="highlight"><pre
 <span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">Any</span><span class="p">,</span> <span class="n">List</span><span class="p">,</span> <span class="n">Optional</span><span class="p">,</span> <span class="n">Sequence</span><span class="p">,</span> <span class="n">Tuple</span>
 
 <span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
-<span class="kn">import</span> <span class="nn">tensorrt</span> <span class="k">as</span> <span class="nn">trt</span>
 <span class="kn">import</span> <span class="nn">torch</span>
 <span class="kn">from</span> <span class="nn">torch.export</span> <span class="kn">import</span> <span class="n">ExportedProgram</span>
 <span class="kn">from</span> <span class="nn">torch_tensorrt._enums</span> <span class="kn">import</span> <span class="n">dtype</span>
@@ -488,6 +489,7 @@ <h1>Source code for torch_tensorrt.dynamo._refit</h1><div class="highlight"><pre
 <span class="p">)</span>
 <span class="kn">from</span> <span class="nn">torch_tensorrt.dynamo.utils</span> <span class="kn">import</span> <span class="p">(</span>
     <span class="n">check_module_output</span><span class="p">,</span>
+    <span class="n">get_model_device</span><span class="p">,</span>
     <span class="n">get_torch_inputs</span><span class="p">,</span>
     <span class="n">set_log_level</span><span class="p">,</span>
     <span class="n">to_torch_device</span><span class="p">,</span>
@@ -495,6 +497,8 @@ <h1>Source code for torch_tensorrt.dynamo._refit</h1><div class="highlight"><pre
 <span class="p">)</span>
 <span class="kn">from</span> <span class="nn">torch_tensorrt.logging</span> <span class="kn">import</span> <span class="n">TRT_LOGGER</span>
 
+<span class="kn">import</span> <span class="nn">tensorrt</span> <span class="k">as</span> <span class="nn">trt</span>
+
 <span class="n">logger</span> <span class="o">=</span> <span class="n">logging</span><span class="o">.</span><span class="n">getLogger</span><span class="p">(</span><span class="vm">__name__</span><span class="p">)</span>
 
 
@@ -599,7 +603,7 @@ <h1>Source code for torch_tensorrt.dynamo._refit</h1><div class="highlight"><pre
 <span class="sd">    &quot;&quot;&quot;</span>
 
     <span class="n">refitted</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
-    <span class="n">torch_device</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">new_gm</span><span class="o">.</span><span class="n">state_dict</span><span class="p">()</span><span class="o">.</span><span class="n">values</span><span class="p">())[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">device</span><span class="o">.</span><span class="n">type</span>
+    <span class="n">torch_device</span> <span class="o">=</span> <span class="n">get_model_device</span><span class="p">(</span><span class="n">new_gm</span><span class="p">)</span>
     <span class="n">refitter</span> <span class="o">=</span> <span class="n">trt</span><span class="o">.</span><span class="n">Refitter</span><span class="p">(</span><span class="n">old_engine</span><span class="p">,</span> <span class="n">TRT_LOGGER</span><span class="p">)</span>
     <span class="n">weight_list</span> <span class="o">=</span> <span class="n">refitter</span><span class="o">.</span><span class="n">get_all_weights</span><span class="p">()</span>
 
diff --git a/docs/_modules/torch_tensorrt/dynamo/_settings.html b/docs/_modules/torch_tensorrt/dynamo/_settings.html
index 62a8669834..37fab4bc97 100644
--- a/docs/_modules/torch_tensorrt/dynamo/_settings.html
+++ b/docs/_modules/torch_tensorrt/dynamo/_settings.html
@@ -9,7 +9,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>torch_tensorrt.dynamo._settings &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>torch_tensorrt.dynamo._settings &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -272,7 +272,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -313,6 +313,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -338,7 +341,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
@@ -459,6 +461,7 @@ <h1>Source code for torch_tensorrt.dynamo._settings</h1><div class="highlight"><
 <span class="kn">from</span> <span class="nn">torch_tensorrt._enums</span> <span class="kn">import</span> <span class="n">EngineCapability</span><span class="p">,</span> <span class="n">dtype</span>
 <span class="kn">from</span> <span class="nn">torch_tensorrt.dynamo._defaults</span> <span class="kn">import</span> <span class="p">(</span>
     <span class="n">ASSUME_DYNAMIC_SHAPE_SUPPORT</span><span class="p">,</span>
+    <span class="n">CACHE_BUILT_ENGINES</span><span class="p">,</span>
     <span class="n">DEBUG</span><span class="p">,</span>
     <span class="n">DISABLE_TF32</span><span class="p">,</span>
     <span class="n">DLA_GLOBAL_DRAM_SIZE</span><span class="p">,</span>
@@ -477,6 +480,7 @@ <h1>Source code for torch_tensorrt.dynamo._settings</h1><div class="highlight"><
     <span class="n">OPTIMIZATION_LEVEL</span><span class="p">,</span>
     <span class="n">PASS_THROUGH_BUILD_FAILURES</span><span class="p">,</span>
     <span class="n">REQUIRE_FULL_COMPILATION</span><span class="p">,</span>
+    <span class="n">REUSE_CACHED_ENGINES</span><span class="p">,</span>
     <span class="n">SPARSE_WEIGHTS</span><span class="p">,</span>
     <span class="n">TIMING_CACHE_PATH</span><span class="p">,</span>
     <span class="n">TRUNCATE_DOUBLE</span><span class="p">,</span>
@@ -527,6 +531,8 @@ <h1>Source code for torch_tensorrt.dynamo._settings</h1><div class="highlight"><
 <span class="sd">            output to a file if a string path is specified</span>
 <span class="sd">        hardware_compatible (bool): Build the TensorRT engines compatible with GPU architectures other than that of the GPU on which the engine was built (currently works for NVIDIA Ampere and newer)</span>
 <span class="sd">        timing_cache_path (str): Path to the timing cache if it exists (or) where it will be saved after compilation</span>
+<span class="sd">        cache_built_engines (bool): Whether to save the compiled TRT engines to storage</span>
+<span class="sd">        reuse_cached_engines (bool): Whether to load the compiled TRT engines from storage</span>
 <span class="sd">    &quot;&quot;&quot;</span>
 
     <span class="n">enabled_precisions</span><span class="p">:</span> <span class="n">Set</span><span class="p">[</span><span class="n">dtype</span><span class="p">]</span> <span class="o">=</span> <span class="n">field</span><span class="p">(</span><span class="n">default_factory</span><span class="o">=</span><span class="k">lambda</span><span class="p">:</span> <span class="n">ENABLED_PRECISIONS</span><span class="p">)</span>
@@ -558,7 +564,9 @@ <h1>Source code for torch_tensorrt.dynamo._settings</h1><div class="highlight"><
     <span class="n">dryrun</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">bool</span><span class="p">,</span> <span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="n">DRYRUN</span>
     <span class="n">hardware_compatible</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="n">HARDWARE_COMPATIBLE</span>
     <span class="n">timing_cache_path</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">TIMING_CACHE_PATH</span>
-    <span class="n">lazy_engine_init</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="n">LAZY_ENGINE_INIT</span></div>
+    <span class="n">lazy_engine_init</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="n">LAZY_ENGINE_INIT</span>
+    <span class="n">cache_built_engines</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="n">CACHE_BUILT_ENGINES</span>
+    <span class="n">reuse_cached_engines</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="n">REUSE_CACHED_ENGINES</span></div>
 </pre></div>
 
              </article>
diff --git a/docs/_modules/torch_tensorrt/dynamo/_tracer.html b/docs/_modules/torch_tensorrt/dynamo/_tracer.html
index aeda025161..0f0a03d1dc 100644
--- a/docs/_modules/torch_tensorrt/dynamo/_tracer.html
+++ b/docs/_modules/torch_tensorrt/dynamo/_tracer.html
@@ -9,7 +9,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>torch_tensorrt.dynamo._tracer &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>torch_tensorrt.dynamo._tracer &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -272,7 +272,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -313,6 +313,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -338,7 +341,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_modules/torch_tensorrt/dynamo/runtime/_MutableTorchTensorRTModule.html b/docs/_modules/torch_tensorrt/dynamo/runtime/_MutableTorchTensorRTModule.html
index 77ebd98cd9..c08ee587b7 100644
--- a/docs/_modules/torch_tensorrt/dynamo/runtime/_MutableTorchTensorRTModule.html
+++ b/docs/_modules/torch_tensorrt/dynamo/runtime/_MutableTorchTensorRTModule.html
@@ -9,7 +9,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>torch_tensorrt.dynamo.runtime._MutableTorchTensorRTModule &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>torch_tensorrt.dynamo.runtime._MutableTorchTensorRTModule &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -272,7 +272,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -313,6 +313,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -338,7 +341,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_modules/torch_tensorrt/dynamo/runtime/_PythonTorchTensorRTModule.html b/docs/_modules/torch_tensorrt/dynamo/runtime/_PythonTorchTensorRTModule.html
index 6b2afa2855..bfe3827ee0 100644
--- a/docs/_modules/torch_tensorrt/dynamo/runtime/_PythonTorchTensorRTModule.html
+++ b/docs/_modules/torch_tensorrt/dynamo/runtime/_PythonTorchTensorRTModule.html
@@ -9,7 +9,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>torch_tensorrt.dynamo.runtime._PythonTorchTensorRTModule &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>torch_tensorrt.dynamo.runtime._PythonTorchTensorRTModule &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -272,7 +272,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -313,6 +313,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -338,7 +341,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_modules/torch_tensorrt/dynamo/runtime/_TorchTensorRTModule.html b/docs/_modules/torch_tensorrt/dynamo/runtime/_TorchTensorRTModule.html
index 4023689859..0678f3103b 100644
--- a/docs/_modules/torch_tensorrt/dynamo/runtime/_TorchTensorRTModule.html
+++ b/docs/_modules/torch_tensorrt/dynamo/runtime/_TorchTensorRTModule.html
@@ -9,7 +9,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>torch_tensorrt.dynamo.runtime._TorchTensorRTModule &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>torch_tensorrt.dynamo.runtime._TorchTensorRTModule &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -272,7 +272,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -313,6 +313,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -338,7 +341,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_modules/torch_tensorrt/fx/fx2trt.html b/docs/_modules/torch_tensorrt/fx/fx2trt.html
index 339dc1ced7..4ab21bbaae 100644
--- a/docs/_modules/torch_tensorrt/fx/fx2trt.html
+++ b/docs/_modules/torch_tensorrt/fx/fx2trt.html
@@ -9,7 +9,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>torch_tensorrt.fx.fx2trt &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>torch_tensorrt.fx.fx2trt &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -272,7 +272,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -313,6 +313,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -338,7 +341,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_modules/torch_tensorrt/fx/input_tensor_spec.html b/docs/_modules/torch_tensorrt/fx/input_tensor_spec.html
index b7e4537697..c085ea8e07 100644
--- a/docs/_modules/torch_tensorrt/fx/input_tensor_spec.html
+++ b/docs/_modules/torch_tensorrt/fx/input_tensor_spec.html
@@ -9,7 +9,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>torch_tensorrt.fx.input_tensor_spec &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>torch_tensorrt.fx.input_tensor_spec &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -272,7 +272,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -313,6 +313,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -338,7 +341,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_modules/torch_tensorrt/fx/lower.html b/docs/_modules/torch_tensorrt/fx/lower.html
index 8cb7a715ec..4db3a7f204 100644
--- a/docs/_modules/torch_tensorrt/fx/lower.html
+++ b/docs/_modules/torch_tensorrt/fx/lower.html
@@ -9,7 +9,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>torch_tensorrt.fx.lower &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>torch_tensorrt.fx.lower &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -272,7 +272,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -313,6 +313,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -338,7 +341,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_modules/torch_tensorrt/fx/trt_module.html b/docs/_modules/torch_tensorrt/fx/trt_module.html
index 2e084c0d4a..4bfee52b9d 100644
--- a/docs/_modules/torch_tensorrt/fx/trt_module.html
+++ b/docs/_modules/torch_tensorrt/fx/trt_module.html
@@ -9,7 +9,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>torch_tensorrt.fx.trt_module &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>torch_tensorrt.fx.trt_module &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -272,7 +272,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -313,6 +313,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -338,7 +341,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_modules/torch_tensorrt/logging.html b/docs/_modules/torch_tensorrt/logging.html
index 7865658ab3..596164f828 100644
--- a/docs/_modules/torch_tensorrt/logging.html
+++ b/docs/_modules/torch_tensorrt/logging.html
@@ -9,7 +9,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>torch_tensorrt.logging &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>torch_tensorrt.logging &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -272,7 +272,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -313,6 +313,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -338,7 +341,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_modules/torch_tensorrt/runtime/_multi_device_safe_mode.html b/docs/_modules/torch_tensorrt/runtime/_multi_device_safe_mode.html
index 8752249250..fdac722346 100644
--- a/docs/_modules/torch_tensorrt/runtime/_multi_device_safe_mode.html
+++ b/docs/_modules/torch_tensorrt/runtime/_multi_device_safe_mode.html
@@ -9,7 +9,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>torch_tensorrt.runtime._multi_device_safe_mode &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>torch_tensorrt.runtime._multi_device_safe_mode &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -272,7 +272,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -313,6 +313,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -338,7 +341,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_modules/torch_tensorrt/ts/_compile_spec.html b/docs/_modules/torch_tensorrt/ts/_compile_spec.html
index ec664db21c..2fae159cd6 100644
--- a/docs/_modules/torch_tensorrt/ts/_compile_spec.html
+++ b/docs/_modules/torch_tensorrt/ts/_compile_spec.html
@@ -9,7 +9,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>torch_tensorrt.ts._compile_spec &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>torch_tensorrt.ts._compile_spec &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -272,7 +272,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -313,6 +313,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -338,7 +341,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_modules/torch_tensorrt/ts/_compiler.html b/docs/_modules/torch_tensorrt/ts/_compiler.html
index e3c9ceaeea..fbfd21f740 100644
--- a/docs/_modules/torch_tensorrt/ts/_compiler.html
+++ b/docs/_modules/torch_tensorrt/ts/_compiler.html
@@ -9,7 +9,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>torch_tensorrt.ts._compiler &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>torch_tensorrt.ts._compiler &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -272,7 +272,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -313,6 +313,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -338,7 +341,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_modules/torch_tensorrt/ts/ptq.html b/docs/_modules/torch_tensorrt/ts/ptq.html
index 8f84d3f452..8cc48525b0 100644
--- a/docs/_modules/torch_tensorrt/ts/ptq.html
+++ b/docs/_modules/torch_tensorrt/ts/ptq.html
@@ -9,7 +9,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>torch_tensorrt.ts.ptq &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>torch_tensorrt.ts.ptq &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -272,7 +272,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -313,6 +313,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -338,7 +341,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/_sources/index.rst.txt b/docs/_sources/index.rst.txt
index da5ee3d690..757acc2011 100644
--- a/docs/_sources/index.rst.txt
+++ b/docs/_sources/index.rst.txt
@@ -44,13 +44,14 @@ User Guide
    :hidden:
 
    user_guide/torch_tensorrt_explained
-   user_guide/getting_started
    user_guide/dynamic_shapes
    user_guide/saving_models
    user_guide/runtime
    user_guide/using_dla
    tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage
-   tutorials/_rendered_examples/dynamo/vgg16_fp8_ptq
+   tutorials/_rendered_examples/dynamo/vgg16_ptq
+   tutorials/_rendered_examples/dynamo/engine_caching_example
+   tutorials/_rendered_examples/dynamo/refit_engine_example
 
 Dynamo Frontend
 ----------------
@@ -111,13 +112,11 @@ Tutorials
    tutorials/notebooks
    tutorials/_rendered_examples/dynamo/torch_compile_resnet_example
    tutorials/_rendered_examples/dynamo/torch_compile_transformers_example
-   tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage
    tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion
    tutorials/_rendered_examples/dynamo/torch_export_cudagraphs
    tutorials/_rendered_examples/dynamo/custom_kernel_plugins
    tutorials/_rendered_examples/distributed_inference/data_parallel_gpt2
    tutorials/_rendered_examples/distributed_inference/data_parallel_stable_diffusion
-   tutorials/_rendered_examples/dynamo/vgg16_fp8_ptq
    tutorials/_rendered_examples/dynamo/mutable_torchtrt_module_example
 
 Python API Documentation
diff --git a/docs/_sources/tutorials/_rendered_examples/dynamo/engine_caching_bert_example.rst.txt b/docs/_sources/tutorials/_rendered_examples/dynamo/engine_caching_bert_example.rst.txt
new file mode 100644
index 0000000000..e72f42cfb2
--- /dev/null
+++ b/docs/_sources/tutorials/_rendered_examples/dynamo/engine_caching_bert_example.rst.txt
@@ -0,0 +1,127 @@
+
+.. DO NOT EDIT.
+.. THIS FILE WAS AUTOMATICALLY GENERATED BY SPHINX-GALLERY.
+.. TO MAKE CHANGES, EDIT THE SOURCE PYTHON FILE:
+.. "tutorials/_rendered_examples/dynamo/engine_caching_bert_example.py"
+.. LINE NUMBERS ARE GIVEN BELOW.
+
+.. only:: html
+
+    .. note::
+        :class: sphx-glr-download-link-note
+
+        :ref:`Go to the end <sphx_glr_download_tutorials__rendered_examples_dynamo_engine_caching_bert_example.py>`
+        to download the full example code
+
+.. rst-class:: sphx-glr-example-title
+
+.. _sphx_glr_tutorials__rendered_examples_dynamo_engine_caching_bert_example.py:
+
+
+.. _engine_caching_bert_example:
+
+Engine Caching (BERT)
+=======================
+
+Small caching example on BERT.
+
+.. GENERATED FROM PYTHON SOURCE LINES 10-76
+
+.. code-block:: python
+
+
+    import numpy as np
+    import torch
+    import torch_tensorrt
+    from engine_caching_example import remove_timing_cache
+    from transformers import BertModel
+
+    np.random.seed(0)
+    torch.manual_seed(0)
+
+    model = BertModel.from_pretrained("bert-base-uncased", return_dict=False).cuda().eval()
+    inputs = [
+        torch.randint(0, 2, (1, 14), dtype=torch.int32).to("cuda"),
+        torch.randint(0, 2, (1, 14), dtype=torch.int32).to("cuda"),
+    ]
+
+
+    def compile_bert(iterations=3):
+        times = []
+        start = torch.cuda.Event(enable_timing=True)
+        end = torch.cuda.Event(enable_timing=True)
+
+        # The 1st iteration is to measure the compilation time without engine caching
+        # The 2nd and 3rd iterations are to measure the compilation time with engine caching.
+        # Since the 2nd iteration needs to compile and save the engine, it will be slower than the 1st iteration.
+        # The 3rd iteration should be faster than the 1st iteration because it loads the cached engine.
+        for i in range(iterations):
+            # remove timing cache and reset dynamo for engine caching messurement
+            remove_timing_cache()
+            torch._dynamo.reset()
+
+            if i == 0:
+                cache_built_engines = False
+                reuse_cached_engines = False
+            else:
+                cache_built_engines = True
+                reuse_cached_engines = True
+
+            start.record()
+            compilation_kwargs = {
+                "use_python_runtime": False,
+                "enabled_precisions": {torch.float},
+                "truncate_double": True,
+                "debug": False,
+                "min_block_size": 1,
+                "make_refitable": True,
+                "cache_built_engines": cache_built_engines,
+                "reuse_cached_engines": reuse_cached_engines,
+                "engine_cache_dir": "/tmp/torch_trt_bert_engine_cache",
+                "engine_cache_size": 1 << 30,  # 1GB
+            }
+            optimized_model = torch.compile(
+                model,
+                backend="torch_tensorrt",
+                options=compilation_kwargs,
+            )
+            optimized_model(*inputs)
+            end.record()
+            torch.cuda.synchronize()
+            times.append(start.elapsed_time(end))
+
+        print("-----compile bert-----> compilation time:\n", times, "milliseconds")
+
+
+    if __name__ == "__main__":
+        compile_bert()
+
+
+.. rst-class:: sphx-glr-timing
+
+   **Total running time of the script:** ( 0 minutes  0.000 seconds)
+
+
+.. _sphx_glr_download_tutorials__rendered_examples_dynamo_engine_caching_bert_example.py:
+
+.. only:: html
+
+  .. container:: sphx-glr-footer sphx-glr-footer-example
+
+
+
+
+    .. container:: sphx-glr-download sphx-glr-download-python
+
+      :download:`Download Python source code: engine_caching_bert_example.py <engine_caching_bert_example.py>`
+
+    .. container:: sphx-glr-download sphx-glr-download-jupyter
+
+      :download:`Download Jupyter notebook: engine_caching_bert_example.ipynb <engine_caching_bert_example.ipynb>`
+
+
+.. only:: html
+
+ .. rst-class:: sphx-glr-signature
+
+    `Gallery generated by Sphinx-Gallery <https://sphinx-gallery.github.io>`_
diff --git a/docs/_sources/tutorials/_rendered_examples/dynamo/engine_caching_example.rst.txt b/docs/_sources/tutorials/_rendered_examples/dynamo/engine_caching_example.rst.txt
new file mode 100644
index 0000000000..df61bec65e
--- /dev/null
+++ b/docs/_sources/tutorials/_rendered_examples/dynamo/engine_caching_example.rst.txt
@@ -0,0 +1,361 @@
+
+.. DO NOT EDIT.
+.. THIS FILE WAS AUTOMATICALLY GENERATED BY SPHINX-GALLERY.
+.. TO MAKE CHANGES, EDIT THE SOURCE PYTHON FILE:
+.. "tutorials/_rendered_examples/dynamo/engine_caching_example.py"
+.. LINE NUMBERS ARE GIVEN BELOW.
+
+.. only:: html
+
+    .. note::
+        :class: sphx-glr-download-link-note
+
+        :ref:`Go to the end <sphx_glr_download_tutorials__rendered_examples_dynamo_engine_caching_example.py>`
+        to download the full example code
+
+.. rst-class:: sphx-glr-example-title
+
+.. _sphx_glr_tutorials__rendered_examples_dynamo_engine_caching_example.py:
+
+
+.. _engine_caching_example:
+
+Engine Caching
+=======================
+
+As model sizes increase, the cost of compilation will as well. With AOT methods
+like ``torch.dynamo.compile``, this cost is paid upfront. However if the weights
+change, the session ends or you are using JIT methods like ``torch.compile``, as
+graphs get invalidated they get re-compiled, this cost will get paid repeatedly.
+Engine caching is a way to mitigate this cost by saving constructed engines to disk
+and re-using them when possible. This tutorial demonstrates how to use engine caching
+with TensorRT in PyTorch. Engine caching can significantly speed up subsequent model
+compilations reusing previously built TensorRT engines.
+
+We'll explore two approaches:
+
+    1. Using torch_tensorrt.dynamo.compile
+    2. Using torch.compile with the TensorRT backend
+
+The example uses a pre-trained ResNet18 model and shows the
+differences between compilation without caching, with caching enabled,
+and when reusing cached engines.
+
+.. GENERATED FROM PYTHON SOURCE LINES 26-52
+
+.. code-block:: python
+
+
+    import os
+    from typing import Dict, Optional
+
+    import numpy as np
+    import torch
+    import torch_tensorrt as torch_trt
+    import torchvision.models as models
+    from torch_tensorrt.dynamo._defaults import TIMING_CACHE_PATH
+    from torch_tensorrt.dynamo._engine_cache import BaseEngineCache
+
+    np.random.seed(0)
+    torch.manual_seed(0)
+
+    model = models.resnet18(pretrained=True).eval().to("cuda")
+    enabled_precisions = {torch.float}
+    debug = False
+    min_block_size = 1
+    use_python_runtime = False
+
+
+    def remove_timing_cache(path=TIMING_CACHE_PATH):
+        if os.path.exists(path):
+            os.remove(path)
+
+
+
+.. GENERATED FROM PYTHON SOURCE LINES 53-67
+
+Engine Caching for JIT Compilation
+----------------------------------
+
+The primary goal of engine caching is to help speed up JIT workflows. ``torch.compile``
+provides a great deal of flexibility in model construction which makes it a good
+first tool to try when looking to speed up your workflow. However, historically
+the cost of compilation and in particular recompilation has been a barrier to entry
+for many users. If for some reason a subgraph gets invalidated, that graph is reconstructed
+scratch prior to the addition of engine caching. Now as engines are constructed, with ``cache_built_engines=True``,
+engines are saved to disk tied to a hash of their corresponding PyTorch subgraph. If
+in a subsequent compilation, either as part of this session or a new session, the cache will
+pull the built engine and **refit** the weights which can reduce compilation times by orders of magnitude.
+As such, in order to insert a new engine into the cache (i.e. ``cache_built_engines=True``),
+the engine must be refitable (``make_refittable=True``). See :ref:`refit_engine_example` for more details.
+
+.. GENERATED FROM PYTHON SOURCE LINES 67-118
+
+.. code-block:: python
+
+
+
+    def torch_compile(iterations=3):
+        times = []
+        start = torch.cuda.Event(enable_timing=True)
+        end = torch.cuda.Event(enable_timing=True)
+
+        # The 1st iteration is to measure the compilation time without engine caching
+        # The 2nd and 3rd iterations are to measure the compilation time with engine caching.
+        # Since the 2nd iteration needs to compile and save the engine, it will be slower than the 1st iteration.
+        # The 3rd iteration should be faster than the 1st iteration because it loads the cached engine.
+        for i in range(iterations):
+            inputs = [torch.rand((100, 3, 224, 224)).to("cuda")]
+            # remove timing cache and reset dynamo just for engine caching messurement
+            remove_timing_cache()
+            torch._dynamo.reset()
+
+            if i == 0:
+                cache_built_engines = False
+                reuse_cached_engines = False
+            else:
+                cache_built_engines = True
+                reuse_cached_engines = True
+
+            start.record()
+            compiled_model = torch.compile(
+                model,
+                backend="tensorrt",
+                options={
+                    "use_python_runtime": True,
+                    "enabled_precisions": enabled_precisions,
+                    "debug": debug,
+                    "min_block_size": min_block_size,
+                    "make_refitable": True,
+                    "cache_built_engines": cache_built_engines,
+                    "reuse_cached_engines": reuse_cached_engines,
+                },
+            )
+            compiled_model(*inputs)  # trigger the compilation
+            end.record()
+            torch.cuda.synchronize()
+            times.append(start.elapsed_time(end))
+
+        print("----------------torch_compile----------------")
+        print("disable engine caching, used:", times[0], "ms")
+        print("enable engine caching to cache engines, used:", times[1], "ms")
+        print("enable engine caching to reuse engines, used:", times[2], "ms")
+
+
+    torch_compile()
+
+
+.. GENERATED FROM PYTHON SOURCE LINES 119-124
+
+Engine Caching for AOT Compilation
+----------------------------------
+Similarly to the JIT workflow, AOT workflows can benefit from engine caching.
+As the same architecture or common subgraphs get recompiled, the cache will pull
+previously built engines and refit the weights.
+
+.. GENERATED FROM PYTHON SOURCE LINES 124-178
+
+.. code-block:: python
+
+
+
+    def dynamo_compile(iterations=3):
+        times = []
+        start = torch.cuda.Event(enable_timing=True)
+        end = torch.cuda.Event(enable_timing=True)
+
+        example_inputs = (torch.randn((100, 3, 224, 224)).to("cuda"),)
+        # Mark the dim0 of inputs as dynamic
+        batch = torch.export.Dim("batch", min=1, max=200)
+        exp_program = torch.export.export(
+            model, args=example_inputs, dynamic_shapes={"x": {0: batch}}
+        )
+
+        # The 1st iteration is to measure the compilation time without engine caching
+        # The 2nd and 3rd iterations are to measure the compilation time with engine caching.
+        # Since the 2nd iteration needs to compile and save the engine, it will be slower than the 1st iteration.
+        # The 3rd iteration should be faster than the 1st iteration because it loads the cached engine.
+        for i in range(iterations):
+            inputs = [torch.rand((100 + i, 3, 224, 224)).to("cuda")]
+            remove_timing_cache()  # remove timing cache just for engine caching messurement
+            if i == 0:
+                cache_built_engines = False
+                reuse_cached_engines = False
+            else:
+                cache_built_engines = True
+                reuse_cached_engines = True
+
+            start.record()
+            trt_gm = torch_trt.dynamo.compile(
+                exp_program,
+                tuple(inputs),
+                use_python_runtime=use_python_runtime,
+                enabled_precisions=enabled_precisions,
+                debug=debug,
+                min_block_size=min_block_size,
+                make_refitable=True,
+                cache_built_engines=cache_built_engines,
+                reuse_cached_engines=reuse_cached_engines,
+                engine_cache_size=1 << 30,  # 1GB
+            )
+            # output = trt_gm(*inputs)
+            end.record()
+            torch.cuda.synchronize()
+            times.append(start.elapsed_time(end))
+
+        print("----------------dynamo_compile----------------")
+        print("disable engine caching, used:", times[0], "ms")
+        print("enable engine caching to cache engines, used:", times[1], "ms")
+        print("enable engine caching to reuse engines, used:", times[2], "ms")
+
+
+    dynamo_compile()
+
+
+.. GENERATED FROM PYTHON SOURCE LINES 179-195
+
+Custom Engine Cache
+----------------------
+
+By default, the engine cache is stored in the system's temporary directory. Both the cache directory and
+size limit can be customized by passing ``engine_cache_dir`` and ``engine_cache_size``.
+Users can also define their own engine cache implementation by extending the ``BaseEngineCache`` class.
+This allows for remote or shared caching if so desired.
+
+The custom engine cache should implement the following methods:
+  - ``save``: Save the engine blob to the cache.
+  - ``load``: Load the engine blob from the cache.
+
+The hash provided by the cache systen is a weight agnostic hash of the originating PyTorch subgraph (post lowering).
+The blob contains a serialized engine, calling spec data, and weight map information in the pickle format
+
+Below is an example of a custom engine cache implementation that implents a ``RAMEngineCache``.
+
+.. GENERATED FROM PYTHON SOURCE LINES 195-289
+
+.. code-block:: python
+
+
+
+    class RAMEngineCache(BaseEngineCache):
+        def __init__(
+            self,
+        ) -> None:
+            """
+            Constructs a user held engine cache in memory.
+            """
+            self.engine_cache: Dict[str, bytes] = {}
+
+        def save(
+            self,
+            hash: str,
+            blob: bytes,
+        ):
+            """
+            Insert the engine blob to the cache.
+
+            Args:
+                hash (str): The hash key to associate with the engine blob.
+                blob (bytes): The engine blob to be saved.
+
+            Returns:
+                None
+            """
+            self.engine_cache[hash] = blob
+
+        def load(self, hash: str) -> Optional[bytes]:
+            """
+            Load the engine blob from the cache.
+
+            Args:
+                hash (str): The hash key of the engine to load.
+
+            Returns:
+                Optional[bytes]: The engine blob if found, None otherwise.
+            """
+            if hash in self.engine_cache:
+                return self.engine_cache[hash]
+            else:
+                return None
+
+
+    def torch_compile_my_cache(iterations=3):
+        times = []
+        engine_cache = RAMEngineCache()
+        start = torch.cuda.Event(enable_timing=True)
+        end = torch.cuda.Event(enable_timing=True)
+
+        # The 1st iteration is to measure the compilation time without engine caching
+        # The 2nd and 3rd iterations are to measure the compilation time with engine caching.
+        # Since the 2nd iteration needs to compile and save the engine, it will be slower than the 1st iteration.
+        # The 3rd iteration should be faster than the 1st iteration because it loads the cached engine.
+        for i in range(iterations):
+            inputs = [torch.rand((100, 3, 224, 224)).to("cuda")]
+            # remove timing cache and reset dynamo just for engine caching messurement
+            remove_timing_cache()
+            torch._dynamo.reset()
+
+            if i == 0:
+                cache_built_engines = False
+                reuse_cached_engines = False
+            else:
+                cache_built_engines = True
+                reuse_cached_engines = True
+
+            start.record()
+            compiled_model = torch.compile(
+                model,
+                backend="tensorrt",
+                options={
+                    "use_python_runtime": True,
+                    "enabled_precisions": enabled_precisions,
+                    "debug": debug,
+                    "min_block_size": min_block_size,
+                    "make_refitable": True,
+                    "cache_built_engines": cache_built_engines,
+                    "reuse_cached_engines": reuse_cached_engines,
+                    "custom_engine_cache": engine_cache,
+                },
+            )
+            compiled_model(*inputs)  # trigger the compilation
+            end.record()
+            torch.cuda.synchronize()
+            times.append(start.elapsed_time(end))
+
+        print("----------------torch_compile----------------")
+        print("disable engine caching, used:", times[0], "ms")
+        print("enable engine caching to cache engines, used:", times[1], "ms")
+        print("enable engine caching to reuse engines, used:", times[2], "ms")
+
+
+    torch_compile_my_cache()
+
+
+.. rst-class:: sphx-glr-timing
+
+   **Total running time of the script:** ( 0 minutes  0.000 seconds)
+
+
+.. _sphx_glr_download_tutorials__rendered_examples_dynamo_engine_caching_example.py:
+
+.. only:: html
+
+  .. container:: sphx-glr-footer sphx-glr-footer-example
+
+
+
+
+    .. container:: sphx-glr-download sphx-glr-download-python
+
+      :download:`Download Python source code: engine_caching_example.py <engine_caching_example.py>`
+
+    .. container:: sphx-glr-download sphx-glr-download-jupyter
+
+      :download:`Download Jupyter notebook: engine_caching_example.ipynb <engine_caching_example.ipynb>`
+
+
+.. only:: html
+
+ .. rst-class:: sphx-glr-signature
+
+    `Gallery generated by Sphinx-Gallery <https://sphinx-gallery.github.io>`_
diff --git a/docs/_sources/tutorials/_rendered_examples/dynamo/index.rst.txt b/docs/_sources/tutorials/_rendered_examples/dynamo/index.rst.txt
index 6e5917ae7b..64ecdc59aa 100644
--- a/docs/_sources/tutorials/_rendered_examples/dynamo/index.rst.txt
+++ b/docs/_sources/tutorials/_rendered_examples/dynamo/index.rst.txt
@@ -19,6 +19,8 @@ a number of ways you can leverage this backend to accelerate inference.
 * :ref:`refit_engine_example`: Refitting a compiled TensorRT Graph Module with updated weights
 * :ref:`mutable_torchtrt_module_example`: Compile, use, and modify TensorRT Graph Module with MutableTorchTensorRTModule
 * :ref:`vgg16_fp8_ptq`: Compiling a VGG16 model with FP8 and PTQ using ``torch.compile``
+* :ref:`engine_caching_example`: Utilizing engine caching to speed up compilation times
+* :ref:`engine_caching_bert_example`: Demonstrating engine caching on BERT
 
 
 
@@ -61,6 +63,23 @@ a number of ways you can leverage this backend to accelerate inference.
     </div>
 
 
+.. raw:: html
+
+    <div class="sphx-glr-thumbcontainer" tooltip="Compilation is an expensive operation as it involves many graph transformations, translations a...">
+
+.. only:: html
+
+  .. image:: /tutorials/_rendered_examples/dynamo/images/thumb/sphx_glr_refit_engine_example_thumb.png
+    :alt:
+
+  :ref:`sphx_glr_tutorials__rendered_examples_dynamo_refit_engine_example.py`
+
+.. raw:: html
+
+      <div class="sphx-glr-thumbnail-title">Refitting Torch-TensorRT Programs with New Weights</div>
+    </div>
+
+
 .. raw:: html
 
     <div class="sphx-glr-thumbcontainer" tooltip="This interactive script is intended as a sample of the Torch-TensorRT workflow with torch.compi...">
@@ -80,18 +99,18 @@ a number of ways you can leverage this backend to accelerate inference.
 
 .. raw:: html
 
-    <div class="sphx-glr-thumbcontainer" tooltip="We are going to demonstrate how a compiled TensorRT Graph Module can be refitted with updated w...">
+    <div class="sphx-glr-thumbcontainer" tooltip="This interactive script is intended as a sample of the Torch-TensorRT workflow with dynamo back...">
 
 .. only:: html
 
-  .. image:: /tutorials/_rendered_examples/dynamo/images/thumb/sphx_glr_refit_engine_example_thumb.png
+  .. image:: /tutorials/_rendered_examples/dynamo/images/thumb/sphx_glr_torch_export_gpt2_thumb.png
     :alt:
 
-  :ref:`sphx_glr_tutorials__rendered_examples_dynamo_refit_engine_example.py`
+  :ref:`sphx_glr_tutorials__rendered_examples_dynamo_torch_export_gpt2.py`
 
 .. raw:: html
 
-      <div class="sphx-glr-thumbnail-title">Refit  TenorRT Graph Module with Torch-TensorRT</div>
+      <div class="sphx-glr-thumbnail-title">Compiling GPT2 using the Torch-TensorRT with dynamo backend</div>
     </div>
 
 
@@ -112,6 +131,40 @@ a number of ways you can leverage this backend to accelerate inference.
     </div>
 
 
+.. raw:: html
+
+    <div class="sphx-glr-thumbcontainer" tooltip="This interactive script is intended as a sample of the Torch-TensorRT workflow with dynamo back...">
+
+.. only:: html
+
+  .. image:: /tutorials/_rendered_examples/dynamo/images/thumb/sphx_glr_torch_export_llama2_thumb.png
+    :alt:
+
+  :ref:`sphx_glr_tutorials__rendered_examples_dynamo_torch_export_llama2.py`
+
+.. raw:: html
+
+      <div class="sphx-glr-thumbnail-title">Compiling Llama2 using the Torch-TensorRT with dynamo backend</div>
+    </div>
+
+
+.. raw:: html
+
+    <div class="sphx-glr-thumbcontainer" tooltip="Small caching example on BERT.">
+
+.. only:: html
+
+  .. image:: /tutorials/_rendered_examples/dynamo/images/thumb/sphx_glr_engine_caching_bert_example_thumb.png
+    :alt:
+
+  :ref:`sphx_glr_tutorials__rendered_examples_dynamo_engine_caching_bert_example.py`
+
+.. raw:: html
+
+      <div class="sphx-glr-thumbnail-title">Engine Caching (BERT)</div>
+    </div>
+
+
 .. raw:: html
 
     <div class="sphx-glr-thumbcontainer" tooltip="We are going to demonstrate how we can easily use Mutable Torch TensorRT Module to compile, int...">
@@ -163,6 +216,23 @@ a number of ways you can leverage this backend to accelerate inference.
     </div>
 
 
+.. raw:: html
+
+    <div class="sphx-glr-thumbcontainer" tooltip="As model sizes increase, the cost of compilation will as well. With AOT methods like torch.dyna...">
+
+.. only:: html
+
+  .. image:: /tutorials/_rendered_examples/dynamo/images/thumb/sphx_glr_engine_caching_example_thumb.png
+    :alt:
+
+  :ref:`sphx_glr_tutorials__rendered_examples_dynamo_engine_caching_example.py`
+
+.. raw:: html
+
+      <div class="sphx-glr-thumbnail-title">Engine Caching</div>
+    </div>
+
+
 .. raw:: html
 
     <div class="sphx-glr-thumbcontainer" tooltip="We are going to demonstrate how a developer could include a custom kernel in a TensorRT engine ...">
@@ -190,11 +260,15 @@ a number of ways you can leverage this backend to accelerate inference.
 
    /tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion
    /tutorials/_rendered_examples/dynamo/torch_export_cudagraphs
-   /tutorials/_rendered_examples/dynamo/torch_compile_transformers_example
    /tutorials/_rendered_examples/dynamo/refit_engine_example
+   /tutorials/_rendered_examples/dynamo/torch_compile_transformers_example
+   /tutorials/_rendered_examples/dynamo/torch_export_gpt2
    /tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage
+   /tutorials/_rendered_examples/dynamo/torch_export_llama2
+   /tutorials/_rendered_examples/dynamo/engine_caching_bert_example
    /tutorials/_rendered_examples/dynamo/mutable_torchtrt_module_example
    /tutorials/_rendered_examples/dynamo/torch_compile_resnet_example
    /tutorials/_rendered_examples/dynamo/vgg16_ptq
+   /tutorials/_rendered_examples/dynamo/engine_caching_example
    /tutorials/_rendered_examples/dynamo/custom_kernel_plugins
 
diff --git a/docs/_sources/tutorials/_rendered_examples/dynamo/refit_engine_example.rst.txt b/docs/_sources/tutorials/_rendered_examples/dynamo/refit_engine_example.rst.txt
index cc0b9fd21e..fb48bc8536 100644
--- a/docs/_sources/tutorials/_rendered_examples/dynamo/refit_engine_example.rst.txt
+++ b/docs/_sources/tutorials/_rendered_examples/dynamo/refit_engine_example.rst.txt
@@ -20,31 +20,38 @@
 
 .. _refit_engine_example:
 
-Refit  TenorRT Graph Module with Torch-TensorRT
+Refitting Torch-TensorRT Programs with New Weights
 ===================================================================
 
-We are going to demonstrate how a compiled TensorRT Graph Module can be refitted with updated weights.
-
-In many cases, we frequently update the weights of models, such as applying various LoRA to Stable Diffusion or constant A/B testing of AI products.
-That poses challenges for TensorRT inference optimizations, as compiling the TensorRT engines takes significant time, making repetitive compilation highly inefficient.
-Torch-TensorRT supports refitting TensorRT graph modules without re-compiling the engine, considerably accelerating the workflow.
+Compilation is an expensive operation as it involves many graph transformations, translations
+and optimizations applied on the model. In cases were the weights of a model might be updated
+occasionally (e.g. inserting LoRA adapters), the large cost of recompilation can make it infeasible
+to use TensorRT if the compiled program needed to be built from scratch each time. Torch-TensorRT
+provides a PyTorch native mechanism to update the weights of a compiled TensorRT program without
+recompiling from scratch through weight refitting.
 
 In this tutorial, we are going to walk through
-1. Compiling a PyTorch model to a TensorRT Graph Module
-2. Save and load a graph module
-3. Refit the graph module
 
-.. GENERATED FROM PYTHON SOURCE LINES 20-22
+    1. Compiling a PyTorch model to a TensorRT Graph Module
+    2. Save and load a graph module
+    3. Refit the graph module
+
+This tutorial focuses mostly on the AOT workflow where it is most likely that a user might need to
+manually refit a module. In the JIT workflow, weight changes trigger recompilation. As the engine
+has previously been built, with an engine cache enabled, Torch-TensorRT can automatically recognize
+a previously built engine, trigger refit and short cut recompilation on behalf of the user (see: :ref:`engine_caching_example`).
+
+.. GENERATED FROM PYTHON SOURCE LINES 27-29
 
 Standard Workflow
 -----------------------------
 
-.. GENERATED FROM PYTHON SOURCE LINES 24-26
+.. GENERATED FROM PYTHON SOURCE LINES 31-33
 
 Imports and model definition
 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
 
-.. GENERATED FROM PYTHON SOURCE LINES 26-38
+.. GENERATED FROM PYTHON SOURCE LINES 33-45
 
 .. code-block:: python
 
@@ -61,17 +68,24 @@ Imports and model definition
 
 
 
-.. GENERATED FROM PYTHON SOURCE LINES 39-41
+.. GENERATED FROM PYTHON SOURCE LINES 46-55
 
-Compile the module for the first time and save it.
-^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+Make a Refitable Compilation Program
+---------------------------------------
 
-.. GENERATED FROM PYTHON SOURCE LINES 41-66
+The inital step is to compile a module and save it as with a normal. Note that there is an
+additional parameter `make_refitable` that is set to `True`. This parameter is used to
+indicate that the engine being built should support weight refitting later. Engines built without
+these setttings will not be able to be refit.
+
+In this case we are going to compile a ResNet18 model with randomly initialized weights and save it.
+
+.. GENERATED FROM PYTHON SOURCE LINES 55-79
 
 .. code-block:: python
 
 
-    model = models.resnet18(pretrained=True).eval().to("cuda")
+    model = models.resnet18(pretrained=False).eval().to("cuda")
     exp_program = torch.export.export(model, tuple(inputs))
     enabled_precisions = {torch.float}
     debug = False
@@ -91,23 +105,27 @@ Compile the module for the first time and save it.
     )  # Output is a torch.fx.GraphModule
 
     # Save the graph module as an exported program
-    # This is only supported when use_python_runtime = False
     torch_trt.save(trt_gm, "./compiled.ep", inputs=inputs)
 
 
 
-.. GENERATED FROM PYTHON SOURCE LINES 67-69
+.. GENERATED FROM PYTHON SOURCE LINES 80-87
 
-Refit the module with update model weights
-^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+Refit the Program with Pretrained Weights
+------------------------------------------
 
-.. GENERATED FROM PYTHON SOURCE LINES 69-93
+Random weights are not useful for inference. But now instead of recompiling the model, we can
+refit the model with the pretrained weights. This is done by setting up another PyTorch module
+with the target weights and exporting it as an ExportedProgram. Then the ``refit_module_weights``
+function is used to update the weights of the compiled module with the new weights.
+
+.. GENERATED FROM PYTHON SOURCE LINES 87-111
 
 .. code-block:: python
 
 
     # Create and compile the updated model
-    model2 = models.resnet18(pretrained=False).eval().to("cuda")
+    model2 = models.resnet18(pretrained=True).eval().to("cuda")
     exp_program2 = torch.export.export(model2, tuple(inputs))
 
 
@@ -130,18 +148,36 @@ Refit the module with update model weights
     print("Refit successfully!")
 
 
-.. GENERATED FROM PYTHON SOURCE LINES 94-96
+.. GENERATED FROM PYTHON SOURCE LINES 112-140
 
-Alternative Workflow using Python Runtime
+Advanced Usage
 -----------------------------
 
-.. GENERATED FROM PYTHON SOURCE LINES 96-99
+There are a number of settings you can use to control the refit process
 
-.. code-block:: python
+Weight Map Cache
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+
+Weight refitting works by matching the weights of the compiled module with the new weights from
+the user supplied ExportedProgram. Since 1:1 name matching from PyTorch to TensorRT is hard to accomplish,
+the only gaurenteed way to match weights at *refit-time* is to pass the new ExportedProgram through the
+early phases of the compilation process to generate near identical weight names. This can be expensive
+and is not always necessary.
 
+To avoid this, **At initial compile**, Torch-TensorRt will attempt to cache a direct mapping from PyTorch
+weights to TensorRT weights. This cache is stored in the compiled module as metadata and can be used
+to speed up refit. If the cache is not present, the refit system will fallback to rebuilding the mapping at
+refit-time. Use of this cache is controlled by the ``use_weight_map_cache`` parameter.
+
+Since the cache uses a heuristic based system for matching PyTorch and TensorRT weights, you may want to verify the refitting. This can be done by setting
+``verify_output`` to True and providing sample ``arg_inputs`` and ``kwarg_inputs``. When this is done, the refit
+system will run the refitted module and the user supplied module on the same inputs and compare the outputs.
+
+In-Place Refit
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
 
-    # Currently python runtime does not support engine serialization. So the refitting will be done in the same runtime.
-    # This usecase is more useful when you need to switch different weights in the same runtime, such as using Stable Diffusion.
+``in_place`` allows the user to refit the module in place. This is useful when the user wants to update the weights
+of the compiled module without creating a new module.
 
 
 .. rst-class:: sphx-glr-timing
diff --git a/docs/_sources/tutorials/_rendered_examples/dynamo/torch_export_gpt2.rst.txt b/docs/_sources/tutorials/_rendered_examples/dynamo/torch_export_gpt2.rst.txt
new file mode 100644
index 0000000000..be90efc337
--- /dev/null
+++ b/docs/_sources/tutorials/_rendered_examples/dynamo/torch_export_gpt2.rst.txt
@@ -0,0 +1,168 @@
+
+.. DO NOT EDIT.
+.. THIS FILE WAS AUTOMATICALLY GENERATED BY SPHINX-GALLERY.
+.. TO MAKE CHANGES, EDIT THE SOURCE PYTHON FILE:
+.. "tutorials/_rendered_examples/dynamo/torch_export_gpt2.py"
+.. LINE NUMBERS ARE GIVEN BELOW.
+
+.. only:: html
+
+    .. note::
+        :class: sphx-glr-download-link-note
+
+        :ref:`Go to the end <sphx_glr_download_tutorials__rendered_examples_dynamo_torch_export_gpt2.py>`
+        to download the full example code
+
+.. rst-class:: sphx-glr-example-title
+
+.. _sphx_glr_tutorials__rendered_examples_dynamo_torch_export_gpt2.py:
+
+
+.. _torch_export_gpt2:
+
+Compiling GPT2 using the Torch-TensorRT with dynamo backend
+==========================================================
+
+This interactive script is intended as a sample of the Torch-TensorRT workflow with dynamo backend on a GPT2 model.
+
+.. GENERATED FROM PYTHON SOURCE LINES 10-12
+
+Imports and Model Definition
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+
+.. GENERATED FROM PYTHON SOURCE LINES 12-17
+
+.. code-block:: python
+
+    import torch
+    import torch_tensorrt
+    from transformers import AutoModelForCausalLM, AutoTokenizer
+    from utils import export_llm, generate
+
+
+.. GENERATED FROM PYTHON SOURCE LINES 18-35
+
+.. code-block:: python
+
+
+    # Define the parameters and initialize the model
+    MAX_TOKENS = 32
+    DEVICE = torch.device("cuda:0")
+
+    # Define the GPT2 model from hugging face
+    # kv_cache is not supported in Torch-TRT currently.
+    # CPU is used here so that GPU memory is reserved for TRT compilation.
+    with torch.no_grad():
+        tokenizer = AutoTokenizer.from_pretrained("gpt2")
+        model = AutoModelForCausalLM.from_pretrained(
+            "gpt2",
+            pad_token_id=tokenizer.eos_token_id,
+            use_cache=False,
+            attn_implementation="eager",
+        ).eval()
+
+
+.. GENERATED FROM PYTHON SOURCE LINES 36-37
+
+Tokenize a sample input prompt and get pytorch model outputs
+
+.. GENERATED FROM PYTHON SOURCE LINES 37-46
+
+.. code-block:: python
+
+    prompt = "I enjoy walking with my cute dog"
+    model_inputs = tokenizer(prompt, return_tensors="pt")
+    input_ids = model_inputs["input_ids"]
+
+    # Auto-regressive generation loop for greedy decoding using PyTorch model
+    # We use a custom generate function which is very similar to the huggingface one.
+    pyt_gen_tokens = generate(model, input_ids, MAX_TOKENS, tokenizer.eos_token_id)
+
+
+
+.. GENERATED FROM PYTHON SOURCE LINES 47-49
+
+Compilation with `Torch-TensorRT` using dynamo backend and generate TensorRT outputs
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+
+.. GENERATED FROM PYTHON SOURCE LINES 49-67
+
+.. code-block:: python
+
+
+    # Export the GPT2 model into an ExportedProgram which is input of TRT compilation
+    gpt2_ep = export_llm(model, input_ids, max_seq_len=1024)
+    trt_model = torch_tensorrt.dynamo.compile(
+        gpt2_ep,
+        inputs=[input_ids],
+        enabled_precisions={torch.float32},
+        truncate_double=True,
+        device=DEVICE,
+        disable_tf32=True,
+    )
+
+    # Auto-regressive generation loop for greedy decoding using TensorRT model
+    # We use a custom generate function which is very similar to the huggingface one.
+    # Move inputs to GPU
+    input_ids = input_ids.to(DEVICE)
+    trt_gen_tokens = generate(trt_model, input_ids, MAX_TOKENS, tokenizer.eos_token_id)
+
+
+.. GENERATED FROM PYTHON SOURCE LINES 68-70
+
+Decode the output sentences of PyTorch and TensorRT
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+
+.. GENERATED FROM PYTHON SOURCE LINES 70-81
+
+.. code-block:: python
+
+    print("=============================")
+    print(
+        "Pytorch model generated text: ",
+        tokenizer.decode(pyt_gen_tokens[0], skip_special_tokens=True),
+    )
+    print("=============================")
+    print(
+        "TensorRT model generated text: ",
+        tokenizer.decode(trt_gen_tokens[0], skip_special_tokens=True),
+    )
+
+
+.. GENERATED FROM PYTHON SOURCE LINES 82-87
+
+The output sentences should look like
+=============================
+Pytorch model generated text:  I enjoy walking with my cute dog, but I'm not sure if I'll ever be able to walk with my dog. I'm not sure if I'll ever be able to walk with my
+=============================
+TensorRT model generated text:  I enjoy walking with my cute dog, but I'm not sure if I'll ever be able to walk with my dog. I'm not sure if I'll ever be able to walk with my
+
+
+.. rst-class:: sphx-glr-timing
+
+   **Total running time of the script:** ( 0 minutes  0.000 seconds)
+
+
+.. _sphx_glr_download_tutorials__rendered_examples_dynamo_torch_export_gpt2.py:
+
+.. only:: html
+
+  .. container:: sphx-glr-footer sphx-glr-footer-example
+
+
+
+
+    .. container:: sphx-glr-download sphx-glr-download-python
+
+      :download:`Download Python source code: torch_export_gpt2.py <torch_export_gpt2.py>`
+
+    .. container:: sphx-glr-download sphx-glr-download-jupyter
+
+      :download:`Download Jupyter notebook: torch_export_gpt2.ipynb <torch_export_gpt2.ipynb>`
+
+
+.. only:: html
+
+ .. rst-class:: sphx-glr-signature
+
+    `Gallery generated by Sphinx-Gallery <https://sphinx-gallery.github.io>`_
diff --git a/docs/_sources/tutorials/_rendered_examples/dynamo/torch_export_llama2.rst.txt b/docs/_sources/tutorials/_rendered_examples/dynamo/torch_export_llama2.rst.txt
new file mode 100644
index 0000000000..5e66a72aab
--- /dev/null
+++ b/docs/_sources/tutorials/_rendered_examples/dynamo/torch_export_llama2.rst.txt
@@ -0,0 +1,175 @@
+
+.. DO NOT EDIT.
+.. THIS FILE WAS AUTOMATICALLY GENERATED BY SPHINX-GALLERY.
+.. TO MAKE CHANGES, EDIT THE SOURCE PYTHON FILE:
+.. "tutorials/_rendered_examples/dynamo/torch_export_llama2.py"
+.. LINE NUMBERS ARE GIVEN BELOW.
+
+.. only:: html
+
+    .. note::
+        :class: sphx-glr-download-link-note
+
+        :ref:`Go to the end <sphx_glr_download_tutorials__rendered_examples_dynamo_torch_export_llama2.py>`
+        to download the full example code
+
+.. rst-class:: sphx-glr-example-title
+
+.. _sphx_glr_tutorials__rendered_examples_dynamo_torch_export_llama2.py:
+
+
+.. _torch_export_llama2:
+
+Compiling Llama2 using the Torch-TensorRT with dynamo backend
+==========================================================
+
+This interactive script is intended as a sample of the Torch-TensorRT workflow with dynamo backend on a Llama2 model.
+
+.. GENERATED FROM PYTHON SOURCE LINES 10-12
+
+Imports and Model Definition
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+
+.. GENERATED FROM PYTHON SOURCE LINES 12-17
+
+.. code-block:: python
+
+    import torch
+    import torch_tensorrt
+    from transformers import AutoModelForCausalLM, AutoTokenizer
+    from utils import export_llm, generate
+
+
+.. GENERATED FROM PYTHON SOURCE LINES 18-19
+
+Define the parameters and initialize the model
+
+.. GENERATED FROM PYTHON SOURCE LINES 19-33
+
+.. code-block:: python
+
+    MAX_TOKENS = 32
+    DEVICE = torch.device("cuda:0")
+
+    # Define the Llama2 model from hugging face
+    # kv_cache is not supported in Torch-TRT currently.
+    # CPU is used here so that GPU memory is reserved for TRT compilation.
+    llama_path = "meta-llama/Llama-2-7b-chat-hf"
+    with torch.no_grad():
+        model = AutoModelForCausalLM.from_pretrained(
+            llama_path, use_cache=False, attn_implementation="eager"
+        ).eval()
+
+    tokenizer = AutoTokenizer.from_pretrained(llama_path)
+
+
+.. GENERATED FROM PYTHON SOURCE LINES 34-35
+
+Tokenize a sample input prompt and get pytorch model outputs
+
+.. GENERATED FROM PYTHON SOURCE LINES 35-43
+
+.. code-block:: python
+
+    prompt = "What is dynamic programming?"
+    model_inputs = tokenizer(prompt, return_tensors="pt")
+    input_ids = model_inputs.input_ids
+
+    # Auto-regressive generation loop for greedy decoding using PyTorch model
+    # We use a custom generate function which is very similar to the huggingface one.
+    pyt_gen_tokens = generate(model, input_ids, MAX_TOKENS, tokenizer.eos_token_id)
+
+
+.. GENERATED FROM PYTHON SOURCE LINES 44-46
+
+Compilation with `Torch-TensorRT` using dynamo backend and generate TensorRT outputs
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+
+.. GENERATED FROM PYTHON SOURCE LINES 46-65
+
+.. code-block:: python
+
+
+    # Export the llama2 model into an ExportedProgram which is input of TRT compilation
+    llama2_ep = export_llm(model, input_ids, max_seq_len=64)
+    trt_model = torch_tensorrt.dynamo.compile(
+        llama2_ep,
+        inputs=[input_ids],
+        enabled_precisions={torch.float32},
+        min_block_size=1,
+        truncate_double=True,
+        device=DEVICE,
+        disable_tf32=True,
+    )
+
+    # Auto-regressive generation loop for greedy decoding using TensorRT model
+    # We use a custom generate function which is very similar to the huggingface one.
+    # Move inputs to GPU
+    input_ids = input_ids.to(DEVICE)
+    trt_gen_tokens = generate(trt_model, input_ids, MAX_TOKENS, tokenizer.eos_token_id)
+
+
+.. GENERATED FROM PYTHON SOURCE LINES 66-68
+
+Decode the output sentences of PyTorch and TensorRT
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+
+.. GENERATED FROM PYTHON SOURCE LINES 68-85
+
+.. code-block:: python
+
+    print("=============================")
+    print(
+        "Pytorch model generated text: ",
+        tokenizer.batch_decode(
+            pyt_gen_tokens, skip_special_tokens=True, clean_up_tokenization_spaces=False
+        )[0],
+    )
+    print("=============================")
+    print(
+        "TensorRT model generated text: ",
+        tokenizer.batch_decode(
+            trt_gen_tokens,
+            skip_special_tokens=True,
+            clean_up_tokenization_spaces=False,
+        )[0],
+    )
+
+
+.. GENERATED FROM PYTHON SOURCE LINES 86-91
+
+The output sentences should look like
+=============================
+Pytorch model generated text:  I enjoy walking with my cute dog, but I'm not sure if I'll ever be able to walk with my dog. I'm not sure if I'll ever be able to walk with my
+=============================
+TensorRT model generated text:  I enjoy walking with my cute dog, but I'm not sure if I'll ever be able to walk with my dog. I'm not sure if I'll ever be able to walk with my
+
+
+.. rst-class:: sphx-glr-timing
+
+   **Total running time of the script:** ( 0 minutes  0.000 seconds)
+
+
+.. _sphx_glr_download_tutorials__rendered_examples_dynamo_torch_export_llama2.py:
+
+.. only:: html
+
+  .. container:: sphx-glr-footer sphx-glr-footer-example
+
+
+
+
+    .. container:: sphx-glr-download sphx-glr-download-python
+
+      :download:`Download Python source code: torch_export_llama2.py <torch_export_llama2.py>`
+
+    .. container:: sphx-glr-download sphx-glr-download-jupyter
+
+      :download:`Download Jupyter notebook: torch_export_llama2.ipynb <torch_export_llama2.ipynb>`
+
+
+.. only:: html
+
+ .. rst-class:: sphx-glr-signature
+
+    `Gallery generated by Sphinx-Gallery <https://sphinx-gallery.github.io>`_
diff --git a/docs/_sources/tutorials/_rendered_examples/index.rst.txt b/docs/_sources/tutorials/_rendered_examples/index.rst.txt
index f68c1fb417..c688d7370f 100644
--- a/docs/_sources/tutorials/_rendered_examples/index.rst.txt
+++ b/docs/_sources/tutorials/_rendered_examples/index.rst.txt
@@ -35,6 +35,8 @@ a number of ways you can leverage this backend to accelerate inference.
 * :ref:`refit_engine_example`: Refitting a compiled TensorRT Graph Module with updated weights
 * :ref:`mutable_torchtrt_module_example`: Compile, use, and modify TensorRT Graph Module with MutableTorchTensorRTModule
 * :ref:`vgg16_fp8_ptq`: Compiling a VGG16 model with FP8 and PTQ using ``torch.compile``
+* :ref:`engine_caching_example`: Utilizing engine caching to speed up compilation times
+* :ref:`engine_caching_bert_example`: Demonstrating engine caching on BERT
 
 
 
@@ -77,6 +79,23 @@ a number of ways you can leverage this backend to accelerate inference.
     </div>
 
 
+.. raw:: html
+
+    <div class="sphx-glr-thumbcontainer" tooltip="Compilation is an expensive operation as it involves many graph transformations, translations a...">
+
+.. only:: html
+
+  .. image:: /tutorials/_rendered_examples/dynamo/images/thumb/sphx_glr_refit_engine_example_thumb.png
+    :alt:
+
+  :ref:`sphx_glr_tutorials__rendered_examples_dynamo_refit_engine_example.py`
+
+.. raw:: html
+
+      <div class="sphx-glr-thumbnail-title">Refitting Torch-TensorRT Programs with New Weights</div>
+    </div>
+
+
 .. raw:: html
 
     <div class="sphx-glr-thumbcontainer" tooltip="This interactive script is intended as a sample of the Torch-TensorRT workflow with torch.compi...">
@@ -96,18 +115,18 @@ a number of ways you can leverage this backend to accelerate inference.
 
 .. raw:: html
 
-    <div class="sphx-glr-thumbcontainer" tooltip="We are going to demonstrate how a compiled TensorRT Graph Module can be refitted with updated w...">
+    <div class="sphx-glr-thumbcontainer" tooltip="This interactive script is intended as a sample of the Torch-TensorRT workflow with dynamo back...">
 
 .. only:: html
 
-  .. image:: /tutorials/_rendered_examples/dynamo/images/thumb/sphx_glr_refit_engine_example_thumb.png
+  .. image:: /tutorials/_rendered_examples/dynamo/images/thumb/sphx_glr_torch_export_gpt2_thumb.png
     :alt:
 
-  :ref:`sphx_glr_tutorials__rendered_examples_dynamo_refit_engine_example.py`
+  :ref:`sphx_glr_tutorials__rendered_examples_dynamo_torch_export_gpt2.py`
 
 .. raw:: html
 
-      <div class="sphx-glr-thumbnail-title">Refit  TenorRT Graph Module with Torch-TensorRT</div>
+      <div class="sphx-glr-thumbnail-title">Compiling GPT2 using the Torch-TensorRT with dynamo backend</div>
     </div>
 
 
@@ -128,6 +147,40 @@ a number of ways you can leverage this backend to accelerate inference.
     </div>
 
 
+.. raw:: html
+
+    <div class="sphx-glr-thumbcontainer" tooltip="This interactive script is intended as a sample of the Torch-TensorRT workflow with dynamo back...">
+
+.. only:: html
+
+  .. image:: /tutorials/_rendered_examples/dynamo/images/thumb/sphx_glr_torch_export_llama2_thumb.png
+    :alt:
+
+  :ref:`sphx_glr_tutorials__rendered_examples_dynamo_torch_export_llama2.py`
+
+.. raw:: html
+
+      <div class="sphx-glr-thumbnail-title">Compiling Llama2 using the Torch-TensorRT with dynamo backend</div>
+    </div>
+
+
+.. raw:: html
+
+    <div class="sphx-glr-thumbcontainer" tooltip="Small caching example on BERT.">
+
+.. only:: html
+
+  .. image:: /tutorials/_rendered_examples/dynamo/images/thumb/sphx_glr_engine_caching_bert_example_thumb.png
+    :alt:
+
+  :ref:`sphx_glr_tutorials__rendered_examples_dynamo_engine_caching_bert_example.py`
+
+.. raw:: html
+
+      <div class="sphx-glr-thumbnail-title">Engine Caching (BERT)</div>
+    </div>
+
+
 .. raw:: html
 
     <div class="sphx-glr-thumbcontainer" tooltip="We are going to demonstrate how we can easily use Mutable Torch TensorRT Module to compile, int...">
@@ -179,6 +232,23 @@ a number of ways you can leverage this backend to accelerate inference.
     </div>
 
 
+.. raw:: html
+
+    <div class="sphx-glr-thumbcontainer" tooltip="As model sizes increase, the cost of compilation will as well. With AOT methods like torch.dyna...">
+
+.. only:: html
+
+  .. image:: /tutorials/_rendered_examples/dynamo/images/thumb/sphx_glr_engine_caching_example_thumb.png
+    :alt:
+
+  :ref:`sphx_glr_tutorials__rendered_examples_dynamo_engine_caching_example.py`
+
+.. raw:: html
+
+      <div class="sphx-glr-thumbnail-title">Engine Caching</div>
+    </div>
+
+
 .. raw:: html
 
     <div class="sphx-glr-thumbcontainer" tooltip="We are going to demonstrate how a developer could include a custom kernel in a TensorRT engine ...">
diff --git a/docs/_static/documentation_options.js b/docs/_static/documentation_options.js
index c01a50945c..6b61b71ddb 100644
--- a/docs/_static/documentation_options.js
+++ b/docs/_static/documentation_options.js
@@ -1,6 +1,6 @@
 var DOCUMENTATION_OPTIONS = {
     URL_ROOT: document.getElementById("documentation_options").getAttribute('data-url_root'),
-    VERSION: 'v2.5.0.dev0+b3a8cdd',
+    VERSION: 'v2.5.0.dev0+a4a9419',
     LANGUAGE: 'en',
     COLLAPSE_INDEX: false,
     BUILDER: 'html',
diff --git a/docs/cli/torchtrtc.html b/docs/cli/torchtrtc.html
index f6792e2ae9..e9ad12f49b 100644
--- a/docs/cli/torchtrtc.html
+++ b/docs/cli/torchtrtc.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>torchtrtc &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>torchtrtc &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/contributors/conversion.html b/docs/contributors/conversion.html
index ffb238bfcd..aa60dd09fb 100644
--- a/docs/contributors/conversion.html
+++ b/docs/contributors/conversion.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Conversion Phase &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Conversion Phase &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/contributors/dynamo_converters.html b/docs/contributors/dynamo_converters.html
index 55f9686749..bbd1ce46eb 100644
--- a/docs/contributors/dynamo_converters.html
+++ b/docs/contributors/dynamo_converters.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Writing Dynamo Converters &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Writing Dynamo Converters &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/contributors/lowering.html b/docs/contributors/lowering.html
index 76d2a22dc7..a5bd7f4b60 100644
--- a/docs/contributors/lowering.html
+++ b/docs/contributors/lowering.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Lowering Phase &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Lowering Phase &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/contributors/partitioning.html b/docs/contributors/partitioning.html
index a06f2621ad..a23c3419ad 100644
--- a/docs/contributors/partitioning.html
+++ b/docs/contributors/partitioning.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Partitioning Phase &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Partitioning Phase &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/contributors/phases.html b/docs/contributors/phases.html
index 9bf25a6e07..9ab6e44afe 100644
--- a/docs/contributors/phases.html
+++ b/docs/contributors/phases.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Compiler Phases &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Compiler Phases &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -273,7 +273,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -314,6 +314,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -339,7 +342,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/contributors/runtime.html b/docs/contributors/runtime.html
index 861ff004c3..3e500669a5 100644
--- a/docs/contributors/runtime.html
+++ b/docs/contributors/runtime.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Runtime Phase &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Runtime Phase &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/contributors/system_overview.html b/docs/contributors/system_overview.html
index 97fa2c3423..dd53036784 100644
--- a/docs/contributors/system_overview.html
+++ b/docs/contributors/system_overview.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>System Overview &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>System Overview &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/contributors/ts_converters.html b/docs/contributors/ts_converters.html
index 69ddafa051..60b38cd7d1 100644
--- a/docs/contributors/ts_converters.html
+++ b/docs/contributors/ts_converters.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Writing TorchScript Converters &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Writing TorchScript Converters &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/contributors/useful_links.html b/docs/contributors/useful_links.html
index 9fba4ea080..1bcdb512e3 100644
--- a/docs/contributors/useful_links.html
+++ b/docs/contributors/useful_links.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Useful Links for Torch-TensorRT Development &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Useful Links for Torch-TensorRT Development &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/contributors/writing_dynamo_aten_lowering_passes.html b/docs/contributors/writing_dynamo_aten_lowering_passes.html
index a4342f98de..f57921e28a 100644
--- a/docs/contributors/writing_dynamo_aten_lowering_passes.html
+++ b/docs/contributors/writing_dynamo_aten_lowering_passes.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Writing Dynamo ATen Lowering Passes &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Writing Dynamo ATen Lowering Passes &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/dynamo/dynamo_export.html b/docs/dynamo/dynamo_export.html
index f2e80b40f3..a6cf0086c7 100644
--- a/docs/dynamo/dynamo_export.html
+++ b/docs/dynamo/dynamo_export.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Compiling Exported Programs with Torch-TensorRT &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Compiling Exported Programs with Torch-TensorRT &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul class="current">
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/dynamo/torch_compile.html b/docs/dynamo/torch_compile.html
index a0531ea32e..f378c18a1d 100644
--- a/docs/dynamo/torch_compile.html
+++ b/docs/dynamo/torch_compile.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>TensorRT Backend for torch.compile &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>TensorRT Backend for torch.compile &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -40,7 +40,7 @@
     <link rel="index" title="Index" href="../genindex.html" />
     <link rel="search" title="Search" href="../search.html" />
     <link rel="next" title="Compiling Exported Programs with Torch-TensorRT" href="dynamo_export.html" />
-    <link rel="prev" title="Torch Compile Advanced Usage" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html" />
+    <link rel="prev" title="Refitting Torch-TensorRT Programs with New Weights" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html" />
   <!-- Google Tag Manager -->
     <script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({'gtm.start':
     new Date().getTime(),event:'gtm.js'});var f=d.getElementsByTagName(s)[0],
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul class="current">
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
@@ -476,7 +478,7 @@ <h2>Key Features<a class="headerlink" href="#key-features" title="Permalink to t
 <h2>Customizable Settings<a class="headerlink" href="#customizable-settings" title="Permalink to this heading">¶</a></h2>
 <dl class="py class">
 <dt class="sig sig-object py" id="torch_tensorrt.dynamo.CompilationSettings">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">torch_tensorrt.dynamo.</span></span><span class="sig-name descname"><span class="pre">CompilationSettings</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="pre">enabled_precisions:</span> <span class="pre">~typing.Set[~torch_tensorrt._enums.dtype]</span> <span class="pre">=</span> <span class="pre">&lt;factory&gt;,</span> <span class="pre">debug:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">workspace_size:</span> <span class="pre">int</span> <span class="pre">=</span> <span class="pre">0,</span> <span class="pre">min_block_size:</span> <span class="pre">int</span> <span class="pre">=</span> <span class="pre">5,</span> <span class="pre">torch_executed_ops:</span> <span class="pre">~typing.Collection[~typing.Union[~typing.Callable[[...],</span> <span class="pre">~typing.Any],</span> <span class="pre">str]]</span> <span class="pre">=</span> <span class="pre">&lt;factory&gt;,</span> <span class="pre">pass_through_build_failures:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">max_aux_streams:</span> <span class="pre">~typing.Optional[int]</span> <span class="pre">=</span> <span class="pre">None,</span> <span class="pre">version_compatible:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">optimization_level:</span> <span class="pre">~typing.Optional[int]</span> <span class="pre">=</span> <span class="pre">None,</span> <span class="pre">use_python_runtime:</span> <span class="pre">~typing.Optional[bool]</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">truncate_double:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">use_fast_partitioner:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">True,</span> <span class="pre">enable_experimental_decompositions:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">device:</span> <span class="pre">~torch_tensorrt._Device.Device</span> <span class="pre">=</span> <span class="pre">&lt;factory&gt;,</span> <span class="pre">require_full_compilation:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">disable_tf32:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">assume_dynamic_shape_support:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">sparse_weights:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">make_refitable:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">engine_capability:</span> <span class="pre">~torch_tensorrt._enums.EngineCapability</span> <span class="pre">=</span> <span class="pre">&lt;factory&gt;,</span> <span class="pre">num_avg_timing_iters:</span> <span class="pre">int</span> <span class="pre">=</span> <span class="pre">1,</span> <span class="pre">dla_sram_size:</span> <span class="pre">int</span> <span class="pre">=</span> <span class="pre">1048576,</span> <span class="pre">dla_local_dram_size:</span> <span class="pre">int</span> <span class="pre">=</span> <span class="pre">1073741824,</span> <span class="pre">dla_global_dram_size:</span> <span class="pre">int</span> <span class="pre">=</span> <span class="pre">536870912,</span> <span class="pre">dryrun:</span> <span class="pre">~typing.Union[bool,</span> <span class="pre">str]</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">hardware_compatible:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">timing_cache_path:</span> <span class="pre">str</span> <span class="pre">=</span> <span class="pre">'/tmp/timing_cache.bin',</span> <span class="pre">lazy_engine_init:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False</span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/torch_tensorrt/dynamo/_settings.html#CompilationSettings"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#torch_tensorrt.dynamo.CompilationSettings" title="Permalink to this definition">¶</a></dt>
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">torch_tensorrt.dynamo.</span></span><span class="sig-name descname"><span class="pre">CompilationSettings</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="pre">enabled_precisions:</span> <span class="pre">~typing.Set[~torch_tensorrt._enums.dtype]</span> <span class="pre">=</span> <span class="pre">&lt;factory&gt;,</span> <span class="pre">debug:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">workspace_size:</span> <span class="pre">int</span> <span class="pre">=</span> <span class="pre">0,</span> <span class="pre">min_block_size:</span> <span class="pre">int</span> <span class="pre">=</span> <span class="pre">5,</span> <span class="pre">torch_executed_ops:</span> <span class="pre">~typing.Collection[~typing.Union[~typing.Callable[[...],</span> <span class="pre">~typing.Any],</span> <span class="pre">str]]</span> <span class="pre">=</span> <span class="pre">&lt;factory&gt;,</span> <span class="pre">pass_through_build_failures:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">max_aux_streams:</span> <span class="pre">~typing.Optional[int]</span> <span class="pre">=</span> <span class="pre">None,</span> <span class="pre">version_compatible:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">optimization_level:</span> <span class="pre">~typing.Optional[int]</span> <span class="pre">=</span> <span class="pre">None,</span> <span class="pre">use_python_runtime:</span> <span class="pre">~typing.Optional[bool]</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">truncate_double:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">use_fast_partitioner:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">True,</span> <span class="pre">enable_experimental_decompositions:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">device:</span> <span class="pre">~torch_tensorrt._Device.Device</span> <span class="pre">=</span> <span class="pre">&lt;factory&gt;,</span> <span class="pre">require_full_compilation:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">disable_tf32:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">assume_dynamic_shape_support:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">sparse_weights:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">make_refitable:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">engine_capability:</span> <span class="pre">~torch_tensorrt._enums.EngineCapability</span> <span class="pre">=</span> <span class="pre">&lt;factory&gt;,</span> <span class="pre">num_avg_timing_iters:</span> <span class="pre">int</span> <span class="pre">=</span> <span class="pre">1,</span> <span class="pre">dla_sram_size:</span> <span class="pre">int</span> <span class="pre">=</span> <span class="pre">1048576,</span> <span class="pre">dla_local_dram_size:</span> <span class="pre">int</span> <span class="pre">=</span> <span class="pre">1073741824,</span> <span class="pre">dla_global_dram_size:</span> <span class="pre">int</span> <span class="pre">=</span> <span class="pre">536870912,</span> <span class="pre">dryrun:</span> <span class="pre">~typing.Union[bool,</span> <span class="pre">str]</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">hardware_compatible:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">timing_cache_path:</span> <span class="pre">str</span> <span class="pre">=</span> <span class="pre">'/tmp/torch_tensorrt_engine_cache/timing_cache.bin',</span> <span class="pre">lazy_engine_init:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">cache_built_engines:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">True,</span> <span class="pre">reuse_cached_engines:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">True</span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/torch_tensorrt/dynamo/_settings.html#CompilationSettings"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#torch_tensorrt.dynamo.CompilationSettings" title="Permalink to this definition">¶</a></dt>
 <dd><p>Compilation settings for Torch-TensorRT Dynamo Paths</p>
 <dl class="field-list simple">
 <dt class="field-odd">Parameters</dt>
@@ -515,6 +517,8 @@ <h2>Customizable Settings<a class="headerlink" href="#customizable-settings" tit
 output to a file if a string path is specified</p></li>
 <li><p><strong>hardware_compatible</strong> (<em>bool</em>) – Build the TensorRT engines compatible with GPU architectures other than that of the GPU on which the engine was built (currently works for NVIDIA Ampere and newer)</p></li>
 <li><p><strong>timing_cache_path</strong> (<em>str</em>) – Path to the timing cache if it exists (or) where it will be saved after compilation</p></li>
+<li><p><strong>cache_built_engines</strong> (<em>bool</em>) – Whether to save the compiled TRT engines to storage</p></li>
+<li><p><strong>reuse_cached_engines</strong> (<em>bool</em>) – Whether to load the compiled TRT engines from storage</p></li>
 </ul>
 </dd>
 </dl>
@@ -608,7 +612,7 @@ <h2>Recompilation Conditions<a class="headerlink" href="#recompilation-condition
         <a href="dynamo_export.html" class="btn btn-neutral float-right" title="Compiling Exported Programs with Torch-TensorRT" accesskey="n" rel="next">Next <img src="../_static/images/chevron-right-orange.svg" class="next-page"></a>
       
       
-        <a href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html" class="btn btn-neutral" title="Torch Compile Advanced Usage" accesskey="p" rel="prev"><img src="../_static/images/chevron-right-orange.svg" class="previous-page"> Previous</a>
+        <a href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html" class="btn btn-neutral" title="Refitting Torch-TensorRT Programs with New Weights" accesskey="p" rel="prev"><img src="../_static/images/chevron-right-orange.svg" class="previous-page"> Previous</a>
       
     </div>
   
diff --git a/docs/fx/getting_started_with_fx_path.html b/docs/fx/getting_started_with_fx_path.html
index 73ef8bda1c..2d5138e628 100644
--- a/docs/fx/getting_started_with_fx_path.html
+++ b/docs/fx/getting_started_with_fx_path.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Torch-TensorRT (FX Frontend) User Guide &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Torch-TensorRT (FX Frontend) User Guide &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/genindex.html b/docs/genindex.html
index 761380b6d0..046b5950c9 100644
--- a/docs/genindex.html
+++ b/docs/genindex.html
@@ -9,7 +9,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Index &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Index &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -272,7 +272,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -313,6 +313,9 @@
 <li class="toctree-l1"><a class="reference internal" href="user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -338,7 +341,6 @@
 <li class="toctree-l1"><a class="reference internal" href="tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/getting_started/installation.html b/docs/getting_started/installation.html
index caeb13cd95..cccc499826 100644
--- a/docs/getting_started/installation.html
+++ b/docs/getting_started/installation.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Installation &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Installation &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/getting_started/quick_start.html b/docs/getting_started/quick_start.html
index 22a5e931c1..f9c498f6bc 100644
--- a/docs/getting_started/quick_start.html
+++ b/docs/getting_started/quick_start.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Quick Start &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Quick Start &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/index.html b/docs/index.html
index 4033294e2b..5c7f1983df 100644
--- a/docs/index.html
+++ b/docs/index.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Torch-TensorRT &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Torch-TensorRT &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -274,7 +274,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -315,6 +315,9 @@
 <li class="toctree-l1"><a class="reference internal" href="user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -340,7 +343,6 @@
 <li class="toctree-l1"><a class="reference internal" href="tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/indices/supported_ops.html b/docs/indices/supported_ops.html
index 7c94682185..ccbeebb6af 100644
--- a/docs/indices/supported_ops.html
+++ b/docs/indices/supported_ops.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Operators Supported &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Operators Supported &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -274,7 +274,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -315,6 +315,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -340,7 +343,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/objects.inv b/docs/objects.inv
index 6bb96dfe8d..4d29df817b 100644
Binary files a/docs/objects.inv and b/docs/objects.inv differ
diff --git a/docs/py-modindex.html b/docs/py-modindex.html
index e247e400c2..8e212e6470 100644
--- a/docs/py-modindex.html
+++ b/docs/py-modindex.html
@@ -9,7 +9,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Python Module Index &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Python Module Index &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/py_api/dynamo.html b/docs/py_api/dynamo.html
index e06e2146e9..833d4d2462 100644
--- a/docs/py_api/dynamo.html
+++ b/docs/py_api/dynamo.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>torch_tensorrt.dynamo &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>torch_tensorrt.dynamo &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
@@ -463,7 +465,7 @@
 <h2>Functions<a class="headerlink" href="#functions" title="Permalink to this heading">¶</a></h2>
 <dl class="py function">
 <dt class="sig sig-object py" id="torch_tensorrt.dynamo.compile">
-<span class="sig-prename descclassname"><span class="pre">torch_tensorrt.dynamo.</span></span><span class="sig-name descname"><span class="pre">compile</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">exported_program</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ExportedProgram</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">inputs</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">Sequence</span><span class="p"><span class="pre">[</span></span><span class="pre">Sequence</span><span class="p"><span class="pre">[</span></span><span class="pre">Any</span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">arg_inputs</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">Sequence</span><span class="p"><span class="pre">[</span></span><span class="pre">Sequence</span><span class="p"><span class="pre">[</span></span><span class="pre">Any</span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">kwarg_inputs</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">dict</span><span class="p"><span class="pre">[</span></span><span class="pre">Any</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Any</span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">device</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">Union</span><span class="p"><span class="pre">[</span></span><a class="reference internal" href="torch_tensorrt.html#torch_tensorrt.Device" title="torch_tensorrt._Device.Device"><span class="pre">Device</span></a><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">device</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">disable_tf32</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">assume_dynamic_shape_support</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sparse_weights</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enabled_precisions</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Union</span><span class="p"><span class="pre">[</span></span><span class="pre">Set</span><span class="p"><span class="pre">[</span></span><span class="pre">Union</span><span class="p"><span class="pre">[</span></span><span class="pre">dtype</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><a class="reference internal" href="torch_tensorrt.html#torch_tensorrt.dtype" title="torch_tensorrt._enums.dtype"><span class="pre">dtype</span></a><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">Union</span><span class="p"><span class="pre">[</span></span><span class="pre">dtype</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><a class="reference internal" href="torch_tensorrt.html#torch_tensorrt.dtype" title="torch_tensorrt._enums.dtype"><span class="pre">dtype</span></a><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{dtype.f32}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">engine_capability</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference internal" href="torch_tensorrt.html#torch_tensorrt.EngineCapability" title="torch_tensorrt._enums.EngineCapability"><span class="pre">EngineCapability</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">EngineCapability.STANDARD</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">make_refitable</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">debug</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_avg_timing_iters</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">workspace_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_sram_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1048576</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_local_dram_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1073741824</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_global_dram_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">536870912</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">truncate_double</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">require_full_compilation</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_block_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">torch_executed_ops</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">Collection</span><span class="p"><span class="pre">[</span></span><span class="pre">Union</span><span class="p"><span class="pre">[</span></span><span class="pre">Callable</span><span class="p"><span class="pre">[</span></span><span class="p"><span class="pre">[</span></span><span class="p"><span class="pre">...</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Any</span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">torch_executed_modules</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">pass_through_build_failures</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_aux_streams</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">version_compatible</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">optimization_level</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_python_runtime</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_fast_partitioner</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_experimental_decompositions</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dryrun</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">hardware_compatible</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">timing_cache_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'/tmp/timing_cache.bin'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lazy_engine_init</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Any</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">GraphModule</span></span></span><a class="reference internal" href="../_modules/torch_tensorrt/dynamo/_compiler.html#compile"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#torch_tensorrt.dynamo.compile" title="Permalink to this definition">¶</a></dt>
+<span class="sig-prename descclassname"><span class="pre">torch_tensorrt.dynamo.</span></span><span class="sig-name descname"><span class="pre">compile</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">exported_program</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ExportedProgram</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">inputs</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">Sequence</span><span class="p"><span class="pre">[</span></span><span class="pre">Sequence</span><span class="p"><span class="pre">[</span></span><span class="pre">Any</span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">arg_inputs</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">Sequence</span><span class="p"><span class="pre">[</span></span><span class="pre">Sequence</span><span class="p"><span class="pre">[</span></span><span class="pre">Any</span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">kwarg_inputs</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">dict</span><span class="p"><span class="pre">[</span></span><span class="pre">Any</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Any</span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">device</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">Union</span><span class="p"><span class="pre">[</span></span><a class="reference internal" href="torch_tensorrt.html#torch_tensorrt.Device" title="torch_tensorrt._Device.Device"><span class="pre">Device</span></a><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">device</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">disable_tf32</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">assume_dynamic_shape_support</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sparse_weights</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enabled_precisions</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Union</span><span class="p"><span class="pre">[</span></span><span class="pre">Set</span><span class="p"><span class="pre">[</span></span><span class="pre">Union</span><span class="p"><span class="pre">[</span></span><span class="pre">dtype</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><a class="reference internal" href="torch_tensorrt.html#torch_tensorrt.dtype" title="torch_tensorrt._enums.dtype"><span class="pre">dtype</span></a><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">Union</span><span class="p"><span class="pre">[</span></span><span class="pre">dtype</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><a class="reference internal" href="torch_tensorrt.html#torch_tensorrt.dtype" title="torch_tensorrt._enums.dtype"><span class="pre">dtype</span></a><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{dtype.f32}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">engine_capability</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference internal" href="torch_tensorrt.html#torch_tensorrt.EngineCapability" title="torch_tensorrt._enums.EngineCapability"><span class="pre">EngineCapability</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">EngineCapability.STANDARD</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">make_refitable</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">debug</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_avg_timing_iters</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">workspace_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_sram_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1048576</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_local_dram_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1073741824</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_global_dram_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">536870912</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">truncate_double</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">require_full_compilation</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_block_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">torch_executed_ops</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">Collection</span><span class="p"><span class="pre">[</span></span><span class="pre">Union</span><span class="p"><span class="pre">[</span></span><span class="pre">Callable</span><span class="p"><span class="pre">[</span></span><span class="p"><span class="pre">[</span></span><span class="p"><span class="pre">...</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Any</span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">torch_executed_modules</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">pass_through_build_failures</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_aux_streams</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">version_compatible</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">optimization_level</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_python_runtime</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_fast_partitioner</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_experimental_decompositions</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dryrun</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">hardware_compatible</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">timing_cache_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'/tmp/torch_tensorrt_engine_cache/timing_cache.bin'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lazy_engine_init</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">cache_built_engines</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reuse_cached_engines</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">engine_cache_dir</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'/tmp/torch_tensorrt_engine_cache'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">engine_cache_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1073741824</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">custom_engine_cache</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">BaseEngineCache</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Any</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">GraphModule</span></span></span><a class="reference internal" href="../_modules/torch_tensorrt/dynamo/_compiler.html#compile"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#torch_tensorrt.dynamo.compile" title="Permalink to this definition">¶</a></dt>
 <dd><p>Compile an ExportedProgram module for NVIDIA GPUs using TensorRT</p>
 <p>Takes a existing TorchScript module and a set of settings to configure the compiler
 and will convert methods to JIT Graphs which call equivalent TensorRT engines</p>
@@ -531,6 +533,11 @@ <h2>Functions<a class="headerlink" href="#functions" title="Permalink to this he
 <li><p><strong>hardware_compatible</strong> (<em>bool</em>) – Build the TensorRT engines compatible with GPU architectures other than that of the GPU on which the engine was built (currently works for NVIDIA Ampere and newer)</p></li>
 <li><p><strong>timing_cache_path</strong> (<em>str</em>) – Path to the timing cache if it exists (or) where it will be saved after compilation</p></li>
 <li><p><strong>lazy_engine_init</strong> (<em>bool</em>) – Defer setting up engines until the compilation of all engines is complete. Can allow larger models with multiple graph breaks to compile but can lead to oversubscription of GPU memory at runtime.</p></li>
+<li><p><strong>cache_built_engines</strong> (<em>bool</em>) – Whether to save the compiled TRT engines to storage</p></li>
+<li><p><strong>reuse_cached_engines</strong> (<em>bool</em>) – Whether to load the compiled TRT engines from storage</p></li>
+<li><p><strong>engine_cache_dir</strong> (<em>Optional</em><em>[</em><em>str</em><em>]</em>) – Directory to store the cached TRT engines</p></li>
+<li><p><strong>engine_cache_size</strong> (<em>Optional</em><em>[</em><em>python:int</em><em>]</em>) – Maximum hard-disk space (bytes) to use for the engine cache, default is 1GB. If the cache exceeds this size, the oldest engines will be removed by default</p></li>
+<li><p><strong>custom_engine_cache</strong> (<em>Optional</em><em>[</em><em>BaseEngineCache</em><em>]</em>) – Engine cache instance to use for saving and loading engines. Users can provide their own engine cache by inheriting from BaseEngineCache. If used, engine_cache_dir and engine_cache_size will be ignored.</p></li>
 <li><p><strong>**kwargs</strong> – Any,</p></li>
 </ul>
 </dd>
@@ -636,7 +643,7 @@ <h2>Functions<a class="headerlink" href="#functions" title="Permalink to this he
 <h2>Classes<a class="headerlink" href="#classes" title="Permalink to this heading">¶</a></h2>
 <dl class="py class">
 <dt class="sig sig-object py" id="torch_tensorrt.dynamo.CompilationSettings">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">torch_tensorrt.dynamo.</span></span><span class="sig-name descname"><span class="pre">CompilationSettings</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="pre">enabled_precisions:</span> <span class="pre">~typing.Set[~torch_tensorrt._enums.dtype]</span> <span class="pre">=</span> <span class="pre">&lt;factory&gt;,</span> <span class="pre">debug:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">workspace_size:</span> <span class="pre">int</span> <span class="pre">=</span> <span class="pre">0,</span> <span class="pre">min_block_size:</span> <span class="pre">int</span> <span class="pre">=</span> <span class="pre">5,</span> <span class="pre">torch_executed_ops:</span> <span class="pre">~typing.Collection[~typing.Union[~typing.Callable[[...],</span> <span class="pre">~typing.Any],</span> <span class="pre">str]]</span> <span class="pre">=</span> <span class="pre">&lt;factory&gt;,</span> <span class="pre">pass_through_build_failures:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">max_aux_streams:</span> <span class="pre">~typing.Optional[int]</span> <span class="pre">=</span> <span class="pre">None,</span> <span class="pre">version_compatible:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">optimization_level:</span> <span class="pre">~typing.Optional[int]</span> <span class="pre">=</span> <span class="pre">None,</span> <span class="pre">use_python_runtime:</span> <span class="pre">~typing.Optional[bool]</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">truncate_double:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">use_fast_partitioner:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">True,</span> <span class="pre">enable_experimental_decompositions:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">device:</span> <span class="pre">~torch_tensorrt._Device.Device</span> <span class="pre">=</span> <span class="pre">&lt;factory&gt;,</span> <span class="pre">require_full_compilation:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">disable_tf32:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">assume_dynamic_shape_support:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">sparse_weights:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">make_refitable:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">engine_capability:</span> <span class="pre">~torch_tensorrt._enums.EngineCapability</span> <span class="pre">=</span> <span class="pre">&lt;factory&gt;,</span> <span class="pre">num_avg_timing_iters:</span> <span class="pre">int</span> <span class="pre">=</span> <span class="pre">1,</span> <span class="pre">dla_sram_size:</span> <span class="pre">int</span> <span class="pre">=</span> <span class="pre">1048576,</span> <span class="pre">dla_local_dram_size:</span> <span class="pre">int</span> <span class="pre">=</span> <span class="pre">1073741824,</span> <span class="pre">dla_global_dram_size:</span> <span class="pre">int</span> <span class="pre">=</span> <span class="pre">536870912,</span> <span class="pre">dryrun:</span> <span class="pre">~typing.Union[bool,</span> <span class="pre">str]</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">hardware_compatible:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">timing_cache_path:</span> <span class="pre">str</span> <span class="pre">=</span> <span class="pre">'/tmp/timing_cache.bin',</span> <span class="pre">lazy_engine_init:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False</span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/torch_tensorrt/dynamo/_settings.html#CompilationSettings"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#torch_tensorrt.dynamo.CompilationSettings" title="Permalink to this definition">¶</a></dt>
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">torch_tensorrt.dynamo.</span></span><span class="sig-name descname"><span class="pre">CompilationSettings</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="pre">enabled_precisions:</span> <span class="pre">~typing.Set[~torch_tensorrt._enums.dtype]</span> <span class="pre">=</span> <span class="pre">&lt;factory&gt;,</span> <span class="pre">debug:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">workspace_size:</span> <span class="pre">int</span> <span class="pre">=</span> <span class="pre">0,</span> <span class="pre">min_block_size:</span> <span class="pre">int</span> <span class="pre">=</span> <span class="pre">5,</span> <span class="pre">torch_executed_ops:</span> <span class="pre">~typing.Collection[~typing.Union[~typing.Callable[[...],</span> <span class="pre">~typing.Any],</span> <span class="pre">str]]</span> <span class="pre">=</span> <span class="pre">&lt;factory&gt;,</span> <span class="pre">pass_through_build_failures:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">max_aux_streams:</span> <span class="pre">~typing.Optional[int]</span> <span class="pre">=</span> <span class="pre">None,</span> <span class="pre">version_compatible:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">optimization_level:</span> <span class="pre">~typing.Optional[int]</span> <span class="pre">=</span> <span class="pre">None,</span> <span class="pre">use_python_runtime:</span> <span class="pre">~typing.Optional[bool]</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">truncate_double:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">use_fast_partitioner:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">True,</span> <span class="pre">enable_experimental_decompositions:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">device:</span> <span class="pre">~torch_tensorrt._Device.Device</span> <span class="pre">=</span> <span class="pre">&lt;factory&gt;,</span> <span class="pre">require_full_compilation:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">disable_tf32:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">assume_dynamic_shape_support:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">sparse_weights:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">make_refitable:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">engine_capability:</span> <span class="pre">~torch_tensorrt._enums.EngineCapability</span> <span class="pre">=</span> <span class="pre">&lt;factory&gt;,</span> <span class="pre">num_avg_timing_iters:</span> <span class="pre">int</span> <span class="pre">=</span> <span class="pre">1,</span> <span class="pre">dla_sram_size:</span> <span class="pre">int</span> <span class="pre">=</span> <span class="pre">1048576,</span> <span class="pre">dla_local_dram_size:</span> <span class="pre">int</span> <span class="pre">=</span> <span class="pre">1073741824,</span> <span class="pre">dla_global_dram_size:</span> <span class="pre">int</span> <span class="pre">=</span> <span class="pre">536870912,</span> <span class="pre">dryrun:</span> <span class="pre">~typing.Union[bool,</span> <span class="pre">str]</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">hardware_compatible:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">timing_cache_path:</span> <span class="pre">str</span> <span class="pre">=</span> <span class="pre">'/tmp/torch_tensorrt_engine_cache/timing_cache.bin',</span> <span class="pre">lazy_engine_init:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">False,</span> <span class="pre">cache_built_engines:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">True,</span> <span class="pre">reuse_cached_engines:</span> <span class="pre">bool</span> <span class="pre">=</span> <span class="pre">True</span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/torch_tensorrt/dynamo/_settings.html#CompilationSettings"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#torch_tensorrt.dynamo.CompilationSettings" title="Permalink to this definition">¶</a></dt>
 <dd><p>Compilation settings for Torch-TensorRT Dynamo Paths</p>
 <dl class="field-list simple">
 <dt class="field-odd">Parameters</dt>
@@ -675,6 +682,8 @@ <h2>Classes<a class="headerlink" href="#classes" title="Permalink to this headin
 output to a file if a string path is specified</p></li>
 <li><p><strong>hardware_compatible</strong> (<em>bool</em>) – Build the TensorRT engines compatible with GPU architectures other than that of the GPU on which the engine was built (currently works for NVIDIA Ampere and newer)</p></li>
 <li><p><strong>timing_cache_path</strong> (<em>str</em>) – Path to the timing cache if it exists (or) where it will be saved after compilation</p></li>
+<li><p><strong>cache_built_engines</strong> (<em>bool</em>) – Whether to save the compiled TRT engines to storage</p></li>
+<li><p><strong>reuse_cached_engines</strong> (<em>bool</em>) – Whether to load the compiled TRT engines from storage</p></li>
 </ul>
 </dd>
 </dl>
diff --git a/docs/py_api/fx.html b/docs/py_api/fx.html
index 03dd1fead1..0d3fbeb8d0 100644
--- a/docs/py_api/fx.html
+++ b/docs/py_api/fx.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>torch_tensorrt.fx &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>torch_tensorrt.fx &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/py_api/logging.html b/docs/py_api/logging.html
index fe87de4be4..783fd8871d 100644
--- a/docs/py_api/logging.html
+++ b/docs/py_api/logging.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>torch_tensorrt.logging &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>torch_tensorrt.logging &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/py_api/ptq.html b/docs/py_api/ptq.html
index 4793e47175..2353ec0ee7 100644
--- a/docs/py_api/ptq.html
+++ b/docs/py_api/ptq.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>torch_tensorrt.ts.ptq &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>torch_tensorrt.ts.ptq &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/py_api/runtime.html b/docs/py_api/runtime.html
index 6cc0f0e143..c17c6893a2 100644
--- a/docs/py_api/runtime.html
+++ b/docs/py_api/runtime.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>torch_tensorrt.runtime &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>torch_tensorrt.runtime &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
@@ -565,13 +567,13 @@ <h2>Classes<a class="headerlink" href="#classes" title="Permalink to this headin
 
 <dl class="py class">
 <dt class="sig sig-object py" id="torch_tensorrt.runtime.PythonTorchTensorRTModule">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">torch_tensorrt.runtime.</span></span><span class="sig-name descname"><span class="pre">PythonTorchTensorRTModule</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">serialized_engine:</span> <span class="pre">~typing.Optional[bytes]</span> <span class="pre">=</span> <span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_binding_names:</span> <span class="pre">~typing.Optional[~typing.List[str]]</span> <span class="pre">=</span> <span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_binding_names:</span> <span class="pre">~typing.Optional[~typing.List[str]]</span> <span class="pre">=</span> <span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">name:</span> <span class="pre">str</span> <span class="pre">=</span> <span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">settings:</span> <span class="pre">~torch_tensorrt.dynamo._settings.CompilationSettings</span> <span class="pre">=</span> <span class="pre">CompilationSettings(enabled_precisions={&lt;dtype.f32:</span> <span class="pre">7&gt;}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">debug=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">workspace_size=0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_block_size=5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">torch_executed_ops=set()</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">pass_through_build_failures=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_aux_streams=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">version_compatible=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">optimization_level=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_python_runtime=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">truncate_double=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_fast_partitioner=True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_experimental_decompositions=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">device=Device(type=DeviceType.GPU</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">gpu_id=0)</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">require_full_compilation=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">disable_tf32=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">assume_dynamic_shape_support=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sparse_weights=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">make_refitable=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">engine_capability=&lt;EngineCapability.STANDARD:</span> <span class="pre">1&gt;</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_avg_timing_iters=1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_sram_size=1048576</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_local_dram_size=1073741824</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_global_dram_size=536870912</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dryrun=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">hardware_compatible=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">timing_cache_path='/tmp/timing_cache.bin'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lazy_engine_init=False)</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">weight_name_map:</span> <span class="pre">~typing.Any</span> <span class="pre">=</span> <span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/torch_tensorrt/dynamo/runtime/_PythonTorchTensorRTModule.html#PythonTorchTensorRTModule"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#torch_tensorrt.runtime.PythonTorchTensorRTModule" title="Permalink to this definition">¶</a></dt>
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">torch_tensorrt.runtime.</span></span><span class="sig-name descname"><span class="pre">PythonTorchTensorRTModule</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">serialized_engine:</span> <span class="pre">~typing.Optional[bytes]</span> <span class="pre">=</span> <span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_binding_names:</span> <span class="pre">~typing.Optional[~typing.List[str]]</span> <span class="pre">=</span> <span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_binding_names:</span> <span class="pre">~typing.Optional[~typing.List[str]]</span> <span class="pre">=</span> <span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">name:</span> <span class="pre">str</span> <span class="pre">=</span> <span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">settings:</span> <span class="pre">~torch_tensorrt.dynamo._settings.CompilationSettings</span> <span class="pre">=</span> <span class="pre">CompilationSettings(enabled_precisions={&lt;dtype.f32:</span> <span class="pre">7&gt;}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">debug=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">workspace_size=0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_block_size=5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">torch_executed_ops=set()</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">pass_through_build_failures=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_aux_streams=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">version_compatible=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">optimization_level=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_python_runtime=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">truncate_double=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_fast_partitioner=True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_experimental_decompositions=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">device=Device(type=DeviceType.GPU</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">gpu_id=0)</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">require_full_compilation=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">disable_tf32=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">assume_dynamic_shape_support=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sparse_weights=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">make_refitable=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">engine_capability=&lt;EngineCapability.STANDARD:</span> <span class="pre">1&gt;</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_avg_timing_iters=1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_sram_size=1048576</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_local_dram_size=1073741824</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_global_dram_size=536870912</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dryrun=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">hardware_compatible=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">timing_cache_path='/tmp/torch_tensorrt_engine_cache/timing_cache.bin'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lazy_engine_init=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">cache_built_engines=True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reuse_cached_engines=True)</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">weight_name_map:</span> <span class="pre">~typing.Any</span> <span class="pre">=</span> <span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/torch_tensorrt/dynamo/runtime/_PythonTorchTensorRTModule.html#PythonTorchTensorRTModule"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#torch_tensorrt.runtime.PythonTorchTensorRTModule" title="Permalink to this definition">¶</a></dt>
 <dd><p>PythonTorchTensorRTModule is a PyTorch module which encompasses an arbitrary TensorRT Engine.</p>
 <p>This module is backed by the Torch-TensorRT runtime and is only compatible with
 FX / Dynamo / Python deployments. This module cannot be serialized to torchscript via torch.jit.trace for C++ deployment.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="torch_tensorrt.runtime.PythonTorchTensorRTModule.__init__">
-<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">serialized_engine:</span> <span class="pre">~typing.Optional[bytes]</span> <span class="pre">=</span> <span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_binding_names:</span> <span class="pre">~typing.Optional[~typing.List[str]]</span> <span class="pre">=</span> <span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_binding_names:</span> <span class="pre">~typing.Optional[~typing.List[str]]</span> <span class="pre">=</span> <span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">name:</span> <span class="pre">str</span> <span class="pre">=</span> <span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">settings:</span> <span class="pre">~torch_tensorrt.dynamo._settings.CompilationSettings</span> <span class="pre">=</span> <span class="pre">CompilationSettings(enabled_precisions={&lt;dtype.f32:</span> <span class="pre">7&gt;}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">debug=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">workspace_size=0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_block_size=5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">torch_executed_ops=set()</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">pass_through_build_failures=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_aux_streams=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">version_compatible=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">optimization_level=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_python_runtime=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">truncate_double=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_fast_partitioner=True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_experimental_decompositions=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">device=Device(type=DeviceType.GPU</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">gpu_id=0)</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">require_full_compilation=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">disable_tf32=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">assume_dynamic_shape_support=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sparse_weights=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">make_refitable=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">engine_capability=&lt;EngineCapability.STANDARD:</span> <span class="pre">1&gt;</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_avg_timing_iters=1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_sram_size=1048576</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_local_dram_size=1073741824</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_global_dram_size=536870912</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dryrun=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">hardware_compatible=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">timing_cache_path='/tmp/timing_cache.bin'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lazy_engine_init=False)</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">weight_name_map:</span> <span class="pre">~typing.Any</span> <span class="pre">=</span> <span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/torch_tensorrt/dynamo/runtime/_PythonTorchTensorRTModule.html#PythonTorchTensorRTModule.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#torch_tensorrt.runtime.PythonTorchTensorRTModule.__init__" title="Permalink to this definition">¶</a></dt>
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">serialized_engine:</span> <span class="pre">~typing.Optional[bytes]</span> <span class="pre">=</span> <span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_binding_names:</span> <span class="pre">~typing.Optional[~typing.List[str]]</span> <span class="pre">=</span> <span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_binding_names:</span> <span class="pre">~typing.Optional[~typing.List[str]]</span> <span class="pre">=</span> <span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">name:</span> <span class="pre">str</span> <span class="pre">=</span> <span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">settings:</span> <span class="pre">~torch_tensorrt.dynamo._settings.CompilationSettings</span> <span class="pre">=</span> <span class="pre">CompilationSettings(enabled_precisions={&lt;dtype.f32:</span> <span class="pre">7&gt;}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">debug=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">workspace_size=0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_block_size=5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">torch_executed_ops=set()</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">pass_through_build_failures=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_aux_streams=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">version_compatible=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">optimization_level=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_python_runtime=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">truncate_double=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_fast_partitioner=True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_experimental_decompositions=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">device=Device(type=DeviceType.GPU</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">gpu_id=0)</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">require_full_compilation=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">disable_tf32=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">assume_dynamic_shape_support=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sparse_weights=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">make_refitable=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">engine_capability=&lt;EngineCapability.STANDARD:</span> <span class="pre">1&gt;</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_avg_timing_iters=1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_sram_size=1048576</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_local_dram_size=1073741824</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_global_dram_size=536870912</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dryrun=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">hardware_compatible=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">timing_cache_path='/tmp/torch_tensorrt_engine_cache/timing_cache.bin'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lazy_engine_init=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">cache_built_engines=True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reuse_cached_engines=True)</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">weight_name_map:</span> <span class="pre">~typing.Any</span> <span class="pre">=</span> <span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/torch_tensorrt/dynamo/runtime/_PythonTorchTensorRTModule.html#PythonTorchTensorRTModule.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#torch_tensorrt.runtime.PythonTorchTensorRTModule.__init__" title="Permalink to this definition">¶</a></dt>
 <dd><p>Takes a name, target device, serialized TensorRT engine, and binding names / order and constructs
 a PyTorch <code class="docutils literal notranslate"><span class="pre">torch.nn.Module</span></code> around it. Uses TensorRT Python APIs to run the engine</p>
 <dl class="field-list simple">
diff --git a/docs/py_api/torch_tensorrt.html b/docs/py_api/torch_tensorrt.html
index 2573874a55..57cc479e11 100644
--- a/docs/py_api/torch_tensorrt.html
+++ b/docs/py_api/torch_tensorrt.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>torch_tensorrt &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>torch_tensorrt &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
@@ -589,7 +591,7 @@ <h2>Functions<a class="headerlink" href="#functions" title="Permalink to this he
 <h2>Classes<a class="headerlink" href="#classes" title="Permalink to this heading">¶</a></h2>
 <dl class="py class">
 <dt class="sig sig-object py" id="torch_tensorrt.MutableTorchTensorRTModule">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">torch_tensorrt.</span></span><span class="sig-name descname"><span class="pre">MutableTorchTensorRTModule</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pytorch_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Module</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">device</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">Union</span><span class="p"><span class="pre">[</span></span><a class="reference internal" href="#torch_tensorrt.Device" title="torch_tensorrt._Device.Device"><span class="pre">Device</span></a><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">device</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">disable_tf32</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">assume_dynamic_shape_support</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sparse_weights</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enabled_precisions</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Set</span><span class="p"><span class="pre">[</span></span><span class="pre">Union</span><span class="p"><span class="pre">[</span></span><span class="pre">dtype</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><a class="reference internal" href="#torch_tensorrt.dtype" title="torch_tensorrt._enums.dtype"><span class="pre">dtype</span></a><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{dtype.f32}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">engine_capability</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference internal" href="#torch_tensorrt.EngineCapability" title="torch_tensorrt._enums.EngineCapability"><span class="pre">EngineCapability</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">EngineCapability.STANDARD</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">make_refitable</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">debug</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_avg_timing_iters</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">workspace_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_sram_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1048576</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_local_dram_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1073741824</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_global_dram_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">536870912</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">truncate_double</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">require_full_compilation</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_block_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">torch_executed_ops</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">Collection</span><span class="p"><span class="pre">[</span></span><span class="pre">Union</span><span class="p"><span class="pre">[</span></span><span class="pre">Callable</span><span class="p"><span class="pre">[</span></span><span class="p"><span class="pre">[</span></span><span class="p"><span class="pre">...</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Any</span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">torch_executed_modules</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">pass_through_build_failures</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_aux_streams</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">version_compatible</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">optimization_level</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_python_runtime</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_fast_partitioner</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_experimental_decompositions</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dryrun</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">hardware_compatible</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">timing_cache_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'/tmp/timing_cache.bin'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Any</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/torch_tensorrt/dynamo/runtime/_MutableTorchTensorRTModule.html#MutableTorchTensorRTModule"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#torch_tensorrt.MutableTorchTensorRTModule" title="Permalink to this definition">¶</a></dt>
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">torch_tensorrt.</span></span><span class="sig-name descname"><span class="pre">MutableTorchTensorRTModule</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pytorch_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Module</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">device</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">Union</span><span class="p"><span class="pre">[</span></span><a class="reference internal" href="#torch_tensorrt.Device" title="torch_tensorrt._Device.Device"><span class="pre">Device</span></a><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">device</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">disable_tf32</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">assume_dynamic_shape_support</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sparse_weights</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enabled_precisions</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Set</span><span class="p"><span class="pre">[</span></span><span class="pre">Union</span><span class="p"><span class="pre">[</span></span><span class="pre">dtype</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><a class="reference internal" href="#torch_tensorrt.dtype" title="torch_tensorrt._enums.dtype"><span class="pre">dtype</span></a><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{dtype.f32}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">engine_capability</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference internal" href="#torch_tensorrt.EngineCapability" title="torch_tensorrt._enums.EngineCapability"><span class="pre">EngineCapability</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">EngineCapability.STANDARD</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">make_refitable</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">debug</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_avg_timing_iters</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">workspace_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_sram_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1048576</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_local_dram_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1073741824</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_global_dram_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">536870912</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">truncate_double</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">require_full_compilation</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_block_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">torch_executed_ops</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">Collection</span><span class="p"><span class="pre">[</span></span><span class="pre">Union</span><span class="p"><span class="pre">[</span></span><span class="pre">Callable</span><span class="p"><span class="pre">[</span></span><span class="p"><span class="pre">[</span></span><span class="p"><span class="pre">...</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Any</span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">torch_executed_modules</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">pass_through_build_failures</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_aux_streams</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">version_compatible</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">optimization_level</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_python_runtime</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_fast_partitioner</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_experimental_decompositions</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dryrun</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">hardware_compatible</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">timing_cache_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'/tmp/torch_tensorrt_engine_cache/timing_cache.bin'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Any</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/torch_tensorrt/dynamo/runtime/_MutableTorchTensorRTModule.html#MutableTorchTensorRTModule"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#torch_tensorrt.MutableTorchTensorRTModule" title="Permalink to this definition">¶</a></dt>
 <dd><p>Initialize a MutableTorchTensorRTModule to seamlessly manipulate it like a regular PyTorch module.
 All TensorRT compilation and refitting processes are handled automatically as you work with the module.
 Any changes to its attributes or loading a different state_dict will trigger refitting or recompilation,
@@ -599,7 +601,7 @@ <h2>Classes<a class="headerlink" href="#classes" title="Permalink to this headin
 Any modifications made to the MutableTorchTensorRTModule will be reflected in both the TensorRT graph module and the original PyTorch module.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="torch_tensorrt.MutableTorchTensorRTModule.__init__">
-<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pytorch_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Module</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">device</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">Union</span><span class="p"><span class="pre">[</span></span><a class="reference internal" href="#torch_tensorrt.Device" title="torch_tensorrt._Device.Device"><span class="pre">Device</span></a><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">device</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">disable_tf32</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">assume_dynamic_shape_support</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sparse_weights</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enabled_precisions</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Set</span><span class="p"><span class="pre">[</span></span><span class="pre">Union</span><span class="p"><span class="pre">[</span></span><span class="pre">dtype</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><a class="reference internal" href="#torch_tensorrt.dtype" title="torch_tensorrt._enums.dtype"><span class="pre">dtype</span></a><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{dtype.f32}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">engine_capability</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference internal" href="#torch_tensorrt.EngineCapability" title="torch_tensorrt._enums.EngineCapability"><span class="pre">EngineCapability</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">EngineCapability.STANDARD</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">make_refitable</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">debug</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_avg_timing_iters</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">workspace_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_sram_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1048576</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_local_dram_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1073741824</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_global_dram_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">536870912</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">truncate_double</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">require_full_compilation</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_block_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">torch_executed_ops</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">Collection</span><span class="p"><span class="pre">[</span></span><span class="pre">Union</span><span class="p"><span class="pre">[</span></span><span class="pre">Callable</span><span class="p"><span class="pre">[</span></span><span class="p"><span class="pre">[</span></span><span class="p"><span class="pre">...</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Any</span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">torch_executed_modules</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">pass_through_build_failures</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_aux_streams</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">version_compatible</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">optimization_level</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_python_runtime</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_fast_partitioner</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_experimental_decompositions</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dryrun</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">hardware_compatible</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">timing_cache_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'/tmp/timing_cache.bin'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Any</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">None</span></span></span><a class="reference internal" href="../_modules/torch_tensorrt/dynamo/runtime/_MutableTorchTensorRTModule.html#MutableTorchTensorRTModule.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#torch_tensorrt.MutableTorchTensorRTModule.__init__" title="Permalink to this definition">¶</a></dt>
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pytorch_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Module</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">device</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">Union</span><span class="p"><span class="pre">[</span></span><a class="reference internal" href="#torch_tensorrt.Device" title="torch_tensorrt._Device.Device"><span class="pre">Device</span></a><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">device</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">disable_tf32</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">assume_dynamic_shape_support</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sparse_weights</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enabled_precisions</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Set</span><span class="p"><span class="pre">[</span></span><span class="pre">Union</span><span class="p"><span class="pre">[</span></span><span class="pre">dtype</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><a class="reference internal" href="#torch_tensorrt.dtype" title="torch_tensorrt._enums.dtype"><span class="pre">dtype</span></a><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{dtype.f32}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">engine_capability</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference internal" href="#torch_tensorrt.EngineCapability" title="torch_tensorrt._enums.EngineCapability"><span class="pre">EngineCapability</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">EngineCapability.STANDARD</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">make_refitable</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">debug</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_avg_timing_iters</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">workspace_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_sram_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1048576</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_local_dram_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1073741824</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_global_dram_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">536870912</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">truncate_double</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">require_full_compilation</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_block_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">torch_executed_ops</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">Collection</span><span class="p"><span class="pre">[</span></span><span class="pre">Union</span><span class="p"><span class="pre">[</span></span><span class="pre">Callable</span><span class="p"><span class="pre">[</span></span><span class="p"><span class="pre">[</span></span><span class="p"><span class="pre">...</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Any</span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">torch_executed_modules</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">pass_through_build_failures</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_aux_streams</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">version_compatible</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">optimization_level</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_python_runtime</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_fast_partitioner</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_experimental_decompositions</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dryrun</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">hardware_compatible</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">timing_cache_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'/tmp/torch_tensorrt_engine_cache/timing_cache.bin'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Any</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">None</span></span></span><a class="reference internal" href="../_modules/torch_tensorrt/dynamo/runtime/_MutableTorchTensorRTModule.html#MutableTorchTensorRTModule.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#torch_tensorrt.MutableTorchTensorRTModule.__init__" title="Permalink to this definition">¶</a></dt>
 <dd><dl class="field-list simple">
 <dt class="field-odd">Parameters</dt>
 <dd class="field-odd"><p><strong>pytorch_model</strong> (<em>torch.nn.module</em>) – Source module that needs to be accelerated</p>
diff --git a/docs/py_api/ts.html b/docs/py_api/ts.html
index 69959b1dbc..358eed4dc4 100644
--- a/docs/py_api/ts.html
+++ b/docs/py_api/ts.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>torch_tensorrt.ts &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>torch_tensorrt.ts &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
@@ -679,7 +681,7 @@ <h2>Functions<a class="headerlink" href="#functions" title="Permalink to this he
 
 <dl class="py function">
 <dt class="sig sig-object py" id="torch_tensorrt.ts.TensorRTCompileSpec">
-<span class="sig-prename descclassname"><span class="pre">torch_tensorrt.ts.</span></span><span class="sig-name descname"><span class="pre">TensorRTCompileSpec</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">inputs</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">torch.Tensor</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference internal" href="torch_tensorrt.html#torch_tensorrt.Input" title="torch_tensorrt._Input.Input"><span class="pre">Input</span></a><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_signature</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">Any</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">device</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">torch.device</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference internal" href="torch_tensorrt.html#torch_tensorrt.Device" title="torch_tensorrt._Device.Device"><span class="pre">Device</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">Device(type=DeviceType.GPU,</span> <span class="pre">gpu_id=0)</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">disable_tf32</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sparse_weights</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enabled_precisions</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">Set</span><span class="p"><span class="pre">[</span></span><span class="pre">Union</span><span class="p"><span class="pre">[</span></span><span class="pre">dtype</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><a class="reference internal" href="torch_tensorrt.html#torch_tensorrt.dtype" title="torch_tensorrt._enums.dtype"><span class="pre">dtype</span></a><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">refit</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">debug</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">capability</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference internal" href="torch_tensorrt.html#torch_tensorrt.EngineCapability" title="torch_tensorrt._enums.EngineCapability"><span class="pre">EngineCapability</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">EngineCapability.STANDARD</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_avg_timing_iters</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">workspace_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_sram_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1048576</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_local_dram_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1073741824</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_global_dram_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">536870912</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">truncate_long_and_double</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">calibrator</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">object</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">allow_shape_tensors</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">&lt;torch.ScriptClass</span> <span class="pre">object</span> <span class="pre">at</span> <span class="pre">0x7f5aeb373330&gt;</span></span></span><a class="reference internal" href="../_modules/torch_tensorrt/ts/_compile_spec.html#TensorRTCompileSpec"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#torch_tensorrt.ts.TensorRTCompileSpec" title="Permalink to this definition">¶</a></dt>
+<span class="sig-prename descclassname"><span class="pre">torch_tensorrt.ts.</span></span><span class="sig-name descname"><span class="pre">TensorRTCompileSpec</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">inputs</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">torch.Tensor</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference internal" href="torch_tensorrt.html#torch_tensorrt.Input" title="torch_tensorrt._Input.Input"><span class="pre">Input</span></a><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_signature</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">Any</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">device</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">torch.device</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference internal" href="torch_tensorrt.html#torch_tensorrt.Device" title="torch_tensorrt._Device.Device"><span class="pre">Device</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">Device(type=DeviceType.GPU,</span> <span class="pre">gpu_id=0)</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">disable_tf32</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sparse_weights</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enabled_precisions</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Optional</span><span class="p"><span class="pre">[</span></span><span class="pre">Set</span><span class="p"><span class="pre">[</span></span><span class="pre">Union</span><span class="p"><span class="pre">[</span></span><span class="pre">dtype</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><a class="reference internal" href="torch_tensorrt.html#torch_tensorrt.dtype" title="torch_tensorrt._enums.dtype"><span class="pre">dtype</span></a><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">refit</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">debug</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">capability</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference internal" href="torch_tensorrt.html#torch_tensorrt.EngineCapability" title="torch_tensorrt._enums.EngineCapability"><span class="pre">EngineCapability</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">EngineCapability.STANDARD</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_avg_timing_iters</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">workspace_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_sram_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1048576</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_local_dram_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1073741824</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dla_global_dram_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">536870912</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">truncate_long_and_double</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">calibrator</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">object</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">allow_shape_tensors</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">&lt;torch.ScriptClass</span> <span class="pre">object</span> <span class="pre">at</span> <span class="pre">0x7fad0f3e7bf0&gt;</span></span></span><a class="reference internal" href="../_modules/torch_tensorrt/ts/_compile_spec.html#TensorRTCompileSpec"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#torch_tensorrt.ts.TensorRTCompileSpec" title="Permalink to this definition">¶</a></dt>
 <dd><p>Utility to create a formatted spec dictionary for using the PyTorch TensorRT backend</p>
 <dl class="field-list simple">
 <dt class="field-odd">Keyword Arguments</dt>
diff --git a/docs/search.html b/docs/search.html
index 2ee637b683..ce3a3704bf 100644
--- a/docs/search.html
+++ b/docs/search.html
@@ -9,7 +9,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Search &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Search &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -272,7 +272,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -313,6 +313,9 @@
 <li class="toctree-l1"><a class="reference internal" href="user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -338,7 +341,6 @@
 <li class="toctree-l1"><a class="reference internal" href="tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/searchindex.js b/docs/searchindex.js
index 8821a65e2f..f1b4178aa4 100644
--- a/docs/searchindex.js
+++ b/docs/searchindex.js
@@ -1 +1 @@
-Search.setIndex({"docnames": ["_cpp_api/classtorch__tensorrt_1_1DataType", "_cpp_api/classtorch__tensorrt_1_1Device_1_1DeviceType", "_cpp_api/classtorch__tensorrt_1_1TensorFormat", "_cpp_api/classtorch__tensorrt_1_1ptq_1_1Int8CacheCalibrator", "_cpp_api/classtorch__tensorrt_1_1ptq_1_1Int8Calibrator", "_cpp_api/define_macros_8h_1a18d295a837ac71add5578860b55e5502", "_cpp_api/define_macros_8h_1a282fd3c0b1c3a215148ae372070e1268", "_cpp_api/define_macros_8h_1a31398a6d4d27e28817afb0f0139e909e", "_cpp_api/define_macros_8h_1a35703561b26b1a9d2738ad7d58b27827", "_cpp_api/define_macros_8h_1abd1465eb38256d3f22cc1426b23d516b", "_cpp_api/define_macros_8h_1abe87b341f562fd1cf40b7672e4d759da", "_cpp_api/define_macros_8h_1ad19939408f7be171a74a89928b36eb59", "_cpp_api/define_macros_8h_1adad592a7b1b7eed529cdf6acd584c883", "_cpp_api/dir_cpp", "_cpp_api/dir_cpp_include", "_cpp_api/dir_cpp_include_torch_tensorrt", "_cpp_api/enum_namespacetorch__tensorrt_1_1logging_1a130f65408ad8cbaee060f05e8db69558", "_cpp_api/enum_namespacetorch__tensorrt_1a3fbe5d72e4fc624dbd038853079620eb", "_cpp_api/file_cpp_include_torch_tensorrt_logging.h", "_cpp_api/file_cpp_include_torch_tensorrt_macros.h", "_cpp_api/file_cpp_include_torch_tensorrt_ptq.h", "_cpp_api/file_cpp_include_torch_tensorrt_torch_tensorrt.h", "_cpp_api/function_namespacetorch__tensorrt_1_1logging_1a0593f776f469c20469e2f729fc7861a3", "_cpp_api/function_namespacetorch__tensorrt_1_1logging_1a0c012cb374addd90eb1f42eaec570650", "_cpp_api/function_namespacetorch__tensorrt_1_1logging_1a56e110feaaba2c3fd44bd201fd21a76a", "_cpp_api/function_namespacetorch__tensorrt_1_1logging_1a7cb50492421ea9de4e3db895819df6f2", "_cpp_api/function_namespacetorch__tensorrt_1_1logging_1ac46ac0901cb97e3ae6e93b45f24e90b8", "_cpp_api/function_namespacetorch__tensorrt_1_1logging_1ad2efd47b6c3689e58ccc595680579ae5", "_cpp_api/function_namespacetorch__tensorrt_1_1logging_1af8f3443813315af7901903d25dd495cc", "_cpp_api/function_namespacetorch__tensorrt_1_1ptq_1a226e3c83379d1012cde8578c1c86b16c", "_cpp_api/function_namespacetorch__tensorrt_1_1ptq_1a6186e305f47c1d94b6130ef6c7f7e178", "_cpp_api/function_namespacetorch__tensorrt_1_1torchscript_1a5b405fd3bf3c8fc2e2a54cbbab979797", "_cpp_api/function_namespacetorch__tensorrt_1_1torchscript_1a6e19490a08fb1553c9dd347a5ae79db9", "_cpp_api/function_namespacetorch__tensorrt_1_1torchscript_1a81f9783517335dda877d8cfcf38987c9", "_cpp_api/function_namespacetorch__tensorrt_1_1torchscript_1ae8d56472106eeef37fbe51ff7f40c9b2", "_cpp_api/function_namespacetorch__tensorrt_1ac4ab8313ae72c2c899ea31548b528528", "_cpp_api/function_namespacetorch__tensorrt_1ad1acd06eaeaffbbcf6e7ebf426891384", "_cpp_api/function_namespacetorch__tensorrt_1ad6a4ee8ca6c8f6e5519eb1128ec7f4a1", "_cpp_api/namespace_torch_tensorrt", "_cpp_api/namespace_torch_tensorrt__logging", "_cpp_api/namespace_torch_tensorrt__ptq", "_cpp_api/namespace_torch_tensorrt__torchscript", "_cpp_api/program_listing_file_cpp_include_torch_tensorrt_logging.h", "_cpp_api/program_listing_file_cpp_include_torch_tensorrt_macros.h", "_cpp_api/program_listing_file_cpp_include_torch_tensorrt_ptq.h", "_cpp_api/program_listing_file_cpp_include_torch_tensorrt_torch_tensorrt.h", "_cpp_api/structtorch__tensorrt_1_1Device", "_cpp_api/structtorch__tensorrt_1_1GraphInputs", "_cpp_api/structtorch__tensorrt_1_1Input", "_cpp_api/structtorch__tensorrt_1_1torchscript_1_1CompileSpec", "_cpp_api/torch_tensort_cpp", "_cpp_api/unabridged_orphan", "cli/torchtrtc", "contributors/conversion", "contributors/dynamo_converters", "contributors/lowering", "contributors/partitioning", "contributors/phases", "contributors/runtime", "contributors/system_overview", "contributors/ts_converters", "contributors/useful_links", "contributors/writing_dynamo_aten_lowering_passes", "dynamo/dynamo_export", "dynamo/torch_compile", "fx/getting_started_with_fx_path", "getting_started/installation", "getting_started/quick_start", "index", "indices/supported_ops", "py_api/dynamo", "py_api/fx", "py_api/logging", "py_api/ptq", "py_api/runtime", "py_api/torch_tensorrt", "py_api/ts", "sg_execution_times", "src/pytorch-sphinx-theme/docs/changelog", "src/pytorch-sphinx-theme/docs/configuring", "src/pytorch-sphinx-theme/docs/demo/api", "src/pytorch-sphinx-theme/docs/demo/demo", "src/pytorch-sphinx-theme/docs/demo/lists_tables", "src/pytorch-sphinx-theme/docs/demo/long", "src/pytorch-sphinx-theme/docs/demo/structure", "src/pytorch-sphinx-theme/docs/index", "src/pytorch-sphinx-theme/docs/installing", "ts/creating_torchscript_module_in_python", "ts/getting_started_with_cpp_api", "ts/getting_started_with_python_api", "ts/ptq", "ts/torchscript_frontend_from_pytorch", "tutorials/_rendered_examples/dynamo/custom_kernel_plugins", "tutorials/_rendered_examples/dynamo/index", "tutorials/_rendered_examples/dynamo/mutable_torchtrt_module_example", "tutorials/_rendered_examples/dynamo/refit_engine_example", "tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage", "tutorials/_rendered_examples/dynamo/torch_compile_resnet_example", "tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion", "tutorials/_rendered_examples/dynamo/torch_compile_transformers_example", "tutorials/_rendered_examples/dynamo/torch_export_cudagraphs", "tutorials/_rendered_examples/dynamo/vgg16_ptq", "tutorials/_rendered_examples/index", "tutorials/notebooks", "tutorials/serving_torch_tensorrt_with_triton", "user_guide/dynamic_shapes", "user_guide/runtime", "user_guide/saving_models", "user_guide/torch_tensorrt_explained", "user_guide/using_dla"], "filenames": ["_cpp_api/classtorch__tensorrt_1_1DataType.rst", "_cpp_api/classtorch__tensorrt_1_1Device_1_1DeviceType.rst", "_cpp_api/classtorch__tensorrt_1_1TensorFormat.rst", "_cpp_api/classtorch__tensorrt_1_1ptq_1_1Int8CacheCalibrator.rst", "_cpp_api/classtorch__tensorrt_1_1ptq_1_1Int8Calibrator.rst", "_cpp_api/define_macros_8h_1a18d295a837ac71add5578860b55e5502.rst", "_cpp_api/define_macros_8h_1a282fd3c0b1c3a215148ae372070e1268.rst", "_cpp_api/define_macros_8h_1a31398a6d4d27e28817afb0f0139e909e.rst", "_cpp_api/define_macros_8h_1a35703561b26b1a9d2738ad7d58b27827.rst", "_cpp_api/define_macros_8h_1abd1465eb38256d3f22cc1426b23d516b.rst", "_cpp_api/define_macros_8h_1abe87b341f562fd1cf40b7672e4d759da.rst", "_cpp_api/define_macros_8h_1ad19939408f7be171a74a89928b36eb59.rst", "_cpp_api/define_macros_8h_1adad592a7b1b7eed529cdf6acd584c883.rst", "_cpp_api/dir_cpp.rst", "_cpp_api/dir_cpp_include.rst", "_cpp_api/dir_cpp_include_torch_tensorrt.rst", "_cpp_api/enum_namespacetorch__tensorrt_1_1logging_1a130f65408ad8cbaee060f05e8db69558.rst", "_cpp_api/enum_namespacetorch__tensorrt_1a3fbe5d72e4fc624dbd038853079620eb.rst", "_cpp_api/file_cpp_include_torch_tensorrt_logging.h.rst", "_cpp_api/file_cpp_include_torch_tensorrt_macros.h.rst", "_cpp_api/file_cpp_include_torch_tensorrt_ptq.h.rst", "_cpp_api/file_cpp_include_torch_tensorrt_torch_tensorrt.h.rst", "_cpp_api/function_namespacetorch__tensorrt_1_1logging_1a0593f776f469c20469e2f729fc7861a3.rst", "_cpp_api/function_namespacetorch__tensorrt_1_1logging_1a0c012cb374addd90eb1f42eaec570650.rst", "_cpp_api/function_namespacetorch__tensorrt_1_1logging_1a56e110feaaba2c3fd44bd201fd21a76a.rst", "_cpp_api/function_namespacetorch__tensorrt_1_1logging_1a7cb50492421ea9de4e3db895819df6f2.rst", "_cpp_api/function_namespacetorch__tensorrt_1_1logging_1ac46ac0901cb97e3ae6e93b45f24e90b8.rst", "_cpp_api/function_namespacetorch__tensorrt_1_1logging_1ad2efd47b6c3689e58ccc595680579ae5.rst", "_cpp_api/function_namespacetorch__tensorrt_1_1logging_1af8f3443813315af7901903d25dd495cc.rst", "_cpp_api/function_namespacetorch__tensorrt_1_1ptq_1a226e3c83379d1012cde8578c1c86b16c.rst", "_cpp_api/function_namespacetorch__tensorrt_1_1ptq_1a6186e305f47c1d94b6130ef6c7f7e178.rst", "_cpp_api/function_namespacetorch__tensorrt_1_1torchscript_1a5b405fd3bf3c8fc2e2a54cbbab979797.rst", "_cpp_api/function_namespacetorch__tensorrt_1_1torchscript_1a6e19490a08fb1553c9dd347a5ae79db9.rst", "_cpp_api/function_namespacetorch__tensorrt_1_1torchscript_1a81f9783517335dda877d8cfcf38987c9.rst", "_cpp_api/function_namespacetorch__tensorrt_1_1torchscript_1ae8d56472106eeef37fbe51ff7f40c9b2.rst", "_cpp_api/function_namespacetorch__tensorrt_1ac4ab8313ae72c2c899ea31548b528528.rst", "_cpp_api/function_namespacetorch__tensorrt_1ad1acd06eaeaffbbcf6e7ebf426891384.rst", "_cpp_api/function_namespacetorch__tensorrt_1ad6a4ee8ca6c8f6e5519eb1128ec7f4a1.rst", "_cpp_api/namespace_torch_tensorrt.rst", "_cpp_api/namespace_torch_tensorrt__logging.rst", "_cpp_api/namespace_torch_tensorrt__ptq.rst", "_cpp_api/namespace_torch_tensorrt__torchscript.rst", "_cpp_api/program_listing_file_cpp_include_torch_tensorrt_logging.h.rst", "_cpp_api/program_listing_file_cpp_include_torch_tensorrt_macros.h.rst", "_cpp_api/program_listing_file_cpp_include_torch_tensorrt_ptq.h.rst", "_cpp_api/program_listing_file_cpp_include_torch_tensorrt_torch_tensorrt.h.rst", "_cpp_api/structtorch__tensorrt_1_1Device.rst", "_cpp_api/structtorch__tensorrt_1_1GraphInputs.rst", "_cpp_api/structtorch__tensorrt_1_1Input.rst", "_cpp_api/structtorch__tensorrt_1_1torchscript_1_1CompileSpec.rst", "_cpp_api/torch_tensort_cpp.rst", "_cpp_api/unabridged_orphan.rst", "cli/torchtrtc.rst", "contributors/conversion.rst", "contributors/dynamo_converters.rst", "contributors/lowering.rst", "contributors/partitioning.rst", "contributors/phases.rst", "contributors/runtime.rst", "contributors/system_overview.rst", "contributors/ts_converters.rst", "contributors/useful_links.rst", "contributors/writing_dynamo_aten_lowering_passes.rst", "dynamo/dynamo_export.rst", "dynamo/torch_compile.rst", "fx/getting_started_with_fx_path.rst", "getting_started/installation.rst", "getting_started/quick_start.rst", "index.rst", "indices/supported_ops.rst", "py_api/dynamo.rst", "py_api/fx.rst", "py_api/logging.rst", "py_api/ptq.rst", "py_api/runtime.rst", "py_api/torch_tensorrt.rst", "py_api/ts.rst", "sg_execution_times.rst", "src/pytorch-sphinx-theme/docs/changelog.rst", "src/pytorch-sphinx-theme/docs/configuring.rst", "src/pytorch-sphinx-theme/docs/demo/api.rst", "src/pytorch-sphinx-theme/docs/demo/demo.rst", "src/pytorch-sphinx-theme/docs/demo/lists_tables.rst", "src/pytorch-sphinx-theme/docs/demo/long.rst", "src/pytorch-sphinx-theme/docs/demo/structure.rst", "src/pytorch-sphinx-theme/docs/index.rst", "src/pytorch-sphinx-theme/docs/installing.rst", "ts/creating_torchscript_module_in_python.rst", "ts/getting_started_with_cpp_api.rst", "ts/getting_started_with_python_api.rst", "ts/ptq.rst", "ts/torchscript_frontend_from_pytorch.rst", "tutorials/_rendered_examples/dynamo/custom_kernel_plugins.rst", "tutorials/_rendered_examples/dynamo/index.rst", "tutorials/_rendered_examples/dynamo/mutable_torchtrt_module_example.rst", "tutorials/_rendered_examples/dynamo/refit_engine_example.rst", "tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.rst", "tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.rst", "tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.rst", "tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.rst", "tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.rst", "tutorials/_rendered_examples/dynamo/vgg16_ptq.rst", "tutorials/_rendered_examples/index.rst", "tutorials/notebooks.rst", "tutorials/serving_torch_tensorrt_with_triton.rst", "user_guide/dynamic_shapes.rst", "user_guide/runtime.rst", "user_guide/saving_models.rst", "user_guide/torch_tensorrt_explained.rst", "user_guide/using_dla.rst"], "titles": ["Class DataType", "Class Device::DeviceType", "Class TensorFormat", "Template Class Int8CacheCalibrator", "Template Class Int8Calibrator", "Define STR", "Define TORCH_TENSORRT_PATCH_VERSION", "Define TORCH_TENSORRT_MAJOR_VERSION", "Define TORCH_TENSORRT_MINOR_VERSION", "Define TORCHTRT_API", "Define XSTR", "Define TORCHTRT_HIDDEN", "Define TORCH_TENSORRT_VERSION", "Directory cpp", "Directory include", "Directory torch_tensorrt", "Enum Level", "Enum EngineCapability", "File logging.h", "File macros.h", "File ptq.h", "File torch_tensorrt.h", "Function torch_tensorrt::logging::get_logging_prefix", "Function torch_tensorrt::logging::get_reportable_log_level", "Function torch_tensorrt::logging::get_is_colored_output_on", "Function torch_tensorrt::logging::set_reportable_log_level", "Function torch_tensorrt::logging::log", "Function torch_tensorrt::logging::set_is_colored_output_on", "Function torch_tensorrt::logging::set_logging_prefix", "Template Function torch_tensorrt::ptq::make_int8_cache_calibrator", "Template Function torch_tensorrt::ptq::make_int8_calibrator", "Function torch_tensorrt::torchscript::check_method_operator_support", "Function torch_tensorrt::torchscript::compile", "Function torch_tensorrt::torchscript::embed_engine_in_new_module", "Function torch_tensorrt::torchscript::convert_method_to_trt_engine", "Function torch_tensorrt::get_build_info", "Function torch_tensorrt::set_device", "Function torch_tensorrt::dump_build_info", "Namespace torch_tensorrt", "Namespace torch_tensorrt::logging", "Namespace torch_tensorrt::ptq", "Namespace torch_tensorrt::torchscript", "Program Listing for File logging.h", "Program Listing for File macros.h", "Program Listing for File ptq.h", "Program Listing for File torch_tensorrt.h", "Struct Device", "Struct GraphInputs", "Struct Input", "Struct CompileSpec", "Torch-TensorRT C++ API", "Full API", "torchtrtc", "Conversion Phase", "Writing Dynamo Converters", "Lowering Phase", "Partitioning Phase", "Compiler Phases", "Runtime Phase", "System Overview", "Writing TorchScript Converters", "Useful Links for Torch-TensorRT Development", "Writing Dynamo ATen Lowering Passes", "Compiling Exported Programs with Torch-TensorRT", "TensorRT Backend for <code class=\"docutils literal notranslate\"><span class=\"pre\">torch.compile</span></code>", "Torch-TensorRT (FX Frontend) User Guide", "Installation", "Quick Start", "Torch-TensorRT", "Operators Supported", "torch_tensorrt.dynamo", "torch_tensorrt.fx", "torch_tensorrt.logging", "torch_tensorrt.ts.ptq", "torch_tensorrt.runtime", "torch_tensorrt", "torch_tensorrt.ts", "Computation times", "Changelog", "Configuration", "<span class=\"section-number\">5. </span>:mod:`test_py_module`", "<span class=\"section-number\">3. </span>Paragraph Level Markup", "<span class=\"section-number\">4. </span>Lists &amp; Tables", "<span class=\"section-number\">1. </span>Long Sticky Nav", "<span class=\"section-number\">1. </span>Structural Elements", "&lt;no title&gt;", "Installation", "Creating a TorchScript Module", "Using Torch-TensorRT in  C++", "Using Torch-TensorRT in Python", "Post Training Quantization (PTQ)", "Using Torch-TensorRT TorchScript Frontend Directly From PyTorch", "Using Custom Kernels within TensorRT Engines with Torch-TensorRT", "Dynamo / <code class=\"docutils literal notranslate\"><span class=\"pre\">torch.compile</span></code>", "Mutable Torch TensorRT Module", "Refit  TenorRT Graph Module with Torch-TensorRT", "Torch Compile Advanced Usage", "Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend", "Torch Compile Stable Diffusion", "Compiling a Transformer using torch.compile and TensorRT", "Torch Export with Cudagraphs", "Deploy Quantized Models using Torch-TensorRT", "Torch-TensorRT Tutorials", "Example notebooks", "Serving a Torch-TensorRT model with Triton", "Dynamic shapes with Torch-TensorRT", "Deploying Torch-TensorRT Programs", "Saving models compiled with Torch-TensorRT", "Torch-TensorRT Explained", "DLA"], "terms": {"defin": [0, 1, 2, 3, 4, 33, 43, 46, 47, 48, 49, 51, 52, 54, 65, 67, 74, 75, 79, 87, 88, 89, 90, 92, 96, 99, 100, 103], "file": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 46, 47, 48, 49, 52, 54, 56, 58, 59, 64, 65, 66, 67, 70, 71, 73, 75, 76, 77, 79, 80, 82, 86, 88, 90, 104, 105, 107], "torch_tensorrt": [0, 1, 2, 14, 16, 17, 42, 43, 44, 46, 47, 48, 49, 50, 51, 52, 54, 56, 62, 63, 64, 65, 67, 68, 88, 89, 90, 91, 92, 93, 94, 95, 96, 98, 101, 102, 103, 104, 105, 106, 107, 109], "h": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 15, 46, 47, 48, 49, 50, 51, 52, 55, 67, 75, 88, 90], "support": [0, 1, 2, 27, 31, 46, 48, 49, 52, 54, 56, 61, 63, 65, 67, 68, 71, 74, 75, 76, 79, 80, 87, 88, 89, 92, 95, 97, 99, 101, 104, 108, 109], "data": [0, 2, 3, 4, 29, 30, 44, 46, 48, 49, 52, 53, 56, 57, 59, 60, 64, 65, 69, 70, 71, 73, 75, 76, 81, 85, 89, 90, 92, 101, 103], "type": [0, 1, 2, 30, 49, 50, 52, 53, 56, 58, 60, 62, 63, 64, 65, 70, 71, 73, 74, 75, 76, 81, 88, 89, 90, 92, 101, 103, 107], "can": [0, 1, 4, 29, 30, 34, 46, 47, 48, 49, 52, 53, 54, 55, 56, 57, 58, 59, 60, 62, 63, 64, 65, 66, 67, 70, 73, 74, 75, 76, 79, 81, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108], "us": [0, 1, 2, 3, 4, 29, 30, 32, 34, 36, 43, 44, 45, 46, 48, 49, 52, 53, 54, 56, 58, 59, 60, 62, 63, 64, 65, 66, 67, 68, 70, 71, 73, 74, 75, 76, 77, 79, 80, 81, 82, 87, 90, 93, 94, 102, 104, 106, 107, 108, 109], "tensorrt": [0, 1, 3, 4, 29, 30, 31, 32, 33, 34, 37, 44, 45, 46, 48, 49, 52, 53, 54, 55, 56, 57, 59, 60, 62, 67, 70, 71, 73, 74, 75, 76, 77, 87, 90, 93, 96, 98, 100], "engin": [0, 1, 17, 32, 33, 34, 45, 46, 48, 49, 52, 53, 56, 57, 59, 62, 63, 64, 70, 71, 74, 75, 76, 79, 88, 89, 90, 91, 93, 95, 97, 99, 102, 105, 106, 108, 109], "thi": [0, 1, 2, 29, 30, 42, 43, 44, 45, 46, 47, 48, 49, 52, 53, 54, 55, 56, 57, 58, 59, 60, 62, 63, 64, 65, 66, 67, 70, 71, 74, 75, 76, 79, 80, 81, 83, 84, 87, 88, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108], "compat": [0, 1, 46, 55, 58, 64, 65, 70, 74, 75, 76, 108], "c10": [0, 1, 45, 46, 48, 49, 88, 90], "check": [0, 1, 31, 46, 52, 55, 60, 65, 70, 74, 76, 88, 92, 94, 95, 104, 106], "trt": [0, 1, 3, 4, 46, 48, 53, 55, 58, 60, 62, 64, 65, 67, 69, 70, 74, 75, 88, 92, 99, 105, 106, 107], "so": [0, 44, 52, 53, 54, 55, 58, 59, 60, 62, 64, 65, 66, 71, 74, 75, 80, 81, 82, 88, 90, 92, 95, 96, 97, 99, 105], "should": [0, 3, 4, 29, 45, 49, 52, 53, 54, 55, 56, 57, 59, 60, 63, 64, 65, 70, 74, 75, 76, 79, 81, 84, 90, 92, 100, 104], "reason": [0, 65, 87, 92, 108], "you": [0, 1, 2, 29, 30, 46, 48, 49, 52, 53, 54, 55, 56, 58, 59, 60, 63, 65, 66, 67, 70, 74, 75, 76, 79, 81, 82, 83, 87, 88, 89, 90, 91, 92, 93, 94, 95, 101, 102, 103, 104, 105, 106, 107, 108], "need": [0, 1, 2, 25, 29, 43, 46, 53, 54, 55, 60, 65, 66, 70, 71, 74, 75, 81, 88, 89, 90, 92, 94, 95, 103, 104, 105, 106], "explictli": 0, "public": [0, 1, 2, 3, 4, 44, 45, 46, 47, 48, 49, 82, 90], "enum": [0, 1, 2, 42, 45, 46, 70, 76, 90], "valu": [0, 1, 2, 16, 17, 45, 46, 48, 53, 56, 58, 60, 63, 69, 70, 73, 75, 79, 88, 94, 96, 97, 99, 103], "underli": [0, 1, 2, 46, 60], "In": [0, 1, 2, 46, 53, 54, 56, 57, 58, 59, 60, 64, 65, 66, 74, 75, 81, 82, 84, 89, 90, 92, 93, 94, 95, 102, 103, 104, 105, 106, 107], "case": [0, 1, 2, 46, 49, 53, 54, 56, 58, 60, 62, 64, 65, 66, 74, 75, 90, 92, 94, 95, 105, 106], "itself": [0, 1, 2, 46, 52, 55, 91, 104], "interfac": [0, 1, 2, 46, 58, 59, 60, 64, 68, 90], "vs": [0, 1, 2, 46, 55, 66, 70, 75, 76, 91], "normal": [0, 1, 2, 46, 65, 81, 87, 88, 90, 94, 100, 101, 104, 109], "instatin": [0, 1, 2, 46], "ex": [0, 1, 2, 33, 46, 76, 82, 84], "kfloat": [0, 45, 49], "enumer": [0, 1, 2, 16, 17, 46], "klong": [0, 45], "int64": [0, 75, 76], "kdoubl": [0, 45], "fp64": [0, 75], "fp32": [0, 48, 49, 52, 64, 65, 70, 75, 76, 90, 103, 104], "khalf": [0, 45, 88], "fp16": [0, 48, 49, 52, 64, 65, 71, 75, 88, 89, 94, 98, 109], "kchar": [0, 45], "int8": [0, 44, 48, 49, 52, 64, 70, 75, 76, 90, 101, 109], "kint": [0, 45], "int": [0, 3, 4, 36, 44, 45, 49, 52, 54, 56, 63, 64, 69, 70, 71, 75, 76, 79, 88, 92, 101], "kbool": [0, 45], "bool": [0, 1, 2, 3, 4, 24, 27, 30, 31, 42, 44, 45, 46, 49, 55, 60, 64, 69, 70, 71, 73, 74, 75, 76, 79, 88, 90, 92], "kunknown": [0, 2, 45], "sentinel": [0, 2, 75], "function": [0, 1, 2, 3, 4, 46, 48, 49, 54, 55, 56, 58, 60, 62, 64, 65, 66, 87, 88, 90, 91, 92, 96, 99, 100, 103, 104, 105, 106, 108, 109], "default": [0, 1, 2, 3, 4, 16, 29, 30, 33, 43, 45, 46, 48, 49, 52, 54, 56, 62, 64, 65, 66, 70, 71, 74, 75, 76, 79, 80, 81, 88, 89, 90, 91, 92, 101, 105, 106, 107, 108], "construct": [0, 1, 2, 3, 4, 46, 48, 49, 53, 54, 55, 57, 59, 60, 65, 73, 74, 75, 81, 82, 88, 90, 92, 105], "new": [0, 1, 2, 3, 4, 32, 33, 46, 48, 49, 56, 58, 59, 60, 62, 64, 65, 67, 70, 76, 81, 88, 93, 94, 95, 97, 99, 100, 102, 104, 106], "object": [0, 1, 2, 3, 4, 46, 48, 49, 52, 58, 60, 62, 63, 64, 70, 74, 75, 76, 90, 91, 105, 107], "inlin": [0, 1, 2, 3, 4, 29, 30, 44, 46, 48, 55, 82, 85, 88], "constexpr": [0, 1, 2, 45, 46, 92], "t": [0, 1, 2, 45, 46, 55, 60, 65, 66, 69, 75, 79, 81, 82, 87, 88, 90, 92, 101, 104, 105], "constructor": [0, 2, 46, 48, 49, 58, 87], "from": [0, 1, 2, 3, 4, 29, 30, 44, 46, 48, 49, 52, 53, 55, 56, 57, 58, 59, 60, 63, 64, 65, 68, 70, 71, 74, 75, 76, 77, 79, 80, 81, 82, 87, 88, 90, 92, 94, 95, 98, 99, 101, 103, 104, 106, 107, 108], "torchtrt_api": [0, 2, 19, 22, 23, 24, 25, 26, 27, 28, 31, 32, 33, 34, 35, 36, 37, 42, 43, 44, 45, 48, 49, 50], "scalartyp": [0, 45, 69], "torch": [0, 1, 2, 4, 20, 21, 29, 30, 31, 32, 33, 34, 37, 44, 45, 46, 47, 48, 49, 52, 53, 54, 55, 56, 57, 58, 59, 60, 62, 70, 71, 73, 74, 75, 76, 77, 87, 90, 109], "paramet": [0, 1, 2, 3, 4, 25, 26, 27, 29, 30, 31, 32, 33, 34, 36, 46, 48, 49, 53, 54, 55, 60, 64, 65, 70, 71, 73, 74, 75, 76, 85, 87, 88], "oper": [0, 1, 2, 3, 4, 31, 44, 45, 46, 49, 52, 53, 55, 56, 57, 58, 59, 60, 62, 63, 65, 68, 70, 75, 76, 89, 90, 97, 99, 108, 109], "const": [0, 1, 2, 3, 4, 29, 30, 31, 32, 33, 34, 36, 44, 45, 46, 55, 60, 69, 88, 90], "get": [0, 1, 2, 3, 4, 23, 35, 44, 46, 55, 56, 60, 62, 63, 65, 74, 75, 88, 90, 103, 104], "return": [0, 1, 2, 3, 4, 23, 24, 29, 30, 31, 32, 33, 34, 35, 42, 43, 44, 45, 46, 54, 55, 56, 57, 58, 59, 60, 62, 64, 65, 70, 71, 74, 75, 76, 87, 88, 89, 90, 92, 95, 96, 101, 104, 105], "explicit": [0, 1, 2, 3, 4, 45, 46, 55, 65, 71, 74, 81, 90, 108], "delet": [0, 1, 2, 45, 46, 55], "other": [0, 1, 2, 45, 46, 52, 53, 55, 58, 62, 64, 65, 66, 69, 70, 74, 75, 80, 81, 88, 89, 106], "comparis": [0, 2], "true": [0, 1, 2, 4, 46, 49, 55, 56, 60, 62, 64, 65, 69, 70, 71, 74, 75, 76, 79, 82, 88, 90, 91, 92, 94, 95, 96, 97, 98, 99, 100, 101, 104, 106, 109], "fals": [0, 1, 2, 3, 4, 44, 45, 46, 49, 54, 62, 64, 65, 69, 70, 71, 74, 75, 76, 79, 80, 81, 82, 88, 90, 91, 92, 94, 95, 96, 98, 99, 100, 101, 106], "struct": [1, 21, 38, 41, 45, 54, 90], "onli": [1, 3, 4, 16, 29, 44, 46, 48, 52, 54, 55, 56, 59, 60, 64, 65, 67, 70, 71, 74, 75, 81, 90, 92, 94, 95, 106, 109], "applic": [1, 29, 46, 52, 55, 59, 64, 70, 74, 75, 88, 89, 91, 106, 109], "kcuda": [1, 46, 56, 88], "which": [1, 2, 29, 32, 34, 46, 49, 53, 54, 55, 56, 57, 58, 59, 60, 62, 63, 64, 65, 66, 70, 71, 73, 74, 75, 76, 79, 81, 82, 87, 88, 89, 90, 91, 92, 96, 97, 100, 103, 104, 105, 106, 107, 108], "map": [1, 46, 53, 54, 55, 57, 59, 60, 65, 75, 88, 90, 91, 96, 103, 104], "kgpu": [1, 45, 46], "To": [1, 46, 52, 54, 56, 64, 66, 70, 79, 87, 88, 89, 91, 92, 104], "datatyp": [1, 21, 38, 45, 46, 48, 49, 50, 70, 75, 76, 89, 92, 104], "target": [1, 33, 45, 46, 48, 49, 52, 54, 56, 58, 59, 64, 65, 66, 68, 70, 74, 75, 76, 89, 90, 91, 92, 108, 109], "gpu": [1, 32, 34, 36, 45, 46, 52, 64, 65, 70, 74, 75, 76, 88, 90, 91, 92, 104, 106, 108, 109], "run": [1, 34, 46, 49, 52, 53, 54, 55, 56, 57, 58, 59, 60, 64, 65, 66, 67, 70, 71, 74, 75, 76, 81, 87, 88, 89, 90, 91, 92, 94, 95, 96, 97, 98, 99, 100, 101, 103, 104, 105, 106, 107, 108, 109], "kdla": [1, 45, 46, 109], "dla": [1, 45, 46, 49, 52, 64, 68, 70, 75, 76], "intern": [1, 16, 46, 60, 63, 72, 74, 81, 88], "note": [1, 46, 48, 54, 60, 62, 65, 66, 74, 75, 79, 81, 88, 92, 105, 109], "The": [1, 46, 48, 49, 52, 53, 54, 55, 56, 57, 58, 59, 60, 62, 63, 64, 65, 66, 70, 74, 75, 76, 79, 82, 87, 89, 90, 91, 92, 94, 97, 100, 102, 103, 104, 105, 107, 108], "valid": [1, 46, 56, 60, 62, 70, 74, 75], "kcpu": [1, 46], "comparison": [1, 46], "an": [2, 3, 4, 48, 49, 52, 53, 54, 55, 56, 57, 58, 59, 60, 62, 64, 65, 66, 67, 70, 71, 73, 74, 75, 76, 79, 81, 82, 87, 88, 89, 90, 92, 95, 96, 100, 103, 104, 105, 106, 107, 108], "memeori": 2, "layout": [2, 48, 69, 70, 75, 76], "store": [2, 4, 49, 52, 53, 58, 60, 64, 65, 70, 74, 75, 76, 87, 88, 92], "tensor": [2, 33, 44, 45, 48, 49, 52, 53, 54, 55, 56, 58, 60, 62, 63, 64, 65, 69, 70, 71, 74, 75, 76, 87, 88, 89, 90, 92, 96, 103], "kcontigu": [2, 45, 48], "contigu": [2, 48, 49, 52, 70, 75, 76], "nchw": [2, 70, 75, 76], "linear": [2, 56, 69, 75, 87, 92, 101], "kchannelslast": [2, 45], "channel": [2, 75, 80], "last": [2, 55, 65, 75, 101], "nhwc": [2, 52], "memoryformat": [2, 45], "ptq": [3, 4, 15, 18, 19, 38, 50, 51, 52, 68, 70, 75, 76, 93, 102], "privat": [3, 4, 44, 45, 90], "algorithm": [3, 4, 29, 30, 44, 65, 73, 90], "typenam": [3, 4, 29, 30, 44], "gener": [3, 4, 29, 52, 55, 58, 59, 60, 62, 64, 65, 66, 70, 71, 79, 81, 82, 85, 87, 88, 90, 92, 94, 95, 96, 97, 98, 99, 100, 101, 102, 106], "int8calibr": [3, 20, 30, 40, 44, 50], "implement": [3, 4, 55, 56, 58, 63, 65, 74, 80, 88, 90, 92, 106], "specifi": [3, 4, 33, 52, 54, 60, 64, 65, 66, 70, 75, 76, 79, 81, 89, 91, 104, 105, 107, 108], "calibr": [3, 4, 29, 30, 44, 49, 52, 70, 73, 75, 76, 88, 90], "read": [3, 4, 29, 30, 44, 79, 81, 90], "nvinfer1": [3, 4, 29, 30, 44, 45, 49, 60, 90], "iint8calibr": [3, 4, 29, 30, 44, 45, 49, 70, 75, 76, 90], "iint8entropycalibrator2": [3, 4, 29, 30, 44, 90], "std": [3, 4, 22, 26, 28, 29, 30, 31, 33, 34, 35, 42, 44, 45, 47, 48, 49, 56, 88, 90, 104, 109], "string": [3, 4, 18, 20, 21, 22, 26, 28, 29, 30, 31, 33, 34, 35, 42, 44, 45, 49, 54, 56, 58, 60, 64, 70, 75, 79, 88, 90], "cache_file_path": [3, 4, 29, 30, 44], "8": [3, 52, 55, 63, 64, 66, 74, 75, 81, 82, 85, 88, 92, 97, 100, 104, 105], "cach": [3, 4, 29, 30, 44, 52, 64, 65, 70, 71, 73, 75, 88, 90, 106], "getbatchs": [3, 4, 44], "noexceptoverrid": [3, 4], "batch": [3, 4, 44, 64, 65, 71, 74, 90, 97, 99, 101, 104, 105, 109], "size": [3, 4, 44, 48, 49, 52, 55, 56, 64, 65, 69, 70, 71, 75, 76, 79, 88, 90, 92, 97, 99, 101, 103, 105], "next": [3, 4, 53, 54, 58, 63, 71, 75, 79, 81, 82, 90, 96, 100, 101, 104], "alwai": [3, 4, 27, 52, 75, 81], "1": [3, 4, 33, 44, 45, 48, 49, 52, 54, 55, 56, 58, 60, 62, 63, 64, 65, 66, 69, 70, 71, 73, 74, 75, 76, 78, 79, 81, 82, 85, 87, 88, 89, 90, 91, 92, 94, 95, 97, 99, 100, 101, 103, 105, 107, 109], "due": [3, 4, 66, 80, 81, 101], "issu": [3, 4, 64, 70, 75, 88, 96, 99], "getbatch": [3, 4, 44], "void": [3, 4, 25, 26, 27, 28, 36, 37, 42, 44, 45], "bind": [3, 4, 33, 44, 74, 76, 81], "char": [3, 4, 44, 52, 88], "name": [3, 4, 31, 33, 34, 44, 54, 56, 58, 60, 65, 66, 71, 73, 74, 75, 76, 81, 82, 87, 88, 91, 92, 100, 101, 104], "nbbind": [3, 4, 44], "Not": 3, "arrai": [3, 4, 33, 53, 54, 75, 76, 92], "pointer": [3, 4, 90], "fed": [3, 4, 48], "buffer": [3, 4, 65, 92], "each": [3, 4, 49, 53, 55, 56, 58, 60, 64, 65, 66, 70, 71, 74, 79, 81, 88, 106], "input": [3, 4, 21, 29, 33, 38, 44, 45, 47, 49, 50, 52, 53, 54, 55, 56, 58, 60, 62, 63, 64, 65, 67, 69, 70, 71, 72, 74, 75, 76, 82, 87, 88, 89, 90, 91, 92, 94, 95, 96, 100, 101, 103, 104, 105, 106, 107, 108, 109], "number": [3, 4, 49, 52, 54, 55, 56, 60, 63, 64, 65, 70, 71, 75, 76, 79, 88, 89, 92, 93, 97, 99, 102, 103, 108], "readcalibrationcach": [3, 4, 44], "size_t": [3, 4, 44, 90], "length": [3, 4, 44, 65, 69, 82], "how": [3, 4, 66, 81, 83, 85, 87, 91, 92, 94, 95, 96, 101, 103, 104, 105, 106], "enabl": [3, 4, 24, 49, 52, 54, 56, 57, 59, 64, 65, 66, 70, 71, 73, 74, 75, 76, 79, 94, 97, 99, 100, 106], "use_cach": [3, 4, 30, 44, 73, 90], "set": [3, 4, 16, 21, 25, 27, 29, 32, 34, 36, 45, 46, 48, 49, 52, 53, 54, 55, 56, 57, 58, 59, 65, 66, 70, 71, 74, 75, 76, 79, 83, 86, 87, 88, 89, 90, 92, 101, 103, 105, 106, 108, 109], "writecalibrationcach": [3, 4, 44], "write": [3, 4, 29, 30, 44, 65, 68, 81, 88, 90, 104], "provid": [3, 4, 49, 52, 54, 56, 58, 60, 62, 64, 65, 66, 67, 70, 71, 74, 75, 76, 81, 88, 89, 90, 91, 93, 96, 100, 102, 104, 105, 106, 107, 108], "cast": [3, 4, 55], "convienc": [3, 4, 49], "convert": [3, 4, 31, 32, 34, 52, 55, 56, 57, 59, 63, 64, 68, 70, 75, 76, 89, 91, 92, 97, 99, 103, 106], "easili": [3, 4, 94], "assign": [3, 4, 80], "ptq_calibr": [3, 4, 45, 49, 90], "field": [3, 4, 63, 71, 75, 90], "compilespec": [3, 4, 21, 32, 34, 41, 45, 50, 56, 76, 88, 90, 109], "dataloaderuniqueptr": [4, 44], "libtorch": [4, 37, 60, 66, 67, 88, 90, 108], "dataload": [4, 29, 30, 44, 49, 73, 90, 101], "unique_ptr": [4, 30], "unqiue_ptr": 4, "A": [4, 29, 30, 32, 33, 47, 48, 54, 55, 56, 60, 65, 66, 70, 71, 75, 76, 82, 90, 95, 98, 104], "uniqu": [4, 89], "what": [4, 54, 55, 65, 67, 75, 81, 87, 88, 89, 108], "make_data_load": [4, 90], "factori": [4, 29, 30, 64, 70, 90], "path": [4, 13, 14, 15, 29, 30, 52, 64, 65, 66, 70, 73, 75, 87, 88, 90, 100, 101, 104, 108], "find": [4, 65, 66, 88, 92], "whether": [4, 52, 54, 64, 65, 70, 71, 75, 80, 90, 97, 99, 106], "exist": [4, 31, 32, 34, 54, 63, 64, 65, 70, 73, 75, 76, 90, 103], "There": [4, 53, 54, 59, 60, 62, 63, 65, 66, 82, 87, 90, 103, 104, 105, 106], "consum": [4, 53, 87], "macro": [5, 6, 7, 8, 9, 10, 11, 12, 15, 18, 20, 21, 42, 44, 45, 50, 51], "x": [5, 10, 33, 43, 55, 56, 66, 67, 74, 76, 82, 87, 88, 92, 96, 100, 101, 105, 107], "includ": [13, 15, 16, 35, 37, 42, 43, 44, 45, 51, 52, 54, 56, 57, 58, 59, 62, 64, 65, 66, 67, 70, 71, 74, 75, 79, 81, 87, 88, 90, 92, 93, 102, 106], "parent": [14, 15, 18, 19, 20, 21], "cpp": [14, 15, 42, 43, 44, 45, 51, 55, 59, 66, 88, 90], "log": [15, 16, 19, 20, 38, 44, 50, 51, 55, 60, 64, 65, 68, 69, 70, 71, 75, 97, 99], "emum": [16, 17], "messag": [16, 25, 26, 52, 72], "sever": [16, 26, 72], "kinternal_error": [16, 42], "print": [16, 31, 44, 62, 64, 70, 76, 81, 88, 91, 92, 94, 95, 97, 99, 101, 104], "error": [16, 49, 52, 53, 55, 59, 64, 65, 70, 72, 75, 76, 81, 88, 105], "kerror": [16, 42], "all": [16, 42, 43, 44, 45, 49, 52, 54, 55, 56, 58, 62, 64, 65, 66, 70, 72, 74, 75, 77, 81, 82, 87, 88, 89, 90, 92, 102, 103, 104, 106, 108], "kwarn": [16, 42], "warn": [16, 44, 52, 60, 72, 74], "kinfo": [16, 42, 44], "info": [16, 32, 34, 45, 52, 60, 72, 74, 75], "kdebug": [16, 42, 44], "debug": [16, 27, 45, 49, 52, 60, 62, 64, 70, 72, 74, 75, 76, 91, 92, 94, 95, 96, 97, 99, 101], "kgraph": [16, 42, 55], "everyth": [16, 64, 70, 75], "intermedi": [16, 49, 52, 54, 64, 70, 72, 75, 76, 87, 108], "graph": [16, 31, 32, 34, 45, 49, 52, 53, 54, 56, 57, 59, 60, 62, 63, 64, 65, 70, 71, 72, 75, 76, 87, 88, 92, 93, 94, 97, 99, 100, 102, 103, 105, 106], "lower": [16, 54, 63, 65, 68, 70, 71, 72, 75, 82, 92, 97, 99, 103, 108], "phase": [16, 60, 63, 88, 105, 108], "select": [17, 29, 30, 34, 49, 52, 58, 64, 65, 66, 69, 70, 75, 76, 80, 83, 89, 90, 92, 108], "capabl": [17, 45, 49, 52, 58, 70, 75, 76, 91], "kstandard": [17, 45, 49], "ksafeti": [17, 45], "kdla_standalon": [17, 45], "directori": [18, 19, 20, 21, 42, 43, 44, 45, 50, 66, 90], "program": [18, 19, 20, 21, 29, 51, 52, 57, 58, 59, 68, 70, 87, 95, 105], "list": [18, 19, 20, 21, 31, 49, 51, 53, 56, 58, 60, 62, 63, 65, 67, 69, 70, 71, 74, 75, 76, 85, 88, 89, 92, 104], "torchscript": [19, 21, 38, 43, 45, 49, 50, 52, 56, 57, 58, 59, 63, 67, 70, 71, 73, 74, 75, 76, 89, 103, 105, 109], "str": [19, 43, 44, 50, 54, 64, 65, 69, 70, 73, 74, 75, 76, 92, 101], "torch_tensorrt_major_vers": [19, 43, 50], "torch_tensorrt_minor_vers": [19, 43, 50], "torch_tensorrt_patch_vers": [19, 43, 50], "torch_tensorrt_vers": [19, 43, 50], "torchtrt_hidden": [19, 43, 50], "xstr": [19, 43, 50], "nvinfer": [20, 44], "fstream": [20, 44], "iostream": [20, 21, 44, 45, 88], "iter": [20, 44, 49, 52, 53, 64, 70, 73, 75, 76, 101], "memori": [20, 21, 44, 45, 55, 60, 70, 75, 76, 88, 89, 92], "sstream": [20, 44], "vector": [20, 21, 33, 44, 45, 47, 48, 49, 56, 58, 75, 88, 90, 109], "templat": [20, 40, 44, 45, 50, 79, 88], "int8cachecalibr": [20, 29, 40, 44, 50], "cuda_runtim": [21, 45], "custom_class": [21, 45], "devic": [21, 33, 36, 38, 45, 49, 50, 52, 58, 64, 69, 70, 71, 73, 74, 75, 76, 89, 90, 91, 92, 94, 98, 103, 109], "graphinput": [21, 38, 45, 49, 50], "devicetyp": [21, 38, 45, 46, 50, 74, 75, 76, 90, 91, 92, 109], "tensorformat": [21, 38, 45, 48, 50, 75, 92], "level": [23, 25, 26, 39, 42, 44, 50, 54, 55, 56, 59, 64, 65, 70, 75, 76, 85, 87, 92, 104, 108], "current": [23, 54, 56, 58, 60, 62, 63, 64, 65, 66, 70, 71, 74, 75, 76, 79, 92, 94, 95, 101, 106], "report": [23, 44, 74], "Is": [24, 75], "color": [24, 27, 81], "output": [24, 27, 33, 49, 52, 53, 54, 55, 56, 58, 60, 62, 63, 64, 65, 66, 70, 72, 74, 75, 76, 79, 81, 82, 88, 92, 94, 95, 98, 103, 104, 105, 107], "lvl": [25, 26, 42], "inform": [25, 33, 35, 37, 48, 52, 53, 56, 58, 62, 64, 65, 66, 70, 71, 72, 75, 81, 87, 88, 90, 91, 92, 105], "ad": [25, 52, 53, 54, 56, 62, 65, 66, 92, 94], "abov": [25, 54, 56, 62, 65, 66, 72, 80, 81, 88, 92, 97, 99, 107], "msg": [26, 42], "add": [26, 53, 54, 55, 56, 60, 63, 66, 69, 79, 81, 86, 88, 89, 92], "global": [26, 52, 64, 70, 75, 88], "colored_output_on": [27, 42], "prefix": [27, 28, 42, 81], "help": [27, 52, 53, 60, 64, 65, 88, 101, 103, 106], "when": [27, 44, 45, 46, 52, 53, 55, 56, 57, 58, 59, 60, 64, 65, 66, 70, 74, 75, 76, 79, 81, 83, 87, 88, 90, 92, 94, 95, 103, 105, 106], "termin": [27, 52, 88], "If": [27, 33, 53, 54, 55, 56, 62, 63, 64, 65, 66, 67, 71, 75, 79, 81, 88, 89, 90, 92, 96, 100, 104, 105, 106, 108, 109], "build": [29, 30, 35, 49, 52, 53, 57, 59, 60, 63, 64, 65, 70, 74, 75, 80, 85, 88, 90, 92, 97, 99, 105], "post": [29, 30, 49, 52, 63, 68, 88], "train": [29, 30, 49, 52, 68, 69, 88, 89], "quantiz": [29, 30, 52, 64, 68, 73, 75, 88, 93, 102], "creat": [29, 30, 33, 52, 53, 54, 56, 58, 60, 65, 68, 75, 76, 81, 88, 92, 93, 95, 102, 104], "previous": [29, 33, 88], "therefor": [29, 58, 65, 66, 74, 81, 88, 103, 106], "have": [29, 33, 44, 52, 53, 54, 55, 56, 60, 62, 63, 65, 66, 70, 71, 73, 74, 75, 76, 81, 87, 88, 89, 90, 92, 97, 99, 101, 103, 104, 105], "requir": [29, 49, 52, 53, 54, 55, 63, 64, 65, 66, 70, 75, 76, 79, 88, 90, 92, 101, 104, 105, 106], "dataset": [29, 73, 90, 103], "save": [29, 44, 52, 58, 64, 65, 67, 68, 70, 74, 75, 76, 88, 89, 98, 103, 104, 106, 108], "later": [29, 70, 88, 107, 108], "differ": [29, 55, 56, 59, 64, 65, 66, 75, 79, 87, 92, 94, 95, 106, 108], "scratch": 29, "depend": [29, 35, 53, 59, 64, 65, 67, 70, 88, 89, 104, 106], "howev": [29, 66, 79, 80, 88, 92, 104, 105, 108], "network": [29, 30, 54, 60, 65, 75, 88, 90, 92, 103, 104, 109], "also": [29, 53, 54, 60, 62, 64, 66, 67, 79, 81, 82, 88, 89, 90, 100, 101, 102, 103], "recalibr": 29, "its": [29, 53, 56, 58, 60, 66, 74, 75, 81, 92, 101, 104, 106, 108], "structur": [29, 46, 49, 56, 59, 60, 64, 70, 75, 79, 81, 85, 87, 92, 104], "chang": [29, 55, 56, 59, 62, 64, 65, 74, 75, 76, 79, 90, 94, 104, 106, 108], "respons": [29, 54, 58, 81, 106], "ensur": [29, 54, 55, 56, 62, 64, 66, 74], "By": [29, 30, 51, 56, 66, 79, 87, 105], "entropi": [29, 30, 90], "v2": [29, 30, 81], "perform": [29, 30, 54, 62, 63, 70, 74, 75, 90, 92, 100, 103, 104, 106, 107, 108], "recommend": [29, 30, 65, 66, 75, 81, 88, 92, 104, 105], "feed": [29, 30, 88], "forward": [29, 30, 32, 33, 56, 58, 60, 64, 67, 70, 74, 75, 76, 87, 88, 89, 90, 91, 92, 96, 101, 105], "overrid": [29, 30, 44, 54, 65, 90], "minmax": [29, 30, 90], "recomend": [29, 30], "nlp": [29, 30, 90], "task": [29, 30, 65, 90, 103], "call": [29, 30, 32, 49, 54, 55, 58, 60, 65, 70, 71, 74, 75, 76, 81, 87, 88, 91, 92, 94, 96, 99, 103, 105, 106, 108], "make_int8_calibr": [29, 40, 44, 50, 90], "class": [29, 30, 44, 45, 46, 51, 58, 60, 64, 65, 72, 76, 81, 82, 87, 88, 89, 90, 92, 96, 101, 103, 105], "e": [29, 30, 52, 55, 60, 65, 66, 67, 71, 75, 87, 88, 90, 92], "g": [29, 30, 52, 55, 65, 66, 71, 75, 81, 90, 92], "iint8minmaxcalibr": [29, 30, 90], "calibration_cache_fil": [29, 30, 90], "move": [30, 44, 55, 58, 76, 88, 90], "calibration_dataload": [30, 90], "contain": [30, 31, 52, 53, 54, 55, 56, 60, 65, 66, 71, 74, 75, 81, 82, 87, 88, 90, 92, 104, 106], "jit": [31, 32, 33, 34, 45, 47, 49, 52, 53, 55, 56, 57, 58, 59, 60, 61, 64, 67, 68, 70, 74, 75, 76, 87, 88, 89, 91, 92, 104, 107, 108], "modul": [31, 32, 33, 34, 45, 49, 52, 56, 57, 58, 59, 60, 64, 65, 66, 67, 68, 70, 71, 73, 74, 75, 76, 80, 81, 82, 89, 90, 91, 92, 93, 96, 101, 102, 103, 105, 107, 109], "method_nam": [31, 34, 45, 52, 75, 76, 88], "see": [31, 55, 56, 58, 62, 64, 65, 66, 75, 76, 81, 87, 88, 89, 92, 96], "fulli": [31, 52, 55, 64, 70, 74, 75, 76, 88, 90, 92, 109], "compil": [31, 34, 41, 45, 49, 50, 52, 54, 55, 56, 58, 60, 62, 65, 70, 71, 72, 74, 75, 76, 77, 79, 87, 89, 90, 91, 92, 94, 101, 104, 106, 109], "take": [31, 32, 33, 34, 53, 54, 57, 58, 59, 60, 62, 65, 70, 71, 74, 75, 76, 79, 81, 88, 90, 91, 92, 95, 96, 103, 105], "method": [31, 32, 33, 34, 48, 52, 55, 60, 66, 70, 75, 76, 81, 87, 88, 91, 103], "pure": [31, 70, 75], "Will": 31, "out": [31, 44, 53, 55, 56, 57, 59, 60, 64, 66, 70, 75, 76, 81, 88, 92, 94, 101, 104, 105], "unsupport": [31, 49, 54, 64, 75, 92, 108], "script": [31, 55, 56, 67, 75, 76, 87, 88, 89, 91, 92, 94, 95, 96, 97, 98, 99, 100, 101, 106, 108], "nvidia": [32, 34, 42, 43, 44, 45, 52, 61, 64, 65, 66, 70, 75, 76, 88, 96, 99, 104, 108, 109], "configur": [32, 34, 48, 62, 66, 70, 74, 75, 76, 85, 88, 90, 92, 104, 105], "equival": [32, 57, 59, 60, 70, 75, 76, 87, 88, 90, 92, 97, 99], "specif": [32, 49, 54, 55, 57, 59, 62, 64, 70, 75, 76, 81, 102, 103, 108], "traget": 32, "input_binding_nam": [33, 45, 74, 76], "output_binding_nam": [33, 45, 74, 76], "emb": [33, 52, 63, 76, 82], "pre": [33, 55, 73, 76, 90, 106], "built": [33, 52, 58, 59, 64, 66, 70, 74, 75, 76], "serial": [33, 34, 52, 57, 59, 66, 70, 74, 75, 76, 88, 92, 95, 108], "regist": [33, 54, 58, 60, 65, 74, 76, 92], "execut": [33, 49, 52, 55, 57, 58, 59, 63, 64, 65, 66, 68, 70, 71, 74, 75, 76, 77, 87, 88, 90, 92, 104], "must": [33, 48, 49, 52, 54, 55, 56, 60, 62, 65, 66, 70, 71, 75, 76, 81, 82, 88, 105, 106, 108], "follow": [33, 52, 54, 56, 58, 62, 63, 64, 65, 66, 76, 79, 81, 82, 86, 87, 88, 90, 92, 93, 97, 102, 103, 104, 105, 106], "format": [33, 45, 48, 49, 52, 69, 70, 75, 76, 81, 82, 89, 92, 101, 103, 104, 107], "symbol": [33, 65, 66, 76, 81, 106], "index": [33, 61, 62, 66, 68, 69, 76, 79, 85, 90, 92], "0": [33, 43, 44, 45, 49, 52, 54, 56, 59, 60, 62, 64, 65, 66, 68, 69, 70, 71, 73, 74, 75, 76, 77, 78, 80, 81, 88, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 104, 105, 109], "2": [33, 43, 54, 56, 60, 63, 64, 65, 66, 68, 69, 70, 73, 74, 75, 76, 79, 81, 82, 85, 87, 88, 90, 92, 93, 94, 95, 96, 97, 99, 101, 102, 105, 107], "y": [33, 56, 76, 82, 92, 96], "compilesepc": 33, "order": [33, 49, 54, 56, 60, 62, 65, 66, 70, 71, 74, 75, 76, 88, 89], "pass": [33, 53, 54, 56, 57, 58, 59, 60, 63, 64, 65, 66, 68, 72, 73, 74, 75, 76, 87, 88, 90, 92], "origin": [33, 65, 71, 75, 92, 94, 108], "pytorch": [33, 48, 49, 52, 54, 55, 56, 57, 58, 59, 60, 63, 64, 66, 67, 70, 73, 74, 75, 76, 87, 88, 89, 90, 93, 94, 95, 101, 102, 104, 105, 106, 107, 108], "assum": [33, 74, 91, 92], "convent": 33, "below": [33, 56, 60, 62, 63, 64, 65, 66, 81, 88, 89, 98, 104], "equivil": 34, "librari": [35, 42, 43, 44, 45, 52, 54, 57, 58, 59, 60, 75, 88, 92], "version": [35, 37, 59, 62, 64, 65, 70, 74, 75, 79, 82, 92, 103, 104, 107], "gpu_id": [36, 45, 46, 52, 74, 75, 76, 90, 91, 92, 109], "id": [36, 45, 52, 75, 79, 80, 84, 109], "cudasetdevic": 36, "dump": [37, 52, 92], "base": [37, 50, 58, 63, 64, 66, 70, 71, 75, 81, 87, 89, 90, 99, 103, 108], "stdout": [37, 74], "enginecap": [38, 45, 49, 50, 64, 70, 74, 75, 76, 91, 92], "dump_build_info": [38, 45, 50], "get_build_info": [38, 45, 50], "set_devic": [38, 45, 50, 106], "get_is_colored_output_on": [39, 42, 50], "get_logging_prefix": [39, 42, 50], "get_reportable_log_level": [39, 42, 50], "set_is_colored_output_on": [39, 42, 50], "set_logging_prefix": [39, 42, 50], "set_reportable_log_level": [39, 42, 50], "make_int8_cache_calibr": [40, 44, 50, 90], "check_method_operator_support": [41, 45, 50], "convert_method_to_trt_engin": [41, 45, 50, 75, 76, 88, 91], "embed_engine_in_new_modul": [41, 45, 50, 76], "document": [42, 43, 44, 45, 50, 59, 79, 81, 82, 86, 87, 88, 90, 91, 104, 105, 106], "copyright": [42, 43, 44, 45, 82, 88], "c": [42, 43, 44, 45, 52, 59, 64, 69, 70, 71, 74, 75, 82, 89, 92, 94, 104, 106, 109], "corpor": [42, 43, 44, 45], "right": [42, 43, 44, 45, 55, 59, 60, 81], "reserv": [42, 43, 44, 45], "licens": [42, 43, 44, 45, 88], "under": [42, 43, 44, 45, 59, 65, 81, 97, 108], "bsd": [42, 43, 44, 45], "style": [42, 43, 44, 45, 64, 67, 79, 81, 82], "found": [42, 43, 44, 45, 63, 66, 74, 81, 88, 90, 92, 106], "root": [42, 43, 44, 45, 66, 79, 90, 101], "sourc": [42, 43, 44, 45, 54, 59, 64, 65, 70, 71, 72, 73, 74, 75, 76, 92, 94, 95, 96, 97, 98, 99, 100, 101, 102], "tree": [42, 43, 44, 45, 79, 90, 101, 106], "pragma": [42, 43, 44, 45, 90], "onc": [42, 43, 44, 45, 53, 55, 56, 58, 64, 65, 66, 75, 90, 92, 104, 106], "namespac": [42, 43, 44, 45, 51, 55, 68, 75, 90, 92], "ar": [42, 46, 49, 52, 53, 54, 55, 56, 58, 59, 60, 62, 63, 64, 65, 66, 70, 73, 74, 75, 76, 79, 81, 82, 83, 87, 88, 90, 91, 92, 94, 95, 97, 103, 104, 105, 106, 107, 108], "ones": [42, 56, 57, 59, 66, 81, 88, 92, 108], "necessari": [42, 62, 64, 66, 74, 106], "user": [42, 48, 54, 56, 57, 58, 59, 62, 63, 64, 66, 81, 82, 88, 89, 90, 102, 104, 105, 106, 108], "dont": 42, "know": [42, 60, 79, 81, 92], "we": [42, 44, 53, 54, 55, 56, 57, 58, 59, 60, 62, 63, 64, 65, 71, 74, 79, 81, 87, 88, 90, 92, 93, 94, 95, 96, 97, 99, 100, 101, 102, 103, 104, 105, 107, 108], "want": [42, 56, 65, 66, 67, 71, 87, 88, 90, 91, 92, 96, 104], "use_cmake_generated_export_head": 43, "torch_tensorrt_export": 43, "els": [43, 44, 48, 76, 81, 82, 101], "__gnuc__": 43, "__attribute__": 43, "__visibility__": 43, "hidden": [43, 79], "endif": [43, 44, 45], "doe": [43, 44, 55, 56, 60, 62, 65, 66, 75, 81, 90, 92, 95, 97, 99], "gaurd": 43, "someth": [43, 55, 81, 104], "5": [43, 52, 56, 58, 59, 64, 65, 66, 70, 74, 75, 81, 82, 85, 87, 88, 92, 94, 96, 104], "setup": [43, 90, 104], "alias": 43, "eas": 43, "ts": [43, 52, 56, 67, 68, 75, 87, 88, 89, 91, 105, 107], "torchtrt": [43, 56, 92, 101], "ifndef": [44, 45], "doxygen_should_skip_thi": [44, 45], "get_batch_impl": 44, "element_typ": 44, "super": [44, 87, 92, 96, 101, 105], "batchtyp": 44, "dataloader_": 44, "cache_file_path_": 44, "use_cache_": 44, "auto": [44, 56, 60, 64, 67, 70, 81, 82, 88, 90, 109], "batched_data_": 44, "push_back": [44, 56], "it_": 44, "begin": [44, 65, 66, 81, 96, 100], "noexcept": [44, 90], "hack": 44, "explict": 44, "work": [44, 55, 59, 60, 64, 65, 67, 70, 73, 74, 75, 81, 82, 90, 92, 96, 100, 105], "here": [44, 53, 54, 56, 58, 63, 64, 65, 66, 67, 79, 81, 82, 87, 88, 90, 92, 100, 101, 104, 105, 106, 107], "explic": 44, "just": [44, 45, 55, 56, 64, 65, 68, 72, 74, 81, 83, 87, 88, 89, 91, 92, 94, 103, 106], "still": [44, 56, 65, 66, 90, 96, 108], "static_cast": 44, "option": [44, 48, 52, 56, 57, 59, 62, 63, 64, 65, 70, 74, 75, 76, 81, 85, 90, 92, 96, 98, 106, 107, 109], "batch_siz": [44, 90, 101], "end": [44, 52, 60, 62, 69, 70, 75, 76, 81, 88, 90, 92, 94, 95, 96, 97, 98, 99, 100, 101], "statu": [44, 82], "reset": [44, 96, 99, 106], "incas": 44, "go": [44, 55, 56, 65, 67, 87, 88, 92, 94, 95, 96, 97, 98, 99, 100, 101, 103, 104, 108], "again": [44, 58, 60, 81, 92, 94], "stringstream": 44, "ss": 44, "cache_": 44, "clear": 44, "ifstream": 44, "io": [44, 104], "binari": [44, 90], "noskipw": 44, "good": [44, 60, 65, 81], "copi": [44, 60, 65, 69, 73, 82, 104], "istream_iter": 44, "back_insert": 44, "nullptr": [44, 45, 49], "ofstream": [44, 88], "cache_fil": [44, 73, 90], "reinterpret_cast": 44, "cache_size_": 44, "int8_t": 45, "arrayref": [45, 48, 49], "friend": 45, "ostream": 45, "os": 45, "dtype": [45, 48, 49, 52, 63, 64, 65, 69, 70, 71, 74, 75, 76, 89, 92, 97, 99, 100, 103, 105], "device_typ": [45, 46, 75, 90, 91, 109], "int64_t": [45, 46, 48, 49, 90, 109], "core": [45, 52, 55, 56, 59, 64, 70, 75, 88, 108, 109], "agx": 45, "platform": [45, 52, 59, 66, 104, 109], "xavier": [45, 109], "dla_cor": [45, 46, 52, 75, 90, 91, 109], "allow_gpu_fallback": [45, 46, 70, 75, 76, 90, 91, 109], "customclasshold": [45, 48], "min_shap": [45, 48, 63, 65, 70, 75, 76, 89, 97, 100, 103, 105], "opt_shap": [45, 48, 63, 70, 75, 76, 89, 97, 100, 103, 105], "max_shap": [45, 48, 63, 65, 70, 75, 76, 89, 97, 100, 103, 105], "shape": [45, 47, 48, 49, 52, 56, 60, 63, 65, 68, 69, 70, 71, 74, 75, 76, 89, 92, 100, 101, 104, 106, 109], "doubl": [45, 48, 49, 52, 63, 70, 75, 76, 81, 106], "tensor_domain": [45, 48, 75], "input_is_dynam": 45, "ivalu": [45, 47, 49, 53, 58, 60, 88], "input_signatur": [45, 47, 49, 76, 89], "nest": [45, 49, 50, 81, 82], "full": [45, 49, 52, 60, 64, 70, 72, 75, 88, 90, 92, 94, 95, 96, 97, 98, 99, 100, 101, 104, 106, 109], "spec": [45, 48, 49, 52, 72, 75, 76, 91], "flatten": [45, 47, 69, 87, 88, 101], "fixed_s": [45, 49], "reflect": [45, 75], "builderconfig": 45, "graph_input": [45, 49], "enabled_precis": [45, 49, 63, 64, 70, 74, 75, 76, 88, 89, 90, 91, 92, 94, 95, 96, 97, 98, 99, 101, 104, 109], "disable_tf32": [45, 49, 64, 70, 74, 75, 76, 90, 92], "sparse_weight": [45, 49, 64, 65, 70, 74, 75, 76, 92], "refit": [45, 49, 64, 70, 75, 76, 91, 92, 93, 94, 102], "truncate_long_and_doubl": [45, 49, 63, 64, 76, 98], "allow_shape_tensor": [45, 49, 76], "uint64_t": [45, 49], "num_avg_timing_it": [45, 49, 64, 70, 74, 75, 76, 91, 92], "workspace_s": [45, 49, 52, 64, 70, 74, 75, 76, 92, 95, 97, 99], "dla_sram_s": [45, 49, 52, 64, 70, 74, 75, 76, 92], "1048576": [45, 49, 64, 70, 74, 75, 76, 92], "dla_local_dram_s": [45, 49, 52, 64, 70, 74, 75, 76, 92], "1073741824": [45, 49, 64, 70, 74, 75, 76, 92], "dla_global_dram_s": [45, 49, 52, 64, 70, 74, 75, 76, 92], "536870912": [45, 49, 64, 70, 74, 75, 76, 92], "require_full_compil": [45, 49, 64, 70, 74, 75, 76, 92], "min_block_s": [45, 49, 56, 63, 64, 70, 74, 75, 76, 92, 95, 96, 97, 99, 101], "3": [45, 49, 52, 55, 56, 58, 63, 64, 65, 67, 69, 70, 73, 75, 76, 81, 82, 85, 87, 88, 90, 91, 92, 94, 95, 97, 100, 101, 103, 105, 107, 109], "torch_executed_op": [45, 49, 56, 63, 64, 70, 74, 75, 76, 92, 95, 96, 97, 99], "torch_executed_modul": [45, 49, 56, 70, 75, 76], "member": [46, 47, 48, 49], "hold": [46, 47, 48, 53, 60, 75, 90], "relat": [46, 81, 96, 99], "let": [46, 52, 55, 60, 65, 70, 75, 76, 79, 81, 103, 104, 108], "layer": [46, 49, 52, 53, 55, 60, 62, 64, 65, 70, 74, 75, 76, 88, 90, 92, 101, 103, 104, 105, 108, 109], "thei": [46, 52, 53, 54, 55, 58, 60, 65, 73, 74, 75, 79, 81, 89], "complex": [47, 49, 64, 66, 87, 89, 94], "either": [47, 48, 52, 60, 62, 70, 75, 76, 79, 81, 87, 88, 89, 92, 107], "one": [47, 54, 55, 60, 64, 65, 70, 74, 75, 81, 87, 88, 89, 92, 96, 99, 104], "rang": [48, 49, 52, 65, 75, 92, 97, 103, 105], "optim": [48, 52, 63, 64, 65, 68, 70, 71, 73, 75, 87, 88, 89, 95, 97, 98, 99, 103, 105, 108], "profil": [48, 71, 74], "singl": [48, 52, 55, 56, 65, 75, 81, 87, 88, 90, 106], "repres": [48, 49, 54, 60, 65, 67, 81], "signifi": [48, 55], "static": [48, 49, 53, 60, 63, 64, 70, 75, 76, 79, 88, 101, 105], "three": [48, 57, 59, 65, 71, 75, 81, 82, 103, 104], "min": [48, 52, 60, 69, 75, 97, 105], "optimin": 48, "max": [48, 52, 60, 69, 75, 79, 97, 101, 105], "allow": [48, 49, 52, 53, 54, 55, 56, 62, 64, 65, 66, 70, 75, 76, 79, 92, 97, 99, 106], "argument": [48, 52, 54, 55, 58, 60, 62, 64, 65, 70, 74, 75, 76, 81, 82, 88, 89, 92, 105], "expect": [48, 54, 55, 60, 75, 88, 89, 103], "tradit": [48, 70, 75, 76, 90], "convect": 48, "produc": [48, 53, 54, 58, 60, 63, 75, 81, 88, 103], "low": [48, 65, 94], "high": [48, 55, 56, 79, 92, 108], "weight": [48, 49, 52, 53, 64, 65, 69, 70, 75, 76, 81, 88, 93, 94, 98, 102, 103], "first": [48, 53, 54, 55, 65, 67, 81, 82, 88, 89, 90, 92, 94, 96, 104, 105, 107, 108], "calcul": [48, 53, 56, 88, 92], "detect": [48, 58, 75], "float32": [48, 49, 52, 63, 64, 65, 70, 75, 76, 92, 94, 98, 105], "dynam": [48, 49, 63, 65, 68, 70, 71, 75, 76, 96, 98, 99, 106], "opt": [48, 66, 74, 75, 100], "minimum": [48, 49, 52, 56, 63, 64, 70, 75, 76, 92], "maximum": [48, 49, 52, 64, 65, 70, 71, 75, 76, 97, 99, 104], "accept": [48, 52, 54, 58, 60, 66, 75, 88, 89, 96, 107], "exampl": [48, 56, 58, 59, 60, 65, 66, 68, 70, 72, 74, 75, 76, 77, 79, 80, 82, 85, 87, 88, 89, 90, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 104, 105, 106, 107], "s": [48, 49, 53, 56, 58, 60, 63, 65, 66, 68, 70, 71, 74, 75, 79, 81, 82, 87, 88, 90, 92, 103, 104, 105, 106, 107], "cannot": [48, 55, 56, 65, 66, 70, 74, 75, 76, 80, 87, 92], "through": [48, 53, 54, 55, 56, 58, 64, 65, 70, 72, 73, 81, 88, 89, 92, 94, 95, 103, 108], "altern": [48, 56, 62, 63, 75, 89, 100, 103, 107], "refer": [48, 54, 57, 59, 65, 80, 85, 88, 90, 92, 101, 104, 105, 107], "given": [48, 49, 52, 54, 55, 65, 70, 71, 73, 75, 76, 87, 88, 89, 91, 105], "kernel": [48, 49, 52, 60, 64, 65, 70, 75, 76, 93, 102, 106], "ani": [48, 52, 53, 54, 60, 62, 64, 65, 69, 70, 73, 74, 75, 76, 79, 81, 88, 89, 90, 92, 97, 105], "event": [48, 64], "place": [48, 55, 62, 65, 81, 82, 83, 90, 92, 101], "variabl": [48, 65, 74, 75], "dimens": [48, 55, 65, 71, 75, 97, 103, 105], "domain": [48, 75, 82, 90], "convien": 49, "fix": [49, 65, 81, 92, 106, 109], "describ": [49, 56, 60, 75, 87, 91, 93, 102, 104], "entri": [49, 60], "okai": 49, "ha": [49, 53, 54, 55, 56, 57, 59, 60, 62, 64, 65, 66, 70, 71, 75, 81, 82, 87, 88, 90, 101, 103, 105, 108], "flaten": 49, "precis": [49, 52, 63, 64, 65, 70, 75, 88, 89, 90, 97, 99, 109], "dure": [49, 52, 54, 56, 60, 63, 64, 70, 73, 75, 90, 103, 105, 106], "prevent": [49, 52, 54, 56], "tf32": [49, 52, 64, 70], "comput": [49, 64, 65, 66, 70, 74, 81, 90, 103], "inner": [49, 82, 103], "product": [49, 75, 95], "round": [49, 70, 75, 76, 92], "10": [49, 66, 70, 71, 75, 76, 85, 87, 88, 90, 101, 103, 104, 105], "bit": [49, 60, 65, 66, 70, 75, 76, 88], "mantissa": [49, 70, 75, 76], "befor": [49, 54, 55, 56, 59, 60, 65, 70, 75, 76, 88, 104, 105], "multipli": [49, 70, 75, 76], "accumul": [49, 70, 75, 76], "sum": [49, 65, 69, 70, 75, 76, 92, 101], "23": [49, 55, 70, 75, 76, 82], "behavior": [49, 56, 65, 70, 75, 76, 105, 106, 107], "sparsiti": [49, 52, 65, 70, 75, 76], "conv": [49, 52, 88, 92], "fc": [49, 52, 55], "truncat": [49, 52, 63, 64, 70, 75, 76], "long": [49, 52, 53, 63, 75, 81, 82], "float": [49, 52, 63, 64, 69, 75, 87, 88, 89, 90, 91, 92, 95, 96, 99, 100], "ishap": 49, "restrict": [49, 64, 70, 75, 76, 105], "cuda": [49, 58, 63, 65, 67, 70, 71, 74, 75, 88, 89, 90, 91, 92, 94, 95, 97, 98, 100, 101, 104, 105, 106, 107], "safeti": [49, 52, 75], "averag": [49, 52, 64, 70, 75, 76, 92], "time": [49, 52, 53, 54, 55, 56, 57, 58, 59, 60, 64, 65, 66, 67, 68, 70, 71, 74, 75, 76, 79, 81, 88, 90, 92, 94, 96, 97, 98, 99, 100, 101], "workspac": [49, 52, 64, 65, 66, 70, 71, 75, 76, 92, 96, 97, 99], "fast": [49, 52, 64, 67, 70, 75, 76], "softwar": [49, 52, 64, 70, 75, 76, 81], "manag": [49, 52, 53, 55, 57, 59, 60, 64, 70, 72, 74, 75, 76, 88, 100, 106], "ram": [49, 52, 64, 70, 75, 76], "commun": [49, 52, 64, 70, 75, 76, 88], "within": [49, 52, 57, 59, 64, 70, 74, 75, 76, 79, 81, 93, 102], "host": [49, 52, 64, 66, 70, 75, 76, 92, 104], "share": [49, 52, 64, 66, 70, 74, 75, 76], "across": [49, 52, 55, 56, 64, 70, 75, 76, 79], "metadata": [49, 52, 54, 58, 60, 64, 70, 75, 76, 79, 105], "quantizatiom": 49, "instead": [49, 52, 53, 54, 55, 66, 70, 74, 75, 88, 101, 106], "potenti": [49, 70, 75, 84], "subgraph": [49, 52, 53, 54, 55, 60, 62, 88, 92, 108], "aten": [49, 54, 55, 56, 60, 61, 64, 68, 69, 70, 75, 76, 88, 96, 108], "thrown": [49, 70, 75, 76], "empti": [49, 70, 71, 75, 76, 82, 87, 92], "torch_tensorrtnamespac": 50, "loggingenum": 50, "levelnamespac": 50, "ptqtemplat": 50, "int8cachecalibratortempl": 50, "int8calibratornamespac": 50, "torchscriptstruct": 50, "compilespecstruct": 50, "deviceclass": 50, "devicetypestruct": 50, "graphinputsstruct": 50, "inputclass": 50, "datatypeclass": 50, "tensorformatenum": 50, "cppdirectori": 50, "includedirectori": 50, "torch_tensorrtfil": 50, "hfile": 50, "relationship": 50, "inherit": [50, 65, 90], "subdirectori": 51, "definit": [51, 54, 60, 81], "cli": [52, 89], "It": [52, 54, 55, 56, 57, 59, 60, 65, 66, 68, 75, 79, 81, 92, 103, 106, 108], "serv": [52, 58, 65, 68, 70, 75], "easi": [52, 53, 55, 88, 90], "wai": [52, 64, 65, 66, 87, 88, 90, 92, 93, 102, 103, 106, 107], "command": [52, 64, 66, 81, 82, 87, 88, 104], "line": [52, 66, 82, 88, 94], "quickli": [52, 88, 90], "part": [52, 56, 59, 65, 74, 79, 80, 81, 92], "deploy": [52, 74, 88, 89, 90, 103, 104, 106, 109], "pipelin": [52, 88, 94, 98, 109], "basic": [52, 56, 65, 82, 102, 104], "featur": [52, 56, 65, 66, 88, 90, 91, 98, 101, 103, 108], "though": [52, 59, 60, 87, 88, 108], "alreadi": [52, 53, 54, 55, 88, 90, 92, 105], "two": [52, 55, 60, 62, 64, 65, 66, 75, 81, 82, 86, 87, 89, 90, 104, 105], "embed": [52, 54, 58, 69, 76, 81, 109], "plan": [52, 59, 63, 64, 70], "after": [52, 53, 55, 56, 62, 65, 70, 74, 75, 87, 88, 89, 96, 99, 104, 106], "link": [52, 53, 62, 68, 79, 80, 85, 88, 92, 106], "against": [52, 88], "libtorchtrt": [52, 66, 88], "python": [52, 56, 59, 62, 64, 65, 70, 71, 74, 75, 76, 81, 82, 88, 91, 92, 94, 96, 97, 98, 99, 100, 101, 102, 103, 104, 106, 109], "import": [52, 55, 56, 63, 64, 65, 66, 67, 74, 79, 81, 87, 88, 89, 91, 92, 94, 104, 105, 106, 107], "packag": [52, 55, 64, 88], "aspect": 52, "ident": [52, 62, 70, 75], "standard": [52, 58, 66, 68, 70, 74, 75, 76, 81, 91, 92, 94, 103, 106], "load": [52, 56, 58, 65, 67, 70, 73, 74, 75, 76, 88, 89, 90, 91, 92, 94, 95, 103, 104, 106, 108], "like": [52, 53, 55, 58, 60, 65, 66, 67, 75, 80, 81, 87, 88, 89, 90, 92, 94, 104, 106], "would": [52, 54, 60, 64, 65, 66, 74, 88, 89, 91, 92, 104, 106], "input_file_path": [52, 109], "output_file_path": [52, 109], "input_spec": [52, 65, 71], "displai": [52, 62, 64, 72, 79, 106], "menu": [52, 79, 81], "verbios": 52, "v": [52, 82, 101, 104], "verbos": [52, 64, 65, 70, 71, 82, 97, 99], "about": [52, 53, 58, 60, 66, 74, 79, 88, 104, 105], "process": [52, 56, 64, 75, 80, 81, 87, 90, 91, 96, 100, 103, 104, 106], "onto": [52, 58], "consol": 52, "w": [52, 66, 75], "disabl": [52, 64, 66, 70, 74, 79, 80, 106], "i": [52, 55, 60, 66, 67, 69, 81, 82, 87, 88, 90, 92, 101], "debugg": [52, 70, 75, 76], "fallback": [52, 57, 59, 60, 109], "model": [52, 56, 58, 63, 67, 68, 70, 71, 72, 73, 75, 87, 88, 89, 90, 91, 93, 94, 102, 105, 106, 108], "throw": [52, 55, 75, 88], "spars": [52, 54, 64, 69, 70], "p": [52, 69, 88, 104, 109], "repeat": [52, 69], "f32": [52, 70, 74, 75, 92], "half": [52, 64, 75, 81, 88, 89, 90, 91, 92, 96, 97, 104, 109], "float16": [52, 75, 92, 94, 98], "f16": [52, 75, 88, 109], "i8": [52, 75], "d": [52, 75, 81, 82, 88, 109], "multi": [52, 74], "dlacor": 52, "avail": [52, 54, 60, 62, 64, 65, 66, 70, 74, 75, 79, 92, 108, 109], "dla_standalon": [52, 75], "file_path": [52, 75, 107], "teo": 52, "op_nam": 52, "op": [52, 53, 54, 55, 56, 57, 59, 60, 62, 63, 64, 74, 75, 88, 96, 106, 108], "partial": [52, 81], "tem": 52, "module_nam": 52, "mod": [52, 56, 65, 70, 85, 88, 90], "mb": [52, 77], "num_op": 52, "block": [52, 53, 55, 56, 64, 70, 85, 108], "treat": 52, "num": 52, "avg": 52, "num_it": 52, "sram": 52, "local": [52, 55, 66, 79, 88], "dram": 52, "atol": 52, "absolut": [52, 66], "toler": 52, "threshold": 52, "numer": [52, 65, 82], "deviat": 52, "1e": [52, 94, 95], "rtol": 52, "rel": [52, 56], "skip": 52, "complianc": 52, "64bit": 52, "32bit": 52, "custom": [52, 62, 63, 65, 66, 93, 102], "dll": 52, "n": [52, 60, 62, 75, 88, 90, 92], "min_n": 52, "min_c": 52, "min_h": 52, "min_w": 52, "opt_n": 52, "opt_c": 52, "opt_h": 52, "opt_w": 52, "max_n": 52, "max_c": 52, "max_h": 52, "max_w": 52, "32": [52, 75, 87, 88, 89, 90, 101, 109], "flag": [52, 56, 57, 59, 66, 73, 75, 89, 100, 106, 107], "forc": [52, 63, 65, 70, 75, 76, 79], "posit": [52, 54, 65, 75, 79], "test": [52, 56, 59, 65, 66, 70, 75, 81, 82, 90, 95, 101, 103, 104], "ssd_trace": 52, "pt": [52, 65, 88, 104], "ssd_trt": 52, "300": [52, 91], "512": [52, 70, 75, 76, 101, 103], "1024": [52, 70, 75, 76, 103], "simplifi": [53, 92], "form": [53, 74, 75, 81, 89, 104], "up": [53, 55, 56, 57, 58, 59, 62, 65, 66, 70, 75, 81, 87, 92, 96, 99, 103], "context": [53, 57, 58, 59, 64, 72, 74, 100, 106], "inetworkdefinit": [53, 54], "record": [53, 87, 100, 106], "togeth": [53, 60, 88], "start": [53, 56, 65, 69, 73, 75, 82, 88, 91, 92, 103], "look": [53, 54, 55, 67, 70, 75, 87, 90, 91, 104, 105], "assembl": [53, 62, 88], "resourc": [53, 90, 92], "coupl": [53, 59, 65, 106], "state": [53, 54, 60, 62, 74, 88, 94], "been": [53, 60, 64, 66, 73, 82, 88, 108], "evaluated_value_map": [53, 60], "stage": [53, 65], "arg": [53, 54, 62, 65, 70, 73, 74, 75, 85, 88, 92, 101, 103], "itensor": [53, 54, 60, 65, 88, 92], "value_tensor_map": [53, 60], "typic": [53, 60, 75, 104], "abl": [53, 55, 60, 62, 65, 90, 91, 92], "system": [53, 60, 62, 64, 68, 70, 74, 75, 76, 92, 108], "registri": [53, 54, 88, 92], "enter": [53, 75], "recurs": 53, "resolv": [53, 55, 57, 59, 96, 99], "until": [53, 56, 59, 60, 66, 70, 75, 108], "final": [53, 56, 57, 59, 66, 92, 96, 99, 103], "some": [53, 54, 55, 56, 57, 58, 59, 60, 62, 63, 65, 66, 75, 80, 81, 88, 90, 92, 105, 108], "These": [53, 54, 56, 58, 62, 64, 66, 70, 73, 74, 75, 79, 81, 90, 104, 108], "those": [53, 54, 62, 64, 81], "do": [53, 54, 55, 56, 60, 63, 65, 80, 82, 87, 88, 89, 90, 92, 109], "theori": [53, 81], "kind": [53, 65], "common": [53, 55, 65, 71, 81], "prim": [53, 55, 56, 58, 69, 87, 88], "constant": [53, 54, 55, 56, 88, 92, 95], "emit": 53, "listconstruct": [53, 56, 58, 88], "make": [53, 54, 65, 66, 70, 75, 81, 83, 88, 89, 90, 92, 93, 95, 102, 103, 104, 109], "associ": [53, 60, 88, 106], "where": [53, 54, 55, 60, 62, 64, 65, 70, 74, 75, 76, 82, 88, 90], "result": [53, 55, 56, 66, 67, 70, 72, 74, 75, 76, 79, 87, 89, 92, 94, 95, 104, 108], "done": [53, 56, 59, 92, 95, 104, 107], "mai": [53, 54, 56, 58, 59, 65, 66, 70, 74, 75, 76, 81, 82, 87, 88, 89, 90, 92, 96, 99, 104, 106], "For": [53, 56, 62, 63, 64, 65, 66, 67, 71, 75, 79, 81, 82, 87, 88, 90, 91, 92, 94, 96, 101, 103, 104, 106, 107], "more": [53, 64, 65, 66, 68, 70, 75, 79, 82, 87, 88, 89, 90, 91, 92, 94, 95, 97, 99, 104, 106], "writing_convert": [53, 88], "locat": [54, 62, 66, 90, 92], "py": [54, 55, 59, 62, 65, 66, 77, 79, 81, 86, 87, 88, 90, 92, 94, 95, 96, 97, 98, 99, 100, 101, 105], "convers": [54, 55, 56, 58, 63, 64, 65, 70, 75, 76, 88, 92, 105], "decror": 54, "dynamo_tensorrt_convert": [54, 92], "signatur": [54, 76], "leaky_relu": [54, 69], "def": [54, 62, 65, 81, 87, 89, 92, 96, 101, 104, 105], "leaky_relu_convert": 54, "ctx": [54, 60, 88, 92], "conversionctx": [54, 60, 88], "tupl": [54, 58, 63, 65, 70, 71, 74, 75, 76, 89, 92, 95, 105], "kwarg": [54, 65, 70, 73, 74, 75, 92, 103], "dict": [54, 70, 74, 75, 76, 92], "union": [54, 60, 64, 70, 74, 75, 76, 88], "sequenc": [54, 62, 65, 70, 71, 74, 75, 76, 81, 92, 103], "decor": [54, 62, 65], "kei": [54, 81, 87, 104, 105], "node": [54, 55, 56, 57, 59, 60, 62, 65, 71, 88, 92, 101, 103, 105], "capability_valid": 54, "lambda": [54, 60, 81, 88, 104], "fx": [54, 62, 63, 70, 74, 75, 88, 89, 92, 95, 107], "determin": [54, 55, 64, 65, 75, 105, 106], "properli": [54, 66], "handl": [54, 55, 56, 58, 64, 65, 74, 75, 92], "partition": [54, 70, 75, 92], "sure": [54, 66, 88, 89, 104, 109], "prioriti": 54, "develop": [54, 65, 66, 68, 81, 82, 88, 92], "bodi": [54, 81, 82], "nativ": [54, 59, 61, 88, 92], "numpi": [54, 75, 92, 94, 95, 104], "frozen": 54, "attribut": [54, 55, 56, 58, 65, 75, 81, 88], "previou": [54, 79, 96], "correspond": [54, 60, 65, 66, 74, 75, 94, 101, 106], "edg": [54, 81], "well": [54, 63, 66, 68, 72, 74, 81, 88, 90, 100, 107], "being": [54, 65, 66, 70, 88, 92], "truth": 54, "http": [54, 61, 64, 66, 79, 81, 87, 88, 90, 92, 94, 96, 99, 101, 103, 104, 105, 106], "github": [54, 61, 64, 66, 79, 88, 90, 96, 99, 101, 104, 106], "com": [54, 61, 64, 66, 88, 90, 94, 96, 99, 101, 104, 106], "blob": [54, 61, 66, 79, 90], "main": [54, 55, 56, 57, 58, 59, 60, 63, 65, 66, 79, 81, 83, 88, 92, 101], "src": [54, 58, 61, 69], "native_funct": [54, 61], "yaml": [54, 61], "sinc": [54, 55, 64, 65, 74, 81, 87, 88, 90], "mani": [54, 56, 64, 65, 79, 81, 82, 95, 108], "composit": [54, 88], "raw": [54, 79], "impl": 54, "subpackag": 54, "chain": [54, 60], "primarili": [54, 59, 66, 88], "manipul": [54, 62, 75], "net": [54, 60, 81, 82, 88, 92], "addit": [54, 55, 64, 65, 74, 75, 88, 92, 103, 105], "call_modul": 54, "call_funct": [54, 62, 65], "eg": [54, 104], "aten_": 54, "_leaky_relu": 54, "opoverloadpacket": 54, "while": [54, 56, 66, 74, 90, 94, 103, 104, 106, 108], "opoverload": 54, "particular": [54, 64], "collect": [54, 56, 64, 70, 75, 76, 88, 89, 101], "trtinterpret": [54, 65, 71], "along": [54, 75], "match": [54, 55], "special": [54, 56], "account": [54, 104], "illustr": [54, 65, 97, 103], "scale_grad_by_freq": [54, 69], "embedding_param_valid": 54, "establish": 54, "subset": [54, 64, 70, 75, 90, 103], "converter_util": [54, 92], "enforce_tensor_typ": 54, "dictionari": [54, 75, 76, 91, 96], "between": [54, 55, 56, 60, 66, 75, 81, 82, 90, 94], "possibl": [54, 66, 81, 92, 103, 104], "prefer": [54, 64, 66, 88], "keyword": [54, 62, 70, 74, 75, 76, 96, 99], "both": [54, 56, 64, 66, 68, 70, 71, 74, 75, 79, 81, 87, 90, 92], "enforc": [54, 88], "situat": 54, "partit": [54, 55, 63, 64, 70, 75, 108], "greater": [54, 70, 72, 75], "than": [54, 55, 64, 66, 70, 75, 80, 81, 94, 103, 106], "3d": [54, 65], "autocast": 54, "therebi": [54, 58, 92, 103], "limit": [54, 55, 72, 80, 90, 108], "author": [54, 82], "conv_nod": 54, "7": [54, 56, 58, 59, 74, 75, 85, 88, 92, 96, 97, 99, 101, 105], "ignor": [54, 74, 75, 92], "misc": [54, 92], "trttensor": 54, "np": [54, 92, 94, 95, 104], "ndarrai": [54, 92], "aten_ops_convolut": 54, "conversioncontext": [54, 92], "side": [54, 55, 79, 88], "effect": [54, 55, 64, 65, 70, 79, 88, 90, 92, 103], "term": [54, 75, 81, 82, 90, 92, 103], "getitem": 54, "categor": 54, "modif": [54, 62, 75], "op_evalu": 54, "capbility_valid": 54, "opcod": 54, "decompos": 54, "suboper": 54, "separ": [54, 56, 57, 59, 66], "Such": 54, "via": [54, 64, 65, 68, 70, 74, 75, 76, 79, 85, 89, 90, 96, 97, 99, 103, 105, 106, 107, 108], "register_torch_trt_decomposit": 54, "addmm_replac": 54, "replac": [54, 56, 62, 66, 73, 92, 101, 108], "input_": 54, "mat1": 54, "mat2": [54, 69], "beta": [54, 65, 69, 76], "alpha": [54, 65, 69, 82], "mul": [54, 56, 69], "matmul": [54, 55, 69, 88, 105], "modifi": [54, 56, 62, 65, 82, 93, 94, 102, 105], "edit": [54, 66, 79], "torch_enabled_decomposit": 54, "torch_disabled_decomposit": 54, "disjoint": 54, "preced": [54, 81], "over": [54, 57, 59, 65, 81, 101, 104, 108], "much": [54, 60, 79, 81, 90], "significantli": [54, 55, 79], "easier": [54, 57, 59, 60, 65, 70, 74, 75, 88, 90, 92, 94], "tri": 54, "made": [55, 57, 59, 75, 81], "represent": [55, 60, 65, 87, 103, 108], "instanc": [55, 62, 64, 66, 73, 74, 87, 88, 103, 106], "idea": [55, 81], "reduc": [55, 56, 57, 59, 65, 70, 75, 90, 92, 103, 106], "actual": [55, 58, 60, 65, 87, 88, 92], "aim": [55, 108], "closer": 55, "scope": [55, 92, 96, 99], "csrc": [55, 61], "common_subexpression_elimin": 55, "subexpress": 55, "dead_code_elimin": 55, "exception_elimin": 55, "wa": [55, 58, 62, 64, 65, 70, 74, 75, 81, 88, 108], "1013": 55, "ne": [55, 69], "1012": 55, "24": 55, "lib": [55, 66, 88], "python3": [55, 66, 88], "6": [55, 56, 58, 66, 69, 85, 87, 88, 92], "site": [55, 66, 81, 88], "nn": [55, 61, 65, 70, 71, 74, 75, 76, 87, 88, 89, 92, 96, 101, 105, 108], "batchnorm": 55, "248": 55, "11": [55, 66, 81, 85, 88, 104], "block0": 55, "raiseexcept": 55, "249": 55, "12": [55, 56, 81, 85, 87, 88, 97, 104, 105], "block1": 55, "guard_elimin": 55, "whose": [55, 65, 97], "freeze_modul": 55, "propag": 55, "fuse_addmm_branch": 55, "variant": [55, 106], "caught": 55, "ret": 55, "622": 55, "self": [55, 58, 60, 69, 74, 75, 87, 88, 89, 92, 96, 101, 103, 105, 109], "bia": [55, 69, 88, 101], "x9": 55, "3677": 55, "output0": 55, "add_": [55, 69, 88], "fuse_linear": 55, "back": [55, 56, 58, 59, 74, 75, 81, 87, 88, 92, 108], "fuse_flatten_linear": 55, "implicitli": [55, 75], "connect": [55, 70, 75, 76, 81, 94, 104, 109], "higher": [55, 64, 70, 75, 79, 81, 87], "1d": 55, "lower_graph": 55, "access": [55, 60, 65, 79, 88, 91, 108], "rather": 55, "getattr": [55, 58, 87, 88], "trainabl": 55, "remain": [55, 75, 90, 108], "lower_tupl": 55, "lowersimpletupl": 55, "tupleconstruct": [55, 58], "tupleunpack": 55, "leav": [55, 62, 64, 70], "statement": [55, 81], "loweralltupl": 55, "_all_": 55, "rais": [55, 65, 75], "onnx": 55, "module_fallback": 55, "consist": [55, 65, 81, 92, 106, 108], "pair": [55, 60, 66, 81, 90, 103], "delimit": 55, "around": [55, 58, 60, 66, 74, 81, 84, 87, 92], "second": [55, 65, 81, 89, 92, 94, 95, 96, 97, 98, 99, 100, 101], "mark": [55, 56, 79], "notatemoduleforfallback": 55, "marknodesforfallback": 55, "tell": [55, 56, 57, 58, 59, 60, 81, 108], "them": [55, 56, 58, 63, 64, 65, 66, 70, 74, 79, 88, 92, 103, 105, 108], "peephole_optimz": 55, "intent": [55, 81], "catch": [55, 75, 88], "small": [55, 92, 104], "might": [55, 66, 79, 105], "interest": [55, 81], "now": [55, 56, 59, 60, 65, 66, 75, 81, 88, 91, 92, 106], "expand": [55, 69], "simpli": [55, 96, 103], "remove_contigu": 55, "remove_dropout": 55, "infer": [55, 64, 65, 70, 75, 76, 88, 90, 93, 95, 96, 102, 103, 105, 106, 107, 108], "remove_to": 55, "unpack_addmm": 55, "reus": [55, 65, 90], "dedic": [55, 82], "unpack_log_softmax": 55, "softmax": [55, 65, 69, 101], "loop_unrol": 55, "suffici": [55, 66, 75], "short": [55, 64, 70, 81, 82], "tile_to_repeat": 55, "instruct": [56, 57, 59, 65, 66, 88, 104], "criteria": [56, 57, 59, 64], "lack": [56, 57, 59, 65, 92], "explicitli": [56, 57, 59, 66, 76, 89, 90, 91], "On": 56, "segment": [56, 63, 92, 97, 99, 103], "verifi": [56, 70, 92], "Then": [56, 90, 91], "roughli": 56, "analysi": 56, "everi": [56, 71, 74, 75, 88, 106], "complet": [56, 63, 70, 75, 87, 88], "mean": [56, 60, 65, 69, 71, 96, 104, 108], "trace": [56, 65, 70, 74, 76, 87, 88, 105, 107, 108], "tensorlist": [56, 60], "figur": [56, 82, 84], "our": [56, 59, 63, 87, 88, 104], "stitch": [56, 88], "altogeth": [56, 79], "brief": 56, "descript": [56, 82, 101], "partitioninfo": 56, "api": [56, 59, 60, 62, 63, 64, 65, 74, 75, 76, 80, 88, 89, 90, 91, 92, 93, 96, 97, 100, 102, 103, 104, 105, 106, 107], "maintain": [56, 58, 60, 75, 94, 108], "code": [56, 59, 62, 64, 65, 66, 80, 82, 87, 88, 90, 92, 94, 95, 96, 97, 98, 99, 100, 101, 102, 105], "mymodel": [56, 63, 67, 89, 92, 105, 107], "ts_model": [56, 88], "trt_model": [56, 91, 92, 97, 101, 104, 107], "off": [56, 58, 100], "consecut": [56, 63], "satisfi": [56, 62, 65], "forced_fallback_op": 56, "randn": [56, 63, 67, 70, 75, 76, 88, 91, 97, 100, 105, 107], "224": [56, 63, 67, 70, 71, 75, 76, 88, 94, 95, 97, 100, 103, 104, 105, 107], "trt_ts_modul": [56, 89], "input_s": 56, "inputrang": 56, "cfg": [56, 88], "relu": [56, 69, 87, 88, 96, 101], "trt_mod": [56, 67, 88, 90, 109], "consid": [56, 76, 88, 92], "segmentmodelwithdependencyawar": 56, "test_segment": 56, "20": [56, 85, 95, 97, 99], "x_lgamma": 56, "lgamma": 56, "y_lgamma": 56, "div": [56, 69], "div_lgamma": 56, "27": [56, 88], "cat": [56, 66, 69, 101], "greedi": 56, "strategi": [56, 75], "travers": [56, 57, 59, 64], "gather": 56, "same": [56, 58, 62, 64, 65, 66, 70, 75, 79, 81, 87, 88, 91, 92, 95, 97, 99, 104, 105, 106, 107], "encount": [56, 64, 66, 96, 99], "4": [56, 58, 63, 64, 65, 66, 69, 75, 77, 79, 81, 82, 85, 88, 92, 96, 98, 99, 100, 101, 105], "suboptim": 56, "arithmet": 56, "split": [56, 65, 69], "own": [56, 60, 64, 66, 81, 88, 101, 104], "could": [56, 64, 65, 92, 97, 99, 106], "rewrit": [56, 62], "portion": [56, 81, 92, 98], "without": [56, 60, 67, 70, 79, 81, 88, 90, 92, 95, 106], "reorder": 56, "seri": 56, "cleanli": 56, "approach": 56, "achiev": [56, 103], "hit": 56, "larger": [56, 70, 75, 79, 103], "boundari": [56, 73, 75], "guarante": [56, 74], "trigger": [56, 64, 65, 75, 88, 94, 108], "appear": [56, 81], "adjac": [56, 70, 75, 81], "As": [56, 65, 66, 75, 88, 92, 108], "clean": [56, 62, 81, 96, 99], "step": [56, 65, 69, 75, 90, 92, 103], "consolid": [56, 87], "further": [56, 64, 65, 106, 108], "merg": 56, "identifi": 56, "do_not_merg": 56, "combin": [56, 64, 65], "condit": [56, 81, 108], "loop": [56, 64, 65], "ir": [57, 59, 60, 63, 64, 67, 70, 75, 87, 88, 89, 93, 96, 97, 99, 100, 102, 105], "larg": [57, 59, 79, 81, 88, 90, 103], "opset": [57, 59], "compon": [57, 59, 66, 73, 87, 106, 108], "evalu": [57, 58, 59, 101], "deploi": [57, 59, 68, 88, 90, 93, 102, 104], "instanti": [57, 58, 59, 60, 88, 98], "wrap": [57, 58, 59, 65, 81, 84, 88, 91, 96, 99], "extend": [57, 59, 60, 69, 88, 103], "providi": [57, 59], "stand": [58, 81], "interpret": [58, 65, 81], "execute_engin": [58, 74, 88], "stack": [58, 69, 90, 101, 108], "machin": [58, 66, 90, 104], "pop": 58, "push": 58, "element": [58, 65, 81, 82, 85], "realiz": 58, "abstract": [58, 60, 82], "__torch__": [58, 87, 88], "portabl": [58, 66, 76], "serializ": [58, 64, 87, 108], "instnanti": 58, "whatev": [58, 65, 92], "self_1": [58, 88], "torchvis": [58, 90, 91, 94, 95, 97, 100, 101, 104], "resnet": [58, 77, 93, 94, 102, 103, 104], "___torch_mangle_4847": 58, "resnet_trt": 58, "input_0": [58, 88], "__torch___torchvision_models_resnet____torch_mangle_4847_resnet_trt_engin": 58, "listunpack": [58, 88], "multipl": [58, 66, 70, 74, 75, 81, 82, 90, 104, 106], "repack": 58, "ssd": 58, "ssd300_trt": 58, "__torch___pytorch_detection_ssd_src_model_ssd300_trt_engin": 58, "holder": [58, 83], "torchbind": 58, "pickler": 58, "seril": 58, "zip": [58, 66, 94, 95, 102], "depickl": 58, "encod": [58, 103], "sm": 58, "correct": [58, 66, 79, 94, 95, 101], "bazel": [59, 66], "linux": [59, 88], "x86_64": [59, 66], "aarch64": 59, "gcc": [59, 88], "untest": 59, "try": [59, 75, 81, 82, 88, 91, 92, 108], "older": 59, "repositori": [59, 66, 79, 86, 104], "notebook": [59, 68, 92, 94, 95, 96, 97, 98, 99, 100, 101, 102], "doc": [59, 61, 66, 79, 80, 81, 86, 92, 105], "docsrc": 59, "third_parti": [59, 66], "toolchain": [59, 66], "unstabl": 59, "subject": [59, 62, 108], "matur": 59, "most": [59, 65, 66, 71, 92, 104, 106, 108], "hood": [59, 97, 108], "major": [59, 65, 75], "top": [59, 79, 83], "coordin": [59, 75], "ingest": 59, "flow": [60, 65, 81, 87, 103], "ilay": 60, "analogu": 60, "goal": [60, 64], "registernodeconversionpattern": [60, 88], "helper": 60, "pattern": [60, 75, 88], "schema": [60, 88, 92], "caus": [60, 64, 79, 96, 97, 99, 106], "acthardtanh": 60, "torchtrt_unus": 60, "hardtanh": [60, 69], "scalar": [60, 69], "min_val": [60, 69], "max_val": [60, 69], "unwraptodoubl": 60, "new_lay": 60, "addactiv": 60, "activationtyp": [60, 65], "kclip": 60, "torchtrt_check": 60, "unabl": [60, 88, 92], "setalpha": 60, "setbeta": 60, "setnam": [60, 88], "util": [60, 62, 73, 76, 88, 90, 96, 99, 101, 103, 104, 108], "node_info": [60, 88], "c_str": [60, 88], "out_tensor": [60, 88], "associatevalueandtensor": [60, 88], "getoutput": [60, 88], "log_debug": 60, "getdimens": [60, 88], "accord": [60, 64, 76], "unwrap": 60, "tool": [60, 64, 65, 66, 88, 103], "don": [60, 65, 79, 81, 82, 90, 101, 104, 105], "annot": [60, 88], "your": [60, 63, 64, 66, 67, 74, 79, 81, 82, 86, 87, 88, 89, 91, 105, 106], "Its": [60, 81], "track": [60, 90], "sort": [60, 69, 91], "live": [60, 81], "directli": [60, 62, 63, 66, 68, 73, 75, 90, 92, 93, 96, 102, 107], "associatevalueandivalu": 60, "inspect": [60, 87, 88], "dataflow": [60, 88], "mechan": [60, 64, 65, 92, 103], "safe": [60, 64, 70, 74, 75, 76], "unsur": 60, "deep": [60, 64, 68, 79, 90, 92, 109], "straight": 60, "chanc": 60, "none": [60, 64, 65, 69, 70, 71, 73, 74, 75, 76, 79, 81, 92, 96, 101], "wrapper": [60, 65, 107], "similar": [60, 63, 64, 65, 66, 88, 91, 92], "tocustomclass": 60, "tensorcontain": 60, "istensor": 60, "iscustomclass": 60, "lot": [60, 63], "singular": 60, "becaus": [60, 65, 66, 71, 87, 88, 92], "alloc": 60, "freed": 60, "destructor": 60, "destroi": [60, 82], "realli": 60, "think": [60, 81], "becom": [60, 66, 94], "benefit": [60, 88], "deal": 60, "quit": [60, 66, 88, 103], "effici": 60, "batch_norm": [60, 69], "fusion": [60, 62, 65], "deeplearn": [61, 65], "sdk": [61, 108], "matrix": 61, "html": [61, 66, 81, 87, 90, 92, 105], "c_api": 61, "python_api": 61, "org": [61, 66, 79, 81, 87, 88, 90, 92, 105, 106], "stabl": [61, 76, 77, 79, 93, 95, 102, 105], "master": [61, 66, 90, 106], "overview": [61, 68, 96, 100], "md": 61, "appli": [62, 63, 90, 95], "desir": [62, 70, 82, 90], "coalesc": 62, "insert": [62, 88, 90], "graphmodul": [62, 63, 70, 71, 75, 88, 89, 92, 95, 107, 108], "caller": 62, "invok": [62, 64, 65, 87, 88, 106], "lint": 62, "recompil": [62, 70, 75, 99, 105, 108], "repair": 62, "disallow": 62, "repair_input_as_output": 62, "gm": [62, 70], "sample_input": [62, 65, 96], "scenario": [62, 64, 94], "clone": [62, 66, 69, 92], "modified_graph": 62, "extract": [62, 88, 103], "placehold": 62, "isinst": [62, 65, 92, 101], "issubclass": 62, "direct": [62, 85, 106], "len": [62, 69, 92], "direct_output": 62, "inserting_aft": 62, "cloned_placehold": 62, "replace_input_with": 62, "date": [62, 82, 108], "eliminate_dead_cod": 62, "logger": [62, 72], "f": [62, 64, 65, 75, 81, 87, 92, 101], "__init__": [62, 74, 75, 81, 87, 92, 96, 101, 105], "pass_manag": 62, "passmanag": 62, "backend": [62, 67, 76, 77, 80, 91, 93, 96, 98, 99, 101, 102, 105], "offer": [62, 64], "registr": [62, 65], "conveni": [62, 90, 99, 103, 106, 108], "control": [62, 65, 87, 106], "_aten_lowering_pass": 62, "my_custom_pass": 62, "front": [62, 70], "passlist": 62, "arbitrari": [62, 74], "remov": [62, 63, 79, 101], "dump_lowering_pass": 62, "apply_lowering_pass": 62, "graph_modul": [62, 70], "_remove_lowering_pass": 62, "evolv": 62, "introduc": [63, 65, 103], "exportedprogram": [63, 67, 70, 75, 105, 108], "dynamo": [63, 64, 66, 67, 73, 74, 75, 77, 88, 92, 95, 96, 97, 99, 100, 101, 105], "frontend": [63, 70, 73, 89, 92, 93, 97, 99, 101, 102, 105], "simpl": [63, 64, 65, 81, 82, 87, 103, 104, 105], "usag": [63, 65, 73, 77, 81, 88, 93, 102, 105, 107], "eval": [63, 67, 88, 89, 94, 95, 96, 97, 99, 100, 101, 104, 105, 107], "exp_program": [63, 95, 101, 105], "trt_gm": [63, 67, 95, 105, 107], "interact": [63, 81, 94, 96, 97, 98, 99, 100], "ideal": 63, "discuss": [63, 64, 104], "section": [63, 65, 79, 81, 82, 83, 85, 88, 90, 104, 107], "frequent": [63, 95], "builder": [63, 64, 65, 70], "respect": [63, 66, 75], "releas": [63, 64, 81, 93, 102], "insid": [63, 81, 92, 93, 102, 104], "decomposit": [63, 64, 70, 75, 92], "downstream": [63, 103], "constraint": 63, "guid": [64, 80, 102], "present": 64, "learn": [64, 66, 68, 88, 90, 92, 104, 109], "acceler": [64, 71, 75, 93, 95, 102, 106, 108, 109], "workflow": [64, 65, 67, 68, 70, 71, 75, 88, 91, 94, 97, 98, 99, 103], "wide": [64, 75, 85], "varieti": [64, 104], "primari": [64, 107], "simplic": 64, "optimized_model": [64, 67, 96, 97, 99], "depth": [64, 79, 103], "challeng": [64, 94, 95, 104], "addition": [64, 92], "fit": [64, 81], "compilationset": [64, 70, 74, 92, 96], "_enum": [64, 70], "callabl": [64, 70, 75], "pass_through_build_failur": [64, 70, 74, 75, 92], "max_aux_stream": [64, 70, 74, 75, 92], "version_compat": [64, 70, 74, 75, 92], "optimization_level": [64, 70, 74, 75, 92, 96], "use_python_runtim": [64, 70, 74, 75, 92, 94, 95, 96], "truncate_doubl": [64, 70, 74, 75, 92], "use_fast_partition": [64, 70, 74, 75, 92], "enable_experimental_decomposit": [64, 70, 74, 75, 92], "_devic": [64, 70], "assume_dynamic_shape_support": [64, 70, 74, 75], "make_refit": [64, 70, 74, 75, 94, 95], "engine_cap": [64, 70, 74, 75, 92], "dryrun": [64, 70, 74, 75, 92], "hardware_compat": [64, 70, 74, 75, 92], "timing_cache_path": [64, 70, 74, 75], "tmp": [64, 70, 74, 75, 88], "timing_cach": [64, 65, 70, 74, 75], "bin": [64, 66, 70, 74, 75], "lazy_engine_init": [64, 70, 74, 75], "dpython": [64, 70, 75, 76], "per": [64, 70, 92, 106], "regardless": [64, 70, 82, 97, 99], "fail": [64, 70, 75, 88, 94, 95, 101, 109], "auxiliari": [64, 70], "stream": [64, 70, 75, 92], "impli": [64, 70], "longer": [64, 66, 70, 75, 79, 106], "search": [64, 68, 70, 75, 79], "strictli": [64, 70], "runtim": [64, 66, 67, 68, 70, 75, 88, 94, 96, 99, 100, 108], "presenc": [64, 70], "preferenti": [64, 70], "choos": [64, 65, 70, 87], "float64": [64, 70, 75, 76], "refitt": [64, 70], "toggl": [64, 70, 75], "mode": [64, 65, 70, 74, 75, 89, 90, 100, 101], "detail": [64, 65, 70, 87, 88, 92, 104, 106], "natur": [64, 70, 81], "architectur": [64, 66, 68, 70, 75, 103], "amper": [64, 70, 75], "newer": [64, 66, 70, 75], "sub": [64, 69, 81, 87, 96], "slate": 64, "futur": [64, 65, 70, 75, 76, 106], "occur": 64, "first_output": 64, "subsequ": 64, "second_output": 64, "session": [64, 67, 81, 100], "point": [64, 66, 75, 79, 80, 81, 88, 101, 104], "cover": [64, 102, 103], "benchmark": [64, 69], "automat": [64, 75, 81, 88, 105, 108], "vari": [64, 71, 105], "distribut": [64, 88, 90, 106], "inf": 64, "dynamo_convers": 64, "contribut": 64, "demonstr": [64, 81, 82, 83, 90, 92, 94, 95, 101, 103, 104], "break": [64, 65, 70, 74, 75, 81, 92], "successfulli": [64, 94, 95], "_dynamo": [64, 96, 97, 99, 105], "explain": [64, 65, 68], "veri": [64, 65, 82, 83, 90, 91, 104], "explan": [64, 65], "graph_break_count": 64, "furthermor": 64, "durat": [64, 81], "latter": [64, 74], "logic": [64, 65], "guard": 64, "compos": [65, 87, 90, 101, 104], "variou": [65, 95, 109], "etc": [65, 79, 81, 92, 109], "environ": [65, 67, 104], "research": 65, "few": [65, 66, 75], "nightli": 65, "lower_exampl": 65, "welcom": [65, 88], "finish": 65, "converison": 65, "pleas": [65, 75, 81, 88, 101, 104, 105], "max_batch_s": [65, 71, 104], "2048": [65, 71], "max_workspace_s": [65, 71], "33554432": [65, 71], "explicit_batch_dimens": [65, 71], "lower_precis": [65, 71], "lowerprecis": [65, 71], "verbose_log": [65, 71], "timing_cache_prefix": [65, 71], "save_timing_cach": [65, 71], "cuda_graph_batch_s": [65, 71], "dynamic_batch": [65, 71], "turn": [65, 71, 100], "trtmodul": [65, 71], "otherwis": [65, 66, 71, 106], "implicit": [65, 69, 71, 81], "config": [65, 66, 71, 104], "updat": [65, 66, 70, 71, 75, 92, 93, 102], "dim": [65, 69, 71, 92, 101, 104, 105], "fx2trt_exampl": 65, "acc_trac": 65, "come": [65, 66, 80, 92, 94, 104], "my_pytorch_model": 65, "build_model": 65, "prepar": [65, 104], "acc_mod": 65, "earli": 65, "deprec": [65, 69], "continu": [65, 81, 106], "backward": [65, 74, 92, 108], "vision": [65, 104], "activ": [65, 74, 76, 81, 88, 90, 103, 106, 109], "except": [65, 70, 75], "permut": [65, 69], "transpos": [65, 69, 105], "ll": 65, "inputtensorspec": [65, 71, 75], "experiment": [65, 75, 76], "dataclass": [65, 96], "re": [65, 75, 81, 94, 95, 100, 106], "manual": [65, 75, 80, 81], "sampl": [65, 70, 81, 89, 90, 94, 96, 97, 98, 99, 100, 104], "rand": [65, 88, 94, 95, 96], "from_tensor": [65, 75], "slightli": [65, 92], "promis": 65, "optimize_target_shap": 65, "input_tensor_spec": 65, "shape_rang": [65, 71], "100": [65, 71, 92, 101], "accordingli": [65, 79, 105, 106], "trtinterpreterresult": [65, 71], "namedtupl": 65, "input_nam": [65, 71], "output_nam": [65, 71], "serialized_cach": [65, 71], "bytearrai": [65, 74, 76], "afford": 65, "temporari": 65, "best": [65, 70, 75, 81, 94], "perforamnc": 65, "examin": 65, "suitabl": 65, "force_fp32_output": 65, "strict_type_constraint": 65, "usual": [65, 66, 79], "unless": 65, "certain": [65, 66, 96, 106], "algorithm_selector": 65, "profiling_verbos": 65, "trt_interpreter_result": 65, "64": [65, 75, 89, 101, 105], "25": [65, 71, 88], "runtimeerror": [65, 101], "xxx": 65, "One": [65, 81, 82, 88, 103, 106], "reload_trt_mod": 65, "reload_model_output": 65, "far": [65, 81], "give": [65, 79, 81], "convtert": 65, "scheme": [65, 70, 75], "action": [65, 81], "tensort": [65, 108], "thing": [65, 66, 81], "compar": [65, 70, 75, 89], "vanilla": 65, "mainli": 65, "builtin": 65, "purpos": [65, 103, 104], "acc_op": 65, "leverag": [65, 90, 93, 102], "power": [65, 81, 88, 103], "goe": [65, 81], "whole": 65, "sigmoid": [65, 69], "tensorrt_convert": 65, "acc_ops_sigmoid": 65, "rest": [65, 81, 82], "input_v": 65, "receiv": 65, "region": 65, "add_activ": 65, "get_output": [65, 92], "wherev": 65, "rememb": [65, 66], "mapper": 65, "todo": [65, 79], "logist": 65, "down": [65, 66, 79], "happen": [65, 87, 94, 97, 105], "acc_norm": 65, "foo": [65, 81, 82], "register_acc_op": 65, "register_acc_op_map": 65, "this_arg_is_opt": 65, "op_and_target": 65, "arg_replacement_tupl": 65, "rule": [65, 66, 76], "third": [65, 82], "boolean": [65, 75], "matter": [65, 92], "register_custom_acc_mapper_fn": 65, "design": [65, 73, 94, 103, 109], "redund": 65, "throught": 65, "custom_mapp": 65, "_": [65, 81, 92, 101], "foo_kwarg": 65, "inserting_befor": 65, "foo_nod": 65, "meta": [65, 85], "children": 65, "unit": [65, 75], "test_acc_trac": 65, "acc_op_convert": 65, "essenti": 65, "plugin": [65, 92, 93, 102], "yet": [65, 103], "folder": 65, "center": 66, "pypi": 66, "m": [66, 82, 101], "pip": [66, 104], "upload": [66, 104], "x86": [66, 106], "extra": [66, 74, 88, 92, 94], "url": [66, 79, 104], "download": [66, 85, 90, 92, 94, 95, 96, 97, 98, 99, 100, 101, 102, 104], "whl": 66, "cu118": 66, "cu124": 66, "tarbal": [66, 88, 90], "easiest": [66, 92], "bazelisk": 66, "bazelbuild": 66, "export": [66, 68, 70, 75, 93, 95, 97, 101, 102, 107, 108], "bazel_vers": 66, "path_to_torchtrt_root": 66, "bazelvers": 66, "mkdir": 66, "cd": [66, 104], "curl": [66, 81], "fssl": 66, "o": [66, 81, 104], "dist": 66, "unzip": 66, "bash": 66, "sh": 66, "cp": [66, 92], "usr": 66, "driver": 66, "branch": 66, "4e5b0f6e860910eb510fa70a76ee3eb9825e7a4d": 66, "l46": 66, "pull": [66, 104], "latest": [66, 79], "l53c1": 66, "fact": 66, "reproduc": 66, "l71": 66, "http_archiv": 66, "build_fil": 66, "archiv": 66, "sha256": 66, "strip_prefix": 66, "OR": 66, "TO": [66, 88], "gnu": 66, "tar": [66, 81, 90], "gz": [66, 81, 82, 90], "ld_library_path": 66, "comment": [66, 81], "uncom": 66, "l114c1": 66, "l124c3": 66, "wheel": 66, "dep": 66, "lighter": 66, "executor": 66, "avoid": [66, 92, 105], "implic": 66, "python_onli": 66, "legaci": [66, 73], "mainten": 66, "torchdynamo": [66, 105, 108], "technolog": [66, 108], "project": [66, 80, 85], "exclud": [66, 92], "speed": 66, "no_torchscript": 66, "dbg": 66, "pre_cxx11_abi": 66, "complic": 66, "incompat": 66, "popular": [66, 80, 103], "ngc": [66, 104], "tabl": [66, 85], "bdist_wheel": 66, "preinstal": 66, "forum": 66, "correctli": [66, 92], "declar": 66, "intend": [66, 96, 97, 98, 99, 100], "microsoft": 66, "2022": [66, 68], "open": [66, 103, 104], "app": 66, "x64": 66, "prompt": [66, 94, 98], "admin": 66, "privileg": 66, "launcher": 66, "chocolatei": 66, "navig": [66, 79], "ninja": 66, "setuptool": 66, "r": [66, 81], "txt": 66, "distutils_use_sdk": 66, "cuda_win": 66, "libtorch_win": 66, "tensorrt_win": 66, "non": [66, 75, 82, 84, 106], "similarli": [66, 100, 106], "ci_workspac": 66, "win": 66, "tmpl": 66, "torchtrtc": [66, 68, 109], "websit": 66, "finder": 66, "dcmake_module_path": 66, "doesn": [66, 81, 87, 88], "dtorch_dir": 66, "dtensorrt_root": 66, "choic": [66, 73], "b": [66, 69, 75, 82, 95, 104], "dcmake_build_typ": 66, "72048": 66, "jp_workspac": 66, "new_local_repositori": 66, "sudo": 66, "home": 66, "unlik": [66, 91], "libtorch_pre_cxx11_abi": 66, "shift": [66, 69, 81], "jetpack": 66, "jetpack_x": 66, "jetpack_5": 66, "drop": [66, 79, 101], "anywher": 67, "ahead": [67, 68, 88, 94], "ep": [67, 69, 95, 107], "output_format": [67, 75, 107], "input_tensor": [67, 92, 101], "fill": 67, "aot": [68, 88, 94, 108], "integr": [68, 93, 94, 96, 102], "seamlessli": [68, 75], "ecosystem": [68, 108], "hybrid": [68, 70, 75, 76, 108], "instal": [68, 85, 88, 104, 106], "triton": [68, 92], "page": [68, 83, 85, 104], "introductori": 68, "blog": [68, 106], "gtc": 68, "2020": [68, 88], "talk": 68, "fall": [68, 75, 92], "2021": 68, "dai": 68, "confer": 68, "_convolut": [69, 88], "stride": [69, 75, 92, 101], "pad": [69, 75, 92, 101], "dilat": 69, "output_pad": 69, "group": [69, 81, 82], "determinist": 69, "cudnn_en": 69, "allow_tf32": 69, "ab": 69, "aco": 69, "acosh": 69, "adaptive_avg_pool1d": 69, "output_s": 69, "adaptive_avg_pool2d": 69, "adaptive_avg_pool3d": 69, "adaptive_max_pool1d": 69, "adaptive_max_pool2d": 69, "adaptive_max_pool3d": 69, "argmax": 69, "keepdim": 69, "argmin": 69, "asin": 69, "asinh": 69, "atan": 69, "atanh": 69, "avg_pool1d": 69, "kernel_s": [69, 92, 101], "ceil_mod": 69, "count_include_pad": 69, "avg_pool2d": 69, "divisor_overrid": 69, "avg_pool3d": 69, "gamma": 69, "var": 69, "momentum": 69, "bitwise_not": 69, "bmm": 69, "ceil": 69, "clamp": 69, "clamp_max": 69, "clamp_min": 69, "constant_pad_nd": 69, "co": [69, 82, 103], "cosh": 69, "cumsum": 69, "tensor_mod": 69, "rounding_mod": 69, "div_": 69, "elu": 69, "scale": [69, 90, 103], "input_scal": 69, "indic": [69, 79, 81, 97, 105], "padding_idx": 69, "eq": [69, 81], "erf": 69, "exp": 69, "expand_a": 69, "fake_quantize_per_channel_affin": 69, "zero_point": 69, "axi": [69, 75], "quant_min": 69, "quant_max": 69, "fake_quantize_per_tensor_affin": 69, "using_int": [69, 88], "start_dim": [69, 88], "end_dim": [69, 88], "floor": 69, "floor_divid": 69, "ge": 69, "gru_cel": 69, "hx": 69, "w_ih": 69, "w_hh": 69, "b_ih": 69, "b_hh": 69, "gt": 69, "hardtanh_": 69, "instance_norm": 69, "running_mean": 69, "running_var": 69, "use_input_stat": 69, "layer_norm": 69, "normalized_shap": 69, "le": 69, "negative_slop": 69, "01": [69, 82, 88, 101], "leaky_relu_": 69, "lstm_cell": 69, "lt": 69, "masked_fil": 69, "mask": [69, 92], "max_pool1d": 69, "max_pool2d": [69, 87, 88], "max_pool3d": 69, "mul_": 69, "narrow": 69, "neg": [69, 94], "norm": 69, "scalaropt_dim": 69, "pixel_shuffl": 69, "upscale_factor": 69, "pow": 69, "tensor_scalar": 69, "expon": 69, "tensor_tensor": 69, "prelu": 69, "prod": [69, 92], "dim_int": 69, "reciproc": 69, "reflection_pad1d": 69, "reflection_pad2d": 69, "relu_": 69, "repeat_interleav": 69, "self_int": 69, "replication_pad1d": 69, "replication_pad2d": 69, "replication_pad3d": 69, "reshap": [69, 92, 104], "roll": 69, "rsub": 69, "scatter": 69, "sigmoid_": 69, "sin": [69, 81], "sinh": 69, "slice": 69, "split_siz": 69, "split_with_s": 69, "sqrt": 69, "squar": 69, "squeez": [69, 103], "sub_": 69, "dim_intlist": 69, "tan": 69, "tanh": 69, "tanh_": 69, "non_block": [69, 101], "memory_format": [69, 75], "prim_devic": 69, "topk": 69, "k": [69, 90, 101], "largest": 69, "dim0": 69, "dim1": 69, "unbind": 69, "unsqueez": 69, "upsample_bilinear2d": 69, "align_corn": 69, "scales_h": 69, "scales_w": 69, "vec": 69, "scale_factor": 69, "upsample_linear1d": 69, "upsample_nearest1d": 69, "upsample_nearest2d": 69, "upsample_nearest3d": 69, "scales_d": 69, "upsample_trilinear3d": 69, "view": [69, 79], "__and__": 69, "__derive_index": 69, "idx": 69, "__getitem__": 69, "__is__": 69, "t1": 69, "t2": 69, "obj": 69, "__isnot__": 69, "__not__": 69, "__or__": 69, "__range_length": 69, "lo": 69, "hi": [69, 81, 82], "__round_to_zero_floordiv": 69, "__xor__": 69, "append": [69, 101], "el": 69, "arang": [69, 92], "pin_memori": 69, "start_step": 69, "copy_": 69, "float_int": 69, "int_float": 69, "floordiv": 69, "is_floating_point": 69, "numel": 69, "l": [69, 101], "9223372036854775807": 69, "requires_grad": 69, "tupleindex": 69, "tup": 69, "exported_program": [70, 75, 107], "arg_input": [70, 75, 95], "kwarg_input": [70, 75], "int32": [70, 75, 76, 92, 99, 103], "channel_last": [70, 75, 76, 103], "244": [70, 75, 76], "alia": [70, 75], "better": [70, 75, 87, 103, 108], "understand": [70, 75, 105], "convolut": [70, 75, 76, 90, 92, 109], "_c": [70, 75, 76, 91], "oppos": [70, 75, 76], "lean": [70, 75], "spend": [70, 75], "integ": [70, 75, 84], "faster": [70, 75, 103], "parition": [70, 75], "increas": [70, 75], "amount": [70, 75], "defer": [70, 75, 108], "lead": [70, 75, 81, 106], "oversubscript": [70, 75], "gear": [70, 90], "toward": [70, 90], "refit_module_weight": [70, 95], "compiled_modul": [70, 95], "new_weight_modul": [70, 95], "verify_output": 70, "use_weight_map_cach": 70, "in_plac": 70, "compmil": 70, "disk": [70, 75], "coverag": [70, 92], "min_acc_module_s": 71, "is_aten": 71, "use_experimental_fx_rt": 71, "correctness_atol": 71, "correctness_rtol": 71, "minim": [71, 90, 92], "submodul": [71, 87, 92], "fx2trt": 71, "cpu": 71, "has_batch_dim": 71, "dtyep": 71, "prop": 71, "min_input_shap": 71, "optimized_input_shap": 71, "max_input_shap": 71, "popul": 71, "225": [71, 104], "explicit_precis": 71, "logger_level": 71, "model_trt": 72, "model_torchtrt": 72, "internal_error": 72, "toolkit": 73, "dataloadercalibr": [73, 90], "preprocess": [73, 90, 104], "algo_typ": [73, 90], "calibrationalgo": [73, 90], "cachecalibr": [73, 90], "qualnam": [73, 75], "entropy_calibr": 73, "entropy_calibration_2": [73, 90], "legacy_calibr": 73, "minmax_calibr": 73, "set_multi_device_safe_mod": [74, 106], "_multidevicesafemodecontextmanag": 74, "impact": 74, "suppress": 74, "unsaf": 74, "trt_compiled_modul": 74, "torchtensorrtmodul": [74, 92], "encompass": [74, 76], "simpili": 74, "de": 74, "initi": [74, 75, 81, 96, 97, 99, 100], "scriptmodul": [74, 75, 76, 88, 89, 107, 108], "overridden": [74, 75], "subclass": 74, "although": [74, 81], "recip": [74, 90], "afterward": 74, "former": 74, "care": 74, "hook": 74, "silent": 74, "get_extra_st": 74, "state_dict": [74, 75, 94], "set_extra_st": 74, "picklabl": 74, "pickl": [74, 92], "load_state_dict": [74, 94, 101], "pythontorchtensorrtmodul": 74, "serialized_engin": [74, 76], "byte": [74, 75, 76, 92, 103], "_set": [74, 96], "weight_name_map": 74, "trt_modul": 74, "engine_str": 74, "my_modul": 74, "current_devic": 74, "cudagraphs_validate_shap": 74, "versu": 74, "disable_profil": 74, "enable_profil": 74, "iprofil": 74, "spent": 74, "get_layer_info": 74, "request": [75, 88, 104], "decid": 75, "deseri": [75, 76, 88, 92], "retrac": 75, "strict": [75, 106], "valueerror": 75, "mutabletorchtensorrtmodul": [75, 93, 94, 102], "pytorch_model": 75, "regular": 75, "whenev": 75, "refit_gm": 75, "shape_mod": 75, "_shapemod": 75, "interv": 75, "notat": 75, "bound": 75, "torch_tensor": 75, "tracer": 75, "example_tensor": 75, "optimization_profile_field": 75, "classmethod": 75, "disable_memory_format_check": 75, "core_id": 75, "schedul": [75, 104], "use_default": 75, "try_to": 75, "anoth": [75, 81, 82, 87, 89], "typeerror": 75, "unknown": 75, "succe": 75, "float_dtyp": 75, "failur": 75, "bf16": 75, "try_from": [75, 92], "complex128": 75, "16": [75, 85, 87, 88, 89, 97, 100], "brain": 75, "bfloat16": 75, "f64": 75, "f8": 75, "fp8": [75, 93, 102], "float8": 75, "i32": 75, "sign": [75, 104], "i64": 75, "u8": 75, "unsign": 75, "uint8": 75, "trt_dla": 75, "torchtrt_dla": 75, "_from": 75, "torchtrt_dla_ec": 75, "torchtrt_safety_ec": 75, "saefti": 75, "trt_dla_ec": 75, "standalon": [75, 81], "certifi": 75, "tf": 75, "torchtrt_linear": 75, "cdhw32": 75, "thirti": 75, "row": [75, 82], "spatial": 75, "31": [75, 88], "subscript": [75, 81], "chw16": 75, "sixteen": 75, "15": [75, 81, 85], "chw2": 75, "chw32": 75, "chw4": 75, "four": [75, 81, 82], "dhwc": 75, "equivi": 75, "channels_last_3d": 75, "dhwc8": 75, "eight": 75, "dla_hwc4": 75, "imag": [75, 90, 92, 94, 98, 101, 104], "roundup": 75, "elements": 75, "dla_linear": 75, "planar": 75, "hwc": 75, "channels_last": 75, "hwc16": 75, "hwc8": 75, "least": [75, 81, 82], "ishapelay": 76, "check_method_op_support": 76, "seriali": 76, "put_binding_nam": 76, "tensorrtcompilespec": [76, 91], "scriptclass": 76, "0x7f5aeb373330": 76, "_jit_to_tensorrt": 76, "00": 77, "000": [77, 92, 94, 95, 96, 97, 98, 99, 100, 101], "total": [77, 92, 94, 95, 96, 97, 98, 99, 100, 101], "galleri": [77, 92, 94, 95, 96, 97, 98, 99, 100, 101, 102], "mem": 77, "advanc": [77, 82, 90, 93, 102], "torch_compile_advanced_usag": [77, 96], "torch_compile_resnet_exampl": [77, 97], "diffus": [77, 93, 95, 102], "torch_compile_stable_diffus": [77, 98], "transform": [77, 88, 90, 93, 101, 102, 104, 107], "torch_compile_transformers_exampl": [77, 99], "v0": [78, 104], "pytorch_sphinx_them": [79, 86], "conf": [79, 86], "html_theme_opt": 79, "canonical_url": 79, "analytics_id": 79, "logo_onli": 79, "display_vers": 79, "prev_next_buttons_loc": 79, "bottom": 79, "style_external_link": 79, "vcs_pageview_mod": 79, "collapse_navig": 79, "sticky_navig": [79, 83], "navigation_depth": 79, "includehidden": 79, "titles_onli": 79, "canon": 79, "rank": 79, "trail": 79, "slash": 79, "googl": 79, "analyt": 79, "With": [79, 81, 88, 90, 104], "isn": [79, 81, 92], "shown": [79, 81, 88], "sidebar": [79, 85], "button": [79, 81], "icon": [79, 81], "extern": [79, 81], "display_github": 79, "display_gitlab": 79, "gitlab": 79, "bitbucket": 79, "bar": [79, 81], "www": [79, 81, 88, 90, 104], "sphinx": [79, 80, 81, 82, 86, 92, 94, 95, 96, 97, 98, 99, 100, 101, 102], "en": 79, "toctre": 79, "lose": 79, "scroll": [79, 83], "unlimit": 79, "header": [79, 81, 82, 88, 104], "render": 79, "github_url": 79, "bitbucket_url": 79, "gitlab_url": 79, "left": [79, 81], "upon": [79, 96, 99], "rst": [79, 81], "visitor": 79, "revert": 79, "misbuild": 79, "show": [79, 81, 98, 103], "properti": [79, 92], "stick": 79, "screen": 79, "vertic": [79, 81], "too": [79, 81, 82], "sticki": [79, 85], "nav": [79, 85], "At": 80, "django": 80, "payment": 80, "dotpai": 80, "dotpayprovid": 80, "seller_id": 80, "pin": 80, "lock": 80, "lang": 80, "pl": 80, "polish": 80, "gatewai": 80, "transfer": 80, "purchas": 80, "item": [80, 82, 101], "param": 80, "seller": 80, "consult": 80, "ui": 80, "languag": [80, 81, 82, 87, 92, 104], "data_item_1": 80, "emphasi": 81, "strong": 81, "hyperlink": 81, "cross": 81, "uri": 81, "web": 81, "anonym": 81, "label": [81, 90, 101, 103, 104], "substitut": 81, "charact": 81, "exceedingli": 81, "ugli": 81, "problem": 81, "problemat": 81, "ext": [81, 82], "autodoc": [81, 82], "demo": [81, 90], "test_py_modul": [81, 85], "my": 81, "role": 81, "pep": 81, "287": 81, "rfc": 81, "2822": 81, "superscript": 81, "gui": 81, "taken": 81, "height": 81, "interfer": 81, "press": 81, "keyboard": 81, "mous": 81, "mmb": 81, "menuselect": 81, "seen": [81, 82], "whitespac": 81, "signific": [81, 92, 95], "strang": 81, "hyphen": 81, "word": [81, 103], "adjust": 81, "width": [81, 103], "browser": 81, "window": 81, "space": [81, 82, 90], "sentenc": [81, 103], "suppli": 81, "258": 81, "equat": 81, "x_": 81, "x_0": 81, "x_1": 81, "x_2": 81, "x_3": 81, "x_4": 81, "nabla": 81, "frac": 81, "theta": 81, "phi": 81, "restructuredtext": [81, 82], "parser": [81, 101], "colon": 81, "indent": 81, "literal_block": 81, "spaces_and_linebreak": 81, "preserv": [81, 87, 90], "markup_process": 81, "Or": 81, "great": [81, 88, 92, 108], "why": [81, 106], "didn": 81, "blank": 81, "align": 81, "permit": 81, "awai": 81, "eric": 81, "orchestra": 81, "leader": 81, "bee": 81, "philosoph": 81, "ipso": 81, "facto": 81, "But": [81, 88], "got": [81, 88], "vi": 81, "entiti": 81, "said": 81, "entir": [81, 108], "ancient": 81, "injuri": 81, "sing": 81, "elk": 81, "bracket": 81, "miss": [81, 88], "brontosaurus": 81, "thin": 81, "thicker": 81, "middl": 81, "That": [81, 88, 95], "mine": 81, "belong": 81, "me": [81, 82], "ann": 81, "begun": 81, "cut": 81, "past": 81, "pars": [81, 88], "someurl": 81, "dev0": 81, "b3a8cdd": 81, "caption": [81, 84], "pane": 81, "shell_command": 81, "echo": 81, "did": 81, "window_nam": 81, "session_nam": 81, "shorthand": 81, "some_funct": 81, "highlight": 81, "THE": 81, "heaven": 81, "hexagram": 81, "six": 81, "unbroken": 81, "primal": 81, "light": [81, 107], "spirit": 81, "weak": 81, "essenc": 81, "energi": 81, "unrestrict": 81, "conceiv": 81, "motion": 81, "regard": [81, 108], "basi": 81, "thu": 81, "persist": 81, "dual": 81, "sens": [81, 88], "univers": 81, "world": 81, "men": 81, "express": 81, "deiti": 81, "human": 81, "denot": [81, 92], "holi": 81, "man": [81, 82], "sage": 81, "ruler": 81, "who": 81, "awaken": 81, "utf": [81, 82], "sphinx_rtd_them": [81, 82], "docstr": [81, 82, 89], "dl": 81, "dt": 81, "tag": [81, 104], "tt": 81, "descnam": 81, "descclassnam": 81, "wrote": 81, "anyth": [81, 82, 106], "programm": 81, "myclass": 81, "dothismethod": 81, "flush": 81, "meth": 81, "capit": 81, "flox": 81, "unreferenc": 81, "nonexist": 81, "extrem": 81, "stuff": 81, "mayb": 81, "bold": 81, "ital": 81, "heck": 81, "put": [81, 103], "13": [81, 85], "backlink": 81, "knowledg": 81, "mind": 81, "ey": 81, "thought": 81, "medium": 81, "peopl": 81, "subsect": 81, "interpol": 81, "indirect": 81, "phrase": 81, "docutil": [81, 82], "sourceforg": [81, 82], "ref": 81, "clickabl": 81, "legend": 81, "revis": [81, 82, 94, 98], "revisit": 81, "enhanc": 81, "structuredtext": 81, "wooden": 81, "nickel": 81, "mad": 81, "scientist": 81, "bigger": 81, "bread": 81, "box": [81, 105, 108], "wash": 81, "behind": 81, "ear": 81, "room": 81, "closet": 81, "bathroom": 81, "trash": 81, "sink": 81, "mother": 81, "g_": 81, "mu": 81, "nu": 81, "pi": 81, "t_": 81, "rho_": 81, "servic": 81, "thing1": 81, "thing2": 81, "thing3": 81, "prose": 81, "provok": 81, "mental": 81, "exert": 81, "reader": 81, "discret": 81, "strongli": 81, "advis": 81, "subtitl": 81, "outsid": 81, "often": 81, "besid": 81, "border": 81, "background": [81, 87], "ok": [81, 88], "transmit": 81, "disconnect": 81, "nonetheless": 81, "semant": 81, "blue": [81, 92], "white": 81, "arab": 82, "roman": 82, "upper": 82, "iii": 82, "iv": 82, "classifi": [82, 87, 88, 101, 103], "paragraph": [82, 85], "z": 82, "commonli": 82, "vm": 82, "david": 82, "goodger": 82, "address": [82, 92, 94], "123": 82, "street": 82, "canada": 82, "a1b": 82, "2c3": 82, "contact": 82, "myself": 82, "organ": 82, "humankind": 82, "2012": 82, "03": 82, "19": [82, 85], "53": 82, "0000": 82, "tue": 82, "jan": 82, "progress": 82, "7302": 82, "wish": 82, "redistribut": 82, "reattribut": 82, "sell": 82, "bui": 82, "rent": 82, "leas": 82, "improv": [82, 106], "quot": 82, "excerpt": 82, "incorpor": 82, "collat": 82, "fold": 82, "stapl": 82, "mutil": 82, "anyon": 82, "heart": 82, "bibliograph": 82, "markup": [82, 85], "literal": 82, "yahoo": 82, "oh": 82, "liter": 82, "heh": 82, "child": 82, "beat": 82, "text": [82, 84, 103], "hehe": 82, "kept": 82, "sai": [82, 103], "cackl": 82, "night": 82, "lone": 82, "guangzhou": 82, "destini": 82, "hope": 82, "dream": 82, "forth": 82, "fifth": 82, "sixth": 82, "lorem": [82, 84], "ipsum": [82, 84], "dolor": [82, 84], "sit": [82, 84], "amet": [82, 84], "consectetur": [82, 84], "adipisc": [82, 84], "elit": [82, 84], "donec": [82, 84], "porttitor": [82, 84], "odio": [82, 84], "posuer": [82, 84], "vita": [82, 84], "ornar": [82, 84], "libero": [82, 84], "matti": 82, "loborti": [82, 84], "justo": [82, 84], "vestibulum": [82, 84], "nibh": [82, 84], "aliquet": [82, 84], "sed": [82, 84], "feugiat": [82, 84], "sagitti": [82, 84], "nequ": [82, 84], "qui": [82, 84], "eleifend": 82, "dui": [82, 84], "rutrum": [82, 84], "lectu": [82, 84], "suscipit": [82, 84], "letter": [82, 103], "column": 82, "cell": 82, "span": 82, "nam": [82, 84], "mauri": [82, 84], "arcu": [82, 84], "stub": 82, "behav": 83, "area": 83, "interdum": 84, "nec": 84, "finibu": 84, "dictum": 84, "velit": 84, "ut": 84, "eu": 84, "efficitur": 84, "aliquam": 84, "erat": 84, "diam": 84, "gravida": 84, "imperdiet": 84, "tellu": 84, "nisl": 84, "praesent": 84, "eget": 84, "elementum": 84, "rhoncu": 84, "tincidunt": 84, "suspendiss": 84, "volutpat": 84, "scelerisqu": 84, "tristiqu": 84, "aenean": 84, "condimentum": 84, "risu": 84, "accumsan": 84, "laoreet": 84, "maximu": 84, "sapien": 84, "ligula": 84, "fringilla": 84, "commodo": 84, "proin": 84, "et": 84, "pharetra": 84, "etiam": 84, "turpi": 84, "ant": 84, "luctu": 84, "vel": 84, "malesuada": 84, "dignissim": 84, "mi": 84, "nunc": 84, "augu": 84, "sem": 84, "cursu": 84, "nulla": 84, "pellentesqu": 84, "habit": 84, "morbi": 84, "senectu": 84, "netu": 84, "fame": 84, "ac": 84, "egesta": 84, "placerat": 84, "tortor": 84, "iaculi": 84, "venenati": 84, "cra": 84, "puru": 84, "ero": 84, "vehicula": 84, "fusc": 84, "auctor": 84, "phasellu": 84, "est": 84, "viverra": 84, "conval": 84, "faucibu": 84, "vulput": 84, "feli": 84, "sodal": 84, "maecena": 84, "congu": 84, "semper": 84, "enim": 84, "blandit": 84, "sollicitudin": 84, "urna": 84, "orci": 84, "lacu": 84, "quisqu": 84, "facilisi": 84, "hendrerit": 84, "curabitur": 84, "variu": 84, "bibendum": 84, "massa": 84, "magna": 84, "tempu": 84, "metu": 84, "nisi": 84, "pretium": 84, "leo": 84, "euismod": 84, "ultric": 84, "dapibu": 84, "lacinia": 84, "vivamu": 84, "molesti": 84, "hac": 84, "habitass": 84, "platea": 84, "dictumst": 84, "git": 85, "content": [85, 90, 104], "changelog": 85, "math": 85, "9": [85, 88, 92, 104], "14": [85, 99, 104], "17": 85, "18": [85, 88, 94], "submenu": 85, "symlink": 86, "subtre": 86, "_theme": 86, "html_theme": 86, "html_theme_path": 86, "optimiz": 87, "tutori": [87, 90, 92, 94, 95], "beginn": 87, "intro_to_torchscript_tutori": 87, "briefli": 87, "lenet": [87, 88], "lenetfeatextractor": 87, "conv1": [87, 88], "conv2d": [87, 92, 101], "conv2": [87, 88], "lenetclassifi": 87, "fc1": [87, 88], "120": [87, 88], "fc2": [87, 88], "84": [87, 88], "fc3": [87, 88], "feat": [87, 88], "obvious": 87, "pathwai": 87, "input_data": [87, 89], "traced_model": 87, "pick": 87, "script_model": [87, 91], "perspect": 87, "___torch_mangle_10": 87, "129": 87, "___torch_mangle_9": 87, "119": 87, "___torch_mangle_5": 87, "137": 87, "callmethod": 87, "138": 87, "38": 87, "39": 87, "torch_script_modul": [87, 88], "in_tensor": 87, "fly": 87, "lenet_script": [87, 88], "haven": 88, "acquir": 88, "dyanmo": 88, "almost": [88, 108], "trt_lenet_script": 88, "apr": 88, "56": 88, "04": [88, 104], "credit": 88, "stop": 88, "argc": 88, "argv": 88, "cerr": 88, "cout": 88, "even": [88, 94], "cppdoc": 88, "pretti": 88, "fashion": [88, 103], "enable_precis": 88, "And": 88, "convertgraphtotrtengin": 88, "engine_converted_from_jit": 88, "close": 88, "saw": 88, "576": 88, "346": 88, "539": 88, "0464": 88, "0383": 88, "0678": 88, "0932": 88, "1045": 88, "0805": 88, "0435": 88, "0818": 88, "0208": 88, "0358": 88, "cudafloattyp": 88, "0530": 88, "1691": 88, "2802": 88, "1502": 88, "1056": 88, "1549": 88, "input0": [88, 89], "1063": 88, "input1": [88, 89], "input2": 88, "28": 88, "29": 88, "33": 88, "35": 88, "36": 88, "37": 88, "compilegraph": [88, 90], "laid": 88, "translat": 88, "aren": 88, "techniqu": [88, 90, 106], "checkmethodoperatorsupport": 88, "modular": 88, "ship": [88, 106], "exhaust": 88, "109": 88, "addlay": 88, "yourself": 88, "question": 88, "outself": 88, "flatten_convert": 88, "unwraptoint": 88, "in_shap": 88, "tovec": 88, "out_shap": 88, "shuffl": [88, 90, 101], "addshuffl": 88, "setreshapedimens": 88, "todim": 88, "extens": [88, 108], "ctype": 88, "cdll": 88, "contributor": 88, "upstream": 88, "pr": 88, "usecas": [89, 95, 102], "sole": [89, 90, 108], "individu": 89, "accuraci": [90, 103], "loss": [90, 103], "infrastructur": [90, 104], "streamlin": 90, "expos": [90, 92], "cpp_frontend": 90, "loading_data_recip": 90, "cifar10": [90, 101], "cstddef": 90, "ktrain": 90, "ktest": 90, "un": 90, "cs": 90, "toronto": 90, "edu": 90, "kriz": 90, "cifar": 90, "is_train": 90, "trim": 90, "use_subset": 90, "new_siz": 90, "mode_": 90, "images_": 90, "targets_": 90, "calibration_dataset": 90, "data_dir": 90, "320": 90, "4914": [90, 101], "4822": [90, 101], "4465": [90, 101], "2023": [90, 101], "1994": [90, 101], "2010": [90, 101], "dataloaderopt": 90, "worker": 90, "storag": 90, "simpler": 90, "virtual": 90, "input_shap": [90, 109], "compile_spec": [90, 97, 109], "kf16": [90, 109], "ki8": 90, "vgg16": [90, 93, 101, 102], "testing_dataset": [90, 101], "totensor": [90, 101, 104], "testing_dataload": [90, 101], "num_work": [90, 101], "vgg": [90, 101], "test_ptq_dataloader_calibr": 90, "test_ptq_trt_calibr": 90, "krizhevski": 90, "hinton": 90, "2009": 90, "tini": 90, "simonyan": 90, "zisserman": 90, "2014": 90, "recognit": [90, 103], "arxiv": 90, "preprint": 90, "1409": 90, "1556": 90, "_jit_to_backend": 91, "mobilenet_v2": 91, "pretrain": [91, 94, 95, 97, 100, 103, 104], "cost": [92, 106], "perhap": 92, "overhead": [92, 106], "sake": 92, "circular": 92, "red": 92, "green": 92, "twice": 92, "written": 92, "openai": 92, "formal": 92, "tl": 92, "custom_op": 92, "circ_pad_kernel": 92, "all_pads_0": 92, "all_pads_2": 92, "all_pads_4": 92, "all_pads_6": 92, "orig_dims_0": 92, "orig_dims_1": 92, "orig_dims_2": 92, "orig_dims_3": 92, "y_shape_1": 92, "y_shape_2": 92, "y_shape_3": 92, "x_len": 92, "y_len": 92, "block_siz": 92, "pid": 92, "program_id": 92, "mask_i": 92, "i3": 92, "i2": 92, "i1": 92, "i0": 92, "j0": 92, "j1": 92, "j2": 92, "j3": 92, "load_idx": 92, "mask_x": 92, "launch": [92, 104], "torchtrt_ex": 92, "triton_circular_pad": 92, "mutates_arg": 92, "out_dim": 92, "tolist": 92, "all_pad": 92, "zero": 92, "orig_dim": 92, "blocksiz": 92, "256": [92, 101, 104], "numblock": 92, "ex_input": 92, "tracabl": 92, "prerequisit": 92, "fake": 92, "real": 92, "faketensor": 92, "register_fak": 92, "autograd": 92, "beyond": 92, "register_autograd": 92, "padded_x": 92, "my_model": 92, "2604": 92, "4232": 92, "3041": 92, "0833": 92, "2461": 92, "1270": 92, "2450": 92, "4079": 92, "2887": 92, "2828": 92, "0373": 92, "0332": 92, "3143": 92, "6344": 92, "5638": 92, "1867": 92, "5068": 92, "4363": 92, "7937": 92, "3488": 92, "1350": 92, "7966": 92, "3517": 92, "1379": 92, "5537": 92, "1088": 92, "8950": 92, "0550": 92, "6163": 92, "0109": 92, "5245": 92, "9632": 92, "5686": 92, "3775": 92, "8162": 92, "4216": 92, "4311": 92, "1649": 92, "2091": 92, "3668": 92, "1006": 92, "1447": 92, "0352": 92, "7689": 92, "8131": 92, "_run_on_gpu_0": 92, "_run_on_acc_1": 92, "dry": 92, "50": [92, 103], "count": 92, "__": 92, "were": [92, 106], "aggreg": 92, "stat": 92, "latenc": [92, 106], "abstractli": 92, "pkl": [92, 94], "cupi": 92, "gap": 92, "prealloc": 92, "circularpaddingplugin": 92, "ipluginv2dynamicext": 92, "field_collect": 92, "pluginfieldcollect": 92, "x_shape": 92, "num_output": 92, "plugin_namespac": 92, "plugin_typ": 92, "plugin_vers": 92, "assert": [92, 94, 95], "get_output_datatyp": 92, "input_typ": 92, "get_output_dimens": 92, "output_index": 92, "dimsexpr": 92, "exprbuild": 92, "iexprbuild": 92, "output_dim": 92, "dimensionoper": 92, "configure_plugin": 92, "inp": 92, "dynamicplugintensordesc": 92, "x_dim": 92, "desc": 92, "supports_format_combin": 92, "po": 92, "in_out": 92, "plugintensordesc": 92, "num_input": 92, "enqueu": 92, "input_desc": 92, "output_desc": 92, "in_dtyp": 92, "a_mem": 92, "unownedmemori": 92, "items": 92, "c_mem": 92, "a_ptr": 92, "memorypoint": 92, "c_ptr": 92, "a_d": 92, "memptr": 92, "c_d": 92, "a_t": 92, "as_tensor": 92, "c_t": 92, "cloned_plugin": 92, "__dict__": 92, "circularpaddingplugincr": 92, "iplugincr": 92, "field_nam": 92, "pluginfield": 92, "pluginfieldtyp": 92, "create_plugin": 92, "pluginfieldcollection_": 92, "deserialize_plugin": 92, "pads_dict": 92, "creator": 92, "trt_plugin_registri": 92, "get_plugin_registri": 92, "register_cr": 92, "untyp": 92, "get_trt_tensor": 92, "set_layer_nam": 92, "recal": 92, "intlist": 92, "circular_padding_convert": 92, "retriev": 92, "elsewher": 92, "plugin_registri": 92, "plugin_cr": 92, "get_plugin_cr": 92, "field_config": 92, "eventu": 92, "freez": 92, "_input": 92, "add_plugin_v2": 92, "circular_padding_plugin": 92, "_run_on_acc_0": 92, "grad_fn": 92, "subbackward0": 92, "minut": [92, 94, 95, 96, 97, 98, 99, 100, 101], "custom_kernel_plugin": 92, "jupyt": [92, 94, 95, 96, 97, 98, 99, 100, 101, 102], "ipynb": [92, 94, 95, 96, 97, 98, 99, 100, 101], "cudagraph": [93, 102], "tenorrt": [93, 102], "mutabl": [93, 102], "vgg16_fp8_ptq": [93, 102], "straightforward": 94, "especi": 94, "hug": 94, "face": 94, "difficult": 94, "ever": 94, "walk": [94, 95], "lora": [94, 95], "torch_trt": [94, 95], "random": [94, 95], "seed": [94, 95], "manual_se": [94, 95], "use_python": 94, "resnet18": [94, 95, 97, 100], "mutable_modul": 94, "model2": [94, 95], "expected_output": [94, 95], "refitted_output": [94, 95], "allclos": [94, 95], "reload": [94, 108], "checkpoint": [94, 101], "civitai": 94, "12597": 94, "moxin": 94, "diffusionpipelin": [94, 98], "no_grad": [94, 101], "model_id": [94, 98], "runwayml": 94, "v1": [94, 98], "hous": 94, "forest": 94, "shuimobysim": 94, "wuchangshuo": 94, "qualiti": 94, "worst": 94, "lowr": 94, "focu": 94, "cloudi": 94, "watermark": 94, "pipe": [94, 98], "from_pretrain": [94, 98, 99], "torch_dtyp": [94, 98], "unet": [94, 98], "negative_prompt": 94, "num_inference_step": 94, "30": [94, 95, 97, 99], "without_lora_mut": 94, "jpg": [94, 104], "procedur": 94, "load_lora_weight": 94, "stablediffusionapi": 94, "load_lora_embed": 94, "weight_nam": 94, "safetensor": 94, "adapter_nam": 94, "lora1": 94, "set_adapt": 94, "adapter_weight": 94, "fuse_lora": 94, "unload_lora_weight": 94, "with_lora_mut": 94, "mutable_torchtrt_module_exampl": 94, "ai": 95, "pose": 95, "repetit": 95, "highli": [95, 103, 104], "ineffici": 95, "consider": [95, 104], "exp_program2": 95, "compiled_trt_ep": 95, "new_trt_gm": 95, "switch": [95, 106], "refit_engine_exampl": 95, "torch_compil": [96, 97, 99, 100, 105, 108], "x_out": 96, "y_out": 96, "x_y_out": 96, "invoc": 96, "sample_inputs_half": 96, "model_half": 96, "backend_kwarg": 96, "optimized_model_custom": 96, "occasion": [96, 99], "exit": [96, 99, 104], "2052": [96, 99], "__name__": [96, 99], "__main__": [96, 99], "compile_engine_and_inf": [96, 99], "new_input": [97, 99], "new_output": [97, 99], "new_batch_size_input": 97, "new_batch_size_output": 97, "inputs_bs8": 97, "mark_dynam": [97, 105], "outputs_bs8": 97, "No": [97, 105], "inputs_bs12": 97, "outputs_bs12": 97, "compvi": 98, "majest": 98, "castl": 98, "cloud": 98, "majestic_castl": 98, "png": 98, "bertmodel": 99, "bert": 99, "uncas": [99, 103], "randint": 99, "compilation_kwarg": 99, "enable_cudagraph": [100, 106], "out_trt": 100, "set_cudagraphs_mod": [100, 106], "inputs_2": 100, "inputs_3": 100, "out_trt_2": 100, "out_trt_3": 100, "torch_export_cudagraph": 100, "argpars": 101, "modelopt": 101, "mtq": 101, "export_torch_mod": 101, "layer_spec": 101, "num_class": 101, "1000": [101, 104], "init_weight": 101, "in_channel": 101, "pool": [101, 109], "maxpool2d": 101, "batchnorm2d": 101, "sequenti": 101, "avgpool": 101, "adaptiveavgpool2d": 101, "4096": 101, "dropout": 101, "_initialize_weight": 101, "init": 101, "kaiming_normal_": 101, "fan_out": 101, "nonlinear": 101, "constant_": 101, "elif": 101, "normal_": 101, "vgg16_cfg": 101, "128": 101, "argumentpars": 101, "add_argu": 101, "ckpt": 101, "parse_arg": 101, "model_state_dict": 101, "device_count": 101, "ordereddict": 101, "new_state_dict": 101, "forget": 101, "training_dataset": 101, "randomcrop": 101, "randomhorizontalflip": 101, "training_dataload": 101, "drop_last": 101, "crit": 101, "crossentropyloss": 101, "calibrate_loop": 101, "pred": 101, "5f": 101, "acc": 101, "2f": 101, "quantize_typ": 101, "quant_cfg": 101, "int8_default_cfg": 101, "fp8_default_cfg": 101, "forward_loop": 101, "qdq": 101, "incomplet": 101, "attempt": [101, 105], "functionaltensor": 101, "functionaltensormod": 101, "_trace": 101, "_export": 101, "float8_e4m3fn": 101, "class_prob": 101, "class_pr": 101, "test_prob": 101, "test_pr": 101, "test_loss": 101, "test_acc": 101, "vgg16_ptq": 101, "concept": 102, "explor": 102, "_rendered_examples_python": 102, "_rendered_examples_jupyt": 102, "acoust": 103, "speech": 103, "quartznet": 103, "contextnet": 103, "subword": 103, "piec": 103, "token": 103, "excit": 103, "se": 103, "smaller": 103, "audio": 103, "transcrib": 103, "speedup": 103, "obtain": [103, 107], "feedforward": 103, "cnn": 103, "uniformli": 103, "resolut": 103, "compound": 103, "coeffici": 103, "b0": 103, "corpu": 103, "english": 103, "supervis": 103, "huggingfac": 103, "walkthrough": 103, "overal": 103, "jetson": 103, "adopt": 103, "mobilenetv2": 103, "classif": 103, "imagenet": 103, "imagenett": 103, "qat": 103, "simul": 103, "hand": 104, "concurr": 104, "grpc": 104, "solv": 104, "aforement": 104, "familiar": 104, "resnet50": 104, "torchhub": 104, "docker": 104, "login": 104, "xx": 104, "yy": 104, "mm": 104, "publish": 104, "22": 104, "pwd": 104, "scratch_spac": 104, "nvcr": 104, "py3": 104, "proce": 104, "hub": 104, "_validate_not_a_forked_repo": 104, "suggest": 104, "simplest": 104, "model_repositori": 104, "pbtxt": 104, "pytorch_libtorch": 104, "input__0": 104, "data_typ": 104, "type_fp32": 104, "output__0": 104, "exact": 104, "encourag": 104, "rm": 104, "8000": 104, "8001": 104, "8002": 104, "the_model_repositori": 104, "tritonserv": 104, "spin": 104, "proceed": 104, "flesh": 104, "wget": 104, "img1": 104, "hakaimagazin": 104, "wp": 104, "gulf": 104, "bird": 104, "attrdict": 104, "pyindex": 104, "tritoncli": 104, "jump": 104, "firstli": 104, "resiz": 104, "pil": 104, "httpclient": 104, "triton_to_np_dtyp": 104, "rn50_preprocess": 104, "img_path": 104, "img": 104, "centercrop": 104, "485": 104, "456": 104, "406": 104, "229": 104, "transformed_img": 104, "inferenceservercli": 104, "localhost": 104, "secondli": 104, "inferinput": 104, "set_data_from_numpi": 104, "binary_data": 104, "inferrequestedoutput": 104, "class_count": 104, "lastli": 104, "send": 104, "model_nam": 104, "inference_output": 104, "as_numpi": 104, "468750": 104, "90": 104, "523438": 104, "92": 104, "664062": 104, "429688": 104, "136": 104, "234375": 104, "confidence_scor": 104, "classification_index": 104, "eagerli": 105, "prior": [105, 106], "swap": 105, "exactli": 105, "dynamic_shap": 105, "_tracer": 105, "sometim": 105, "queri": 105, "attn_weight": 105, "seq_len": 105, "compiler_dynamic_shap": 105, "inputs_bs2": 105, "libtorchtrt_runtim": 106, "dl_open": 106, "ld_preload": 106, "load_librari": 106, "cxx11": 106, "abi": 106, "wl": 106, "ltorchtrt": 106, "torchtrt_runtime_exampl": 106, "libtorchtrt_plugin": 106, "neglig": 106, "thread": 106, "alert": 106, "mismatch": 106, "crash": 106, "sacrif": 106, "incur": 106, "intens": 106, "trt_ep": 107, "stai": 107, "trt_t": 107, "ergonom": 108, "flexibl": 108, "deleg": 108, "believ": 108, "amen": 108, "artifact": 108, "pack": 108, "year": 108, "superset": 108, "codebas": 108, "immedi": 108, "traceabl": 108, "scriptabl": 108, "hardwar": 109, "neural": 109, "deconvolut": 109, "scripted_model": 109}, "objects": {"": [[5, 0, 1, "c.STR", "STR"], [9, 0, 1, "c.TORCHTRT_API", "TORCHTRT_API"], [11, 0, 1, "c.TORCHTRT_HIDDEN", "TORCHTRT_HIDDEN"], [7, 0, 1, "c.TORCH_TENSORRT_MAJOR_VERSION", "TORCH_TENSORRT_MAJOR_VERSION"], [8, 0, 1, "c.TORCH_TENSORRT_MINOR_VERSION", "TORCH_TENSORRT_MINOR_VERSION"], [6, 0, 1, "c.TORCH_TENSORRT_PATCH_VERSION", "TORCH_TENSORRT_PATCH_VERSION"], [12, 0, 1, "c.TORCH_TENSORRT_VERSION", "TORCH_TENSORRT_VERSION"], [10, 0, 1, "c.XSTR", "XSTR"], [0, 1, 1, "_CPPv4N14torch_tensorrt8DataTypeE", "torch_tensorrt::DataType"], [0, 2, 1, "_CPPv4N14torch_tensorrt8DataType8DataTypeE5Value", "torch_tensorrt::DataType::DataType"], [0, 2, 1, "_CPPv4N14torch_tensorrt8DataType8DataTypeEN3c1010ScalarTypeE", "torch_tensorrt::DataType::DataType"], [0, 2, 1, "_CPPv4N14torch_tensorrt8DataType8DataTypeEv", "torch_tensorrt::DataType::DataType"], [0, 3, 1, "_CPPv4N14torch_tensorrt8DataType8DataTypeE5Value", "torch_tensorrt::DataType::DataType::t"], [0, 3, 1, "_CPPv4N14torch_tensorrt8DataType8DataTypeEN3c1010ScalarTypeE", "torch_tensorrt::DataType::DataType::t"], [0, 4, 1, "_CPPv4N14torch_tensorrt8DataType5ValueE", "torch_tensorrt::DataType::Value"], [0, 5, 1, "_CPPv4N14torch_tensorrt8DataType5Value5kBoolE", "torch_tensorrt::DataType::Value::kBool"], [0, 5, 1, "_CPPv4N14torch_tensorrt8DataType5Value5kCharE", "torch_tensorrt::DataType::Value::kChar"], [0, 5, 1, "_CPPv4N14torch_tensorrt8DataType5Value7kDoubleE", "torch_tensorrt::DataType::Value::kDouble"], [0, 5, 1, "_CPPv4N14torch_tensorrt8DataType5Value6kFloatE", "torch_tensorrt::DataType::Value::kFloat"], [0, 5, 1, "_CPPv4N14torch_tensorrt8DataType5Value5kHalfE", "torch_tensorrt::DataType::Value::kHalf"], [0, 5, 1, "_CPPv4N14torch_tensorrt8DataType5Value4kIntE", "torch_tensorrt::DataType::Value::kInt"], [0, 5, 1, "_CPPv4N14torch_tensorrt8DataType5Value5kLongE", "torch_tensorrt::DataType::Value::kLong"], [0, 5, 1, "_CPPv4N14torch_tensorrt8DataType5Value8kUnknownE", "torch_tensorrt::DataType::Value::kUnknown"], [0, 5, 1, "_CPPv4N14torch_tensorrt8DataType5Value5kBoolE", "torch_tensorrt::DataType::kBool"], [0, 5, 1, "_CPPv4N14torch_tensorrt8DataType5Value5kCharE", "torch_tensorrt::DataType::kChar"], [0, 5, 1, "_CPPv4N14torch_tensorrt8DataType5Value7kDoubleE", "torch_tensorrt::DataType::kDouble"], [0, 5, 1, "_CPPv4N14torch_tensorrt8DataType5Value6kFloatE", "torch_tensorrt::DataType::kFloat"], [0, 5, 1, "_CPPv4N14torch_tensorrt8DataType5Value5kHalfE", "torch_tensorrt::DataType::kHalf"], [0, 5, 1, "_CPPv4N14torch_tensorrt8DataType5Value4kIntE", "torch_tensorrt::DataType::kInt"], [0, 5, 1, "_CPPv4N14torch_tensorrt8DataType5Value5kLongE", "torch_tensorrt::DataType::kLong"], [0, 5, 1, "_CPPv4N14torch_tensorrt8DataType5Value8kUnknownE", "torch_tensorrt::DataType::kUnknown"], [0, 2, 1, "_CPPv4NK14torch_tensorrt8DataTypecv5ValueEv", "torch_tensorrt::DataType::operator Value"], [0, 2, 1, "_CPPv4N14torch_tensorrt8DataTypecvbEv", "torch_tensorrt::DataType::operator bool"], [0, 2, 1, "_CPPv4NK14torch_tensorrt8DataTypeneE8DataType", "torch_tensorrt::DataType::operator!="], [0, 2, 1, "_CPPv4NK14torch_tensorrt8DataTypeneEN8DataType5ValueE", "torch_tensorrt::DataType::operator!="], [0, 3, 1, "_CPPv4NK14torch_tensorrt8DataTypeneE8DataType", "torch_tensorrt::DataType::operator!=::other"], [0, 3, 1, "_CPPv4NK14torch_tensorrt8DataTypeneEN8DataType5ValueE", "torch_tensorrt::DataType::operator!=::other"], [0, 2, 1, "_CPPv4NK14torch_tensorrt8DataTypeeqE8DataType", "torch_tensorrt::DataType::operator=="], [0, 2, 1, "_CPPv4NK14torch_tensorrt8DataTypeeqEN8DataType5ValueE", "torch_tensorrt::DataType::operator=="], [0, 3, 1, "_CPPv4NK14torch_tensorrt8DataTypeeqE8DataType", "torch_tensorrt::DataType::operator==::other"], [0, 3, 1, "_CPPv4NK14torch_tensorrt8DataTypeeqEN8DataType5ValueE", "torch_tensorrt::DataType::operator==::other"], [46, 1, 1, "_CPPv4N14torch_tensorrt6DeviceE", "torch_tensorrt::Device"], [46, 2, 1, "_CPPv4N14torch_tensorrt6Device6DeviceEv", "torch_tensorrt::Device::Device"], [1, 1, 1, "_CPPv4N14torch_tensorrt6Device10DeviceTypeE", "torch_tensorrt::Device::DeviceType"], [46, 1, 1, "_CPPv4N14torch_tensorrt6Device10DeviceTypeE", "torch_tensorrt::Device::DeviceType"], [1, 2, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType10DeviceTypeE5Value", "torch_tensorrt::Device::DeviceType::DeviceType"], [1, 2, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType10DeviceTypeEN3c1010DeviceTypeE", "torch_tensorrt::Device::DeviceType::DeviceType"], [1, 2, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType10DeviceTypeEv", "torch_tensorrt::Device::DeviceType::DeviceType"], [46, 2, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType10DeviceTypeE5Value", "torch_tensorrt::Device::DeviceType::DeviceType"], [46, 2, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType10DeviceTypeEN3c1010DeviceTypeE", "torch_tensorrt::Device::DeviceType::DeviceType"], [46, 2, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType10DeviceTypeEv", "torch_tensorrt::Device::DeviceType::DeviceType"], [1, 3, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType10DeviceTypeE5Value", "torch_tensorrt::Device::DeviceType::DeviceType::t"], [1, 3, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType10DeviceTypeEN3c1010DeviceTypeE", "torch_tensorrt::Device::DeviceType::DeviceType::t"], [46, 3, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType10DeviceTypeE5Value", "torch_tensorrt::Device::DeviceType::DeviceType::t"], [46, 3, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType10DeviceTypeEN3c1010DeviceTypeE", "torch_tensorrt::Device::DeviceType::DeviceType::t"], [1, 4, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType5ValueE", "torch_tensorrt::Device::DeviceType::Value"], [46, 4, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType5ValueE", "torch_tensorrt::Device::DeviceType::Value"], [1, 5, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType5Value4kDLAE", "torch_tensorrt::Device::DeviceType::Value::kDLA"], [46, 5, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType5Value4kDLAE", "torch_tensorrt::Device::DeviceType::Value::kDLA"], [1, 5, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType5Value4kGPUE", "torch_tensorrt::Device::DeviceType::Value::kGPU"], [46, 5, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType5Value4kGPUE", "torch_tensorrt::Device::DeviceType::Value::kGPU"], [1, 5, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType5Value4kDLAE", "torch_tensorrt::Device::DeviceType::kDLA"], [1, 5, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType5Value4kGPUE", "torch_tensorrt::Device::DeviceType::kGPU"], [1, 2, 1, "_CPPv4NK14torch_tensorrt6Device10DeviceTypecv5ValueEv", "torch_tensorrt::Device::DeviceType::operator Value"], [46, 2, 1, "_CPPv4NK14torch_tensorrt6Device10DeviceTypecv5ValueEv", "torch_tensorrt::Device::DeviceType::operator Value"], [1, 2, 1, "_CPPv4N14torch_tensorrt6Device10DeviceTypecvbEv", "torch_tensorrt::Device::DeviceType::operator bool"], [46, 2, 1, "_CPPv4N14torch_tensorrt6Device10DeviceTypecvbEv", "torch_tensorrt::Device::DeviceType::operator bool"], [1, 2, 1, "_CPPv4NK14torch_tensorrt6Device10DeviceTypeneE10DeviceType", "torch_tensorrt::Device::DeviceType::operator!="], [46, 2, 1, "_CPPv4NK14torch_tensorrt6Device10DeviceTypeneE10DeviceType", "torch_tensorrt::Device::DeviceType::operator!="], [1, 3, 1, "_CPPv4NK14torch_tensorrt6Device10DeviceTypeneE10DeviceType", "torch_tensorrt::Device::DeviceType::operator!=::other"], [46, 3, 1, "_CPPv4NK14torch_tensorrt6Device10DeviceTypeneE10DeviceType", "torch_tensorrt::Device::DeviceType::operator!=::other"], [1, 2, 1, "_CPPv4NK14torch_tensorrt6Device10DeviceTypeeqE10DeviceType", "torch_tensorrt::Device::DeviceType::operator=="], [46, 2, 1, "_CPPv4NK14torch_tensorrt6Device10DeviceTypeeqE10DeviceType", "torch_tensorrt::Device::DeviceType::operator=="], [1, 3, 1, "_CPPv4NK14torch_tensorrt6Device10DeviceTypeeqE10DeviceType", "torch_tensorrt::Device::DeviceType::operator==::other"], [46, 3, 1, "_CPPv4NK14torch_tensorrt6Device10DeviceTypeeqE10DeviceType", "torch_tensorrt::Device::DeviceType::operator==::other"], [46, 6, 1, "_CPPv4N14torch_tensorrt6Device18allow_gpu_fallbackE", "torch_tensorrt::Device::allow_gpu_fallback"], [46, 6, 1, "_CPPv4N14torch_tensorrt6Device11device_typeE", "torch_tensorrt::Device::device_type"], [46, 6, 1, "_CPPv4N14torch_tensorrt6Device8dla_coreE", "torch_tensorrt::Device::dla_core"], [46, 6, 1, "_CPPv4N14torch_tensorrt6Device6gpu_idE", "torch_tensorrt::Device::gpu_id"], [17, 4, 1, "_CPPv4N14torch_tensorrt16EngineCapabilityE", "torch_tensorrt::EngineCapability"], [17, 5, 1, "_CPPv4N14torch_tensorrt16EngineCapability15kDLA_STANDALONEE", "torch_tensorrt::EngineCapability::kDLA_STANDALONE"], [17, 5, 1, "_CPPv4N14torch_tensorrt16EngineCapability7kSAFETYE", "torch_tensorrt::EngineCapability::kSAFETY"], [17, 5, 1, "_CPPv4N14torch_tensorrt16EngineCapability9kSTANDARDE", "torch_tensorrt::EngineCapability::kSTANDARD"], [47, 1, 1, "_CPPv4N14torch_tensorrt11GraphInputsE", "torch_tensorrt::GraphInputs"], [47, 6, 1, "_CPPv4N14torch_tensorrt11GraphInputs15input_signatureE", "torch_tensorrt::GraphInputs::input_signature"], [47, 6, 1, "_CPPv4N14torch_tensorrt11GraphInputs6inputsE", "torch_tensorrt::GraphInputs::inputs"], [48, 1, 1, "_CPPv4N14torch_tensorrt5InputE", "torch_tensorrt::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputEN2at6TensorE", "torch_tensorrt::Input::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEE12TensorFormat", "torch_tensorrt::Input::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE12TensorFormat", "torch_tensorrt::Input::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEE12TensorFormat", "torch_tensorrt::Input::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE12TensorFormat", "torch_tensorrt::Input::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputEv", "torch_tensorrt::Input::Input"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input::dtype"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::dtype"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input::dtype"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::dtype"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input::dtype"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::dtype"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input::dtype"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::dtype"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEE12TensorFormat", "torch_tensorrt::Input::Input::format"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input::format"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::format"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE12TensorFormat", "torch_tensorrt::Input::Input::format"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input::format"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::format"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::format"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::format"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEE12TensorFormat", "torch_tensorrt::Input::Input::format"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input::format"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::format"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE12TensorFormat", "torch_tensorrt::Input::Input::format"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input::format"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::format"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::format"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::format"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE12TensorFormat", "torch_tensorrt::Input::Input::max_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input::max_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::max_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::max_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE12TensorFormat", "torch_tensorrt::Input::Input::max_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input::max_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::max_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::max_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE12TensorFormat", "torch_tensorrt::Input::Input::min_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input::min_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::min_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::min_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE12TensorFormat", "torch_tensorrt::Input::Input::min_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input::min_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::min_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::min_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE12TensorFormat", "torch_tensorrt::Input::Input::opt_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input::opt_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::opt_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::opt_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE12TensorFormat", "torch_tensorrt::Input::Input::opt_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input::opt_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::opt_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::opt_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEE12TensorFormat", "torch_tensorrt::Input::Input::shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input::shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEE12TensorFormat", "torch_tensorrt::Input::Input::shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input::shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN2at6TensorE", "torch_tensorrt::Input::Input::tensor"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::tensor_domain"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::tensor_domain"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::tensor_domain"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::tensor_domain"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::tensor_domain"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::tensor_domain"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::tensor_domain"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::tensor_domain"], [48, 6, 1, "_CPPv4N14torch_tensorrt5Input5dtypeE", "torch_tensorrt::Input::dtype"], [48, 6, 1, "_CPPv4N14torch_tensorrt5Input6formatE", "torch_tensorrt::Input::format"], [48, 6, 1, "_CPPv4N14torch_tensorrt5Input9max_shapeE", "torch_tensorrt::Input::max_shape"], [48, 6, 1, "_CPPv4N14torch_tensorrt5Input9min_shapeE", "torch_tensorrt::Input::min_shape"], [48, 6, 1, "_CPPv4N14torch_tensorrt5Input9opt_shapeE", "torch_tensorrt::Input::opt_shape"], [48, 6, 1, "_CPPv4N14torch_tensorrt5Input5shapeE", "torch_tensorrt::Input::shape"], [48, 6, 1, "_CPPv4N14torch_tensorrt5Input13tensor_domainE", "torch_tensorrt::Input::tensor_domain"], [2, 1, 1, "_CPPv4N14torch_tensorrt12TensorFormatE", "torch_tensorrt::TensorFormat"], [2, 2, 1, "_CPPv4N14torch_tensorrt12TensorFormat12TensorFormatE5Value", "torch_tensorrt::TensorFormat::TensorFormat"], [2, 2, 1, "_CPPv4N14torch_tensorrt12TensorFormat12TensorFormatEN2at12MemoryFormatE", "torch_tensorrt::TensorFormat::TensorFormat"], [2, 2, 1, "_CPPv4N14torch_tensorrt12TensorFormat12TensorFormatEv", "torch_tensorrt::TensorFormat::TensorFormat"], [2, 3, 1, "_CPPv4N14torch_tensorrt12TensorFormat12TensorFormatE5Value", "torch_tensorrt::TensorFormat::TensorFormat::t"], [2, 3, 1, "_CPPv4N14torch_tensorrt12TensorFormat12TensorFormatEN2at12MemoryFormatE", "torch_tensorrt::TensorFormat::TensorFormat::t"], [2, 4, 1, "_CPPv4N14torch_tensorrt12TensorFormat5ValueE", "torch_tensorrt::TensorFormat::Value"], [2, 5, 1, "_CPPv4N14torch_tensorrt12TensorFormat5Value13kChannelsLastE", "torch_tensorrt::TensorFormat::Value::kChannelsLast"], [2, 5, 1, "_CPPv4N14torch_tensorrt12TensorFormat5Value11kContiguousE", "torch_tensorrt::TensorFormat::Value::kContiguous"], [2, 5, 1, "_CPPv4N14torch_tensorrt12TensorFormat5Value8kUnknownE", "torch_tensorrt::TensorFormat::Value::kUnknown"], [2, 5, 1, "_CPPv4N14torch_tensorrt12TensorFormat5Value13kChannelsLastE", "torch_tensorrt::TensorFormat::kChannelsLast"], [2, 5, 1, "_CPPv4N14torch_tensorrt12TensorFormat5Value11kContiguousE", "torch_tensorrt::TensorFormat::kContiguous"], [2, 5, 1, "_CPPv4N14torch_tensorrt12TensorFormat5Value8kUnknownE", "torch_tensorrt::TensorFormat::kUnknown"], [2, 2, 1, "_CPPv4NK14torch_tensorrt12TensorFormatcv5ValueEv", "torch_tensorrt::TensorFormat::operator Value"], [2, 2, 1, "_CPPv4N14torch_tensorrt12TensorFormatcvbEv", "torch_tensorrt::TensorFormat::operator bool"], [2, 2, 1, "_CPPv4NK14torch_tensorrt12TensorFormatneE12TensorFormat", "torch_tensorrt::TensorFormat::operator!="], [2, 2, 1, "_CPPv4NK14torch_tensorrt12TensorFormatneEN12TensorFormat5ValueE", "torch_tensorrt::TensorFormat::operator!="], [2, 3, 1, "_CPPv4NK14torch_tensorrt12TensorFormatneE12TensorFormat", "torch_tensorrt::TensorFormat::operator!=::other"], [2, 3, 1, "_CPPv4NK14torch_tensorrt12TensorFormatneEN12TensorFormat5ValueE", "torch_tensorrt::TensorFormat::operator!=::other"], [2, 2, 1, "_CPPv4NK14torch_tensorrt12TensorFormateqE12TensorFormat", "torch_tensorrt::TensorFormat::operator=="], [2, 2, 1, "_CPPv4NK14torch_tensorrt12TensorFormateqEN12TensorFormat5ValueE", "torch_tensorrt::TensorFormat::operator=="], [2, 3, 1, "_CPPv4NK14torch_tensorrt12TensorFormateqE12TensorFormat", "torch_tensorrt::TensorFormat::operator==::other"], [2, 3, 1, "_CPPv4NK14torch_tensorrt12TensorFormateqEN12TensorFormat5ValueE", "torch_tensorrt::TensorFormat::operator==::other"], [37, 2, 1, "_CPPv4N14torch_tensorrt15dump_build_infoEv", "torch_tensorrt::dump_build_info"], [35, 2, 1, "_CPPv4N14torch_tensorrt14get_build_infoEv", "torch_tensorrt::get_build_info"], [17, 5, 1, "_CPPv4N14torch_tensorrt16EngineCapability15kDLA_STANDALONEE", "torch_tensorrt::kDLA_STANDALONE"], [17, 5, 1, "_CPPv4N14torch_tensorrt16EngineCapability7kSAFETYE", "torch_tensorrt::kSAFETY"], [17, 5, 1, "_CPPv4N14torch_tensorrt16EngineCapability9kSTANDARDE", "torch_tensorrt::kSTANDARD"], [16, 4, 1, "_CPPv4N14torch_tensorrt7logging5LevelE", "torch_tensorrt::logging::Level"], [16, 5, 1, "_CPPv4N14torch_tensorrt7logging5Level6kDEBUGE", "torch_tensorrt::logging::Level::kDEBUG"], [16, 5, 1, "_CPPv4N14torch_tensorrt7logging5Level6kERRORE", "torch_tensorrt::logging::Level::kERROR"], [16, 5, 1, "_CPPv4N14torch_tensorrt7logging5Level6kGRAPHE", "torch_tensorrt::logging::Level::kGRAPH"], [16, 5, 1, "_CPPv4N14torch_tensorrt7logging5Level5kINFOE", "torch_tensorrt::logging::Level::kINFO"], [16, 5, 1, "_CPPv4N14torch_tensorrt7logging5Level15kINTERNAL_ERRORE", "torch_tensorrt::logging::Level::kINTERNAL_ERROR"], [16, 5, 1, "_CPPv4N14torch_tensorrt7logging5Level8kWARNINGE", "torch_tensorrt::logging::Level::kWARNING"], [24, 2, 1, "_CPPv4N14torch_tensorrt7logging24get_is_colored_output_onEv", "torch_tensorrt::logging::get_is_colored_output_on"], [22, 2, 1, "_CPPv4N14torch_tensorrt7logging18get_logging_prefixEv", "torch_tensorrt::logging::get_logging_prefix"], [23, 2, 1, "_CPPv4N14torch_tensorrt7logging24get_reportable_log_levelEv", "torch_tensorrt::logging::get_reportable_log_level"], [16, 5, 1, "_CPPv4N14torch_tensorrt7logging5Level6kDEBUGE", "torch_tensorrt::logging::kDEBUG"], [16, 5, 1, "_CPPv4N14torch_tensorrt7logging5Level6kERRORE", "torch_tensorrt::logging::kERROR"], [16, 5, 1, "_CPPv4N14torch_tensorrt7logging5Level6kGRAPHE", "torch_tensorrt::logging::kGRAPH"], [16, 5, 1, "_CPPv4N14torch_tensorrt7logging5Level5kINFOE", "torch_tensorrt::logging::kINFO"], [16, 5, 1, "_CPPv4N14torch_tensorrt7logging5Level15kINTERNAL_ERRORE", "torch_tensorrt::logging::kINTERNAL_ERROR"], [16, 5, 1, "_CPPv4N14torch_tensorrt7logging5Level8kWARNINGE", "torch_tensorrt::logging::kWARNING"], [26, 2, 1, "_CPPv4N14torch_tensorrt7logging3logE5LevelNSt6stringE", "torch_tensorrt::logging::log"], [26, 3, 1, "_CPPv4N14torch_tensorrt7logging3logE5LevelNSt6stringE", "torch_tensorrt::logging::log::lvl"], [26, 3, 1, "_CPPv4N14torch_tensorrt7logging3logE5LevelNSt6stringE", "torch_tensorrt::logging::log::msg"], [27, 2, 1, "_CPPv4N14torch_tensorrt7logging24set_is_colored_output_onEb", "torch_tensorrt::logging::set_is_colored_output_on"], [27, 3, 1, "_CPPv4N14torch_tensorrt7logging24set_is_colored_output_onEb", "torch_tensorrt::logging::set_is_colored_output_on::colored_output_on"], [28, 2, 1, "_CPPv4N14torch_tensorrt7logging18set_logging_prefixENSt6stringE", "torch_tensorrt::logging::set_logging_prefix"], [28, 3, 1, "_CPPv4N14torch_tensorrt7logging18set_logging_prefixENSt6stringE", "torch_tensorrt::logging::set_logging_prefix::prefix"], [25, 2, 1, "_CPPv4N14torch_tensorrt7logging24set_reportable_log_levelE5Level", "torch_tensorrt::logging::set_reportable_log_level"], [25, 3, 1, "_CPPv4N14torch_tensorrt7logging24set_reportable_log_levelE5Level", "torch_tensorrt::logging::set_reportable_log_level::lvl"], [3, 1, 1, "_CPPv4I0EN14torch_tensorrt3ptq19Int8CacheCalibratorE", "torch_tensorrt::ptq::Int8CacheCalibrator"], [3, 7, 1, "_CPPv4I0EN14torch_tensorrt3ptq19Int8CacheCalibratorE", "torch_tensorrt::ptq::Int8CacheCalibrator::Algorithm"], [3, 2, 1, "_CPPv4N14torch_tensorrt3ptq19Int8CacheCalibrator19Int8CacheCalibratorERKNSt6stringE", "torch_tensorrt::ptq::Int8CacheCalibrator::Int8CacheCalibrator"], [3, 3, 1, "_CPPv4N14torch_tensorrt3ptq19Int8CacheCalibrator19Int8CacheCalibratorERKNSt6stringE", "torch_tensorrt::ptq::Int8CacheCalibrator::Int8CacheCalibrator::cache_file_path"], [3, 2, 1, "_CPPv4N14torch_tensorrt3ptq19Int8CacheCalibratorcvPN8nvinfer115IInt8CalibratorEEv", "torch_tensorrt::ptq::Int8CacheCalibrator::operator nvinfer1::IInt8Calibrator*"], [4, 1, 1, "_CPPv4I00EN14torch_tensorrt3ptq14Int8CalibratorE", "torch_tensorrt::ptq::Int8Calibrator"], [4, 7, 1, "_CPPv4I00EN14torch_tensorrt3ptq14Int8CalibratorE", "torch_tensorrt::ptq::Int8Calibrator::Algorithm"], [4, 7, 1, "_CPPv4I00EN14torch_tensorrt3ptq14Int8CalibratorE", "torch_tensorrt::ptq::Int8Calibrator::DataLoaderUniquePtr"], [4, 2, 1, "_CPPv4N14torch_tensorrt3ptq14Int8Calibrator14Int8CalibratorE19DataLoaderUniquePtrRKNSt6stringEb", "torch_tensorrt::ptq::Int8Calibrator::Int8Calibrator"], [4, 3, 1, "_CPPv4N14torch_tensorrt3ptq14Int8Calibrator14Int8CalibratorE19DataLoaderUniquePtrRKNSt6stringEb", "torch_tensorrt::ptq::Int8Calibrator::Int8Calibrator::cache_file_path"], [4, 3, 1, "_CPPv4N14torch_tensorrt3ptq14Int8Calibrator14Int8CalibratorE19DataLoaderUniquePtrRKNSt6stringEb", "torch_tensorrt::ptq::Int8Calibrator::Int8Calibrator::dataloader"], [4, 3, 1, "_CPPv4N14torch_tensorrt3ptq14Int8Calibrator14Int8CalibratorE19DataLoaderUniquePtrRKNSt6stringEb", "torch_tensorrt::ptq::Int8Calibrator::Int8Calibrator::use_cache"], [4, 2, 1, "_CPPv4N14torch_tensorrt3ptq14Int8CalibratorcvPN8nvinfer115IInt8CalibratorEEv", "torch_tensorrt::ptq::Int8Calibrator::operator nvinfer1::IInt8Calibrator*"], [29, 2, 1, "_CPPv4I0EN14torch_tensorrt3ptq26make_int8_cache_calibratorE19Int8CacheCalibratorI9AlgorithmERKNSt6stringE", "torch_tensorrt::ptq::make_int8_cache_calibrator"], [29, 7, 1, "_CPPv4I0EN14torch_tensorrt3ptq26make_int8_cache_calibratorE19Int8CacheCalibratorI9AlgorithmERKNSt6stringE", "torch_tensorrt::ptq::make_int8_cache_calibrator::Algorithm"], [29, 3, 1, "_CPPv4I0EN14torch_tensorrt3ptq26make_int8_cache_calibratorE19Int8CacheCalibratorI9AlgorithmERKNSt6stringE", "torch_tensorrt::ptq::make_int8_cache_calibrator::cache_file_path"], [30, 2, 1, "_CPPv4I00EN14torch_tensorrt3ptq20make_int8_calibratorE14Int8CalibratorI9Algorithm10DataLoaderE10DataLoaderRKNSt6stringEb", "torch_tensorrt::ptq::make_int8_calibrator"], [30, 7, 1, "_CPPv4I00EN14torch_tensorrt3ptq20make_int8_calibratorE14Int8CalibratorI9Algorithm10DataLoaderE10DataLoaderRKNSt6stringEb", "torch_tensorrt::ptq::make_int8_calibrator::Algorithm"], [30, 7, 1, "_CPPv4I00EN14torch_tensorrt3ptq20make_int8_calibratorE14Int8CalibratorI9Algorithm10DataLoaderE10DataLoaderRKNSt6stringEb", "torch_tensorrt::ptq::make_int8_calibrator::DataLoader"], [30, 3, 1, "_CPPv4I00EN14torch_tensorrt3ptq20make_int8_calibratorE14Int8CalibratorI9Algorithm10DataLoaderE10DataLoaderRKNSt6stringEb", "torch_tensorrt::ptq::make_int8_calibrator::cache_file_path"], [30, 3, 1, "_CPPv4I00EN14torch_tensorrt3ptq20make_int8_calibratorE14Int8CalibratorI9Algorithm10DataLoaderE10DataLoaderRKNSt6stringEb", "torch_tensorrt::ptq::make_int8_calibrator::dataloader"], [30, 3, 1, "_CPPv4I00EN14torch_tensorrt3ptq20make_int8_calibratorE14Int8CalibratorI9Algorithm10DataLoaderE10DataLoaderRKNSt6stringEb", "torch_tensorrt::ptq::make_int8_calibrator::use_cache"], [36, 2, 1, "_CPPv4N14torch_tensorrt10set_deviceEKi", "torch_tensorrt::set_device"], [36, 3, 1, "_CPPv4N14torch_tensorrt10set_deviceEKi", "torch_tensorrt::set_device::gpu_id"], [49, 1, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpecE", "torch_tensorrt::torchscript::CompileSpec"], [49, 2, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec11CompileSpecEN5torch3jit6IValueE", "torch_tensorrt::torchscript::CompileSpec::CompileSpec"], [49, 2, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec11CompileSpecENSt6vectorI5InputEE", "torch_tensorrt::torchscript::CompileSpec::CompileSpec"], [49, 2, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec11CompileSpecENSt6vectorIN3c108ArrayRefI7int64_tEEEE", "torch_tensorrt::torchscript::CompileSpec::CompileSpec"], [49, 2, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec11CompileSpecENSt6vectorINSt6vectorI7int64_tEEEE", "torch_tensorrt::torchscript::CompileSpec::CompileSpec"], [49, 3, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec11CompileSpecENSt6vectorIN3c108ArrayRefI7int64_tEEEE", "torch_tensorrt::torchscript::CompileSpec::CompileSpec::fixed_sizes"], [49, 3, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec11CompileSpecENSt6vectorINSt6vectorI7int64_tEEEE", "torch_tensorrt::torchscript::CompileSpec::CompileSpec::fixed_sizes"], [49, 3, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec11CompileSpecEN5torch3jit6IValueE", "torch_tensorrt::torchscript::CompileSpec::CompileSpec::input_signature"], [49, 3, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec11CompileSpecENSt6vectorI5InputEE", "torch_tensorrt::torchscript::CompileSpec::CompileSpec::inputs"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec19allow_shape_tensorsE", "torch_tensorrt::torchscript::CompileSpec::allow_shape_tensors"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec10capabilityE", "torch_tensorrt::torchscript::CompileSpec::capability"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec5debugE", "torch_tensorrt::torchscript::CompileSpec::debug"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec6deviceE", "torch_tensorrt::torchscript::CompileSpec::device"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec12disable_tf32E", "torch_tensorrt::torchscript::CompileSpec::disable_tf32"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec20dla_global_dram_sizeE", "torch_tensorrt::torchscript::CompileSpec::dla_global_dram_size"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec19dla_local_dram_sizeE", "torch_tensorrt::torchscript::CompileSpec::dla_local_dram_size"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec13dla_sram_sizeE", "torch_tensorrt::torchscript::CompileSpec::dla_sram_size"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec18enabled_precisionsE", "torch_tensorrt::torchscript::CompileSpec::enabled_precisions"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec12graph_inputsE", "torch_tensorrt::torchscript::CompileSpec::graph_inputs"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec14min_block_sizeE", "torch_tensorrt::torchscript::CompileSpec::min_block_size"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec20num_avg_timing_itersE", "torch_tensorrt::torchscript::CompileSpec::num_avg_timing_iters"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec14ptq_calibratorE", "torch_tensorrt::torchscript::CompileSpec::ptq_calibrator"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec5refitE", "torch_tensorrt::torchscript::CompileSpec::refit"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec24require_full_compilationE", "torch_tensorrt::torchscript::CompileSpec::require_full_compilation"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec14sparse_weightsE", "torch_tensorrt::torchscript::CompileSpec::sparse_weights"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec22torch_executed_modulesE", "torch_tensorrt::torchscript::CompileSpec::torch_executed_modules"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec18torch_executed_opsE", "torch_tensorrt::torchscript::CompileSpec::torch_executed_ops"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec24truncate_long_and_doubleE", "torch_tensorrt::torchscript::CompileSpec::truncate_long_and_double"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec14workspace_sizeE", "torch_tensorrt::torchscript::CompileSpec::workspace_size"], [31, 2, 1, "_CPPv4N14torch_tensorrt11torchscript29check_method_operator_supportERKN5torch3jit6ModuleENSt6stringE", "torch_tensorrt::torchscript::check_method_operator_support"], [31, 3, 1, "_CPPv4N14torch_tensorrt11torchscript29check_method_operator_supportERKN5torch3jit6ModuleENSt6stringE", "torch_tensorrt::torchscript::check_method_operator_support::method_name"], [31, 3, 1, "_CPPv4N14torch_tensorrt11torchscript29check_method_operator_supportERKN5torch3jit6ModuleENSt6stringE", "torch_tensorrt::torchscript::check_method_operator_support::module"], [32, 2, 1, "_CPPv4N14torch_tensorrt11torchscript7compileERKN5torch3jit6ModuleE11CompileSpec", "torch_tensorrt::torchscript::compile"], [32, 3, 1, "_CPPv4N14torch_tensorrt11torchscript7compileERKN5torch3jit6ModuleE11CompileSpec", "torch_tensorrt::torchscript::compile::info"], [32, 3, 1, "_CPPv4N14torch_tensorrt11torchscript7compileERKN5torch3jit6ModuleE11CompileSpec", "torch_tensorrt::torchscript::compile::module"], [34, 2, 1, "_CPPv4N14torch_tensorrt11torchscript28convert_method_to_trt_engineERKN5torch3jit6ModuleENSt6stringE11CompileSpec", "torch_tensorrt::torchscript::convert_method_to_trt_engine"], [34, 3, 1, "_CPPv4N14torch_tensorrt11torchscript28convert_method_to_trt_engineERKN5torch3jit6ModuleENSt6stringE11CompileSpec", "torch_tensorrt::torchscript::convert_method_to_trt_engine::info"], [34, 3, 1, "_CPPv4N14torch_tensorrt11torchscript28convert_method_to_trt_engineERKN5torch3jit6ModuleENSt6stringE11CompileSpec", "torch_tensorrt::torchscript::convert_method_to_trt_engine::method_name"], [34, 3, 1, "_CPPv4N14torch_tensorrt11torchscript28convert_method_to_trt_engineERKN5torch3jit6ModuleENSt6stringE11CompileSpec", "torch_tensorrt::torchscript::convert_method_to_trt_engine::module"], [33, 2, 1, "_CPPv4N14torch_tensorrt11torchscript26embed_engine_in_new_moduleERKNSt6stringE6DeviceRKNSt6vectorINSt6stringEEERKNSt6vectorINSt6stringEEE", "torch_tensorrt::torchscript::embed_engine_in_new_module"], [33, 3, 1, "_CPPv4N14torch_tensorrt11torchscript26embed_engine_in_new_moduleERKNSt6stringE6DeviceRKNSt6vectorINSt6stringEEERKNSt6vectorINSt6stringEEE", "torch_tensorrt::torchscript::embed_engine_in_new_module::device"], [33, 3, 1, "_CPPv4N14torch_tensorrt11torchscript26embed_engine_in_new_moduleERKNSt6stringE6DeviceRKNSt6vectorINSt6stringEEERKNSt6vectorINSt6stringEEE", "torch_tensorrt::torchscript::embed_engine_in_new_module::engine"], [33, 3, 1, "_CPPv4N14torch_tensorrt11torchscript26embed_engine_in_new_moduleERKNSt6stringE6DeviceRKNSt6vectorINSt6stringEEERKNSt6vectorINSt6stringEEE", "torch_tensorrt::torchscript::embed_engine_in_new_module::input_binding_names"], [33, 3, 1, "_CPPv4N14torch_tensorrt11torchscript26embed_engine_in_new_moduleERKNSt6stringE6DeviceRKNSt6vectorINSt6stringEEERKNSt6vectorINSt6stringEEE", "torch_tensorrt::torchscript::embed_engine_in_new_module::output_binding_names"], [75, 8, 0, "-", "torch_tensorrt"]], "torch_tensorrt": [[75, 9, 1, "", "Device"], [75, 9, 1, "", "DeviceType"], [75, 9, 1, "", "EngineCapability"], [75, 9, 1, "", "Input"], [75, 9, 1, "", "MutableTorchTensorRTModule"], [75, 12, 1, "", "compile"], [75, 12, 1, "", "convert_method_to_trt_engine"], [75, 9, 1, "", "dtype"], [107, 8, 0, "-", "dynamo"], [71, 8, 0, "-", "fx"], [75, 12, 1, "", "load"], [72, 8, 0, "-", "logging"], [75, 9, 1, "", "memory_format"], [74, 8, 0, "-", "runtime"], [75, 12, 1, "", "save"], [76, 8, 0, "-", "ts"]], "torch_tensorrt.Device": [[75, 10, 1, "", "__init__"], [75, 11, 1, "", "device_type"], [75, 11, 1, "", "dla_core"], [75, 11, 1, "", "gpu_id"]], "torch_tensorrt.DeviceType": [[75, 11, 1, "", "DLA"], [75, 11, 1, "", "GPU"], [75, 11, 1, "", "UNKNOWN"], [75, 10, 1, "", "to"], [75, 10, 1, "", "try_from"], [75, 10, 1, "", "try_to"]], "torch_tensorrt.EngineCapability": [[75, 11, 1, "", "DLA_STANDALONE"], [75, 11, 1, "", "SAFETY"], [75, 11, 1, "", "STANDARD"], [75, 10, 1, "", "to"], [75, 10, 1, "", "try_from"], [75, 10, 1, "", "try_to"]], "torch_tensorrt.Input": [[75, 10, 1, "", "__init__"], [75, 11, 1, "", "dtype"], [75, 10, 1, "", "example_tensor"], [75, 11, 1, "", "format"], [75, 10, 1, "", "from_tensor"], [75, 10, 1, "", "from_tensors"]], "torch_tensorrt.MutableTorchTensorRTModule": [[75, 10, 1, "", "__init__"], [75, 10, 1, "", "compile"], [75, 10, 1, "", "refit_gm"]], "torch_tensorrt.dtype": [[75, 11, 1, "", "b"], [75, 11, 1, "", "bf16"], [75, 11, 1, "", "f16"], [75, 11, 1, "", "f32"], [75, 11, 1, "", "f64"], [75, 11, 1, "", "f8"], [75, 11, 1, "", "i32"], [75, 11, 1, "", "i64"], [75, 11, 1, "", "i8"], [75, 10, 1, "", "to"], [75, 10, 1, "", "try_from"], [75, 10, 1, "", "try_to"], [75, 11, 1, "", "u8"], [75, 11, 1, "", "unknown"]], "torch_tensorrt.dynamo": [[70, 9, 1, "", "CompilationSettings"], [70, 12, 1, "", "compile"], [70, 12, 1, "", "export"], [70, 12, 1, "", "refit_module_weights"], [70, 12, 1, "", "trace"]], "torch_tensorrt.fx": [[71, 9, 1, "", "InputTensorSpec"], [71, 9, 1, "", "TRTInterpreter"], [71, 9, 1, "", "TRTInterpreterResult"], [71, 9, 1, "", "TRTModule"], [71, 12, 1, "", "compile"]], "torch_tensorrt.logging": [[72, 9, 1, "", "debug"], [72, 9, 1, "", "errors"], [72, 9, 1, "", "graphs"], [72, 9, 1, "", "info"], [72, 9, 1, "", "internal_errors"], [72, 9, 1, "", "warnings"]], "torch_tensorrt.memory_format": [[75, 11, 1, "", "cdhw32"], [75, 11, 1, "", "chw16"], [75, 11, 1, "", "chw2"], [75, 11, 1, "", "chw32"], [75, 11, 1, "", "chw4"], [75, 11, 1, "", "dhwc"], [75, 11, 1, "", "dhwc8"], [75, 11, 1, "", "dla_hwc4"], [75, 11, 1, "", "dla_linear"], [75, 11, 1, "", "hwc"], [75, 11, 1, "", "hwc16"], [75, 11, 1, "", "hwc8"], [75, 11, 1, "", "linear"], [75, 10, 1, "", "to"], [75, 10, 1, "", "try_from"], [75, 10, 1, "", "try_to"]], "torch_tensorrt.runtime": [[74, 9, 1, "", "PythonTorchTensorRTModule"], [74, 9, 1, "", "TorchTensorRTModule"], [74, 12, 1, "", "set_multi_device_safe_mode"]], "torch_tensorrt.runtime.PythonTorchTensorRTModule": [[74, 10, 1, "", "__init__"], [74, 10, 1, "", "cudagraphs_validate_shapes"], [74, 10, 1, "", "disable_profiling"], [74, 10, 1, "", "enable_profiling"], [74, 10, 1, "", "forward"], [74, 10, 1, "", "get_layer_info"]], "torch_tensorrt.runtime.TorchTensorRTModule": [[74, 10, 1, "", "__init__"], [74, 10, 1, "", "forward"], [74, 10, 1, "", "get_extra_state"], [74, 10, 1, "", "set_extra_state"]], "torch_tensorrt.ts": [[76, 12, 1, "", "TensorRTCompileSpec"], [76, 12, 1, "", "check_method_op_support"], [76, 12, 1, "", "compile"], [76, 12, 1, "", "convert_method_to_trt_engine"], [76, 12, 1, "", "embed_engine_in_new_module"], [73, 8, 0, "-", "ptq"]], "torch_tensorrt.ts.ptq": [[73, 9, 1, "", "CacheCalibrator"], [73, 9, 1, "", "CalibrationAlgo"], [73, 9, 1, "", "DataLoaderCalibrator"]], "torch_tensorrt.ts.ptq.CalibrationAlgo": [[73, 11, 1, "", "ENTROPY_CALIBRATION"], [73, 11, 1, "", "ENTROPY_CALIBRATION_2"], [73, 11, 1, "", "LEGACY_CALIBRATION"], [73, 11, 1, "", "MINMAX_CALIBRATION"]]}, "objtypes": {"0": "c:macro", "1": "cpp:class", "2": "cpp:function", "3": "cpp:functionParam", "4": "cpp:enum", "5": "cpp:enumerator", "6": "cpp:member", "7": "cpp:templateParam", "8": "py:module", "9": "py:class", "10": "py:method", "11": "py:attribute", "12": "py:function"}, "objnames": {"0": ["c", "macro", "C macro"], "1": ["cpp", "class", "C++ class"], "2": ["cpp", "function", "C++ function"], "3": ["cpp", "functionParam", "C++ function parameter"], "4": ["cpp", "enum", "C++ enum"], "5": ["cpp", "enumerator", "C++ enumerator"], "6": ["cpp", "member", "C++ member"], "7": ["cpp", "templateParam", "C++ template parameter"], "8": ["py", "module", "Python module"], "9": ["py", "class", "Python class"], "10": ["py", "method", "Python method"], "11": ["py", "attribute", "Python attribute"], "12": ["py", "function", "Python function"]}, "titleterms": {"class": [0, 1, 2, 3, 4, 20, 21, 38, 40, 41, 50, 70, 71, 73, 74, 75], "datatyp": 0, "document": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 16, 17, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 46, 47, 48, 49, 61, 68, 84, 85], "devic": [1, 46, 106], "devicetyp": 1, "nest": [1, 46], "relationship": [1, 3, 4, 46, 48], "tensorformat": 2, "templat": [3, 4, 29, 30], "int8cachecalibr": 3, "inherit": [3, 4, 48], "base": [3, 4, 48, 79], "type": [3, 4, 46, 48, 54], "int8calibr": 4, "defin": [5, 6, 7, 8, 9, 10, 11, 12, 19, 50, 101], "str": 5, "torch_tensorrt_patch_vers": 6, "torch_tensorrt_major_vers": 7, "torch_tensorrt_minor_vers": 8, "torchtrt_api": 9, "xstr": 10, "torchtrt_hidden": 11, "torch_tensorrt_vers": 12, "directori": [13, 14, 15, 51], "cpp": [13, 18, 19, 20, 21, 56], "subdirectori": [13, 14], "includ": [14, 18, 19, 20, 21], "torch_tensorrt": [15, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 45, 70, 71, 72, 73, 74, 75, 76, 97, 99, 100, 108], "file": [15, 18, 19, 20, 21, 42, 43, 44, 45, 50, 51], "enum": [16, 17, 38, 39, 50, 73, 75], "level": [16, 79, 81, 82], "enginecap": 17, "log": [18, 22, 23, 24, 25, 26, 27, 28, 39, 42, 72], "h": [18, 19, 20, 21, 42, 43, 44, 45, 56], "content": [18, 19, 20, 21, 38, 39, 40, 41, 79, 80, 81, 82, 83, 84], "definit": [18, 19, 20, 21, 82, 95, 96, 97, 98, 99, 100, 101], "By": [18, 19], "namespac": [18, 19, 20, 21, 38, 39, 40, 41, 50], "macro": [19, 43], "ptq": [20, 29, 30, 40, 44, 73, 90, 101], "function": [22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 50, 61, 70, 71, 74, 75, 76, 101], "get_logging_prefix": 22, "get_reportable_log_level": 23, "get_is_colored_output_on": 24, "set_reportable_log_level": 25, "set_is_colored_output_on": 27, "set_logging_prefix": 28, "make_int8_cache_calibr": 29, "make_int8_calibr": 30, "torchscript": [31, 32, 33, 34, 41, 60, 66, 68, 87, 88, 91, 107, 108], "check_method_operator_support": 31, "compil": [32, 57, 59, 63, 64, 66, 67, 68, 88, 93, 95, 96, 97, 98, 99, 100, 102, 103, 105, 107, 108], "embed_engine_in_new_modul": 33, "convert_method_to_trt_engin": 34, "get_build_info": 35, "set_devic": 36, "dump_build_info": 37, "program": [42, 43, 44, 45, 63, 106], "list": [42, 43, 44, 45, 82], "struct": [46, 47, 48, 49, 50], "graphinput": 47, "input": [48, 97, 99], "compilespec": 49, "torch": [50, 61, 63, 64, 65, 66, 67, 68, 88, 89, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108], "tensorrt": [50, 58, 61, 63, 64, 65, 66, 68, 88, 89, 91, 92, 94, 95, 97, 99, 101, 102, 103, 104, 105, 106, 107, 108], "c": [50, 61, 66, 67, 68, 88, 90, 103], "api": [50, 51, 61, 66, 68], "hierarchi": 50, "full": [50, 51], "torchtrtc": [52, 88], "convers": [53, 57, 59, 60], "phase": [53, 55, 56, 57, 58, 59], "node": 53, "evalu": [53, 54, 69], "convert": [53, 54, 60, 65, 69, 88], "write": [54, 60, 62, 92], "dynamo": [54, 62, 68, 70, 93, 102, 107, 108], "implement": 54, "registr": 54, "capabl": 54, "valid": 54, "contract": [54, 60], "exampl": [54, 62, 81, 83, 103], "convolut": 54, "oper": [54, 64, 69, 88, 92], "decomposit": 54, "addmm": [54, 55], "lower": [55, 57, 59, 62], "pass": [55, 62], "us": [55, 61, 88, 89, 91, 92, 95, 96, 97, 99, 100, 101, 103, 105], "eliminatecommonsubexpress": 55, "elimin": 55, "dead": 55, "code": [55, 68, 81], "except": 55, "Or": 55, "pattern": 55, "redund": 55, "guard": 55, "freez": 55, "modul": [55, 87, 88, 94, 95, 108], "fuse": 55, "branch": 55, "linear": 55, "flatten": 55, "graph": [55, 58, 95, 108], "tupl": 55, "fallback": [55, 56], "peephol": 55, "optim": [55, 67, 104], "remov": 55, "contigu": 55, "dropout": 55, "To": 55, "unpack": 55, "logsoftmax": 55, "unrol": 55, "loop": [55, 101], "replac": [55, 81], "tile": 55, "repeat": 55, "partit": [56, 57, 59], "partitoninfo": 56, "segmentedblock": 56, "shape_analysi": 56, "automat": 56, "depend": [56, 66], "awar": [56, 103], "runtim": [57, 58, 59, 74, 95, 106], "background": [58, 60], "engin": [58, 65, 92], "executor": 58, "op": [58, 65, 92], "construct": 58, "result": 58, "serial": [58, 64, 67], "deseri": 58, "abi": [58, 66], "version": [58, 66], "format": [58, 108], "system": [59, 66], "overview": 59, "what": 60, "guarante": 60, "respons": 60, "context": [60, 79], "arg": [60, 80], "weight": [60, 95, 101], "other": 60, "advic": 60, "link": [61, 81], "develop": 61, "avail": 61, "layer": 61, "expect": 61, "dimens": 61, "python": [61, 66, 67, 68, 87, 89, 90, 95], "sometim": 61, "easier": 61, "read": 61, "pytorch": [61, 65, 68, 91, 92, 103], "native_op": 61, "ir": [61, 107, 108], "aten": 62, "basic": 62, "requir": 62, "regist": [62, 88], "export": [63, 67, 100, 105], "customiz": [63, 64], "set": [63, 64, 94, 96, 100, 104], "under": [63, 88, 105], "hood": [63, 88, 105], "trace": 63, "backend": [64, 97], "kei": 64, "featur": 64, "custom": [64, 88, 92, 96, 105], "usag": [64, 96], "after": 64, "model": [64, 65, 92, 95, 96, 97, 98, 99, 100, 101, 103, 104, 107], "perform": 64, "coverag": 64, "feasibl": 64, "dynam": [64, 97, 103, 105], "shape": [64, 97, 103, 105], "support": [64, 69], "recompil": [64, 97], "condit": 64, "fx": [65, 68, 71, 103, 108], "frontend": [65, 66, 68, 91, 103, 108], "user": [65, 68], "guid": [65, 68], "acc": 65, "tracer": 65, "fx2trt": 65, "how": [65, 79, 90], "add": 65, "miss": 65, "instal": [66, 86], "precompil": 66, "binari": 66, "specif": 66, "cuda": [66, 96, 99], "nightli": 66, "build": [66, 79, 104], "onli": 66, "from": [66, 91], "sourc": 66, "linux": 66, "packag": [66, 106], "addit": 66, "option": [66, 67, 79, 80, 82, 97, 99, 108], "distribut": 66, "No": 66, "librari": [66, 106], "standalon": 66, "releas": 66, "debug": 66, "pre": [66, 101], "cxx11": 66, "choos": 66, "right": 66, "window": 66, "step": [66, 67, 104], "advanc": [66, 96], "setup": 66, "troubleshoot": 66, "altern": [66, 95], "cmake": 66, "nativ": 66, "aarch64": 66, "jetson": 66, "prerequisit": 66, "environ": 66, "cli": [66, 68], "quick": 67, "start": [67, 68], "1": [67, 83, 104], "2": [67, 83, 84, 104], "deploi": [67, 101, 103, 106], "deploy": 67, "In": 68, "framework": 68, "infer": [68, 97, 98, 99, 100, 101, 104], "nvidia": 68, "gpu": 68, "get": 68, "tutori": [68, 102], "contributor": 68, "indic": 68, "legaci": [68, 108], "further": 68, "inform": 68, "current": 69, "through": 69, "ts": [73, 76, 108], "submodul": 75, "comput": 77, "time": [77, 95, 108], "changelog": 78, "configur": 79, "project": 79, "wide": 79, "html": 79, "theme": [79, 85], "toc": 79, "page": 79, "tabl": [79, 80, 81, 82, 83, 84], "mod": 80, "test_py_modul": 80, "gener": 80, "index": 80, "paramet": 80, "data": 80, "paragraph": [81, 84], "markup": 81, "inlin": 81, "math": 81, "meta": 81, "block": 81, "liter": 81, "line": 81, "quot": 81, "doctest": 81, "emphas": 81, "number": [81, 82], "sidebar": 81, "ch": 81, "ien": 81, "The": [81, 88], "creativ": 81, "A": 81, "refer": 81, "footnot": 81, "citat": [81, 90], "glossari": 81, "target": 81, "direct": 81, "center": 81, "text": 81, "imag": [81, 82], "figur": 81, "admonit": 81, "And": 81, "wai": 81, "topic": 81, "rubric": 81, "titl": 81, "compound": 81, "download": [81, 86], "enumer": 82, "field": 82, "bullet": 82, "second": 82, "But": 82, "deeper": 82, "down": 82, "rabbit": 82, "hole": 82, "hlist": 82, "grid": 82, "giant": 82, "can": 82, "have": 82, "caption": [82, 85], "like": 82, "thi": [82, 85], "one": 82, "long": [83, 85], "sticki": 83, "nav": 83, "menu": [83, 85], "3": [83, 104], "4": 83, "5": 83, "6": 83, "7": 83, "8": 83, "9": 83, "10": 83, "11": 83, "12": 83, "13": 83, "14": 83, "15": 83, "16": 83, "17": 83, "18": 83, "19": 83, "20": 83, "submenu": 83, "subsubmenu": 83, "structur": 84, "element": 84, "section": 84, "subsect": 84, "subsubsect": 84, "demo": 85, "an": 85, "incred": 85, "via": 86, "git": 86, "creat": [87, 90], "work": [87, 88], "save": [87, 94, 95, 107], "disk": 87, "quickstart": 88, "unsupport": 88, "post": 90, "train": [90, 101, 103], "quantiz": [90, 101, 103], "your": [90, 104], "own": 90, "applic": 90, "directli": 91, "kernel": 92, "within": 92, "test": 92, "our": 92, "wrap": 92, "insert": 92, "mutabl": 94, "initi": 94, "make": 94, "modif": 94, "stabl": [94, 98], "diffus": [94, 98], "huggingfac": 94, "refit": 95, "tenorrt": 95, "standard": 95, "workflow": 95, "import": [95, 96, 97, 98, 99, 100, 101], "first": 95, "updat": 95, "default": [96, 100], "cleanup": [96, 99], "driver": [96, 99], "error": [96, 99], "note": [96, 99], "resnet": 97, "argument": [97, 99], "avoid": 97, "specifi": 97, "befor": 97, "trt": 97, "transform": [99, 103], "cudagraph": [100, 106], "integr": 100, "load": [101, 107], "dataset": 101, "loss": 101, "calibr": 101, "tune": 101, "fp8": 101, "notebook": 103, "citrinet": 103, "efficientnet": 103, "mask": 103, "languag": 103, "mlm": 103, "hug": 103, "face": 103, "bert": 103, "acceler": 103, "serv": [103, 104], "resnet50": 103, "lenet": 103, "deep": 103, "learn": 103, "object": 103, "detect": 103, "ssd": 103, "int8": 103, "triton": 104, "up": 104, "server": 104, "client": 104, "queri": 104, "aot": 105, "constraint": 105, "jit": 105, "libtorchtrt": 106, "so": 106, "plugin": 106, "multi": 106, "safe": 106, "mode": 106, "exportedprogram": 107, "b": 107, "explain": 108, "just": 108, "accept": 108, "return": 108, "ahead": 108, "dla": 109}, "envversion": {"sphinx.domains.c": 2, "sphinx.domains.changeset": 1, "sphinx.domains.citation": 1, "sphinx.domains.cpp": 6, "sphinx.domains.index": 1, "sphinx.domains.javascript": 2, "sphinx.domains.math": 2, "sphinx.domains.python": 3, "sphinx.domains.rst": 2, "sphinx.domains.std": 2, "nbsphinx": 4, "sphinx.ext.intersphinx": 1, "sphinx.ext.todo": 2, "sphinx.ext.viewcode": 1, "sphinx": 56}})
\ No newline at end of file
+Search.setIndex({"docnames": ["_cpp_api/classtorch__tensorrt_1_1DataType", "_cpp_api/classtorch__tensorrt_1_1Device_1_1DeviceType", "_cpp_api/classtorch__tensorrt_1_1TensorFormat", "_cpp_api/classtorch__tensorrt_1_1ptq_1_1Int8CacheCalibrator", "_cpp_api/classtorch__tensorrt_1_1ptq_1_1Int8Calibrator", "_cpp_api/define_macros_8h_1a18d295a837ac71add5578860b55e5502", "_cpp_api/define_macros_8h_1a282fd3c0b1c3a215148ae372070e1268", "_cpp_api/define_macros_8h_1a31398a6d4d27e28817afb0f0139e909e", "_cpp_api/define_macros_8h_1a35703561b26b1a9d2738ad7d58b27827", "_cpp_api/define_macros_8h_1abd1465eb38256d3f22cc1426b23d516b", "_cpp_api/define_macros_8h_1abe87b341f562fd1cf40b7672e4d759da", "_cpp_api/define_macros_8h_1ad19939408f7be171a74a89928b36eb59", "_cpp_api/define_macros_8h_1adad592a7b1b7eed529cdf6acd584c883", "_cpp_api/dir_cpp", "_cpp_api/dir_cpp_include", "_cpp_api/dir_cpp_include_torch_tensorrt", "_cpp_api/enum_namespacetorch__tensorrt_1_1logging_1a130f65408ad8cbaee060f05e8db69558", "_cpp_api/enum_namespacetorch__tensorrt_1a3fbe5d72e4fc624dbd038853079620eb", "_cpp_api/file_cpp_include_torch_tensorrt_logging.h", "_cpp_api/file_cpp_include_torch_tensorrt_macros.h", "_cpp_api/file_cpp_include_torch_tensorrt_ptq.h", "_cpp_api/file_cpp_include_torch_tensorrt_torch_tensorrt.h", "_cpp_api/function_namespacetorch__tensorrt_1_1logging_1a0593f776f469c20469e2f729fc7861a3", "_cpp_api/function_namespacetorch__tensorrt_1_1logging_1a0c012cb374addd90eb1f42eaec570650", "_cpp_api/function_namespacetorch__tensorrt_1_1logging_1a56e110feaaba2c3fd44bd201fd21a76a", "_cpp_api/function_namespacetorch__tensorrt_1_1logging_1a7cb50492421ea9de4e3db895819df6f2", "_cpp_api/function_namespacetorch__tensorrt_1_1logging_1ac46ac0901cb97e3ae6e93b45f24e90b8", "_cpp_api/function_namespacetorch__tensorrt_1_1logging_1ad2efd47b6c3689e58ccc595680579ae5", "_cpp_api/function_namespacetorch__tensorrt_1_1logging_1af8f3443813315af7901903d25dd495cc", "_cpp_api/function_namespacetorch__tensorrt_1_1ptq_1a226e3c83379d1012cde8578c1c86b16c", "_cpp_api/function_namespacetorch__tensorrt_1_1ptq_1a6186e305f47c1d94b6130ef6c7f7e178", "_cpp_api/function_namespacetorch__tensorrt_1_1torchscript_1a5b405fd3bf3c8fc2e2a54cbbab979797", "_cpp_api/function_namespacetorch__tensorrt_1_1torchscript_1a6e19490a08fb1553c9dd347a5ae79db9", "_cpp_api/function_namespacetorch__tensorrt_1_1torchscript_1a81f9783517335dda877d8cfcf38987c9", "_cpp_api/function_namespacetorch__tensorrt_1_1torchscript_1ae8d56472106eeef37fbe51ff7f40c9b2", "_cpp_api/function_namespacetorch__tensorrt_1ac4ab8313ae72c2c899ea31548b528528", "_cpp_api/function_namespacetorch__tensorrt_1ad1acd06eaeaffbbcf6e7ebf426891384", "_cpp_api/function_namespacetorch__tensorrt_1ad6a4ee8ca6c8f6e5519eb1128ec7f4a1", "_cpp_api/namespace_torch_tensorrt", "_cpp_api/namespace_torch_tensorrt__logging", "_cpp_api/namespace_torch_tensorrt__ptq", "_cpp_api/namespace_torch_tensorrt__torchscript", "_cpp_api/program_listing_file_cpp_include_torch_tensorrt_logging.h", "_cpp_api/program_listing_file_cpp_include_torch_tensorrt_macros.h", "_cpp_api/program_listing_file_cpp_include_torch_tensorrt_ptq.h", "_cpp_api/program_listing_file_cpp_include_torch_tensorrt_torch_tensorrt.h", "_cpp_api/structtorch__tensorrt_1_1Device", "_cpp_api/structtorch__tensorrt_1_1GraphInputs", "_cpp_api/structtorch__tensorrt_1_1Input", "_cpp_api/structtorch__tensorrt_1_1torchscript_1_1CompileSpec", "_cpp_api/torch_tensort_cpp", "_cpp_api/unabridged_orphan", "cli/torchtrtc", "contributors/conversion", "contributors/dynamo_converters", "contributors/lowering", "contributors/partitioning", "contributors/phases", "contributors/runtime", "contributors/system_overview", "contributors/ts_converters", "contributors/useful_links", "contributors/writing_dynamo_aten_lowering_passes", "dynamo/dynamo_export", "dynamo/torch_compile", "fx/getting_started_with_fx_path", "getting_started/installation", "getting_started/quick_start", "index", "indices/supported_ops", "py_api/dynamo", "py_api/fx", "py_api/logging", "py_api/ptq", "py_api/runtime", "py_api/torch_tensorrt", "py_api/ts", "sg_execution_times", "src/pytorch-sphinx-theme/docs/changelog", "src/pytorch-sphinx-theme/docs/configuring", "src/pytorch-sphinx-theme/docs/demo/api", "src/pytorch-sphinx-theme/docs/demo/demo", "src/pytorch-sphinx-theme/docs/demo/lists_tables", "src/pytorch-sphinx-theme/docs/demo/long", "src/pytorch-sphinx-theme/docs/demo/structure", "src/pytorch-sphinx-theme/docs/index", "src/pytorch-sphinx-theme/docs/installing", "ts/creating_torchscript_module_in_python", "ts/getting_started_with_cpp_api", "ts/getting_started_with_python_api", "ts/ptq", "ts/torchscript_frontend_from_pytorch", "tutorials/_rendered_examples/dynamo/custom_kernel_plugins", "tutorials/_rendered_examples/dynamo/engine_caching_bert_example", "tutorials/_rendered_examples/dynamo/engine_caching_example", "tutorials/_rendered_examples/dynamo/index", "tutorials/_rendered_examples/dynamo/mutable_torchtrt_module_example", "tutorials/_rendered_examples/dynamo/refit_engine_example", "tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage", "tutorials/_rendered_examples/dynamo/torch_compile_resnet_example", "tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion", "tutorials/_rendered_examples/dynamo/torch_compile_transformers_example", "tutorials/_rendered_examples/dynamo/torch_export_cudagraphs", "tutorials/_rendered_examples/dynamo/torch_export_gpt2", "tutorials/_rendered_examples/dynamo/torch_export_llama2", "tutorials/_rendered_examples/dynamo/vgg16_ptq", "tutorials/_rendered_examples/index", "tutorials/notebooks", "tutorials/serving_torch_tensorrt_with_triton", "user_guide/dynamic_shapes", "user_guide/runtime", "user_guide/saving_models", "user_guide/torch_tensorrt_explained", "user_guide/using_dla"], "filenames": ["_cpp_api/classtorch__tensorrt_1_1DataType.rst", "_cpp_api/classtorch__tensorrt_1_1Device_1_1DeviceType.rst", "_cpp_api/classtorch__tensorrt_1_1TensorFormat.rst", "_cpp_api/classtorch__tensorrt_1_1ptq_1_1Int8CacheCalibrator.rst", "_cpp_api/classtorch__tensorrt_1_1ptq_1_1Int8Calibrator.rst", "_cpp_api/define_macros_8h_1a18d295a837ac71add5578860b55e5502.rst", "_cpp_api/define_macros_8h_1a282fd3c0b1c3a215148ae372070e1268.rst", "_cpp_api/define_macros_8h_1a31398a6d4d27e28817afb0f0139e909e.rst", "_cpp_api/define_macros_8h_1a35703561b26b1a9d2738ad7d58b27827.rst", "_cpp_api/define_macros_8h_1abd1465eb38256d3f22cc1426b23d516b.rst", "_cpp_api/define_macros_8h_1abe87b341f562fd1cf40b7672e4d759da.rst", "_cpp_api/define_macros_8h_1ad19939408f7be171a74a89928b36eb59.rst", "_cpp_api/define_macros_8h_1adad592a7b1b7eed529cdf6acd584c883.rst", "_cpp_api/dir_cpp.rst", "_cpp_api/dir_cpp_include.rst", "_cpp_api/dir_cpp_include_torch_tensorrt.rst", "_cpp_api/enum_namespacetorch__tensorrt_1_1logging_1a130f65408ad8cbaee060f05e8db69558.rst", "_cpp_api/enum_namespacetorch__tensorrt_1a3fbe5d72e4fc624dbd038853079620eb.rst", "_cpp_api/file_cpp_include_torch_tensorrt_logging.h.rst", "_cpp_api/file_cpp_include_torch_tensorrt_macros.h.rst", "_cpp_api/file_cpp_include_torch_tensorrt_ptq.h.rst", "_cpp_api/file_cpp_include_torch_tensorrt_torch_tensorrt.h.rst", "_cpp_api/function_namespacetorch__tensorrt_1_1logging_1a0593f776f469c20469e2f729fc7861a3.rst", "_cpp_api/function_namespacetorch__tensorrt_1_1logging_1a0c012cb374addd90eb1f42eaec570650.rst", "_cpp_api/function_namespacetorch__tensorrt_1_1logging_1a56e110feaaba2c3fd44bd201fd21a76a.rst", "_cpp_api/function_namespacetorch__tensorrt_1_1logging_1a7cb50492421ea9de4e3db895819df6f2.rst", "_cpp_api/function_namespacetorch__tensorrt_1_1logging_1ac46ac0901cb97e3ae6e93b45f24e90b8.rst", "_cpp_api/function_namespacetorch__tensorrt_1_1logging_1ad2efd47b6c3689e58ccc595680579ae5.rst", "_cpp_api/function_namespacetorch__tensorrt_1_1logging_1af8f3443813315af7901903d25dd495cc.rst", "_cpp_api/function_namespacetorch__tensorrt_1_1ptq_1a226e3c83379d1012cde8578c1c86b16c.rst", "_cpp_api/function_namespacetorch__tensorrt_1_1ptq_1a6186e305f47c1d94b6130ef6c7f7e178.rst", "_cpp_api/function_namespacetorch__tensorrt_1_1torchscript_1a5b405fd3bf3c8fc2e2a54cbbab979797.rst", "_cpp_api/function_namespacetorch__tensorrt_1_1torchscript_1a6e19490a08fb1553c9dd347a5ae79db9.rst", "_cpp_api/function_namespacetorch__tensorrt_1_1torchscript_1a81f9783517335dda877d8cfcf38987c9.rst", "_cpp_api/function_namespacetorch__tensorrt_1_1torchscript_1ae8d56472106eeef37fbe51ff7f40c9b2.rst", "_cpp_api/function_namespacetorch__tensorrt_1ac4ab8313ae72c2c899ea31548b528528.rst", "_cpp_api/function_namespacetorch__tensorrt_1ad1acd06eaeaffbbcf6e7ebf426891384.rst", "_cpp_api/function_namespacetorch__tensorrt_1ad6a4ee8ca6c8f6e5519eb1128ec7f4a1.rst", "_cpp_api/namespace_torch_tensorrt.rst", "_cpp_api/namespace_torch_tensorrt__logging.rst", "_cpp_api/namespace_torch_tensorrt__ptq.rst", "_cpp_api/namespace_torch_tensorrt__torchscript.rst", "_cpp_api/program_listing_file_cpp_include_torch_tensorrt_logging.h.rst", "_cpp_api/program_listing_file_cpp_include_torch_tensorrt_macros.h.rst", "_cpp_api/program_listing_file_cpp_include_torch_tensorrt_ptq.h.rst", "_cpp_api/program_listing_file_cpp_include_torch_tensorrt_torch_tensorrt.h.rst", "_cpp_api/structtorch__tensorrt_1_1Device.rst", "_cpp_api/structtorch__tensorrt_1_1GraphInputs.rst", "_cpp_api/structtorch__tensorrt_1_1Input.rst", "_cpp_api/structtorch__tensorrt_1_1torchscript_1_1CompileSpec.rst", "_cpp_api/torch_tensort_cpp.rst", "_cpp_api/unabridged_orphan.rst", "cli/torchtrtc.rst", "contributors/conversion.rst", "contributors/dynamo_converters.rst", "contributors/lowering.rst", "contributors/partitioning.rst", "contributors/phases.rst", "contributors/runtime.rst", "contributors/system_overview.rst", "contributors/ts_converters.rst", "contributors/useful_links.rst", "contributors/writing_dynamo_aten_lowering_passes.rst", "dynamo/dynamo_export.rst", "dynamo/torch_compile.rst", "fx/getting_started_with_fx_path.rst", "getting_started/installation.rst", "getting_started/quick_start.rst", "index.rst", "indices/supported_ops.rst", "py_api/dynamo.rst", "py_api/fx.rst", "py_api/logging.rst", "py_api/ptq.rst", "py_api/runtime.rst", "py_api/torch_tensorrt.rst", "py_api/ts.rst", "sg_execution_times.rst", "src/pytorch-sphinx-theme/docs/changelog.rst", "src/pytorch-sphinx-theme/docs/configuring.rst", "src/pytorch-sphinx-theme/docs/demo/api.rst", "src/pytorch-sphinx-theme/docs/demo/demo.rst", "src/pytorch-sphinx-theme/docs/demo/lists_tables.rst", "src/pytorch-sphinx-theme/docs/demo/long.rst", "src/pytorch-sphinx-theme/docs/demo/structure.rst", "src/pytorch-sphinx-theme/docs/index.rst", "src/pytorch-sphinx-theme/docs/installing.rst", "ts/creating_torchscript_module_in_python.rst", "ts/getting_started_with_cpp_api.rst", "ts/getting_started_with_python_api.rst", "ts/ptq.rst", "ts/torchscript_frontend_from_pytorch.rst", "tutorials/_rendered_examples/dynamo/custom_kernel_plugins.rst", "tutorials/_rendered_examples/dynamo/engine_caching_bert_example.rst", "tutorials/_rendered_examples/dynamo/engine_caching_example.rst", "tutorials/_rendered_examples/dynamo/index.rst", "tutorials/_rendered_examples/dynamo/mutable_torchtrt_module_example.rst", "tutorials/_rendered_examples/dynamo/refit_engine_example.rst", "tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.rst", "tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.rst", "tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.rst", "tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.rst", "tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.rst", "tutorials/_rendered_examples/dynamo/torch_export_gpt2.rst", "tutorials/_rendered_examples/dynamo/torch_export_llama2.rst", "tutorials/_rendered_examples/dynamo/vgg16_ptq.rst", "tutorials/_rendered_examples/index.rst", "tutorials/notebooks.rst", "tutorials/serving_torch_tensorrt_with_triton.rst", "user_guide/dynamic_shapes.rst", "user_guide/runtime.rst", "user_guide/saving_models.rst", "user_guide/torch_tensorrt_explained.rst", "user_guide/using_dla.rst"], "titles": ["Class DataType", "Class Device::DeviceType", "Class TensorFormat", "Template Class Int8CacheCalibrator", "Template Class Int8Calibrator", "Define STR", "Define TORCH_TENSORRT_PATCH_VERSION", "Define TORCH_TENSORRT_MAJOR_VERSION", "Define TORCH_TENSORRT_MINOR_VERSION", "Define TORCHTRT_API", "Define XSTR", "Define TORCHTRT_HIDDEN", "Define TORCH_TENSORRT_VERSION", "Directory cpp", "Directory include", "Directory torch_tensorrt", "Enum Level", "Enum EngineCapability", "File logging.h", "File macros.h", "File ptq.h", "File torch_tensorrt.h", "Function torch_tensorrt::logging::get_logging_prefix", "Function torch_tensorrt::logging::get_reportable_log_level", "Function torch_tensorrt::logging::get_is_colored_output_on", "Function torch_tensorrt::logging::set_reportable_log_level", "Function torch_tensorrt::logging::log", "Function torch_tensorrt::logging::set_is_colored_output_on", "Function torch_tensorrt::logging::set_logging_prefix", "Template Function torch_tensorrt::ptq::make_int8_cache_calibrator", "Template Function torch_tensorrt::ptq::make_int8_calibrator", "Function torch_tensorrt::torchscript::check_method_operator_support", "Function torch_tensorrt::torchscript::compile", "Function torch_tensorrt::torchscript::embed_engine_in_new_module", "Function torch_tensorrt::torchscript::convert_method_to_trt_engine", "Function torch_tensorrt::get_build_info", "Function torch_tensorrt::set_device", "Function torch_tensorrt::dump_build_info", "Namespace torch_tensorrt", "Namespace torch_tensorrt::logging", "Namespace torch_tensorrt::ptq", "Namespace torch_tensorrt::torchscript", "Program Listing for File logging.h", "Program Listing for File macros.h", "Program Listing for File ptq.h", "Program Listing for File torch_tensorrt.h", "Struct Device", "Struct GraphInputs", "Struct Input", "Struct CompileSpec", "Torch-TensorRT C++ API", "Full API", "torchtrtc", "Conversion Phase", "Writing Dynamo Converters", "Lowering Phase", "Partitioning Phase", "Compiler Phases", "Runtime Phase", "System Overview", "Writing TorchScript Converters", "Useful Links for Torch-TensorRT Development", "Writing Dynamo ATen Lowering Passes", "Compiling Exported Programs with Torch-TensorRT", "TensorRT Backend for <code class=\"docutils literal notranslate\"><span class=\"pre\">torch.compile</span></code>", "Torch-TensorRT (FX Frontend) User Guide", "Installation", "Quick Start", "Torch-TensorRT", "Operators Supported", "torch_tensorrt.dynamo", "torch_tensorrt.fx", "torch_tensorrt.logging", "torch_tensorrt.ts.ptq", "torch_tensorrt.runtime", "torch_tensorrt", "torch_tensorrt.ts", "Computation times", "Changelog", "Configuration", "<span class=\"section-number\">5. </span>:mod:`test_py_module`", "<span class=\"section-number\">3. </span>Paragraph Level Markup", "<span class=\"section-number\">4. </span>Lists &amp; Tables", "<span class=\"section-number\">1. </span>Long Sticky Nav", "<span class=\"section-number\">1. </span>Structural Elements", "&lt;no title&gt;", "Installation", "Creating a TorchScript Module", "Using Torch-TensorRT in  C++", "Using Torch-TensorRT in Python", "Post Training Quantization (PTQ)", "Using Torch-TensorRT TorchScript Frontend Directly From PyTorch", "Using Custom Kernels within TensorRT Engines with Torch-TensorRT", "Engine Caching (BERT)", "Engine Caching", "Dynamo / <code class=\"docutils literal notranslate\"><span class=\"pre\">torch.compile</span></code>", "Mutable Torch TensorRT Module", "Refitting Torch-TensorRT Programs with New Weights", "Torch Compile Advanced Usage", "Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend", "Torch Compile Stable Diffusion", "Compiling a Transformer using torch.compile and TensorRT", "Torch Export with Cudagraphs", "Compiling GPT2 using the Torch-TensorRT with dynamo backend", "Compiling Llama2 using the Torch-TensorRT with dynamo backend", "Deploy Quantized Models using Torch-TensorRT", "Torch-TensorRT Tutorials", "Example notebooks", "Serving a Torch-TensorRT model with Triton", "Dynamic shapes with Torch-TensorRT", "Deploying Torch-TensorRT Programs", "Saving models compiled with Torch-TensorRT", "Torch-TensorRT Explained", "DLA"], "terms": {"defin": [0, 1, 2, 3, 4, 33, 43, 46, 47, 48, 49, 51, 52, 54, 65, 67, 74, 75, 79, 87, 88, 89, 90, 92, 94, 98, 101, 102, 103, 104, 107], "file": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 46, 47, 48, 49, 52, 54, 56, 58, 59, 64, 65, 66, 67, 70, 71, 73, 75, 76, 77, 79, 80, 82, 86, 88, 90, 108, 109, 111], "torch_tensorrt": [0, 1, 2, 14, 16, 17, 42, 43, 44, 46, 47, 48, 49, 50, 51, 52, 54, 56, 62, 63, 64, 65, 67, 68, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 100, 103, 104, 105, 106, 107, 108, 109, 110, 111, 113], "h": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 15, 46, 47, 48, 49, 50, 51, 52, 55, 67, 75, 88, 90], "support": [0, 1, 2, 27, 31, 46, 48, 49, 52, 54, 56, 61, 63, 65, 67, 68, 71, 74, 75, 76, 79, 80, 87, 88, 89, 92, 97, 99, 101, 103, 104, 105, 108, 112, 113], "data": [0, 2, 3, 4, 29, 30, 44, 46, 48, 49, 52, 53, 56, 57, 59, 60, 64, 65, 69, 70, 71, 73, 75, 76, 81, 85, 89, 90, 92, 94, 105, 107], "type": [0, 1, 2, 30, 49, 50, 52, 53, 56, 58, 60, 62, 63, 64, 65, 70, 71, 73, 74, 75, 76, 81, 88, 89, 90, 92, 94, 105, 107, 111], "can": [0, 1, 4, 29, 30, 34, 46, 47, 48, 49, 52, 53, 54, 55, 56, 57, 58, 59, 60, 62, 63, 64, 65, 66, 67, 70, 73, 74, 75, 76, 79, 81, 87, 88, 89, 90, 91, 92, 94, 95, 96, 97, 98, 101, 102, 105, 106, 107, 108, 109, 110, 111, 112], "us": [0, 1, 2, 3, 4, 29, 30, 32, 34, 36, 43, 44, 45, 46, 48, 49, 52, 53, 54, 56, 58, 59, 60, 62, 63, 64, 65, 66, 67, 68, 70, 71, 73, 74, 75, 76, 77, 79, 80, 81, 82, 87, 90, 94, 95, 96, 97, 106, 108, 110, 111, 112, 113], "tensorrt": [0, 1, 3, 4, 29, 30, 31, 32, 33, 34, 37, 44, 45, 46, 48, 49, 52, 53, 54, 55, 56, 57, 59, 60, 62, 67, 70, 71, 73, 74, 75, 76, 77, 87, 90, 94, 95, 98, 100, 102], "engin": [0, 1, 17, 32, 33, 34, 45, 46, 48, 49, 52, 53, 56, 57, 59, 62, 63, 64, 70, 71, 74, 75, 76, 79, 88, 89, 90, 91, 95, 97, 99, 101, 106, 109, 110, 112, 113], "thi": [0, 1, 2, 29, 30, 42, 43, 44, 45, 46, 47, 48, 49, 52, 53, 54, 55, 56, 57, 58, 59, 60, 62, 63, 64, 65, 66, 67, 70, 71, 74, 75, 76, 79, 80, 81, 83, 84, 87, 88, 90, 91, 92, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112], "compat": [0, 1, 46, 55, 58, 64, 65, 70, 74, 75, 76, 112], "c10": [0, 1, 45, 46, 48, 49, 88, 90], "check": [0, 1, 31, 46, 52, 55, 60, 65, 70, 74, 76, 88, 92, 96, 97, 108, 110], "trt": [0, 1, 3, 4, 46, 48, 53, 55, 58, 60, 62, 64, 65, 67, 69, 70, 74, 75, 88, 92, 101, 103, 104, 109, 110, 111], "so": [0, 44, 52, 53, 54, 55, 58, 59, 60, 62, 64, 65, 66, 71, 74, 75, 80, 81, 82, 88, 90, 92, 94, 98, 99, 101, 103, 104, 109], "should": [0, 3, 4, 29, 45, 49, 52, 53, 54, 55, 56, 57, 59, 60, 63, 64, 65, 70, 74, 75, 76, 79, 81, 84, 90, 92, 93, 94, 97, 102, 108], "reason": [0, 65, 87, 92, 94, 112], "you": [0, 1, 2, 29, 30, 46, 48, 49, 52, 53, 54, 55, 56, 58, 59, 60, 63, 65, 66, 67, 70, 74, 75, 76, 79, 81, 82, 83, 87, 88, 89, 90, 91, 92, 94, 95, 96, 97, 105, 106, 107, 108, 109, 110, 111, 112], "need": [0, 1, 2, 25, 29, 43, 46, 53, 54, 55, 60, 65, 66, 70, 71, 74, 75, 81, 88, 89, 90, 92, 93, 94, 96, 97, 107, 108, 109, 110], "explictli": 0, "public": [0, 1, 2, 3, 4, 44, 45, 46, 47, 48, 49, 82, 90], "enum": [0, 1, 2, 42, 45, 46, 70, 76, 90], "valu": [0, 1, 2, 16, 17, 45, 46, 48, 53, 56, 58, 60, 63, 69, 70, 73, 75, 79, 88, 96, 98, 99, 101, 107], "underli": [0, 1, 2, 46, 60], "In": [0, 1, 2, 46, 53, 54, 56, 57, 58, 59, 60, 64, 65, 66, 74, 75, 81, 82, 84, 89, 90, 92, 95, 96, 106, 107, 108, 109, 110, 111], "case": [0, 1, 2, 46, 49, 53, 54, 56, 58, 60, 62, 64, 65, 66, 74, 75, 90, 92, 96, 97, 109, 110], "itself": [0, 1, 2, 46, 52, 55, 91, 108], "interfac": [0, 1, 2, 46, 58, 59, 60, 64, 68, 90], "vs": [0, 1, 2, 46, 55, 66, 70, 75, 76, 91], "normal": [0, 1, 2, 46, 65, 81, 87, 88, 90, 96, 97, 102, 105, 108, 113], "instatin": [0, 1, 2, 46], "ex": [0, 1, 2, 33, 46, 76, 82, 84], "kfloat": [0, 45, 49], "enumer": [0, 1, 2, 16, 17, 46], "klong": [0, 45], "int64": [0, 75, 76], "kdoubl": [0, 45], "fp64": [0, 75], "fp32": [0, 48, 49, 52, 64, 65, 70, 75, 76, 90, 107, 108], "khalf": [0, 45, 88], "fp16": [0, 48, 49, 52, 64, 65, 71, 75, 88, 89, 96, 100, 113], "kchar": [0, 45], "int8": [0, 44, 48, 49, 52, 64, 70, 75, 76, 90, 105, 113], "kint": [0, 45], "int": [0, 3, 4, 36, 44, 45, 49, 52, 54, 56, 63, 64, 69, 70, 71, 75, 76, 79, 88, 92, 105], "kbool": [0, 45], "bool": [0, 1, 2, 3, 4, 24, 27, 30, 31, 42, 44, 45, 46, 49, 55, 60, 64, 69, 70, 71, 73, 74, 75, 76, 79, 88, 90, 92], "kunknown": [0, 2, 45], "sentinel": [0, 2, 75], "function": [0, 1, 2, 3, 4, 46, 48, 49, 54, 55, 56, 58, 60, 62, 64, 65, 66, 87, 88, 90, 91, 92, 97, 98, 101, 102, 103, 104, 107, 108, 109, 110, 112, 113], "default": [0, 1, 2, 3, 4, 16, 29, 30, 33, 43, 45, 46, 48, 49, 52, 54, 56, 62, 64, 65, 66, 70, 71, 74, 75, 76, 79, 80, 81, 88, 89, 90, 91, 92, 94, 105, 109, 110, 111, 112], "construct": [0, 1, 2, 3, 4, 46, 48, 49, 53, 54, 55, 57, 59, 60, 65, 73, 74, 75, 81, 82, 88, 90, 92, 94, 109], "new": [0, 1, 2, 3, 4, 32, 33, 46, 48, 49, 56, 58, 59, 60, 62, 64, 65, 67, 70, 76, 81, 88, 94, 95, 96, 99, 101, 102, 106, 108, 110], "object": [0, 1, 2, 3, 4, 46, 48, 49, 52, 58, 60, 62, 63, 64, 70, 74, 75, 76, 90, 91, 109, 111], "inlin": [0, 1, 2, 3, 4, 29, 30, 44, 46, 48, 55, 82, 85, 88], "constexpr": [0, 1, 2, 45, 46, 92], "t": [0, 1, 2, 45, 46, 55, 60, 65, 66, 69, 75, 79, 81, 82, 87, 88, 90, 92, 105, 108, 109], "constructor": [0, 2, 46, 48, 49, 58, 87], "from": [0, 1, 2, 3, 4, 29, 30, 44, 46, 48, 49, 52, 53, 55, 56, 57, 58, 59, 60, 63, 64, 65, 68, 70, 71, 74, 75, 76, 77, 79, 80, 81, 82, 87, 88, 90, 92, 93, 94, 96, 97, 100, 101, 103, 104, 105, 107, 108, 110, 111, 112], "torchtrt_api": [0, 2, 19, 22, 23, 24, 25, 26, 27, 28, 31, 32, 33, 34, 35, 36, 37, 42, 43, 44, 45, 48, 49, 50], "scalartyp": [0, 45, 69], "torch": [0, 1, 2, 4, 20, 21, 29, 30, 31, 32, 33, 34, 37, 44, 45, 46, 47, 48, 49, 52, 53, 54, 55, 56, 57, 58, 59, 60, 62, 70, 71, 73, 74, 75, 76, 77, 87, 90, 93, 94, 113], "paramet": [0, 1, 2, 3, 4, 25, 26, 27, 29, 30, 31, 32, 33, 34, 36, 46, 48, 49, 53, 54, 55, 60, 64, 65, 70, 71, 73, 74, 75, 76, 85, 87, 88, 97, 103, 104], "oper": [0, 1, 2, 3, 4, 31, 44, 45, 46, 49, 52, 53, 55, 56, 57, 58, 59, 60, 62, 63, 65, 68, 70, 75, 76, 89, 90, 97, 99, 101, 112, 113], "const": [0, 1, 2, 3, 4, 29, 30, 31, 32, 33, 34, 36, 44, 45, 46, 55, 60, 69, 88, 90], "get": [0, 1, 2, 3, 4, 23, 35, 44, 46, 55, 56, 60, 62, 63, 65, 74, 75, 88, 90, 94, 103, 104, 107, 108], "return": [0, 1, 2, 3, 4, 23, 24, 29, 30, 31, 32, 33, 34, 35, 42, 43, 44, 45, 46, 54, 55, 56, 57, 58, 59, 60, 62, 64, 65, 70, 71, 74, 75, 76, 87, 88, 89, 90, 92, 94, 97, 98, 105, 108, 109], "explicit": [0, 1, 2, 3, 4, 45, 46, 55, 65, 71, 74, 81, 90, 112], "delet": [0, 1, 2, 45, 46, 55], "other": [0, 1, 2, 45, 46, 52, 53, 55, 58, 62, 64, 65, 66, 69, 70, 74, 75, 80, 81, 88, 89, 110], "comparis": [0, 2], "true": [0, 1, 2, 4, 46, 49, 55, 56, 60, 62, 64, 65, 69, 70, 71, 74, 75, 76, 79, 82, 88, 90, 91, 92, 93, 94, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 108, 110, 113], "fals": [0, 1, 2, 3, 4, 44, 45, 46, 49, 54, 62, 64, 65, 69, 70, 71, 74, 75, 76, 79, 80, 81, 82, 88, 90, 91, 92, 93, 94, 96, 97, 98, 100, 101, 102, 103, 104, 105, 110], "struct": [1, 21, 38, 41, 45, 54, 90], "onli": [1, 3, 4, 16, 29, 44, 46, 48, 52, 54, 55, 56, 59, 60, 64, 65, 67, 70, 71, 74, 75, 81, 90, 92, 96, 97, 110, 113], "applic": [1, 29, 46, 52, 55, 59, 64, 70, 74, 75, 88, 89, 91, 110, 113], "kcuda": [1, 46, 56, 88], "which": [1, 2, 29, 32, 34, 46, 49, 53, 54, 55, 56, 57, 58, 59, 60, 62, 63, 64, 65, 66, 70, 71, 73, 74, 75, 76, 79, 81, 82, 87, 88, 89, 90, 91, 92, 94, 98, 99, 102, 103, 104, 107, 108, 109, 110, 111, 112], "map": [1, 46, 53, 54, 55, 57, 59, 60, 65, 75, 88, 90, 91, 94, 98, 107, 108], "kgpu": [1, 45, 46], "To": [1, 46, 52, 54, 56, 64, 66, 70, 79, 87, 88, 89, 91, 92, 97, 108], "datatyp": [1, 21, 38, 45, 46, 48, 49, 50, 70, 75, 76, 89, 92, 108], "target": [1, 33, 45, 46, 48, 49, 52, 54, 56, 58, 59, 64, 65, 66, 68, 70, 74, 75, 76, 89, 90, 91, 92, 97, 112, 113], "gpu": [1, 32, 34, 36, 45, 46, 52, 64, 65, 70, 74, 75, 76, 88, 90, 91, 92, 103, 104, 108, 110, 112, 113], "run": [1, 34, 46, 49, 52, 53, 54, 55, 56, 57, 58, 59, 60, 64, 65, 66, 67, 70, 71, 74, 75, 76, 81, 87, 88, 89, 90, 91, 92, 93, 94, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 107, 108, 109, 110, 111, 112, 113], "kdla": [1, 45, 46, 113], "dla": [1, 45, 46, 49, 52, 64, 68, 70, 75, 76], "intern": [1, 16, 46, 60, 63, 72, 74, 81, 88], "note": [1, 46, 48, 54, 60, 62, 65, 66, 74, 75, 79, 81, 88, 92, 97, 109, 113], "The": [1, 46, 48, 49, 52, 53, 54, 55, 56, 57, 58, 59, 60, 62, 63, 64, 65, 66, 70, 74, 75, 76, 79, 82, 87, 89, 90, 91, 92, 93, 94, 96, 97, 99, 102, 106, 107, 108, 109, 111, 112], "valid": [1, 46, 56, 60, 62, 70, 74, 75], "kcpu": [1, 46], "comparison": [1, 46], "an": [2, 3, 4, 48, 49, 52, 53, 54, 55, 56, 57, 58, 59, 60, 62, 64, 65, 66, 67, 70, 71, 73, 74, 75, 76, 79, 81, 82, 87, 88, 89, 90, 92, 94, 97, 98, 102, 103, 104, 107, 108, 109, 110, 111, 112], "memeori": 2, "layout": [2, 48, 69, 70, 75, 76], "store": [2, 4, 49, 52, 53, 58, 60, 64, 65, 70, 74, 75, 76, 87, 88, 92, 94, 97], "tensor": [2, 33, 44, 45, 48, 49, 52, 53, 54, 55, 56, 58, 60, 62, 63, 64, 65, 69, 70, 71, 74, 75, 76, 87, 88, 89, 90, 92, 98, 107], "kcontigu": [2, 45, 48], "contigu": [2, 48, 49, 52, 70, 75, 76], "nchw": [2, 70, 75, 76], "linear": [2, 56, 69, 75, 87, 92, 105], "kchannelslast": [2, 45], "channel": [2, 75, 80], "last": [2, 55, 65, 75, 105], "nhwc": [2, 52], "memoryformat": [2, 45], "ptq": [3, 4, 15, 18, 19, 38, 50, 51, 52, 68, 70, 75, 76, 95, 106], "privat": [3, 4, 44, 45, 90], "algorithm": [3, 4, 29, 30, 44, 65, 73, 90], "typenam": [3, 4, 29, 30, 44], "gener": [3, 4, 29, 52, 55, 58, 59, 60, 62, 64, 65, 66, 70, 71, 79, 81, 82, 85, 87, 88, 90, 92, 93, 94, 96, 97, 98, 99, 100, 101, 102, 105, 106, 110], "int8calibr": [3, 20, 30, 40, 44, 50], "implement": [3, 4, 55, 56, 58, 63, 65, 74, 80, 88, 90, 92, 94, 110], "specifi": [3, 4, 33, 52, 54, 60, 64, 65, 66, 70, 75, 76, 79, 81, 89, 91, 108, 109, 111, 112], "calibr": [3, 4, 29, 30, 44, 49, 52, 70, 73, 75, 76, 88, 90], "read": [3, 4, 29, 30, 44, 79, 81, 90], "nvinfer1": [3, 4, 29, 30, 44, 45, 49, 60, 90], "iint8calibr": [3, 4, 29, 30, 44, 45, 49, 70, 75, 76, 90], "iint8entropycalibrator2": [3, 4, 29, 30, 44, 90], "std": [3, 4, 22, 26, 28, 29, 30, 31, 33, 34, 35, 42, 44, 45, 47, 48, 49, 56, 88, 90, 108, 113], "string": [3, 4, 18, 20, 21, 22, 26, 28, 29, 30, 31, 33, 34, 35, 42, 44, 45, 49, 54, 56, 58, 60, 64, 70, 75, 79, 88, 90], "cache_file_path": [3, 4, 29, 30, 44], "8": [3, 52, 55, 63, 64, 66, 74, 75, 81, 82, 85, 88, 92, 99, 102, 108, 109], "cach": [3, 4, 29, 30, 44, 52, 64, 65, 70, 71, 73, 75, 88, 90, 95, 106, 110], "getbatchs": [3, 4, 44], "noexceptoverrid": [3, 4], "batch": [3, 4, 44, 64, 65, 71, 74, 90, 94, 99, 101, 105, 108, 109, 113], "size": [3, 4, 44, 48, 49, 52, 55, 56, 64, 65, 69, 70, 71, 75, 76, 79, 88, 90, 92, 94, 99, 101, 105, 107, 109], "next": [3, 4, 53, 54, 58, 63, 71, 75, 79, 81, 82, 90, 98, 102, 105, 108], "alwai": [3, 4, 27, 52, 75, 81, 97], "1": [3, 4, 33, 44, 45, 48, 49, 52, 54, 55, 56, 58, 60, 62, 63, 64, 65, 66, 69, 70, 71, 73, 74, 75, 76, 78, 79, 81, 82, 85, 87, 88, 89, 90, 91, 92, 93, 94, 96, 97, 99, 101, 102, 104, 105, 107, 109, 111, 113], "due": [3, 4, 66, 80, 81, 105], "issu": [3, 4, 64, 70, 75, 88, 98, 101], "getbatch": [3, 4, 44], "void": [3, 4, 25, 26, 27, 28, 36, 37, 42, 44, 45], "bind": [3, 4, 33, 44, 74, 76, 81], "char": [3, 4, 44, 52, 88], "name": [3, 4, 31, 33, 34, 44, 54, 56, 58, 60, 65, 66, 71, 73, 74, 75, 76, 81, 82, 87, 88, 91, 92, 97, 102, 105, 108], "nbbind": [3, 4, 44], "Not": 3, "arrai": [3, 4, 33, 53, 54, 75, 76, 92], "pointer": [3, 4, 90], "fed": [3, 4, 48], "buffer": [3, 4, 65, 92], "each": [3, 4, 49, 53, 55, 56, 58, 60, 64, 65, 66, 70, 71, 74, 79, 81, 88, 97, 110], "input": [3, 4, 21, 29, 33, 38, 44, 45, 47, 49, 50, 52, 53, 54, 55, 56, 58, 60, 62, 63, 64, 65, 67, 69, 70, 71, 72, 74, 75, 76, 82, 87, 88, 89, 90, 91, 92, 93, 94, 96, 97, 98, 102, 103, 104, 105, 107, 108, 109, 110, 111, 112, 113], "number": [3, 4, 49, 52, 54, 55, 56, 60, 63, 64, 65, 70, 71, 75, 76, 79, 88, 89, 92, 95, 97, 99, 101, 106, 107, 112], "readcalibrationcach": [3, 4, 44], "size_t": [3, 4, 44, 90], "length": [3, 4, 44, 65, 69, 82], "how": [3, 4, 66, 81, 83, 85, 87, 91, 92, 94, 96, 98, 105, 107, 108, 109, 110], "enabl": [3, 4, 24, 49, 52, 54, 56, 57, 59, 64, 65, 66, 70, 71, 73, 74, 75, 76, 79, 94, 96, 97, 99, 101, 102, 110], "use_cach": [3, 4, 30, 44, 73, 90, 103, 104], "set": [3, 4, 16, 21, 25, 27, 29, 32, 34, 36, 45, 46, 48, 49, 52, 53, 54, 55, 56, 57, 58, 59, 65, 66, 70, 71, 74, 75, 76, 79, 83, 86, 87, 88, 89, 90, 92, 97, 105, 107, 109, 110, 112, 113], "writecalibrationcach": [3, 4, 44], "write": [3, 4, 29, 30, 44, 65, 68, 81, 88, 90, 108], "provid": [3, 4, 49, 52, 54, 56, 58, 60, 62, 64, 65, 66, 67, 70, 71, 74, 75, 76, 81, 88, 89, 90, 91, 94, 95, 97, 98, 102, 106, 108, 109, 110, 111, 112], "cast": [3, 4, 55], "convienc": [3, 4, 49], "convert": [3, 4, 31, 32, 34, 52, 55, 56, 57, 59, 63, 64, 68, 70, 75, 76, 89, 91, 92, 99, 101, 107, 110], "easili": [3, 4, 96], "assign": [3, 4, 80], "ptq_calibr": [3, 4, 45, 49, 90], "field": [3, 4, 63, 71, 75, 90], "compilespec": [3, 4, 21, 32, 34, 41, 45, 50, 56, 76, 88, 90, 113], "dataloaderuniqueptr": [4, 44], "libtorch": [4, 37, 60, 66, 67, 88, 90, 112], "dataload": [4, 29, 30, 44, 49, 73, 90, 105], "unique_ptr": [4, 30], "unqiue_ptr": 4, "A": [4, 29, 30, 32, 33, 47, 48, 54, 55, 56, 60, 65, 66, 70, 71, 75, 76, 82, 90, 100, 108], "uniqu": [4, 89], "what": [4, 54, 55, 65, 67, 75, 81, 87, 88, 89, 104, 112], "make_data_load": [4, 90], "factori": [4, 29, 30, 64, 70, 90], "path": [4, 13, 14, 15, 29, 30, 52, 64, 65, 66, 70, 73, 75, 87, 88, 90, 94, 102, 105, 108, 112], "find": [4, 65, 66, 88, 92], "whether": [4, 52, 54, 64, 65, 70, 71, 75, 80, 90, 99, 101, 110], "exist": [4, 31, 32, 34, 54, 63, 64, 65, 70, 73, 75, 76, 90, 94, 107], "There": [4, 53, 54, 59, 60, 62, 63, 65, 66, 82, 87, 90, 97, 107, 108, 109, 110], "consum": [4, 53, 87], "macro": [5, 6, 7, 8, 9, 10, 11, 12, 15, 18, 20, 21, 42, 44, 45, 50, 51], "x": [5, 10, 33, 43, 55, 56, 66, 67, 74, 76, 82, 87, 88, 92, 94, 98, 102, 105, 109, 111], "includ": [13, 15, 16, 35, 37, 42, 43, 44, 45, 51, 52, 54, 56, 57, 58, 59, 62, 64, 65, 66, 67, 70, 71, 74, 75, 79, 81, 87, 88, 90, 92, 95, 106, 110], "parent": [14, 15, 18, 19, 20, 21], "cpp": [14, 15, 42, 43, 44, 45, 51, 55, 59, 66, 88, 90], "log": [15, 16, 19, 20, 38, 44, 50, 51, 55, 60, 64, 65, 68, 69, 70, 71, 75, 99, 101], "emum": [16, 17], "messag": [16, 25, 26, 52, 72], "sever": [16, 26, 72], "kinternal_error": [16, 42], "print": [16, 31, 44, 62, 64, 70, 76, 81, 88, 91, 92, 93, 94, 96, 97, 99, 101, 103, 104, 105, 108], "error": [16, 49, 52, 53, 55, 59, 64, 65, 70, 72, 75, 76, 81, 88, 109], "kerror": [16, 42], "all": [16, 42, 43, 44, 45, 49, 52, 54, 55, 56, 58, 62, 64, 65, 66, 70, 72, 74, 75, 77, 81, 82, 87, 88, 89, 90, 92, 106, 107, 108, 110, 112], "kwarn": [16, 42], "warn": [16, 44, 52, 60, 72, 74], "kinfo": [16, 42, 44], "info": [16, 32, 34, 45, 52, 60, 72, 74, 75], "kdebug": [16, 42, 44], "debug": [16, 27, 45, 49, 52, 60, 62, 64, 70, 72, 74, 75, 76, 91, 92, 93, 94, 96, 97, 98, 99, 101, 105], "kgraph": [16, 42, 55], "everyth": [16, 64, 70, 75], "intermedi": [16, 49, 52, 54, 64, 70, 72, 75, 76, 87, 112], "graph": [16, 31, 32, 34, 45, 49, 52, 53, 54, 56, 57, 59, 60, 62, 63, 64, 65, 70, 71, 72, 75, 76, 87, 88, 92, 94, 95, 96, 97, 99, 101, 102, 106, 107, 109, 110], "lower": [16, 54, 63, 65, 68, 70, 71, 72, 75, 82, 92, 94, 99, 101, 107, 112], "phase": [16, 60, 63, 88, 97, 109, 112], "select": [17, 29, 30, 34, 49, 52, 58, 64, 65, 66, 69, 70, 75, 76, 80, 83, 89, 90, 92, 112], "capabl": [17, 45, 49, 52, 58, 70, 75, 76, 91], "kstandard": [17, 45, 49], "ksafeti": [17, 45], "kdla_standalon": [17, 45], "directori": [18, 19, 20, 21, 42, 43, 44, 45, 50, 66, 70, 90, 94], "program": [18, 19, 20, 21, 29, 51, 52, 57, 58, 59, 68, 70, 87, 94, 95, 104, 106, 109], "list": [18, 19, 20, 21, 31, 49, 51, 53, 56, 58, 60, 62, 63, 65, 67, 69, 70, 71, 74, 75, 76, 85, 88, 89, 92, 108], "torchscript": [19, 21, 38, 43, 45, 49, 50, 52, 56, 57, 58, 59, 63, 67, 70, 71, 73, 74, 75, 76, 89, 107, 109, 113], "str": [19, 43, 44, 50, 54, 64, 65, 69, 70, 73, 74, 75, 76, 92, 94, 105], "torch_tensorrt_major_vers": [19, 43, 50], "torch_tensorrt_minor_vers": [19, 43, 50], "torch_tensorrt_patch_vers": [19, 43, 50], "torch_tensorrt_vers": [19, 43, 50], "torchtrt_hidden": [19, 43, 50], "xstr": [19, 43, 50], "nvinfer": [20, 44], "fstream": [20, 44], "iostream": [20, 21, 44, 45, 88], "iter": [20, 44, 49, 52, 53, 64, 70, 73, 75, 76, 93, 94, 105], "memori": [20, 21, 44, 45, 55, 60, 70, 75, 76, 88, 89, 92, 94, 103, 104], "sstream": [20, 44], "vector": [20, 21, 33, 44, 45, 47, 48, 49, 56, 58, 75, 88, 90, 113], "templat": [20, 40, 44, 45, 50, 79, 88], "int8cachecalibr": [20, 29, 40, 44, 50], "cuda_runtim": [21, 45], "custom_class": [21, 45], "devic": [21, 33, 36, 38, 45, 49, 50, 52, 58, 64, 69, 70, 71, 73, 74, 75, 76, 89, 90, 91, 92, 96, 100, 103, 104, 107, 113], "graphinput": [21, 38, 45, 49, 50], "devicetyp": [21, 38, 45, 46, 50, 74, 75, 76, 90, 91, 92, 113], "tensorformat": [21, 38, 45, 48, 50, 75, 92], "level": [23, 25, 26, 39, 42, 44, 50, 54, 55, 56, 59, 64, 65, 70, 75, 76, 85, 87, 92, 108, 112], "current": [23, 54, 56, 58, 60, 62, 63, 64, 65, 66, 70, 71, 74, 75, 76, 79, 92, 96, 103, 104, 105, 110], "report": [23, 44, 74], "Is": [24, 75], "color": [24, 27, 81], "output": [24, 27, 33, 49, 52, 53, 54, 55, 56, 58, 60, 62, 63, 64, 65, 66, 70, 72, 74, 75, 76, 79, 81, 82, 88, 92, 94, 96, 97, 100, 107, 108, 109, 111], "lvl": [25, 26, 42], "inform": [25, 33, 35, 37, 48, 52, 53, 56, 58, 62, 64, 65, 66, 70, 71, 72, 75, 81, 87, 88, 90, 91, 92, 94, 109], "ad": [25, 52, 53, 54, 56, 62, 65, 66, 92, 96], "abov": [25, 54, 56, 62, 65, 66, 72, 80, 81, 88, 92, 99, 101, 111], "msg": [26, 42], "add": [26, 53, 54, 55, 56, 60, 63, 66, 69, 79, 81, 86, 88, 89, 92], "global": [26, 52, 64, 70, 75, 88], "colored_output_on": [27, 42], "prefix": [27, 28, 42, 81], "help": [27, 52, 53, 60, 64, 65, 88, 94, 105, 107, 110], "when": [27, 44, 45, 46, 52, 53, 55, 56, 57, 58, 59, 60, 64, 65, 66, 70, 74, 75, 76, 79, 81, 83, 87, 88, 90, 92, 94, 96, 97, 107, 109, 110], "termin": [27, 52, 88], "If": [27, 33, 53, 54, 55, 56, 62, 63, 64, 65, 66, 67, 70, 71, 75, 79, 81, 88, 89, 90, 92, 94, 97, 98, 102, 108, 109, 110, 112, 113], "build": [29, 30, 35, 49, 52, 53, 57, 59, 60, 63, 64, 65, 70, 74, 75, 80, 85, 88, 90, 92, 99, 101, 109], "post": [29, 30, 49, 52, 63, 68, 88, 94], "train": [29, 30, 49, 52, 68, 69, 88, 89, 94], "quantiz": [29, 30, 52, 64, 68, 73, 75, 88, 95, 106], "creat": [29, 30, 33, 52, 53, 54, 56, 58, 60, 65, 68, 75, 76, 81, 88, 92, 95, 97, 106, 108], "previous": [29, 33, 88, 94, 97], "therefor": [29, 58, 65, 66, 74, 81, 88, 107, 110], "have": [29, 33, 44, 52, 53, 54, 55, 56, 60, 62, 63, 65, 66, 70, 71, 73, 74, 75, 76, 81, 87, 88, 89, 90, 92, 99, 101, 105, 107, 108, 109], "requir": [29, 49, 52, 53, 54, 55, 63, 64, 65, 66, 70, 75, 76, 79, 88, 90, 92, 105, 108, 109, 110], "dataset": [29, 73, 90, 107], "save": [29, 44, 52, 58, 64, 65, 67, 68, 70, 74, 75, 76, 88, 89, 93, 94, 97, 100, 107, 108, 110, 112], "later": [29, 70, 88, 97, 111, 112], "differ": [29, 55, 56, 59, 64, 65, 66, 75, 79, 87, 92, 94, 96, 110, 112], "scratch": [29, 94, 97], "depend": [29, 35, 53, 59, 64, 65, 67, 70, 88, 89, 108, 110], "howev": [29, 66, 79, 80, 88, 92, 94, 108, 109, 112], "network": [29, 30, 54, 60, 65, 75, 88, 90, 92, 107, 108, 113], "also": [29, 53, 54, 60, 62, 64, 66, 67, 79, 81, 82, 88, 89, 90, 94, 102, 105, 106, 107], "recalibr": 29, "its": [29, 53, 56, 58, 60, 66, 74, 75, 81, 92, 105, 108, 110, 112], "structur": [29, 46, 49, 56, 59, 60, 64, 70, 75, 79, 81, 85, 87, 92, 108], "chang": [29, 55, 56, 59, 62, 64, 65, 74, 75, 76, 79, 90, 94, 96, 97, 108, 110, 112], "respons": [29, 54, 58, 81, 110], "ensur": [29, 54, 55, 56, 62, 64, 66, 74], "By": [29, 30, 51, 56, 66, 79, 87, 94, 109], "entropi": [29, 30, 90], "v2": [29, 30, 81], "perform": [29, 30, 54, 62, 63, 70, 74, 75, 90, 92, 102, 107, 108, 110, 111, 112], "recommend": [29, 30, 65, 66, 75, 81, 88, 92, 108, 109], "feed": [29, 30, 88], "forward": [29, 30, 32, 33, 56, 58, 60, 64, 67, 70, 74, 75, 76, 87, 88, 89, 90, 91, 92, 98, 105, 109], "overrid": [29, 30, 44, 54, 65, 90], "minmax": [29, 30, 90], "recomend": [29, 30], "nlp": [29, 30, 90], "task": [29, 30, 65, 90, 107], "call": [29, 30, 32, 49, 54, 55, 58, 60, 65, 70, 71, 74, 75, 76, 81, 87, 88, 91, 92, 94, 96, 98, 101, 107, 109, 110, 112], "make_int8_calibr": [29, 40, 44, 50, 90], "class": [29, 30, 44, 45, 46, 51, 58, 60, 64, 65, 72, 76, 81, 82, 87, 88, 89, 90, 92, 94, 98, 105, 107, 109], "e": [29, 30, 52, 55, 60, 65, 66, 67, 71, 75, 87, 88, 90, 92, 94, 97], "g": [29, 30, 52, 55, 65, 66, 71, 75, 81, 90, 92, 97], "iint8minmaxcalibr": [29, 30, 90], "calibration_cache_fil": [29, 30, 90], "move": [30, 44, 55, 58, 76, 88, 90, 103, 104], "calibration_dataload": [30, 90], "contain": [30, 31, 52, 53, 54, 55, 56, 60, 65, 66, 71, 74, 75, 81, 82, 87, 88, 90, 92, 94, 108, 110], "jit": [31, 32, 33, 34, 45, 47, 49, 52, 53, 55, 56, 57, 58, 59, 60, 61, 64, 67, 68, 70, 74, 75, 76, 87, 88, 89, 91, 92, 97, 108, 111, 112], "modul": [31, 32, 33, 34, 45, 49, 52, 56, 57, 58, 59, 60, 64, 65, 66, 67, 68, 70, 71, 73, 74, 75, 76, 80, 81, 82, 89, 90, 91, 92, 95, 97, 98, 105, 106, 107, 109, 111, 113], "method_nam": [31, 34, 45, 52, 75, 76, 88], "see": [31, 55, 56, 58, 62, 64, 65, 66, 75, 76, 81, 87, 88, 89, 92, 94, 97, 98], "fulli": [31, 52, 55, 64, 70, 74, 75, 76, 88, 90, 92, 113], "compil": [31, 34, 41, 45, 49, 50, 52, 54, 55, 56, 58, 60, 62, 65, 70, 71, 72, 74, 75, 76, 77, 79, 87, 89, 90, 91, 92, 93, 96, 105, 108, 110, 113], "take": [31, 32, 33, 34, 53, 54, 57, 58, 59, 60, 62, 65, 70, 71, 74, 75, 76, 79, 81, 88, 90, 91, 92, 98, 107, 109], "method": [31, 32, 33, 34, 48, 52, 55, 60, 66, 70, 75, 76, 81, 87, 88, 91, 94, 107], "pure": [31, 70, 75], "Will": 31, "out": [31, 44, 53, 55, 56, 57, 59, 60, 64, 66, 70, 75, 76, 81, 88, 92, 96, 105, 108, 109], "unsupport": [31, 49, 54, 64, 75, 92, 112], "script": [31, 55, 56, 67, 75, 76, 87, 88, 89, 91, 92, 93, 94, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 110, 112], "nvidia": [32, 34, 42, 43, 44, 45, 52, 61, 64, 65, 66, 70, 75, 76, 88, 98, 101, 108, 112, 113], "configur": [32, 34, 48, 62, 66, 70, 74, 75, 76, 85, 88, 90, 92, 108, 109], "equival": [32, 57, 59, 60, 70, 75, 76, 87, 88, 90, 92, 99, 101], "specif": [32, 49, 54, 55, 57, 59, 62, 64, 70, 75, 76, 81, 106, 107, 112], "traget": 32, "input_binding_nam": [33, 45, 74, 76], "output_binding_nam": [33, 45, 74, 76], "emb": [33, 52, 63, 76, 82], "pre": [33, 55, 73, 76, 90, 94, 110], "built": [33, 52, 58, 59, 64, 66, 70, 74, 75, 76, 94, 97], "serial": [33, 34, 52, 57, 59, 66, 70, 74, 75, 76, 88, 92, 94, 112], "regist": [33, 54, 58, 60, 65, 74, 76, 92], "execut": [33, 49, 52, 55, 57, 58, 59, 63, 64, 65, 66, 68, 70, 71, 74, 75, 76, 77, 87, 88, 90, 92, 108], "must": [33, 48, 49, 52, 54, 55, 56, 60, 62, 65, 66, 70, 71, 75, 76, 81, 82, 88, 94, 109, 110, 112], "follow": [33, 52, 54, 56, 58, 62, 63, 64, 65, 66, 76, 79, 81, 82, 86, 87, 88, 90, 92, 94, 95, 99, 106, 107, 108, 109, 110], "format": [33, 45, 48, 49, 52, 69, 70, 75, 76, 81, 82, 89, 92, 94, 105, 107, 108, 111], "symbol": [33, 65, 66, 76, 81, 110], "index": [33, 61, 62, 66, 68, 69, 76, 79, 85, 90, 92], "0": [33, 43, 44, 45, 49, 52, 54, 56, 59, 60, 62, 64, 65, 66, 68, 69, 70, 71, 73, 74, 75, 76, 77, 78, 80, 81, 88, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 108, 109, 113], "2": [33, 43, 54, 56, 60, 63, 64, 65, 66, 68, 69, 70, 73, 74, 75, 76, 79, 81, 82, 85, 87, 88, 90, 92, 93, 94, 95, 96, 97, 98, 99, 101, 104, 105, 106, 109, 111], "y": [33, 56, 76, 82, 92, 98], "compilesepc": 33, "order": [33, 49, 54, 56, 60, 62, 65, 66, 70, 71, 74, 75, 76, 88, 89, 94], "pass": [33, 53, 54, 56, 57, 58, 59, 60, 63, 64, 65, 66, 68, 72, 73, 74, 75, 76, 87, 88, 90, 92, 94, 97], "origin": [33, 65, 71, 75, 92, 94, 96, 112], "pytorch": [33, 48, 49, 52, 54, 55, 56, 57, 58, 59, 60, 63, 64, 66, 67, 70, 73, 74, 75, 76, 87, 88, 89, 90, 94, 95, 96, 97, 105, 106, 108, 109, 110, 111, 112], "assum": [33, 74, 91, 92], "convent": 33, "below": [33, 56, 60, 62, 63, 64, 65, 66, 81, 88, 89, 94, 100, 108], "equivil": 34, "librari": [35, 42, 43, 44, 45, 52, 54, 57, 58, 59, 60, 75, 88, 92], "version": [35, 37, 59, 62, 64, 65, 70, 74, 75, 79, 82, 92, 107, 108, 111], "gpu_id": [36, 45, 46, 52, 74, 75, 76, 90, 91, 92, 113], "id": [36, 45, 52, 75, 79, 80, 84, 113], "cudasetdevic": 36, "dump": [37, 52, 92], "base": [37, 50, 58, 63, 64, 66, 70, 71, 75, 81, 87, 89, 90, 93, 97, 101, 107, 112], "stdout": [37, 74], "enginecap": [38, 45, 49, 50, 64, 70, 74, 75, 76, 91, 92], "dump_build_info": [38, 45, 50], "get_build_info": [38, 45, 50], "set_devic": [38, 45, 50, 110], "get_is_colored_output_on": [39, 42, 50], "get_logging_prefix": [39, 42, 50], "get_reportable_log_level": [39, 42, 50], "set_is_colored_output_on": [39, 42, 50], "set_logging_prefix": [39, 42, 50], "set_reportable_log_level": [39, 42, 50], "make_int8_cache_calibr": [40, 44, 50, 90], "check_method_operator_support": [41, 45, 50], "convert_method_to_trt_engin": [41, 45, 50, 75, 76, 88, 91], "embed_engine_in_new_modul": [41, 45, 50, 76], "document": [42, 43, 44, 45, 50, 59, 79, 81, 82, 86, 87, 88, 90, 91, 108, 109, 110], "copyright": [42, 43, 44, 45, 82, 88], "c": [42, 43, 44, 45, 52, 59, 64, 69, 70, 71, 74, 75, 82, 89, 92, 96, 108, 110, 113], "corpor": [42, 43, 44, 45], "right": [42, 43, 44, 45, 55, 59, 60, 81], "reserv": [42, 43, 44, 45, 103, 104], "licens": [42, 43, 44, 45, 88], "under": [42, 43, 44, 45, 59, 65, 81, 99, 112], "bsd": [42, 43, 44, 45], "style": [42, 43, 44, 45, 64, 67, 79, 81, 82], "found": [42, 43, 44, 45, 63, 66, 74, 81, 88, 90, 92, 94, 110], "root": [42, 43, 44, 45, 66, 79, 90, 105], "sourc": [42, 43, 44, 45, 54, 59, 64, 65, 70, 71, 72, 73, 74, 75, 76, 92, 93, 94, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106], "tree": [42, 43, 44, 45, 79, 90, 105, 110], "pragma": [42, 43, 44, 45, 90], "onc": [42, 43, 44, 45, 53, 55, 56, 58, 64, 65, 66, 75, 90, 92, 108, 110], "namespac": [42, 43, 44, 45, 51, 55, 68, 75, 90, 92], "ar": [42, 46, 49, 52, 53, 54, 55, 56, 58, 59, 60, 62, 63, 64, 65, 66, 70, 73, 74, 75, 76, 79, 81, 82, 83, 87, 88, 90, 91, 92, 93, 94, 96, 97, 99, 107, 108, 109, 110, 111, 112], "ones": [42, 56, 57, 59, 66, 81, 88, 92, 112], "necessari": [42, 62, 64, 66, 74, 97, 110], "user": [42, 48, 54, 56, 57, 58, 59, 62, 63, 64, 66, 70, 81, 82, 88, 89, 90, 94, 97, 106, 108, 109, 110, 112], "dont": 42, "know": [42, 60, 79, 81, 92], "we": [42, 44, 53, 54, 55, 56, 57, 58, 59, 60, 62, 63, 64, 65, 71, 74, 79, 81, 87, 88, 90, 92, 94, 95, 96, 97, 98, 99, 101, 102, 103, 104, 105, 106, 107, 108, 109, 111, 112], "want": [42, 56, 65, 66, 67, 71, 87, 88, 90, 91, 92, 97, 98, 108], "use_cmake_generated_export_head": 43, "torch_tensorrt_export": 43, "els": [43, 44, 48, 76, 81, 82, 93, 94, 105], "__gnuc__": 43, "__attribute__": 43, "__visibility__": 43, "hidden": [43, 79], "endif": [43, 44, 45], "doe": [43, 44, 55, 56, 60, 62, 65, 66, 75, 81, 90, 92, 99, 101], "gaurd": 43, "someth": [43, 55, 81, 108], "5": [43, 52, 56, 58, 59, 64, 65, 66, 70, 74, 75, 81, 82, 85, 87, 88, 92, 96, 98, 108], "setup": [43, 90, 108], "alias": 43, "eas": 43, "ts": [43, 52, 56, 67, 68, 75, 87, 88, 89, 91, 109, 111], "torchtrt": [43, 56, 92, 105], "ifndef": [44, 45], "doxygen_should_skip_thi": [44, 45], "get_batch_impl": 44, "element_typ": 44, "super": [44, 87, 92, 98, 105, 109], "batchtyp": 44, "dataloader_": 44, "cache_file_path_": 44, "use_cache_": 44, "auto": [44, 56, 60, 64, 67, 70, 81, 82, 88, 90, 103, 104, 113], "batched_data_": 44, "push_back": [44, 56], "it_": 44, "begin": [44, 65, 66, 81, 98, 102], "noexcept": [44, 90], "hack": 44, "explict": 44, "work": [44, 55, 59, 60, 64, 65, 67, 70, 73, 74, 75, 81, 82, 90, 92, 97, 98, 102, 109], "here": [44, 53, 54, 56, 58, 63, 64, 65, 66, 67, 79, 81, 82, 87, 88, 90, 92, 102, 103, 104, 105, 108, 109, 110, 111], "explic": 44, "just": [44, 45, 55, 56, 64, 65, 68, 72, 74, 81, 83, 87, 88, 89, 91, 92, 94, 96, 107, 110], "still": [44, 56, 65, 66, 90, 98, 112], "static_cast": 44, "option": [44, 48, 52, 56, 57, 59, 62, 63, 64, 65, 70, 74, 75, 76, 81, 85, 90, 92, 93, 94, 98, 100, 110, 111, 113], "batch_siz": [44, 90, 105], "end": [44, 52, 60, 62, 69, 70, 75, 76, 81, 88, 90, 92, 93, 94, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105], "statu": [44, 82], "reset": [44, 93, 94, 98, 101, 110], "incas": 44, "go": [44, 55, 56, 65, 67, 87, 88, 92, 93, 94, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 107, 108, 112], "again": [44, 58, 60, 81, 92, 96], "stringstream": 44, "ss": 44, "cache_": 44, "clear": 44, "ifstream": 44, "io": [44, 108], "binari": [44, 90], "noskipw": 44, "good": [44, 60, 65, 81, 94], "copi": [44, 60, 65, 69, 73, 82, 108], "istream_iter": 44, "back_insert": 44, "nullptr": [44, 45, 49], "ofstream": [44, 88], "cache_fil": [44, 73, 90], "reinterpret_cast": 44, "cache_size_": 44, "int8_t": 45, "arrayref": [45, 48, 49], "friend": 45, "ostream": 45, "os": [45, 94], "dtype": [45, 48, 49, 52, 63, 64, 65, 69, 70, 71, 74, 75, 76, 89, 92, 93, 99, 101, 102, 107, 109], "device_typ": [45, 46, 75, 90, 91, 113], "int64_t": [45, 46, 48, 49, 90, 113], "core": [45, 52, 55, 56, 59, 64, 70, 75, 88, 112, 113], "agx": 45, "platform": [45, 52, 59, 66, 108, 113], "xavier": [45, 113], "dla_cor": [45, 46, 52, 75, 90, 91, 113], "allow_gpu_fallback": [45, 46, 70, 75, 76, 90, 91, 113], "customclasshold": [45, 48], "min_shap": [45, 48, 63, 65, 70, 75, 76, 89, 99, 102, 107, 109], "opt_shap": [45, 48, 63, 70, 75, 76, 89, 99, 102, 107, 109], "max_shap": [45, 48, 63, 65, 70, 75, 76, 89, 99, 102, 107, 109], "shape": [45, 47, 48, 49, 52, 56, 60, 63, 65, 68, 69, 70, 71, 74, 75, 76, 89, 92, 102, 105, 108, 110, 113], "doubl": [45, 48, 49, 52, 63, 70, 75, 76, 81, 110], "tensor_domain": [45, 48, 75], "input_is_dynam": 45, "ivalu": [45, 47, 49, 53, 58, 60, 88], "input_signatur": [45, 47, 49, 76, 89], "nest": [45, 49, 50, 81, 82], "full": [45, 49, 52, 60, 64, 70, 72, 75, 88, 90, 92, 93, 94, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 108, 110, 113], "spec": [45, 48, 49, 52, 72, 75, 76, 91, 94], "flatten": [45, 47, 69, 87, 88, 105], "fixed_s": [45, 49], "reflect": [45, 75], "builderconfig": 45, "graph_input": [45, 49], "enabled_precis": [45, 49, 63, 64, 70, 74, 75, 76, 88, 89, 90, 91, 92, 93, 94, 96, 97, 98, 99, 100, 101, 103, 104, 105, 108, 113], "disable_tf32": [45, 49, 64, 70, 74, 75, 76, 90, 92, 103, 104], "sparse_weight": [45, 49, 64, 65, 70, 74, 75, 76, 92], "refit": [45, 49, 64, 70, 75, 76, 91, 92, 94, 95, 96, 106], "truncate_long_and_doubl": [45, 49, 63, 64, 76, 100], "allow_shape_tensor": [45, 49, 76], "uint64_t": [45, 49], "num_avg_timing_it": [45, 49, 64, 70, 74, 75, 76, 91, 92], "workspace_s": [45, 49, 52, 64, 70, 74, 75, 76, 92, 97, 99, 101], "dla_sram_s": [45, 49, 52, 64, 70, 74, 75, 76, 92], "1048576": [45, 49, 64, 70, 74, 75, 76, 92], "dla_local_dram_s": [45, 49, 52, 64, 70, 74, 75, 76, 92], "1073741824": [45, 49, 64, 70, 74, 75, 76, 92], "dla_global_dram_s": [45, 49, 52, 64, 70, 74, 75, 76, 92], "536870912": [45, 49, 64, 70, 74, 75, 76, 92], "require_full_compil": [45, 49, 64, 70, 74, 75, 76, 92], "min_block_s": [45, 49, 56, 63, 64, 70, 74, 75, 76, 92, 93, 94, 97, 98, 99, 101, 104, 105], "3": [45, 49, 52, 55, 56, 58, 63, 64, 65, 67, 69, 70, 73, 75, 76, 81, 82, 85, 87, 88, 90, 91, 92, 93, 94, 96, 97, 99, 102, 105, 107, 109, 111, 113], "torch_executed_op": [45, 49, 56, 63, 64, 70, 74, 75, 76, 92, 97, 98, 99, 101], "torch_executed_modul": [45, 49, 56, 70, 75, 76], "member": [46, 47, 48, 49], "hold": [46, 47, 48, 53, 60, 75, 90], "relat": [46, 81, 98, 101], "let": [46, 52, 55, 60, 65, 70, 75, 76, 79, 81, 107, 108, 112], "layer": [46, 49, 52, 53, 55, 60, 62, 64, 65, 70, 74, 75, 76, 88, 90, 92, 105, 107, 108, 109, 112, 113], "thei": [46, 52, 53, 54, 55, 58, 60, 65, 73, 74, 75, 79, 81, 89, 94], "complex": [47, 49, 64, 66, 87, 89, 96], "either": [47, 48, 52, 60, 62, 70, 75, 76, 79, 81, 87, 88, 89, 92, 94, 111], "one": [47, 54, 55, 60, 64, 65, 70, 74, 75, 81, 87, 88, 89, 92, 98, 101, 103, 104, 108], "rang": [48, 49, 52, 65, 75, 92, 93, 94, 99, 107, 109], "optim": [48, 52, 63, 64, 65, 68, 70, 71, 73, 75, 87, 88, 89, 97, 99, 100, 101, 107, 109, 112], "profil": [48, 71, 74], "singl": [48, 52, 55, 56, 65, 75, 81, 87, 88, 90, 110], "repres": [48, 49, 54, 60, 65, 67, 81], "signifi": [48, 55], "static": [48, 49, 53, 60, 63, 64, 70, 75, 76, 79, 88, 105, 109], "three": [48, 57, 59, 65, 71, 75, 81, 82, 107, 108], "min": [48, 52, 60, 69, 75, 94, 99, 109], "optimin": 48, "max": [48, 52, 60, 69, 75, 79, 94, 99, 105, 109], "allow": [48, 49, 52, 53, 54, 55, 56, 62, 64, 65, 66, 70, 75, 76, 79, 92, 94, 97, 99, 101, 110], "argument": [48, 52, 54, 55, 58, 60, 62, 64, 65, 70, 74, 75, 76, 81, 82, 88, 89, 92, 109], "expect": [48, 54, 55, 60, 75, 88, 89, 107], "tradit": [48, 70, 75, 76, 90], "convect": 48, "produc": [48, 53, 54, 58, 60, 63, 75, 81, 88, 107], "low": [48, 65, 96], "high": [48, 55, 56, 79, 92, 112], "weight": [48, 49, 52, 53, 64, 65, 69, 70, 75, 76, 81, 88, 94, 95, 96, 100, 106, 107], "first": [48, 53, 54, 55, 65, 67, 81, 82, 88, 89, 90, 92, 94, 96, 98, 108, 109, 111, 112], "calcul": [48, 53, 56, 88, 92], "detect": [48, 58, 75], "float32": [48, 49, 52, 63, 64, 65, 70, 75, 76, 92, 96, 100, 103, 104, 109], "dynam": [48, 49, 63, 65, 68, 70, 71, 75, 76, 94, 98, 100, 101, 104, 110], "opt": [48, 66, 74, 75, 102], "minimum": [48, 49, 52, 56, 63, 64, 70, 75, 76, 92], "maximum": [48, 49, 52, 64, 65, 70, 71, 75, 76, 99, 101, 108], "accept": [48, 52, 54, 58, 60, 66, 75, 88, 89, 98, 111], "exampl": [48, 56, 58, 59, 60, 65, 66, 68, 70, 72, 74, 75, 76, 77, 79, 80, 82, 85, 87, 88, 89, 90, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 108, 109, 110, 111], "s": [48, 49, 53, 56, 58, 60, 63, 65, 66, 68, 70, 71, 74, 75, 79, 81, 82, 87, 88, 90, 92, 94, 107, 108, 109, 110, 111], "cannot": [48, 55, 56, 65, 66, 70, 74, 75, 76, 80, 87, 92], "through": [48, 53, 54, 55, 56, 58, 64, 65, 70, 72, 73, 81, 88, 89, 92, 96, 97, 107, 112], "altern": [48, 56, 62, 63, 75, 89, 102, 107, 111], "refer": [48, 54, 57, 59, 65, 80, 85, 88, 90, 92, 105, 108, 109, 111], "given": [48, 49, 52, 54, 55, 65, 70, 71, 73, 75, 76, 87, 88, 89, 91, 109], "kernel": [48, 49, 52, 60, 64, 65, 70, 75, 76, 95, 106, 110], "ani": [48, 52, 53, 54, 60, 62, 64, 65, 69, 70, 73, 74, 75, 76, 79, 81, 88, 89, 90, 92, 99, 109], "event": [48, 64, 93, 94], "place": [48, 55, 62, 65, 81, 82, 83, 90, 92, 105], "variabl": [48, 65, 74, 75], "dimens": [48, 55, 65, 71, 75, 99, 107, 109], "domain": [48, 75, 82, 90], "convien": 49, "fix": [49, 65, 81, 92, 110, 113], "describ": [49, 56, 60, 75, 87, 91, 95, 106, 108], "entri": [49, 60, 94], "okai": 49, "ha": [49, 53, 54, 55, 56, 57, 59, 60, 62, 64, 65, 66, 70, 71, 75, 81, 82, 87, 88, 90, 94, 97, 105, 107, 109, 112], "flaten": 49, "precis": [49, 52, 63, 64, 65, 70, 75, 88, 89, 90, 99, 101, 113], "dure": [49, 52, 54, 56, 60, 63, 64, 70, 73, 75, 90, 107, 109, 110], "prevent": [49, 52, 54, 56], "tf32": [49, 52, 64, 70], "comput": [49, 64, 65, 66, 70, 74, 81, 90, 107], "inner": [49, 82, 107], "product": [49, 75], "round": [49, 70, 75, 76, 92], "10": [49, 66, 70, 71, 75, 76, 85, 87, 88, 90, 105, 107, 108, 109], "bit": [49, 60, 65, 66, 70, 75, 76, 88], "mantissa": [49, 70, 75, 76], "befor": [49, 54, 55, 56, 59, 60, 65, 70, 75, 76, 88, 108, 109], "multipli": [49, 70, 75, 76], "accumul": [49, 70, 75, 76], "sum": [49, 65, 69, 70, 75, 76, 92, 105], "23": [49, 55, 70, 75, 76, 82], "behavior": [49, 56, 65, 70, 75, 76, 109, 110, 111], "sparsiti": [49, 52, 65, 70, 75, 76], "conv": [49, 52, 88, 92], "fc": [49, 52, 55], "truncat": [49, 52, 63, 64, 70, 75, 76], "long": [49, 52, 53, 63, 75, 81, 82], "float": [49, 52, 63, 64, 69, 75, 87, 88, 89, 90, 91, 92, 93, 94, 97, 98, 101, 102], "ishap": 49, "restrict": [49, 64, 70, 75, 76, 109], "cuda": [49, 58, 63, 65, 67, 70, 71, 74, 75, 88, 89, 90, 91, 92, 93, 94, 96, 97, 99, 100, 102, 103, 104, 105, 108, 109, 110, 111], "safeti": [49, 52, 75], "averag": [49, 52, 64, 70, 75, 76, 92], "time": [49, 52, 53, 54, 55, 56, 57, 58, 59, 60, 64, 65, 66, 67, 68, 70, 71, 74, 75, 76, 79, 81, 88, 90, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106], "workspac": [49, 52, 64, 65, 66, 70, 71, 75, 76, 92, 98, 99, 101], "fast": [49, 52, 64, 67, 70, 75, 76], "softwar": [49, 52, 64, 70, 75, 76, 81], "manag": [49, 52, 53, 55, 57, 59, 60, 64, 70, 72, 74, 75, 76, 88, 102, 110], "ram": [49, 52, 64, 70, 75, 76], "commun": [49, 52, 64, 70, 75, 76, 88], "within": [49, 52, 57, 59, 64, 70, 74, 75, 76, 79, 81, 95, 106], "host": [49, 52, 64, 66, 70, 75, 76, 92, 108], "share": [49, 52, 64, 66, 70, 74, 75, 76, 94], "across": [49, 52, 55, 56, 64, 70, 75, 76, 79], "metadata": [49, 52, 54, 58, 60, 64, 70, 75, 76, 79, 97, 109], "quantizatiom": 49, "instead": [49, 52, 53, 54, 55, 66, 70, 74, 75, 88, 97, 105, 110], "potenti": [49, 70, 75, 84], "subgraph": [49, 52, 53, 54, 55, 60, 62, 88, 92, 94, 112], "aten": [49, 54, 55, 56, 60, 61, 64, 68, 69, 70, 75, 76, 88, 98, 112], "thrown": [49, 70, 75, 76], "empti": [49, 70, 71, 75, 76, 82, 87, 92], "torch_tensorrtnamespac": 50, "loggingenum": 50, "levelnamespac": 50, "ptqtemplat": 50, "int8cachecalibratortempl": 50, "int8calibratornamespac": 50, "torchscriptstruct": 50, "compilespecstruct": 50, "deviceclass": 50, "devicetypestruct": 50, "graphinputsstruct": 50, "inputclass": 50, "datatypeclass": 50, "tensorformatenum": 50, "cppdirectori": 50, "includedirectori": 50, "torch_tensorrtfil": 50, "hfile": 50, "relationship": 50, "inherit": [50, 65, 70, 90], "subdirectori": 51, "definit": [51, 54, 60, 81], "cli": [52, 89], "It": [52, 54, 55, 56, 57, 59, 60, 65, 66, 68, 75, 79, 81, 92, 107, 110, 112], "serv": [52, 58, 65, 68, 70, 75], "easi": [52, 53, 55, 88, 90], "wai": [52, 64, 65, 66, 87, 88, 90, 92, 94, 95, 97, 106, 107, 110, 111], "command": [52, 64, 66, 81, 82, 87, 88, 108], "line": [52, 66, 82, 88, 96], "quickli": [52, 88, 90], "part": [52, 56, 59, 65, 74, 79, 80, 81, 92, 94], "deploy": [52, 74, 88, 89, 90, 107, 108, 110, 113], "pipelin": [52, 88, 96, 100, 113], "basic": [52, 56, 65, 82, 106, 108], "featur": [52, 56, 65, 66, 88, 90, 91, 100, 105, 107, 112], "though": [52, 59, 60, 87, 88, 112], "alreadi": [52, 53, 54, 55, 88, 90, 92, 109], "two": [52, 55, 60, 62, 64, 65, 66, 75, 81, 82, 86, 87, 89, 90, 94, 108, 109], "embed": [52, 54, 58, 69, 76, 81, 113], "plan": [52, 59, 63, 64, 70], "after": [52, 53, 55, 56, 62, 65, 70, 74, 75, 87, 88, 89, 98, 101, 108, 110], "link": [52, 53, 62, 68, 79, 80, 85, 88, 92, 110], "against": [52, 88], "libtorchtrt": [52, 66, 88], "python": [52, 56, 59, 62, 64, 65, 70, 71, 74, 75, 76, 81, 82, 88, 91, 92, 93, 94, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 110, 113], "import": [52, 55, 56, 63, 64, 65, 66, 67, 74, 79, 81, 87, 88, 89, 91, 92, 93, 94, 96, 108, 109, 110, 111], "packag": [52, 55, 64, 88], "aspect": 52, "ident": [52, 62, 70, 75, 97], "standard": [52, 58, 66, 68, 70, 74, 75, 76, 81, 91, 92, 96, 107, 110], "load": [52, 56, 58, 64, 65, 67, 70, 73, 74, 75, 76, 88, 89, 90, 91, 92, 93, 94, 96, 97, 107, 108, 110, 112], "like": [52, 53, 55, 58, 60, 65, 66, 67, 75, 80, 81, 87, 88, 89, 90, 92, 94, 96, 97, 108, 110], "would": [52, 54, 60, 64, 65, 66, 74, 88, 89, 91, 92, 108, 110], "input_file_path": [52, 113], "output_file_path": [52, 113], "input_spec": [52, 65, 71], "displai": [52, 62, 64, 72, 79, 110], "menu": [52, 79, 81], "verbios": 52, "v": [52, 82, 105, 108], "verbos": [52, 64, 65, 70, 71, 82, 99, 101], "about": [52, 53, 58, 60, 66, 74, 79, 88, 108, 109], "process": [52, 56, 64, 75, 80, 81, 87, 90, 91, 97, 98, 102, 107, 108, 110], "onto": [52, 58], "consol": 52, "w": [52, 66, 75], "disabl": [52, 64, 66, 70, 74, 79, 80, 94, 110], "i": [52, 55, 60, 66, 67, 69, 81, 82, 87, 88, 90, 92, 93, 94, 105], "debugg": [52, 70, 75, 76], "fallback": [52, 57, 59, 60, 97, 113], "model": [52, 56, 58, 63, 67, 68, 70, 71, 72, 73, 75, 87, 88, 89, 90, 91, 93, 94, 95, 96, 106, 109, 110, 112], "throw": [52, 55, 75, 88], "spars": [52, 54, 64, 69, 70], "p": [52, 69, 88, 108, 113], "repeat": [52, 69], "f32": [52, 70, 74, 75, 92], "half": [52, 64, 75, 81, 88, 89, 90, 91, 92, 98, 99, 108, 113], "float16": [52, 75, 92, 96, 100], "f16": [52, 75, 88, 113], "i8": [52, 75], "d": [52, 75, 81, 82, 88, 113], "multi": [52, 74], "dlacor": 52, "avail": [52, 54, 60, 62, 64, 65, 66, 70, 74, 75, 79, 92, 112, 113], "dla_standalon": [52, 75], "file_path": [52, 75, 111], "teo": 52, "op_nam": 52, "op": [52, 53, 54, 55, 56, 57, 59, 60, 62, 63, 64, 74, 75, 88, 98, 110, 112], "partial": [52, 81], "tem": 52, "module_nam": 52, "mod": [52, 56, 65, 70, 85, 88, 90], "mb": [52, 77], "num_op": 52, "block": [52, 53, 55, 56, 64, 70, 85, 112], "treat": 52, "num": 52, "avg": 52, "num_it": 52, "sram": 52, "local": [52, 55, 66, 79, 88], "dram": 52, "atol": 52, "absolut": [52, 66], "toler": 52, "threshold": 52, "numer": [52, 65, 82], "deviat": 52, "1e": [52, 96, 97], "rtol": 52, "rel": [52, 56], "skip": 52, "complianc": 52, "64bit": 52, "32bit": 52, "custom": [52, 62, 63, 65, 66, 95, 103, 104, 106], "dll": 52, "n": [52, 60, 62, 75, 88, 90, 92, 93], "min_n": 52, "min_c": 52, "min_h": 52, "min_w": 52, "opt_n": 52, "opt_c": 52, "opt_h": 52, "opt_w": 52, "max_n": 52, "max_c": 52, "max_h": 52, "max_w": 52, "32": [52, 75, 87, 88, 89, 90, 103, 104, 105, 113], "flag": [52, 56, 57, 59, 66, 73, 75, 89, 102, 110, 111], "forc": [52, 63, 65, 70, 75, 76, 79], "posit": [52, 54, 65, 75, 79], "test": [52, 56, 59, 65, 66, 70, 75, 81, 82, 90, 105, 107, 108], "ssd_trace": 52, "pt": [52, 65, 88, 103, 104, 108], "ssd_trt": 52, "300": [52, 91], "512": [52, 70, 75, 76, 105, 107], "1024": [52, 70, 75, 76, 103, 107], "simplifi": [53, 92], "form": [53, 74, 75, 81, 89, 108], "up": [53, 55, 56, 57, 58, 59, 62, 65, 66, 70, 75, 81, 87, 92, 94, 95, 97, 98, 101, 106, 107], "context": [53, 57, 58, 59, 64, 72, 74, 102, 110], "inetworkdefinit": [53, 54], "record": [53, 87, 93, 94, 102, 110], "togeth": [53, 60, 88], "start": [53, 56, 65, 69, 73, 75, 82, 88, 91, 92, 93, 94, 107], "look": [53, 54, 55, 67, 70, 75, 87, 90, 91, 94, 108, 109], "assembl": [53, 62, 88], "resourc": [53, 90, 92], "coupl": [53, 59, 65, 110], "state": [53, 54, 60, 62, 74, 88, 96], "been": [53, 60, 64, 66, 73, 82, 88, 94, 97, 112], "evaluated_value_map": [53, 60], "stage": [53, 65], "arg": [53, 54, 62, 65, 70, 73, 74, 75, 85, 88, 92, 94, 105, 107], "itensor": [53, 54, 60, 65, 88, 92], "value_tensor_map": [53, 60], "typic": [53, 60, 75, 108], "abl": [53, 55, 60, 62, 65, 90, 91, 92, 97], "system": [53, 60, 62, 64, 68, 70, 74, 75, 76, 92, 94, 97, 112], "registri": [53, 54, 88, 92], "enter": [53, 75], "recurs": 53, "resolv": [53, 55, 57, 59, 98, 101], "until": [53, 56, 59, 60, 66, 70, 75, 112], "final": [53, 56, 57, 59, 66, 92, 98, 101, 107], "some": [53, 54, 55, 56, 57, 58, 59, 60, 62, 63, 65, 66, 75, 80, 81, 88, 90, 92, 94, 109, 112], "These": [53, 54, 56, 58, 62, 64, 66, 70, 73, 74, 75, 79, 81, 90, 108, 112], "those": [53, 54, 62, 64, 81], "do": [53, 54, 55, 56, 60, 63, 65, 80, 82, 87, 88, 89, 90, 92, 113], "theori": [53, 81], "kind": [53, 65], "common": [53, 55, 65, 71, 81, 94], "prim": [53, 55, 56, 58, 69, 87, 88], "constant": [53, 54, 55, 56, 88, 92], "emit": 53, "listconstruct": [53, 56, 58, 88], "make": [53, 54, 65, 66, 70, 75, 81, 83, 88, 89, 90, 92, 94, 95, 106, 107, 108, 113], "associ": [53, 60, 88, 94, 110], "where": [53, 54, 55, 60, 62, 64, 65, 70, 74, 75, 76, 82, 88, 90, 97], "result": [53, 55, 56, 66, 67, 70, 72, 74, 75, 76, 79, 87, 89, 92, 96, 97, 108, 112], "done": [53, 56, 59, 92, 97, 108, 111], "mai": [53, 54, 56, 58, 59, 65, 66, 70, 74, 75, 76, 81, 82, 87, 88, 89, 90, 92, 97, 98, 101, 108, 110], "For": [53, 56, 62, 63, 64, 65, 66, 67, 71, 75, 79, 81, 82, 87, 88, 90, 91, 92, 96, 98, 105, 107, 108, 110, 111], "more": [53, 64, 65, 66, 68, 70, 75, 79, 82, 87, 88, 89, 90, 91, 92, 94, 96, 99, 101, 108, 110], "writing_convert": [53, 88], "locat": [54, 62, 66, 90, 92], "py": [54, 55, 59, 62, 65, 66, 77, 79, 81, 86, 87, 88, 90, 92, 93, 94, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 109], "convers": [54, 55, 56, 58, 63, 64, 65, 70, 75, 76, 88, 92, 109], "decror": 54, "dynamo_tensorrt_convert": [54, 92], "signatur": [54, 76], "leaky_relu": [54, 69], "def": [54, 62, 65, 81, 87, 89, 92, 93, 94, 98, 105, 108, 109], "leaky_relu_convert": 54, "ctx": [54, 60, 88, 92], "conversionctx": [54, 60, 88], "tupl": [54, 58, 63, 65, 70, 71, 74, 75, 76, 89, 92, 94, 97, 109], "kwarg": [54, 65, 70, 73, 74, 75, 92, 107], "dict": [54, 70, 74, 75, 76, 92, 94], "union": [54, 60, 64, 70, 74, 75, 76, 88], "sequenc": [54, 62, 65, 70, 71, 74, 75, 76, 81, 92, 107], "decor": [54, 62, 65], "kei": [54, 81, 87, 94, 108, 109], "node": [54, 55, 56, 57, 59, 60, 62, 65, 71, 88, 92, 105, 107, 109], "capability_valid": 54, "lambda": [54, 60, 81, 88, 108], "fx": [54, 62, 63, 70, 74, 75, 88, 89, 92, 97, 111], "determin": [54, 55, 64, 65, 75, 109, 110], "properli": [54, 66], "handl": [54, 55, 56, 58, 64, 65, 74, 75, 92], "partition": [54, 70, 75, 92], "sure": [54, 66, 88, 89, 108, 113], "prioriti": 54, "develop": [54, 65, 66, 68, 81, 82, 88, 92], "bodi": [54, 81, 82], "nativ": [54, 59, 61, 88, 92, 97], "numpi": [54, 75, 92, 93, 94, 96, 97, 108], "frozen": 54, "attribut": [54, 55, 56, 58, 65, 75, 81, 88], "previou": [54, 79, 98], "correspond": [54, 60, 65, 66, 74, 75, 94, 96, 105, 110], "edg": [54, 81], "well": [54, 63, 66, 68, 72, 74, 81, 88, 90, 94, 102, 111], "being": [54, 65, 66, 70, 88, 92, 97], "truth": 54, "http": [54, 61, 64, 66, 79, 81, 87, 88, 90, 92, 96, 98, 101, 105, 107, 108, 109, 110], "github": [54, 61, 64, 66, 79, 88, 90, 98, 101, 105, 108, 110], "com": [54, 61, 64, 66, 88, 90, 96, 98, 101, 105, 108, 110], "blob": [54, 61, 66, 79, 90, 94], "main": [54, 55, 56, 57, 58, 59, 60, 63, 65, 66, 79, 81, 83, 88, 92, 105], "src": [54, 58, 61, 69], "native_funct": [54, 61], "yaml": [54, 61], "sinc": [54, 55, 64, 65, 74, 81, 87, 88, 90, 93, 94, 97], "mani": [54, 56, 64, 65, 79, 81, 82, 94, 97, 112], "composit": [54, 88], "raw": [54, 79], "impl": 54, "subpackag": 54, "chain": [54, 60], "primarili": [54, 59, 66, 88], "manipul": [54, 62, 75], "net": [54, 60, 81, 82, 88, 92], "addit": [54, 55, 64, 65, 74, 75, 88, 92, 94, 97, 107, 109], "call_modul": 54, "call_funct": [54, 62, 65], "eg": [54, 108], "aten_": 54, "_leaky_relu": 54, "opoverloadpacket": 54, "while": [54, 56, 66, 74, 90, 96, 107, 108, 110, 112], "opoverload": 54, "particular": [54, 64, 94], "collect": [54, 56, 64, 70, 75, 76, 88, 89, 105], "trtinterpret": [54, 65, 71], "along": [54, 75], "match": [54, 55, 97], "special": [54, 56], "account": [54, 108], "illustr": [54, 65, 99, 107], "scale_grad_by_freq": [54, 69], "embedding_param_valid": 54, "establish": 54, "subset": [54, 64, 70, 75, 90, 107], "converter_util": [54, 92], "enforce_tensor_typ": 54, "dictionari": [54, 75, 76, 91, 98], "between": [54, 55, 56, 60, 66, 75, 81, 82, 90, 94, 96], "possibl": [54, 66, 81, 92, 94, 107, 108], "prefer": [54, 64, 66, 88], "keyword": [54, 62, 70, 74, 75, 76, 98, 101], "both": [54, 56, 64, 66, 68, 70, 71, 74, 75, 79, 81, 87, 90, 92, 94], "enforc": [54, 88], "situat": 54, "partit": [54, 55, 63, 64, 70, 75, 112], "greater": [54, 70, 72, 75], "than": [54, 55, 64, 66, 70, 75, 80, 81, 93, 94, 96, 107, 110], "3d": [54, 65], "autocast": 54, "therebi": [54, 58, 92, 107], "limit": [54, 55, 72, 80, 90, 94, 112], "author": [54, 82], "conv_nod": 54, "7": [54, 56, 58, 59, 74, 75, 85, 88, 92, 98, 99, 101, 105, 109], "ignor": [54, 70, 74, 75, 92], "misc": [54, 92], "trttensor": 54, "np": [54, 92, 93, 94, 96, 97, 108], "ndarrai": [54, 92], "aten_ops_convolut": 54, "conversioncontext": [54, 92], "side": [54, 55, 79, 88], "effect": [54, 55, 64, 65, 70, 79, 88, 90, 92, 107], "term": [54, 75, 81, 82, 90, 92, 107], "getitem": 54, "categor": 54, "modif": [54, 62, 75], "op_evalu": 54, "capbility_valid": 54, "opcod": 54, "decompos": 54, "suboper": 54, "separ": [54, 56, 57, 59, 66], "Such": 54, "via": [54, 64, 65, 68, 70, 74, 75, 76, 79, 85, 89, 90, 98, 99, 101, 107, 109, 110, 111, 112], "register_torch_trt_decomposit": 54, "addmm_replac": 54, "replac": [54, 56, 62, 66, 73, 92, 105, 112], "input_": 54, "mat1": 54, "mat2": [54, 69], "beta": [54, 65, 69, 76], "alpha": [54, 65, 69, 82], "mul": [54, 56, 69], "matmul": [54, 55, 69, 88, 109], "modifi": [54, 56, 62, 65, 82, 95, 96, 106, 109], "edit": [54, 66, 79], "torch_enabled_decomposit": 54, "torch_disabled_decomposit": 54, "disjoint": 54, "preced": [54, 81], "over": [54, 57, 59, 65, 81, 105, 108, 112], "much": [54, 60, 79, 81, 90], "significantli": [54, 55, 79, 94], "easier": [54, 57, 59, 60, 65, 70, 74, 75, 88, 90, 92, 96], "tri": 54, "made": [55, 57, 59, 75, 81], "represent": [55, 60, 65, 87, 107, 112], "instanc": [55, 62, 64, 66, 70, 73, 74, 87, 88, 107, 110], "idea": [55, 81], "reduc": [55, 56, 57, 59, 65, 70, 75, 90, 92, 94, 107, 110], "actual": [55, 58, 60, 65, 87, 88, 92], "aim": [55, 112], "closer": 55, "scope": [55, 92, 98, 101], "csrc": [55, 61], "common_subexpression_elimin": 55, "subexpress": 55, "dead_code_elimin": 55, "exception_elimin": 55, "wa": [55, 58, 62, 64, 65, 70, 74, 75, 81, 88, 112], "1013": 55, "ne": [55, 69], "1012": 55, "24": 55, "lib": [55, 66, 88], "python3": [55, 66, 88], "6": [55, 56, 58, 66, 69, 85, 87, 88, 92], "site": [55, 66, 81, 88], "nn": [55, 61, 65, 70, 71, 74, 75, 76, 87, 88, 89, 92, 98, 105, 109, 112], "batchnorm": 55, "248": 55, "11": [55, 66, 81, 85, 88, 108], "block0": 55, "raiseexcept": 55, "249": 55, "12": [55, 56, 81, 85, 87, 88, 99, 108, 109], "block1": 55, "guard_elimin": 55, "whose": [55, 65, 99], "freeze_modul": 55, "propag": 55, "fuse_addmm_branch": 55, "variant": [55, 110], "caught": 55, "ret": 55, "622": 55, "self": [55, 58, 60, 69, 74, 75, 87, 88, 89, 92, 94, 98, 105, 107, 109, 113], "bia": [55, 69, 88, 105], "x9": 55, "3677": 55, "output0": 55, "add_": [55, 69, 88], "fuse_linear": 55, "back": [55, 56, 58, 59, 74, 75, 81, 87, 88, 92, 112], "fuse_flatten_linear": 55, "implicitli": [55, 75], "connect": [55, 70, 75, 76, 81, 96, 108, 113], "higher": [55, 64, 70, 75, 79, 81, 87], "1d": 55, "lower_graph": 55, "access": [55, 60, 65, 79, 88, 91, 112], "rather": 55, "getattr": [55, 58, 87, 88], "trainabl": 55, "remain": [55, 75, 90, 112], "lower_tupl": 55, "lowersimpletupl": 55, "tupleconstruct": [55, 58], "tupleunpack": 55, "leav": [55, 62, 64, 70], "statement": [55, 81], "loweralltupl": 55, "_all_": 55, "rais": [55, 65, 75], "onnx": 55, "module_fallback": 55, "consist": [55, 65, 81, 92, 110, 112], "pair": [55, 60, 66, 81, 90, 107], "delimit": 55, "around": [55, 58, 60, 66, 74, 81, 84, 87, 92], "second": [55, 65, 81, 89, 92, 93, 94, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105], "mark": [55, 56, 79, 94], "notatemoduleforfallback": 55, "marknodesforfallback": 55, "tell": [55, 56, 57, 58, 59, 60, 81, 112], "them": [55, 56, 58, 63, 64, 65, 66, 70, 74, 79, 88, 92, 94, 107, 109, 112], "peephole_optimz": 55, "intent": [55, 81], "catch": [55, 75, 88], "small": [55, 92, 93, 108], "might": [55, 66, 79, 97, 109], "interest": [55, 81], "now": [55, 56, 59, 60, 65, 66, 75, 81, 88, 91, 92, 94, 97, 110], "expand": [55, 69], "simpli": [55, 98, 107], "remove_contigu": 55, "remove_dropout": 55, "infer": [55, 64, 65, 70, 75, 76, 88, 90, 95, 97, 98, 106, 107, 109, 110, 111, 112], "remove_to": 55, "unpack_addmm": 55, "reus": [55, 65, 90, 94], "dedic": [55, 82], "unpack_log_softmax": 55, "softmax": [55, 65, 69, 105], "loop_unrol": 55, "suffici": [55, 66, 75], "short": [55, 64, 70, 81, 82, 97], "tile_to_repeat": 55, "instruct": [56, 57, 59, 65, 66, 88, 108], "criteria": [56, 57, 59, 64], "lack": [56, 57, 59, 65, 92], "explicitli": [56, 57, 59, 66, 76, 89, 90, 91], "On": 56, "segment": [56, 63, 92, 99, 101, 107], "verifi": [56, 70, 92, 97], "Then": [56, 90, 91, 97], "roughli": 56, "analysi": 56, "everi": [56, 71, 74, 75, 88, 110], "complet": [56, 63, 70, 75, 87, 88], "mean": [56, 60, 65, 69, 71, 98, 108, 112], "trace": [56, 65, 70, 74, 76, 87, 88, 109, 111, 112], "tensorlist": [56, 60], "figur": [56, 82, 84], "our": [56, 59, 63, 87, 88, 108], "stitch": [56, 88], "altogeth": [56, 79], "brief": 56, "descript": [56, 82, 105], "partitioninfo": 56, "api": [56, 59, 60, 62, 63, 64, 65, 74, 75, 76, 80, 88, 89, 90, 91, 92, 95, 98, 99, 102, 106, 107, 108, 109, 110, 111], "maintain": [56, 58, 60, 75, 96, 112], "code": [56, 59, 62, 64, 65, 66, 80, 82, 87, 88, 90, 92, 93, 94, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 109], "mymodel": [56, 63, 67, 89, 92, 109, 111], "ts_model": [56, 88], "trt_model": [56, 91, 92, 99, 103, 104, 105, 108, 111], "off": [56, 58, 102], "consecut": [56, 63], "satisfi": [56, 62, 65], "forced_fallback_op": 56, "randn": [56, 63, 67, 70, 75, 76, 88, 91, 94, 99, 102, 109, 111], "224": [56, 63, 67, 70, 71, 75, 76, 88, 94, 96, 97, 99, 102, 107, 108, 109, 111], "trt_ts_modul": [56, 89], "input_s": 56, "inputrang": 56, "cfg": [56, 88], "relu": [56, 69, 87, 88, 98, 105], "trt_mod": [56, 67, 88, 90, 113], "consid": [56, 76, 88, 92], "segmentmodelwithdependencyawar": 56, "test_segment": 56, "20": [56, 85, 97, 99, 101], "x_lgamma": 56, "lgamma": 56, "y_lgamma": 56, "div": [56, 69], "div_lgamma": 56, "27": [56, 88], "cat": [56, 66, 69, 105], "greedi": [56, 103, 104], "strategi": [56, 75], "travers": [56, 57, 59, 64], "gather": 56, "same": [56, 58, 62, 64, 65, 66, 70, 75, 79, 81, 87, 88, 91, 92, 94, 97, 99, 101, 108, 109, 110, 111], "encount": [56, 64, 66, 98, 101], "4": [56, 58, 63, 64, 65, 66, 69, 75, 77, 79, 81, 82, 85, 88, 92, 98, 100, 101, 102, 105, 109], "suboptim": 56, "arithmet": 56, "split": [56, 65, 69], "own": [56, 60, 64, 66, 70, 81, 88, 94, 105, 108], "could": [56, 64, 65, 92, 99, 101, 110], "rewrit": [56, 62], "portion": [56, 81, 92, 100], "without": [56, 60, 67, 70, 79, 81, 88, 90, 92, 93, 94, 97, 110], "reorder": 56, "seri": 56, "cleanli": 56, "approach": [56, 94], "achiev": [56, 107], "hit": 56, "larger": [56, 70, 75, 79, 107], "boundari": [56, 73, 75], "guarante": [56, 74], "trigger": [56, 64, 65, 75, 88, 94, 96, 97, 112], "appear": [56, 81], "adjac": [56, 70, 75, 81], "As": [56, 65, 66, 75, 88, 92, 94, 97, 112], "clean": [56, 62, 81, 98, 101], "step": [56, 65, 69, 75, 90, 92, 97, 107], "consolid": [56, 87], "further": [56, 64, 65, 110, 112], "merg": 56, "identifi": 56, "do_not_merg": 56, "combin": [56, 64, 65], "condit": [56, 81, 112], "loop": [56, 64, 65, 103, 104], "ir": [57, 59, 60, 63, 64, 67, 70, 75, 87, 88, 89, 95, 98, 99, 101, 102, 106, 109], "larg": [57, 59, 79, 81, 88, 90, 97, 107], "opset": [57, 59], "compon": [57, 59, 66, 73, 87, 110, 112], "evalu": [57, 58, 59, 105], "deploi": [57, 59, 68, 88, 90, 95, 106, 108], "instanti": [57, 58, 59, 60, 88, 100], "wrap": [57, 58, 59, 65, 81, 84, 88, 91, 98, 101], "extend": [57, 59, 60, 69, 88, 94, 107], "providi": [57, 59], "stand": [58, 81], "interpret": [58, 65, 81], "execute_engin": [58, 74, 88], "stack": [58, 69, 90, 105, 112], "machin": [58, 66, 90, 108], "pop": 58, "push": 58, "element": [58, 65, 81, 82, 85], "realiz": 58, "abstract": [58, 60, 82], "__torch__": [58, 87, 88], "portabl": [58, 66, 76], "serializ": [58, 64, 87, 112], "instnanti": 58, "whatev": [58, 65, 92], "self_1": [58, 88], "torchvis": [58, 90, 91, 94, 96, 97, 99, 102, 105, 108], "resnet": [58, 77, 95, 96, 106, 107, 108], "___torch_mangle_4847": 58, "resnet_trt": 58, "input_0": [58, 88], "__torch___torchvision_models_resnet____torch_mangle_4847_resnet_trt_engin": 58, "listunpack": [58, 88], "multipl": [58, 66, 70, 74, 75, 81, 82, 90, 108, 110], "repack": 58, "ssd": 58, "ssd300_trt": 58, "__torch___pytorch_detection_ssd_src_model_ssd300_trt_engin": 58, "holder": [58, 83], "torchbind": 58, "pickler": 58, "seril": 58, "zip": [58, 66, 96, 97, 106], "depickl": 58, "encod": [58, 107], "sm": 58, "correct": [58, 66, 79, 96, 97, 105], "bazel": [59, 66], "linux": [59, 88], "x86_64": [59, 66], "aarch64": 59, "gcc": [59, 88], "untest": 59, "try": [59, 75, 81, 82, 88, 91, 92, 94, 112], "older": 59, "repositori": [59, 66, 79, 86, 108], "notebook": [59, 68, 92, 93, 94, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106], "doc": [59, 61, 66, 79, 80, 81, 86, 92, 109], "docsrc": 59, "third_parti": [59, 66], "toolchain": [59, 66], "unstabl": 59, "subject": [59, 62, 112], "matur": 59, "most": [59, 65, 66, 71, 92, 97, 108, 110, 112], "hood": [59, 99, 112], "major": [59, 65, 75], "top": [59, 79, 83], "coordin": [59, 75], "ingest": 59, "flow": [60, 65, 81, 87, 107], "ilay": 60, "analogu": 60, "goal": [60, 64, 94], "registernodeconversionpattern": [60, 88], "helper": 60, "pattern": [60, 75, 88], "schema": [60, 88, 92], "caus": [60, 64, 79, 98, 99, 101, 110], "acthardtanh": 60, "torchtrt_unus": 60, "hardtanh": [60, 69], "scalar": [60, 69], "min_val": [60, 69], "max_val": [60, 69], "unwraptodoubl": 60, "new_lay": 60, "addactiv": 60, "activationtyp": [60, 65], "kclip": 60, "torchtrt_check": 60, "unabl": [60, 88, 92], "setalpha": 60, "setbeta": 60, "setnam": [60, 88], "util": [60, 62, 73, 76, 88, 90, 95, 98, 101, 103, 104, 105, 106, 107, 108, 112], "node_info": [60, 88], "c_str": [60, 88], "out_tensor": [60, 88], "associatevalueandtensor": [60, 88], "getoutput": [60, 88], "log_debug": 60, "getdimens": [60, 88], "accord": [60, 64, 76], "unwrap": 60, "tool": [60, 64, 65, 66, 88, 94, 107], "don": [60, 65, 79, 81, 82, 90, 105, 108, 109], "annot": [60, 88], "your": [60, 63, 64, 66, 67, 74, 79, 81, 82, 86, 87, 88, 89, 91, 94, 109, 110], "Its": [60, 81], "track": [60, 90], "sort": [60, 69, 91], "live": [60, 81], "directli": [60, 62, 63, 66, 68, 73, 75, 90, 92, 95, 98, 106, 111], "associatevalueandivalu": 60, "inspect": [60, 87, 88], "dataflow": [60, 88], "mechan": [60, 64, 65, 92, 97, 107], "safe": [60, 64, 70, 74, 75, 76], "unsur": 60, "deep": [60, 64, 68, 79, 90, 92, 113], "straight": 60, "chanc": 60, "none": [60, 64, 65, 69, 70, 71, 73, 74, 75, 76, 79, 81, 92, 94, 98, 105], "wrapper": [60, 65, 111], "similar": [60, 63, 64, 65, 66, 88, 91, 92, 103, 104], "tocustomclass": 60, "tensorcontain": 60, "istensor": 60, "iscustomclass": 60, "lot": [60, 63], "singular": 60, "becaus": [60, 65, 66, 71, 87, 88, 92, 93, 94], "alloc": 60, "freed": 60, "destructor": 60, "destroi": [60, 82], "realli": 60, "think": [60, 81], "becom": [60, 66, 96], "benefit": [60, 88, 94], "deal": [60, 94], "quit": [60, 66, 88, 107], "effici": 60, "batch_norm": [60, 69], "fusion": [60, 62, 65], "deeplearn": [61, 65], "sdk": [61, 112], "matrix": 61, "html": [61, 66, 81, 87, 90, 92, 109], "c_api": 61, "python_api": 61, "org": [61, 66, 79, 81, 87, 88, 90, 92, 109, 110], "stabl": [61, 76, 77, 79, 95, 106, 109], "master": [61, 66, 90, 110], "overview": [61, 68, 98, 102], "md": 61, "appli": [62, 63, 90, 97], "desir": [62, 70, 82, 90, 94], "coalesc": 62, "insert": [62, 88, 90, 94, 97], "graphmodul": [62, 63, 70, 71, 75, 88, 89, 92, 97, 111, 112], "caller": 62, "invok": [62, 64, 65, 87, 88, 110], "lint": 62, "recompil": [62, 70, 75, 94, 97, 101, 109, 112], "repair": 62, "disallow": 62, "repair_input_as_output": 62, "gm": [62, 70], "sample_input": [62, 65, 98], "scenario": [62, 64, 96], "clone": [62, 66, 69, 92], "modified_graph": 62, "extract": [62, 88, 107], "placehold": 62, "isinst": [62, 65, 92, 105], "issubclass": 62, "direct": [62, 85, 97, 110], "len": [62, 69, 92], "direct_output": 62, "inserting_aft": 62, "cloned_placehold": 62, "replace_input_with": 62, "date": [62, 82, 112], "eliminate_dead_cod": 62, "logger": [62, 72], "f": [62, 64, 65, 75, 81, 87, 92, 105], "__init__": [62, 74, 75, 81, 87, 92, 94, 98, 105, 109], "pass_manag": 62, "passmanag": 62, "backend": [62, 67, 76, 77, 80, 91, 93, 94, 95, 98, 100, 101, 105, 106, 109], "offer": [62, 64], "registr": [62, 65], "conveni": [62, 90, 101, 107, 110, 112], "control": [62, 65, 87, 97, 110], "_aten_lowering_pass": 62, "my_custom_pass": 62, "front": [62, 70], "passlist": 62, "arbitrari": [62, 74], "remov": [62, 63, 70, 79, 93, 94, 105], "dump_lowering_pass": 62, "apply_lowering_pass": 62, "graph_modul": [62, 70], "_remove_lowering_pass": 62, "evolv": 62, "introduc": [63, 65, 107], "exportedprogram": [63, 67, 70, 75, 97, 103, 104, 109, 112], "dynamo": [63, 64, 66, 67, 73, 74, 75, 77, 88, 92, 93, 94, 97, 98, 99, 101, 102, 105, 109], "frontend": [63, 70, 73, 89, 92, 95, 99, 101, 105, 106, 109], "simpl": [63, 64, 65, 81, 82, 87, 107, 108, 109], "usag": [63, 65, 73, 77, 81, 88, 95, 106, 109, 111], "eval": [63, 67, 88, 89, 93, 94, 96, 97, 98, 99, 101, 102, 103, 104, 105, 108, 109, 111], "exp_program": [63, 94, 97, 105, 109], "trt_gm": [63, 67, 94, 97, 109, 111], "interact": [63, 81, 96, 98, 99, 100, 101, 102, 103, 104], "ideal": 63, "discuss": [63, 64, 108], "section": [63, 65, 79, 81, 82, 83, 85, 88, 90, 108, 111], "frequent": 63, "builder": [63, 64, 65, 70], "respect": [63, 66, 75], "releas": [63, 64, 81, 95, 106], "insid": [63, 81, 92, 95, 106, 108], "decomposit": [63, 64, 70, 75, 92], "downstream": [63, 107], "constraint": 63, "guid": [64, 80, 106], "present": [64, 97], "learn": [64, 66, 68, 88, 90, 92, 108, 113], "acceler": [64, 71, 75, 95, 106, 110, 112, 113], "workflow": [64, 65, 67, 68, 70, 71, 75, 88, 91, 94, 96, 99, 100, 101, 103, 104, 107], "wide": [64, 75, 85], "varieti": [64, 108], "primari": [64, 94, 111], "simplic": 64, "optimized_model": [64, 67, 93, 98, 99, 101], "depth": [64, 79, 107], "challeng": [64, 96, 108], "addition": [64, 92], "fit": [64, 81], "compilationset": [64, 70, 74, 92, 98], "_enum": [64, 70], "callabl": [64, 70, 75], "pass_through_build_failur": [64, 70, 74, 75, 92], "max_aux_stream": [64, 70, 74, 75, 92], "version_compat": [64, 70, 74, 75, 92], "optimization_level": [64, 70, 74, 75, 92, 98], "use_python_runtim": [64, 70, 74, 75, 92, 93, 94, 96, 97, 98], "truncate_doubl": [64, 70, 74, 75, 92, 93, 103, 104], "use_fast_partition": [64, 70, 74, 75, 92], "enable_experimental_decomposit": [64, 70, 74, 75, 92], "_devic": [64, 70], "assume_dynamic_shape_support": [64, 70, 74, 75], "make_refit": [64, 70, 74, 75, 93, 94, 96, 97], "engine_cap": [64, 70, 74, 75, 92], "dryrun": [64, 70, 74, 75, 92], "hardware_compat": [64, 70, 74, 75, 92], "timing_cache_path": [64, 70, 74, 75, 94], "tmp": [64, 70, 74, 75, 88, 93], "torch_tensorrt_engine_cach": [64, 70, 74, 75], "timing_cach": [64, 65, 70, 74, 75], "bin": [64, 66, 70, 74, 75], "lazy_engine_init": [64, 70, 74, 75], "cache_built_engin": [64, 70, 74, 93, 94], "reuse_cached_engin": [64, 70, 74, 93, 94], "dpython": [64, 70, 75, 76], "per": [64, 70, 92, 110], "regardless": [64, 70, 82, 99, 101], "fail": [64, 70, 75, 88, 96, 97, 105, 113], "auxiliari": [64, 70], "stream": [64, 70, 75, 92], "impli": [64, 70], "longer": [64, 66, 70, 75, 79, 110], "search": [64, 68, 70, 75, 79], "strictli": [64, 70], "runtim": [64, 66, 67, 68, 70, 75, 88, 96, 98, 101, 102, 112], "presenc": [64, 70], "preferenti": [64, 70], "choos": [64, 65, 70, 87], "float64": [64, 70, 75, 76], "refitt": [64, 70], "toggl": [64, 70, 75], "mode": [64, 65, 70, 74, 75, 89, 90, 102, 105], "detail": [64, 65, 70, 87, 88, 92, 94, 108, 110], "natur": [64, 70, 81], "architectur": [64, 66, 68, 70, 75, 94, 107], "amper": [64, 70, 75], "newer": [64, 66, 70, 75], "storag": [64, 70, 90], "sub": [64, 69, 81, 87, 98], "slate": 64, "futur": [64, 65, 70, 75, 76, 110], "occur": 64, "first_output": 64, "subsequ": [64, 94], "second_output": 64, "session": [64, 67, 81, 94, 102], "point": [64, 66, 75, 79, 80, 81, 88, 105, 108], "cover": [64, 106, 107], "benchmark": [64, 69], "automat": [64, 75, 81, 88, 97, 109, 112], "vari": [64, 71, 109], "distribut": [64, 88, 90, 110], "inf": 64, "dynamo_convers": 64, "contribut": 64, "demonstr": [64, 81, 82, 83, 90, 92, 94, 95, 96, 105, 106, 107, 108], "break": [64, 65, 70, 74, 75, 81, 92], "successfulli": [64, 96, 97], "_dynamo": [64, 93, 94, 98, 99, 101, 109], "explain": [64, 65, 68], "veri": [64, 65, 82, 83, 90, 91, 103, 104, 108], "explan": [64, 65], "graph_break_count": 64, "furthermor": 64, "durat": [64, 81], "latter": [64, 74], "logic": [64, 65], "guard": 64, "compos": [65, 87, 90, 105, 108], "variou": [65, 113], "etc": [65, 79, 81, 92, 113], "environ": [65, 67, 108], "research": 65, "few": [65, 66, 75], "nightli": 65, "lower_exampl": 65, "welcom": [65, 88], "finish": 65, "converison": 65, "pleas": [65, 75, 81, 88, 105, 108, 109], "max_batch_s": [65, 71, 108], "2048": [65, 71], "max_workspace_s": [65, 71], "33554432": [65, 71], "explicit_batch_dimens": [65, 71], "lower_precis": [65, 71], "lowerprecis": [65, 71], "verbose_log": [65, 71], "timing_cache_prefix": [65, 71], "save_timing_cach": [65, 71], "cuda_graph_batch_s": [65, 71], "dynamic_batch": [65, 71], "turn": [65, 71, 102], "trtmodul": [65, 71], "otherwis": [65, 66, 71, 94, 110], "implicit": [65, 69, 71, 81], "config": [65, 66, 71, 108], "updat": [65, 66, 70, 71, 75, 92, 95, 97, 106], "dim": [65, 69, 71, 92, 94, 105, 108, 109], "fx2trt_exampl": 65, "acc_trac": 65, "come": [65, 66, 80, 92, 96, 108], "my_pytorch_model": 65, "build_model": 65, "prepar": [65, 108], "acc_mod": 65, "earli": [65, 97], "deprec": [65, 69], "continu": [65, 81, 110], "backward": [65, 74, 92, 112], "vision": [65, 108], "activ": [65, 74, 76, 81, 88, 90, 107, 110, 113], "except": [65, 70, 75], "permut": [65, 69], "transpos": [65, 69, 109], "ll": [65, 94], "inputtensorspec": [65, 71, 75], "experiment": [65, 75, 76], "dataclass": [65, 98], "re": [65, 75, 81, 94, 96, 102, 110], "manual": [65, 75, 80, 81, 97], "sampl": [65, 70, 81, 89, 90, 96, 97, 98, 99, 100, 101, 102, 103, 104, 108], "rand": [65, 88, 94, 96, 97, 98], "from_tensor": [65, 75], "slightli": [65, 92], "promis": 65, "optimize_target_shap": 65, "input_tensor_spec": 65, "shape_rang": [65, 71], "100": [65, 71, 92, 94, 105], "accordingli": [65, 79, 109, 110], "trtinterpreterresult": [65, 71], "namedtupl": 65, "input_nam": [65, 71], "output_nam": [65, 71], "serialized_cach": [65, 71], "bytearrai": [65, 74, 76], "afford": 65, "temporari": [65, 94], "best": [65, 70, 75, 81, 96], "perforamnc": 65, "examin": 65, "suitabl": 65, "force_fp32_output": 65, "strict_type_constraint": 65, "usual": [65, 66, 79], "unless": 65, "certain": [65, 66, 98, 110], "algorithm_selector": 65, "profiling_verbos": 65, "trt_interpreter_result": 65, "64": [65, 75, 89, 104, 105, 109], "25": [65, 71, 88], "runtimeerror": [65, 105], "xxx": 65, "One": [65, 81, 82, 88, 107, 110], "reload_trt_mod": 65, "reload_model_output": 65, "far": [65, 81], "give": [65, 79, 81], "convtert": 65, "scheme": [65, 70, 75], "action": [65, 81], "tensort": [65, 112], "thing": [65, 66, 81], "compar": [65, 70, 75, 89, 97], "vanilla": 65, "mainli": 65, "builtin": 65, "purpos": [65, 107, 108], "acc_op": 65, "leverag": [65, 90, 95, 106], "power": [65, 81, 88, 107], "goe": [65, 81], "whole": 65, "sigmoid": [65, 69], "tensorrt_convert": 65, "acc_ops_sigmoid": 65, "rest": [65, 81, 82], "input_v": 65, "receiv": 65, "region": 65, "add_activ": 65, "get_output": [65, 92], "wherev": 65, "rememb": [65, 66], "mapper": 65, "todo": [65, 79], "logist": 65, "down": [65, 66, 79], "happen": [65, 87, 96, 99, 109], "acc_norm": 65, "foo": [65, 81, 82], "register_acc_op": 65, "register_acc_op_map": 65, "this_arg_is_opt": 65, "op_and_target": 65, "arg_replacement_tupl": 65, "rule": [65, 66, 76], "third": [65, 82], "boolean": [65, 75], "matter": [65, 92], "register_custom_acc_mapper_fn": 65, "design": [65, 73, 96, 107, 113], "redund": 65, "throught": 65, "custom_mapp": 65, "_": [65, 81, 92, 105], "foo_kwarg": 65, "inserting_befor": 65, "foo_nod": 65, "meta": [65, 85, 104], "children": 65, "unit": [65, 75], "test_acc_trac": 65, "acc_op_convert": 65, "essenti": 65, "plugin": [65, 92, 95, 106], "yet": [65, 107], "folder": 65, "center": 66, "pypi": 66, "m": [66, 82, 105], "pip": [66, 108], "upload": [66, 108], "x86": [66, 110], "extra": [66, 74, 88, 92, 96], "url": [66, 79, 108], "download": [66, 85, 90, 92, 93, 94, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 108], "whl": 66, "cu118": 66, "cu124": 66, "tarbal": [66, 88, 90], "easiest": [66, 92], "bazelisk": 66, "bazelbuild": 66, "export": [66, 68, 70, 75, 94, 95, 97, 99, 103, 104, 105, 106, 111, 112], "bazel_vers": 66, "path_to_torchtrt_root": 66, "bazelvers": 66, "mkdir": 66, "cd": [66, 108], "curl": [66, 81], "fssl": 66, "o": [66, 81, 108], "dist": 66, "unzip": 66, "bash": 66, "sh": 66, "cp": [66, 92], "usr": 66, "driver": 66, "branch": 66, "4e5b0f6e860910eb510fa70a76ee3eb9825e7a4d": 66, "l46": 66, "pull": [66, 94, 108], "latest": [66, 79], "l53c1": 66, "fact": 66, "reproduc": 66, "l71": 66, "http_archiv": 66, "build_fil": 66, "archiv": 66, "sha256": 66, "strip_prefix": 66, "OR": 66, "TO": [66, 88], "gnu": 66, "tar": [66, 81, 90], "gz": [66, 81, 82, 90], "ld_library_path": 66, "comment": [66, 81], "uncom": 66, "l114c1": 66, "l124c3": 66, "wheel": 66, "dep": 66, "lighter": 66, "executor": 66, "avoid": [66, 92, 97, 109], "implic": 66, "python_onli": 66, "legaci": [66, 73], "mainten": 66, "torchdynamo": [66, 109, 112], "technolog": [66, 112], "project": [66, 80, 85], "exclud": [66, 92], "speed": [66, 94, 95, 97, 106], "no_torchscript": 66, "dbg": 66, "pre_cxx11_abi": 66, "complic": 66, "incompat": 66, "popular": [66, 80, 107], "ngc": [66, 108], "tabl": [66, 85], "bdist_wheel": 66, "preinstal": 66, "forum": 66, "correctli": [66, 92], "declar": 66, "intend": [66, 98, 99, 100, 101, 102, 103, 104], "microsoft": 66, "2022": [66, 68], "open": [66, 107, 108], "app": 66, "x64": 66, "prompt": [66, 96, 100, 103, 104], "admin": 66, "privileg": 66, "launcher": 66, "chocolatei": 66, "navig": [66, 79], "ninja": 66, "setuptool": 66, "r": [66, 81], "txt": 66, "distutils_use_sdk": 66, "cuda_win": 66, "libtorch_win": 66, "tensorrt_win": 66, "non": [66, 75, 82, 84, 110], "similarli": [66, 94, 102, 110], "ci_workspac": 66, "win": 66, "tmpl": 66, "torchtrtc": [66, 68, 113], "websit": 66, "finder": 66, "dcmake_module_path": 66, "doesn": [66, 81, 87, 88], "dtorch_dir": 66, "dtensorrt_root": 66, "choic": [66, 73], "b": [66, 69, 75, 82, 108], "dcmake_build_typ": 66, "72048": 66, "jp_workspac": 66, "new_local_repositori": 66, "sudo": 66, "home": 66, "unlik": [66, 91], "libtorch_pre_cxx11_abi": 66, "shift": [66, 69, 81], "jetpack": 66, "jetpack_x": 66, "jetpack_5": 66, "drop": [66, 79, 105], "anywher": 67, "ahead": [67, 68, 88, 96], "ep": [67, 69, 97, 111], "output_format": [67, 75, 111], "input_tensor": [67, 92, 105], "fill": 67, "aot": [68, 88, 96, 97, 112], "integr": [68, 95, 96, 98, 106], "seamlessli": [68, 75], "ecosystem": [68, 112], "hybrid": [68, 70, 75, 76, 112], "instal": [68, 85, 88, 108, 110], "triton": [68, 92], "page": [68, 83, 85, 108], "introductori": 68, "blog": [68, 110], "gtc": 68, "2020": [68, 88], "talk": 68, "fall": [68, 75, 92], "2021": 68, "dai": 68, "confer": 68, "_convolut": [69, 88], "stride": [69, 75, 92, 105], "pad": [69, 75, 92, 105], "dilat": 69, "output_pad": 69, "group": [69, 81, 82], "determinist": 69, "cudnn_en": 69, "allow_tf32": 69, "ab": 69, "aco": 69, "acosh": 69, "adaptive_avg_pool1d": 69, "output_s": 69, "adaptive_avg_pool2d": 69, "adaptive_avg_pool3d": 69, "adaptive_max_pool1d": 69, "adaptive_max_pool2d": 69, "adaptive_max_pool3d": 69, "argmax": 69, "keepdim": 69, "argmin": 69, "asin": 69, "asinh": 69, "atan": 69, "atanh": 69, "avg_pool1d": 69, "kernel_s": [69, 92, 105], "ceil_mod": 69, "count_include_pad": 69, "avg_pool2d": 69, "divisor_overrid": 69, "avg_pool3d": 69, "gamma": 69, "var": 69, "momentum": 69, "bitwise_not": 69, "bmm": 69, "ceil": 69, "clamp": 69, "clamp_max": 69, "clamp_min": 69, "constant_pad_nd": 69, "co": [69, 82, 107], "cosh": 69, "cumsum": 69, "tensor_mod": 69, "rounding_mod": 69, "div_": 69, "elu": 69, "scale": [69, 90, 107], "input_scal": 69, "indic": [69, 79, 81, 97, 99, 109], "padding_idx": 69, "eq": [69, 81], "erf": 69, "exp": 69, "expand_a": 69, "fake_quantize_per_channel_affin": 69, "zero_point": 69, "axi": [69, 75], "quant_min": 69, "quant_max": 69, "fake_quantize_per_tensor_affin": 69, "using_int": [69, 88], "start_dim": [69, 88], "end_dim": [69, 88], "floor": 69, "floor_divid": 69, "ge": 69, "gru_cel": 69, "hx": 69, "w_ih": 69, "w_hh": 69, "b_ih": 69, "b_hh": 69, "gt": 69, "hardtanh_": 69, "instance_norm": 69, "running_mean": 69, "running_var": 69, "use_input_stat": 69, "layer_norm": 69, "normalized_shap": 69, "le": 69, "negative_slop": 69, "01": [69, 82, 88, 105], "leaky_relu_": 69, "lstm_cell": 69, "lt": 69, "masked_fil": 69, "mask": [69, 92], "max_pool1d": 69, "max_pool2d": [69, 87, 88], "max_pool3d": 69, "mul_": 69, "narrow": 69, "neg": [69, 96], "norm": 69, "scalaropt_dim": 69, "pixel_shuffl": 69, "upscale_factor": 69, "pow": 69, "tensor_scalar": 69, "expon": 69, "tensor_tensor": 69, "prelu": 69, "prod": [69, 92], "dim_int": 69, "reciproc": 69, "reflection_pad1d": 69, "reflection_pad2d": 69, "relu_": 69, "repeat_interleav": 69, "self_int": 69, "replication_pad1d": 69, "replication_pad2d": 69, "replication_pad3d": 69, "reshap": [69, 92, 108], "roll": 69, "rsub": 69, "scatter": 69, "sigmoid_": 69, "sin": [69, 81], "sinh": 69, "slice": 69, "split_siz": 69, "split_with_s": 69, "sqrt": 69, "squar": 69, "squeez": [69, 107], "sub_": 69, "dim_intlist": 69, "tan": 69, "tanh": 69, "tanh_": 69, "non_block": [69, 105], "memory_format": [69, 75], "prim_devic": 69, "topk": 69, "k": [69, 90, 105], "largest": 69, "dim0": [69, 94], "dim1": 69, "unbind": 69, "unsqueez": 69, "upsample_bilinear2d": 69, "align_corn": 69, "scales_h": 69, "scales_w": 69, "vec": 69, "scale_factor": 69, "upsample_linear1d": 69, "upsample_nearest1d": 69, "upsample_nearest2d": 69, "upsample_nearest3d": 69, "scales_d": 69, "upsample_trilinear3d": 69, "view": [69, 79], "__and__": 69, "__derive_index": 69, "idx": 69, "__getitem__": 69, "__is__": 69, "t1": 69, "t2": 69, "obj": 69, "__isnot__": 69, "__not__": 69, "__or__": 69, "__range_length": 69, "lo": 69, "hi": [69, 81, 82], "__round_to_zero_floordiv": 69, "__xor__": 69, "append": [69, 93, 94, 105], "el": 69, "arang": [69, 92], "pin_memori": 69, "start_step": 69, "copy_": 69, "float_int": 69, "int_float": 69, "floordiv": 69, "is_floating_point": 69, "numel": 69, "l": [69, 105], "9223372036854775807": 69, "requires_grad": 69, "tupleindex": 69, "tup": 69, "exported_program": [70, 75, 111], "arg_input": [70, 75, 97], "kwarg_input": [70, 75, 97], "engine_cache_dir": [70, 93, 94], "engine_cache_s": [70, 93, 94], "custom_engine_cach": [70, 94], "baseenginecach": [70, 94], "int32": [70, 75, 76, 92, 93, 101, 107], "channel_last": [70, 75, 76, 107], "244": [70, 75, 76], "alia": [70, 75], "better": [70, 75, 87, 107, 112], "understand": [70, 75, 109], "convolut": [70, 75, 76, 90, 92, 113], "_c": [70, 75, 76, 91], "oppos": [70, 75, 76], "lean": [70, 75], "spend": [70, 75], "integ": [70, 75, 84], "faster": [70, 75, 93, 94, 107], "parition": [70, 75], "increas": [70, 75, 94], "amount": [70, 75], "defer": [70, 75, 112], "lead": [70, 75, 81, 110], "oversubscript": [70, 75], "hard": [70, 97], "disk": [70, 75, 94], "space": [70, 81, 82, 90], "byte": [70, 74, 75, 76, 92, 94, 107], "1gb": [70, 93, 94], "exce": 70, "oldest": 70, "gear": [70, 90], "toward": [70, 90], "refit_module_weight": [70, 97], "compiled_modul": [70, 97], "new_weight_modul": [70, 97], "verify_output": [70, 97], "use_weight_map_cach": [70, 97], "in_plac": [70, 97], "compmil": 70, "coverag": [70, 92], "min_acc_module_s": 71, "is_aten": 71, "use_experimental_fx_rt": 71, "correctness_atol": 71, "correctness_rtol": 71, "minim": [71, 90, 92], "submodul": [71, 87, 92], "fx2trt": 71, "cpu": [71, 103, 104], "has_batch_dim": 71, "dtyep": 71, "prop": 71, "min_input_shap": 71, "optimized_input_shap": 71, "max_input_shap": 71, "popul": 71, "225": [71, 108], "explicit_precis": 71, "logger_level": 71, "model_trt": 72, "model_torchtrt": 72, "internal_error": 72, "toolkit": 73, "dataloadercalibr": [73, 90], "preprocess": [73, 90, 108], "algo_typ": [73, 90], "calibrationalgo": [73, 90], "cachecalibr": [73, 90], "qualnam": [73, 75], "entropy_calibr": 73, "entropy_calibration_2": [73, 90], "legacy_calibr": 73, "minmax_calibr": 73, "set_multi_device_safe_mod": [74, 110], "_multidevicesafemodecontextmanag": 74, "impact": 74, "suppress": 74, "unsaf": 74, "trt_compiled_modul": 74, "torchtensorrtmodul": [74, 92], "encompass": [74, 76], "simpili": 74, "de": 74, "initi": [74, 75, 81, 97, 98, 99, 101, 102, 103, 104], "scriptmodul": [74, 75, 76, 88, 89, 111, 112], "overridden": [74, 75], "subclass": 74, "although": [74, 81], "recip": [74, 90], "afterward": 74, "former": 74, "care": 74, "hook": 74, "silent": 74, "get_extra_st": 74, "state_dict": [74, 75, 96], "set_extra_st": 74, "picklabl": 74, "pickl": [74, 92, 94], "load_state_dict": [74, 96, 105], "pythontorchtensorrtmodul": 74, "serialized_engin": [74, 76], "_set": [74, 98], "weight_name_map": 74, "trt_modul": 74, "engine_str": 74, "my_modul": 74, "current_devic": 74, "cudagraphs_validate_shap": 74, "versu": 74, "disable_profil": 74, "enable_profil": 74, "iprofil": 74, "spent": 74, "get_layer_info": 74, "request": [75, 88, 108], "decid": 75, "deseri": [75, 76, 88, 92], "retrac": 75, "strict": [75, 110], "valueerror": 75, "mutabletorchtensorrtmodul": [75, 95, 96, 106], "pytorch_model": 75, "regular": 75, "whenev": 75, "refit_gm": 75, "shape_mod": 75, "_shapemod": 75, "interv": 75, "notat": 75, "bound": 75, "torch_tensor": 75, "tracer": 75, "example_tensor": 75, "optimization_profile_field": 75, "classmethod": 75, "disable_memory_format_check": 75, "core_id": 75, "schedul": [75, 108], "use_default": 75, "try_to": 75, "anoth": [75, 81, 82, 87, 89, 97], "typeerror": 75, "unknown": 75, "succe": 75, "float_dtyp": 75, "failur": 75, "bf16": 75, "try_from": [75, 92], "complex128": 75, "16": [75, 85, 87, 88, 89, 99, 102], "brain": 75, "bfloat16": 75, "f64": 75, "f8": 75, "fp8": [75, 95, 106], "float8": 75, "i32": 75, "sign": [75, 108], "i64": 75, "u8": 75, "unsign": 75, "uint8": 75, "trt_dla": 75, "torchtrt_dla": 75, "_from": 75, "torchtrt_dla_ec": 75, "torchtrt_safety_ec": 75, "saefti": 75, "trt_dla_ec": 75, "standalon": [75, 81], "certifi": 75, "tf": 75, "torchtrt_linear": 75, "cdhw32": 75, "thirti": 75, "row": [75, 82], "spatial": 75, "31": [75, 88], "subscript": [75, 81], "chw16": 75, "sixteen": 75, "15": [75, 81, 85], "chw2": 75, "chw32": 75, "chw4": 75, "four": [75, 81, 82], "dhwc": 75, "equivi": 75, "channels_last_3d": 75, "dhwc8": 75, "eight": 75, "dla_hwc4": 75, "imag": [75, 90, 92, 96, 100, 105, 108], "roundup": 75, "elements": 75, "dla_linear": 75, "planar": 75, "hwc": 75, "channels_last": 75, "hwc16": 75, "hwc8": 75, "least": [75, 81, 82], "ishapelay": 76, "check_method_op_support": 76, "seriali": 76, "put_binding_nam": 76, "tensorrtcompilespec": [76, 91], "scriptclass": 76, "0x7fad0f3e7bf0": 76, "_jit_to_tensorrt": 76, "00": 77, "000": [77, 92, 93, 94, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105], "total": [77, 92, 93, 94, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105], "galleri": [77, 92, 93, 94, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106], "mem": 77, "advanc": [77, 82, 90, 95, 106], "torch_compile_advanced_usag": [77, 98], "torch_compile_resnet_exampl": [77, 99], "diffus": [77, 95, 106], "torch_compile_stable_diffus": [77, 100], "transform": [77, 88, 90, 93, 95, 97, 103, 104, 105, 106, 108, 111], "torch_compile_transformers_exampl": [77, 101], "v0": [78, 108], "pytorch_sphinx_them": [79, 86], "conf": [79, 86], "html_theme_opt": 79, "canonical_url": 79, "analytics_id": 79, "logo_onli": 79, "display_vers": 79, "prev_next_buttons_loc": 79, "bottom": 79, "style_external_link": 79, "vcs_pageview_mod": 79, "collapse_navig": 79, "sticky_navig": [79, 83], "navigation_depth": 79, "includehidden": 79, "titles_onli": 79, "canon": 79, "rank": 79, "trail": 79, "slash": 79, "googl": 79, "analyt": 79, "With": [79, 81, 88, 90, 94, 108], "isn": [79, 81, 92], "shown": [79, 81, 88], "sidebar": [79, 85], "button": [79, 81], "icon": [79, 81], "extern": [79, 81], "display_github": 79, "display_gitlab": 79, "gitlab": 79, "bitbucket": 79, "bar": [79, 81], "www": [79, 81, 88, 90, 108], "sphinx": [79, 80, 81, 82, 86, 92, 93, 94, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106], "en": 79, "toctre": 79, "lose": 79, "scroll": [79, 83], "unlimit": 79, "header": [79, 81, 82, 88, 108], "render": 79, "github_url": 79, "bitbucket_url": 79, "gitlab_url": 79, "left": [79, 81], "upon": [79, 98, 101], "rst": [79, 81], "visitor": 79, "revert": 79, "misbuild": 79, "show": [79, 81, 94, 100, 107], "properti": [79, 92], "stick": 79, "screen": 79, "vertic": [79, 81], "too": [79, 81, 82], "sticki": [79, 85], "nav": [79, 85], "At": [80, 97], "django": 80, "payment": 80, "dotpai": 80, "dotpayprovid": 80, "seller_id": 80, "pin": 80, "lock": 80, "lang": 80, "pl": 80, "polish": 80, "gatewai": 80, "transfer": 80, "purchas": 80, "item": [80, 82, 105], "param": 80, "seller": 80, "consult": 80, "ui": 80, "languag": [80, 81, 82, 87, 92, 108], "data_item_1": 80, "emphasi": 81, "strong": 81, "hyperlink": 81, "cross": 81, "uri": 81, "web": 81, "anonym": 81, "label": [81, 90, 105, 107, 108], "substitut": 81, "charact": 81, "exceedingli": 81, "ugli": 81, "problem": 81, "problemat": 81, "ext": [81, 82], "autodoc": [81, 82], "demo": [81, 90], "test_py_modul": [81, 85], "my": 81, "role": 81, "pep": 81, "287": 81, "rfc": 81, "2822": 81, "superscript": 81, "gui": 81, "taken": 81, "height": 81, "interfer": 81, "press": 81, "keyboard": 81, "mous": 81, "mmb": 81, "menuselect": 81, "seen": [81, 82], "whitespac": 81, "signific": [81, 92], "strang": 81, "hyphen": 81, "word": [81, 107], "adjust": 81, "width": [81, 107], "browser": 81, "window": 81, "sentenc": [81, 107], "suppli": [81, 97], "258": 81, "equat": 81, "x_": 81, "x_0": 81, "x_1": 81, "x_2": 81, "x_3": 81, "x_4": 81, "nabla": 81, "frac": 81, "theta": 81, "phi": 81, "restructuredtext": [81, 82], "parser": [81, 105], "colon": 81, "indent": 81, "literal_block": 81, "spaces_and_linebreak": 81, "preserv": [81, 87, 90], "markup_process": 81, "Or": 81, "great": [81, 88, 92, 94, 112], "why": [81, 110], "didn": 81, "blank": 81, "align": 81, "permit": 81, "awai": 81, "eric": 81, "orchestra": 81, "leader": 81, "bee": 81, "philosoph": 81, "ipso": 81, "facto": 81, "But": [81, 88, 97], "got": [81, 88], "vi": 81, "entiti": 81, "said": 81, "entir": [81, 112], "ancient": 81, "injuri": 81, "sing": 81, "elk": 81, "bracket": 81, "miss": [81, 88], "brontosaurus": 81, "thin": 81, "thicker": 81, "middl": 81, "That": [81, 88], "mine": 81, "belong": 81, "me": [81, 82], "ann": 81, "begun": 81, "cut": [81, 97], "past": 81, "pars": [81, 88], "someurl": 81, "dev0": 81, "a4a9419": 81, "caption": [81, 84], "pane": 81, "shell_command": 81, "echo": 81, "did": 81, "window_nam": 81, "session_nam": 81, "shorthand": 81, "some_funct": 81, "highlight": 81, "THE": 81, "heaven": 81, "hexagram": 81, "six": 81, "unbroken": 81, "primal": 81, "light": [81, 111], "spirit": 81, "weak": 81, "essenc": 81, "energi": 81, "unrestrict": 81, "conceiv": 81, "motion": 81, "regard": [81, 112], "basi": 81, "thu": 81, "persist": 81, "dual": 81, "sens": [81, 88], "univers": 81, "world": 81, "men": 81, "express": 81, "deiti": 81, "human": 81, "denot": [81, 92], "holi": 81, "man": [81, 82], "sage": 81, "ruler": 81, "who": 81, "awaken": 81, "utf": [81, 82], "sphinx_rtd_them": [81, 82], "docstr": [81, 82, 89], "dl": 81, "dt": 81, "tag": [81, 108], "tt": 81, "descnam": 81, "descclassnam": 81, "wrote": 81, "anyth": [81, 82, 110], "programm": 81, "myclass": 81, "dothismethod": 81, "flush": 81, "meth": 81, "capit": 81, "flox": 81, "unreferenc": 81, "nonexist": 81, "extrem": 81, "stuff": 81, "mayb": 81, "bold": 81, "ital": 81, "heck": 81, "put": [81, 107], "13": [81, 85], "backlink": 81, "knowledg": 81, "mind": 81, "ey": 81, "thought": 81, "medium": 81, "peopl": 81, "subsect": 81, "interpol": 81, "indirect": 81, "phrase": 81, "docutil": [81, 82], "sourceforg": [81, 82], "ref": 81, "clickabl": 81, "legend": 81, "revis": [81, 82, 96, 100], "revisit": 81, "enhanc": 81, "structuredtext": 81, "wooden": 81, "nickel": 81, "mad": 81, "scientist": 81, "bigger": 81, "bread": 81, "box": [81, 109, 112], "wash": 81, "behind": 81, "ear": 81, "room": 81, "closet": 81, "bathroom": 81, "trash": 81, "sink": 81, "mother": 81, "g_": 81, "mu": 81, "nu": 81, "pi": 81, "t_": 81, "rho_": 81, "servic": 81, "thing1": 81, "thing2": 81, "thing3": 81, "prose": 81, "provok": 81, "mental": 81, "exert": 81, "reader": 81, "discret": 81, "strongli": 81, "advis": 81, "subtitl": 81, "outsid": 81, "often": 81, "besid": 81, "border": 81, "background": [81, 87], "ok": [81, 88], "transmit": 81, "disconnect": 81, "nonetheless": 81, "semant": 81, "blue": [81, 92], "white": 81, "arab": 82, "roman": 82, "upper": 82, "iii": 82, "iv": 82, "classifi": [82, 87, 88, 105, 107], "paragraph": [82, 85], "z": 82, "commonli": 82, "vm": 82, "david": 82, "goodger": 82, "address": [82, 92, 96], "123": 82, "street": 82, "canada": 82, "a1b": 82, "2c3": 82, "contact": 82, "myself": 82, "organ": 82, "humankind": 82, "2012": 82, "03": 82, "19": [82, 85], "53": 82, "0000": 82, "tue": 82, "jan": 82, "progress": 82, "7302": 82, "wish": 82, "redistribut": 82, "reattribut": 82, "sell": 82, "bui": 82, "rent": 82, "leas": 82, "improv": [82, 110], "quot": 82, "excerpt": 82, "incorpor": 82, "collat": 82, "fold": 82, "stapl": 82, "mutil": 82, "anyon": 82, "heart": 82, "bibliograph": 82, "markup": [82, 85], "literal": 82, "yahoo": 82, "oh": 82, "liter": 82, "heh": 82, "child": 82, "beat": 82, "text": [82, 84, 107], "hehe": 82, "kept": 82, "sai": [82, 107], "cackl": 82, "night": 82, "lone": 82, "guangzhou": 82, "destini": 82, "hope": 82, "dream": 82, "forth": 82, "fifth": 82, "sixth": 82, "lorem": [82, 84], "ipsum": [82, 84], "dolor": [82, 84], "sit": [82, 84], "amet": [82, 84], "consectetur": [82, 84], "adipisc": [82, 84], "elit": [82, 84], "donec": [82, 84], "porttitor": [82, 84], "odio": [82, 84], "posuer": [82, 84], "vita": [82, 84], "ornar": [82, 84], "libero": [82, 84], "matti": 82, "loborti": [82, 84], "justo": [82, 84], "vestibulum": [82, 84], "nibh": [82, 84], "aliquet": [82, 84], "sed": [82, 84], "feugiat": [82, 84], "sagitti": [82, 84], "nequ": [82, 84], "qui": [82, 84], "eleifend": 82, "dui": [82, 84], "rutrum": [82, 84], "lectu": [82, 84], "suscipit": [82, 84], "letter": [82, 107], "column": 82, "cell": 82, "span": 82, "nam": [82, 84], "mauri": [82, 84], "arcu": [82, 84], "stub": 82, "behav": 83, "area": 83, "interdum": 84, "nec": 84, "finibu": 84, "dictum": 84, "velit": 84, "ut": 84, "eu": 84, "efficitur": 84, "aliquam": 84, "erat": 84, "diam": 84, "gravida": 84, "imperdiet": 84, "tellu": 84, "nisl": 84, "praesent": 84, "eget": 84, "elementum": 84, "rhoncu": 84, "tincidunt": 84, "suspendiss": 84, "volutpat": 84, "scelerisqu": 84, "tristiqu": 84, "aenean": 84, "condimentum": 84, "risu": 84, "accumsan": 84, "laoreet": 84, "maximu": 84, "sapien": 84, "ligula": 84, "fringilla": 84, "commodo": 84, "proin": 84, "et": 84, "pharetra": 84, "etiam": 84, "turpi": 84, "ant": 84, "luctu": 84, "vel": 84, "malesuada": 84, "dignissim": 84, "mi": 84, "nunc": 84, "augu": 84, "sem": 84, "cursu": 84, "nulla": 84, "pellentesqu": 84, "habit": 84, "morbi": 84, "senectu": 84, "netu": 84, "fame": 84, "ac": 84, "egesta": 84, "placerat": 84, "tortor": 84, "iaculi": 84, "venenati": 84, "cra": 84, "puru": 84, "ero": 84, "vehicula": 84, "fusc": 84, "auctor": 84, "phasellu": 84, "est": 84, "viverra": 84, "conval": 84, "faucibu": 84, "vulput": 84, "feli": 84, "sodal": 84, "maecena": 84, "congu": 84, "semper": 84, "enim": 84, "blandit": 84, "sollicitudin": 84, "urna": 84, "orci": 84, "lacu": 84, "quisqu": 84, "facilisi": 84, "hendrerit": 84, "curabitur": 84, "variu": 84, "bibendum": 84, "massa": 84, "magna": 84, "tempu": 84, "metu": 84, "nisi": 84, "pretium": 84, "leo": 84, "euismod": 84, "ultric": 84, "dapibu": 84, "lacinia": 84, "vivamu": 84, "molesti": 84, "hac": 84, "habitass": 84, "platea": 84, "dictumst": 84, "git": 85, "content": [85, 90, 108], "changelog": 85, "math": 85, "9": [85, 88, 92, 108], "14": [85, 93, 101, 108], "17": 85, "18": [85, 88, 96], "submenu": 85, "symlink": 86, "subtre": 86, "_theme": 86, "html_theme": 86, "html_theme_path": 86, "optimiz": 87, "tutori": [87, 90, 92, 94, 96, 97], "beginn": 87, "intro_to_torchscript_tutori": 87, "briefli": 87, "lenet": [87, 88], "lenetfeatextractor": 87, "conv1": [87, 88], "conv2d": [87, 92, 105], "conv2": [87, 88], "lenetclassifi": 87, "fc1": [87, 88], "120": [87, 88], "fc2": [87, 88], "84": [87, 88], "fc3": [87, 88], "feat": [87, 88], "obvious": 87, "pathwai": 87, "input_data": [87, 89], "traced_model": 87, "pick": 87, "script_model": [87, 91], "perspect": 87, "___torch_mangle_10": 87, "129": 87, "___torch_mangle_9": 87, "119": 87, "___torch_mangle_5": 87, "137": 87, "callmethod": 87, "138": 87, "38": 87, "39": 87, "torch_script_modul": [87, 88], "in_tensor": 87, "fly": 87, "lenet_script": [87, 88], "haven": 88, "acquir": 88, "dyanmo": 88, "almost": [88, 112], "trt_lenet_script": 88, "apr": 88, "56": 88, "04": [88, 108], "credit": 88, "stop": 88, "argc": 88, "argv": 88, "cerr": 88, "cout": 88, "even": [88, 96], "cppdoc": 88, "pretti": 88, "fashion": [88, 107], "enable_precis": 88, "And": 88, "convertgraphtotrtengin": 88, "engine_converted_from_jit": 88, "close": 88, "saw": 88, "576": 88, "346": 88, "539": 88, "0464": 88, "0383": 88, "0678": 88, "0932": 88, "1045": 88, "0805": 88, "0435": 88, "0818": 88, "0208": 88, "0358": 88, "cudafloattyp": 88, "0530": 88, "1691": 88, "2802": 88, "1502": 88, "1056": 88, "1549": 88, "input0": [88, 89], "1063": 88, "input1": [88, 89], "input2": 88, "28": 88, "29": 88, "33": 88, "35": 88, "36": 88, "37": 88, "compilegraph": [88, 90], "laid": 88, "translat": [88, 97], "aren": 88, "techniqu": [88, 90, 110], "checkmethodoperatorsupport": 88, "modular": 88, "ship": [88, 110], "exhaust": 88, "109": 88, "addlay": 88, "yourself": 88, "question": 88, "outself": 88, "flatten_convert": 88, "unwraptoint": 88, "in_shap": 88, "tovec": 88, "out_shap": 88, "shuffl": [88, 90, 105], "addshuffl": 88, "setreshapedimens": 88, "todim": 88, "extens": [88, 112], "ctype": 88, "cdll": 88, "contributor": 88, "upstream": 88, "pr": 88, "usecas": [89, 106], "sole": [89, 90, 112], "individu": 89, "accuraci": [90, 107], "loss": [90, 107], "infrastructur": [90, 108], "streamlin": 90, "expos": [90, 92], "cpp_frontend": 90, "loading_data_recip": 90, "cifar10": [90, 105], "cstddef": 90, "ktrain": 90, "ktest": 90, "un": 90, "cs": 90, "toronto": 90, "edu": 90, "kriz": 90, "cifar": 90, "is_train": 90, "trim": 90, "use_subset": 90, "new_siz": 90, "mode_": 90, "images_": 90, "targets_": 90, "calibration_dataset": 90, "data_dir": 90, "320": 90, "4914": [90, 105], "4822": [90, 105], "4465": [90, 105], "2023": [90, 105], "1994": [90, 105], "2010": [90, 105], "dataloaderopt": 90, "worker": 90, "simpler": 90, "virtual": 90, "input_shap": [90, 113], "compile_spec": [90, 99, 113], "kf16": [90, 113], "ki8": 90, "vgg16": [90, 95, 105, 106], "testing_dataset": [90, 105], "totensor": [90, 105, 108], "testing_dataload": [90, 105], "num_work": [90, 105], "vgg": [90, 105], "test_ptq_dataloader_calibr": 90, "test_ptq_trt_calibr": 90, "krizhevski": 90, "hinton": 90, "2009": 90, "tini": 90, "simonyan": 90, "zisserman": 90, "2014": 90, "recognit": [90, 107], "arxiv": 90, "preprint": 90, "1409": 90, "1556": 90, "_jit_to_backend": 91, "mobilenet_v2": 91, "pretrain": [91, 94, 96, 99, 102, 107, 108], "cost": [92, 94, 97, 110], "perhap": 92, "overhead": [92, 110], "sake": 92, "circular": 92, "red": 92, "green": 92, "twice": 92, "written": 92, "openai": 92, "formal": 92, "tl": 92, "custom_op": 92, "circ_pad_kernel": 92, "all_pads_0": 92, "all_pads_2": 92, "all_pads_4": 92, "all_pads_6": 92, "orig_dims_0": 92, "orig_dims_1": 92, "orig_dims_2": 92, "orig_dims_3": 92, "y_shape_1": 92, "y_shape_2": 92, "y_shape_3": 92, "x_len": 92, "y_len": 92, "block_siz": 92, "pid": 92, "program_id": 92, "mask_i": 92, "i3": 92, "i2": 92, "i1": 92, "i0": 92, "j0": 92, "j1": 92, "j2": 92, "j3": 92, "load_idx": 92, "mask_x": 92, "launch": [92, 108], "torchtrt_ex": 92, "triton_circular_pad": 92, "mutates_arg": 92, "out_dim": 92, "tolist": 92, "all_pad": 92, "zero": 92, "orig_dim": 92, "blocksiz": 92, "256": [92, 105, 108], "numblock": 92, "ex_input": 92, "tracabl": 92, "prerequisit": 92, "fake": 92, "real": 92, "faketensor": 92, "register_fak": 92, "autograd": 92, "beyond": 92, "register_autograd": 92, "padded_x": 92, "my_model": 92, "2604": 92, "4232": 92, "3041": 92, "0833": 92, "2461": 92, "1270": 92, "2450": 92, "4079": 92, "2887": 92, "2828": 92, "0373": 92, "0332": 92, "3143": 92, "6344": 92, "5638": 92, "1867": 92, "5068": 92, "4363": 92, "7937": 92, "3488": 92, "1350": 92, "7966": 92, "3517": 92, "1379": 92, "5537": 92, "1088": 92, "8950": 92, "0550": 92, "6163": 92, "0109": 92, "5245": 92, "9632": 92, "5686": 92, "3775": 92, "8162": 92, "4216": 92, "4311": 92, "1649": 92, "2091": 92, "3668": 92, "1006": 92, "1447": 92, "0352": 92, "7689": 92, "8131": 92, "_run_on_gpu_0": 92, "_run_on_acc_1": 92, "dry": 92, "50": [92, 107], "count": 92, "__": 92, "were": [92, 97, 110], "aggreg": 92, "stat": 92, "latenc": [92, 110], "abstractli": 92, "pkl": [92, 96], "cupi": 92, "gap": 92, "prealloc": 92, "circularpaddingplugin": 92, "ipluginv2dynamicext": 92, "field_collect": 92, "pluginfieldcollect": 92, "x_shape": 92, "num_output": 92, "plugin_namespac": 92, "plugin_typ": 92, "plugin_vers": 92, "assert": [92, 96, 97], "get_output_datatyp": 92, "input_typ": 92, "get_output_dimens": 92, "output_index": 92, "dimsexpr": 92, "exprbuild": 92, "iexprbuild": 92, "output_dim": 92, "dimensionoper": 92, "configure_plugin": 92, "inp": 92, "dynamicplugintensordesc": 92, "x_dim": 92, "desc": 92, "supports_format_combin": 92, "po": 92, "in_out": 92, "plugintensordesc": 92, "num_input": 92, "enqueu": 92, "input_desc": 92, "output_desc": 92, "in_dtyp": 92, "a_mem": 92, "unownedmemori": 92, "items": 92, "c_mem": 92, "a_ptr": 92, "memorypoint": 92, "c_ptr": 92, "a_d": 92, "memptr": 92, "c_d": 92, "a_t": 92, "as_tensor": 92, "c_t": 92, "cloned_plugin": 92, "__dict__": 92, "circularpaddingplugincr": 92, "iplugincr": 92, "field_nam": 92, "pluginfield": 92, "pluginfieldtyp": 92, "create_plugin": 92, "pluginfieldcollection_": 92, "deserialize_plugin": 92, "pads_dict": 92, "creator": 92, "trt_plugin_registri": 92, "get_plugin_registri": 92, "register_cr": 92, "untyp": 92, "get_trt_tensor": 92, "set_layer_nam": 92, "recal": 92, "intlist": 92, "circular_padding_convert": 92, "retriev": 92, "elsewher": 92, "plugin_registri": 92, "plugin_cr": 92, "get_plugin_cr": 92, "field_config": 92, "eventu": 92, "freez": 92, "_input": 92, "add_plugin_v2": 92, "circular_padding_plugin": 92, "_run_on_acc_0": 92, "grad_fn": 92, "subbackward0": 92, "minut": [92, 93, 94, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105], "custom_kernel_plugin": 92, "jupyt": [92, 93, 94, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106], "ipynb": [92, 93, 94, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105], "engine_caching_exampl": [93, 94], "remove_timing_cach": [93, 94], "bertmodel": [93, 101], "random": [93, 94, 96, 97], "seed": [93, 94, 96, 97], "manual_se": [93, 94, 96, 97], "from_pretrain": [93, 96, 100, 101, 103, 104], "uncas": [93, 101, 107], "return_dict": 93, "randint": [93, 101], "compile_bert": 93, "enable_tim": [93, 94], "1st": [93, 94], "measur": [93, 94], "2nd": [93, 94], "3rd": [93, 94], "slower": [93, 94], "messur": [93, 94], "compilation_kwarg": [93, 101], "torch_trt_bert_engine_cach": 93, "30": [93, 94, 96, 97, 99, 101], "synchron": [93, 94], "elapsed_tim": [93, 94], "millisecond": 93, "__name__": [93, 98, 101], "__main__": [93, 98, 101], "engine_caching_bert_exampl": 93, "paid": 94, "upfront": 94, "invalid": 94, "repeatedli": 94, "mitig": 94, "explor": [94, 106], "resnet18": [94, 96, 97, 99, 102], "torch_trt": [94, 96, 97], "_default": 94, "_engine_cach": 94, "flexibl": [94, 112], "histor": 94, "barrier": 94, "reconstruct": 94, "prior": [94, 109, 110], "ti": 94, "hash": 94, "magnitud": 94, "make_refitt": 94, "torch_compil": [94, 98, 99, 101, 102, 109, 112], "compiled_model": 94, "ms": 94, "dynamo_compil": 94, "example_input": 94, "200": 94, "dynamic_shap": [94, 109], "remot": 94, "systen": 94, "agnost": 94, "implent": 94, "ramenginecach": 94, "held": 94, "engine_cach": 94, "torch_compile_my_cach": 94, "cudagraph": [95, 106], "mutabl": [95, 106], "vgg16_fp8_ptq": [95, 106], "bert": [95, 101, 106], "gpt2": [95, 106], "llama2": [95, 106], "straightforward": 96, "especi": 96, "hug": [96, 103, 104], "face": [96, 103, 104], "difficult": 96, "ever": 96, "walk": [96, 97], "lora": [96, 97], "use_python": 96, "mutable_modul": 96, "model2": [96, 97], "expected_output": [96, 97], "refitted_output": [96, 97], "allclos": [96, 97], "reload": [96, 112], "checkpoint": [96, 105], "civitai": 96, "12597": 96, "moxin": 96, "diffusionpipelin": [96, 100], "no_grad": [96, 103, 104, 105], "model_id": [96, 100], "runwayml": 96, "v1": [96, 100], "hous": 96, "forest": 96, "shuimobysim": 96, "wuchangshuo": 96, "qualiti": 96, "worst": 96, "lowr": 96, "focu": 96, "cloudi": 96, "watermark": 96, "pipe": [96, 100], "torch_dtyp": [96, 100], "unet": [96, 100], "negative_prompt": 96, "num_inference_step": 96, "without_lora_mut": 96, "jpg": [96, 108], "procedur": 96, "load_lora_weight": 96, "stablediffusionapi": 96, "load_lora_embed": 96, "weight_nam": 96, "safetensor": 96, "adapter_nam": 96, "lora1": 96, "set_adapt": 96, "adapter_weight": 96, "fuse_lora": 96, "unload_lora_weight": 96, "with_lora_mut": 96, "mutable_torchtrt_module_exampl": 96, "expens": 97, "involv": 97, "occasion": [97, 98, 101], "adapt": 97, "infeas": 97, "focus": 97, "mostli": 97, "recogn": 97, "behalf": 97, "init": [97, 105], "sett": 97, "randomli": 97, "exp_program2": 97, "compiled_trt_ep": 97, "new_trt_gm": 97, "accomplish": 97, "gaurente": 97, "attempt": [97, 105, 109], "rebuild": 97, "heurist": 97, "refit_engine_exampl": 97, "x_out": 98, "y_out": 98, "x_y_out": 98, "invoc": 98, "sample_inputs_half": 98, "model_half": 98, "backend_kwarg": 98, "optimized_model_custom": 98, "exit": [98, 101, 108], "2052": [98, 101], "compile_engine_and_inf": [98, 101], "new_input": [99, 101], "new_output": [99, 101], "new_batch_size_input": 99, "new_batch_size_output": 99, "inputs_bs8": 99, "mark_dynam": [99, 109], "outputs_bs8": 99, "No": [99, 109], "inputs_bs12": 99, "outputs_bs12": 99, "compvi": 100, "majest": 100, "castl": 100, "cloud": 100, "majestic_castl": 100, "png": 100, "enable_cudagraph": [102, 110], "out_trt": 102, "set_cudagraphs_mod": [102, 110], "inputs_2": 102, "inputs_3": 102, "out_trt_2": 102, "out_trt_3": 102, "torch_export_cudagraph": 102, "automodelforcausallm": [103, 104], "autotoken": [103, 104], "export_llm": [103, 104], "max_token": [103, 104], "kv_cach": [103, 104], "token": [103, 104, 107], "pad_token_id": 103, "eos_token_id": [103, 104], "attn_implement": [103, 104], "eager": [103, 104], "model_input": [103, 104], "return_tensor": [103, 104], "input_id": [103, 104], "regress": [103, 104], "huggingfac": [103, 104, 107], "pyt_gen_token": [103, 104], "gpt2_ep": 103, "max_seq_len": [103, 104], "trt_gen_token": [103, 104], "skip_special_token": [103, 104], "torch_export_gpt2": 103, "llama_path": 104, "llama": 104, "7b": 104, "chat": 104, "hf": 104, "llama2_ep": 104, "batch_decod": 104, "clean_up_tokenization_spac": 104, "torch_export_llama2": 104, "argpars": 105, "modelopt": 105, "mtq": 105, "export_torch_mod": 105, "layer_spec": 105, "num_class": 105, "1000": [105, 108], "init_weight": 105, "in_channel": 105, "pool": [105, 113], "maxpool2d": 105, "batchnorm2d": 105, "sequenti": 105, "avgpool": 105, "adaptiveavgpool2d": 105, "4096": 105, "dropout": 105, "_initialize_weight": 105, "kaiming_normal_": 105, "fan_out": 105, "nonlinear": 105, "constant_": 105, "elif": 105, "normal_": 105, "vgg16_cfg": 105, "128": 105, "argumentpars": 105, "add_argu": 105, "ckpt": 105, "parse_arg": 105, "model_state_dict": 105, "device_count": 105, "ordereddict": 105, "new_state_dict": 105, "forget": 105, "training_dataset": 105, "randomcrop": 105, "randomhorizontalflip": 105, "training_dataload": 105, "drop_last": 105, "crit": 105, "crossentropyloss": 105, "calibrate_loop": 105, "pred": 105, "5f": 105, "acc": 105, "2f": 105, "quantize_typ": 105, "quant_cfg": 105, "int8_default_cfg": 105, "fp8_default_cfg": 105, "forward_loop": 105, "qdq": 105, "incomplet": 105, "functionaltensor": 105, "functionaltensormod": 105, "_trace": 105, "_export": 105, "float8_e4m3fn": 105, "class_prob": 105, "class_pr": 105, "test_prob": 105, "test_pr": 105, "test_loss": 105, "test_acc": 105, "vgg16_ptq": 105, "concept": 106, "_rendered_examples_python": 106, "_rendered_examples_jupyt": 106, "acoust": 107, "speech": 107, "quartznet": 107, "contextnet": 107, "subword": 107, "piec": 107, "excit": 107, "se": 107, "smaller": 107, "audio": 107, "transcrib": 107, "speedup": 107, "obtain": [107, 111], "feedforward": 107, "cnn": 107, "uniformli": 107, "resolut": 107, "highli": [107, 108], "compound": 107, "coeffici": 107, "b0": 107, "corpu": 107, "english": 107, "supervis": 107, "walkthrough": 107, "overal": 107, "jetson": 107, "adopt": 107, "mobilenetv2": 107, "classif": 107, "imagenet": 107, "imagenett": 107, "qat": 107, "simul": 107, "hand": 108, "consider": 108, "concurr": 108, "grpc": 108, "solv": 108, "aforement": 108, "familiar": 108, "resnet50": 108, "torchhub": 108, "docker": 108, "login": 108, "xx": 108, "yy": 108, "mm": 108, "publish": 108, "22": 108, "pwd": 108, "scratch_spac": 108, "nvcr": 108, "py3": 108, "proce": 108, "hub": 108, "_validate_not_a_forked_repo": 108, "suggest": 108, "simplest": 108, "model_repositori": 108, "pbtxt": 108, "pytorch_libtorch": 108, "input__0": 108, "data_typ": 108, "type_fp32": 108, "output__0": 108, "exact": 108, "encourag": 108, "rm": 108, "8000": 108, "8001": 108, "8002": 108, "the_model_repositori": 108, "tritonserv": 108, "spin": 108, "proceed": 108, "flesh": 108, "wget": 108, "img1": 108, "hakaimagazin": 108, "wp": 108, "gulf": 108, "bird": 108, "attrdict": 108, "pyindex": 108, "tritoncli": 108, "jump": 108, "firstli": 108, "resiz": 108, "pil": 108, "httpclient": 108, "triton_to_np_dtyp": 108, "rn50_preprocess": 108, "img_path": 108, "img": 108, "centercrop": 108, "485": 108, "456": 108, "406": 108, "229": 108, "transformed_img": 108, "inferenceservercli": 108, "localhost": 108, "secondli": 108, "inferinput": 108, "set_data_from_numpi": 108, "binary_data": 108, "inferrequestedoutput": 108, "class_count": 108, "lastli": 108, "send": 108, "model_nam": 108, "inference_output": 108, "as_numpi": 108, "468750": 108, "90": 108, "523438": 108, "92": 108, "664062": 108, "429688": 108, "136": 108, "234375": 108, "confidence_scor": 108, "classification_index": 108, "eagerli": 109, "swap": 109, "exactli": 109, "_tracer": 109, "sometim": 109, "queri": 109, "attn_weight": 109, "seq_len": 109, "compiler_dynamic_shap": 109, "inputs_bs2": 109, "libtorchtrt_runtim": 110, "dl_open": 110, "ld_preload": 110, "load_librari": 110, "cxx11": 110, "abi": 110, "wl": 110, "ltorchtrt": 110, "torchtrt_runtime_exampl": 110, "libtorchtrt_plugin": 110, "neglig": 110, "thread": 110, "alert": 110, "switch": 110, "mismatch": 110, "crash": 110, "sacrif": 110, "incur": 110, "intens": 110, "trt_ep": 111, "stai": 111, "trt_t": 111, "ergonom": 112, "deleg": 112, "believ": 112, "amen": 112, "artifact": 112, "pack": 112, "year": 112, "superset": 112, "codebas": 112, "immedi": 112, "traceabl": 112, "scriptabl": 112, "hardwar": 113, "neural": 113, "deconvolut": 113, "scripted_model": 113}, "objects": {"": [[5, 0, 1, "c.STR", "STR"], [9, 0, 1, "c.TORCHTRT_API", "TORCHTRT_API"], [11, 0, 1, "c.TORCHTRT_HIDDEN", "TORCHTRT_HIDDEN"], [7, 0, 1, "c.TORCH_TENSORRT_MAJOR_VERSION", "TORCH_TENSORRT_MAJOR_VERSION"], [8, 0, 1, "c.TORCH_TENSORRT_MINOR_VERSION", "TORCH_TENSORRT_MINOR_VERSION"], [6, 0, 1, "c.TORCH_TENSORRT_PATCH_VERSION", "TORCH_TENSORRT_PATCH_VERSION"], [12, 0, 1, "c.TORCH_TENSORRT_VERSION", "TORCH_TENSORRT_VERSION"], [10, 0, 1, "c.XSTR", "XSTR"], [0, 1, 1, "_CPPv4N14torch_tensorrt8DataTypeE", "torch_tensorrt::DataType"], [0, 2, 1, "_CPPv4N14torch_tensorrt8DataType8DataTypeE5Value", "torch_tensorrt::DataType::DataType"], [0, 2, 1, "_CPPv4N14torch_tensorrt8DataType8DataTypeEN3c1010ScalarTypeE", "torch_tensorrt::DataType::DataType"], [0, 2, 1, "_CPPv4N14torch_tensorrt8DataType8DataTypeEv", "torch_tensorrt::DataType::DataType"], [0, 3, 1, "_CPPv4N14torch_tensorrt8DataType8DataTypeE5Value", "torch_tensorrt::DataType::DataType::t"], [0, 3, 1, "_CPPv4N14torch_tensorrt8DataType8DataTypeEN3c1010ScalarTypeE", "torch_tensorrt::DataType::DataType::t"], [0, 4, 1, "_CPPv4N14torch_tensorrt8DataType5ValueE", "torch_tensorrt::DataType::Value"], [0, 5, 1, "_CPPv4N14torch_tensorrt8DataType5Value5kBoolE", "torch_tensorrt::DataType::Value::kBool"], [0, 5, 1, "_CPPv4N14torch_tensorrt8DataType5Value5kCharE", "torch_tensorrt::DataType::Value::kChar"], [0, 5, 1, "_CPPv4N14torch_tensorrt8DataType5Value7kDoubleE", "torch_tensorrt::DataType::Value::kDouble"], [0, 5, 1, "_CPPv4N14torch_tensorrt8DataType5Value6kFloatE", "torch_tensorrt::DataType::Value::kFloat"], [0, 5, 1, "_CPPv4N14torch_tensorrt8DataType5Value5kHalfE", "torch_tensorrt::DataType::Value::kHalf"], [0, 5, 1, "_CPPv4N14torch_tensorrt8DataType5Value4kIntE", "torch_tensorrt::DataType::Value::kInt"], [0, 5, 1, "_CPPv4N14torch_tensorrt8DataType5Value5kLongE", "torch_tensorrt::DataType::Value::kLong"], [0, 5, 1, "_CPPv4N14torch_tensorrt8DataType5Value8kUnknownE", "torch_tensorrt::DataType::Value::kUnknown"], [0, 5, 1, "_CPPv4N14torch_tensorrt8DataType5Value5kBoolE", "torch_tensorrt::DataType::kBool"], [0, 5, 1, "_CPPv4N14torch_tensorrt8DataType5Value5kCharE", "torch_tensorrt::DataType::kChar"], [0, 5, 1, "_CPPv4N14torch_tensorrt8DataType5Value7kDoubleE", "torch_tensorrt::DataType::kDouble"], [0, 5, 1, "_CPPv4N14torch_tensorrt8DataType5Value6kFloatE", "torch_tensorrt::DataType::kFloat"], [0, 5, 1, "_CPPv4N14torch_tensorrt8DataType5Value5kHalfE", "torch_tensorrt::DataType::kHalf"], [0, 5, 1, "_CPPv4N14torch_tensorrt8DataType5Value4kIntE", "torch_tensorrt::DataType::kInt"], [0, 5, 1, "_CPPv4N14torch_tensorrt8DataType5Value5kLongE", "torch_tensorrt::DataType::kLong"], [0, 5, 1, "_CPPv4N14torch_tensorrt8DataType5Value8kUnknownE", "torch_tensorrt::DataType::kUnknown"], [0, 2, 1, "_CPPv4NK14torch_tensorrt8DataTypecv5ValueEv", "torch_tensorrt::DataType::operator Value"], [0, 2, 1, "_CPPv4N14torch_tensorrt8DataTypecvbEv", "torch_tensorrt::DataType::operator bool"], [0, 2, 1, "_CPPv4NK14torch_tensorrt8DataTypeneE8DataType", "torch_tensorrt::DataType::operator!="], [0, 2, 1, "_CPPv4NK14torch_tensorrt8DataTypeneEN8DataType5ValueE", "torch_tensorrt::DataType::operator!="], [0, 3, 1, "_CPPv4NK14torch_tensorrt8DataTypeneE8DataType", "torch_tensorrt::DataType::operator!=::other"], [0, 3, 1, "_CPPv4NK14torch_tensorrt8DataTypeneEN8DataType5ValueE", "torch_tensorrt::DataType::operator!=::other"], [0, 2, 1, "_CPPv4NK14torch_tensorrt8DataTypeeqE8DataType", "torch_tensorrt::DataType::operator=="], [0, 2, 1, "_CPPv4NK14torch_tensorrt8DataTypeeqEN8DataType5ValueE", "torch_tensorrt::DataType::operator=="], [0, 3, 1, "_CPPv4NK14torch_tensorrt8DataTypeeqE8DataType", "torch_tensorrt::DataType::operator==::other"], [0, 3, 1, "_CPPv4NK14torch_tensorrt8DataTypeeqEN8DataType5ValueE", "torch_tensorrt::DataType::operator==::other"], [46, 1, 1, "_CPPv4N14torch_tensorrt6DeviceE", "torch_tensorrt::Device"], [46, 2, 1, "_CPPv4N14torch_tensorrt6Device6DeviceEv", "torch_tensorrt::Device::Device"], [1, 1, 1, "_CPPv4N14torch_tensorrt6Device10DeviceTypeE", "torch_tensorrt::Device::DeviceType"], [46, 1, 1, "_CPPv4N14torch_tensorrt6Device10DeviceTypeE", "torch_tensorrt::Device::DeviceType"], [1, 2, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType10DeviceTypeE5Value", "torch_tensorrt::Device::DeviceType::DeviceType"], [1, 2, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType10DeviceTypeEN3c1010DeviceTypeE", "torch_tensorrt::Device::DeviceType::DeviceType"], [1, 2, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType10DeviceTypeEv", "torch_tensorrt::Device::DeviceType::DeviceType"], [46, 2, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType10DeviceTypeE5Value", "torch_tensorrt::Device::DeviceType::DeviceType"], [46, 2, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType10DeviceTypeEN3c1010DeviceTypeE", "torch_tensorrt::Device::DeviceType::DeviceType"], [46, 2, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType10DeviceTypeEv", "torch_tensorrt::Device::DeviceType::DeviceType"], [1, 3, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType10DeviceTypeE5Value", "torch_tensorrt::Device::DeviceType::DeviceType::t"], [1, 3, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType10DeviceTypeEN3c1010DeviceTypeE", "torch_tensorrt::Device::DeviceType::DeviceType::t"], [46, 3, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType10DeviceTypeE5Value", "torch_tensorrt::Device::DeviceType::DeviceType::t"], [46, 3, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType10DeviceTypeEN3c1010DeviceTypeE", "torch_tensorrt::Device::DeviceType::DeviceType::t"], [1, 4, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType5ValueE", "torch_tensorrt::Device::DeviceType::Value"], [46, 4, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType5ValueE", "torch_tensorrt::Device::DeviceType::Value"], [1, 5, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType5Value4kDLAE", "torch_tensorrt::Device::DeviceType::Value::kDLA"], [46, 5, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType5Value4kDLAE", "torch_tensorrt::Device::DeviceType::Value::kDLA"], [1, 5, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType5Value4kGPUE", "torch_tensorrt::Device::DeviceType::Value::kGPU"], [46, 5, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType5Value4kGPUE", "torch_tensorrt::Device::DeviceType::Value::kGPU"], [1, 5, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType5Value4kDLAE", "torch_tensorrt::Device::DeviceType::kDLA"], [1, 5, 1, "_CPPv4N14torch_tensorrt6Device10DeviceType5Value4kGPUE", "torch_tensorrt::Device::DeviceType::kGPU"], [1, 2, 1, "_CPPv4NK14torch_tensorrt6Device10DeviceTypecv5ValueEv", "torch_tensorrt::Device::DeviceType::operator Value"], [46, 2, 1, "_CPPv4NK14torch_tensorrt6Device10DeviceTypecv5ValueEv", "torch_tensorrt::Device::DeviceType::operator Value"], [1, 2, 1, "_CPPv4N14torch_tensorrt6Device10DeviceTypecvbEv", "torch_tensorrt::Device::DeviceType::operator bool"], [46, 2, 1, "_CPPv4N14torch_tensorrt6Device10DeviceTypecvbEv", "torch_tensorrt::Device::DeviceType::operator bool"], [1, 2, 1, "_CPPv4NK14torch_tensorrt6Device10DeviceTypeneE10DeviceType", "torch_tensorrt::Device::DeviceType::operator!="], [46, 2, 1, "_CPPv4NK14torch_tensorrt6Device10DeviceTypeneE10DeviceType", "torch_tensorrt::Device::DeviceType::operator!="], [1, 3, 1, "_CPPv4NK14torch_tensorrt6Device10DeviceTypeneE10DeviceType", "torch_tensorrt::Device::DeviceType::operator!=::other"], [46, 3, 1, "_CPPv4NK14torch_tensorrt6Device10DeviceTypeneE10DeviceType", "torch_tensorrt::Device::DeviceType::operator!=::other"], [1, 2, 1, "_CPPv4NK14torch_tensorrt6Device10DeviceTypeeqE10DeviceType", "torch_tensorrt::Device::DeviceType::operator=="], [46, 2, 1, "_CPPv4NK14torch_tensorrt6Device10DeviceTypeeqE10DeviceType", "torch_tensorrt::Device::DeviceType::operator=="], [1, 3, 1, "_CPPv4NK14torch_tensorrt6Device10DeviceTypeeqE10DeviceType", "torch_tensorrt::Device::DeviceType::operator==::other"], [46, 3, 1, "_CPPv4NK14torch_tensorrt6Device10DeviceTypeeqE10DeviceType", "torch_tensorrt::Device::DeviceType::operator==::other"], [46, 6, 1, "_CPPv4N14torch_tensorrt6Device18allow_gpu_fallbackE", "torch_tensorrt::Device::allow_gpu_fallback"], [46, 6, 1, "_CPPv4N14torch_tensorrt6Device11device_typeE", "torch_tensorrt::Device::device_type"], [46, 6, 1, "_CPPv4N14torch_tensorrt6Device8dla_coreE", "torch_tensorrt::Device::dla_core"], [46, 6, 1, "_CPPv4N14torch_tensorrt6Device6gpu_idE", "torch_tensorrt::Device::gpu_id"], [17, 4, 1, "_CPPv4N14torch_tensorrt16EngineCapabilityE", "torch_tensorrt::EngineCapability"], [17, 5, 1, "_CPPv4N14torch_tensorrt16EngineCapability15kDLA_STANDALONEE", "torch_tensorrt::EngineCapability::kDLA_STANDALONE"], [17, 5, 1, "_CPPv4N14torch_tensorrt16EngineCapability7kSAFETYE", "torch_tensorrt::EngineCapability::kSAFETY"], [17, 5, 1, "_CPPv4N14torch_tensorrt16EngineCapability9kSTANDARDE", "torch_tensorrt::EngineCapability::kSTANDARD"], [47, 1, 1, "_CPPv4N14torch_tensorrt11GraphInputsE", "torch_tensorrt::GraphInputs"], [47, 6, 1, "_CPPv4N14torch_tensorrt11GraphInputs15input_signatureE", "torch_tensorrt::GraphInputs::input_signature"], [47, 6, 1, "_CPPv4N14torch_tensorrt11GraphInputs6inputsE", "torch_tensorrt::GraphInputs::inputs"], [48, 1, 1, "_CPPv4N14torch_tensorrt5InputE", "torch_tensorrt::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputEN2at6TensorE", "torch_tensorrt::Input::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEE12TensorFormat", "torch_tensorrt::Input::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE12TensorFormat", "torch_tensorrt::Input::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEE12TensorFormat", "torch_tensorrt::Input::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE12TensorFormat", "torch_tensorrt::Input::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input"], [48, 2, 1, "_CPPv4N14torch_tensorrt5Input5InputEv", "torch_tensorrt::Input::Input"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input::dtype"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::dtype"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input::dtype"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::dtype"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input::dtype"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::dtype"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input::dtype"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::dtype"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEE12TensorFormat", "torch_tensorrt::Input::Input::format"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input::format"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::format"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE12TensorFormat", "torch_tensorrt::Input::Input::format"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input::format"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::format"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::format"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::format"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEE12TensorFormat", "torch_tensorrt::Input::Input::format"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input::format"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::format"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE12TensorFormat", "torch_tensorrt::Input::Input::format"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input::format"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::format"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::format"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::format"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE12TensorFormat", "torch_tensorrt::Input::Input::max_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input::max_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::max_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::max_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE12TensorFormat", "torch_tensorrt::Input::Input::max_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input::max_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::max_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::max_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE12TensorFormat", "torch_tensorrt::Input::Input::min_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input::min_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::min_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::min_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE12TensorFormat", "torch_tensorrt::Input::Input::min_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input::min_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::min_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::min_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE12TensorFormat", "torch_tensorrt::Input::Input::opt_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input::opt_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::opt_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::opt_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE12TensorFormat", "torch_tensorrt::Input::Input::opt_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input::opt_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::opt_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::opt_shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEE12TensorFormat", "torch_tensorrt::Input::Input::shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input::shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEE12TensorFormat", "torch_tensorrt::Input::Input::shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEE8DataType12TensorFormat", "torch_tensorrt::Input::Input::shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::shape"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN2at6TensorE", "torch_tensorrt::Input::Input::tensor"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::tensor_domain"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::tensor_domain"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEEN3c108ArrayRefI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::tensor_domain"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputEN3c108ArrayRefI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::tensor_domain"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::tensor_domain"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEE8DataTypeNSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::tensor_domain"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::tensor_domain"], [48, 3, 1, "_CPPv4N14torch_tensorrt5Input5InputENSt6vectorI7int64_tEENSt6vectorIdEE12TensorFormat", "torch_tensorrt::Input::Input::tensor_domain"], [48, 6, 1, "_CPPv4N14torch_tensorrt5Input5dtypeE", "torch_tensorrt::Input::dtype"], [48, 6, 1, "_CPPv4N14torch_tensorrt5Input6formatE", "torch_tensorrt::Input::format"], [48, 6, 1, "_CPPv4N14torch_tensorrt5Input9max_shapeE", "torch_tensorrt::Input::max_shape"], [48, 6, 1, "_CPPv4N14torch_tensorrt5Input9min_shapeE", "torch_tensorrt::Input::min_shape"], [48, 6, 1, "_CPPv4N14torch_tensorrt5Input9opt_shapeE", "torch_tensorrt::Input::opt_shape"], [48, 6, 1, "_CPPv4N14torch_tensorrt5Input5shapeE", "torch_tensorrt::Input::shape"], [48, 6, 1, "_CPPv4N14torch_tensorrt5Input13tensor_domainE", "torch_tensorrt::Input::tensor_domain"], [2, 1, 1, "_CPPv4N14torch_tensorrt12TensorFormatE", "torch_tensorrt::TensorFormat"], [2, 2, 1, "_CPPv4N14torch_tensorrt12TensorFormat12TensorFormatE5Value", "torch_tensorrt::TensorFormat::TensorFormat"], [2, 2, 1, "_CPPv4N14torch_tensorrt12TensorFormat12TensorFormatEN2at12MemoryFormatE", "torch_tensorrt::TensorFormat::TensorFormat"], [2, 2, 1, "_CPPv4N14torch_tensorrt12TensorFormat12TensorFormatEv", "torch_tensorrt::TensorFormat::TensorFormat"], [2, 3, 1, "_CPPv4N14torch_tensorrt12TensorFormat12TensorFormatE5Value", "torch_tensorrt::TensorFormat::TensorFormat::t"], [2, 3, 1, "_CPPv4N14torch_tensorrt12TensorFormat12TensorFormatEN2at12MemoryFormatE", "torch_tensorrt::TensorFormat::TensorFormat::t"], [2, 4, 1, "_CPPv4N14torch_tensorrt12TensorFormat5ValueE", "torch_tensorrt::TensorFormat::Value"], [2, 5, 1, "_CPPv4N14torch_tensorrt12TensorFormat5Value13kChannelsLastE", "torch_tensorrt::TensorFormat::Value::kChannelsLast"], [2, 5, 1, "_CPPv4N14torch_tensorrt12TensorFormat5Value11kContiguousE", "torch_tensorrt::TensorFormat::Value::kContiguous"], [2, 5, 1, "_CPPv4N14torch_tensorrt12TensorFormat5Value8kUnknownE", "torch_tensorrt::TensorFormat::Value::kUnknown"], [2, 5, 1, "_CPPv4N14torch_tensorrt12TensorFormat5Value13kChannelsLastE", "torch_tensorrt::TensorFormat::kChannelsLast"], [2, 5, 1, "_CPPv4N14torch_tensorrt12TensorFormat5Value11kContiguousE", "torch_tensorrt::TensorFormat::kContiguous"], [2, 5, 1, "_CPPv4N14torch_tensorrt12TensorFormat5Value8kUnknownE", "torch_tensorrt::TensorFormat::kUnknown"], [2, 2, 1, "_CPPv4NK14torch_tensorrt12TensorFormatcv5ValueEv", "torch_tensorrt::TensorFormat::operator Value"], [2, 2, 1, "_CPPv4N14torch_tensorrt12TensorFormatcvbEv", "torch_tensorrt::TensorFormat::operator bool"], [2, 2, 1, "_CPPv4NK14torch_tensorrt12TensorFormatneE12TensorFormat", "torch_tensorrt::TensorFormat::operator!="], [2, 2, 1, "_CPPv4NK14torch_tensorrt12TensorFormatneEN12TensorFormat5ValueE", "torch_tensorrt::TensorFormat::operator!="], [2, 3, 1, "_CPPv4NK14torch_tensorrt12TensorFormatneE12TensorFormat", "torch_tensorrt::TensorFormat::operator!=::other"], [2, 3, 1, "_CPPv4NK14torch_tensorrt12TensorFormatneEN12TensorFormat5ValueE", "torch_tensorrt::TensorFormat::operator!=::other"], [2, 2, 1, "_CPPv4NK14torch_tensorrt12TensorFormateqE12TensorFormat", "torch_tensorrt::TensorFormat::operator=="], [2, 2, 1, "_CPPv4NK14torch_tensorrt12TensorFormateqEN12TensorFormat5ValueE", "torch_tensorrt::TensorFormat::operator=="], [2, 3, 1, "_CPPv4NK14torch_tensorrt12TensorFormateqE12TensorFormat", "torch_tensorrt::TensorFormat::operator==::other"], [2, 3, 1, "_CPPv4NK14torch_tensorrt12TensorFormateqEN12TensorFormat5ValueE", "torch_tensorrt::TensorFormat::operator==::other"], [37, 2, 1, "_CPPv4N14torch_tensorrt15dump_build_infoEv", "torch_tensorrt::dump_build_info"], [35, 2, 1, "_CPPv4N14torch_tensorrt14get_build_infoEv", "torch_tensorrt::get_build_info"], [17, 5, 1, "_CPPv4N14torch_tensorrt16EngineCapability15kDLA_STANDALONEE", "torch_tensorrt::kDLA_STANDALONE"], [17, 5, 1, "_CPPv4N14torch_tensorrt16EngineCapability7kSAFETYE", "torch_tensorrt::kSAFETY"], [17, 5, 1, "_CPPv4N14torch_tensorrt16EngineCapability9kSTANDARDE", "torch_tensorrt::kSTANDARD"], [16, 4, 1, "_CPPv4N14torch_tensorrt7logging5LevelE", "torch_tensorrt::logging::Level"], [16, 5, 1, "_CPPv4N14torch_tensorrt7logging5Level6kDEBUGE", "torch_tensorrt::logging::Level::kDEBUG"], [16, 5, 1, "_CPPv4N14torch_tensorrt7logging5Level6kERRORE", "torch_tensorrt::logging::Level::kERROR"], [16, 5, 1, "_CPPv4N14torch_tensorrt7logging5Level6kGRAPHE", "torch_tensorrt::logging::Level::kGRAPH"], [16, 5, 1, "_CPPv4N14torch_tensorrt7logging5Level5kINFOE", "torch_tensorrt::logging::Level::kINFO"], [16, 5, 1, "_CPPv4N14torch_tensorrt7logging5Level15kINTERNAL_ERRORE", "torch_tensorrt::logging::Level::kINTERNAL_ERROR"], [16, 5, 1, "_CPPv4N14torch_tensorrt7logging5Level8kWARNINGE", "torch_tensorrt::logging::Level::kWARNING"], [24, 2, 1, "_CPPv4N14torch_tensorrt7logging24get_is_colored_output_onEv", "torch_tensorrt::logging::get_is_colored_output_on"], [22, 2, 1, "_CPPv4N14torch_tensorrt7logging18get_logging_prefixEv", "torch_tensorrt::logging::get_logging_prefix"], [23, 2, 1, "_CPPv4N14torch_tensorrt7logging24get_reportable_log_levelEv", "torch_tensorrt::logging::get_reportable_log_level"], [16, 5, 1, "_CPPv4N14torch_tensorrt7logging5Level6kDEBUGE", "torch_tensorrt::logging::kDEBUG"], [16, 5, 1, "_CPPv4N14torch_tensorrt7logging5Level6kERRORE", "torch_tensorrt::logging::kERROR"], [16, 5, 1, "_CPPv4N14torch_tensorrt7logging5Level6kGRAPHE", "torch_tensorrt::logging::kGRAPH"], [16, 5, 1, "_CPPv4N14torch_tensorrt7logging5Level5kINFOE", "torch_tensorrt::logging::kINFO"], [16, 5, 1, "_CPPv4N14torch_tensorrt7logging5Level15kINTERNAL_ERRORE", "torch_tensorrt::logging::kINTERNAL_ERROR"], [16, 5, 1, "_CPPv4N14torch_tensorrt7logging5Level8kWARNINGE", "torch_tensorrt::logging::kWARNING"], [26, 2, 1, "_CPPv4N14torch_tensorrt7logging3logE5LevelNSt6stringE", "torch_tensorrt::logging::log"], [26, 3, 1, "_CPPv4N14torch_tensorrt7logging3logE5LevelNSt6stringE", "torch_tensorrt::logging::log::lvl"], [26, 3, 1, "_CPPv4N14torch_tensorrt7logging3logE5LevelNSt6stringE", "torch_tensorrt::logging::log::msg"], [27, 2, 1, "_CPPv4N14torch_tensorrt7logging24set_is_colored_output_onEb", "torch_tensorrt::logging::set_is_colored_output_on"], [27, 3, 1, "_CPPv4N14torch_tensorrt7logging24set_is_colored_output_onEb", "torch_tensorrt::logging::set_is_colored_output_on::colored_output_on"], [28, 2, 1, "_CPPv4N14torch_tensorrt7logging18set_logging_prefixENSt6stringE", "torch_tensorrt::logging::set_logging_prefix"], [28, 3, 1, "_CPPv4N14torch_tensorrt7logging18set_logging_prefixENSt6stringE", "torch_tensorrt::logging::set_logging_prefix::prefix"], [25, 2, 1, "_CPPv4N14torch_tensorrt7logging24set_reportable_log_levelE5Level", "torch_tensorrt::logging::set_reportable_log_level"], [25, 3, 1, "_CPPv4N14torch_tensorrt7logging24set_reportable_log_levelE5Level", "torch_tensorrt::logging::set_reportable_log_level::lvl"], [3, 1, 1, "_CPPv4I0EN14torch_tensorrt3ptq19Int8CacheCalibratorE", "torch_tensorrt::ptq::Int8CacheCalibrator"], [3, 7, 1, "_CPPv4I0EN14torch_tensorrt3ptq19Int8CacheCalibratorE", "torch_tensorrt::ptq::Int8CacheCalibrator::Algorithm"], [3, 2, 1, "_CPPv4N14torch_tensorrt3ptq19Int8CacheCalibrator19Int8CacheCalibratorERKNSt6stringE", "torch_tensorrt::ptq::Int8CacheCalibrator::Int8CacheCalibrator"], [3, 3, 1, "_CPPv4N14torch_tensorrt3ptq19Int8CacheCalibrator19Int8CacheCalibratorERKNSt6stringE", "torch_tensorrt::ptq::Int8CacheCalibrator::Int8CacheCalibrator::cache_file_path"], [3, 2, 1, "_CPPv4N14torch_tensorrt3ptq19Int8CacheCalibratorcvPN8nvinfer115IInt8CalibratorEEv", "torch_tensorrt::ptq::Int8CacheCalibrator::operator nvinfer1::IInt8Calibrator*"], [4, 1, 1, "_CPPv4I00EN14torch_tensorrt3ptq14Int8CalibratorE", "torch_tensorrt::ptq::Int8Calibrator"], [4, 7, 1, "_CPPv4I00EN14torch_tensorrt3ptq14Int8CalibratorE", "torch_tensorrt::ptq::Int8Calibrator::Algorithm"], [4, 7, 1, "_CPPv4I00EN14torch_tensorrt3ptq14Int8CalibratorE", "torch_tensorrt::ptq::Int8Calibrator::DataLoaderUniquePtr"], [4, 2, 1, "_CPPv4N14torch_tensorrt3ptq14Int8Calibrator14Int8CalibratorE19DataLoaderUniquePtrRKNSt6stringEb", "torch_tensorrt::ptq::Int8Calibrator::Int8Calibrator"], [4, 3, 1, "_CPPv4N14torch_tensorrt3ptq14Int8Calibrator14Int8CalibratorE19DataLoaderUniquePtrRKNSt6stringEb", "torch_tensorrt::ptq::Int8Calibrator::Int8Calibrator::cache_file_path"], [4, 3, 1, "_CPPv4N14torch_tensorrt3ptq14Int8Calibrator14Int8CalibratorE19DataLoaderUniquePtrRKNSt6stringEb", "torch_tensorrt::ptq::Int8Calibrator::Int8Calibrator::dataloader"], [4, 3, 1, "_CPPv4N14torch_tensorrt3ptq14Int8Calibrator14Int8CalibratorE19DataLoaderUniquePtrRKNSt6stringEb", "torch_tensorrt::ptq::Int8Calibrator::Int8Calibrator::use_cache"], [4, 2, 1, "_CPPv4N14torch_tensorrt3ptq14Int8CalibratorcvPN8nvinfer115IInt8CalibratorEEv", "torch_tensorrt::ptq::Int8Calibrator::operator nvinfer1::IInt8Calibrator*"], [29, 2, 1, "_CPPv4I0EN14torch_tensorrt3ptq26make_int8_cache_calibratorE19Int8CacheCalibratorI9AlgorithmERKNSt6stringE", "torch_tensorrt::ptq::make_int8_cache_calibrator"], [29, 7, 1, "_CPPv4I0EN14torch_tensorrt3ptq26make_int8_cache_calibratorE19Int8CacheCalibratorI9AlgorithmERKNSt6stringE", "torch_tensorrt::ptq::make_int8_cache_calibrator::Algorithm"], [29, 3, 1, "_CPPv4I0EN14torch_tensorrt3ptq26make_int8_cache_calibratorE19Int8CacheCalibratorI9AlgorithmERKNSt6stringE", "torch_tensorrt::ptq::make_int8_cache_calibrator::cache_file_path"], [30, 2, 1, "_CPPv4I00EN14torch_tensorrt3ptq20make_int8_calibratorE14Int8CalibratorI9Algorithm10DataLoaderE10DataLoaderRKNSt6stringEb", "torch_tensorrt::ptq::make_int8_calibrator"], [30, 7, 1, "_CPPv4I00EN14torch_tensorrt3ptq20make_int8_calibratorE14Int8CalibratorI9Algorithm10DataLoaderE10DataLoaderRKNSt6stringEb", "torch_tensorrt::ptq::make_int8_calibrator::Algorithm"], [30, 7, 1, "_CPPv4I00EN14torch_tensorrt3ptq20make_int8_calibratorE14Int8CalibratorI9Algorithm10DataLoaderE10DataLoaderRKNSt6stringEb", "torch_tensorrt::ptq::make_int8_calibrator::DataLoader"], [30, 3, 1, "_CPPv4I00EN14torch_tensorrt3ptq20make_int8_calibratorE14Int8CalibratorI9Algorithm10DataLoaderE10DataLoaderRKNSt6stringEb", "torch_tensorrt::ptq::make_int8_calibrator::cache_file_path"], [30, 3, 1, "_CPPv4I00EN14torch_tensorrt3ptq20make_int8_calibratorE14Int8CalibratorI9Algorithm10DataLoaderE10DataLoaderRKNSt6stringEb", "torch_tensorrt::ptq::make_int8_calibrator::dataloader"], [30, 3, 1, "_CPPv4I00EN14torch_tensorrt3ptq20make_int8_calibratorE14Int8CalibratorI9Algorithm10DataLoaderE10DataLoaderRKNSt6stringEb", "torch_tensorrt::ptq::make_int8_calibrator::use_cache"], [36, 2, 1, "_CPPv4N14torch_tensorrt10set_deviceEKi", "torch_tensorrt::set_device"], [36, 3, 1, "_CPPv4N14torch_tensorrt10set_deviceEKi", "torch_tensorrt::set_device::gpu_id"], [49, 1, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpecE", "torch_tensorrt::torchscript::CompileSpec"], [49, 2, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec11CompileSpecEN5torch3jit6IValueE", "torch_tensorrt::torchscript::CompileSpec::CompileSpec"], [49, 2, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec11CompileSpecENSt6vectorI5InputEE", "torch_tensorrt::torchscript::CompileSpec::CompileSpec"], [49, 2, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec11CompileSpecENSt6vectorIN3c108ArrayRefI7int64_tEEEE", "torch_tensorrt::torchscript::CompileSpec::CompileSpec"], [49, 2, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec11CompileSpecENSt6vectorINSt6vectorI7int64_tEEEE", "torch_tensorrt::torchscript::CompileSpec::CompileSpec"], [49, 3, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec11CompileSpecENSt6vectorIN3c108ArrayRefI7int64_tEEEE", "torch_tensorrt::torchscript::CompileSpec::CompileSpec::fixed_sizes"], [49, 3, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec11CompileSpecENSt6vectorINSt6vectorI7int64_tEEEE", "torch_tensorrt::torchscript::CompileSpec::CompileSpec::fixed_sizes"], [49, 3, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec11CompileSpecEN5torch3jit6IValueE", "torch_tensorrt::torchscript::CompileSpec::CompileSpec::input_signature"], [49, 3, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec11CompileSpecENSt6vectorI5InputEE", "torch_tensorrt::torchscript::CompileSpec::CompileSpec::inputs"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec19allow_shape_tensorsE", "torch_tensorrt::torchscript::CompileSpec::allow_shape_tensors"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec10capabilityE", "torch_tensorrt::torchscript::CompileSpec::capability"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec5debugE", "torch_tensorrt::torchscript::CompileSpec::debug"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec6deviceE", "torch_tensorrt::torchscript::CompileSpec::device"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec12disable_tf32E", "torch_tensorrt::torchscript::CompileSpec::disable_tf32"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec20dla_global_dram_sizeE", "torch_tensorrt::torchscript::CompileSpec::dla_global_dram_size"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec19dla_local_dram_sizeE", "torch_tensorrt::torchscript::CompileSpec::dla_local_dram_size"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec13dla_sram_sizeE", "torch_tensorrt::torchscript::CompileSpec::dla_sram_size"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec18enabled_precisionsE", "torch_tensorrt::torchscript::CompileSpec::enabled_precisions"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec12graph_inputsE", "torch_tensorrt::torchscript::CompileSpec::graph_inputs"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec14min_block_sizeE", "torch_tensorrt::torchscript::CompileSpec::min_block_size"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec20num_avg_timing_itersE", "torch_tensorrt::torchscript::CompileSpec::num_avg_timing_iters"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec14ptq_calibratorE", "torch_tensorrt::torchscript::CompileSpec::ptq_calibrator"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec5refitE", "torch_tensorrt::torchscript::CompileSpec::refit"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec24require_full_compilationE", "torch_tensorrt::torchscript::CompileSpec::require_full_compilation"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec14sparse_weightsE", "torch_tensorrt::torchscript::CompileSpec::sparse_weights"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec22torch_executed_modulesE", "torch_tensorrt::torchscript::CompileSpec::torch_executed_modules"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec18torch_executed_opsE", "torch_tensorrt::torchscript::CompileSpec::torch_executed_ops"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec24truncate_long_and_doubleE", "torch_tensorrt::torchscript::CompileSpec::truncate_long_and_double"], [49, 6, 1, "_CPPv4N14torch_tensorrt11torchscript11CompileSpec14workspace_sizeE", "torch_tensorrt::torchscript::CompileSpec::workspace_size"], [31, 2, 1, "_CPPv4N14torch_tensorrt11torchscript29check_method_operator_supportERKN5torch3jit6ModuleENSt6stringE", "torch_tensorrt::torchscript::check_method_operator_support"], [31, 3, 1, "_CPPv4N14torch_tensorrt11torchscript29check_method_operator_supportERKN5torch3jit6ModuleENSt6stringE", "torch_tensorrt::torchscript::check_method_operator_support::method_name"], [31, 3, 1, "_CPPv4N14torch_tensorrt11torchscript29check_method_operator_supportERKN5torch3jit6ModuleENSt6stringE", "torch_tensorrt::torchscript::check_method_operator_support::module"], [32, 2, 1, "_CPPv4N14torch_tensorrt11torchscript7compileERKN5torch3jit6ModuleE11CompileSpec", "torch_tensorrt::torchscript::compile"], [32, 3, 1, "_CPPv4N14torch_tensorrt11torchscript7compileERKN5torch3jit6ModuleE11CompileSpec", "torch_tensorrt::torchscript::compile::info"], [32, 3, 1, "_CPPv4N14torch_tensorrt11torchscript7compileERKN5torch3jit6ModuleE11CompileSpec", "torch_tensorrt::torchscript::compile::module"], [34, 2, 1, "_CPPv4N14torch_tensorrt11torchscript28convert_method_to_trt_engineERKN5torch3jit6ModuleENSt6stringE11CompileSpec", "torch_tensorrt::torchscript::convert_method_to_trt_engine"], [34, 3, 1, "_CPPv4N14torch_tensorrt11torchscript28convert_method_to_trt_engineERKN5torch3jit6ModuleENSt6stringE11CompileSpec", "torch_tensorrt::torchscript::convert_method_to_trt_engine::info"], [34, 3, 1, "_CPPv4N14torch_tensorrt11torchscript28convert_method_to_trt_engineERKN5torch3jit6ModuleENSt6stringE11CompileSpec", "torch_tensorrt::torchscript::convert_method_to_trt_engine::method_name"], [34, 3, 1, "_CPPv4N14torch_tensorrt11torchscript28convert_method_to_trt_engineERKN5torch3jit6ModuleENSt6stringE11CompileSpec", "torch_tensorrt::torchscript::convert_method_to_trt_engine::module"], [33, 2, 1, "_CPPv4N14torch_tensorrt11torchscript26embed_engine_in_new_moduleERKNSt6stringE6DeviceRKNSt6vectorINSt6stringEEERKNSt6vectorINSt6stringEEE", "torch_tensorrt::torchscript::embed_engine_in_new_module"], [33, 3, 1, "_CPPv4N14torch_tensorrt11torchscript26embed_engine_in_new_moduleERKNSt6stringE6DeviceRKNSt6vectorINSt6stringEEERKNSt6vectorINSt6stringEEE", "torch_tensorrt::torchscript::embed_engine_in_new_module::device"], [33, 3, 1, "_CPPv4N14torch_tensorrt11torchscript26embed_engine_in_new_moduleERKNSt6stringE6DeviceRKNSt6vectorINSt6stringEEERKNSt6vectorINSt6stringEEE", "torch_tensorrt::torchscript::embed_engine_in_new_module::engine"], [33, 3, 1, "_CPPv4N14torch_tensorrt11torchscript26embed_engine_in_new_moduleERKNSt6stringE6DeviceRKNSt6vectorINSt6stringEEERKNSt6vectorINSt6stringEEE", "torch_tensorrt::torchscript::embed_engine_in_new_module::input_binding_names"], [33, 3, 1, "_CPPv4N14torch_tensorrt11torchscript26embed_engine_in_new_moduleERKNSt6stringE6DeviceRKNSt6vectorINSt6stringEEERKNSt6vectorINSt6stringEEE", "torch_tensorrt::torchscript::embed_engine_in_new_module::output_binding_names"], [75, 8, 0, "-", "torch_tensorrt"]], "torch_tensorrt": [[75, 9, 1, "", "Device"], [75, 9, 1, "", "DeviceType"], [75, 9, 1, "", "EngineCapability"], [75, 9, 1, "", "Input"], [75, 9, 1, "", "MutableTorchTensorRTModule"], [75, 12, 1, "", "compile"], [75, 12, 1, "", "convert_method_to_trt_engine"], [75, 9, 1, "", "dtype"], [111, 8, 0, "-", "dynamo"], [71, 8, 0, "-", "fx"], [75, 12, 1, "", "load"], [72, 8, 0, "-", "logging"], [75, 9, 1, "", "memory_format"], [74, 8, 0, "-", "runtime"], [75, 12, 1, "", "save"], [76, 8, 0, "-", "ts"]], "torch_tensorrt.Device": [[75, 10, 1, "", "__init__"], [75, 11, 1, "", "device_type"], [75, 11, 1, "", "dla_core"], [75, 11, 1, "", "gpu_id"]], "torch_tensorrt.DeviceType": [[75, 11, 1, "", "DLA"], [75, 11, 1, "", "GPU"], [75, 11, 1, "", "UNKNOWN"], [75, 10, 1, "", "to"], [75, 10, 1, "", "try_from"], [75, 10, 1, "", "try_to"]], "torch_tensorrt.EngineCapability": [[75, 11, 1, "", "DLA_STANDALONE"], [75, 11, 1, "", "SAFETY"], [75, 11, 1, "", "STANDARD"], [75, 10, 1, "", "to"], [75, 10, 1, "", "try_from"], [75, 10, 1, "", "try_to"]], "torch_tensorrt.Input": [[75, 10, 1, "", "__init__"], [75, 11, 1, "", "dtype"], [75, 10, 1, "", "example_tensor"], [75, 11, 1, "", "format"], [75, 10, 1, "", "from_tensor"], [75, 10, 1, "", "from_tensors"]], "torch_tensorrt.MutableTorchTensorRTModule": [[75, 10, 1, "", "__init__"], [75, 10, 1, "", "compile"], [75, 10, 1, "", "refit_gm"]], "torch_tensorrt.dtype": [[75, 11, 1, "", "b"], [75, 11, 1, "", "bf16"], [75, 11, 1, "", "f16"], [75, 11, 1, "", "f32"], [75, 11, 1, "", "f64"], [75, 11, 1, "", "f8"], [75, 11, 1, "", "i32"], [75, 11, 1, "", "i64"], [75, 11, 1, "", "i8"], [75, 10, 1, "", "to"], [75, 10, 1, "", "try_from"], [75, 10, 1, "", "try_to"], [75, 11, 1, "", "u8"], [75, 11, 1, "", "unknown"]], "torch_tensorrt.dynamo": [[70, 9, 1, "", "CompilationSettings"], [70, 12, 1, "", "compile"], [70, 12, 1, "", "export"], [70, 12, 1, "", "refit_module_weights"], [70, 12, 1, "", "trace"]], "torch_tensorrt.fx": [[71, 9, 1, "", "InputTensorSpec"], [71, 9, 1, "", "TRTInterpreter"], [71, 9, 1, "", "TRTInterpreterResult"], [71, 9, 1, "", "TRTModule"], [71, 12, 1, "", "compile"]], "torch_tensorrt.logging": [[72, 9, 1, "", "debug"], [72, 9, 1, "", "errors"], [72, 9, 1, "", "graphs"], [72, 9, 1, "", "info"], [72, 9, 1, "", "internal_errors"], [72, 9, 1, "", "warnings"]], "torch_tensorrt.memory_format": [[75, 11, 1, "", "cdhw32"], [75, 11, 1, "", "chw16"], [75, 11, 1, "", "chw2"], [75, 11, 1, "", "chw32"], [75, 11, 1, "", "chw4"], [75, 11, 1, "", "dhwc"], [75, 11, 1, "", "dhwc8"], [75, 11, 1, "", "dla_hwc4"], [75, 11, 1, "", "dla_linear"], [75, 11, 1, "", "hwc"], [75, 11, 1, "", "hwc16"], [75, 11, 1, "", "hwc8"], [75, 11, 1, "", "linear"], [75, 10, 1, "", "to"], [75, 10, 1, "", "try_from"], [75, 10, 1, "", "try_to"]], "torch_tensorrt.runtime": [[74, 9, 1, "", "PythonTorchTensorRTModule"], [74, 9, 1, "", "TorchTensorRTModule"], [74, 12, 1, "", "set_multi_device_safe_mode"]], "torch_tensorrt.runtime.PythonTorchTensorRTModule": [[74, 10, 1, "", "__init__"], [74, 10, 1, "", "cudagraphs_validate_shapes"], [74, 10, 1, "", "disable_profiling"], [74, 10, 1, "", "enable_profiling"], [74, 10, 1, "", "forward"], [74, 10, 1, "", "get_layer_info"]], "torch_tensorrt.runtime.TorchTensorRTModule": [[74, 10, 1, "", "__init__"], [74, 10, 1, "", "forward"], [74, 10, 1, "", "get_extra_state"], [74, 10, 1, "", "set_extra_state"]], "torch_tensorrt.ts": [[76, 12, 1, "", "TensorRTCompileSpec"], [76, 12, 1, "", "check_method_op_support"], [76, 12, 1, "", "compile"], [76, 12, 1, "", "convert_method_to_trt_engine"], [76, 12, 1, "", "embed_engine_in_new_module"], [73, 8, 0, "-", "ptq"]], "torch_tensorrt.ts.ptq": [[73, 9, 1, "", "CacheCalibrator"], [73, 9, 1, "", "CalibrationAlgo"], [73, 9, 1, "", "DataLoaderCalibrator"]], "torch_tensorrt.ts.ptq.CalibrationAlgo": [[73, 11, 1, "", "ENTROPY_CALIBRATION"], [73, 11, 1, "", "ENTROPY_CALIBRATION_2"], [73, 11, 1, "", "LEGACY_CALIBRATION"], [73, 11, 1, "", "MINMAX_CALIBRATION"]]}, "objtypes": {"0": "c:macro", "1": "cpp:class", "2": "cpp:function", "3": "cpp:functionParam", "4": "cpp:enum", "5": "cpp:enumerator", "6": "cpp:member", "7": "cpp:templateParam", "8": "py:module", "9": "py:class", "10": "py:method", "11": "py:attribute", "12": "py:function"}, "objnames": {"0": ["c", "macro", "C macro"], "1": ["cpp", "class", "C++ class"], "2": ["cpp", "function", "C++ function"], "3": ["cpp", "functionParam", "C++ function parameter"], "4": ["cpp", "enum", "C++ enum"], "5": ["cpp", "enumerator", "C++ enumerator"], "6": ["cpp", "member", "C++ member"], "7": ["cpp", "templateParam", "C++ template parameter"], "8": ["py", "module", "Python module"], "9": ["py", "class", "Python class"], "10": ["py", "method", "Python method"], "11": ["py", "attribute", "Python attribute"], "12": ["py", "function", "Python function"]}, "titleterms": {"class": [0, 1, 2, 3, 4, 20, 21, 38, 40, 41, 50, 70, 71, 73, 74, 75], "datatyp": 0, "document": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 16, 17, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 46, 47, 48, 49, 61, 68, 84, 85], "devic": [1, 46, 110], "devicetyp": 1, "nest": [1, 46], "relationship": [1, 3, 4, 46, 48], "tensorformat": 2, "templat": [3, 4, 29, 30], "int8cachecalibr": 3, "inherit": [3, 4, 48], "base": [3, 4, 48, 79], "type": [3, 4, 46, 48, 54], "int8calibr": 4, "defin": [5, 6, 7, 8, 9, 10, 11, 12, 19, 50, 105], "str": 5, "torch_tensorrt_patch_vers": 6, "torch_tensorrt_major_vers": 7, "torch_tensorrt_minor_vers": 8, "torchtrt_api": 9, "xstr": 10, "torchtrt_hidden": 11, "torch_tensorrt_vers": 12, "directori": [13, 14, 15, 51], "cpp": [13, 18, 19, 20, 21, 56], "subdirectori": [13, 14], "includ": [14, 18, 19, 20, 21], "torch_tensorrt": [15, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 45, 70, 71, 72, 73, 74, 75, 76, 99, 101, 102, 112], "file": [15, 18, 19, 20, 21, 42, 43, 44, 45, 50, 51], "enum": [16, 17, 38, 39, 50, 73, 75], "level": [16, 79, 81, 82], "enginecap": 17, "log": [18, 22, 23, 24, 25, 26, 27, 28, 39, 42, 72], "h": [18, 19, 20, 21, 42, 43, 44, 45, 56], "content": [18, 19, 20, 21, 38, 39, 40, 41, 79, 80, 81, 82, 83, 84], "definit": [18, 19, 20, 21, 82, 97, 98, 99, 100, 101, 102, 103, 104, 105], "By": [18, 19], "namespac": [18, 19, 20, 21, 38, 39, 40, 41, 50], "macro": [19, 43], "ptq": [20, 29, 30, 40, 44, 73, 90, 105], "function": [22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 50, 61, 70, 71, 74, 75, 76, 105], "get_logging_prefix": 22, "get_reportable_log_level": 23, "get_is_colored_output_on": 24, "set_reportable_log_level": 25, "set_is_colored_output_on": 27, "set_logging_prefix": 28, "make_int8_cache_calibr": 29, "make_int8_calibr": 30, "torchscript": [31, 32, 33, 34, 41, 60, 66, 68, 87, 88, 91, 111, 112], "check_method_operator_support": 31, "compil": [32, 57, 59, 63, 64, 66, 67, 68, 88, 94, 95, 97, 98, 99, 100, 101, 102, 103, 104, 106, 107, 109, 111, 112], "embed_engine_in_new_modul": 33, "convert_method_to_trt_engin": 34, "get_build_info": 35, "set_devic": 36, "dump_build_info": 37, "program": [42, 43, 44, 45, 63, 97, 110], "list": [42, 43, 44, 45, 82], "struct": [46, 47, 48, 49, 50], "graphinput": 47, "input": [48, 99, 101], "compilespec": 49, "torch": [50, 61, 63, 64, 65, 66, 67, 68, 88, 89, 91, 92, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112], "tensorrt": [50, 58, 61, 63, 64, 65, 66, 68, 88, 89, 91, 92, 96, 97, 99, 101, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112], "c": [50, 61, 66, 67, 68, 88, 90, 107], "api": [50, 51, 61, 66, 68], "hierarchi": 50, "full": [50, 51], "torchtrtc": [52, 88], "convers": [53, 57, 59, 60], "phase": [53, 55, 56, 57, 58, 59], "node": 53, "evalu": [53, 54, 69], "convert": [53, 54, 60, 65, 69, 88], "write": [54, 60, 62, 92], "dynamo": [54, 62, 68, 70, 95, 103, 104, 106, 111, 112], "implement": 54, "registr": 54, "capabl": 54, "valid": 54, "contract": [54, 60], "exampl": [54, 62, 81, 83, 107], "convolut": 54, "oper": [54, 64, 69, 88, 92], "decomposit": 54, "addmm": [54, 55], "lower": [55, 57, 59, 62], "pass": [55, 62], "us": [55, 61, 88, 89, 91, 92, 98, 99, 101, 102, 103, 104, 105, 107, 109], "eliminatecommonsubexpress": 55, "elimin": 55, "dead": 55, "code": [55, 68, 81], "except": 55, "Or": 55, "pattern": 55, "redund": 55, "guard": 55, "freez": 55, "modul": [55, 87, 88, 96, 112], "fuse": 55, "branch": 55, "linear": 55, "flatten": 55, "graph": [55, 58, 112], "tupl": 55, "fallback": [55, 56], "peephol": 55, "optim": [55, 67, 108], "remov": 55, "contigu": 55, "dropout": 55, "To": 55, "unpack": 55, "logsoftmax": 55, "unrol": 55, "loop": [55, 105], "replac": [55, 81], "tile": 55, "repeat": 55, "partit": [56, 57, 59], "partitoninfo": 56, "segmentedblock": 56, "shape_analysi": 56, "automat": 56, "depend": [56, 66], "awar": [56, 107], "runtim": [57, 58, 59, 74, 110], "background": [58, 60], "engin": [58, 65, 92, 93, 94], "executor": 58, "op": [58, 65, 92], "construct": 58, "result": 58, "serial": [58, 64, 67], "deseri": 58, "abi": [58, 66], "version": [58, 66], "format": [58, 112], "system": [59, 66], "overview": 59, "what": 60, "guarante": 60, "respons": 60, "context": [60, 79], "arg": [60, 80], "weight": [60, 97, 105], "other": 60, "advic": 60, "link": [61, 81], "develop": 61, "avail": 61, "layer": 61, "expect": 61, "dimens": 61, "python": [61, 66, 67, 68, 87, 89, 90], "sometim": 61, "easier": 61, "read": 61, "pytorch": [61, 65, 68, 91, 92, 103, 104, 107], "native_op": 61, "ir": [61, 111, 112], "aten": 62, "basic": 62, "requir": 62, "regist": [62, 88], "export": [63, 67, 102, 109], "customiz": [63, 64], "set": [63, 64, 96, 98, 102, 108], "under": [63, 88, 109], "hood": [63, 88, 109], "trace": 63, "backend": [64, 99, 103, 104], "kei": 64, "featur": 64, "custom": [64, 88, 92, 94, 98, 109], "usag": [64, 97, 98], "after": 64, "model": [64, 65, 92, 97, 98, 99, 100, 101, 102, 103, 104, 105, 107, 108, 111], "perform": 64, "coverag": 64, "feasibl": 64, "dynam": [64, 99, 107, 109], "shape": [64, 99, 107, 109], "support": [64, 69], "recompil": [64, 99], "condit": 64, "fx": [65, 68, 71, 107, 112], "frontend": [65, 66, 68, 91, 107, 112], "user": [65, 68], "guid": [65, 68], "acc": 65, "tracer": 65, "fx2trt": 65, "how": [65, 79, 90], "add": 65, "miss": 65, "instal": [66, 86], "precompil": 66, "binari": 66, "specif": 66, "cuda": [66, 98, 101], "nightli": 66, "build": [66, 79, 108], "onli": 66, "from": [66, 91], "sourc": 66, "linux": 66, "packag": [66, 110], "addit": 66, "option": [66, 67, 79, 80, 82, 99, 101, 112], "distribut": 66, "No": 66, "librari": [66, 110], "standalon": 66, "releas": 66, "debug": 66, "pre": [66, 105], "cxx11": 66, "choos": 66, "right": 66, "window": 66, "step": [66, 67, 108], "advanc": [66, 97, 98], "setup": 66, "troubleshoot": 66, "altern": 66, "cmake": 66, "nativ": 66, "aarch64": 66, "jetson": 66, "prerequisit": 66, "environ": 66, "cli": [66, 68], "quick": 67, "start": [67, 68], "1": [67, 83, 108], "2": [67, 83, 84, 108], "deploi": [67, 105, 107, 110], "deploy": 67, "In": [68, 97], "framework": 68, "infer": [68, 99, 100, 101, 102, 105, 108], "nvidia": 68, "gpu": 68, "get": 68, "tutori": [68, 106], "contributor": 68, "indic": 68, "legaci": [68, 112], "further": 68, "inform": 68, "current": 69, "through": 69, "ts": [73, 76, 112], "submodul": 75, "comput": 77, "time": [77, 112], "changelog": 78, "configur": 79, "project": 79, "wide": 79, "html": 79, "theme": [79, 85], "toc": 79, "page": 79, "tabl": [79, 80, 81, 82, 83, 84], "mod": 80, "test_py_modul": 80, "gener": [80, 103, 104], "index": 80, "paramet": 80, "data": 80, "paragraph": [81, 84], "markup": 81, "inlin": 81, "math": 81, "meta": 81, "block": 81, "liter": 81, "line": 81, "quot": 81, "doctest": 81, "emphas": 81, "number": [81, 82], "sidebar": 81, "ch": 81, "ien": 81, "The": [81, 88, 103, 104], "creativ": 81, "A": 81, "refer": 81, "footnot": 81, "citat": [81, 90], "glossari": 81, "target": 81, "direct": 81, "center": 81, "text": [81, 103, 104], "imag": [81, 82], "figur": 81, "admonit": 81, "And": 81, "wai": 81, "topic": 81, "rubric": 81, "titl": 81, "compound": 81, "download": [81, 86], "enumer": 82, "field": 82, "bullet": 82, "second": 82, "But": 82, "deeper": 82, "down": 82, "rabbit": 82, "hole": 82, "hlist": 82, "grid": 82, "giant": 82, "can": 82, "have": 82, "caption": [82, 85], "like": [82, 103, 104], "thi": [82, 85], "one": 82, "long": [83, 85], "sticki": 83, "nav": 83, "menu": [83, 85], "3": [83, 108], "4": 83, "5": 83, "6": 83, "7": 83, "8": 83, "9": 83, "10": 83, "11": 83, "12": 83, "13": 83, "14": 83, "15": 83, "16": 83, "17": 83, "18": 83, "19": 83, "20": 83, "submenu": 83, "subsubmenu": 83, "structur": 84, "element": 84, "section": 84, "subsect": 84, "subsubsect": 84, "demo": 85, "an": 85, "incred": 85, "via": 86, "git": 86, "creat": [87, 90], "work": [87, 88], "save": [87, 96, 111], "disk": 87, "quickstart": 88, "unsupport": 88, "post": 90, "train": [90, 105, 107], "quantiz": [90, 105, 107], "your": [90, 108], "own": 90, "applic": 90, "directli": 91, "kernel": 92, "within": 92, "test": 92, "our": 92, "wrap": 92, "insert": 92, "cach": [93, 94, 97], "bert": [93, 107], "jit": [94, 109], "aot": [94, 109], "mutabl": 96, "initi": 96, "make": [96, 97], "modif": 96, "stabl": [96, 100], "diffus": [96, 100], "huggingfac": 96, "refit": 97, "new": 97, "standard": 97, "workflow": 97, "import": [97, 98, 99, 100, 101, 102, 103, 104, 105], "pretrain": 97, "map": 97, "place": 97, "default": [98, 102], "cleanup": [98, 101], "driver": [98, 101], "error": [98, 101], "note": [98, 101], "resnet": 99, "argument": [99, 101], "avoid": 99, "specifi": 99, "befor": 99, "trt": 99, "transform": [101, 107], "cudagraph": [102, 110], "integr": 102, "gpt2": 103, "output": [103, 104], "decod": [103, 104], "sentenc": [103, 104], "should": [103, 104], "look": [103, 104], "i": [103, 104], "enjoi": [103, 104], "walk": [103, 104], "my": [103, 104], "cute": [103, 104], "dog": [103, 104], "m": [103, 104], "sure": [103, 104], "ll": [103, 104], "ever": [103, 104], "abl": [103, 104], "llama2": 104, "load": [105, 111], "dataset": 105, "loss": 105, "calibr": 105, "tune": 105, "fp8": 105, "notebook": 107, "citrinet": 107, "efficientnet": 107, "mask": 107, "languag": 107, "mlm": 107, "hug": 107, "face": 107, "acceler": 107, "serv": [107, 108], "resnet50": 107, "lenet": 107, "deep": 107, "learn": 107, "object": 107, "detect": 107, "ssd": 107, "int8": 107, "triton": 108, "up": 108, "server": 108, "client": 108, "queri": 108, "constraint": 109, "libtorchtrt": 110, "so": 110, "plugin": 110, "multi": 110, "safe": 110, "mode": 110, "exportedprogram": 111, "b": 111, "explain": 112, "just": 112, "accept": 112, "return": 112, "ahead": 112, "dla": 113}, "envversion": {"sphinx.domains.c": 2, "sphinx.domains.changeset": 1, "sphinx.domains.citation": 1, "sphinx.domains.cpp": 6, "sphinx.domains.index": 1, "sphinx.domains.javascript": 2, "sphinx.domains.math": 2, "sphinx.domains.python": 3, "sphinx.domains.rst": 2, "sphinx.domains.std": 2, "nbsphinx": 4, "sphinx.ext.intersphinx": 1, "sphinx.ext.todo": 2, "sphinx.ext.viewcode": 1, "sphinx": 56}})
\ No newline at end of file
diff --git a/docs/sg_execution_times.html b/docs/sg_execution_times.html
index d1e3f6baa0..fcd5e37e95 100644
--- a/docs/sg_execution_times.html
+++ b/docs/sg_execution_times.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Computation times &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Computation times &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -273,7 +273,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -314,6 +314,9 @@
 <li class="toctree-l1"><a class="reference internal" href="user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -339,7 +342,6 @@
 <li class="toctree-l1"><a class="reference internal" href="tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/src/pytorch-sphinx-theme/docs/changelog.html b/docs/src/pytorch-sphinx-theme/docs/changelog.html
index 82891bb9c2..e646fcebe4 100644
--- a/docs/src/pytorch-sphinx-theme/docs/changelog.html
+++ b/docs/src/pytorch-sphinx-theme/docs/changelog.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Changelog &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Changelog &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -273,7 +273,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -314,6 +314,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -339,7 +342,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/src/pytorch-sphinx-theme/docs/configuring.html b/docs/src/pytorch-sphinx-theme/docs/configuring.html
index 8545fd1470..efa25349a2 100644
--- a/docs/src/pytorch-sphinx-theme/docs/configuring.html
+++ b/docs/src/pytorch-sphinx-theme/docs/configuring.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Configuration &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Configuration &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -273,7 +273,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -314,6 +314,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -339,7 +342,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/src/pytorch-sphinx-theme/docs/demo/api.html b/docs/src/pytorch-sphinx-theme/docs/demo/api.html
index a884a8ba17..f264bd5294 100644
--- a/docs/src/pytorch-sphinx-theme/docs/demo/api.html
+++ b/docs/src/pytorch-sphinx-theme/docs/demo/api.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>5. :mod:`test_py_module` &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>5. :mod:`test_py_module` &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -273,7 +273,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -314,6 +314,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -339,7 +342,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/src/pytorch-sphinx-theme/docs/demo/demo.html b/docs/src/pytorch-sphinx-theme/docs/demo/demo.html
index dd66b666f9..7272488bec 100644
--- a/docs/src/pytorch-sphinx-theme/docs/demo/demo.html
+++ b/docs/src/pytorch-sphinx-theme/docs/demo/demo.html
@@ -12,7 +12,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>3. Paragraph Level Markup &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>3. Paragraph Level Markup &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
@@ -652,7 +654,7 @@ <h3><a class="toc-backref" href="#id41"><span class="section-number">3.4.4. </sp
 <section id="code-blocks">
 <h3><a class="toc-backref" href="#id42"><span class="section-number">3.4.5. </span>Code Blocks</a><a class="headerlink" href="#code-blocks" title="Permalink to this heading">¶</a></h3>
 <pre class="literal-block"># parsed-literal test
-curl -O <a class="reference external" href="http://someurl/release">http://someurl/release</a>-v2.5.0.dev0+b3a8cdd.tar-gz</pre>
+curl -O <a class="reference external" href="http://someurl/release">http://someurl/release</a>-v2.5.0.dev0+a4a9419.tar-gz</pre>
 <div class="literal-block-wrapper docutils container" id="id23">
 <div class="code-block-caption"><span class="caption-text">Code Blocks can have captions.</span><a class="headerlink" href="#id23" title="Permalink to this code">¶</a></div>
 <div class="highlight-json notranslate"><div class="highlight"><pre><span></span><span class="p">{</span>
diff --git a/docs/src/pytorch-sphinx-theme/docs/demo/lists_tables.html b/docs/src/pytorch-sphinx-theme/docs/demo/lists_tables.html
index 5df1c62548..5e1246004e 100644
--- a/docs/src/pytorch-sphinx-theme/docs/demo/lists_tables.html
+++ b/docs/src/pytorch-sphinx-theme/docs/demo/lists_tables.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>4. Lists &amp; Tables &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>4. Lists &amp; Tables &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -273,7 +273,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -314,6 +314,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -339,7 +342,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/src/pytorch-sphinx-theme/docs/demo/long.html b/docs/src/pytorch-sphinx-theme/docs/demo/long.html
index fea7475841..1aae3b7da0 100644
--- a/docs/src/pytorch-sphinx-theme/docs/demo/long.html
+++ b/docs/src/pytorch-sphinx-theme/docs/demo/long.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>1. Long Sticky Nav &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>1. Long Sticky Nav &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -273,7 +273,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -314,6 +314,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -339,7 +342,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/src/pytorch-sphinx-theme/docs/demo/structure.html b/docs/src/pytorch-sphinx-theme/docs/demo/structure.html
index fb735dafbd..b6bc26b3bd 100644
--- a/docs/src/pytorch-sphinx-theme/docs/demo/structure.html
+++ b/docs/src/pytorch-sphinx-theme/docs/demo/structure.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>1. Structural Elements &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>1. Structural Elements &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -273,7 +273,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -314,6 +314,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -339,7 +342,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/src/pytorch-sphinx-theme/docs/index.html b/docs/src/pytorch-sphinx-theme/docs/index.html
index e9df05c2a6..a2b55e5edf 100644
--- a/docs/src/pytorch-sphinx-theme/docs/index.html
+++ b/docs/src/pytorch-sphinx-theme/docs/index.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>&lt;no title&gt; &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>&lt;no title&gt; &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -273,7 +273,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -314,6 +314,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -339,7 +342,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/src/pytorch-sphinx-theme/docs/installing.html b/docs/src/pytorch-sphinx-theme/docs/installing.html
index cdcf68046b..b247fb7447 100644
--- a/docs/src/pytorch-sphinx-theme/docs/installing.html
+++ b/docs/src/pytorch-sphinx-theme/docs/installing.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Installation &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Installation &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -273,7 +273,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -314,6 +314,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -339,7 +342,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/ts/creating_torchscript_module_in_python.html b/docs/ts/creating_torchscript_module_in_python.html
index 5e79e61ce1..e69108f233 100644
--- a/docs/ts/creating_torchscript_module_in_python.html
+++ b/docs/ts/creating_torchscript_module_in_python.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Creating a TorchScript Module &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Creating a TorchScript Module &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/ts/getting_started_with_cpp_api.html b/docs/ts/getting_started_with_cpp_api.html
index fcf6066b49..27e5cdb666 100644
--- a/docs/ts/getting_started_with_cpp_api.html
+++ b/docs/ts/getting_started_with_cpp_api.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Using Torch-TensorRT in C++ &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Using Torch-TensorRT in C++ &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/ts/getting_started_with_python_api.html b/docs/ts/getting_started_with_python_api.html
index 828f0a0f84..f1226b66fb 100644
--- a/docs/ts/getting_started_with_python_api.html
+++ b/docs/ts/getting_started_with_python_api.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Using Torch-TensorRT in Python &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Using Torch-TensorRT in Python &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/ts/ptq.html b/docs/ts/ptq.html
index 822feb5bbd..637d131cbb 100644
--- a/docs/ts/ptq.html
+++ b/docs/ts/ptq.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Post Training Quantization (PTQ) &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Post Training Quantization (PTQ) &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/ts/torchscript_frontend_from_pytorch.html b/docs/ts/torchscript_frontend_from_pytorch.html
index 82c0c3d8a9..12e3b01adf 100644
--- a/docs/ts/torchscript_frontend_from_pytorch.html
+++ b/docs/ts/torchscript_frontend_from_pytorch.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Using Torch-TensorRT TorchScript Frontend Directly From PyTorch &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Using Torch-TensorRT TorchScript Frontend Directly From PyTorch &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -273,7 +273,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -314,6 +314,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -339,7 +342,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html b/docs/tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html
index a13cdc7ebf..4713924e27 100644
--- a/docs/tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html
+++ b/docs/tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Using Custom Kernels within TensorRT Engines with Torch-TensorRT &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Using Custom Kernels within TensorRT Engines with Torch-TensorRT &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1 current"><a class="current reference internal" href="#">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/tutorials/_rendered_examples/dynamo/engine_caching_bert_example.html b/docs/tutorials/_rendered_examples/dynamo/engine_caching_bert_example.html
new file mode 100644
index 0000000000..c2978b115e
--- /dev/null
+++ b/docs/tutorials/_rendered_examples/dynamo/engine_caching_bert_example.html
@@ -0,0 +1,868 @@
+
+
+
+<!DOCTYPE html>
+<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
+<!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
+<head>
+  <meta charset="utf-8">
+  <meta name="generator" content="Docutils 0.17.1: http://docutils.sourceforge.net/" />
+
+  <meta name="viewport" content="width=device-width, initial-scale=1.0">
+  
+  <title>Engine Caching (BERT) &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
+  
+
+  
+  
+  
+  
+
+  
+
+  
+  
+    
+
+  
+
+  <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
+  <!-- <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/sg_gallery.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/sg_gallery-binder.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/sg_gallery-dataframe.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/sg_gallery-rendered-html.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/collapsible-lists/css/tree_view.css" type="text/css" />
+  <link rel="stylesheet" href="https://cdn.jsdelivr.net/npm/katex@0.10.0-beta/dist/katex.min.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/css/custom.css" type="text/css" />
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" />
+  <!-- Google Tag Manager -->
+    <script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({'gtm.start':
+    new Date().getTime(),event:'gtm.js'});var f=d.getElementsByTagName(s)[0],
+    j=d.createElement(s),dl=l!='dataLayer'?'&l='+l:'';j.async=true;j.src=
+    'https://www.googletagmanager.com/gtm.js?id='+i+dl;f.parentNode.insertBefore(j,f);
+    })(window,document,'script','dataLayer','');</script>
+    <!-- End Google Tag Manager -->
+  
+
+  
+  <script src="../../../_static/js/modernizr.min.js"></script>
+
+  <!-- Preload the theme fonts -->
+
+<link rel="preload" href="../../../_static/fonts/FreightSans/freight-sans-book.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/FreightSans/freight-sans-medium.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/IBMPlexMono/IBMPlexMono-Medium.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/FreightSans/freight-sans-bold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/FreightSans/freight-sans-medium-italic.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/IBMPlexMono/IBMPlexMono-SemiBold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+
+<!-- Preload the katex fonts -->
+
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Math-Italic.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Main-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Main-Bold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size1-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size4-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size2-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size3-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Caligraphic-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+  <link rel="stylesheet" href="https://use.fontawesome.com/releases/v5.15.2/css/all.css" integrity="sha384-vSIIfh2YWi9wW0r9iZe7RJPrKwp6bG+s9QZMoITbCckVJqGCCRhc+ccxNcdpHuYu" crossorigin="anonymous">
+</head>
+
+<div class="container-fluid header-holder tutorials-header" id="header-holder">
+  <div class="container">
+    <div class="header-container">
+      <a class="header-logo" href="https://pytorch.org/" aria-label="PyTorch"></a>
+
+      <div class="main-menu">
+        <ul>
+
+          <li class="main-menu-item">
+          <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                Learn
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/get-started">
+                  <span class=dropdown-title>Get Started</span>
+                  <p>Run PyTorch locally or get started quickly with one of the supported cloud platforms</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/tutorials">
+                  <span class="dropdown-title">Tutorials</span>
+                  <p>Whats new in PyTorch tutorials</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/tutorials/beginner/basics/intro.html">
+                  <span class="dropdown-title">Learn the Basics</span>
+                  <p>Familiarize yourself with PyTorch concepts and modules</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/tutorials/recipes/recipes_index.html">
+                  <span class="dropdown-title">PyTorch Recipes</span>
+                  <p>Bite-size, ready-to-deploy PyTorch code examples</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/tutorials/beginner/introyt.html">
+                  <span class="dropdown-title">Intro to PyTorch - YouTube Series</span>
+                  <p>Master PyTorch basics with our engaging YouTube tutorial series</p>
+                </a>
+              </div>
+            </div>
+          </li>
+
+          <li>
+          <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                Ecosystem
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/ecosystem">
+                  <span class="dropdown-title">Tools</span>
+                  <p>Learn about the tools and frameworks in the PyTorch Ecosystem</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/#community-module">
+                  <span class=dropdown-title>Community</span>
+                  <p>Join the PyTorch developer community to contribute, learn, and get your questions answered</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://discuss.pytorch.org/" target="_blank">
+                  <span class=dropdown-title>Forums</span>
+                  <p>A place to discuss PyTorch code, issues, install, research</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/resources">
+                  <span class=dropdown-title>Developer Resources</span>
+                  <p>Find resources and get questions answered</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/ecosystem/contributor-awards-2023">
+                  <span class="dropdown-title">Contributor Awards - 2023</span>
+                  <p>Award winners announced at this year's PyTorch Conference</p>
+                </a>
+              </div>
+            </div>
+          </li>
+
+          <li>
+          <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                Edge
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/edge">
+                  <span class="dropdown-title">About PyTorch Edge</span>
+                  <p>Build innovative and privacy-aware AI experiences for edge devices</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/executorch-overview">
+                  <span class="dropdown-title">ExecuTorch</span>
+                  <p>End-to-end solution for enabling on-device inference capabilities across mobile and edge devices</p>
+                </a>
+              </div>
+            </div>  
+          </li>
+
+          <li class="main-menu-item">
+            <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                Docs
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/docs/stable/index.html">
+                  <span class="dropdown-title">PyTorch</span>
+                  <p>Explore the documentation for comprehensive guidance on how to use PyTorch</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/pytorch-domains">
+                  <span class="dropdown-title">PyTorch Domains</span>
+                  <p>Read the PyTorch Domains documentation to learn more about domain-specific libraries</p>
+                </a>
+              </div>
+            </div>
+          </li>
+
+          <li>
+            <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                Blogs & News 
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/blog/">
+                  <span class="dropdown-title">PyTorch Blog</span>
+                  <p>Catch up on the latest technical news and happenings</p>
+                </a>
+                 <a class="nav-dropdown-item" href="https://pytorch.org/community-blog">
+                  <span class="dropdown-title">Community Blog</span>
+                  <p>Stories from the PyTorch ecosystem</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/videos">
+                  <span class="dropdown-title">Videos</span>
+                  <p>Learn about the latest PyTorch tutorials, new, and more </p>
+                <a class="nav-dropdown-item" href="https://pytorch.org/community-stories">
+                  <span class="dropdown-title">Community Stories</span>
+                  <p>Learn how our community solves real, everyday machine learning problems with PyTorch</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/events">
+                  <span class="dropdown-title">Events</span>
+                  <p>Find events, webinars, and podcasts</p>
+                </a>
+            </div>
+          </li>
+
+          <li>
+            <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                About
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/foundation">
+                  <span class="dropdown-title">PyTorch Foundation</span>
+                  <p>Learn more about the PyTorch Foundation</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/governing-board">
+                  <span class="dropdown-title">Governing Board</span>
+                  <p></p>
+                </a>
+              </div>
+            </div>
+          </li>
+
+          <li class="main-menu-item">
+            <div class="no-dropdown">
+              <a href="https://pytorch.org/join" data-cta="join">
+                Become a Member
+              </a>
+            </div>
+          </li>
+          <li>
+           <div class="main-menu-item">
+             <a href="https://github.com/pytorch/pytorch" class="github-icon">
+             </a>
+           </div>
+          </li>
+          <!--- TODO: This block adds the search icon to the nav bar. We will enable it later. 
+          <li>
+            <div class="main-menu-item">
+             <a href="https://github.com/pytorch/pytorch" class="search-icon">
+             </a>
+            </div>
+          </li>
+          --->
+        </ul>
+      </div>
+
+      <a class="main-menu-open-button" href="#" data-behavior="open-mobile-menu"></a>
+    </div>
+  </div>
+</div>
+
+<body class="pytorch-body">
+
+   
+
+    
+
+    <div class="table-of-contents-link-wrapper">
+      <span>Table of Contents</span>
+      <a href="#" class="toggle-table-of-contents" data-behavior="toggle-table-of-contents"></a>
+    </div>
+
+    <nav data-toggle="wy-nav-shift" class="pytorch-left-menu" id="pytorch-left-menu">
+      <div class="pytorch-side-scroll">
+        <div class="pytorch-menu pytorch-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
+          <div class="pytorch-left-menu-search">
+            
+
+            
+              
+              
+                <div class="version">
+                  v2.5.0.dev0+a4a9419
+                </div>
+              
+            
+
+            
+
+
+  
+
+
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search Docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+
+            
+          </div>
+
+          
+            
+            
+              
+            
+            
+              <p class="caption" role="heading"><span class="caption-text">Getting Started</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../getting_started/installation.html">Installation</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../getting_started/quick_start.html">Quick Start</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">User Guide</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../user_guide/torch_tensorrt_explained.html">Torch-TensorRT Explained</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../user_guide/dynamic_shapes.html">Dynamic shapes with Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../user_guide/saving_models.html">Saving models compiled with Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../user_guide/using_dla.html">DLA</a></li>
+<li class="toctree-l1"><a class="reference internal" href="torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../dynamo/torch_compile.html">TensorRT Backend for <code class="docutils literal notranslate"><span class="pre">torch.compile</span></code></a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../dynamo/dynamo_export.html">Compiling Exported Programs with Torch-TensorRT</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">TorchScript Frontend</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../ts/creating_torchscript_module_in_python.html">Creating a TorchScript Module</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../ts/creating_torchscript_module_in_python.html#working-with-torchscript-in-python">Working with TorchScript in Python</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../ts/creating_torchscript_module_in_python.html#saving-torchscript-module-to-disk">Saving TorchScript Module to Disk</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../ts/getting_started_with_python_api.html">Using Torch-TensorRT in Python</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../ts/getting_started_with_cpp_api.html">Using Torch-TensorRT in  C++</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../ts/ptq.html">Post Training Quantization (PTQ)</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">FX Frontend</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../fx/getting_started_with_fx_path.html">Torch-TensorRT (FX Frontend) User Guide</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">Tutorials</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../serving_torch_tensorrt_with_triton.html">Serving a Torch-TensorRT model with Triton</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../notebooks.html">Example notebooks</a></li>
+<li class="toctree-l1"><a class="reference internal" href="torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
+<li class="toctree-l1"><a class="reference internal" href="torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
+<li class="toctree-l1"><a class="reference internal" href="torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
+<li class="toctree-l1"><a class="reference internal" href="custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="mutable_torchtrt_module_example.html">Mutable Torch TensorRT Module</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">Python API Documentation</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../py_api/torch_tensorrt.html">torch_tensorrt</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../py_api/dynamo.html">torch_tensorrt.dynamo</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../py_api/logging.html">torch_tensorrt.logging</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../py_api/fx.html">torch_tensorrt.fx</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../py_api/ts.html">torch_tensorrt.ts</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../py_api/ptq.html">torch_tensorrt.ts.ptq</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">C++ API Documentation</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../_cpp_api/torch_tensort_cpp.html">Torch-TensorRT C++ API</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../_cpp_api/namespace_torch_tensorrt.html">Namespace torch_tensorrt</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../_cpp_api/namespace_torch_tensorrt__logging.html">Namespace torch_tensorrt::logging</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../_cpp_api/namespace_torch_tensorrt__torchscript.html">Namespace torch_tensorrt::torchscript</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../_cpp_api/namespace_torch_tensorrt__ptq.html">Namespace torch_tensorrt::ptq</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">CLI Documentation</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../cli/torchtrtc.html">torchtrtc</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">Contributor Documentation</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../contributors/system_overview.html">System Overview</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../contributors/dynamo_converters.html">Writing Dynamo Converters</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../contributors/writing_dynamo_aten_lowering_passes.html">Writing Dynamo ATen Lowering Passes</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../contributors/ts_converters.html">Writing TorchScript Converters</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../contributors/useful_links.html">Useful Links for Torch-TensorRT Development</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">Indices</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../indices/supported_ops.html">Operators Supported</a></li>
+</ul>
+
+            
+          
+        </div>
+      </div>
+    </nav>
+
+    <div class="pytorch-container">
+      <div class="pytorch-page-level-bar" id="pytorch-page-level-bar">
+        <div class="pytorch-breadcrumbs-wrapper">
+          
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+<div role="navigation" aria-label="breadcrumbs navigation">
+
+  <ul class="pytorch-breadcrumbs">
+    
+      <li>
+        <a href="../../../index.html">
+          
+            Docs
+          
+        </a> &gt;
+      </li>
+
+        
+      <li>Engine Caching (BERT)</li>
+    
+    
+      <li class="pytorch-breadcrumbs-aside">
+        
+            
+            <a href="../../../_sources/tutorials/_rendered_examples/dynamo/engine_caching_bert_example.rst.txt" rel="nofollow"><img src="../../../_static/images/view-page-source-icon.svg"></a>
+          
+        
+      </li>
+    
+  </ul>
+
+  
+</div>
+        </div>
+
+        <div class="pytorch-shortcuts-wrapper" id="pytorch-shortcuts-wrapper">
+          Shortcuts
+        </div>
+      </div>
+
+      <section data-toggle="wy-nav-shift" id="pytorch-content-wrap" class="pytorch-content-wrap">
+        <div class="pytorch-content-left">
+
+        
+          <!-- Google Tag Manager (noscript) -->
+          <noscript><iframe src="https://www.googletagmanager.com/ns.html?id="
+          height="0" width="0" style="display:none;visibility:hidden"></iframe></noscript>
+          <!-- End Google Tag Manager (noscript) -->
+          
+          <div class="rst-content">
+          
+            <div role="main" class="main-content" itemscope="itemscope" itemtype="http://schema.org/Article">
+             <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
+              
+  <div class="sphx-glr-download-link-note admonition note">
+<p class="admonition-title">Note</p>
+<p><a class="reference internal" href="#sphx-glr-download-tutorials-rendered-examples-dynamo-engine-caching-bert-example-py"><span class="std std-ref">Go to the end</span></a>
+to download the full example code</p>
+</div>
+<section class="sphx-glr-example-title" id="engine-caching-bert">
+<span id="engine-caching-bert-example"></span><span id="sphx-glr-tutorials-rendered-examples-dynamo-engine-caching-bert-example-py"></span><h1>Engine Caching (BERT)<a class="headerlink" href="#engine-caching-bert" title="Permalink to this heading">¶</a></h1>
+<p>Small caching example on BERT.</p>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
+<span class="kn">import</span> <span class="nn">torch</span>
+<span class="kn">import</span> <span class="nn">torch_tensorrt</span>
+<span class="kn">from</span> <span class="nn">engine_caching_example</span> <span class="kn">import</span> <span class="n">remove_timing_cache</span>
+<span class="kn">from</span> <span class="nn">transformers</span> <span class="kn">import</span> <span class="n">BertModel</span>
+
+<span class="n">np</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">seed</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+<span class="n">torch</span><span class="o">.</span><span class="n">manual_seed</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+
+<span class="n">model</span> <span class="o">=</span> <span class="n">BertModel</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="s2">&quot;bert-base-uncased&quot;</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span><span class="o">.</span><span class="n">cuda</span><span class="p">()</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span>
+<span class="n">inputs</span> <span class="o">=</span> <span class="p">[</span>
+    <span class="n">torch</span><span class="o">.</span><span class="n">randint</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">14</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">int32</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="s2">&quot;cuda&quot;</span><span class="p">),</span>
+    <span class="n">torch</span><span class="o">.</span><span class="n">randint</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">14</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">int32</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="s2">&quot;cuda&quot;</span><span class="p">),</span>
+<span class="p">]</span>
+
+
+<span class="k">def</span> <span class="nf">compile_bert</span><span class="p">(</span><span class="n">iterations</span><span class="o">=</span><span class="mi">3</span><span class="p">):</span>
+    <span class="n">times</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="n">start</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">Event</span><span class="p">(</span><span class="n">enable_timing</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+    <span class="n">end</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">Event</span><span class="p">(</span><span class="n">enable_timing</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+
+    <span class="c1"># The 1st iteration is to measure the compilation time without engine caching</span>
+    <span class="c1"># The 2nd and 3rd iterations are to measure the compilation time with engine caching.</span>
+    <span class="c1"># Since the 2nd iteration needs to compile and save the engine, it will be slower than the 1st iteration.</span>
+    <span class="c1"># The 3rd iteration should be faster than the 1st iteration because it loads the cached engine.</span>
+    <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">iterations</span><span class="p">):</span>
+        <span class="c1"># remove timing cache and reset dynamo for engine caching messurement</span>
+        <span class="n">remove_timing_cache</span><span class="p">()</span>
+        <span class="n">torch</span><span class="o">.</span><span class="n">_dynamo</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>
+
+        <span class="k">if</span> <span class="n">i</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="n">cache_built_engines</span> <span class="o">=</span> <span class="kc">False</span>
+            <span class="n">reuse_cached_engines</span> <span class="o">=</span> <span class="kc">False</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">cache_built_engines</span> <span class="o">=</span> <span class="kc">True</span>
+            <span class="n">reuse_cached_engines</span> <span class="o">=</span> <span class="kc">True</span>
+
+        <span class="n">start</span><span class="o">.</span><span class="n">record</span><span class="p">()</span>
+        <span class="n">compilation_kwargs</span> <span class="o">=</span> <span class="p">{</span>
+            <span class="s2">&quot;use_python_runtime&quot;</span><span class="p">:</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="s2">&quot;enabled_precisions&quot;</span><span class="p">:</span> <span class="p">{</span><span class="n">torch</span><span class="o">.</span><span class="n">float</span><span class="p">},</span>
+            <span class="s2">&quot;truncate_double&quot;</span><span class="p">:</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="s2">&quot;debug&quot;</span><span class="p">:</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="s2">&quot;min_block_size&quot;</span><span class="p">:</span> <span class="mi">1</span><span class="p">,</span>
+            <span class="s2">&quot;make_refitable&quot;</span><span class="p">:</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="s2">&quot;cache_built_engines&quot;</span><span class="p">:</span> <span class="n">cache_built_engines</span><span class="p">,</span>
+            <span class="s2">&quot;reuse_cached_engines&quot;</span><span class="p">:</span> <span class="n">reuse_cached_engines</span><span class="p">,</span>
+            <span class="s2">&quot;engine_cache_dir&quot;</span><span class="p">:</span> <span class="s2">&quot;/tmp/torch_trt_bert_engine_cache&quot;</span><span class="p">,</span>
+            <span class="s2">&quot;engine_cache_size&quot;</span><span class="p">:</span> <span class="mi">1</span> <span class="o">&lt;&lt;</span> <span class="mi">30</span><span class="p">,</span>  <span class="c1"># 1GB</span>
+        <span class="p">}</span>
+        <span class="n">optimized_model</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span>
+            <span class="n">model</span><span class="p">,</span>
+            <span class="n">backend</span><span class="o">=</span><span class="s2">&quot;torch_tensorrt&quot;</span><span class="p">,</span>
+            <span class="n">options</span><span class="o">=</span><span class="n">compilation_kwargs</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">optimized_model</span><span class="p">(</span><span class="o">*</span><span class="n">inputs</span><span class="p">)</span>
+        <span class="n">end</span><span class="o">.</span><span class="n">record</span><span class="p">()</span>
+        <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">synchronize</span><span class="p">()</span>
+        <span class="n">times</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">start</span><span class="o">.</span><span class="n">elapsed_time</span><span class="p">(</span><span class="n">end</span><span class="p">))</span>
+
+    <span class="nb">print</span><span class="p">(</span><span class="s2">&quot;-----compile bert-----&gt; compilation time:</span><span class="se">\n</span><span class="s2">&quot;</span><span class="p">,</span> <span class="n">times</span><span class="p">,</span> <span class="s2">&quot;milliseconds&quot;</span><span class="p">)</span>
+
+
+<span class="k">if</span> <span class="vm">__name__</span> <span class="o">==</span> <span class="s2">&quot;__main__&quot;</span><span class="p">:</span>
+    <span class="n">compile_bert</span><span class="p">()</span>
+</pre></div>
+</div>
+<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 0 minutes  0.000 seconds)</p>
+<div class="sphx-glr-footer sphx-glr-footer-example docutils container" id="sphx-glr-download-tutorials-rendered-examples-dynamo-engine-caching-bert-example-py">
+<div class="sphx-glr-download sphx-glr-download-python docutils container">
+<p><a class="reference download internal" download="" href="../../../_downloads/fdd0cb7713d049345adec03926d28414/engine_caching_bert_example.py"><code class="xref download docutils literal notranslate"><span class="pre">Download</span> <span class="pre">Python</span> <span class="pre">source</span> <span class="pre">code:</span> <span class="pre">engine_caching_bert_example.py</span></code></a></p>
+</div>
+<div class="sphx-glr-download sphx-glr-download-jupyter docutils container">
+<p><a class="reference download internal" download="" href="../../../_downloads/06a1dddfb8c2b5515b697700d863a453/engine_caching_bert_example.ipynb"><code class="xref download docutils literal notranslate"><span class="pre">Download</span> <span class="pre">Jupyter</span> <span class="pre">notebook:</span> <span class="pre">engine_caching_bert_example.ipynb</span></code></a></p>
+</div>
+</div>
+<p class="sphx-glr-signature"><a class="reference external" href="https://sphinx-gallery.github.io">Gallery generated by Sphinx-Gallery</a></p>
+</section>
+
+
+             </article>
+             
+            </div>
+            <footer>
+  
+
+  
+
+    <hr>
+
+  
+
+  <div role="contentinfo">
+    <p>
+        &copy; Copyright 2024, NVIDIA Corporation.
+
+    </p>
+  </div>
+    
+      <div>
+        Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a href="https://github.com/rtfd/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the Docs</a>.
+      </div>
+     
+
+</footer>
+
+          </div>
+        </div>
+
+        <div class="pytorch-content-right" id="pytorch-content-right">
+          <div class="pytorch-right-menu" id="pytorch-right-menu">
+            <div class="pytorch-side-scroll" id="pytorch-side-scroll-right">
+              <ul>
+<li><a class="reference internal" href="#">Engine Caching (BERT)</a></li>
+</ul>
+
+            </div>
+          </div>
+        </div>
+      </section>
+    </div>
+
+  
+
+
+  
+
+     
+       <script type="text/javascript" id="documentation_options" data-url_root="../../../" src="../../../_static/documentation_options.js"></script>
+         <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js"></script>
+         <script src="../../../_static/jquery.js"></script>
+         <script src="../../../_static/underscore.js"></script>
+         <script src="../../../_static/_sphinx_javascript_frameworks_compat.js"></script>
+         <script src="../../../_static/doctools.js"></script>
+         <script src="../../../_static/collapsible-lists/js/CollapsibleLists.compressed.js"></script>
+         <script src="../../../_static/collapsible-lists/js/apply-collapsible-lists.js"></script>
+         <script crossorigin="anonymous" integrity="sha256-Ae2Vz/4ePdIu6ZyI/5ZGsYnb+m0JlOmKPjt6XZ9JJkA=" src="https://cdnjs.cloudflare.com/ajax/libs/require.js/2.3.4/require.min.js"></script>
+     
+
+  
+
+  <script type="text/javascript" src="../../../_static/js/vendor/popper.min.js"></script>
+  <script type="text/javascript" src="../../../_static/js/vendor/bootstrap.min.js"></script>
+  <script src="https://cdnjs.cloudflare.com/ajax/libs/list.js/1.5.0/list.min.js"></script>
+  <script type="text/javascript" src="../../../_static/js/theme.js"></script>
+
+  <script type="text/javascript">
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+  <!-- Begin Footer -->
+
+  <div class="container-fluid docs-tutorials-resources" id="docs-tutorials-resources">
+    <div class="container">
+      <div class="row">
+        <div class="col-md-4 text-center">
+          <h2>Docs</h2>
+          <p>Access comprehensive developer documentation for PyTorch</p>
+          <a class="with-right-arrow" href="https://pytorch.org/docs/stable/index.html">View Docs</a>
+        </div>
+
+        <div class="col-md-4 text-center">
+          <h2>Tutorials</h2>
+          <p>Get in-depth tutorials for beginners and advanced developers</p>
+          <a class="with-right-arrow" href="https://pytorch.org/tutorials">View Tutorials</a>
+        </div>
+
+        <div class="col-md-4 text-center">
+          <h2>Resources</h2>
+          <p>Find development resources and get your questions answered</p>
+          <a class="with-right-arrow" href="https://pytorch.org/resources">View Resources</a>
+        </div>
+      </div>
+    </div>
+  </div>
+
+  <footer class="site-footer">
+    <div class="container footer-container">
+      <div class="footer-logo-wrapper">
+        <a href="https://pytorch.org/" class="footer-logo"></a>
+      </div>
+
+      <div class="footer-links-wrapper">
+        <div class="footer-links-col">
+          <ul>
+            <li class="list-title"><a href="https://pytorch.org/">PyTorch</a></li>
+            <li><a href="https://pytorch.org/get-started">Get Started</a></li>
+            <li><a href="https://pytorch.org/features">Features</a></li>
+            <li><a href="https://pytorch.org/ecosystem">Ecosystem</a></li>
+            <li><a href="https://pytorch.org/blog/">Blog</a></li>
+            <li><a href="https://github.com/pytorch/pytorch/blob/master/CONTRIBUTING.md">Contributing</a></li>
+          </ul>
+        </div>
+
+        <div class="footer-links-col">
+          <ul>
+            <li class="list-title"><a href="https://pytorch.org/resources">Resources</a></li>
+            <li><a href="https://pytorch.org/tutorials">Tutorials</a></li>
+            <li><a href="https://pytorch.org/docs/stable/index.html">Docs</a></li>
+            <li><a href="https://discuss.pytorch.org" target="_blank">Discuss</a></li>
+            <li><a href="https://github.com/pytorch/pytorch/issues" target="_blank">Github Issues</a></li>
+            <li><a href="https://pytorch.org/assets/brand-guidelines/PyTorch-Brand-Guidelines.pdf" target="_blank">Brand Guidelines</a></li>
+          </ul>
+        </div>
+
+        <div class="footer-links-col">
+          <ul>
+            <li class="list-title">Stay up to date</li>
+            <li><a href="https://www.facebook.com/pytorch" target="_blank">Facebook</a></li>
+            <li><a href="https://twitter.com/pytorch" target="_blank">Twitter</a></li>
+            <li><a href="https://www.youtube.com/pytorch" target="_blank">YouTube</a></li>
+            <li><a href="https://www.linkedin.com/company/pytorch" target="_blank">LinkedIn</a></li>
+          </ul>  
+          </div>
+
+        <div class="footer-links-col">
+          <ul>
+            <li class="list-title">PyTorch Podcasts</li>
+            <li><a href="https://open.spotify.com/show/6UzHKeiy368jKfQMKKvJY5" target="_blank">Spotify</a></li>
+            <li><a href="https://podcasts.apple.com/us/podcast/pytorch-developer-podcast/id1566080008" target="_blank">Apple</a></li>
+            <li><a href="https://www.google.com/podcasts?feed=aHR0cHM6Ly9mZWVkcy5zaW1wbGVjYXN0LmNvbS9PQjVGa0lsOA%3D%3D" target="_blank">Google</a></li>
+            <li><a href="https://music.amazon.com/podcasts/7a4e6f0e-26c2-49e9-a478-41bd244197d0/PyTorch-Developer-Podcast?" target="_blank">Amazon</a></li>
+          </ul>
+         </div>
+        </div>
+        
+        <div class="privacy-policy">
+          <ul>
+            <li class="privacy-policy-links"><a href="https://www.linuxfoundation.org/terms/" target="_blank">Terms</a></li>
+            <li class="privacy-policy-links">|</li>
+            <li class="privacy-policy-links"><a href="https://www.linuxfoundation.org/privacy-policy/" target="_blank">Privacy</a></li>
+          </ul>
+        </div>
+        <div class="copyright">
+        <p>© Copyright The Linux Foundation. The PyTorch Foundation is a project of The Linux Foundation.
+          For web site terms of use, trademark policy and other policies applicable to The PyTorch Foundation please see
+          <a href="https://www.linuxfoundation.org/policies/">www.linuxfoundation.org/policies/</a>. The PyTorch Foundation supports the PyTorch open source
+          project, which has been established as PyTorch Project a Series of LF Projects, LLC. For policies applicable to the PyTorch Project a Series of LF Projects, LLC,
+          please see <a href="https://www.lfprojects.org/policies/">www.lfprojects.org/policies/</a>.</p>
+      </div>
+     </div>
+
+  </footer>
+
+  <div class="cookie-banner-wrapper">
+  <div class="container">
+    <p class="gdpr-notice">To analyze traffic and optimize your experience, we serve cookies on this site. By clicking or navigating, you agree to allow our usage of cookies. As the current maintainers of this site, Facebook’s Cookies Policy applies. Learn more, including about available controls: <a href="https://www.facebook.com/policies/cookies/">Cookies Policy</a>.</p>
+    <img class="close-button" src="../../../_static/images/pytorch-x.svg">
+  </div>
+</div>
+
+  <!-- End Footer -->
+
+  <!-- Begin Mobile Menu -->
+
+  <div class="mobile-main-menu">
+    <div class="container-fluid">
+      <div class="container">
+        <div class="mobile-main-menu-header-container">
+          <a class="header-logo" href="https://pytorch.org/" aria-label="PyTorch"></a>
+          <a class="main-menu-close-button" href="#" data-behavior="close-mobile-menu"></a>
+        </div>
+      </div>
+    </div>
+
+    <div class="mobile-main-menu-links-container">
+      <div class="main-menu">
+        <ul>
+           <li class="resources-mobile-menu-title">
+             <a>Learn</a>
+           </li>
+           <ul class="resources-mobile-menu-items">
+             <li>
+               <a href="https://pytorch.org/get-started">Get Started</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/tutorials">Tutorials</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/tutorials/beginner/basics/intro.html">Learn the Basics</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/tutorials/recipes/recipes_index.html">PyTorch Recipes</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/tutorials/beginner/introyt.html">Introduction to PyTorch - YouTube Series</a>
+             </li>
+           </ul>
+           <li class="resources-mobile-menu-title">
+             <a>Ecosystem</a>
+           </li>
+           <ul class="resources-mobile-menu-items">
+             <li>
+               <a href="https://pytorch.org/ecosystem">Tools</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/#community-module">Community</a>
+             </li>
+             <li>
+               <a href="https://discuss.pytorch.org/">Forums</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/resources">Developer Resources</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/ecosystem/contributor-awards-2023">Contributor Awards - 2023</a>
+             </li>
+           </ul>
+
+           <li class="resources-mobile-menu-title">
+             <a>Edge</a>
+           </li>
+
+           <ul class="resources-mobile-menu-items">
+             <li>
+               <a href="https://pytorch.org/edge">About PyTorch Edge</a>
+             </li>
+             
+             <li>
+               <a href="https://pytorch.org/executorch-overview">ExecuTorch</a>
+             </li>
+           </ul>
+
+           <li class="resources-mobile-menu-title">
+             <a>Docs</a>
+           </li>
+
+           <ul class="resources-mobile-menu-items">
+            <li>
+              <a href="https://pytorch.org/docs/stable/index.html">PyTorch</a>
+            </li>
+
+            <li>
+              <a href="https://pytorch.org/pytorch-domains">PyTorch Domains</a>
+            </li>
+          </ul>
+
+          <li class="resources-mobile-menu-title">
+            <a>Blog & News</a>
+          </li>
+            
+           <ul class="resources-mobile-menu-items">
+            <li>
+              <a href="https://pytorch.org/blog/">PyTorch Blog</a>
+            </li>
+            <li>
+              <a href="https://pytorch.org/community-blog">Community Blog</a>
+            </li>
+
+            <li>
+              <a href="https://pytorch.org/videos">Videos</a>
+            </li>
+
+            <li>
+              <a href="https://pytorch.org/community-stories">Community Stories</a>
+            </li>
+            <li>
+              <a href="https://pytorch.org/events">Events</a>
+            </li>
+          </ul>
+          
+          <li class="resources-mobile-menu-title">
+            <a>About</a>
+          </li>
+
+          <ul class="resources-mobile-menu-items">
+            <li>
+              <a href="https://pytorch.org/foundation">PyTorch Foundation</a>
+            </li>
+            <li>
+              <a href="https://pytorch.org/governing-board">Governing Board</a>
+            </li>
+          </ul>
+        </ul>
+      </div>
+    </div>
+  </div>
+
+  <!-- End Mobile Menu -->
+
+  <script type="text/javascript" src="../../../_static/js/vendor/anchor.min.js"></script>
+
+  <script type="text/javascript">
+    $(document).ready(function() {
+      mobileMenu.bind();
+      mobileTOC.bind();
+      pytorchAnchors.bind();
+      sideMenus.bind();
+      scrollToAnchor.bind();
+      highlightNavigation.bind();
+      mainMenuDropdown.bind();
+      filterTags.bind();
+
+      // Add class to links that have code blocks, since we cannot create links in code blocks
+      $("article.pytorch-article a span.pre").each(function(e) {
+        $(this).closest("a").addClass("has-code");
+      });
+    })
+  </script>
+</body>
+</html>
\ No newline at end of file
diff --git a/docs/tutorials/_rendered_examples/dynamo/engine_caching_example.html b/docs/tutorials/_rendered_examples/dynamo/engine_caching_example.html
new file mode 100644
index 0000000000..8cd0a4f45d
--- /dev/null
+++ b/docs/tutorials/_rendered_examples/dynamo/engine_caching_example.html
@@ -0,0 +1,1093 @@
+
+
+
+<!DOCTYPE html>
+<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
+<!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
+<head>
+  <meta charset="utf-8">
+  <meta name="generator" content="Docutils 0.17.1: http://docutils.sourceforge.net/" />
+
+  <meta name="viewport" content="width=device-width, initial-scale=1.0">
+  
+  <title>Engine Caching &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
+  
+
+  
+  
+  
+  
+
+  
+
+  
+  
+    
+
+  
+
+  <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
+  <!-- <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/sg_gallery.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/sg_gallery-binder.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/sg_gallery-dataframe.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/sg_gallery-rendered-html.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/collapsible-lists/css/tree_view.css" type="text/css" />
+  <link rel="stylesheet" href="https://cdn.jsdelivr.net/npm/katex@0.10.0-beta/dist/katex.min.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/css/custom.css" type="text/css" />
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" />
+    <link rel="next" title="Refitting Torch-TensorRT Programs with New Weights" href="refit_engine_example.html" />
+    <link rel="prev" title="Deploy Quantized Models using Torch-TensorRT" href="vgg16_ptq.html" />
+  <!-- Google Tag Manager -->
+    <script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({'gtm.start':
+    new Date().getTime(),event:'gtm.js'});var f=d.getElementsByTagName(s)[0],
+    j=d.createElement(s),dl=l!='dataLayer'?'&l='+l:'';j.async=true;j.src=
+    'https://www.googletagmanager.com/gtm.js?id='+i+dl;f.parentNode.insertBefore(j,f);
+    })(window,document,'script','dataLayer','');</script>
+    <!-- End Google Tag Manager -->
+  
+
+  
+  <script src="../../../_static/js/modernizr.min.js"></script>
+
+  <!-- Preload the theme fonts -->
+
+<link rel="preload" href="../../../_static/fonts/FreightSans/freight-sans-book.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/FreightSans/freight-sans-medium.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/IBMPlexMono/IBMPlexMono-Medium.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/FreightSans/freight-sans-bold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/FreightSans/freight-sans-medium-italic.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/IBMPlexMono/IBMPlexMono-SemiBold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+
+<!-- Preload the katex fonts -->
+
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Math-Italic.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Main-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Main-Bold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size1-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size4-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size2-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size3-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Caligraphic-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+  <link rel="stylesheet" href="https://use.fontawesome.com/releases/v5.15.2/css/all.css" integrity="sha384-vSIIfh2YWi9wW0r9iZe7RJPrKwp6bG+s9QZMoITbCckVJqGCCRhc+ccxNcdpHuYu" crossorigin="anonymous">
+</head>
+
+<div class="container-fluid header-holder tutorials-header" id="header-holder">
+  <div class="container">
+    <div class="header-container">
+      <a class="header-logo" href="https://pytorch.org/" aria-label="PyTorch"></a>
+
+      <div class="main-menu">
+        <ul>
+
+          <li class="main-menu-item">
+          <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                Learn
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/get-started">
+                  <span class=dropdown-title>Get Started</span>
+                  <p>Run PyTorch locally or get started quickly with one of the supported cloud platforms</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/tutorials">
+                  <span class="dropdown-title">Tutorials</span>
+                  <p>Whats new in PyTorch tutorials</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/tutorials/beginner/basics/intro.html">
+                  <span class="dropdown-title">Learn the Basics</span>
+                  <p>Familiarize yourself with PyTorch concepts and modules</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/tutorials/recipes/recipes_index.html">
+                  <span class="dropdown-title">PyTorch Recipes</span>
+                  <p>Bite-size, ready-to-deploy PyTorch code examples</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/tutorials/beginner/introyt.html">
+                  <span class="dropdown-title">Intro to PyTorch - YouTube Series</span>
+                  <p>Master PyTorch basics with our engaging YouTube tutorial series</p>
+                </a>
+              </div>
+            </div>
+          </li>
+
+          <li>
+          <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                Ecosystem
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/ecosystem">
+                  <span class="dropdown-title">Tools</span>
+                  <p>Learn about the tools and frameworks in the PyTorch Ecosystem</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/#community-module">
+                  <span class=dropdown-title>Community</span>
+                  <p>Join the PyTorch developer community to contribute, learn, and get your questions answered</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://discuss.pytorch.org/" target="_blank">
+                  <span class=dropdown-title>Forums</span>
+                  <p>A place to discuss PyTorch code, issues, install, research</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/resources">
+                  <span class=dropdown-title>Developer Resources</span>
+                  <p>Find resources and get questions answered</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/ecosystem/contributor-awards-2023">
+                  <span class="dropdown-title">Contributor Awards - 2023</span>
+                  <p>Award winners announced at this year's PyTorch Conference</p>
+                </a>
+              </div>
+            </div>
+          </li>
+
+          <li>
+          <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                Edge
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/edge">
+                  <span class="dropdown-title">About PyTorch Edge</span>
+                  <p>Build innovative and privacy-aware AI experiences for edge devices</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/executorch-overview">
+                  <span class="dropdown-title">ExecuTorch</span>
+                  <p>End-to-end solution for enabling on-device inference capabilities across mobile and edge devices</p>
+                </a>
+              </div>
+            </div>  
+          </li>
+
+          <li class="main-menu-item">
+            <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                Docs
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/docs/stable/index.html">
+                  <span class="dropdown-title">PyTorch</span>
+                  <p>Explore the documentation for comprehensive guidance on how to use PyTorch</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/pytorch-domains">
+                  <span class="dropdown-title">PyTorch Domains</span>
+                  <p>Read the PyTorch Domains documentation to learn more about domain-specific libraries</p>
+                </a>
+              </div>
+            </div>
+          </li>
+
+          <li>
+            <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                Blogs & News 
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/blog/">
+                  <span class="dropdown-title">PyTorch Blog</span>
+                  <p>Catch up on the latest technical news and happenings</p>
+                </a>
+                 <a class="nav-dropdown-item" href="https://pytorch.org/community-blog">
+                  <span class="dropdown-title">Community Blog</span>
+                  <p>Stories from the PyTorch ecosystem</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/videos">
+                  <span class="dropdown-title">Videos</span>
+                  <p>Learn about the latest PyTorch tutorials, new, and more </p>
+                <a class="nav-dropdown-item" href="https://pytorch.org/community-stories">
+                  <span class="dropdown-title">Community Stories</span>
+                  <p>Learn how our community solves real, everyday machine learning problems with PyTorch</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/events">
+                  <span class="dropdown-title">Events</span>
+                  <p>Find events, webinars, and podcasts</p>
+                </a>
+            </div>
+          </li>
+
+          <li>
+            <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                About
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/foundation">
+                  <span class="dropdown-title">PyTorch Foundation</span>
+                  <p>Learn more about the PyTorch Foundation</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/governing-board">
+                  <span class="dropdown-title">Governing Board</span>
+                  <p></p>
+                </a>
+              </div>
+            </div>
+          </li>
+
+          <li class="main-menu-item">
+            <div class="no-dropdown">
+              <a href="https://pytorch.org/join" data-cta="join">
+                Become a Member
+              </a>
+            </div>
+          </li>
+          <li>
+           <div class="main-menu-item">
+             <a href="https://github.com/pytorch/pytorch" class="github-icon">
+             </a>
+           </div>
+          </li>
+          <!--- TODO: This block adds the search icon to the nav bar. We will enable it later. 
+          <li>
+            <div class="main-menu-item">
+             <a href="https://github.com/pytorch/pytorch" class="search-icon">
+             </a>
+            </div>
+          </li>
+          --->
+        </ul>
+      </div>
+
+      <a class="main-menu-open-button" href="#" data-behavior="open-mobile-menu"></a>
+    </div>
+  </div>
+</div>
+
+<body class="pytorch-body">
+
+   
+
+    
+
+    <div class="table-of-contents-link-wrapper">
+      <span>Table of Contents</span>
+      <a href="#" class="toggle-table-of-contents" data-behavior="toggle-table-of-contents"></a>
+    </div>
+
+    <nav data-toggle="wy-nav-shift" class="pytorch-left-menu" id="pytorch-left-menu">
+      <div class="pytorch-side-scroll">
+        <div class="pytorch-menu pytorch-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
+          <div class="pytorch-left-menu-search">
+            
+
+            
+              
+              
+                <div class="version">
+                  v2.5.0.dev0+a4a9419
+                </div>
+              
+            
+
+            
+
+
+  
+
+
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search Docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+
+            
+          </div>
+
+          
+            
+            
+              
+            
+            
+              <p class="caption" role="heading"><span class="caption-text">Getting Started</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../getting_started/installation.html">Installation</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../getting_started/quick_start.html">Quick Start</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">User Guide</span></p>
+<ul class="current">
+<li class="toctree-l1"><a class="reference internal" href="../../../user_guide/torch_tensorrt_explained.html">Torch-TensorRT Explained</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../user_guide/dynamic_shapes.html">Dynamic shapes with Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../user_guide/saving_models.html">Saving models compiled with Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../user_guide/using_dla.html">DLA</a></li>
+<li class="toctree-l1"><a class="reference internal" href="torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1 current"><a class="current reference internal" href="#">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../dynamo/torch_compile.html">TensorRT Backend for <code class="docutils literal notranslate"><span class="pre">torch.compile</span></code></a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../dynamo/dynamo_export.html">Compiling Exported Programs with Torch-TensorRT</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">TorchScript Frontend</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../ts/creating_torchscript_module_in_python.html">Creating a TorchScript Module</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../ts/creating_torchscript_module_in_python.html#working-with-torchscript-in-python">Working with TorchScript in Python</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../ts/creating_torchscript_module_in_python.html#saving-torchscript-module-to-disk">Saving TorchScript Module to Disk</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../ts/getting_started_with_python_api.html">Using Torch-TensorRT in Python</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../ts/getting_started_with_cpp_api.html">Using Torch-TensorRT in  C++</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../ts/ptq.html">Post Training Quantization (PTQ)</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">FX Frontend</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../fx/getting_started_with_fx_path.html">Torch-TensorRT (FX Frontend) User Guide</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">Tutorials</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../serving_torch_tensorrt_with_triton.html">Serving a Torch-TensorRT model with Triton</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../notebooks.html">Example notebooks</a></li>
+<li class="toctree-l1"><a class="reference internal" href="torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
+<li class="toctree-l1"><a class="reference internal" href="torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
+<li class="toctree-l1"><a class="reference internal" href="torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
+<li class="toctree-l1"><a class="reference internal" href="custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="mutable_torchtrt_module_example.html">Mutable Torch TensorRT Module</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">Python API Documentation</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../py_api/torch_tensorrt.html">torch_tensorrt</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../py_api/dynamo.html">torch_tensorrt.dynamo</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../py_api/logging.html">torch_tensorrt.logging</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../py_api/fx.html">torch_tensorrt.fx</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../py_api/ts.html">torch_tensorrt.ts</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../py_api/ptq.html">torch_tensorrt.ts.ptq</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">C++ API Documentation</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../_cpp_api/torch_tensort_cpp.html">Torch-TensorRT C++ API</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../_cpp_api/namespace_torch_tensorrt.html">Namespace torch_tensorrt</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../_cpp_api/namespace_torch_tensorrt__logging.html">Namespace torch_tensorrt::logging</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../_cpp_api/namespace_torch_tensorrt__torchscript.html">Namespace torch_tensorrt::torchscript</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../_cpp_api/namespace_torch_tensorrt__ptq.html">Namespace torch_tensorrt::ptq</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">CLI Documentation</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../cli/torchtrtc.html">torchtrtc</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">Contributor Documentation</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../contributors/system_overview.html">System Overview</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../contributors/dynamo_converters.html">Writing Dynamo Converters</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../contributors/writing_dynamo_aten_lowering_passes.html">Writing Dynamo ATen Lowering Passes</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../contributors/ts_converters.html">Writing TorchScript Converters</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../contributors/useful_links.html">Useful Links for Torch-TensorRT Development</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">Indices</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../indices/supported_ops.html">Operators Supported</a></li>
+</ul>
+
+            
+          
+        </div>
+      </div>
+    </nav>
+
+    <div class="pytorch-container">
+      <div class="pytorch-page-level-bar" id="pytorch-page-level-bar">
+        <div class="pytorch-breadcrumbs-wrapper">
+          
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+<div role="navigation" aria-label="breadcrumbs navigation">
+
+  <ul class="pytorch-breadcrumbs">
+    
+      <li>
+        <a href="../../../index.html">
+          
+            Docs
+          
+        </a> &gt;
+      </li>
+
+        
+      <li>Engine Caching</li>
+    
+    
+      <li class="pytorch-breadcrumbs-aside">
+        
+            
+            <a href="../../../_sources/tutorials/_rendered_examples/dynamo/engine_caching_example.rst.txt" rel="nofollow"><img src="../../../_static/images/view-page-source-icon.svg"></a>
+          
+        
+      </li>
+    
+  </ul>
+
+  
+</div>
+        </div>
+
+        <div class="pytorch-shortcuts-wrapper" id="pytorch-shortcuts-wrapper">
+          Shortcuts
+        </div>
+      </div>
+
+      <section data-toggle="wy-nav-shift" id="pytorch-content-wrap" class="pytorch-content-wrap">
+        <div class="pytorch-content-left">
+
+        
+          <!-- Google Tag Manager (noscript) -->
+          <noscript><iframe src="https://www.googletagmanager.com/ns.html?id="
+          height="0" width="0" style="display:none;visibility:hidden"></iframe></noscript>
+          <!-- End Google Tag Manager (noscript) -->
+          
+          <div class="rst-content">
+          
+            <div role="main" class="main-content" itemscope="itemscope" itemtype="http://schema.org/Article">
+             <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
+              
+  <div class="sphx-glr-download-link-note admonition note">
+<p class="admonition-title">Note</p>
+<p><a class="reference internal" href="#sphx-glr-download-tutorials-rendered-examples-dynamo-engine-caching-example-py"><span class="std std-ref">Go to the end</span></a>
+to download the full example code</p>
+</div>
+<section class="sphx-glr-example-title" id="engine-caching">
+<span id="engine-caching-example"></span><span id="sphx-glr-tutorials-rendered-examples-dynamo-engine-caching-example-py"></span><h1>Engine Caching<a class="headerlink" href="#engine-caching" title="Permalink to this heading">¶</a></h1>
+<p>As model sizes increase, the cost of compilation will as well. With AOT methods
+like <code class="docutils literal notranslate"><span class="pre">torch.dynamo.compile</span></code>, this cost is paid upfront. However if the weights
+change, the session ends or you are using JIT methods like <code class="docutils literal notranslate"><span class="pre">torch.compile</span></code>, as
+graphs get invalidated they get re-compiled, this cost will get paid repeatedly.
+Engine caching is a way to mitigate this cost by saving constructed engines to disk
+and re-using them when possible. This tutorial demonstrates how to use engine caching
+with TensorRT in PyTorch. Engine caching can significantly speed up subsequent model
+compilations reusing previously built TensorRT engines.</p>
+<p>We’ll explore two approaches:</p>
+<blockquote>
+<div><ol class="arabic simple">
+<li><p>Using torch_tensorrt.dynamo.compile</p></li>
+<li><p>Using torch.compile with the TensorRT backend</p></li>
+</ol>
+</div></blockquote>
+<p>The example uses a pre-trained ResNet18 model and shows the
+differences between compilation without caching, with caching enabled,
+and when reusing cached engines.</p>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="kn">import</span> <span class="nn">os</span>
+<span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">Optional</span>
+
+<span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
+<span class="kn">import</span> <span class="nn">torch</span>
+<span class="kn">import</span> <span class="nn">torch_tensorrt</span> <span class="k">as</span> <span class="nn">torch_trt</span>
+<span class="kn">import</span> <span class="nn">torchvision.models</span> <span class="k">as</span> <span class="nn">models</span>
+<span class="kn">from</span> <span class="nn">torch_tensorrt.dynamo._defaults</span> <span class="kn">import</span> <span class="n">TIMING_CACHE_PATH</span>
+<span class="kn">from</span> <span class="nn">torch_tensorrt.dynamo._engine_cache</span> <span class="kn">import</span> <span class="n">BaseEngineCache</span>
+
+<span class="n">np</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">seed</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+<span class="n">torch</span><span class="o">.</span><span class="n">manual_seed</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+
+<span class="n">model</span> <span class="o">=</span> <span class="n">models</span><span class="o">.</span><span class="n">resnet18</span><span class="p">(</span><span class="n">pretrained</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="s2">&quot;cuda&quot;</span><span class="p">)</span>
+<span class="n">enabled_precisions</span> <span class="o">=</span> <span class="p">{</span><span class="n">torch</span><span class="o">.</span><span class="n">float</span><span class="p">}</span>
+<span class="n">debug</span> <span class="o">=</span> <span class="kc">False</span>
+<span class="n">min_block_size</span> <span class="o">=</span> <span class="mi">1</span>
+<span class="n">use_python_runtime</span> <span class="o">=</span> <span class="kc">False</span>
+
+
+<span class="k">def</span> <span class="nf">remove_timing_cache</span><span class="p">(</span><span class="n">path</span><span class="o">=</span><span class="n">TIMING_CACHE_PATH</span><span class="p">):</span>
+    <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">path</span><span class="p">):</span>
+        <span class="n">os</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="n">path</span><span class="p">)</span>
+</pre></div>
+</div>
+<section id="engine-caching-for-jit-compilation">
+<h2>Engine Caching for JIT Compilation<a class="headerlink" href="#engine-caching-for-jit-compilation" title="Permalink to this heading">¶</a></h2>
+<p>The primary goal of engine caching is to help speed up JIT workflows. <code class="docutils literal notranslate"><span class="pre">torch.compile</span></code>
+provides a great deal of flexibility in model construction which makes it a good
+first tool to try when looking to speed up your workflow. However, historically
+the cost of compilation and in particular recompilation has been a barrier to entry
+for many users. If for some reason a subgraph gets invalidated, that graph is reconstructed
+scratch prior to the addition of engine caching. Now as engines are constructed, with <code class="docutils literal notranslate"><span class="pre">cache_built_engines=True</span></code>,
+engines are saved to disk tied to a hash of their corresponding PyTorch subgraph. If
+in a subsequent compilation, either as part of this session or a new session, the cache will
+pull the built engine and <strong>refit</strong> the weights which can reduce compilation times by orders of magnitude.
+As such, in order to insert a new engine into the cache (i.e. <code class="docutils literal notranslate"><span class="pre">cache_built_engines=True</span></code>),
+the engine must be refitable (<code class="docutils literal notranslate"><span class="pre">make_refittable=True</span></code>). See <a class="reference internal" href="refit_engine_example.html#refit-engine-example"><span class="std std-ref">Refitting Torch-TensorRT Programs with New Weights</span></a> for more details.</p>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="k">def</span> <span class="nf">torch_compile</span><span class="p">(</span><span class="n">iterations</span><span class="o">=</span><span class="mi">3</span><span class="p">):</span>
+    <span class="n">times</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="n">start</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">Event</span><span class="p">(</span><span class="n">enable_timing</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+    <span class="n">end</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">Event</span><span class="p">(</span><span class="n">enable_timing</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+
+    <span class="c1"># The 1st iteration is to measure the compilation time without engine caching</span>
+    <span class="c1"># The 2nd and 3rd iterations are to measure the compilation time with engine caching.</span>
+    <span class="c1"># Since the 2nd iteration needs to compile and save the engine, it will be slower than the 1st iteration.</span>
+    <span class="c1"># The 3rd iteration should be faster than the 1st iteration because it loads the cached engine.</span>
+    <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">iterations</span><span class="p">):</span>
+        <span class="n">inputs</span> <span class="o">=</span> <span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">rand</span><span class="p">((</span><span class="mi">100</span><span class="p">,</span> <span class="mi">3</span><span class="p">,</span> <span class="mi">224</span><span class="p">,</span> <span class="mi">224</span><span class="p">))</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="s2">&quot;cuda&quot;</span><span class="p">)]</span>
+        <span class="c1"># remove timing cache and reset dynamo just for engine caching messurement</span>
+        <span class="n">remove_timing_cache</span><span class="p">()</span>
+        <span class="n">torch</span><span class="o">.</span><span class="n">_dynamo</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>
+
+        <span class="k">if</span> <span class="n">i</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="n">cache_built_engines</span> <span class="o">=</span> <span class="kc">False</span>
+            <span class="n">reuse_cached_engines</span> <span class="o">=</span> <span class="kc">False</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">cache_built_engines</span> <span class="o">=</span> <span class="kc">True</span>
+            <span class="n">reuse_cached_engines</span> <span class="o">=</span> <span class="kc">True</span>
+
+        <span class="n">start</span><span class="o">.</span><span class="n">record</span><span class="p">()</span>
+        <span class="n">compiled_model</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span>
+            <span class="n">model</span><span class="p">,</span>
+            <span class="n">backend</span><span class="o">=</span><span class="s2">&quot;tensorrt&quot;</span><span class="p">,</span>
+            <span class="n">options</span><span class="o">=</span><span class="p">{</span>
+                <span class="s2">&quot;use_python_runtime&quot;</span><span class="p">:</span> <span class="kc">True</span><span class="p">,</span>
+                <span class="s2">&quot;enabled_precisions&quot;</span><span class="p">:</span> <span class="n">enabled_precisions</span><span class="p">,</span>
+                <span class="s2">&quot;debug&quot;</span><span class="p">:</span> <span class="n">debug</span><span class="p">,</span>
+                <span class="s2">&quot;min_block_size&quot;</span><span class="p">:</span> <span class="n">min_block_size</span><span class="p">,</span>
+                <span class="s2">&quot;make_refitable&quot;</span><span class="p">:</span> <span class="kc">True</span><span class="p">,</span>
+                <span class="s2">&quot;cache_built_engines&quot;</span><span class="p">:</span> <span class="n">cache_built_engines</span><span class="p">,</span>
+                <span class="s2">&quot;reuse_cached_engines&quot;</span><span class="p">:</span> <span class="n">reuse_cached_engines</span><span class="p">,</span>
+            <span class="p">},</span>
+        <span class="p">)</span>
+        <span class="n">compiled_model</span><span class="p">(</span><span class="o">*</span><span class="n">inputs</span><span class="p">)</span>  <span class="c1"># trigger the compilation</span>
+        <span class="n">end</span><span class="o">.</span><span class="n">record</span><span class="p">()</span>
+        <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">synchronize</span><span class="p">()</span>
+        <span class="n">times</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">start</span><span class="o">.</span><span class="n">elapsed_time</span><span class="p">(</span><span class="n">end</span><span class="p">))</span>
+
+    <span class="nb">print</span><span class="p">(</span><span class="s2">&quot;----------------torch_compile----------------&quot;</span><span class="p">)</span>
+    <span class="nb">print</span><span class="p">(</span><span class="s2">&quot;disable engine caching, used:&quot;</span><span class="p">,</span> <span class="n">times</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="s2">&quot;ms&quot;</span><span class="p">)</span>
+    <span class="nb">print</span><span class="p">(</span><span class="s2">&quot;enable engine caching to cache engines, used:&quot;</span><span class="p">,</span> <span class="n">times</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="s2">&quot;ms&quot;</span><span class="p">)</span>
+    <span class="nb">print</span><span class="p">(</span><span class="s2">&quot;enable engine caching to reuse engines, used:&quot;</span><span class="p">,</span> <span class="n">times</span><span class="p">[</span><span class="mi">2</span><span class="p">],</span> <span class="s2">&quot;ms&quot;</span><span class="p">)</span>
+
+
+<span class="n">torch_compile</span><span class="p">()</span>
+</pre></div>
+</div>
+</section>
+<section id="engine-caching-for-aot-compilation">
+<h2>Engine Caching for AOT Compilation<a class="headerlink" href="#engine-caching-for-aot-compilation" title="Permalink to this heading">¶</a></h2>
+<p>Similarly to the JIT workflow, AOT workflows can benefit from engine caching.
+As the same architecture or common subgraphs get recompiled, the cache will pull
+previously built engines and refit the weights.</p>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="k">def</span> <span class="nf">dynamo_compile</span><span class="p">(</span><span class="n">iterations</span><span class="o">=</span><span class="mi">3</span><span class="p">):</span>
+    <span class="n">times</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="n">start</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">Event</span><span class="p">(</span><span class="n">enable_timing</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+    <span class="n">end</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">Event</span><span class="p">(</span><span class="n">enable_timing</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+
+    <span class="n">example_inputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">randn</span><span class="p">((</span><span class="mi">100</span><span class="p">,</span> <span class="mi">3</span><span class="p">,</span> <span class="mi">224</span><span class="p">,</span> <span class="mi">224</span><span class="p">))</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="s2">&quot;cuda&quot;</span><span class="p">),)</span>
+    <span class="c1"># Mark the dim0 of inputs as dynamic</span>
+    <span class="n">batch</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">export</span><span class="o">.</span><span class="n">Dim</span><span class="p">(</span><span class="s2">&quot;batch&quot;</span><span class="p">,</span> <span class="nb">min</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="nb">max</span><span class="o">=</span><span class="mi">200</span><span class="p">)</span>
+    <span class="n">exp_program</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">export</span><span class="o">.</span><span class="n">export</span><span class="p">(</span>
+        <span class="n">model</span><span class="p">,</span> <span class="n">args</span><span class="o">=</span><span class="n">example_inputs</span><span class="p">,</span> <span class="n">dynamic_shapes</span><span class="o">=</span><span class="p">{</span><span class="s2">&quot;x&quot;</span><span class="p">:</span> <span class="p">{</span><span class="mi">0</span><span class="p">:</span> <span class="n">batch</span><span class="p">}}</span>
+    <span class="p">)</span>
+
+    <span class="c1"># The 1st iteration is to measure the compilation time without engine caching</span>
+    <span class="c1"># The 2nd and 3rd iterations are to measure the compilation time with engine caching.</span>
+    <span class="c1"># Since the 2nd iteration needs to compile and save the engine, it will be slower than the 1st iteration.</span>
+    <span class="c1"># The 3rd iteration should be faster than the 1st iteration because it loads the cached engine.</span>
+    <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">iterations</span><span class="p">):</span>
+        <span class="n">inputs</span> <span class="o">=</span> <span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">rand</span><span class="p">((</span><span class="mi">100</span> <span class="o">+</span> <span class="n">i</span><span class="p">,</span> <span class="mi">3</span><span class="p">,</span> <span class="mi">224</span><span class="p">,</span> <span class="mi">224</span><span class="p">))</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="s2">&quot;cuda&quot;</span><span class="p">)]</span>
+        <span class="n">remove_timing_cache</span><span class="p">()</span>  <span class="c1"># remove timing cache just for engine caching messurement</span>
+        <span class="k">if</span> <span class="n">i</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="n">cache_built_engines</span> <span class="o">=</span> <span class="kc">False</span>
+            <span class="n">reuse_cached_engines</span> <span class="o">=</span> <span class="kc">False</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">cache_built_engines</span> <span class="o">=</span> <span class="kc">True</span>
+            <span class="n">reuse_cached_engines</span> <span class="o">=</span> <span class="kc">True</span>
+
+        <span class="n">start</span><span class="o">.</span><span class="n">record</span><span class="p">()</span>
+        <span class="n">trt_gm</span> <span class="o">=</span> <span class="n">torch_trt</span><span class="o">.</span><span class="n">dynamo</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span>
+            <span class="n">exp_program</span><span class="p">,</span>
+            <span class="nb">tuple</span><span class="p">(</span><span class="n">inputs</span><span class="p">),</span>
+            <span class="n">use_python_runtime</span><span class="o">=</span><span class="n">use_python_runtime</span><span class="p">,</span>
+            <span class="n">enabled_precisions</span><span class="o">=</span><span class="n">enabled_precisions</span><span class="p">,</span>
+            <span class="n">debug</span><span class="o">=</span><span class="n">debug</span><span class="p">,</span>
+            <span class="n">min_block_size</span><span class="o">=</span><span class="n">min_block_size</span><span class="p">,</span>
+            <span class="n">make_refitable</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">cache_built_engines</span><span class="o">=</span><span class="n">cache_built_engines</span><span class="p">,</span>
+            <span class="n">reuse_cached_engines</span><span class="o">=</span><span class="n">reuse_cached_engines</span><span class="p">,</span>
+            <span class="n">engine_cache_size</span><span class="o">=</span><span class="mi">1</span> <span class="o">&lt;&lt;</span> <span class="mi">30</span><span class="p">,</span>  <span class="c1"># 1GB</span>
+        <span class="p">)</span>
+        <span class="c1"># output = trt_gm(*inputs)</span>
+        <span class="n">end</span><span class="o">.</span><span class="n">record</span><span class="p">()</span>
+        <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">synchronize</span><span class="p">()</span>
+        <span class="n">times</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">start</span><span class="o">.</span><span class="n">elapsed_time</span><span class="p">(</span><span class="n">end</span><span class="p">))</span>
+
+    <span class="nb">print</span><span class="p">(</span><span class="s2">&quot;----------------dynamo_compile----------------&quot;</span><span class="p">)</span>
+    <span class="nb">print</span><span class="p">(</span><span class="s2">&quot;disable engine caching, used:&quot;</span><span class="p">,</span> <span class="n">times</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="s2">&quot;ms&quot;</span><span class="p">)</span>
+    <span class="nb">print</span><span class="p">(</span><span class="s2">&quot;enable engine caching to cache engines, used:&quot;</span><span class="p">,</span> <span class="n">times</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="s2">&quot;ms&quot;</span><span class="p">)</span>
+    <span class="nb">print</span><span class="p">(</span><span class="s2">&quot;enable engine caching to reuse engines, used:&quot;</span><span class="p">,</span> <span class="n">times</span><span class="p">[</span><span class="mi">2</span><span class="p">],</span> <span class="s2">&quot;ms&quot;</span><span class="p">)</span>
+
+
+<span class="n">dynamo_compile</span><span class="p">()</span>
+</pre></div>
+</div>
+</section>
+<section id="custom-engine-cache">
+<h2>Custom Engine Cache<a class="headerlink" href="#custom-engine-cache" title="Permalink to this heading">¶</a></h2>
+<p>By default, the engine cache is stored in the system’s temporary directory. Both the cache directory and
+size limit can be customized by passing <code class="docutils literal notranslate"><span class="pre">engine_cache_dir</span></code> and <code class="docutils literal notranslate"><span class="pre">engine_cache_size</span></code>.
+Users can also define their own engine cache implementation by extending the <code class="docutils literal notranslate"><span class="pre">BaseEngineCache</span></code> class.
+This allows for remote or shared caching if so desired.</p>
+<dl class="simple">
+<dt>The custom engine cache should implement the following methods:</dt><dd><ul class="simple">
+<li><p><code class="docutils literal notranslate"><span class="pre">save</span></code>: Save the engine blob to the cache.</p></li>
+<li><p><code class="docutils literal notranslate"><span class="pre">load</span></code>: Load the engine blob from the cache.</p></li>
+</ul>
+</dd>
+</dl>
+<p>The hash provided by the cache systen is a weight agnostic hash of the originating PyTorch subgraph (post lowering).
+The blob contains a serialized engine, calling spec data, and weight map information in the pickle format</p>
+<p>Below is an example of a custom engine cache implementation that implents a <code class="docutils literal notranslate"><span class="pre">RAMEngineCache</span></code>.</p>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="k">class</span> <span class="nc">RAMEngineCache</span><span class="p">(</span><span class="n">BaseEngineCache</span><span class="p">):</span>
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Constructs a user held engine cache in memory.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">engine_cache</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">bytes</span><span class="p">]</span> <span class="o">=</span> <span class="p">{}</span>
+
+    <span class="k">def</span> <span class="nf">save</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="nb">hash</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+        <span class="n">blob</span><span class="p">:</span> <span class="nb">bytes</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Insert the engine blob to the cache.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            hash (str): The hash key to associate with the engine blob.</span>
+<span class="sd">            blob (bytes): The engine blob to be saved.</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            None</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">engine_cache</span><span class="p">[</span><span class="nb">hash</span><span class="p">]</span> <span class="o">=</span> <span class="n">blob</span>
+
+    <span class="k">def</span> <span class="nf">load</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="nb">hash</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bytes</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Load the engine blob from the cache.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            hash (str): The hash key of the engine to load.</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            Optional[bytes]: The engine blob if found, None otherwise.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="nb">hash</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">engine_cache</span><span class="p">:</span>
+            <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">engine_cache</span><span class="p">[</span><span class="nb">hash</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">None</span>
+
+
+<span class="k">def</span> <span class="nf">torch_compile_my_cache</span><span class="p">(</span><span class="n">iterations</span><span class="o">=</span><span class="mi">3</span><span class="p">):</span>
+    <span class="n">times</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="n">engine_cache</span> <span class="o">=</span> <span class="n">RAMEngineCache</span><span class="p">()</span>
+    <span class="n">start</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">Event</span><span class="p">(</span><span class="n">enable_timing</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+    <span class="n">end</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">Event</span><span class="p">(</span><span class="n">enable_timing</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+
+    <span class="c1"># The 1st iteration is to measure the compilation time without engine caching</span>
+    <span class="c1"># The 2nd and 3rd iterations are to measure the compilation time with engine caching.</span>
+    <span class="c1"># Since the 2nd iteration needs to compile and save the engine, it will be slower than the 1st iteration.</span>
+    <span class="c1"># The 3rd iteration should be faster than the 1st iteration because it loads the cached engine.</span>
+    <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">iterations</span><span class="p">):</span>
+        <span class="n">inputs</span> <span class="o">=</span> <span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">rand</span><span class="p">((</span><span class="mi">100</span><span class="p">,</span> <span class="mi">3</span><span class="p">,</span> <span class="mi">224</span><span class="p">,</span> <span class="mi">224</span><span class="p">))</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="s2">&quot;cuda&quot;</span><span class="p">)]</span>
+        <span class="c1"># remove timing cache and reset dynamo just for engine caching messurement</span>
+        <span class="n">remove_timing_cache</span><span class="p">()</span>
+        <span class="n">torch</span><span class="o">.</span><span class="n">_dynamo</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>
+
+        <span class="k">if</span> <span class="n">i</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="n">cache_built_engines</span> <span class="o">=</span> <span class="kc">False</span>
+            <span class="n">reuse_cached_engines</span> <span class="o">=</span> <span class="kc">False</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">cache_built_engines</span> <span class="o">=</span> <span class="kc">True</span>
+            <span class="n">reuse_cached_engines</span> <span class="o">=</span> <span class="kc">True</span>
+
+        <span class="n">start</span><span class="o">.</span><span class="n">record</span><span class="p">()</span>
+        <span class="n">compiled_model</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span>
+            <span class="n">model</span><span class="p">,</span>
+            <span class="n">backend</span><span class="o">=</span><span class="s2">&quot;tensorrt&quot;</span><span class="p">,</span>
+            <span class="n">options</span><span class="o">=</span><span class="p">{</span>
+                <span class="s2">&quot;use_python_runtime&quot;</span><span class="p">:</span> <span class="kc">True</span><span class="p">,</span>
+                <span class="s2">&quot;enabled_precisions&quot;</span><span class="p">:</span> <span class="n">enabled_precisions</span><span class="p">,</span>
+                <span class="s2">&quot;debug&quot;</span><span class="p">:</span> <span class="n">debug</span><span class="p">,</span>
+                <span class="s2">&quot;min_block_size&quot;</span><span class="p">:</span> <span class="n">min_block_size</span><span class="p">,</span>
+                <span class="s2">&quot;make_refitable&quot;</span><span class="p">:</span> <span class="kc">True</span><span class="p">,</span>
+                <span class="s2">&quot;cache_built_engines&quot;</span><span class="p">:</span> <span class="n">cache_built_engines</span><span class="p">,</span>
+                <span class="s2">&quot;reuse_cached_engines&quot;</span><span class="p">:</span> <span class="n">reuse_cached_engines</span><span class="p">,</span>
+                <span class="s2">&quot;custom_engine_cache&quot;</span><span class="p">:</span> <span class="n">engine_cache</span><span class="p">,</span>
+            <span class="p">},</span>
+        <span class="p">)</span>
+        <span class="n">compiled_model</span><span class="p">(</span><span class="o">*</span><span class="n">inputs</span><span class="p">)</span>  <span class="c1"># trigger the compilation</span>
+        <span class="n">end</span><span class="o">.</span><span class="n">record</span><span class="p">()</span>
+        <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">synchronize</span><span class="p">()</span>
+        <span class="n">times</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">start</span><span class="o">.</span><span class="n">elapsed_time</span><span class="p">(</span><span class="n">end</span><span class="p">))</span>
+
+    <span class="nb">print</span><span class="p">(</span><span class="s2">&quot;----------------torch_compile----------------&quot;</span><span class="p">)</span>
+    <span class="nb">print</span><span class="p">(</span><span class="s2">&quot;disable engine caching, used:&quot;</span><span class="p">,</span> <span class="n">times</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="s2">&quot;ms&quot;</span><span class="p">)</span>
+    <span class="nb">print</span><span class="p">(</span><span class="s2">&quot;enable engine caching to cache engines, used:&quot;</span><span class="p">,</span> <span class="n">times</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="s2">&quot;ms&quot;</span><span class="p">)</span>
+    <span class="nb">print</span><span class="p">(</span><span class="s2">&quot;enable engine caching to reuse engines, used:&quot;</span><span class="p">,</span> <span class="n">times</span><span class="p">[</span><span class="mi">2</span><span class="p">],</span> <span class="s2">&quot;ms&quot;</span><span class="p">)</span>
+
+
+<span class="n">torch_compile_my_cache</span><span class="p">()</span>
+</pre></div>
+</div>
+<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 0 minutes  0.000 seconds)</p>
+<div class="sphx-glr-footer sphx-glr-footer-example docutils container" id="sphx-glr-download-tutorials-rendered-examples-dynamo-engine-caching-example-py">
+<div class="sphx-glr-download sphx-glr-download-python docutils container">
+<p><a class="reference download internal" download="" href="../../../_downloads/1c759c0181fe2845e5579cc82e5b7a7a/engine_caching_example.py"><code class="xref download docutils literal notranslate"><span class="pre">Download</span> <span class="pre">Python</span> <span class="pre">source</span> <span class="pre">code:</span> <span class="pre">engine_caching_example.py</span></code></a></p>
+</div>
+<div class="sphx-glr-download sphx-glr-download-jupyter docutils container">
+<p><a class="reference download internal" download="" href="../../../_downloads/3454ee6d4b68e83cdf0c757f0059986b/engine_caching_example.ipynb"><code class="xref download docutils literal notranslate"><span class="pre">Download</span> <span class="pre">Jupyter</span> <span class="pre">notebook:</span> <span class="pre">engine_caching_example.ipynb</span></code></a></p>
+</div>
+</div>
+<p class="sphx-glr-signature"><a class="reference external" href="https://sphinx-gallery.github.io">Gallery generated by Sphinx-Gallery</a></p>
+</section>
+</section>
+
+
+             </article>
+             
+            </div>
+            <footer>
+  
+    <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
+      
+        <a href="refit_engine_example.html" class="btn btn-neutral float-right" title="Refitting Torch-TensorRT Programs with New Weights" accesskey="n" rel="next">Next <img src="../../../_static/images/chevron-right-orange.svg" class="next-page"></a>
+      
+      
+        <a href="vgg16_ptq.html" class="btn btn-neutral" title="Deploy Quantized Models using Torch-TensorRT" accesskey="p" rel="prev"><img src="../../../_static/images/chevron-right-orange.svg" class="previous-page"> Previous</a>
+      
+    </div>
+  
+
+  
+
+    <hr>
+
+  
+
+  <div role="contentinfo">
+    <p>
+        &copy; Copyright 2024, NVIDIA Corporation.
+
+    </p>
+  </div>
+    
+      <div>
+        Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a href="https://github.com/rtfd/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the Docs</a>.
+      </div>
+     
+
+</footer>
+
+          </div>
+        </div>
+
+        <div class="pytorch-content-right" id="pytorch-content-right">
+          <div class="pytorch-right-menu" id="pytorch-right-menu">
+            <div class="pytorch-side-scroll" id="pytorch-side-scroll-right">
+              <ul>
+<li><a class="reference internal" href="#">Engine Caching</a><ul>
+<li><a class="reference internal" href="#engine-caching-for-jit-compilation">Engine Caching for JIT Compilation</a></li>
+<li><a class="reference internal" href="#engine-caching-for-aot-compilation">Engine Caching for AOT Compilation</a></li>
+<li><a class="reference internal" href="#custom-engine-cache">Custom Engine Cache</a></li>
+</ul>
+</li>
+</ul>
+
+            </div>
+          </div>
+        </div>
+      </section>
+    </div>
+
+  
+
+
+  
+
+     
+       <script type="text/javascript" id="documentation_options" data-url_root="../../../" src="../../../_static/documentation_options.js"></script>
+         <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js"></script>
+         <script src="../../../_static/jquery.js"></script>
+         <script src="../../../_static/underscore.js"></script>
+         <script src="../../../_static/_sphinx_javascript_frameworks_compat.js"></script>
+         <script src="../../../_static/doctools.js"></script>
+         <script src="../../../_static/collapsible-lists/js/CollapsibleLists.compressed.js"></script>
+         <script src="../../../_static/collapsible-lists/js/apply-collapsible-lists.js"></script>
+         <script crossorigin="anonymous" integrity="sha256-Ae2Vz/4ePdIu6ZyI/5ZGsYnb+m0JlOmKPjt6XZ9JJkA=" src="https://cdnjs.cloudflare.com/ajax/libs/require.js/2.3.4/require.min.js"></script>
+     
+
+  
+
+  <script type="text/javascript" src="../../../_static/js/vendor/popper.min.js"></script>
+  <script type="text/javascript" src="../../../_static/js/vendor/bootstrap.min.js"></script>
+  <script src="https://cdnjs.cloudflare.com/ajax/libs/list.js/1.5.0/list.min.js"></script>
+  <script type="text/javascript" src="../../../_static/js/theme.js"></script>
+
+  <script type="text/javascript">
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+  <!-- Begin Footer -->
+
+  <div class="container-fluid docs-tutorials-resources" id="docs-tutorials-resources">
+    <div class="container">
+      <div class="row">
+        <div class="col-md-4 text-center">
+          <h2>Docs</h2>
+          <p>Access comprehensive developer documentation for PyTorch</p>
+          <a class="with-right-arrow" href="https://pytorch.org/docs/stable/index.html">View Docs</a>
+        </div>
+
+        <div class="col-md-4 text-center">
+          <h2>Tutorials</h2>
+          <p>Get in-depth tutorials for beginners and advanced developers</p>
+          <a class="with-right-arrow" href="https://pytorch.org/tutorials">View Tutorials</a>
+        </div>
+
+        <div class="col-md-4 text-center">
+          <h2>Resources</h2>
+          <p>Find development resources and get your questions answered</p>
+          <a class="with-right-arrow" href="https://pytorch.org/resources">View Resources</a>
+        </div>
+      </div>
+    </div>
+  </div>
+
+  <footer class="site-footer">
+    <div class="container footer-container">
+      <div class="footer-logo-wrapper">
+        <a href="https://pytorch.org/" class="footer-logo"></a>
+      </div>
+
+      <div class="footer-links-wrapper">
+        <div class="footer-links-col">
+          <ul>
+            <li class="list-title"><a href="https://pytorch.org/">PyTorch</a></li>
+            <li><a href="https://pytorch.org/get-started">Get Started</a></li>
+            <li><a href="https://pytorch.org/features">Features</a></li>
+            <li><a href="https://pytorch.org/ecosystem">Ecosystem</a></li>
+            <li><a href="https://pytorch.org/blog/">Blog</a></li>
+            <li><a href="https://github.com/pytorch/pytorch/blob/master/CONTRIBUTING.md">Contributing</a></li>
+          </ul>
+        </div>
+
+        <div class="footer-links-col">
+          <ul>
+            <li class="list-title"><a href="https://pytorch.org/resources">Resources</a></li>
+            <li><a href="https://pytorch.org/tutorials">Tutorials</a></li>
+            <li><a href="https://pytorch.org/docs/stable/index.html">Docs</a></li>
+            <li><a href="https://discuss.pytorch.org" target="_blank">Discuss</a></li>
+            <li><a href="https://github.com/pytorch/pytorch/issues" target="_blank">Github Issues</a></li>
+            <li><a href="https://pytorch.org/assets/brand-guidelines/PyTorch-Brand-Guidelines.pdf" target="_blank">Brand Guidelines</a></li>
+          </ul>
+        </div>
+
+        <div class="footer-links-col">
+          <ul>
+            <li class="list-title">Stay up to date</li>
+            <li><a href="https://www.facebook.com/pytorch" target="_blank">Facebook</a></li>
+            <li><a href="https://twitter.com/pytorch" target="_blank">Twitter</a></li>
+            <li><a href="https://www.youtube.com/pytorch" target="_blank">YouTube</a></li>
+            <li><a href="https://www.linkedin.com/company/pytorch" target="_blank">LinkedIn</a></li>
+          </ul>  
+          </div>
+
+        <div class="footer-links-col">
+          <ul>
+            <li class="list-title">PyTorch Podcasts</li>
+            <li><a href="https://open.spotify.com/show/6UzHKeiy368jKfQMKKvJY5" target="_blank">Spotify</a></li>
+            <li><a href="https://podcasts.apple.com/us/podcast/pytorch-developer-podcast/id1566080008" target="_blank">Apple</a></li>
+            <li><a href="https://www.google.com/podcasts?feed=aHR0cHM6Ly9mZWVkcy5zaW1wbGVjYXN0LmNvbS9PQjVGa0lsOA%3D%3D" target="_blank">Google</a></li>
+            <li><a href="https://music.amazon.com/podcasts/7a4e6f0e-26c2-49e9-a478-41bd244197d0/PyTorch-Developer-Podcast?" target="_blank">Amazon</a></li>
+          </ul>
+         </div>
+        </div>
+        
+        <div class="privacy-policy">
+          <ul>
+            <li class="privacy-policy-links"><a href="https://www.linuxfoundation.org/terms/" target="_blank">Terms</a></li>
+            <li class="privacy-policy-links">|</li>
+            <li class="privacy-policy-links"><a href="https://www.linuxfoundation.org/privacy-policy/" target="_blank">Privacy</a></li>
+          </ul>
+        </div>
+        <div class="copyright">
+        <p>© Copyright The Linux Foundation. The PyTorch Foundation is a project of The Linux Foundation.
+          For web site terms of use, trademark policy and other policies applicable to The PyTorch Foundation please see
+          <a href="https://www.linuxfoundation.org/policies/">www.linuxfoundation.org/policies/</a>. The PyTorch Foundation supports the PyTorch open source
+          project, which has been established as PyTorch Project a Series of LF Projects, LLC. For policies applicable to the PyTorch Project a Series of LF Projects, LLC,
+          please see <a href="https://www.lfprojects.org/policies/">www.lfprojects.org/policies/</a>.</p>
+      </div>
+     </div>
+
+  </footer>
+
+  <div class="cookie-banner-wrapper">
+  <div class="container">
+    <p class="gdpr-notice">To analyze traffic and optimize your experience, we serve cookies on this site. By clicking or navigating, you agree to allow our usage of cookies. As the current maintainers of this site, Facebook’s Cookies Policy applies. Learn more, including about available controls: <a href="https://www.facebook.com/policies/cookies/">Cookies Policy</a>.</p>
+    <img class="close-button" src="../../../_static/images/pytorch-x.svg">
+  </div>
+</div>
+
+  <!-- End Footer -->
+
+  <!-- Begin Mobile Menu -->
+
+  <div class="mobile-main-menu">
+    <div class="container-fluid">
+      <div class="container">
+        <div class="mobile-main-menu-header-container">
+          <a class="header-logo" href="https://pytorch.org/" aria-label="PyTorch"></a>
+          <a class="main-menu-close-button" href="#" data-behavior="close-mobile-menu"></a>
+        </div>
+      </div>
+    </div>
+
+    <div class="mobile-main-menu-links-container">
+      <div class="main-menu">
+        <ul>
+           <li class="resources-mobile-menu-title">
+             <a>Learn</a>
+           </li>
+           <ul class="resources-mobile-menu-items">
+             <li>
+               <a href="https://pytorch.org/get-started">Get Started</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/tutorials">Tutorials</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/tutorials/beginner/basics/intro.html">Learn the Basics</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/tutorials/recipes/recipes_index.html">PyTorch Recipes</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/tutorials/beginner/introyt.html">Introduction to PyTorch - YouTube Series</a>
+             </li>
+           </ul>
+           <li class="resources-mobile-menu-title">
+             <a>Ecosystem</a>
+           </li>
+           <ul class="resources-mobile-menu-items">
+             <li>
+               <a href="https://pytorch.org/ecosystem">Tools</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/#community-module">Community</a>
+             </li>
+             <li>
+               <a href="https://discuss.pytorch.org/">Forums</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/resources">Developer Resources</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/ecosystem/contributor-awards-2023">Contributor Awards - 2023</a>
+             </li>
+           </ul>
+
+           <li class="resources-mobile-menu-title">
+             <a>Edge</a>
+           </li>
+
+           <ul class="resources-mobile-menu-items">
+             <li>
+               <a href="https://pytorch.org/edge">About PyTorch Edge</a>
+             </li>
+             
+             <li>
+               <a href="https://pytorch.org/executorch-overview">ExecuTorch</a>
+             </li>
+           </ul>
+
+           <li class="resources-mobile-menu-title">
+             <a>Docs</a>
+           </li>
+
+           <ul class="resources-mobile-menu-items">
+            <li>
+              <a href="https://pytorch.org/docs/stable/index.html">PyTorch</a>
+            </li>
+
+            <li>
+              <a href="https://pytorch.org/pytorch-domains">PyTorch Domains</a>
+            </li>
+          </ul>
+
+          <li class="resources-mobile-menu-title">
+            <a>Blog & News</a>
+          </li>
+            
+           <ul class="resources-mobile-menu-items">
+            <li>
+              <a href="https://pytorch.org/blog/">PyTorch Blog</a>
+            </li>
+            <li>
+              <a href="https://pytorch.org/community-blog">Community Blog</a>
+            </li>
+
+            <li>
+              <a href="https://pytorch.org/videos">Videos</a>
+            </li>
+
+            <li>
+              <a href="https://pytorch.org/community-stories">Community Stories</a>
+            </li>
+            <li>
+              <a href="https://pytorch.org/events">Events</a>
+            </li>
+          </ul>
+          
+          <li class="resources-mobile-menu-title">
+            <a>About</a>
+          </li>
+
+          <ul class="resources-mobile-menu-items">
+            <li>
+              <a href="https://pytorch.org/foundation">PyTorch Foundation</a>
+            </li>
+            <li>
+              <a href="https://pytorch.org/governing-board">Governing Board</a>
+            </li>
+          </ul>
+        </ul>
+      </div>
+    </div>
+  </div>
+
+  <!-- End Mobile Menu -->
+
+  <script type="text/javascript" src="../../../_static/js/vendor/anchor.min.js"></script>
+
+  <script type="text/javascript">
+    $(document).ready(function() {
+      mobileMenu.bind();
+      mobileTOC.bind();
+      pytorchAnchors.bind();
+      sideMenus.bind();
+      scrollToAnchor.bind();
+      highlightNavigation.bind();
+      mainMenuDropdown.bind();
+      filterTags.bind();
+
+      // Add class to links that have code blocks, since we cannot create links in code blocks
+      $("article.pytorch-article a span.pre").each(function(e) {
+        $(this).closest("a").addClass("has-code");
+      });
+    })
+  </script>
+</body>
+</html>
\ No newline at end of file
diff --git a/docs/tutorials/_rendered_examples/dynamo/index.html b/docs/tutorials/_rendered_examples/dynamo/index.html
index be6b1c8ea8..b7db890f54 100644
--- a/docs/tutorials/_rendered_examples/dynamo/index.html
+++ b/docs/tutorials/_rendered_examples/dynamo/index.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Dynamo / torch.compile &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Dynamo / torch.compile &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -273,7 +273,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -314,6 +314,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -339,7 +342,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
@@ -464,9 +466,11 @@
 <li><p><a class="reference internal" href="torch_compile_stable_diffusion.html#torch-compile-stable-diffusion"><span class="std std-ref">Torch Compile Stable Diffusion</span></a>: Compiling a Stable Diffusion model using <code class="docutils literal notranslate"><span class="pre">torch.compile</span></code></p></li>
 <li><p><a class="reference internal" href="torch_export_cudagraphs.html#torch-export-cudagraphs"><span class="std std-ref">Torch Export with Cudagraphs</span></a>: Using the Cudagraphs integration with <cite>ir=”dynamo”</cite></p></li>
 <li><p><a class="reference internal" href="custom_kernel_plugins.html#custom-kernel-plugins"><span class="std std-ref">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</span></a>: Creating a plugin to use a custom kernel inside TensorRT engines</p></li>
-<li><p><a class="reference internal" href="refit_engine_example.html#refit-engine-example"><span class="std std-ref">Refit  TenorRT Graph Module with Torch-TensorRT</span></a>: Refitting a compiled TensorRT Graph Module with updated weights</p></li>
+<li><p><a class="reference internal" href="refit_engine_example.html#refit-engine-example"><span class="std std-ref">Refitting Torch-TensorRT Programs with New Weights</span></a>: Refitting a compiled TensorRT Graph Module with updated weights</p></li>
 <li><p><a class="reference internal" href="mutable_torchtrt_module_example.html#mutable-torchtrt-module-example"><span class="std std-ref">Mutable Torch TensorRT Module</span></a>: Compile, use, and modify TensorRT Graph Module with MutableTorchTensorRTModule</p></li>
 <li><p><span class="xref std std-ref">vgg16_fp8_ptq</span>: Compiling a VGG16 model with FP8 and PTQ using <code class="docutils literal notranslate"><span class="pre">torch.compile</span></code></p></li>
+<li><p><a class="reference internal" href="engine_caching_example.html#engine-caching-example"><span class="std std-ref">Engine Caching</span></a>: Utilizing engine caching to speed up compilation times</p></li>
+<li><p><a class="reference internal" href="engine_caching_bert_example.html#engine-caching-bert-example"><span class="std std-ref">Engine Caching (BERT)</span></a>: Demonstrating engine caching on BERT</p></li>
 </ul>
 <div class="sphx-glr-thumbnails"><div class="sphx-glr-thumbcontainer" tooltip="This interactive script is intended as a sample of the Torch-TensorRT workflow with torch.compi..."><img alt="" src="../../../_images/sphx_glr_torch_compile_stable_diffusion_thumb.png" />
 <p><a class="reference internal" href="torch_compile_stable_diffusion.html#sphx-glr-tutorials-rendered-examples-dynamo-torch-compile-stable-diffusion-py"><span class="std std-ref">Torch Compile Stable Diffusion</span></a></p>
@@ -474,15 +478,24 @@
 </div><div class="sphx-glr-thumbcontainer" tooltip="This interactive script is intended as an overview of the process by which the Torch-TensorRT C..."><img alt="" src="../../../_images/sphx_glr_torch_export_cudagraphs_thumb.png" />
 <p><a class="reference internal" href="torch_export_cudagraphs.html#sphx-glr-tutorials-rendered-examples-dynamo-torch-export-cudagraphs-py"><span class="std std-ref">Torch Export with Cudagraphs</span></a></p>
   <div class="sphx-glr-thumbnail-title">Torch Export with Cudagraphs</div>
+</div><div class="sphx-glr-thumbcontainer" tooltip="Compilation is an expensive operation as it involves many graph transformations, translations a..."><img alt="" src="../../../_images/sphx_glr_refit_engine_example_thumb.png" />
+<p><a class="reference internal" href="refit_engine_example.html#sphx-glr-tutorials-rendered-examples-dynamo-refit-engine-example-py"><span class="std std-ref">Refitting Torch-TensorRT Programs with New Weights</span></a></p>
+  <div class="sphx-glr-thumbnail-title">Refitting Torch-TensorRT Programs with New Weights</div>
 </div><div class="sphx-glr-thumbcontainer" tooltip="This interactive script is intended as a sample of the Torch-TensorRT workflow with torch.compi..."><img alt="" src="../../../_images/sphx_glr_torch_compile_transformers_example_thumb.png" />
 <p><a class="reference internal" href="torch_compile_transformers_example.html#sphx-glr-tutorials-rendered-examples-dynamo-torch-compile-transformers-example-py"><span class="std std-ref">Compiling a Transformer using torch.compile and TensorRT</span></a></p>
   <div class="sphx-glr-thumbnail-title">Compiling a Transformer using torch.compile and TensorRT</div>
-</div><div class="sphx-glr-thumbcontainer" tooltip="We are going to demonstrate how a compiled TensorRT Graph Module can be refitted with updated w..."><img alt="" src="../../../_images/sphx_glr_refit_engine_example_thumb.png" />
-<p><a class="reference internal" href="refit_engine_example.html#sphx-glr-tutorials-rendered-examples-dynamo-refit-engine-example-py"><span class="std std-ref">Refit  TenorRT Graph Module with Torch-TensorRT</span></a></p>
-  <div class="sphx-glr-thumbnail-title">Refit  TenorRT Graph Module with Torch-TensorRT</div>
+</div><div class="sphx-glr-thumbcontainer" tooltip="This interactive script is intended as a sample of the Torch-TensorRT workflow with dynamo back..."><img alt="" src="../../../_images/sphx_glr_torch_export_gpt2_thumb.png" />
+<p><a class="reference internal" href="torch_export_gpt2.html#sphx-glr-tutorials-rendered-examples-dynamo-torch-export-gpt2-py"><span class="std std-ref">Compiling GPT2 using the Torch-TensorRT with dynamo backend</span></a></p>
+  <div class="sphx-glr-thumbnail-title">Compiling GPT2 using the Torch-TensorRT with dynamo backend</div>
 </div><div class="sphx-glr-thumbcontainer" tooltip="This interactive script is intended as an overview of the process by which torch_tensorrt.compi..."><img alt="" src="../../../_images/sphx_glr_torch_compile_advanced_usage_thumb.png" />
 <p><a class="reference internal" href="torch_compile_advanced_usage.html#sphx-glr-tutorials-rendered-examples-dynamo-torch-compile-advanced-usage-py"><span class="std std-ref">Torch Compile Advanced Usage</span></a></p>
   <div class="sphx-glr-thumbnail-title">Torch Compile Advanced Usage</div>
+</div><div class="sphx-glr-thumbcontainer" tooltip="This interactive script is intended as a sample of the Torch-TensorRT workflow with dynamo back..."><img alt="" src="../../../_images/sphx_glr_torch_export_llama2_thumb.png" />
+<p><a class="reference internal" href="torch_export_llama2.html#sphx-glr-tutorials-rendered-examples-dynamo-torch-export-llama2-py"><span class="std std-ref">Compiling Llama2 using the Torch-TensorRT with dynamo backend</span></a></p>
+  <div class="sphx-glr-thumbnail-title">Compiling Llama2 using the Torch-TensorRT with dynamo backend</div>
+</div><div class="sphx-glr-thumbcontainer" tooltip="Small caching example on BERT."><img alt="" src="../../../_images/sphx_glr_engine_caching_bert_example_thumb.png" />
+<p><a class="reference internal" href="engine_caching_bert_example.html#sphx-glr-tutorials-rendered-examples-dynamo-engine-caching-bert-example-py"><span class="std std-ref">Engine Caching (BERT)</span></a></p>
+  <div class="sphx-glr-thumbnail-title">Engine Caching (BERT)</div>
 </div><div class="sphx-glr-thumbcontainer" tooltip="We are going to demonstrate how we can easily use Mutable Torch TensorRT Module to compile, int..."><img alt="" src="../../../_images/sphx_glr_mutable_torchtrt_module_example_thumb.png" />
 <p><a class="reference internal" href="mutable_torchtrt_module_example.html#sphx-glr-tutorials-rendered-examples-dynamo-mutable-torchtrt-module-example-py"><span class="std std-ref">Mutable Torch TensorRT Module</span></a></p>
   <div class="sphx-glr-thumbnail-title">Mutable Torch TensorRT Module</div>
@@ -492,6 +505,9 @@
 </div><div class="sphx-glr-thumbcontainer" tooltip="Here we demonstrate how to deploy a model quantized to INT8 or FP8 using the Dynamo frontend of..."><img alt="" src="../../../_images/sphx_glr_vgg16_ptq_thumb.png" />
 <p><a class="reference internal" href="vgg16_ptq.html#sphx-glr-tutorials-rendered-examples-dynamo-vgg16-ptq-py"><span class="std std-ref">Deploy Quantized Models using Torch-TensorRT</span></a></p>
   <div class="sphx-glr-thumbnail-title">Deploy Quantized Models using Torch-TensorRT</div>
+</div><div class="sphx-glr-thumbcontainer" tooltip="As model sizes increase, the cost of compilation will as well. With AOT methods like torch.dyna..."><img alt="" src="../../../_images/sphx_glr_engine_caching_example_thumb.png" />
+<p><a class="reference internal" href="engine_caching_example.html#sphx-glr-tutorials-rendered-examples-dynamo-engine-caching-example-py"><span class="std std-ref">Engine Caching</span></a></p>
+  <div class="sphx-glr-thumbnail-title">Engine Caching</div>
 </div><div class="sphx-glr-thumbcontainer" tooltip="We are going to demonstrate how a developer could include a custom kernel in a TensorRT engine ..."><img alt="" src="../../../_images/sphx_glr_custom_kernel_plugins_thumb.png" />
 <p><a class="reference internal" href="custom_kernel_plugins.html#sphx-glr-tutorials-rendered-examples-dynamo-custom-kernel-plugins-py"><span class="std std-ref">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</span></a></p>
   <div class="sphx-glr-thumbnail-title">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</div>
diff --git a/docs/tutorials/_rendered_examples/dynamo/mutable_torchtrt_module_example.html b/docs/tutorials/_rendered_examples/dynamo/mutable_torchtrt_module_example.html
index b6d222ca05..e841db7ee8 100644
--- a/docs/tutorials/_rendered_examples/dynamo/mutable_torchtrt_module_example.html
+++ b/docs/tutorials/_rendered_examples/dynamo/mutable_torchtrt_module_example.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Mutable Torch TensorRT Module &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Mutable Torch TensorRT Module &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/tutorials/_rendered_examples/dynamo/refit_engine_example.html b/docs/tutorials/_rendered_examples/dynamo/refit_engine_example.html
index ad1b46f3bb..e5e41545e3 100644
--- a/docs/tutorials/_rendered_examples/dynamo/refit_engine_example.html
+++ b/docs/tutorials/_rendered_examples/dynamo/refit_engine_example.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Refit TenorRT Graph Module with Torch-TensorRT &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Refitting Torch-TensorRT Programs with New Weights &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -39,6 +39,8 @@
   <link rel="stylesheet" href="../../../_static/css/custom.css" type="text/css" />
     <link rel="index" title="Index" href="../../../genindex.html" />
     <link rel="search" title="Search" href="../../../search.html" />
+    <link rel="next" title="TensorRT Backend for torch.compile" href="../../../dynamo/torch_compile.html" />
+    <link rel="prev" title="Engine Caching" href="engine_caching_example.html" />
   <!-- Google Tag Manager -->
     <script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({'gtm.start':
     new Date().getTime(),event:'gtm.js'});var f=d.getElementsByTagName(s)[0],
@@ -273,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -307,13 +309,16 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../getting_started/quick_start.html">Quick Start</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">User Guide</span></p>
-<ul>
+<ul class="current">
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/torch_tensorrt_explained.html">Torch-TensorRT Explained</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/dynamic_shapes.html">Dynamic shapes with Torch-TensorRT</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/saving_models.html">Saving models compiled with Torch-TensorRT</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1 current"><a class="current reference internal" href="#">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -339,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
@@ -417,7 +421,7 @@
       </li>
 
         
-      <li>Refit  TenorRT Graph Module with Torch-TensorRT</li>
+      <li>Refitting Torch-TensorRT Programs with New Weights</li>
     
     
       <li class="pytorch-breadcrumbs-aside">
@@ -458,16 +462,26 @@
 <p><a class="reference internal" href="#sphx-glr-download-tutorials-rendered-examples-dynamo-refit-engine-example-py"><span class="std std-ref">Go to the end</span></a>
 to download the full example code</p>
 </div>
-<section class="sphx-glr-example-title" id="refit-tenorrt-graph-module-with-torch-tensorrt">
-<span id="refit-engine-example"></span><span id="sphx-glr-tutorials-rendered-examples-dynamo-refit-engine-example-py"></span><h1>Refit  TenorRT Graph Module with Torch-TensorRT<a class="headerlink" href="#refit-tenorrt-graph-module-with-torch-tensorrt" title="Permalink to this heading">¶</a></h1>
-<p>We are going to demonstrate how a compiled TensorRT Graph Module can be refitted with updated weights.</p>
-<p>In many cases, we frequently update the weights of models, such as applying various LoRA to Stable Diffusion or constant A/B testing of AI products.
-That poses challenges for TensorRT inference optimizations, as compiling the TensorRT engines takes significant time, making repetitive compilation highly inefficient.
-Torch-TensorRT supports refitting TensorRT graph modules without re-compiling the engine, considerably accelerating the workflow.</p>
-<p>In this tutorial, we are going to walk through
-1. Compiling a PyTorch model to a TensorRT Graph Module
-2. Save and load a graph module
-3. Refit the graph module</p>
+<section class="sphx-glr-example-title" id="refitting-torch-tensorrt-programs-with-new-weights">
+<span id="refit-engine-example"></span><span id="sphx-glr-tutorials-rendered-examples-dynamo-refit-engine-example-py"></span><h1>Refitting Torch-TensorRT Programs with New Weights<a class="headerlink" href="#refitting-torch-tensorrt-programs-with-new-weights" title="Permalink to this heading">¶</a></h1>
+<p>Compilation is an expensive operation as it involves many graph transformations, translations
+and optimizations applied on the model. In cases were the weights of a model might be updated
+occasionally (e.g. inserting LoRA adapters), the large cost of recompilation can make it infeasible
+to use TensorRT if the compiled program needed to be built from scratch each time. Torch-TensorRT
+provides a PyTorch native mechanism to update the weights of a compiled TensorRT program without
+recompiling from scratch through weight refitting.</p>
+<p>In this tutorial, we are going to walk through</p>
+<blockquote>
+<div><ol class="arabic simple">
+<li><p>Compiling a PyTorch model to a TensorRT Graph Module</p></li>
+<li><p>Save and load a graph module</p></li>
+<li><p>Refit the graph module</p></li>
+</ol>
+</div></blockquote>
+<p>This tutorial focuses mostly on the AOT workflow where it is most likely that a user might need to
+manually refit a module. In the JIT workflow, weight changes trigger recompilation. As the engine
+has previously been built, with an engine cache enabled, Torch-TensorRT can automatically recognize
+a previously built engine, trigger refit and short cut recompilation on behalf of the user (see: <a class="reference internal" href="engine_caching_example.html#engine-caching-example"><span class="std std-ref">Engine Caching</span></a>).</p>
 <section id="standard-workflow">
 <h2>Standard Workflow<a class="headerlink" href="#standard-workflow" title="Permalink to this heading">¶</a></h2>
 <section id="imports-and-model-definition">
@@ -484,9 +498,15 @@ <h3>Imports and model definition<a class="headerlink" href="#imports-and-model-d
 </pre></div>
 </div>
 </section>
-<section id="compile-the-module-for-the-first-time-and-save-it">
-<h3>Compile the module for the first time and save it.<a class="headerlink" href="#compile-the-module-for-the-first-time-and-save-it" title="Permalink to this heading">¶</a></h3>
-<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="n">model</span> <span class="o">=</span> <span class="n">models</span><span class="o">.</span><span class="n">resnet18</span><span class="p">(</span><span class="n">pretrained</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="s2">&quot;cuda&quot;</span><span class="p">)</span>
+</section>
+<section id="make-a-refitable-compilation-program">
+<h2>Make a Refitable Compilation Program<a class="headerlink" href="#make-a-refitable-compilation-program" title="Permalink to this heading">¶</a></h2>
+<p>The inital step is to compile a module and save it as with a normal. Note that there is an
+additional parameter <cite>make_refitable</cite> that is set to <cite>True</cite>. This parameter is used to
+indicate that the engine being built should support weight refitting later. Engines built without
+these setttings will not be able to be refit.</p>
+<p>In this case we are going to compile a ResNet18 model with randomly initialized weights and save it.</p>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="n">model</span> <span class="o">=</span> <span class="n">models</span><span class="o">.</span><span class="n">resnet18</span><span class="p">(</span><span class="n">pretrained</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="s2">&quot;cuda&quot;</span><span class="p">)</span>
 <span class="n">exp_program</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">export</span><span class="o">.</span><span class="n">export</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="nb">tuple</span><span class="p">(</span><span class="n">inputs</span><span class="p">))</span>
 <span class="n">enabled_precisions</span> <span class="o">=</span> <span class="p">{</span><span class="n">torch</span><span class="o">.</span><span class="n">float</span><span class="p">}</span>
 <span class="n">debug</span> <span class="o">=</span> <span class="kc">False</span>
@@ -506,15 +526,18 @@ <h3>Compile the module for the first time and save it.<a class="headerlink" href
 <span class="p">)</span>  <span class="c1"># Output is a torch.fx.GraphModule</span>
 
 <span class="c1"># Save the graph module as an exported program</span>
-<span class="c1"># This is only supported when use_python_runtime = False</span>
 <span class="n">torch_trt</span><span class="o">.</span><span class="n">save</span><span class="p">(</span><span class="n">trt_gm</span><span class="p">,</span> <span class="s2">&quot;./compiled.ep&quot;</span><span class="p">,</span> <span class="n">inputs</span><span class="o">=</span><span class="n">inputs</span><span class="p">)</span>
 </pre></div>
 </div>
 </section>
-<section id="refit-the-module-with-update-model-weights">
-<h3>Refit the module with update model weights<a class="headerlink" href="#refit-the-module-with-update-model-weights" title="Permalink to this heading">¶</a></h3>
+<section id="refit-the-program-with-pretrained-weights">
+<h2>Refit the Program with Pretrained Weights<a class="headerlink" href="#refit-the-program-with-pretrained-weights" title="Permalink to this heading">¶</a></h2>
+<p>Random weights are not useful for inference. But now instead of recompiling the model, we can
+refit the model with the pretrained weights. This is done by setting up another PyTorch module
+with the target weights and exporting it as an ExportedProgram. Then the <code class="docutils literal notranslate"><span class="pre">refit_module_weights</span></code>
+function is used to update the weights of the compiled module with the new weights.</p>
 <div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="c1"># Create and compile the updated model</span>
-<span class="n">model2</span> <span class="o">=</span> <span class="n">models</span><span class="o">.</span><span class="n">resnet18</span><span class="p">(</span><span class="n">pretrained</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="s2">&quot;cuda&quot;</span><span class="p">)</span>
+<span class="n">model2</span> <span class="o">=</span> <span class="n">models</span><span class="o">.</span><span class="n">resnet18</span><span class="p">(</span><span class="n">pretrained</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="s2">&quot;cuda&quot;</span><span class="p">)</span>
 <span class="n">exp_program2</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">export</span><span class="o">.</span><span class="n">export</span><span class="p">(</span><span class="n">model2</span><span class="p">,</span> <span class="nb">tuple</span><span class="p">(</span><span class="n">inputs</span><span class="p">))</span>
 
 
@@ -538,13 +561,28 @@ <h3>Refit the module with update model weights<a class="headerlink" href="#refit
 </pre></div>
 </div>
 </section>
+<section id="advanced-usage">
+<h2>Advanced Usage<a class="headerlink" href="#advanced-usage" title="Permalink to this heading">¶</a></h2>
+<p>There are a number of settings you can use to control the refit process</p>
+<section id="weight-map-cache">
+<h3>Weight Map Cache<a class="headerlink" href="#weight-map-cache" title="Permalink to this heading">¶</a></h3>
+<p>Weight refitting works by matching the weights of the compiled module with the new weights from
+the user supplied ExportedProgram. Since 1:1 name matching from PyTorch to TensorRT is hard to accomplish,
+the only gaurenteed way to match weights at <em>refit-time</em> is to pass the new ExportedProgram through the
+early phases of the compilation process to generate near identical weight names. This can be expensive
+and is not always necessary.</p>
+<p>To avoid this, <strong>At initial compile</strong>, Torch-TensorRt will attempt to cache a direct mapping from PyTorch
+weights to TensorRT weights. This cache is stored in the compiled module as metadata and can be used
+to speed up refit. If the cache is not present, the refit system will fallback to rebuilding the mapping at
+refit-time. Use of this cache is controlled by the <code class="docutils literal notranslate"><span class="pre">use_weight_map_cache</span></code> parameter.</p>
+<p>Since the cache uses a heuristic based system for matching PyTorch and TensorRT weights, you may want to verify the refitting. This can be done by setting
+<code class="docutils literal notranslate"><span class="pre">verify_output</span></code> to True and providing sample <code class="docutils literal notranslate"><span class="pre">arg_inputs</span></code> and <code class="docutils literal notranslate"><span class="pre">kwarg_inputs</span></code>. When this is done, the refit
+system will run the refitted module and the user supplied module on the same inputs and compare the outputs.</p>
 </section>
-<section id="alternative-workflow-using-python-runtime">
-<h2>Alternative Workflow using Python Runtime<a class="headerlink" href="#alternative-workflow-using-python-runtime" title="Permalink to this heading">¶</a></h2>
-<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="c1"># Currently python runtime does not support engine serialization. So the refitting will be done in the same runtime.</span>
-<span class="c1"># This usecase is more useful when you need to switch different weights in the same runtime, such as using Stable Diffusion.</span>
-</pre></div>
-</div>
+<section id="in-place-refit">
+<h3>In-Place Refit<a class="headerlink" href="#in-place-refit" title="Permalink to this heading">¶</a></h3>
+<p><code class="docutils literal notranslate"><span class="pre">in_place</span></code> allows the user to refit the module in place. This is useful when the user wants to update the weights
+of the compiled module without creating a new module.</p>
 <p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 0 minutes  0.000 seconds)</p>
 <div class="sphx-glr-footer sphx-glr-footer-example docutils container" id="sphx-glr-download-tutorials-rendered-examples-dynamo-refit-engine-example-py">
 <div class="sphx-glr-download sphx-glr-download-python docutils container">
@@ -556,6 +594,7 @@ <h2>Alternative Workflow using Python Runtime<a class="headerlink" href="#altern
 </div>
 <p class="sphx-glr-signature"><a class="reference external" href="https://sphinx-gallery.github.io">Gallery generated by Sphinx-Gallery</a></p>
 </section>
+</section>
 </section>
 
 
@@ -564,6 +603,15 @@ <h2>Alternative Workflow using Python Runtime<a class="headerlink" href="#altern
             </div>
             <footer>
   
+    <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
+      
+        <a href="../../../dynamo/torch_compile.html" class="btn btn-neutral float-right" title="TensorRT Backend for torch.compile" accesskey="n" rel="next">Next <img src="../../../_static/images/chevron-right-orange.svg" class="next-page"></a>
+      
+      
+        <a href="engine_caching_example.html" class="btn btn-neutral" title="Engine Caching" accesskey="p" rel="prev"><img src="../../../_static/images/chevron-right-orange.svg" class="previous-page"> Previous</a>
+      
+    </div>
+  
 
   
 
@@ -592,14 +640,18 @@ <h2>Alternative Workflow using Python Runtime<a class="headerlink" href="#altern
           <div class="pytorch-right-menu" id="pytorch-right-menu">
             <div class="pytorch-side-scroll" id="pytorch-side-scroll-right">
               <ul>
-<li><a class="reference internal" href="#">Refit  TenorRT Graph Module with Torch-TensorRT</a><ul>
+<li><a class="reference internal" href="#">Refitting Torch-TensorRT Programs with New Weights</a><ul>
 <li><a class="reference internal" href="#standard-workflow">Standard Workflow</a><ul>
 <li><a class="reference internal" href="#imports-and-model-definition">Imports and model definition</a></li>
-<li><a class="reference internal" href="#compile-the-module-for-the-first-time-and-save-it">Compile the module for the first time and save it.</a></li>
-<li><a class="reference internal" href="#refit-the-module-with-update-model-weights">Refit the module with update model weights</a></li>
 </ul>
 </li>
-<li><a class="reference internal" href="#alternative-workflow-using-python-runtime">Alternative Workflow using Python Runtime</a></li>
+<li><a class="reference internal" href="#make-a-refitable-compilation-program">Make a Refitable Compilation Program</a></li>
+<li><a class="reference internal" href="#refit-the-program-with-pretrained-weights">Refit the Program with Pretrained Weights</a></li>
+<li><a class="reference internal" href="#advanced-usage">Advanced Usage</a><ul>
+<li><a class="reference internal" href="#weight-map-cache">Weight Map Cache</a></li>
+<li><a class="reference internal" href="#in-place-refit">In-Place Refit</a></li>
+</ul>
+</li>
 </ul>
 </li>
 </ul>
diff --git a/docs/tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html b/docs/tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html
index 5424b36ff7..4b730356ca 100644
--- a/docs/tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html
+++ b/docs/tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Torch Compile Advanced Usage &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Torch Compile Advanced Usage &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -39,7 +39,7 @@
   <link rel="stylesheet" href="../../../_static/css/custom.css" type="text/css" />
     <link rel="index" title="Index" href="../../../genindex.html" />
     <link rel="search" title="Search" href="../../../search.html" />
-    <link rel="next" title="TensorRT Backend for torch.compile" href="../../../dynamo/torch_compile.html" />
+    <link rel="next" title="Deploy Quantized Models using Torch-TensorRT" href="vgg16_ptq.html" />
     <link rel="prev" title="DLA" href="../../../user_guide/using_dla.html" />
   <!-- Google Tag Manager -->
     <script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({'gtm.start':
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1 current"><a class="current reference internal" href="#">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -336,12 +339,11 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../fx/getting_started_with_fx_path.html">Torch-TensorRT (FX Frontend) User Guide</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Tutorials</span></p>
-<ul class="current">
+<ul>
 <li class="toctree-l1"><a class="reference internal" href="../../serving_torch_tensorrt_with_triton.html">Serving a Torch-TensorRT model with Triton</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1 current"><a class="current reference internal" href="#">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
@@ -577,7 +579,7 @@ <h2>Cuda Driver Error Note<a class="headerlink" href="#cuda-driver-error-note" t
   
     <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
       
-        <a href="../../../dynamo/torch_compile.html" class="btn btn-neutral float-right" title="TensorRT Backend for torch.compile" accesskey="n" rel="next">Next <img src="../../../_static/images/chevron-right-orange.svg" class="next-page"></a>
+        <a href="vgg16_ptq.html" class="btn btn-neutral float-right" title="Deploy Quantized Models using Torch-TensorRT" accesskey="n" rel="next">Next <img src="../../../_static/images/chevron-right-orange.svg" class="next-page"></a>
       
       
         <a href="../../../user_guide/using_dla.html" class="btn btn-neutral" title="DLA" accesskey="p" rel="prev"><img src="../../../_static/images/chevron-right-orange.svg" class="previous-page"> Previous</a>
diff --git a/docs/tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html b/docs/tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html
index 3b7c997a29..201a3ca253 100644
--- a/docs/tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html
+++ b/docs/tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Compiling ResNet using the Torch-TensorRT torch.compile Backend &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Compiling ResNet using the Torch-TensorRT torch.compile Backend &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1 current"><a class="current reference internal" href="#">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html b/docs/tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html
index 6de1839c5b..172c846dc5 100644
--- a/docs/tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html
+++ b/docs/tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Torch Compile Stable Diffusion &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Torch Compile Stable Diffusion &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1 current"><a class="current reference internal" href="#">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html b/docs/tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html
index 32d22f74a6..e17c016168 100644
--- a/docs/tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html
+++ b/docs/tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Compiling a Transformer using torch.compile and TensorRT &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Compiling a Transformer using torch.compile and TensorRT &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1 current"><a class="current reference internal" href="#">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html b/docs/tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html
index bd87402baf..f266e5cc2d 100644
--- a/docs/tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html
+++ b/docs/tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Torch Export with Cudagraphs &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Torch Export with Cudagraphs &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1 current"><a class="current reference internal" href="#">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/tutorials/_rendered_examples/dynamo/torch_export_gpt2.html b/docs/tutorials/_rendered_examples/dynamo/torch_export_gpt2.html
new file mode 100644
index 0000000000..e635b8bfd3
--- /dev/null
+++ b/docs/tutorials/_rendered_examples/dynamo/torch_export_gpt2.html
@@ -0,0 +1,887 @@
+
+
+
+<!DOCTYPE html>
+<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
+<!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
+<head>
+  <meta charset="utf-8">
+  <meta name="generator" content="Docutils 0.17.1: http://docutils.sourceforge.net/" />
+
+  <meta name="viewport" content="width=device-width, initial-scale=1.0">
+  
+  <title>Compiling GPT2 using the Torch-TensorRT with dynamo backend &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
+  
+
+  
+  
+  
+  
+
+  
+
+  
+  
+    
+
+  
+
+  <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
+  <!-- <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/sg_gallery.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/sg_gallery-binder.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/sg_gallery-dataframe.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/sg_gallery-rendered-html.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/collapsible-lists/css/tree_view.css" type="text/css" />
+  <link rel="stylesheet" href="https://cdn.jsdelivr.net/npm/katex@0.10.0-beta/dist/katex.min.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/css/custom.css" type="text/css" />
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" />
+  <!-- Google Tag Manager -->
+    <script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({'gtm.start':
+    new Date().getTime(),event:'gtm.js'});var f=d.getElementsByTagName(s)[0],
+    j=d.createElement(s),dl=l!='dataLayer'?'&l='+l:'';j.async=true;j.src=
+    'https://www.googletagmanager.com/gtm.js?id='+i+dl;f.parentNode.insertBefore(j,f);
+    })(window,document,'script','dataLayer','');</script>
+    <!-- End Google Tag Manager -->
+  
+
+  
+  <script src="../../../_static/js/modernizr.min.js"></script>
+
+  <!-- Preload the theme fonts -->
+
+<link rel="preload" href="../../../_static/fonts/FreightSans/freight-sans-book.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/FreightSans/freight-sans-medium.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/IBMPlexMono/IBMPlexMono-Medium.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/FreightSans/freight-sans-bold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/FreightSans/freight-sans-medium-italic.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/IBMPlexMono/IBMPlexMono-SemiBold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+
+<!-- Preload the katex fonts -->
+
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Math-Italic.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Main-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Main-Bold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size1-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size4-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size2-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size3-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Caligraphic-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+  <link rel="stylesheet" href="https://use.fontawesome.com/releases/v5.15.2/css/all.css" integrity="sha384-vSIIfh2YWi9wW0r9iZe7RJPrKwp6bG+s9QZMoITbCckVJqGCCRhc+ccxNcdpHuYu" crossorigin="anonymous">
+</head>
+
+<div class="container-fluid header-holder tutorials-header" id="header-holder">
+  <div class="container">
+    <div class="header-container">
+      <a class="header-logo" href="https://pytorch.org/" aria-label="PyTorch"></a>
+
+      <div class="main-menu">
+        <ul>
+
+          <li class="main-menu-item">
+          <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                Learn
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/get-started">
+                  <span class=dropdown-title>Get Started</span>
+                  <p>Run PyTorch locally or get started quickly with one of the supported cloud platforms</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/tutorials">
+                  <span class="dropdown-title">Tutorials</span>
+                  <p>Whats new in PyTorch tutorials</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/tutorials/beginner/basics/intro.html">
+                  <span class="dropdown-title">Learn the Basics</span>
+                  <p>Familiarize yourself with PyTorch concepts and modules</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/tutorials/recipes/recipes_index.html">
+                  <span class="dropdown-title">PyTorch Recipes</span>
+                  <p>Bite-size, ready-to-deploy PyTorch code examples</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/tutorials/beginner/introyt.html">
+                  <span class="dropdown-title">Intro to PyTorch - YouTube Series</span>
+                  <p>Master PyTorch basics with our engaging YouTube tutorial series</p>
+                </a>
+              </div>
+            </div>
+          </li>
+
+          <li>
+          <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                Ecosystem
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/ecosystem">
+                  <span class="dropdown-title">Tools</span>
+                  <p>Learn about the tools and frameworks in the PyTorch Ecosystem</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/#community-module">
+                  <span class=dropdown-title>Community</span>
+                  <p>Join the PyTorch developer community to contribute, learn, and get your questions answered</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://discuss.pytorch.org/" target="_blank">
+                  <span class=dropdown-title>Forums</span>
+                  <p>A place to discuss PyTorch code, issues, install, research</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/resources">
+                  <span class=dropdown-title>Developer Resources</span>
+                  <p>Find resources and get questions answered</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/ecosystem/contributor-awards-2023">
+                  <span class="dropdown-title">Contributor Awards - 2023</span>
+                  <p>Award winners announced at this year's PyTorch Conference</p>
+                </a>
+              </div>
+            </div>
+          </li>
+
+          <li>
+          <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                Edge
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/edge">
+                  <span class="dropdown-title">About PyTorch Edge</span>
+                  <p>Build innovative and privacy-aware AI experiences for edge devices</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/executorch-overview">
+                  <span class="dropdown-title">ExecuTorch</span>
+                  <p>End-to-end solution for enabling on-device inference capabilities across mobile and edge devices</p>
+                </a>
+              </div>
+            </div>  
+          </li>
+
+          <li class="main-menu-item">
+            <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                Docs
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/docs/stable/index.html">
+                  <span class="dropdown-title">PyTorch</span>
+                  <p>Explore the documentation for comprehensive guidance on how to use PyTorch</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/pytorch-domains">
+                  <span class="dropdown-title">PyTorch Domains</span>
+                  <p>Read the PyTorch Domains documentation to learn more about domain-specific libraries</p>
+                </a>
+              </div>
+            </div>
+          </li>
+
+          <li>
+            <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                Blogs & News 
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/blog/">
+                  <span class="dropdown-title">PyTorch Blog</span>
+                  <p>Catch up on the latest technical news and happenings</p>
+                </a>
+                 <a class="nav-dropdown-item" href="https://pytorch.org/community-blog">
+                  <span class="dropdown-title">Community Blog</span>
+                  <p>Stories from the PyTorch ecosystem</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/videos">
+                  <span class="dropdown-title">Videos</span>
+                  <p>Learn about the latest PyTorch tutorials, new, and more </p>
+                <a class="nav-dropdown-item" href="https://pytorch.org/community-stories">
+                  <span class="dropdown-title">Community Stories</span>
+                  <p>Learn how our community solves real, everyday machine learning problems with PyTorch</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/events">
+                  <span class="dropdown-title">Events</span>
+                  <p>Find events, webinars, and podcasts</p>
+                </a>
+            </div>
+          </li>
+
+          <li>
+            <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                About
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/foundation">
+                  <span class="dropdown-title">PyTorch Foundation</span>
+                  <p>Learn more about the PyTorch Foundation</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/governing-board">
+                  <span class="dropdown-title">Governing Board</span>
+                  <p></p>
+                </a>
+              </div>
+            </div>
+          </li>
+
+          <li class="main-menu-item">
+            <div class="no-dropdown">
+              <a href="https://pytorch.org/join" data-cta="join">
+                Become a Member
+              </a>
+            </div>
+          </li>
+          <li>
+           <div class="main-menu-item">
+             <a href="https://github.com/pytorch/pytorch" class="github-icon">
+             </a>
+           </div>
+          </li>
+          <!--- TODO: This block adds the search icon to the nav bar. We will enable it later. 
+          <li>
+            <div class="main-menu-item">
+             <a href="https://github.com/pytorch/pytorch" class="search-icon">
+             </a>
+            </div>
+          </li>
+          --->
+        </ul>
+      </div>
+
+      <a class="main-menu-open-button" href="#" data-behavior="open-mobile-menu"></a>
+    </div>
+  </div>
+</div>
+
+<body class="pytorch-body">
+
+   
+
+    
+
+    <div class="table-of-contents-link-wrapper">
+      <span>Table of Contents</span>
+      <a href="#" class="toggle-table-of-contents" data-behavior="toggle-table-of-contents"></a>
+    </div>
+
+    <nav data-toggle="wy-nav-shift" class="pytorch-left-menu" id="pytorch-left-menu">
+      <div class="pytorch-side-scroll">
+        <div class="pytorch-menu pytorch-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
+          <div class="pytorch-left-menu-search">
+            
+
+            
+              
+              
+                <div class="version">
+                  v2.5.0.dev0+a4a9419
+                </div>
+              
+            
+
+            
+
+
+  
+
+
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search Docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+
+            
+          </div>
+
+          
+            
+            
+              
+            
+            
+              <p class="caption" role="heading"><span class="caption-text">Getting Started</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../getting_started/installation.html">Installation</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../getting_started/quick_start.html">Quick Start</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">User Guide</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../user_guide/torch_tensorrt_explained.html">Torch-TensorRT Explained</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../user_guide/dynamic_shapes.html">Dynamic shapes with Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../user_guide/saving_models.html">Saving models compiled with Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../user_guide/using_dla.html">DLA</a></li>
+<li class="toctree-l1"><a class="reference internal" href="torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../dynamo/torch_compile.html">TensorRT Backend for <code class="docutils literal notranslate"><span class="pre">torch.compile</span></code></a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../dynamo/dynamo_export.html">Compiling Exported Programs with Torch-TensorRT</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">TorchScript Frontend</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../ts/creating_torchscript_module_in_python.html">Creating a TorchScript Module</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../ts/creating_torchscript_module_in_python.html#working-with-torchscript-in-python">Working with TorchScript in Python</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../ts/creating_torchscript_module_in_python.html#saving-torchscript-module-to-disk">Saving TorchScript Module to Disk</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../ts/getting_started_with_python_api.html">Using Torch-TensorRT in Python</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../ts/getting_started_with_cpp_api.html">Using Torch-TensorRT in  C++</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../ts/ptq.html">Post Training Quantization (PTQ)</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">FX Frontend</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../fx/getting_started_with_fx_path.html">Torch-TensorRT (FX Frontend) User Guide</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">Tutorials</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../serving_torch_tensorrt_with_triton.html">Serving a Torch-TensorRT model with Triton</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../notebooks.html">Example notebooks</a></li>
+<li class="toctree-l1"><a class="reference internal" href="torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
+<li class="toctree-l1"><a class="reference internal" href="torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
+<li class="toctree-l1"><a class="reference internal" href="torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
+<li class="toctree-l1"><a class="reference internal" href="custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="mutable_torchtrt_module_example.html">Mutable Torch TensorRT Module</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">Python API Documentation</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../py_api/torch_tensorrt.html">torch_tensorrt</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../py_api/dynamo.html">torch_tensorrt.dynamo</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../py_api/logging.html">torch_tensorrt.logging</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../py_api/fx.html">torch_tensorrt.fx</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../py_api/ts.html">torch_tensorrt.ts</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../py_api/ptq.html">torch_tensorrt.ts.ptq</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">C++ API Documentation</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../_cpp_api/torch_tensort_cpp.html">Torch-TensorRT C++ API</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../_cpp_api/namespace_torch_tensorrt.html">Namespace torch_tensorrt</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../_cpp_api/namespace_torch_tensorrt__logging.html">Namespace torch_tensorrt::logging</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../_cpp_api/namespace_torch_tensorrt__torchscript.html">Namespace torch_tensorrt::torchscript</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../_cpp_api/namespace_torch_tensorrt__ptq.html">Namespace torch_tensorrt::ptq</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">CLI Documentation</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../cli/torchtrtc.html">torchtrtc</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">Contributor Documentation</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../contributors/system_overview.html">System Overview</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../contributors/dynamo_converters.html">Writing Dynamo Converters</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../contributors/writing_dynamo_aten_lowering_passes.html">Writing Dynamo ATen Lowering Passes</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../contributors/ts_converters.html">Writing TorchScript Converters</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../contributors/useful_links.html">Useful Links for Torch-TensorRT Development</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">Indices</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../indices/supported_ops.html">Operators Supported</a></li>
+</ul>
+
+            
+          
+        </div>
+      </div>
+    </nav>
+
+    <div class="pytorch-container">
+      <div class="pytorch-page-level-bar" id="pytorch-page-level-bar">
+        <div class="pytorch-breadcrumbs-wrapper">
+          
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+<div role="navigation" aria-label="breadcrumbs navigation">
+
+  <ul class="pytorch-breadcrumbs">
+    
+      <li>
+        <a href="../../../index.html">
+          
+            Docs
+          
+        </a> &gt;
+      </li>
+
+        
+      <li>Compiling GPT2 using the Torch-TensorRT with dynamo backend</li>
+    
+    
+      <li class="pytorch-breadcrumbs-aside">
+        
+            
+            <a href="../../../_sources/tutorials/_rendered_examples/dynamo/torch_export_gpt2.rst.txt" rel="nofollow"><img src="../../../_static/images/view-page-source-icon.svg"></a>
+          
+        
+      </li>
+    
+  </ul>
+
+  
+</div>
+        </div>
+
+        <div class="pytorch-shortcuts-wrapper" id="pytorch-shortcuts-wrapper">
+          Shortcuts
+        </div>
+      </div>
+
+      <section data-toggle="wy-nav-shift" id="pytorch-content-wrap" class="pytorch-content-wrap">
+        <div class="pytorch-content-left">
+
+        
+          <!-- Google Tag Manager (noscript) -->
+          <noscript><iframe src="https://www.googletagmanager.com/ns.html?id="
+          height="0" width="0" style="display:none;visibility:hidden"></iframe></noscript>
+          <!-- End Google Tag Manager (noscript) -->
+          
+          <div class="rst-content">
+          
+            <div role="main" class="main-content" itemscope="itemscope" itemtype="http://schema.org/Article">
+             <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
+              
+  <div class="sphx-glr-download-link-note admonition note">
+<p class="admonition-title">Note</p>
+<p><a class="reference internal" href="#sphx-glr-download-tutorials-rendered-examples-dynamo-torch-export-gpt2-py"><span class="std std-ref">Go to the end</span></a>
+to download the full example code</p>
+</div>
+<section class="sphx-glr-example-title" id="compiling-gpt2-using-the-torch-tensorrt-with-dynamo-backend">
+<span id="torch-export-gpt2"></span><span id="sphx-glr-tutorials-rendered-examples-dynamo-torch-export-gpt2-py"></span><h1>Compiling GPT2 using the Torch-TensorRT with dynamo backend<a class="headerlink" href="#compiling-gpt2-using-the-torch-tensorrt-with-dynamo-backend" title="Permalink to this heading">¶</a></h1>
+<p>This interactive script is intended as a sample of the Torch-TensorRT workflow with dynamo backend on a GPT2 model.</p>
+<section id="imports-and-model-definition">
+<h2>Imports and Model Definition<a class="headerlink" href="#imports-and-model-definition" title="Permalink to this heading">¶</a></h2>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="kn">import</span> <span class="nn">torch</span>
+<span class="kn">import</span> <span class="nn">torch_tensorrt</span>
+<span class="kn">from</span> <span class="nn">transformers</span> <span class="kn">import</span> <span class="n">AutoModelForCausalLM</span><span class="p">,</span> <span class="n">AutoTokenizer</span>
+<span class="kn">from</span> <span class="nn">utils</span> <span class="kn">import</span> <span class="n">export_llm</span><span class="p">,</span> <span class="n">generate</span>
+</pre></div>
+</div>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="c1"># Define the parameters and initialize the model</span>
+<span class="n">MAX_TOKENS</span> <span class="o">=</span> <span class="mi">32</span>
+<span class="n">DEVICE</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">device</span><span class="p">(</span><span class="s2">&quot;cuda:0&quot;</span><span class="p">)</span>
+
+<span class="c1"># Define the GPT2 model from hugging face</span>
+<span class="c1"># kv_cache is not supported in Torch-TRT currently.</span>
+<span class="c1"># CPU is used here so that GPU memory is reserved for TRT compilation.</span>
+<span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
+    <span class="n">tokenizer</span> <span class="o">=</span> <span class="n">AutoTokenizer</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="s2">&quot;gpt2&quot;</span><span class="p">)</span>
+    <span class="n">model</span> <span class="o">=</span> <span class="n">AutoModelForCausalLM</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+        <span class="s2">&quot;gpt2&quot;</span><span class="p">,</span>
+        <span class="n">pad_token_id</span><span class="o">=</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token_id</span><span class="p">,</span>
+        <span class="n">use_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="n">attn_implementation</span><span class="o">=</span><span class="s2">&quot;eager&quot;</span><span class="p">,</span>
+    <span class="p">)</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span>
+</pre></div>
+</div>
+<p>Tokenize a sample input prompt and get pytorch model outputs</p>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="n">prompt</span> <span class="o">=</span> <span class="s2">&quot;I enjoy walking with my cute dog&quot;</span>
+<span class="n">model_inputs</span> <span class="o">=</span> <span class="n">tokenizer</span><span class="p">(</span><span class="n">prompt</span><span class="p">,</span> <span class="n">return_tensors</span><span class="o">=</span><span class="s2">&quot;pt&quot;</span><span class="p">)</span>
+<span class="n">input_ids</span> <span class="o">=</span> <span class="n">model_inputs</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">]</span>
+
+<span class="c1"># Auto-regressive generation loop for greedy decoding using PyTorch model</span>
+<span class="c1"># We use a custom generate function which is very similar to the huggingface one.</span>
+<span class="n">pyt_gen_tokens</span> <span class="o">=</span> <span class="n">generate</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">MAX_TOKENS</span><span class="p">,</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token_id</span><span class="p">)</span>
+</pre></div>
+</div>
+</section>
+<section id="compilation-with-torch-tensorrt-using-dynamo-backend-and-generate-tensorrt-outputs">
+<h2>Compilation with <cite>Torch-TensorRT</cite> using dynamo backend and generate TensorRT outputs<a class="headerlink" href="#compilation-with-torch-tensorrt-using-dynamo-backend-and-generate-tensorrt-outputs" title="Permalink to this heading">¶</a></h2>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="c1"># Export the GPT2 model into an ExportedProgram which is input of TRT compilation</span>
+<span class="n">gpt2_ep</span> <span class="o">=</span> <span class="n">export_llm</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">max_seq_len</span><span class="o">=</span><span class="mi">1024</span><span class="p">)</span>
+<span class="n">trt_model</span> <span class="o">=</span> <span class="n">torch_tensorrt</span><span class="o">.</span><span class="n">dynamo</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span>
+    <span class="n">gpt2_ep</span><span class="p">,</span>
+    <span class="n">inputs</span><span class="o">=</span><span class="p">[</span><span class="n">input_ids</span><span class="p">],</span>
+    <span class="n">enabled_precisions</span><span class="o">=</span><span class="p">{</span><span class="n">torch</span><span class="o">.</span><span class="n">float32</span><span class="p">},</span>
+    <span class="n">truncate_double</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+    <span class="n">device</span><span class="o">=</span><span class="n">DEVICE</span><span class="p">,</span>
+    <span class="n">disable_tf32</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+<span class="p">)</span>
+
+<span class="c1"># Auto-regressive generation loop for greedy decoding using TensorRT model</span>
+<span class="c1"># We use a custom generate function which is very similar to the huggingface one.</span>
+<span class="c1"># Move inputs to GPU</span>
+<span class="n">input_ids</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">DEVICE</span><span class="p">)</span>
+<span class="n">trt_gen_tokens</span> <span class="o">=</span> <span class="n">generate</span><span class="p">(</span><span class="n">trt_model</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">MAX_TOKENS</span><span class="p">,</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token_id</span><span class="p">)</span>
+</pre></div>
+</div>
+</section>
+<section id="decode-the-output-sentences-of-pytorch-and-tensorrt">
+<h2>Decode the output sentences of PyTorch and TensorRT<a class="headerlink" href="#decode-the-output-sentences-of-pytorch-and-tensorrt" title="Permalink to this heading">¶</a></h2>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="nb">print</span><span class="p">(</span><span class="s2">&quot;=============================&quot;</span><span class="p">)</span>
+<span class="nb">print</span><span class="p">(</span>
+    <span class="s2">&quot;Pytorch model generated text: &quot;</span><span class="p">,</span>
+    <span class="n">tokenizer</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span><span class="n">pyt_gen_tokens</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">skip_special_tokens</span><span class="o">=</span><span class="kc">True</span><span class="p">),</span>
+<span class="p">)</span>
+<span class="nb">print</span><span class="p">(</span><span class="s2">&quot;=============================&quot;</span><span class="p">)</span>
+<span class="nb">print</span><span class="p">(</span>
+    <span class="s2">&quot;TensorRT model generated text: &quot;</span><span class="p">,</span>
+    <span class="n">tokenizer</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span><span class="n">trt_gen_tokens</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">skip_special_tokens</span><span class="o">=</span><span class="kc">True</span><span class="p">),</span>
+<span class="p">)</span>
+</pre></div>
+</div>
+</section>
+</section>
+<section id="the-output-sentences-should-look-like">
+<h1>The output sentences should look like<a class="headerlink" href="#the-output-sentences-should-look-like" title="Permalink to this heading">¶</a></h1>
+</section>
+<section id="pytorch-model-generated-text-i-enjoy-walking-with-my-cute-dog-but-i-m-not-sure-if-i-ll-ever-be-able-to-walk-with-my-dog-i-m-not-sure-if-i-ll-ever-be-able-to-walk-with-my">
+<h1>Pytorch model generated text:  I enjoy walking with my cute dog, but I’m not sure if I’ll ever be able to walk with my dog. I’m not sure if I’ll ever be able to walk with my<a class="headerlink" href="#pytorch-model-generated-text-i-enjoy-walking-with-my-cute-dog-but-i-m-not-sure-if-i-ll-ever-be-able-to-walk-with-my-dog-i-m-not-sure-if-i-ll-ever-be-able-to-walk-with-my" title="Permalink to this heading">¶</a></h1>
+<p>TensorRT model generated text:  I enjoy walking with my cute dog, but I’m not sure if I’ll ever be able to walk with my dog. I’m not sure if I’ll ever be able to walk with my</p>
+<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 0 minutes  0.000 seconds)</p>
+<div class="sphx-glr-footer sphx-glr-footer-example docutils container" id="sphx-glr-download-tutorials-rendered-examples-dynamo-torch-export-gpt2-py">
+<div class="sphx-glr-download sphx-glr-download-python docutils container">
+<p><a class="reference download internal" download="" href="../../../_downloads/2a9ac10f2667047a7f398d1593b7ca33/torch_export_gpt2.py"><code class="xref download docutils literal notranslate"><span class="pre">Download</span> <span class="pre">Python</span> <span class="pre">source</span> <span class="pre">code:</span> <span class="pre">torch_export_gpt2.py</span></code></a></p>
+</div>
+<div class="sphx-glr-download sphx-glr-download-jupyter docutils container">
+<p><a class="reference download internal" download="" href="../../../_downloads/34421db2f2a82ea2b3d9a9cc85624784/torch_export_gpt2.ipynb"><code class="xref download docutils literal notranslate"><span class="pre">Download</span> <span class="pre">Jupyter</span> <span class="pre">notebook:</span> <span class="pre">torch_export_gpt2.ipynb</span></code></a></p>
+</div>
+</div>
+<p class="sphx-glr-signature"><a class="reference external" href="https://sphinx-gallery.github.io">Gallery generated by Sphinx-Gallery</a></p>
+</section>
+
+
+             </article>
+             
+            </div>
+            <footer>
+  
+
+  
+
+    <hr>
+
+  
+
+  <div role="contentinfo">
+    <p>
+        &copy; Copyright 2024, NVIDIA Corporation.
+
+    </p>
+  </div>
+    
+      <div>
+        Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a href="https://github.com/rtfd/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the Docs</a>.
+      </div>
+     
+
+</footer>
+
+          </div>
+        </div>
+
+        <div class="pytorch-content-right" id="pytorch-content-right">
+          <div class="pytorch-right-menu" id="pytorch-right-menu">
+            <div class="pytorch-side-scroll" id="pytorch-side-scroll-right">
+              <ul>
+<li><a class="reference internal" href="#">Compiling GPT2 using the Torch-TensorRT with dynamo backend</a><ul>
+<li><a class="reference internal" href="#imports-and-model-definition">Imports and Model Definition</a></li>
+<li><a class="reference internal" href="#compilation-with-torch-tensorrt-using-dynamo-backend-and-generate-tensorrt-outputs">Compilation with <cite>Torch-TensorRT</cite> using dynamo backend and generate TensorRT outputs</a></li>
+<li><a class="reference internal" href="#decode-the-output-sentences-of-pytorch-and-tensorrt">Decode the output sentences of PyTorch and TensorRT</a></li>
+</ul>
+</li>
+<li><a class="reference internal" href="#the-output-sentences-should-look-like">The output sentences should look like</a></li>
+<li><a class="reference internal" href="#pytorch-model-generated-text-i-enjoy-walking-with-my-cute-dog-but-i-m-not-sure-if-i-ll-ever-be-able-to-walk-with-my-dog-i-m-not-sure-if-i-ll-ever-be-able-to-walk-with-my">Pytorch model generated text:  I enjoy walking with my cute dog, but I’m not sure if I’ll ever be able to walk with my dog. I’m not sure if I’ll ever be able to walk with my</a></li>
+</ul>
+
+            </div>
+          </div>
+        </div>
+      </section>
+    </div>
+
+  
+
+
+  
+
+     
+       <script type="text/javascript" id="documentation_options" data-url_root="../../../" src="../../../_static/documentation_options.js"></script>
+         <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js"></script>
+         <script src="../../../_static/jquery.js"></script>
+         <script src="../../../_static/underscore.js"></script>
+         <script src="../../../_static/_sphinx_javascript_frameworks_compat.js"></script>
+         <script src="../../../_static/doctools.js"></script>
+         <script src="../../../_static/collapsible-lists/js/CollapsibleLists.compressed.js"></script>
+         <script src="../../../_static/collapsible-lists/js/apply-collapsible-lists.js"></script>
+         <script crossorigin="anonymous" integrity="sha256-Ae2Vz/4ePdIu6ZyI/5ZGsYnb+m0JlOmKPjt6XZ9JJkA=" src="https://cdnjs.cloudflare.com/ajax/libs/require.js/2.3.4/require.min.js"></script>
+     
+
+  
+
+  <script type="text/javascript" src="../../../_static/js/vendor/popper.min.js"></script>
+  <script type="text/javascript" src="../../../_static/js/vendor/bootstrap.min.js"></script>
+  <script src="https://cdnjs.cloudflare.com/ajax/libs/list.js/1.5.0/list.min.js"></script>
+  <script type="text/javascript" src="../../../_static/js/theme.js"></script>
+
+  <script type="text/javascript">
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+  <!-- Begin Footer -->
+
+  <div class="container-fluid docs-tutorials-resources" id="docs-tutorials-resources">
+    <div class="container">
+      <div class="row">
+        <div class="col-md-4 text-center">
+          <h2>Docs</h2>
+          <p>Access comprehensive developer documentation for PyTorch</p>
+          <a class="with-right-arrow" href="https://pytorch.org/docs/stable/index.html">View Docs</a>
+        </div>
+
+        <div class="col-md-4 text-center">
+          <h2>Tutorials</h2>
+          <p>Get in-depth tutorials for beginners and advanced developers</p>
+          <a class="with-right-arrow" href="https://pytorch.org/tutorials">View Tutorials</a>
+        </div>
+
+        <div class="col-md-4 text-center">
+          <h2>Resources</h2>
+          <p>Find development resources and get your questions answered</p>
+          <a class="with-right-arrow" href="https://pytorch.org/resources">View Resources</a>
+        </div>
+      </div>
+    </div>
+  </div>
+
+  <footer class="site-footer">
+    <div class="container footer-container">
+      <div class="footer-logo-wrapper">
+        <a href="https://pytorch.org/" class="footer-logo"></a>
+      </div>
+
+      <div class="footer-links-wrapper">
+        <div class="footer-links-col">
+          <ul>
+            <li class="list-title"><a href="https://pytorch.org/">PyTorch</a></li>
+            <li><a href="https://pytorch.org/get-started">Get Started</a></li>
+            <li><a href="https://pytorch.org/features">Features</a></li>
+            <li><a href="https://pytorch.org/ecosystem">Ecosystem</a></li>
+            <li><a href="https://pytorch.org/blog/">Blog</a></li>
+            <li><a href="https://github.com/pytorch/pytorch/blob/master/CONTRIBUTING.md">Contributing</a></li>
+          </ul>
+        </div>
+
+        <div class="footer-links-col">
+          <ul>
+            <li class="list-title"><a href="https://pytorch.org/resources">Resources</a></li>
+            <li><a href="https://pytorch.org/tutorials">Tutorials</a></li>
+            <li><a href="https://pytorch.org/docs/stable/index.html">Docs</a></li>
+            <li><a href="https://discuss.pytorch.org" target="_blank">Discuss</a></li>
+            <li><a href="https://github.com/pytorch/pytorch/issues" target="_blank">Github Issues</a></li>
+            <li><a href="https://pytorch.org/assets/brand-guidelines/PyTorch-Brand-Guidelines.pdf" target="_blank">Brand Guidelines</a></li>
+          </ul>
+        </div>
+
+        <div class="footer-links-col">
+          <ul>
+            <li class="list-title">Stay up to date</li>
+            <li><a href="https://www.facebook.com/pytorch" target="_blank">Facebook</a></li>
+            <li><a href="https://twitter.com/pytorch" target="_blank">Twitter</a></li>
+            <li><a href="https://www.youtube.com/pytorch" target="_blank">YouTube</a></li>
+            <li><a href="https://www.linkedin.com/company/pytorch" target="_blank">LinkedIn</a></li>
+          </ul>  
+          </div>
+
+        <div class="footer-links-col">
+          <ul>
+            <li class="list-title">PyTorch Podcasts</li>
+            <li><a href="https://open.spotify.com/show/6UzHKeiy368jKfQMKKvJY5" target="_blank">Spotify</a></li>
+            <li><a href="https://podcasts.apple.com/us/podcast/pytorch-developer-podcast/id1566080008" target="_blank">Apple</a></li>
+            <li><a href="https://www.google.com/podcasts?feed=aHR0cHM6Ly9mZWVkcy5zaW1wbGVjYXN0LmNvbS9PQjVGa0lsOA%3D%3D" target="_blank">Google</a></li>
+            <li><a href="https://music.amazon.com/podcasts/7a4e6f0e-26c2-49e9-a478-41bd244197d0/PyTorch-Developer-Podcast?" target="_blank">Amazon</a></li>
+          </ul>
+         </div>
+        </div>
+        
+        <div class="privacy-policy">
+          <ul>
+            <li class="privacy-policy-links"><a href="https://www.linuxfoundation.org/terms/" target="_blank">Terms</a></li>
+            <li class="privacy-policy-links">|</li>
+            <li class="privacy-policy-links"><a href="https://www.linuxfoundation.org/privacy-policy/" target="_blank">Privacy</a></li>
+          </ul>
+        </div>
+        <div class="copyright">
+        <p>© Copyright The Linux Foundation. The PyTorch Foundation is a project of The Linux Foundation.
+          For web site terms of use, trademark policy and other policies applicable to The PyTorch Foundation please see
+          <a href="https://www.linuxfoundation.org/policies/">www.linuxfoundation.org/policies/</a>. The PyTorch Foundation supports the PyTorch open source
+          project, which has been established as PyTorch Project a Series of LF Projects, LLC. For policies applicable to the PyTorch Project a Series of LF Projects, LLC,
+          please see <a href="https://www.lfprojects.org/policies/">www.lfprojects.org/policies/</a>.</p>
+      </div>
+     </div>
+
+  </footer>
+
+  <div class="cookie-banner-wrapper">
+  <div class="container">
+    <p class="gdpr-notice">To analyze traffic and optimize your experience, we serve cookies on this site. By clicking or navigating, you agree to allow our usage of cookies. As the current maintainers of this site, Facebook’s Cookies Policy applies. Learn more, including about available controls: <a href="https://www.facebook.com/policies/cookies/">Cookies Policy</a>.</p>
+    <img class="close-button" src="../../../_static/images/pytorch-x.svg">
+  </div>
+</div>
+
+  <!-- End Footer -->
+
+  <!-- Begin Mobile Menu -->
+
+  <div class="mobile-main-menu">
+    <div class="container-fluid">
+      <div class="container">
+        <div class="mobile-main-menu-header-container">
+          <a class="header-logo" href="https://pytorch.org/" aria-label="PyTorch"></a>
+          <a class="main-menu-close-button" href="#" data-behavior="close-mobile-menu"></a>
+        </div>
+      </div>
+    </div>
+
+    <div class="mobile-main-menu-links-container">
+      <div class="main-menu">
+        <ul>
+           <li class="resources-mobile-menu-title">
+             <a>Learn</a>
+           </li>
+           <ul class="resources-mobile-menu-items">
+             <li>
+               <a href="https://pytorch.org/get-started">Get Started</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/tutorials">Tutorials</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/tutorials/beginner/basics/intro.html">Learn the Basics</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/tutorials/recipes/recipes_index.html">PyTorch Recipes</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/tutorials/beginner/introyt.html">Introduction to PyTorch - YouTube Series</a>
+             </li>
+           </ul>
+           <li class="resources-mobile-menu-title">
+             <a>Ecosystem</a>
+           </li>
+           <ul class="resources-mobile-menu-items">
+             <li>
+               <a href="https://pytorch.org/ecosystem">Tools</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/#community-module">Community</a>
+             </li>
+             <li>
+               <a href="https://discuss.pytorch.org/">Forums</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/resources">Developer Resources</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/ecosystem/contributor-awards-2023">Contributor Awards - 2023</a>
+             </li>
+           </ul>
+
+           <li class="resources-mobile-menu-title">
+             <a>Edge</a>
+           </li>
+
+           <ul class="resources-mobile-menu-items">
+             <li>
+               <a href="https://pytorch.org/edge">About PyTorch Edge</a>
+             </li>
+             
+             <li>
+               <a href="https://pytorch.org/executorch-overview">ExecuTorch</a>
+             </li>
+           </ul>
+
+           <li class="resources-mobile-menu-title">
+             <a>Docs</a>
+           </li>
+
+           <ul class="resources-mobile-menu-items">
+            <li>
+              <a href="https://pytorch.org/docs/stable/index.html">PyTorch</a>
+            </li>
+
+            <li>
+              <a href="https://pytorch.org/pytorch-domains">PyTorch Domains</a>
+            </li>
+          </ul>
+
+          <li class="resources-mobile-menu-title">
+            <a>Blog & News</a>
+          </li>
+            
+           <ul class="resources-mobile-menu-items">
+            <li>
+              <a href="https://pytorch.org/blog/">PyTorch Blog</a>
+            </li>
+            <li>
+              <a href="https://pytorch.org/community-blog">Community Blog</a>
+            </li>
+
+            <li>
+              <a href="https://pytorch.org/videos">Videos</a>
+            </li>
+
+            <li>
+              <a href="https://pytorch.org/community-stories">Community Stories</a>
+            </li>
+            <li>
+              <a href="https://pytorch.org/events">Events</a>
+            </li>
+          </ul>
+          
+          <li class="resources-mobile-menu-title">
+            <a>About</a>
+          </li>
+
+          <ul class="resources-mobile-menu-items">
+            <li>
+              <a href="https://pytorch.org/foundation">PyTorch Foundation</a>
+            </li>
+            <li>
+              <a href="https://pytorch.org/governing-board">Governing Board</a>
+            </li>
+          </ul>
+        </ul>
+      </div>
+    </div>
+  </div>
+
+  <!-- End Mobile Menu -->
+
+  <script type="text/javascript" src="../../../_static/js/vendor/anchor.min.js"></script>
+
+  <script type="text/javascript">
+    $(document).ready(function() {
+      mobileMenu.bind();
+      mobileTOC.bind();
+      pytorchAnchors.bind();
+      sideMenus.bind();
+      scrollToAnchor.bind();
+      highlightNavigation.bind();
+      mainMenuDropdown.bind();
+      filterTags.bind();
+
+      // Add class to links that have code blocks, since we cannot create links in code blocks
+      $("article.pytorch-article a span.pre").each(function(e) {
+        $(this).closest("a").addClass("has-code");
+      });
+    })
+  </script>
+</body>
+</html>
\ No newline at end of file
diff --git a/docs/tutorials/_rendered_examples/dynamo/torch_export_llama2.html b/docs/tutorials/_rendered_examples/dynamo/torch_export_llama2.html
new file mode 100644
index 0000000000..be19cefefc
--- /dev/null
+++ b/docs/tutorials/_rendered_examples/dynamo/torch_export_llama2.html
@@ -0,0 +1,893 @@
+
+
+
+<!DOCTYPE html>
+<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
+<!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
+<head>
+  <meta charset="utf-8">
+  <meta name="generator" content="Docutils 0.17.1: http://docutils.sourceforge.net/" />
+
+  <meta name="viewport" content="width=device-width, initial-scale=1.0">
+  
+  <title>Compiling Llama2 using the Torch-TensorRT with dynamo backend &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
+  
+
+  
+  
+  
+  
+
+  
+
+  
+  
+    
+
+  
+
+  <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
+  <!-- <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/sg_gallery.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/sg_gallery-binder.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/sg_gallery-dataframe.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/sg_gallery-rendered-html.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/collapsible-lists/css/tree_view.css" type="text/css" />
+  <link rel="stylesheet" href="https://cdn.jsdelivr.net/npm/katex@0.10.0-beta/dist/katex.min.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/css/custom.css" type="text/css" />
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" />
+  <!-- Google Tag Manager -->
+    <script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({'gtm.start':
+    new Date().getTime(),event:'gtm.js'});var f=d.getElementsByTagName(s)[0],
+    j=d.createElement(s),dl=l!='dataLayer'?'&l='+l:'';j.async=true;j.src=
+    'https://www.googletagmanager.com/gtm.js?id='+i+dl;f.parentNode.insertBefore(j,f);
+    })(window,document,'script','dataLayer','');</script>
+    <!-- End Google Tag Manager -->
+  
+
+  
+  <script src="../../../_static/js/modernizr.min.js"></script>
+
+  <!-- Preload the theme fonts -->
+
+<link rel="preload" href="../../../_static/fonts/FreightSans/freight-sans-book.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/FreightSans/freight-sans-medium.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/IBMPlexMono/IBMPlexMono-Medium.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/FreightSans/freight-sans-bold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/FreightSans/freight-sans-medium-italic.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/IBMPlexMono/IBMPlexMono-SemiBold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+
+<!-- Preload the katex fonts -->
+
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Math-Italic.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Main-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Main-Bold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size1-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size4-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size2-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size3-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Caligraphic-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+  <link rel="stylesheet" href="https://use.fontawesome.com/releases/v5.15.2/css/all.css" integrity="sha384-vSIIfh2YWi9wW0r9iZe7RJPrKwp6bG+s9QZMoITbCckVJqGCCRhc+ccxNcdpHuYu" crossorigin="anonymous">
+</head>
+
+<div class="container-fluid header-holder tutorials-header" id="header-holder">
+  <div class="container">
+    <div class="header-container">
+      <a class="header-logo" href="https://pytorch.org/" aria-label="PyTorch"></a>
+
+      <div class="main-menu">
+        <ul>
+
+          <li class="main-menu-item">
+          <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                Learn
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/get-started">
+                  <span class=dropdown-title>Get Started</span>
+                  <p>Run PyTorch locally or get started quickly with one of the supported cloud platforms</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/tutorials">
+                  <span class="dropdown-title">Tutorials</span>
+                  <p>Whats new in PyTorch tutorials</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/tutorials/beginner/basics/intro.html">
+                  <span class="dropdown-title">Learn the Basics</span>
+                  <p>Familiarize yourself with PyTorch concepts and modules</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/tutorials/recipes/recipes_index.html">
+                  <span class="dropdown-title">PyTorch Recipes</span>
+                  <p>Bite-size, ready-to-deploy PyTorch code examples</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/tutorials/beginner/introyt.html">
+                  <span class="dropdown-title">Intro to PyTorch - YouTube Series</span>
+                  <p>Master PyTorch basics with our engaging YouTube tutorial series</p>
+                </a>
+              </div>
+            </div>
+          </li>
+
+          <li>
+          <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                Ecosystem
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/ecosystem">
+                  <span class="dropdown-title">Tools</span>
+                  <p>Learn about the tools and frameworks in the PyTorch Ecosystem</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/#community-module">
+                  <span class=dropdown-title>Community</span>
+                  <p>Join the PyTorch developer community to contribute, learn, and get your questions answered</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://discuss.pytorch.org/" target="_blank">
+                  <span class=dropdown-title>Forums</span>
+                  <p>A place to discuss PyTorch code, issues, install, research</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/resources">
+                  <span class=dropdown-title>Developer Resources</span>
+                  <p>Find resources and get questions answered</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/ecosystem/contributor-awards-2023">
+                  <span class="dropdown-title">Contributor Awards - 2023</span>
+                  <p>Award winners announced at this year's PyTorch Conference</p>
+                </a>
+              </div>
+            </div>
+          </li>
+
+          <li>
+          <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                Edge
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/edge">
+                  <span class="dropdown-title">About PyTorch Edge</span>
+                  <p>Build innovative and privacy-aware AI experiences for edge devices</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/executorch-overview">
+                  <span class="dropdown-title">ExecuTorch</span>
+                  <p>End-to-end solution for enabling on-device inference capabilities across mobile and edge devices</p>
+                </a>
+              </div>
+            </div>  
+          </li>
+
+          <li class="main-menu-item">
+            <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                Docs
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/docs/stable/index.html">
+                  <span class="dropdown-title">PyTorch</span>
+                  <p>Explore the documentation for comprehensive guidance on how to use PyTorch</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/pytorch-domains">
+                  <span class="dropdown-title">PyTorch Domains</span>
+                  <p>Read the PyTorch Domains documentation to learn more about domain-specific libraries</p>
+                </a>
+              </div>
+            </div>
+          </li>
+
+          <li>
+            <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                Blogs & News 
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/blog/">
+                  <span class="dropdown-title">PyTorch Blog</span>
+                  <p>Catch up on the latest technical news and happenings</p>
+                </a>
+                 <a class="nav-dropdown-item" href="https://pytorch.org/community-blog">
+                  <span class="dropdown-title">Community Blog</span>
+                  <p>Stories from the PyTorch ecosystem</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/videos">
+                  <span class="dropdown-title">Videos</span>
+                  <p>Learn about the latest PyTorch tutorials, new, and more </p>
+                <a class="nav-dropdown-item" href="https://pytorch.org/community-stories">
+                  <span class="dropdown-title">Community Stories</span>
+                  <p>Learn how our community solves real, everyday machine learning problems with PyTorch</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/events">
+                  <span class="dropdown-title">Events</span>
+                  <p>Find events, webinars, and podcasts</p>
+                </a>
+            </div>
+          </li>
+
+          <li>
+            <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                About
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/foundation">
+                  <span class="dropdown-title">PyTorch Foundation</span>
+                  <p>Learn more about the PyTorch Foundation</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/governing-board">
+                  <span class="dropdown-title">Governing Board</span>
+                  <p></p>
+                </a>
+              </div>
+            </div>
+          </li>
+
+          <li class="main-menu-item">
+            <div class="no-dropdown">
+              <a href="https://pytorch.org/join" data-cta="join">
+                Become a Member
+              </a>
+            </div>
+          </li>
+          <li>
+           <div class="main-menu-item">
+             <a href="https://github.com/pytorch/pytorch" class="github-icon">
+             </a>
+           </div>
+          </li>
+          <!--- TODO: This block adds the search icon to the nav bar. We will enable it later. 
+          <li>
+            <div class="main-menu-item">
+             <a href="https://github.com/pytorch/pytorch" class="search-icon">
+             </a>
+            </div>
+          </li>
+          --->
+        </ul>
+      </div>
+
+      <a class="main-menu-open-button" href="#" data-behavior="open-mobile-menu"></a>
+    </div>
+  </div>
+</div>
+
+<body class="pytorch-body">
+
+   
+
+    
+
+    <div class="table-of-contents-link-wrapper">
+      <span>Table of Contents</span>
+      <a href="#" class="toggle-table-of-contents" data-behavior="toggle-table-of-contents"></a>
+    </div>
+
+    <nav data-toggle="wy-nav-shift" class="pytorch-left-menu" id="pytorch-left-menu">
+      <div class="pytorch-side-scroll">
+        <div class="pytorch-menu pytorch-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
+          <div class="pytorch-left-menu-search">
+            
+
+            
+              
+              
+                <div class="version">
+                  v2.5.0.dev0+a4a9419
+                </div>
+              
+            
+
+            
+
+
+  
+
+
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search Docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+
+            
+          </div>
+
+          
+            
+            
+              
+            
+            
+              <p class="caption" role="heading"><span class="caption-text">Getting Started</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../getting_started/installation.html">Installation</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../getting_started/quick_start.html">Quick Start</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">User Guide</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../user_guide/torch_tensorrt_explained.html">Torch-TensorRT Explained</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../user_guide/dynamic_shapes.html">Dynamic shapes with Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../user_guide/saving_models.html">Saving models compiled with Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../user_guide/using_dla.html">DLA</a></li>
+<li class="toctree-l1"><a class="reference internal" href="torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../dynamo/torch_compile.html">TensorRT Backend for <code class="docutils literal notranslate"><span class="pre">torch.compile</span></code></a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../dynamo/dynamo_export.html">Compiling Exported Programs with Torch-TensorRT</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">TorchScript Frontend</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../ts/creating_torchscript_module_in_python.html">Creating a TorchScript Module</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../ts/creating_torchscript_module_in_python.html#working-with-torchscript-in-python">Working with TorchScript in Python</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../ts/creating_torchscript_module_in_python.html#saving-torchscript-module-to-disk">Saving TorchScript Module to Disk</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../ts/getting_started_with_python_api.html">Using Torch-TensorRT in Python</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../ts/getting_started_with_cpp_api.html">Using Torch-TensorRT in  C++</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../ts/ptq.html">Post Training Quantization (PTQ)</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">FX Frontend</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../fx/getting_started_with_fx_path.html">Torch-TensorRT (FX Frontend) User Guide</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">Tutorials</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../serving_torch_tensorrt_with_triton.html">Serving a Torch-TensorRT model with Triton</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../notebooks.html">Example notebooks</a></li>
+<li class="toctree-l1"><a class="reference internal" href="torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
+<li class="toctree-l1"><a class="reference internal" href="torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
+<li class="toctree-l1"><a class="reference internal" href="torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
+<li class="toctree-l1"><a class="reference internal" href="custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="mutable_torchtrt_module_example.html">Mutable Torch TensorRT Module</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">Python API Documentation</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../py_api/torch_tensorrt.html">torch_tensorrt</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../py_api/dynamo.html">torch_tensorrt.dynamo</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../py_api/logging.html">torch_tensorrt.logging</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../py_api/fx.html">torch_tensorrt.fx</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../py_api/ts.html">torch_tensorrt.ts</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../py_api/ptq.html">torch_tensorrt.ts.ptq</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">C++ API Documentation</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../_cpp_api/torch_tensort_cpp.html">Torch-TensorRT C++ API</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../_cpp_api/namespace_torch_tensorrt.html">Namespace torch_tensorrt</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../_cpp_api/namespace_torch_tensorrt__logging.html">Namespace torch_tensorrt::logging</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../_cpp_api/namespace_torch_tensorrt__torchscript.html">Namespace torch_tensorrt::torchscript</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../_cpp_api/namespace_torch_tensorrt__ptq.html">Namespace torch_tensorrt::ptq</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">CLI Documentation</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../cli/torchtrtc.html">torchtrtc</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">Contributor Documentation</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../contributors/system_overview.html">System Overview</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../contributors/dynamo_converters.html">Writing Dynamo Converters</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../contributors/writing_dynamo_aten_lowering_passes.html">Writing Dynamo ATen Lowering Passes</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../contributors/ts_converters.html">Writing TorchScript Converters</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../contributors/useful_links.html">Useful Links for Torch-TensorRT Development</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">Indices</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../indices/supported_ops.html">Operators Supported</a></li>
+</ul>
+
+            
+          
+        </div>
+      </div>
+    </nav>
+
+    <div class="pytorch-container">
+      <div class="pytorch-page-level-bar" id="pytorch-page-level-bar">
+        <div class="pytorch-breadcrumbs-wrapper">
+          
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+<div role="navigation" aria-label="breadcrumbs navigation">
+
+  <ul class="pytorch-breadcrumbs">
+    
+      <li>
+        <a href="../../../index.html">
+          
+            Docs
+          
+        </a> &gt;
+      </li>
+
+        
+      <li>Compiling Llama2 using the Torch-TensorRT with dynamo backend</li>
+    
+    
+      <li class="pytorch-breadcrumbs-aside">
+        
+            
+            <a href="../../../_sources/tutorials/_rendered_examples/dynamo/torch_export_llama2.rst.txt" rel="nofollow"><img src="../../../_static/images/view-page-source-icon.svg"></a>
+          
+        
+      </li>
+    
+  </ul>
+
+  
+</div>
+        </div>
+
+        <div class="pytorch-shortcuts-wrapper" id="pytorch-shortcuts-wrapper">
+          Shortcuts
+        </div>
+      </div>
+
+      <section data-toggle="wy-nav-shift" id="pytorch-content-wrap" class="pytorch-content-wrap">
+        <div class="pytorch-content-left">
+
+        
+          <!-- Google Tag Manager (noscript) -->
+          <noscript><iframe src="https://www.googletagmanager.com/ns.html?id="
+          height="0" width="0" style="display:none;visibility:hidden"></iframe></noscript>
+          <!-- End Google Tag Manager (noscript) -->
+          
+          <div class="rst-content">
+          
+            <div role="main" class="main-content" itemscope="itemscope" itemtype="http://schema.org/Article">
+             <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
+              
+  <div class="sphx-glr-download-link-note admonition note">
+<p class="admonition-title">Note</p>
+<p><a class="reference internal" href="#sphx-glr-download-tutorials-rendered-examples-dynamo-torch-export-llama2-py"><span class="std std-ref">Go to the end</span></a>
+to download the full example code</p>
+</div>
+<section class="sphx-glr-example-title" id="compiling-llama2-using-the-torch-tensorrt-with-dynamo-backend">
+<span id="torch-export-llama2"></span><span id="sphx-glr-tutorials-rendered-examples-dynamo-torch-export-llama2-py"></span><h1>Compiling Llama2 using the Torch-TensorRT with dynamo backend<a class="headerlink" href="#compiling-llama2-using-the-torch-tensorrt-with-dynamo-backend" title="Permalink to this heading">¶</a></h1>
+<p>This interactive script is intended as a sample of the Torch-TensorRT workflow with dynamo backend on a Llama2 model.</p>
+<section id="imports-and-model-definition">
+<h2>Imports and Model Definition<a class="headerlink" href="#imports-and-model-definition" title="Permalink to this heading">¶</a></h2>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="kn">import</span> <span class="nn">torch</span>
+<span class="kn">import</span> <span class="nn">torch_tensorrt</span>
+<span class="kn">from</span> <span class="nn">transformers</span> <span class="kn">import</span> <span class="n">AutoModelForCausalLM</span><span class="p">,</span> <span class="n">AutoTokenizer</span>
+<span class="kn">from</span> <span class="nn">utils</span> <span class="kn">import</span> <span class="n">export_llm</span><span class="p">,</span> <span class="n">generate</span>
+</pre></div>
+</div>
+<p>Define the parameters and initialize the model</p>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="n">MAX_TOKENS</span> <span class="o">=</span> <span class="mi">32</span>
+<span class="n">DEVICE</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">device</span><span class="p">(</span><span class="s2">&quot;cuda:0&quot;</span><span class="p">)</span>
+
+<span class="c1"># Define the Llama2 model from hugging face</span>
+<span class="c1"># kv_cache is not supported in Torch-TRT currently.</span>
+<span class="c1"># CPU is used here so that GPU memory is reserved for TRT compilation.</span>
+<span class="n">llama_path</span> <span class="o">=</span> <span class="s2">&quot;meta-llama/Llama-2-7b-chat-hf&quot;</span>
+<span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
+    <span class="n">model</span> <span class="o">=</span> <span class="n">AutoModelForCausalLM</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+        <span class="n">llama_path</span><span class="p">,</span> <span class="n">use_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">attn_implementation</span><span class="o">=</span><span class="s2">&quot;eager&quot;</span>
+    <span class="p">)</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span>
+
+<span class="n">tokenizer</span> <span class="o">=</span> <span class="n">AutoTokenizer</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">llama_path</span><span class="p">)</span>
+</pre></div>
+</div>
+<p>Tokenize a sample input prompt and get pytorch model outputs</p>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="n">prompt</span> <span class="o">=</span> <span class="s2">&quot;What is dynamic programming?&quot;</span>
+<span class="n">model_inputs</span> <span class="o">=</span> <span class="n">tokenizer</span><span class="p">(</span><span class="n">prompt</span><span class="p">,</span> <span class="n">return_tensors</span><span class="o">=</span><span class="s2">&quot;pt&quot;</span><span class="p">)</span>
+<span class="n">input_ids</span> <span class="o">=</span> <span class="n">model_inputs</span><span class="o">.</span><span class="n">input_ids</span>
+
+<span class="c1"># Auto-regressive generation loop for greedy decoding using PyTorch model</span>
+<span class="c1"># We use a custom generate function which is very similar to the huggingface one.</span>
+<span class="n">pyt_gen_tokens</span> <span class="o">=</span> <span class="n">generate</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">MAX_TOKENS</span><span class="p">,</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token_id</span><span class="p">)</span>
+</pre></div>
+</div>
+</section>
+<section id="compilation-with-torch-tensorrt-using-dynamo-backend-and-generate-tensorrt-outputs">
+<h2>Compilation with <cite>Torch-TensorRT</cite> using dynamo backend and generate TensorRT outputs<a class="headerlink" href="#compilation-with-torch-tensorrt-using-dynamo-backend-and-generate-tensorrt-outputs" title="Permalink to this heading">¶</a></h2>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="c1"># Export the llama2 model into an ExportedProgram which is input of TRT compilation</span>
+<span class="n">llama2_ep</span> <span class="o">=</span> <span class="n">export_llm</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">max_seq_len</span><span class="o">=</span><span class="mi">64</span><span class="p">)</span>
+<span class="n">trt_model</span> <span class="o">=</span> <span class="n">torch_tensorrt</span><span class="o">.</span><span class="n">dynamo</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span>
+    <span class="n">llama2_ep</span><span class="p">,</span>
+    <span class="n">inputs</span><span class="o">=</span><span class="p">[</span><span class="n">input_ids</span><span class="p">],</span>
+    <span class="n">enabled_precisions</span><span class="o">=</span><span class="p">{</span><span class="n">torch</span><span class="o">.</span><span class="n">float32</span><span class="p">},</span>
+    <span class="n">min_block_size</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+    <span class="n">truncate_double</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+    <span class="n">device</span><span class="o">=</span><span class="n">DEVICE</span><span class="p">,</span>
+    <span class="n">disable_tf32</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+<span class="p">)</span>
+
+<span class="c1"># Auto-regressive generation loop for greedy decoding using TensorRT model</span>
+<span class="c1"># We use a custom generate function which is very similar to the huggingface one.</span>
+<span class="c1"># Move inputs to GPU</span>
+<span class="n">input_ids</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">DEVICE</span><span class="p">)</span>
+<span class="n">trt_gen_tokens</span> <span class="o">=</span> <span class="n">generate</span><span class="p">(</span><span class="n">trt_model</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">MAX_TOKENS</span><span class="p">,</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token_id</span><span class="p">)</span>
+</pre></div>
+</div>
+</section>
+<section id="decode-the-output-sentences-of-pytorch-and-tensorrt">
+<h2>Decode the output sentences of PyTorch and TensorRT<a class="headerlink" href="#decode-the-output-sentences-of-pytorch-and-tensorrt" title="Permalink to this heading">¶</a></h2>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="nb">print</span><span class="p">(</span><span class="s2">&quot;=============================&quot;</span><span class="p">)</span>
+<span class="nb">print</span><span class="p">(</span>
+    <span class="s2">&quot;Pytorch model generated text: &quot;</span><span class="p">,</span>
+    <span class="n">tokenizer</span><span class="o">.</span><span class="n">batch_decode</span><span class="p">(</span>
+        <span class="n">pyt_gen_tokens</span><span class="p">,</span> <span class="n">skip_special_tokens</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">clean_up_tokenization_spaces</span><span class="o">=</span><span class="kc">False</span>
+    <span class="p">)[</span><span class="mi">0</span><span class="p">],</span>
+<span class="p">)</span>
+<span class="nb">print</span><span class="p">(</span><span class="s2">&quot;=============================&quot;</span><span class="p">)</span>
+<span class="nb">print</span><span class="p">(</span>
+    <span class="s2">&quot;TensorRT model generated text: &quot;</span><span class="p">,</span>
+    <span class="n">tokenizer</span><span class="o">.</span><span class="n">batch_decode</span><span class="p">(</span>
+        <span class="n">trt_gen_tokens</span><span class="p">,</span>
+        <span class="n">skip_special_tokens</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="n">clean_up_tokenization_spaces</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+    <span class="p">)[</span><span class="mi">0</span><span class="p">],</span>
+<span class="p">)</span>
+</pre></div>
+</div>
+</section>
+</section>
+<section id="the-output-sentences-should-look-like">
+<h1>The output sentences should look like<a class="headerlink" href="#the-output-sentences-should-look-like" title="Permalink to this heading">¶</a></h1>
+</section>
+<section id="pytorch-model-generated-text-i-enjoy-walking-with-my-cute-dog-but-i-m-not-sure-if-i-ll-ever-be-able-to-walk-with-my-dog-i-m-not-sure-if-i-ll-ever-be-able-to-walk-with-my">
+<h1>Pytorch model generated text:  I enjoy walking with my cute dog, but I’m not sure if I’ll ever be able to walk with my dog. I’m not sure if I’ll ever be able to walk with my<a class="headerlink" href="#pytorch-model-generated-text-i-enjoy-walking-with-my-cute-dog-but-i-m-not-sure-if-i-ll-ever-be-able-to-walk-with-my-dog-i-m-not-sure-if-i-ll-ever-be-able-to-walk-with-my" title="Permalink to this heading">¶</a></h1>
+<p>TensorRT model generated text:  I enjoy walking with my cute dog, but I’m not sure if I’ll ever be able to walk with my dog. I’m not sure if I’ll ever be able to walk with my</p>
+<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 0 minutes  0.000 seconds)</p>
+<div class="sphx-glr-footer sphx-glr-footer-example docutils container" id="sphx-glr-download-tutorials-rendered-examples-dynamo-torch-export-llama2-py">
+<div class="sphx-glr-download sphx-glr-download-python docutils container">
+<p><a class="reference download internal" download="" href="../../../_downloads/7b7004dc2ea6f839be532665e16e0426/torch_export_llama2.py"><code class="xref download docutils literal notranslate"><span class="pre">Download</span> <span class="pre">Python</span> <span class="pre">source</span> <span class="pre">code:</span> <span class="pre">torch_export_llama2.py</span></code></a></p>
+</div>
+<div class="sphx-glr-download sphx-glr-download-jupyter docutils container">
+<p><a class="reference download internal" download="" href="../../../_downloads/9e148ac48490c84d381ee281904f3226/torch_export_llama2.ipynb"><code class="xref download docutils literal notranslate"><span class="pre">Download</span> <span class="pre">Jupyter</span> <span class="pre">notebook:</span> <span class="pre">torch_export_llama2.ipynb</span></code></a></p>
+</div>
+</div>
+<p class="sphx-glr-signature"><a class="reference external" href="https://sphinx-gallery.github.io">Gallery generated by Sphinx-Gallery</a></p>
+</section>
+
+
+             </article>
+             
+            </div>
+            <footer>
+  
+
+  
+
+    <hr>
+
+  
+
+  <div role="contentinfo">
+    <p>
+        &copy; Copyright 2024, NVIDIA Corporation.
+
+    </p>
+  </div>
+    
+      <div>
+        Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a href="https://github.com/rtfd/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the Docs</a>.
+      </div>
+     
+
+</footer>
+
+          </div>
+        </div>
+
+        <div class="pytorch-content-right" id="pytorch-content-right">
+          <div class="pytorch-right-menu" id="pytorch-right-menu">
+            <div class="pytorch-side-scroll" id="pytorch-side-scroll-right">
+              <ul>
+<li><a class="reference internal" href="#">Compiling Llama2 using the Torch-TensorRT with dynamo backend</a><ul>
+<li><a class="reference internal" href="#imports-and-model-definition">Imports and Model Definition</a></li>
+<li><a class="reference internal" href="#compilation-with-torch-tensorrt-using-dynamo-backend-and-generate-tensorrt-outputs">Compilation with <cite>Torch-TensorRT</cite> using dynamo backend and generate TensorRT outputs</a></li>
+<li><a class="reference internal" href="#decode-the-output-sentences-of-pytorch-and-tensorrt">Decode the output sentences of PyTorch and TensorRT</a></li>
+</ul>
+</li>
+<li><a class="reference internal" href="#the-output-sentences-should-look-like">The output sentences should look like</a></li>
+<li><a class="reference internal" href="#pytorch-model-generated-text-i-enjoy-walking-with-my-cute-dog-but-i-m-not-sure-if-i-ll-ever-be-able-to-walk-with-my-dog-i-m-not-sure-if-i-ll-ever-be-able-to-walk-with-my">Pytorch model generated text:  I enjoy walking with my cute dog, but I’m not sure if I’ll ever be able to walk with my dog. I’m not sure if I’ll ever be able to walk with my</a></li>
+</ul>
+
+            </div>
+          </div>
+        </div>
+      </section>
+    </div>
+
+  
+
+
+  
+
+     
+       <script type="text/javascript" id="documentation_options" data-url_root="../../../" src="../../../_static/documentation_options.js"></script>
+         <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js"></script>
+         <script src="../../../_static/jquery.js"></script>
+         <script src="../../../_static/underscore.js"></script>
+         <script src="../../../_static/_sphinx_javascript_frameworks_compat.js"></script>
+         <script src="../../../_static/doctools.js"></script>
+         <script src="../../../_static/collapsible-lists/js/CollapsibleLists.compressed.js"></script>
+         <script src="../../../_static/collapsible-lists/js/apply-collapsible-lists.js"></script>
+         <script crossorigin="anonymous" integrity="sha256-Ae2Vz/4ePdIu6ZyI/5ZGsYnb+m0JlOmKPjt6XZ9JJkA=" src="https://cdnjs.cloudflare.com/ajax/libs/require.js/2.3.4/require.min.js"></script>
+     
+
+  
+
+  <script type="text/javascript" src="../../../_static/js/vendor/popper.min.js"></script>
+  <script type="text/javascript" src="../../../_static/js/vendor/bootstrap.min.js"></script>
+  <script src="https://cdnjs.cloudflare.com/ajax/libs/list.js/1.5.0/list.min.js"></script>
+  <script type="text/javascript" src="../../../_static/js/theme.js"></script>
+
+  <script type="text/javascript">
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+  <!-- Begin Footer -->
+
+  <div class="container-fluid docs-tutorials-resources" id="docs-tutorials-resources">
+    <div class="container">
+      <div class="row">
+        <div class="col-md-4 text-center">
+          <h2>Docs</h2>
+          <p>Access comprehensive developer documentation for PyTorch</p>
+          <a class="with-right-arrow" href="https://pytorch.org/docs/stable/index.html">View Docs</a>
+        </div>
+
+        <div class="col-md-4 text-center">
+          <h2>Tutorials</h2>
+          <p>Get in-depth tutorials for beginners and advanced developers</p>
+          <a class="with-right-arrow" href="https://pytorch.org/tutorials">View Tutorials</a>
+        </div>
+
+        <div class="col-md-4 text-center">
+          <h2>Resources</h2>
+          <p>Find development resources and get your questions answered</p>
+          <a class="with-right-arrow" href="https://pytorch.org/resources">View Resources</a>
+        </div>
+      </div>
+    </div>
+  </div>
+
+  <footer class="site-footer">
+    <div class="container footer-container">
+      <div class="footer-logo-wrapper">
+        <a href="https://pytorch.org/" class="footer-logo"></a>
+      </div>
+
+      <div class="footer-links-wrapper">
+        <div class="footer-links-col">
+          <ul>
+            <li class="list-title"><a href="https://pytorch.org/">PyTorch</a></li>
+            <li><a href="https://pytorch.org/get-started">Get Started</a></li>
+            <li><a href="https://pytorch.org/features">Features</a></li>
+            <li><a href="https://pytorch.org/ecosystem">Ecosystem</a></li>
+            <li><a href="https://pytorch.org/blog/">Blog</a></li>
+            <li><a href="https://github.com/pytorch/pytorch/blob/master/CONTRIBUTING.md">Contributing</a></li>
+          </ul>
+        </div>
+
+        <div class="footer-links-col">
+          <ul>
+            <li class="list-title"><a href="https://pytorch.org/resources">Resources</a></li>
+            <li><a href="https://pytorch.org/tutorials">Tutorials</a></li>
+            <li><a href="https://pytorch.org/docs/stable/index.html">Docs</a></li>
+            <li><a href="https://discuss.pytorch.org" target="_blank">Discuss</a></li>
+            <li><a href="https://github.com/pytorch/pytorch/issues" target="_blank">Github Issues</a></li>
+            <li><a href="https://pytorch.org/assets/brand-guidelines/PyTorch-Brand-Guidelines.pdf" target="_blank">Brand Guidelines</a></li>
+          </ul>
+        </div>
+
+        <div class="footer-links-col">
+          <ul>
+            <li class="list-title">Stay up to date</li>
+            <li><a href="https://www.facebook.com/pytorch" target="_blank">Facebook</a></li>
+            <li><a href="https://twitter.com/pytorch" target="_blank">Twitter</a></li>
+            <li><a href="https://www.youtube.com/pytorch" target="_blank">YouTube</a></li>
+            <li><a href="https://www.linkedin.com/company/pytorch" target="_blank">LinkedIn</a></li>
+          </ul>  
+          </div>
+
+        <div class="footer-links-col">
+          <ul>
+            <li class="list-title">PyTorch Podcasts</li>
+            <li><a href="https://open.spotify.com/show/6UzHKeiy368jKfQMKKvJY5" target="_blank">Spotify</a></li>
+            <li><a href="https://podcasts.apple.com/us/podcast/pytorch-developer-podcast/id1566080008" target="_blank">Apple</a></li>
+            <li><a href="https://www.google.com/podcasts?feed=aHR0cHM6Ly9mZWVkcy5zaW1wbGVjYXN0LmNvbS9PQjVGa0lsOA%3D%3D" target="_blank">Google</a></li>
+            <li><a href="https://music.amazon.com/podcasts/7a4e6f0e-26c2-49e9-a478-41bd244197d0/PyTorch-Developer-Podcast?" target="_blank">Amazon</a></li>
+          </ul>
+         </div>
+        </div>
+        
+        <div class="privacy-policy">
+          <ul>
+            <li class="privacy-policy-links"><a href="https://www.linuxfoundation.org/terms/" target="_blank">Terms</a></li>
+            <li class="privacy-policy-links">|</li>
+            <li class="privacy-policy-links"><a href="https://www.linuxfoundation.org/privacy-policy/" target="_blank">Privacy</a></li>
+          </ul>
+        </div>
+        <div class="copyright">
+        <p>© Copyright The Linux Foundation. The PyTorch Foundation is a project of The Linux Foundation.
+          For web site terms of use, trademark policy and other policies applicable to The PyTorch Foundation please see
+          <a href="https://www.linuxfoundation.org/policies/">www.linuxfoundation.org/policies/</a>. The PyTorch Foundation supports the PyTorch open source
+          project, which has been established as PyTorch Project a Series of LF Projects, LLC. For policies applicable to the PyTorch Project a Series of LF Projects, LLC,
+          please see <a href="https://www.lfprojects.org/policies/">www.lfprojects.org/policies/</a>.</p>
+      </div>
+     </div>
+
+  </footer>
+
+  <div class="cookie-banner-wrapper">
+  <div class="container">
+    <p class="gdpr-notice">To analyze traffic and optimize your experience, we serve cookies on this site. By clicking or navigating, you agree to allow our usage of cookies. As the current maintainers of this site, Facebook’s Cookies Policy applies. Learn more, including about available controls: <a href="https://www.facebook.com/policies/cookies/">Cookies Policy</a>.</p>
+    <img class="close-button" src="../../../_static/images/pytorch-x.svg">
+  </div>
+</div>
+
+  <!-- End Footer -->
+
+  <!-- Begin Mobile Menu -->
+
+  <div class="mobile-main-menu">
+    <div class="container-fluid">
+      <div class="container">
+        <div class="mobile-main-menu-header-container">
+          <a class="header-logo" href="https://pytorch.org/" aria-label="PyTorch"></a>
+          <a class="main-menu-close-button" href="#" data-behavior="close-mobile-menu"></a>
+        </div>
+      </div>
+    </div>
+
+    <div class="mobile-main-menu-links-container">
+      <div class="main-menu">
+        <ul>
+           <li class="resources-mobile-menu-title">
+             <a>Learn</a>
+           </li>
+           <ul class="resources-mobile-menu-items">
+             <li>
+               <a href="https://pytorch.org/get-started">Get Started</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/tutorials">Tutorials</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/tutorials/beginner/basics/intro.html">Learn the Basics</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/tutorials/recipes/recipes_index.html">PyTorch Recipes</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/tutorials/beginner/introyt.html">Introduction to PyTorch - YouTube Series</a>
+             </li>
+           </ul>
+           <li class="resources-mobile-menu-title">
+             <a>Ecosystem</a>
+           </li>
+           <ul class="resources-mobile-menu-items">
+             <li>
+               <a href="https://pytorch.org/ecosystem">Tools</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/#community-module">Community</a>
+             </li>
+             <li>
+               <a href="https://discuss.pytorch.org/">Forums</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/resources">Developer Resources</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/ecosystem/contributor-awards-2023">Contributor Awards - 2023</a>
+             </li>
+           </ul>
+
+           <li class="resources-mobile-menu-title">
+             <a>Edge</a>
+           </li>
+
+           <ul class="resources-mobile-menu-items">
+             <li>
+               <a href="https://pytorch.org/edge">About PyTorch Edge</a>
+             </li>
+             
+             <li>
+               <a href="https://pytorch.org/executorch-overview">ExecuTorch</a>
+             </li>
+           </ul>
+
+           <li class="resources-mobile-menu-title">
+             <a>Docs</a>
+           </li>
+
+           <ul class="resources-mobile-menu-items">
+            <li>
+              <a href="https://pytorch.org/docs/stable/index.html">PyTorch</a>
+            </li>
+
+            <li>
+              <a href="https://pytorch.org/pytorch-domains">PyTorch Domains</a>
+            </li>
+          </ul>
+
+          <li class="resources-mobile-menu-title">
+            <a>Blog & News</a>
+          </li>
+            
+           <ul class="resources-mobile-menu-items">
+            <li>
+              <a href="https://pytorch.org/blog/">PyTorch Blog</a>
+            </li>
+            <li>
+              <a href="https://pytorch.org/community-blog">Community Blog</a>
+            </li>
+
+            <li>
+              <a href="https://pytorch.org/videos">Videos</a>
+            </li>
+
+            <li>
+              <a href="https://pytorch.org/community-stories">Community Stories</a>
+            </li>
+            <li>
+              <a href="https://pytorch.org/events">Events</a>
+            </li>
+          </ul>
+          
+          <li class="resources-mobile-menu-title">
+            <a>About</a>
+          </li>
+
+          <ul class="resources-mobile-menu-items">
+            <li>
+              <a href="https://pytorch.org/foundation">PyTorch Foundation</a>
+            </li>
+            <li>
+              <a href="https://pytorch.org/governing-board">Governing Board</a>
+            </li>
+          </ul>
+        </ul>
+      </div>
+    </div>
+  </div>
+
+  <!-- End Mobile Menu -->
+
+  <script type="text/javascript" src="../../../_static/js/vendor/anchor.min.js"></script>
+
+  <script type="text/javascript">
+    $(document).ready(function() {
+      mobileMenu.bind();
+      mobileTOC.bind();
+      pytorchAnchors.bind();
+      sideMenus.bind();
+      scrollToAnchor.bind();
+      highlightNavigation.bind();
+      mainMenuDropdown.bind();
+      filterTags.bind();
+
+      // Add class to links that have code blocks, since we cannot create links in code blocks
+      $("article.pytorch-article a span.pre").each(function(e) {
+        $(this).closest("a").addClass("has-code");
+      });
+    })
+  </script>
+</body>
+</html>
\ No newline at end of file
diff --git a/docs/tutorials/_rendered_examples/dynamo/vgg16_ptq.html b/docs/tutorials/_rendered_examples/dynamo/vgg16_ptq.html
index c39e454736..a6ccfc046f 100644
--- a/docs/tutorials/_rendered_examples/dynamo/vgg16_ptq.html
+++ b/docs/tutorials/_rendered_examples/dynamo/vgg16_ptq.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Deploy Quantized Models using Torch-TensorRT &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Deploy Quantized Models using Torch-TensorRT &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -39,6 +39,8 @@
   <link rel="stylesheet" href="../../../_static/css/custom.css" type="text/css" />
     <link rel="index" title="Index" href="../../../genindex.html" />
     <link rel="search" title="Search" href="../../../search.html" />
+    <link rel="next" title="Engine Caching" href="engine_caching_example.html" />
+    <link rel="prev" title="Torch Compile Advanced Usage" href="torch_compile_advanced_usage.html" />
   <!-- Google Tag Manager -->
     <script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({'gtm.start':
     new Date().getTime(),event:'gtm.js'});var f=d.getElementsByTagName(s)[0],
@@ -273,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -307,13 +309,16 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../getting_started/quick_start.html">Quick Start</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">User Guide</span></p>
-<ul>
+<ul class="current">
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/torch_tensorrt_explained.html">Torch-TensorRT Explained</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/dynamic_shapes.html">Dynamic shapes with Torch-TensorRT</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/saving_models.html">Saving models compiled with Torch-TensorRT</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1 current"><a class="current reference internal" href="#">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -339,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../../notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
@@ -744,6 +748,15 @@ <h2>Inference<a class="headerlink" href="#inference" title="Permalink to this he
             </div>
             <footer>
   
+    <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
+      
+        <a href="engine_caching_example.html" class="btn btn-neutral float-right" title="Engine Caching" accesskey="n" rel="next">Next <img src="../../../_static/images/chevron-right-orange.svg" class="next-page"></a>
+      
+      
+        <a href="torch_compile_advanced_usage.html" class="btn btn-neutral" title="Torch Compile Advanced Usage" accesskey="p" rel="prev"><img src="../../../_static/images/chevron-right-orange.svg" class="previous-page"> Previous</a>
+      
+    </div>
+  
 
   
 
diff --git a/docs/tutorials/_rendered_examples/index.html b/docs/tutorials/_rendered_examples/index.html
index 2df289be4a..c0481eef64 100644
--- a/docs/tutorials/_rendered_examples/index.html
+++ b/docs/tutorials/_rendered_examples/index.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Torch-TensorRT Tutorials &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Torch-TensorRT Tutorials &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -273,7 +273,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -314,6 +314,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -339,7 +342,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
@@ -468,9 +470,11 @@ <h2>Dynamo / <code class="docutils literal notranslate"><span class="pre">torch.
 <li><p><a class="reference internal" href="dynamo/torch_compile_stable_diffusion.html#torch-compile-stable-diffusion"><span class="std std-ref">Torch Compile Stable Diffusion</span></a>: Compiling a Stable Diffusion model using <code class="docutils literal notranslate"><span class="pre">torch.compile</span></code></p></li>
 <li><p><a class="reference internal" href="dynamo/torch_export_cudagraphs.html#torch-export-cudagraphs"><span class="std std-ref">Torch Export with Cudagraphs</span></a>: Using the Cudagraphs integration with <cite>ir=”dynamo”</cite></p></li>
 <li><p><a class="reference internal" href="dynamo/custom_kernel_plugins.html#custom-kernel-plugins"><span class="std std-ref">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</span></a>: Creating a plugin to use a custom kernel inside TensorRT engines</p></li>
-<li><p><a class="reference internal" href="dynamo/refit_engine_example.html#refit-engine-example"><span class="std std-ref">Refit  TenorRT Graph Module with Torch-TensorRT</span></a>: Refitting a compiled TensorRT Graph Module with updated weights</p></li>
+<li><p><a class="reference internal" href="dynamo/refit_engine_example.html#refit-engine-example"><span class="std std-ref">Refitting Torch-TensorRT Programs with New Weights</span></a>: Refitting a compiled TensorRT Graph Module with updated weights</p></li>
 <li><p><a class="reference internal" href="dynamo/mutable_torchtrt_module_example.html#mutable-torchtrt-module-example"><span class="std std-ref">Mutable Torch TensorRT Module</span></a>: Compile, use, and modify TensorRT Graph Module with MutableTorchTensorRTModule</p></li>
 <li><p><span class="xref std std-ref">vgg16_fp8_ptq</span>: Compiling a VGG16 model with FP8 and PTQ using <code class="docutils literal notranslate"><span class="pre">torch.compile</span></code></p></li>
+<li><p><a class="reference internal" href="dynamo/engine_caching_example.html#engine-caching-example"><span class="std std-ref">Engine Caching</span></a>: Utilizing engine caching to speed up compilation times</p></li>
+<li><p><a class="reference internal" href="dynamo/engine_caching_bert_example.html#engine-caching-bert-example"><span class="std std-ref">Engine Caching (BERT)</span></a>: Demonstrating engine caching on BERT</p></li>
 </ul>
 <div class="sphx-glr-thumbnails"><div class="sphx-glr-thumbcontainer" tooltip="This interactive script is intended as a sample of the Torch-TensorRT workflow with torch.compi..."><img alt="" src="../../_images/sphx_glr_torch_compile_stable_diffusion_thumb.png" />
 <p><a class="reference internal" href="dynamo/torch_compile_stable_diffusion.html#sphx-glr-tutorials-rendered-examples-dynamo-torch-compile-stable-diffusion-py"><span class="std std-ref">Torch Compile Stable Diffusion</span></a></p>
@@ -478,15 +482,24 @@ <h2>Dynamo / <code class="docutils literal notranslate"><span class="pre">torch.
 </div><div class="sphx-glr-thumbcontainer" tooltip="This interactive script is intended as an overview of the process by which the Torch-TensorRT C..."><img alt="" src="../../_images/sphx_glr_torch_export_cudagraphs_thumb.png" />
 <p><a class="reference internal" href="dynamo/torch_export_cudagraphs.html#sphx-glr-tutorials-rendered-examples-dynamo-torch-export-cudagraphs-py"><span class="std std-ref">Torch Export with Cudagraphs</span></a></p>
   <div class="sphx-glr-thumbnail-title">Torch Export with Cudagraphs</div>
+</div><div class="sphx-glr-thumbcontainer" tooltip="Compilation is an expensive operation as it involves many graph transformations, translations a..."><img alt="" src="../../_images/sphx_glr_refit_engine_example_thumb.png" />
+<p><a class="reference internal" href="dynamo/refit_engine_example.html#sphx-glr-tutorials-rendered-examples-dynamo-refit-engine-example-py"><span class="std std-ref">Refitting Torch-TensorRT Programs with New Weights</span></a></p>
+  <div class="sphx-glr-thumbnail-title">Refitting Torch-TensorRT Programs with New Weights</div>
 </div><div class="sphx-glr-thumbcontainer" tooltip="This interactive script is intended as a sample of the Torch-TensorRT workflow with torch.compi..."><img alt="" src="../../_images/sphx_glr_torch_compile_transformers_example_thumb.png" />
 <p><a class="reference internal" href="dynamo/torch_compile_transformers_example.html#sphx-glr-tutorials-rendered-examples-dynamo-torch-compile-transformers-example-py"><span class="std std-ref">Compiling a Transformer using torch.compile and TensorRT</span></a></p>
   <div class="sphx-glr-thumbnail-title">Compiling a Transformer using torch.compile and TensorRT</div>
-</div><div class="sphx-glr-thumbcontainer" tooltip="We are going to demonstrate how a compiled TensorRT Graph Module can be refitted with updated w..."><img alt="" src="../../_images/sphx_glr_refit_engine_example_thumb.png" />
-<p><a class="reference internal" href="dynamo/refit_engine_example.html#sphx-glr-tutorials-rendered-examples-dynamo-refit-engine-example-py"><span class="std std-ref">Refit  TenorRT Graph Module with Torch-TensorRT</span></a></p>
-  <div class="sphx-glr-thumbnail-title">Refit  TenorRT Graph Module with Torch-TensorRT</div>
+</div><div class="sphx-glr-thumbcontainer" tooltip="This interactive script is intended as a sample of the Torch-TensorRT workflow with dynamo back..."><img alt="" src="../../_images/sphx_glr_torch_export_gpt2_thumb.png" />
+<p><a class="reference internal" href="dynamo/torch_export_gpt2.html#sphx-glr-tutorials-rendered-examples-dynamo-torch-export-gpt2-py"><span class="std std-ref">Compiling GPT2 using the Torch-TensorRT with dynamo backend</span></a></p>
+  <div class="sphx-glr-thumbnail-title">Compiling GPT2 using the Torch-TensorRT with dynamo backend</div>
 </div><div class="sphx-glr-thumbcontainer" tooltip="This interactive script is intended as an overview of the process by which torch_tensorrt.compi..."><img alt="" src="../../_images/sphx_glr_torch_compile_advanced_usage_thumb.png" />
 <p><a class="reference internal" href="dynamo/torch_compile_advanced_usage.html#sphx-glr-tutorials-rendered-examples-dynamo-torch-compile-advanced-usage-py"><span class="std std-ref">Torch Compile Advanced Usage</span></a></p>
   <div class="sphx-glr-thumbnail-title">Torch Compile Advanced Usage</div>
+</div><div class="sphx-glr-thumbcontainer" tooltip="This interactive script is intended as a sample of the Torch-TensorRT workflow with dynamo back..."><img alt="" src="../../_images/sphx_glr_torch_export_llama2_thumb.png" />
+<p><a class="reference internal" href="dynamo/torch_export_llama2.html#sphx-glr-tutorials-rendered-examples-dynamo-torch-export-llama2-py"><span class="std std-ref">Compiling Llama2 using the Torch-TensorRT with dynamo backend</span></a></p>
+  <div class="sphx-glr-thumbnail-title">Compiling Llama2 using the Torch-TensorRT with dynamo backend</div>
+</div><div class="sphx-glr-thumbcontainer" tooltip="Small caching example on BERT."><img alt="" src="../../_images/sphx_glr_engine_caching_bert_example_thumb.png" />
+<p><a class="reference internal" href="dynamo/engine_caching_bert_example.html#sphx-glr-tutorials-rendered-examples-dynamo-engine-caching-bert-example-py"><span class="std std-ref">Engine Caching (BERT)</span></a></p>
+  <div class="sphx-glr-thumbnail-title">Engine Caching (BERT)</div>
 </div><div class="sphx-glr-thumbcontainer" tooltip="We are going to demonstrate how we can easily use Mutable Torch TensorRT Module to compile, int..."><img alt="" src="../../_images/sphx_glr_mutable_torchtrt_module_example_thumb.png" />
 <p><a class="reference internal" href="dynamo/mutable_torchtrt_module_example.html#sphx-glr-tutorials-rendered-examples-dynamo-mutable-torchtrt-module-example-py"><span class="std std-ref">Mutable Torch TensorRT Module</span></a></p>
   <div class="sphx-glr-thumbnail-title">Mutable Torch TensorRT Module</div>
@@ -496,6 +509,9 @@ <h2>Dynamo / <code class="docutils literal notranslate"><span class="pre">torch.
 </div><div class="sphx-glr-thumbcontainer" tooltip="Here we demonstrate how to deploy a model quantized to INT8 or FP8 using the Dynamo frontend of..."><img alt="" src="../../_images/sphx_glr_vgg16_ptq_thumb.png" />
 <p><a class="reference internal" href="dynamo/vgg16_ptq.html#sphx-glr-tutorials-rendered-examples-dynamo-vgg16-ptq-py"><span class="std std-ref">Deploy Quantized Models using Torch-TensorRT</span></a></p>
   <div class="sphx-glr-thumbnail-title">Deploy Quantized Models using Torch-TensorRT</div>
+</div><div class="sphx-glr-thumbcontainer" tooltip="As model sizes increase, the cost of compilation will as well. With AOT methods like torch.dyna..."><img alt="" src="../../_images/sphx_glr_engine_caching_example_thumb.png" />
+<p><a class="reference internal" href="dynamo/engine_caching_example.html#sphx-glr-tutorials-rendered-examples-dynamo-engine-caching-example-py"><span class="std std-ref">Engine Caching</span></a></p>
+  <div class="sphx-glr-thumbnail-title">Engine Caching</div>
 </div><div class="sphx-glr-thumbcontainer" tooltip="We are going to demonstrate how a developer could include a custom kernel in a TensorRT engine ..."><img alt="" src="../../_images/sphx_glr_custom_kernel_plugins_thumb.png" />
 <p><a class="reference internal" href="dynamo/custom_kernel_plugins.html#sphx-glr-tutorials-rendered-examples-dynamo-custom-kernel-plugins-py"><span class="std std-ref">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</span></a></p>
   <div class="sphx-glr-thumbnail-title">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</div>
diff --git a/docs/tutorials/notebooks.html b/docs/tutorials/notebooks.html
index a4edc64f90..fff1740ad4 100644
--- a/docs/tutorials/notebooks.html
+++ b/docs/tutorials/notebooks.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Example notebooks &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Example notebooks &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1 current"><a class="current reference internal" href="#">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/tutorials/serving_torch_tensorrt_with_triton.html b/docs/tutorials/serving_torch_tensorrt_with_triton.html
index 3f41b7ce44..0f9e64a532 100644
--- a/docs/tutorials/serving_torch_tensorrt_with_triton.html
+++ b/docs/tutorials/serving_torch_tensorrt_with_triton.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Serving a Torch-TensorRT model with Triton &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Serving a Torch-TensorRT model with Triton &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../user_guide/using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/user_guide/dynamic_shapes.html b/docs/user_guide/dynamic_shapes.html
index 1ce746882e..b88d38a2d9 100644
--- a/docs/user_guide/dynamic_shapes.html
+++ b/docs/user_guide/dynamic_shapes.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Dynamic shapes with Torch-TensorRT &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Dynamic shapes with Torch-TensorRT &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/user_guide/runtime.html b/docs/user_guide/runtime.html
index bbd9c4efae..11c63db3cd 100644
--- a/docs/user_guide/runtime.html
+++ b/docs/user_guide/runtime.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Deploying Torch-TensorRT Programs &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Deploying Torch-TensorRT Programs &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1 current"><a class="current reference internal" href="#">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/user_guide/saving_models.html b/docs/user_guide/saving_models.html
index 5dde9e4277..9654c77bb0 100644
--- a/docs/user_guide/saving_models.html
+++ b/docs/user_guide/saving_models.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Saving models compiled with Torch-TensorRT &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Saving models compiled with Torch-TensorRT &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/user_guide/torch_tensorrt_explained.html b/docs/user_guide/torch_tensorrt_explained.html
index e93a2c6a02..6d009d374c 100644
--- a/docs/user_guide/torch_tensorrt_explained.html
+++ b/docs/user_guide/torch_tensorrt_explained.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Torch-TensorRT Explained &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>Torch-TensorRT Explained &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="using_dla.html">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docs/user_guide/using_dla.html b/docs/user_guide/using_dla.html
index b0e3f18e0e..6dbd2d4e86 100644
--- a/docs/user_guide/using_dla.html
+++ b/docs/user_guide/using_dla.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>DLA &mdash; Torch-TensorRT v2.5.0.dev0+b3a8cdd documentation</title>
+  <title>DLA &mdash; Torch-TensorRT v2.5.0.dev0+a4a9419 documentation</title>
   
 
   
@@ -275,7 +275,7 @@
               
               
                 <div class="version">
-                  v2.5.0.dev0+b3a8cdd
+                  v2.5.0.dev0+a4a9419
                 </div>
               
             
@@ -316,6 +316,9 @@
 <li class="toctree-l1"><a class="reference internal" href="runtime.html">Deploying Torch-TensorRT Programs</a></li>
 <li class="toctree-l1 current"><a class="current reference internal" href="#">DLA</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/vgg16_ptq.html">Deploy Quantized Models using Torch-TensorRT</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/engine_caching_example.html">Engine Caching</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/refit_engine_example.html">Refitting Torch-TensorRT Programs with New Weights</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Dynamo Frontend</span></p>
 <ul>
@@ -341,7 +344,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/notebooks.html">Example notebooks</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_resnet_example.html">Compiling ResNet using the Torch-TensorRT <cite>torch.compile</cite> Backend</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_transformers_example.html">Compiling a Transformer using torch.compile and TensorRT</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage.html">Torch Compile Advanced Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion.html">Torch Compile Stable Diffusion</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/torch_export_cudagraphs.html">Torch Export with Cudagraphs</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../tutorials/_rendered_examples/dynamo/custom_kernel_plugins.html">Using Custom Kernels within TensorRT Engines with Torch-TensorRT</a></li>
diff --git a/docsrc/conf.py b/docsrc/conf.py
index 2e782358cb..daa1a30100 100644
--- a/docsrc/conf.py
+++ b/docsrc/conf.py
@@ -93,6 +93,7 @@
 sphinx_gallery_conf = {
     "examples_dirs": "../examples",
     "gallery_dirs": "tutorials/_rendered_examples/",
+    "ignore_pattern": "utils.py",
 }
 
 # Setup the breathe extension
diff --git a/docsrc/index.rst b/docsrc/index.rst
index da5ee3d690..757acc2011 100644
--- a/docsrc/index.rst
+++ b/docsrc/index.rst
@@ -44,13 +44,14 @@ User Guide
    :hidden:
 
    user_guide/torch_tensorrt_explained
-   user_guide/getting_started
    user_guide/dynamic_shapes
    user_guide/saving_models
    user_guide/runtime
    user_guide/using_dla
    tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage
-   tutorials/_rendered_examples/dynamo/vgg16_fp8_ptq
+   tutorials/_rendered_examples/dynamo/vgg16_ptq
+   tutorials/_rendered_examples/dynamo/engine_caching_example
+   tutorials/_rendered_examples/dynamo/refit_engine_example
 
 Dynamo Frontend
 ----------------
@@ -111,13 +112,11 @@ Tutorials
    tutorials/notebooks
    tutorials/_rendered_examples/dynamo/torch_compile_resnet_example
    tutorials/_rendered_examples/dynamo/torch_compile_transformers_example
-   tutorials/_rendered_examples/dynamo/torch_compile_advanced_usage
    tutorials/_rendered_examples/dynamo/torch_compile_stable_diffusion
    tutorials/_rendered_examples/dynamo/torch_export_cudagraphs
    tutorials/_rendered_examples/dynamo/custom_kernel_plugins
    tutorials/_rendered_examples/distributed_inference/data_parallel_gpt2
    tutorials/_rendered_examples/distributed_inference/data_parallel_stable_diffusion
-   tutorials/_rendered_examples/dynamo/vgg16_fp8_ptq
    tutorials/_rendered_examples/dynamo/mutable_torchtrt_module_example
 
 Python API Documentation
diff --git a/examples/dynamo/README.rst b/examples/dynamo/README.rst
index 22ae16ec0c..ff3563cffe 100644
--- a/examples/dynamo/README.rst
+++ b/examples/dynamo/README.rst
@@ -15,3 +15,5 @@ a number of ways you can leverage this backend to accelerate inference.
 * :ref:`refit_engine_example`: Refitting a compiled TensorRT Graph Module with updated weights
 * :ref:`mutable_torchtrt_module_example`: Compile, use, and modify TensorRT Graph Module with MutableTorchTensorRTModule
 * :ref:`vgg16_fp8_ptq`: Compiling a VGG16 model with FP8 and PTQ using ``torch.compile``
+* :ref:`engine_caching_example`: Utilizing engine caching to speed up compilation times
+* :ref:`engine_caching_bert_example`: Demonstrating engine caching on BERT
diff --git a/examples/dynamo/engine_caching_bert_example.py b/examples/dynamo/engine_caching_bert_example.py
index 43cfc5f15a..428c414a06 100644
--- a/examples/dynamo/engine_caching_bert_example.py
+++ b/examples/dynamo/engine_caching_bert_example.py
@@ -1,3 +1,13 @@
+"""
+
+.. _engine_caching_bert_example:
+
+Engine Caching (BERT)
+=======================
+
+Small caching example on BERT.
+"""
+
 import numpy as np
 import torch
 import torch_tensorrt
diff --git a/examples/dynamo/engine_caching_example.py b/examples/dynamo/engine_caching_example.py
index 2d1018bb6e..5154dc1e2c 100644
--- a/examples/dynamo/engine_caching_example.py
+++ b/examples/dynamo/engine_caching_example.py
@@ -1,12 +1,38 @@
+"""
+
+.. _engine_caching_example:
+
+Engine Caching
+=======================
+
+As model sizes increase, the cost of compilation will as well. With AOT methods
+like ``torch.dynamo.compile``, this cost is paid upfront. However if the weights
+change, the session ends or you are using JIT methods like ``torch.compile``, as
+graphs get invalidated they get re-compiled, this cost will get paid repeatedly.
+Engine caching is a way to mitigate this cost by saving constructed engines to disk
+and re-using them when possible. This tutorial demonstrates how to use engine caching
+with TensorRT in PyTorch. Engine caching can significantly speed up subsequent model
+compilations reusing previously built TensorRT engines.
+
+We'll explore two approaches:
+
+    1. Using torch_tensorrt.dynamo.compile
+    2. Using torch.compile with the TensorRT backend
+
+The example uses a pre-trained ResNet18 model and shows the
+differences between compilation without caching, with caching enabled,
+and when reusing cached engines.
+"""
+
 import os
-from typing import Optional
+from typing import Dict, Optional
 
 import numpy as np
 import torch
 import torch_tensorrt as torch_trt
 import torchvision.models as models
 from torch_tensorrt.dynamo._defaults import TIMING_CACHE_PATH
-from torch_tensorrt.dynamo._engine_caching import BaseEngineCache
+from torch_tensorrt.dynamo._engine_cache import BaseEngineCache
 
 np.random.seed(0)
 torch.manual_seed(0)
@@ -23,6 +49,80 @@ def remove_timing_cache(path=TIMING_CACHE_PATH):
         os.remove(path)
 
 
+# %%
+# Engine Caching for JIT Compilation
+# ----------------------------------
+#
+# The primary goal of engine caching is to help speed up JIT workflows. ``torch.compile``
+# provides a great deal of flexibility in model construction which makes it a good
+# first tool to try when looking to speed up your workflow. However, historically
+# the cost of compilation and in particular recompilation has been a barrier to entry
+# for many users. If for some reason a subgraph gets invalidated, that graph is reconstructed
+# scratch prior to the addition of engine caching. Now as engines are constructed, with ``cache_built_engines=True``,
+# engines are saved to disk tied to a hash of their corresponding PyTorch subgraph. If
+# in a subsequent compilation, either as part of this session or a new session, the cache will
+# pull the built engine and **refit** the weights which can reduce compilation times by orders of magnitude.
+# As such, in order to insert a new engine into the cache (i.e. ``cache_built_engines=True``),
+# the engine must be refitable (``make_refittable=True``). See :ref:`refit_engine_example` for more details.
+
+
+def torch_compile(iterations=3):
+    times = []
+    start = torch.cuda.Event(enable_timing=True)
+    end = torch.cuda.Event(enable_timing=True)
+
+    # The 1st iteration is to measure the compilation time without engine caching
+    # The 2nd and 3rd iterations are to measure the compilation time with engine caching.
+    # Since the 2nd iteration needs to compile and save the engine, it will be slower than the 1st iteration.
+    # The 3rd iteration should be faster than the 1st iteration because it loads the cached engine.
+    for i in range(iterations):
+        inputs = [torch.rand((100, 3, 224, 224)).to("cuda")]
+        # remove timing cache and reset dynamo just for engine caching messurement
+        remove_timing_cache()
+        torch._dynamo.reset()
+
+        if i == 0:
+            cache_built_engines = False
+            reuse_cached_engines = False
+        else:
+            cache_built_engines = True
+            reuse_cached_engines = True
+
+        start.record()
+        compiled_model = torch.compile(
+            model,
+            backend="tensorrt",
+            options={
+                "use_python_runtime": True,
+                "enabled_precisions": enabled_precisions,
+                "debug": debug,
+                "min_block_size": min_block_size,
+                "make_refitable": True,
+                "cache_built_engines": cache_built_engines,
+                "reuse_cached_engines": reuse_cached_engines,
+            },
+        )
+        compiled_model(*inputs)  # trigger the compilation
+        end.record()
+        torch.cuda.synchronize()
+        times.append(start.elapsed_time(end))
+
+    print("----------------torch_compile----------------")
+    print("disable engine caching, used:", times[0], "ms")
+    print("enable engine caching to cache engines, used:", times[1], "ms")
+    print("enable engine caching to reuse engines, used:", times[2], "ms")
+
+
+torch_compile()
+
+# %%
+# Engine Caching for AOT Compilation
+# ----------------------------------
+# Similarly to the JIT workflow, AOT workflows can benefit from engine caching.
+# As the same architecture or common subgraphs get recompiled, the cache will pull
+# previously built engines and refit the weights.
+
+
 def dynamo_compile(iterations=3):
     times = []
     start = torch.cuda.Event(enable_timing=True)
@@ -73,42 +173,72 @@ def dynamo_compile(iterations=3):
     print("enable engine caching to reuse engines, used:", times[2], "ms")
 
 
+dynamo_compile()
+
+# %%
 # Custom Engine Cache
-class MyEngineCache(BaseEngineCache):
+# ----------------------
+#
+# By default, the engine cache is stored in the system's temporary directory. Both the cache directory and
+# size limit can be customized by passing ``engine_cache_dir`` and ``engine_cache_size``.
+# Users can also define their own engine cache implementation by extending the ``BaseEngineCache`` class.
+# This allows for remote or shared caching if so desired.
+#
+# The custom engine cache should implement the following methods:
+#   - ``save``: Save the engine blob to the cache.
+#   - ``load``: Load the engine blob from the cache.
+#
+# The hash provided by the cache systen is a weight agnostic hash of the originating PyTorch subgraph (post lowering).
+# The blob contains a serialized engine, calling spec data, and weight map information in the pickle format
+#
+# Below is an example of a custom engine cache implementation that implents a ``RAMEngineCache``.
+
+
+class RAMEngineCache(BaseEngineCache):
     def __init__(
         self,
-        engine_cache_dir: str,
     ) -> None:
-        self.engine_cache_dir = engine_cache_dir
+        """
+        Constructs a user held engine cache in memory.
+        """
+        self.engine_cache: Dict[str, bytes] = {}
 
     def save(
         self,
         hash: str,
         blob: bytes,
-        prefix: str = "blob",
     ):
-        if not os.path.exists(self.engine_cache_dir):
-            os.makedirs(self.engine_cache_dir, exist_ok=True)
+        """
+        Insert the engine blob to the cache.
 
-        path = os.path.join(
-            self.engine_cache_dir,
-            f"{prefix}_{hash}.bin",
-        )
-        with open(path, "wb") as f:
-            f.write(blob)
+        Args:
+            hash (str): The hash key to associate with the engine blob.
+            blob (bytes): The engine blob to be saved.
 
-    def load(self, hash: str, prefix: str = "blob") -> Optional[bytes]:
-        path = os.path.join(self.engine_cache_dir, f"{prefix}_{hash}.bin")
-        if os.path.exists(path):
-            with open(path, "rb") as f:
-                blob = f.read()
-            return blob
-        return None
+        Returns:
+            None
+        """
+        self.engine_cache[hash] = blob
 
+    def load(self, hash: str) -> Optional[bytes]:
+        """
+        Load the engine blob from the cache.
 
-def torch_compile(iterations=3):
+        Args:
+            hash (str): The hash key of the engine to load.
+
+        Returns:
+            Optional[bytes]: The engine blob if found, None otherwise.
+        """
+        if hash in self.engine_cache:
+            return self.engine_cache[hash]
+        else:
+            return None
+
+
+def torch_compile_my_cache(iterations=3):
     times = []
-    engine_cache = MyEngineCache("/tmp/your_dir")
+    engine_cache = RAMEngineCache()
     start = torch.cuda.Event(enable_timing=True)
     end = torch.cuda.Event(enable_timing=True)
 
@@ -141,7 +271,7 @@ def torch_compile(iterations=3):
                 "make_refitable": True,
                 "cache_built_engines": cache_built_engines,
                 "reuse_cached_engines": reuse_cached_engines,
-                "custom_engine_cache": engine_cache,  # use custom engine cache
+                "custom_engine_cache": engine_cache,
             },
         )
         compiled_model(*inputs)  # trigger the compilation
@@ -155,6 +285,4 @@ def torch_compile(iterations=3):
     print("enable engine caching to reuse engines, used:", times[2], "ms")
 
 
-if __name__ == "__main__":
-    dynamo_compile()
-    torch_compile()
+torch_compile_my_cache()
diff --git a/examples/dynamo/refit_engine_example.py b/examples/dynamo/refit_engine_example.py
index c8cd5590d3..1feb033a3a 100644
--- a/examples/dynamo/refit_engine_example.py
+++ b/examples/dynamo/refit_engine_example.py
@@ -1,19 +1,26 @@
 """
 .. _refit_engine_example:
 
-Refit  TenorRT Graph Module with Torch-TensorRT
+Refitting Torch-TensorRT Programs with New Weights
 ===================================================================
 
-We are going to demonstrate how a compiled TensorRT Graph Module can be refitted with updated weights.
-
-In many cases, we frequently update the weights of models, such as applying various LoRA to Stable Diffusion or constant A/B testing of AI products.
-That poses challenges for TensorRT inference optimizations, as compiling the TensorRT engines takes significant time, making repetitive compilation highly inefficient.
-Torch-TensorRT supports refitting TensorRT graph modules without re-compiling the engine, considerably accelerating the workflow.
+Compilation is an expensive operation as it involves many graph transformations, translations
+and optimizations applied on the model. In cases were the weights of a model might be updated
+occasionally (e.g. inserting LoRA adapters), the large cost of recompilation can make it infeasible
+to use TensorRT if the compiled program needed to be built from scratch each time. Torch-TensorRT
+provides a PyTorch native mechanism to update the weights of a compiled TensorRT program without
+recompiling from scratch through weight refitting.
 
 In this tutorial, we are going to walk through
-1. Compiling a PyTorch model to a TensorRT Graph Module
-2. Save and load a graph module
-3. Refit the graph module
+
+    1. Compiling a PyTorch model to a TensorRT Graph Module
+    2. Save and load a graph module
+    3. Refit the graph module
+
+This tutorial focuses mostly on the AOT workflow where it is most likely that a user might need to
+manually refit a module. In the JIT workflow, weight changes trigger recompilation. As the engine
+has previously been built, with an engine cache enabled, Torch-TensorRT can automatically recognize
+a previously built engine, trigger refit and short cut recompilation on behalf of the user (see: :ref:`engine_caching_example`).
 """
 
 # %%
@@ -36,10 +43,17 @@
 
 
 # %%
-# Compile the module for the first time and save it.
-# ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
-
-model = models.resnet18(pretrained=True).eval().to("cuda")
+# Make a Refitable Compilation Program
+# ---------------------------------------
+#
+# The inital step is to compile a module and save it as with a normal. Note that there is an
+# additional parameter `make_refitable` that is set to `True`. This parameter is used to
+# indicate that the engine being built should support weight refitting later. Engines built without
+# these setttings will not be able to be refit.
+#
+# In this case we are going to compile a ResNet18 model with randomly initialized weights and save it.
+
+model = models.resnet18(pretrained=False).eval().to("cuda")
 exp_program = torch.export.export(model, tuple(inputs))
 enabled_precisions = {torch.float}
 debug = False
@@ -59,16 +73,20 @@
 )  # Output is a torch.fx.GraphModule
 
 # Save the graph module as an exported program
-# This is only supported when use_python_runtime = False
 torch_trt.save(trt_gm, "./compiled.ep", inputs=inputs)
 
 
 # %%
-# Refit the module with update model weights
-# ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+# Refit the Program with Pretrained Weights
+# ------------------------------------------
+#
+# Random weights are not useful for inference. But now instead of recompiling the model, we can
+# refit the model with the pretrained weights. This is done by setting up another PyTorch module
+# with the target weights and exporting it as an ExportedProgram. Then the ``refit_module_weights``
+# function is used to update the weights of the compiled module with the new weights.
 
 # Create and compile the updated model
-model2 = models.resnet18(pretrained=False).eval().to("cuda")
+model2 = models.resnet18(pretrained=True).eval().to("cuda")
 exp_program2 = torch.export.export(model2, tuple(inputs))
 
 
@@ -91,8 +109,32 @@
 print("Refit successfully!")
 
 # %%
-# Alternative Workflow using Python Runtime
+#
+# Advanced Usage
 # -----------------------------
-
-# Currently python runtime does not support engine serialization. So the refitting will be done in the same runtime.
-# This usecase is more useful when you need to switch different weights in the same runtime, such as using Stable Diffusion.
+#
+# There are a number of settings you can use to control the refit process
+#
+# Weight Map Cache
+# ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+#
+# Weight refitting works by matching the weights of the compiled module with the new weights from
+# the user supplied ExportedProgram. Since 1:1 name matching from PyTorch to TensorRT is hard to accomplish,
+# the only gaurenteed way to match weights at *refit-time* is to pass the new ExportedProgram through the
+# early phases of the compilation process to generate near identical weight names. This can be expensive
+# and is not always necessary.
+#
+# To avoid this, **At initial compile**, Torch-TensorRt will attempt to cache a direct mapping from PyTorch
+# weights to TensorRT weights. This cache is stored in the compiled module as metadata and can be used
+# to speed up refit. If the cache is not present, the refit system will fallback to rebuilding the mapping at
+# refit-time. Use of this cache is controlled by the ``use_weight_map_cache`` parameter.
+#
+# Since the cache uses a heuristic based system for matching PyTorch and TensorRT weights, you may want to verify the refitting. This can be done by setting
+# ``verify_output`` to True and providing sample ``arg_inputs`` and ``kwarg_inputs``. When this is done, the refit
+# system will run the refitted module and the user supplied module on the same inputs and compare the outputs.
+#
+# In-Place Refit
+# ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+#
+# ``in_place`` allows the user to refit the module in place. This is useful when the user wants to update the weights
+# of the compiled module without creating a new module.
diff --git a/py/torch_tensorrt/dynamo/_compiler.py b/py/torch_tensorrt/dynamo/_compiler.py
index 6cd3cf5f5f..2e6ff039b4 100644
--- a/py/torch_tensorrt/dynamo/_compiler.py
+++ b/py/torch_tensorrt/dynamo/_compiler.py
@@ -18,7 +18,7 @@
     dryrun_stats_display,
     parse_non_trt_nodes,
 )
-from torch_tensorrt.dynamo._engine_caching import BaseEngineCache, DiskEngineCache
+from torch_tensorrt.dynamo._engine_cache import BaseEngineCache, DiskEngineCache
 from torch_tensorrt.dynamo.conversion import (
     CompilationSettings,
     UnsupportedOperatorException,
@@ -85,8 +85,8 @@ def compile(
     lazy_engine_init: bool = _defaults.LAZY_ENGINE_INIT,
     cache_built_engines: bool = _defaults.CACHE_BUILT_ENGINES,
     reuse_cached_engines: bool = _defaults.REUSE_CACHED_ENGINES,
-    engine_cache_dir: Optional[str] = _defaults.ENGINE_CACHE_DIR,
-    engine_cache_size: Optional[int] = _defaults.ENGINE_CACHE_SIZE,
+    engine_cache_dir: str = _defaults.ENGINE_CACHE_DIR,
+    engine_cache_size: int = _defaults.ENGINE_CACHE_SIZE,
     custom_engine_cache: Optional[BaseEngineCache] = _defaults.CUSTOM_ENGINE_CACHE,
     **kwargs: Any,
 ) -> torch.fx.GraphModule:
diff --git a/py/torch_tensorrt/dynamo/_engine_caching.py b/py/torch_tensorrt/dynamo/_engine_cache.py
similarity index 96%
rename from py/torch_tensorrt/dynamo/_engine_caching.py
rename to py/torch_tensorrt/dynamo/_engine_cache.py
index c8ff7aba50..7a33a81521 100644
--- a/py/torch_tensorrt/dynamo/_engine_caching.py
+++ b/py/torch_tensorrt/dynamo/_engine_cache.py
@@ -144,6 +144,10 @@ def get_dir_size(path: str) -> int:
         if engine_cache_dir not in DiskEngineCache.dir2hash2size_map:
             DiskEngineCache.dir2hash2size_map[engine_cache_dir] = {}
 
+        _LOGGER.info(
+            f"Disk engine cache initialized (cache directory:{self.engine_cache_dir}, max size: {self.total_engine_cache_size})"
+        )
+
     def has_available_cache_size(self, needed_size: int) -> bool:
         """Check if the cache has available space for saving object
 
@@ -184,7 +188,7 @@ def LRU() -> None:
                             engine_hash, 0
                         )
                     )
-                    _LOGGER.info(
+                    _LOGGER.debug(
                         f"Removed the engine cache at {engine_path}, available cache size: {self.available_engine_cache_size} bytes."
                     )
                 except Exception as e:
@@ -228,7 +232,7 @@ def save(
             try:
                 with open(blob_path, "wb") as f:
                     f.write(blob)
-                _LOGGER.info(f"The blob was saved to {blob_path}")
+                _LOGGER.debug(f"The engine added to cache, saved to {blob_path}")
             except Exception as e:
                 del DiskEngineCache.dir2hash2size_map[self.engine_cache_dir][hash]
                 self.available_engine_cache_size += blob_size
@@ -247,5 +251,6 @@ def load(self, hash: str) -> Optional[bytes]:
             if os.path.exists(blob_path):
                 with open(blob_path, "rb") as f:
                     blob = f.read()
+                _LOGGER.debug(f"Engine found in cache, loaded from {blob_path}")
                 return blob
         return None
diff --git a/py/torch_tensorrt/dynamo/_refit.py b/py/torch_tensorrt/dynamo/_refit.py
index 4ce7d0b150..8b0d7c3e20 100644
--- a/py/torch_tensorrt/dynamo/_refit.py
+++ b/py/torch_tensorrt/dynamo/_refit.py
@@ -6,7 +6,6 @@
 from typing import Any, List, Optional, Sequence, Tuple
 
 import numpy as np
-import tensorrt as trt
 import torch
 from torch.export import ExportedProgram
 from torch_tensorrt._enums import dtype
@@ -35,6 +34,7 @@
 )
 from torch_tensorrt.dynamo.utils import (
     check_module_output,
+    get_model_device,
     get_torch_inputs,
     set_log_level,
     to_torch_device,
@@ -42,6 +42,8 @@
 )
 from torch_tensorrt.logging import TRT_LOGGER
 
+import tensorrt as trt
+
 logger = logging.getLogger(__name__)
 
 
@@ -146,7 +148,7 @@ def _refit_single_trt_engine_with_gm(
     """
 
     refitted = set()
-    torch_device = list(new_gm.state_dict().values())[0].device.type
+    torch_device = get_model_device(new_gm)
     refitter = trt.Refitter(old_engine, TRT_LOGGER)
     weight_list = refitter.get_all_weights()
 
diff --git a/py/torch_tensorrt/dynamo/conversion/_TRTInterpreter.py b/py/torch_tensorrt/dynamo/conversion/_TRTInterpreter.py
index 3c97c8347a..84fe345137 100644
--- a/py/torch_tensorrt/dynamo/conversion/_TRTInterpreter.py
+++ b/py/torch_tensorrt/dynamo/conversion/_TRTInterpreter.py
@@ -18,7 +18,6 @@
 )
 
 import numpy as np
-import tensorrt as trt
 import torch
 import torch.fx
 from torch.fx.node import _get_qualified_name
@@ -27,7 +26,7 @@
 from torch_tensorrt._enums import dtype
 from torch_tensorrt._Input import Input
 from torch_tensorrt.dynamo import _defaults
-from torch_tensorrt.dynamo._engine_caching import BaseEngineCache
+from torch_tensorrt.dynamo._engine_cache import BaseEngineCache
 from torch_tensorrt.dynamo._settings import CompilationSettings
 from torch_tensorrt.dynamo.conversion._ConversionContext import ConversionContext
 from torch_tensorrt.dynamo.conversion._ConverterRegistry import (
@@ -44,6 +43,7 @@
 from torch_tensorrt.fx.observer import Observer
 from torch_tensorrt.logging import TRT_LOGGER
 
+import tensorrt as trt
 from packaging import version
 
 _LOGGER: logging.Logger = logging.getLogger(__name__)
diff --git a/py/torch_tensorrt/dynamo/conversion/_conversion.py b/py/torch_tensorrt/dynamo/conversion/_conversion.py
index cd38ce56e6..f0b65b3a6e 100644
--- a/py/torch_tensorrt/dynamo/conversion/_conversion.py
+++ b/py/torch_tensorrt/dynamo/conversion/_conversion.py
@@ -3,14 +3,13 @@
 import logging
 from typing import Any, List, Optional, Sequence
 
-import tensorrt as trt
 import torch
 from torch.fx.experimental.proxy_tensor import unset_fake_temporarily
 from torch_tensorrt._Device import Device
 from torch_tensorrt._enums import dtype
 from torch_tensorrt._features import ENABLED_FEATURES
 from torch_tensorrt._Input import Input
-from torch_tensorrt.dynamo._engine_caching import BaseEngineCache
+from torch_tensorrt.dynamo._engine_cache import BaseEngineCache
 from torch_tensorrt.dynamo._settings import CompilationSettings
 from torch_tensorrt.dynamo.conversion._TRTInterpreter import (
     TRTInterpreter,
@@ -19,6 +18,8 @@
 from torch_tensorrt.dynamo.runtime import PythonTorchTensorRTModule, TorchTensorRTModule
 from torch_tensorrt.dynamo.utils import get_model_device, get_torch_inputs
 
+import tensorrt as trt
+
 logger = logging.getLogger(__name__)
 
 
diff --git a/py/torch_tensorrt/dynamo/utils.py b/py/torch_tensorrt/dynamo/utils.py
index 66192d59a0..2af7922cd1 100644
--- a/py/torch_tensorrt/dynamo/utils.py
+++ b/py/torch_tensorrt/dynamo/utils.py
@@ -3,19 +3,19 @@
 import logging
 from dataclasses import fields, replace
 from enum import Enum
-from typing import Any, Callable, Dict, Optional, Sequence, Tuple, Union
+from typing import Any, Callable, Dict, List, Optional, Sequence, Tuple, Union
 
 import numpy as np
-import tensorrt as trt
 import torch
 from torch._subclasses.fake_tensor import FakeTensor
 from torch_tensorrt._Device import Device
 from torch_tensorrt._enums import dtype
 from torch_tensorrt._Input import Input
 from torch_tensorrt.dynamo import _defaults
-from torch_tensorrt.dynamo._engine_caching import BaseEngineCache
+from torch_tensorrt.dynamo._engine_cache import BaseEngineCache
 from torch_tensorrt.dynamo._settings import CompilationSettings
 
+import tensorrt as trt
 from packaging import version
 
 from .types import TRTDataType
@@ -148,10 +148,10 @@ def get_torch_tensor(
 
 
 def get_torch_inputs(
-    inputs: Sequence[Input] | Dict[Any, Any],
+    inputs: Sequence[Input] | Dict[str, Any],
     device: Union[Device, torch.device, str],
     mode: str = "",
-) -> Sequence[torch.Tensor] | Dict[str, torch.Tensor]:
+) -> Sequence[Union[int, torch.Tensor]] | Dict[str, Union[int, torch.Tensor]]:
     """
     Return the torch_tensor from the Input object. If mode is set, this implies
     user is using dynamic shaped inputs and return the corresponding input based
@@ -160,26 +160,26 @@ def get_torch_inputs(
     device = to_torch_device(device)
 
     if isinstance(inputs, dict):
-        result = {}
+        result_dict: Dict[str, Union[int, torch.Tensor]] = {}
         for k, v in inputs.items():
             if isinstance(v, (list, tuple, dict)):
-                result[k] = get_torch_inputs(v, device)
+                result_dict[k] = get_torch_inputs(v, device)
             elif isinstance(v, Input):
-                result[k] = get_torch_tensor(v, device, mode)
+                result_dict[k] = get_torch_tensor(v, device, mode)
+        return result_dict
     else:
-        result = []
+        result_list: List[Union[int, torch.Tensor]] = []
         for input in inputs:
             if isinstance(input, Input):
-                result.append(get_torch_tensor(input, device, mode))
+                result_list.append(get_torch_tensor(input, device, mode))
             elif isinstance(input, torch.Tensor):
-                result.append(input.to(device))
+                result_list.append(input.to(device))
             else:
                 raise AssertionError(f"Input type {type(input)} is not a valid type")
+        return result_list
 
-    return result
 
-
-def get_model_device(module: torch.fx.GraphModule) -> Union[Device, torch.device, str]:
+def get_model_device(module: torch.fx.GraphModule) -> torch.device:
     """
     Returns the device on which the module parameters exist.
     """
@@ -306,7 +306,7 @@ def contains_sym_int(tensor: torch.Tensor) -> bool:
     return any(isinstance(dim, torch.SymInt) for dim in tensor)
 
 
-def extract_var_range_info(symbolic_integer: torch.SymInt) -> Dict[str, Any]:
+def extract_var_range_info(symbolic_integer: torch.SymInt) -> Dict[str, int]:
     """
     This function returns the min, max, opt values of a symbolic integer.
     """
@@ -335,14 +335,14 @@ def extract_var_range_info(symbolic_integer: torch.SymInt) -> Dict[str, Any]:
 
 def unwrap_tensor_shape(
     tensor: Union[torch.Tensor, FakeTensor, torch.SymInt]
-) -> Sequence[Any]:
+) -> Sequence[Union[int, Tuple[int, int]]]:
     """
     This is a helper function used to print/return the shape of the tensor.
     For regular torch.tensor's, it returns the static shape.
     For symbolic tensors, eg:(1, s0, 4), this function returns [1, [min, max], 4]. The min
     and max correspond to the lower and upper values of s0 symbolic dimension.
     """
-    tensor_shape = []
+    tensor_shape: List[Union[int, Tuple[int, int]]] = []
     # for dimension in tensor.shape:
     if isinstance(tensor, int):
         tensor_shape.append(tensor)
@@ -509,7 +509,7 @@ def parse_dynamo_kwargs(
         if kwargs.get("custom_engine_cache") is not None:
             engine_cache = kwargs.get("custom_engine_cache")
         else:
-            from torch_tensorrt.dynamo._engine_caching import DiskEngineCache
+            from torch_tensorrt.dynamo._engine_cache import DiskEngineCache
 
             engine_cache_dir = kwargs.get(
                 "engine_cache_dir", _defaults.ENGINE_CACHE_DIR
diff --git a/setup.py b/setup.py
index 06b163c51c..de532d9071 100644
--- a/setup.py
+++ b/setup.py
@@ -484,7 +484,7 @@ def run(self):
 if not (PY_ONLY or NO_TS):
     tensorrt_linux_external_dir = (
         lambda: subprocess.check_output(
-            ["bazel", "query", "@tensorrt//:nvinfer", "--output", "location"]
+            [BAZEL_EXE, "query", "@tensorrt//:nvinfer", "--output", "location"]
         )
         .decode("ascii")
         .strip()
@@ -492,7 +492,7 @@ def run(self):
     )
     tensorrt_windows_external_dir = (
         lambda: subprocess.check_output(
-            ["bazel", "query", "@tensorrt_win//:nvinfer", "--output", "location"]
+            [BAZEL_EXE, "query", "@tensorrt_win//:nvinfer", "--output", "location"]
         )
         .decode("ascii")
         .strip()
diff --git a/tests/py/dynamo/models/test_engine_cache.py b/tests/py/dynamo/models/test_engine_cache.py
index 189a492d4e..770e057a36 100644
--- a/tests/py/dynamo/models/test_engine_cache.py
+++ b/tests/py/dynamo/models/test_engine_cache.py
@@ -10,7 +10,7 @@
 import torchvision.models as models
 from torch.testing._internal.common_utils import TestCase
 from torch_tensorrt.dynamo._defaults import ENGINE_CACHE_DIR
-from torch_tensorrt.dynamo._engine_caching import BaseEngineCache
+from torch_tensorrt.dynamo._engine_cache import BaseEngineCache
 from torch_tensorrt.dynamo.utils import COSINE_THRESHOLD, cosine_similarity
 
 assertions = unittest.TestCase()