bechmark gpu memory

Can-Zhao · Can-Zhao · commit 56da1e4a0053 · 2025-03-13T20:42:37.000Z
Signed-off-by: Can-Zhao &lt;canz@nvidia.com&gt;
diff --git a/generation/maisi/README.md b/generation/maisi/README.md
@@ -59,21 +59,21 @@ We retrained several state-of-the-art diffusion model-based methods using our da
 ## Time Cost and GPU Memory Usage
 
 ### Inference Time Cost and GPU Memory Usage
-| `output_size` | latent size |`autoencoder_sliding_window_infer_size` | `autoencoder_tp_num_splits` | Peak Memory | DM Time | VAE Time |
-|---------------|:--------------------------------------:|:--------------------------------------:|:---------------------------:|:-----------:|:-------:|:--------:|
-| [256x256x128](./configs/config_infer_16g_256x256x128.json)   |4x64x64x32| >=[64,64,32], not used                 | 2                           | 14G         | 57s     | 1s       |
-| [256x256x256](./configs/config_infer_16g_256x256x256.json)   |4x64x64x64| [48,48,64], 4 patches                  | 2                           | 14G         | 81s     | 7s       |
-| [512x512x128](./configs/config_infer_16g_512x512x128.json)   |4x128x128x32| [64,64,32], 9 patches                  | 1                           | 14G         | 138s    | 7s       |
-|               |                                        |                             |             |         |          |
-| [256x256x256](./configs/config_infer_24g_256x256x256.json)   |4x64x64x64| >=[64,64,64], not used                 | 4                           | 22G         | 81s     | 2s       |
-| [512x512x128](./configs/config_infer_24g_512x512x128.json)   |4x128x128x32| [80,80,32], 4 patches                  | 1                           | 18G         | 138s    | 9s       |
-| [512x512x512](./configs/config_infer_24g_512x512x512.json)   |4x128x128x128| [64,64,48], 36 patches                 | 2                           | 22G         | 569s    | 29s      |
-|               |                                        |                             |             |         |          |
-| [512x512x512](./configs/config_infer_32g_512x512x512.json)   |4x128x128x128| [64,64,64], 27 patches                 | 2                           | 26G         | 569s    | 40s      |
-|               |                                        |                             |             |         |          |
-| [512x512x128](./configs/config_infer_80g_512x512x128.json)   |4x128x128x32| >=[128,128,32], not used               | 4                           | 37G         | 138s    | 140s     |
-| [512x512x512](./configs/config_infer_80g_512x512x512.json)   |4x128x128x128| [80,80,80], 8 patches                  | 2                           | 44G         | 569s    | 30s      |
-| [512x512x768](./configs/config_infer_24g_512x512x768.json)   |4x128x128x192| [80,80,112], 8 patches                 | 4                           | 55G         | 904s    | 48s      |
+| `output_size` | latent size |`autoencoder_sliding_window_infer_size` | `autoencoder_tp_num_splits` | Peak Memory | VAE Time | DM Time (DDPM) | DM Time (RFlow) |
+|---------------|:--------------------------------------:|:--------------------------------------:|:---------------------------:|:-----------:|:--------:|:-------:|:---------------:|
+| [256x256x128](./configs/config_infer_16g_256x256x128.json)   |4x64x64x32| >=[64,64,32], not used                 | 2                           | 15.0G         | 1s       | 57s     | 2s               |
+| [256x256x256](./configs/config_infer_16g_256x256x256.json)   |4x64x64x64| [48,48,64], 4 patches                  | 4                           | 15.4G         | 5s       | 81s     | 3s              |
+| [512x512x128](./configs/config_infer_16g_512x512x128.json)   |4x128x128x32| [64,64,32], 9 patches                  | 2                           | 15.7G         | 8s       | 138s    | 5s              |
+|               |                                        |                             |             |         |          |         |                 |
+| [256x256x256](./configs/config_infer_24g_256x256x256.json)   |4x64x64x64| >=[64,64,64], not used                 | 4                           | 22.7G         | 2s       | 81s     | 3s              |
+| [512x512x128](./configs/config_infer_24g_512x512x128.json)   |4x128x128x32| [80,80,32], 4 patches                  | 2                           | 21.0G         | 6s       | 138s    | 5s              |
+| [512x512x512](./configs/config_infer_24g_512x512x512.json)   |4x128x128x128| [64,64,48], 36 patches                 | 2                           | 22.8G         | 29s      | 569s    | 19s               |
+|               |                                        |                             |             |         |          |         |                 |
+| [512x512x512](./configs/config_infer_32g_512x512x512.json)   |4x128x128x128| [80,80,48], 16 patches                 | 4                           | 28.4G         | 30s      | 569s    | 19s               |
+|               |                                        |                             |             |         |          |         |                 |
+| [512x512x128](./configs/config_infer_80g_512x512x128.json)   |4x128x128x32| >=[128,128,32], not used               | 4                           | 37.7G         | 127s     | 138s    | 5s               |
+| [512x512x512](./configs/config_infer_80g_512x512x512.json)   |4x128x128x128| [80,80,80], 8 patches                  | 2                           | 45.3G         | 32s      | 569s    | 19s              |
+| [512x512x768](./configs/config_infer_80g_512x512x768.json)   |4x128x128x192| [80,80,112], 8 patches                 | 4                           | 56.2G         | 50s      | 904s    | 30s              |
 
 **Table 3:** Inference Time Cost and GPU Memory Usage. `DM Time` refers to the time required for diffusion model inference. `VAE Time` refers to the time required for VAE decoder inference. The total inference time is the sum of `DM Time` and `VAE Time`. The experiment was conducted on an A100 80G GPU.
 
@@ -168,7 +168,13 @@ For example,
 To run the inference script with MAISI DDPM, please set `"num_inference_steps": 1000` in `./configs/config_infer.json`, and run:
 ```bash
 export MONAI_DATA_DIRECTORY=<dir_you_will_download_data>
-python -m scripts.inference -c ./configs/config_maisi3d-ddpm.json -i ./configs/config_infer.json -e ./configs/environment.json --random-seed 0
+python -m scripts.inference -c ./configs/config_maisi3d-ddpm.json -i ./configs/config_infer.json -e ./configs/environment_maisi3d-ddpm.json --random-seed 0 --version maisi3d-ddpm
+```
+
+To run the inference script with MAISI RFlow, please set `"num_inference_steps": 30` in `./configs/config_infer.json`, and run:
+```bash
+export MONAI_DATA_DIRECTORY=<dir_you_will_download_data>
+python -m scripts.inference -c ./configs/config_maisi3d-rflow.json -i ./configs/config_infer.json -e ./configs/environment_maisi3d-rflow.json --random-seed 0 --version maisi3d-rflow
 ```
 
 Please refer to [maisi_inference_tutorial.ipynb](maisi_inference_tutorial.ipynb) for the tutorial for MAISI model inference.
diff --git a/generation/maisi/configs/config_infer_16g_256x256x128.json b/generation/maisi/configs/config_infer_16g_256x256x128.json
@@ -20,5 +20,10 @@
     "autoencoder_sliding_window_infer_size": [96,96,96],
     "autoencoder_sliding_window_infer_overlap": 0.25,
     "autoencoder_tp_num_splits": 2,
+    "controlnet": "$@controlnet_def",
+    "diffusion_unet": "$@diffusion_unet_def",
+    "autoencoder": "$@autoencoder_def",
+    "mask_generation_autoencoder": "$@mask_generation_autoencoder_def",
+    "mask_generation_diffusion": "$@mask_generation_diffusion_def",
     "modality": 1
 }
diff --git a/generation/maisi/configs/config_infer_16g_256x256x256.json b/generation/maisi/configs/config_infer_16g_256x256x256.json
@@ -18,7 +18,12 @@
         2.0
     ],
     "autoencoder_sliding_window_infer_size": [48,48,64],
-    "autoencoder_sliding_window_infer_overlap": 0.25,
-    "autoencoder_tp_num_splits": 2,
+    "autoencoder_sliding_window_infer_overlap": 0.6666,
+    "autoencoder_tp_num_splits": 4,
+    "controlnet": "$@controlnet_def",
+    "diffusion_unet": "$@diffusion_unet_def",
+    "autoencoder": "$@autoencoder_def",
+    "mask_generation_autoencoder": "$@mask_generation_autoencoder_def",
+    "mask_generation_diffusion": "$@mask_generation_diffusion_def",
     "modality": 1
 }
diff --git a/generation/maisi/configs/config_infer_16g_512x512x128.json b/generation/maisi/configs/config_infer_16g_512x512x128.json
@@ -18,7 +18,12 @@
         4.0
     ],
     "autoencoder_sliding_window_infer_size": [64,64,32],
-    "autoencoder_sliding_window_infer_overlap": 0.25,
-    "autoencoder_tp_num_splits": 1,
+    "autoencoder_sliding_window_infer_overlap": 0.5,
+    "autoencoder_tp_num_splits": 2,
+    "controlnet": "$@controlnet_def",
+    "diffusion_unet": "$@diffusion_unet_def",
+    "autoencoder": "$@autoencoder_def",
+    "mask_generation_autoencoder": "$@mask_generation_autoencoder_def",
+    "mask_generation_diffusion": "$@mask_generation_diffusion_def",
     "modality": 1
 }
diff --git a/generation/maisi/configs/config_infer_24g_256x256x256.json b/generation/maisi/configs/config_infer_24g_256x256x256.json
@@ -20,5 +20,10 @@
     "autoencoder_sliding_window_infer_size": [64,64,64],
     "autoencoder_sliding_window_infer_overlap": 0.25,
     "autoencoder_tp_num_splits": 4,
+    "controlnet": "$@controlnet_def",
+    "diffusion_unet": "$@diffusion_unet_def",
+    "autoencoder": "$@autoencoder_def",
+    "mask_generation_autoencoder": "$@mask_generation_autoencoder_def",
+    "mask_generation_diffusion": "$@mask_generation_diffusion_def",
     "modality": 1
 }
diff --git a/generation/maisi/configs/config_infer_24g_512x512x128.json b/generation/maisi/configs/config_infer_24g_512x512x128.json
@@ -18,7 +18,12 @@
         4.0
     ],
     "autoencoder_sliding_window_infer_size": [80,80,32],
-    "autoencoder_sliding_window_infer_overlap": 0.25,
-    "autoencoder_tp_num_splits": 1,
+    "autoencoder_sliding_window_infer_overlap": 0.4,
+    "autoencoder_tp_num_splits": 2,
+    "controlnet": "$@controlnet_def",
+    "diffusion_unet": "$@diffusion_unet_def",
+    "autoencoder": "$@autoencoder_def",
+    "mask_generation_autoencoder": "$@mask_generation_autoencoder_def",
+    "mask_generation_diffusion": "$@mask_generation_diffusion_def",
     "modality": 1
 }
diff --git a/generation/maisi/configs/config_infer_24g_512x512x512.json b/generation/maisi/configs/config_infer_24g_512x512x512.json
@@ -18,7 +18,12 @@
         1.0
     ],
     "autoencoder_sliding_window_infer_size": [64,64,48],
-    "autoencoder_sliding_window_infer_overlap": 0.25,
+    "autoencoder_sliding_window_infer_overlap": 0.4,
     "autoencoder_tp_num_splits": 2,
+    "controlnet": "$@controlnet_def",
+    "diffusion_unet": "$@diffusion_unet_def",
+    "autoencoder": "$@autoencoder_def",
+    "mask_generation_autoencoder": "$@mask_generation_autoencoder_def",
+    "mask_generation_diffusion": "$@mask_generation_diffusion_def",
     "modality": 1
 }
diff --git a/generation/maisi/configs/config_infer_32g_512x512x512.json b/generation/maisi/configs/config_infer_32g_512x512x512.json
@@ -17,8 +17,13 @@
         0.75,
         1.0
     ],
-    "autoencoder_sliding_window_infer_size": [64,64,64],
-    "autoencoder_sliding_window_infer_overlap": 0.25,
-    "autoencoder_tp_num_splits": 2,
+    "autoencoder_sliding_window_infer_size": [80,80,48],
+    "autoencoder_sliding_window_infer_overlap": 0.4,
+    "autoencoder_tp_num_splits": 4,
+    "controlnet": "$@controlnet_def",
+    "diffusion_unet": "$@diffusion_unet_def",
+    "autoencoder": "$@autoencoder_def",
+    "mask_generation_autoencoder": "$@mask_generation_autoencoder_def",
+    "mask_generation_diffusion": "$@mask_generation_diffusion_def",
     "modality": 1
 }
diff --git a/generation/maisi/configs/config_infer_80g_512x512x128.json b/generation/maisi/configs/config_infer_80g_512x512x128.json
@@ -18,7 +18,12 @@
         4.0
     ],
     "autoencoder_sliding_window_infer_size": [128,128,32],
-    "autoencoder_sliding_window_infer_overlap": 0.25,
+    "autoencoder_sliding_window_infer_overlap": 0.5,
     "autoencoder_tp_num_splits": 4,
+    "controlnet": "$@controlnet_def",
+    "diffusion_unet": "$@diffusion_unet_def",
+    "autoencoder": "$@autoencoder_def",
+    "mask_generation_autoencoder": "$@mask_generation_autoencoder_def",
+    "mask_generation_diffusion": "$@mask_generation_diffusion_def",
     "modality": 1
 }
diff --git a/generation/maisi/configs/config_infer_80g_512x512x512.json b/generation/maisi/configs/config_infer_80g_512x512x512.json
@@ -18,7 +18,12 @@
         1.0
     ],
     "autoencoder_sliding_window_infer_size": [80,80,80],
-    "autoencoder_sliding_window_infer_overlap": 0.25,
+    "autoencoder_sliding_window_infer_overlap": 0.4,
     "autoencoder_tp_num_splits": 2,
+    "controlnet": "$@controlnet_def",
+    "diffusion_unet": "$@diffusion_unet_def",
+    "autoencoder": "$@autoencoder_def",
+    "mask_generation_autoencoder": "$@mask_generation_autoencoder_def",
+    "mask_generation_diffusion": "$@mask_generation_diffusion_def",
     "modality": 1
 }
diff --git a/generation/maisi/configs/config_infer_80g_512x512x768.json b/generation/maisi/configs/config_infer_80g_512x512x768.json
@@ -20,5 +20,10 @@
     "autoencoder_sliding_window_infer_size": [80,80,112],
     "autoencoder_sliding_window_infer_overlap": 0.25,
     "autoencoder_tp_num_splits": 4,
+    "controlnet": "$@controlnet_def",
+    "diffusion_unet": "$@diffusion_unet_def",
+    "autoencoder": "$@autoencoder_def",
+    "mask_generation_autoencoder": "$@mask_generation_autoencoder_def",
+    "mask_generation_diffusion": "$@mask_generation_diffusion_def",
     "modality": 1
 }
diff --git a/generation/maisi/maisi_inference_tutorial.ipynb b/generation/maisi/maisi_inference_tutorial.ipynb
diff --git a/generation/maisi/scripts/inference.py b/generation/maisi/scripts/inference.py
diff --git a/generation/maisi/scripts/sample.py b/generation/maisi/scripts/sample.py
diff --git a/generation/maisi/scripts/utils.py b/generation/maisi/scripts/utils.py