DTolm · DejvBayer · Mar 9, 2024 · Mar 9, 2024
diff --git a/vkFFT/vkFFT/vkFFT_AppManagement/vkFFT_InitializeApp.h b/vkFFT/vkFFT/vkFFT_AppManagement/vkFFT_InitializeApp.h
@@ -543,7 +543,6 @@ static inline VkFFTResult setConfigurationVkFFT(VkFFTApplication* app, VkFFTConf
 	app->configuration.device = inputLaunchConfiguration.device;
 	if (inputLaunchConfiguration.num_streams != 0)	app->configuration.num_streams = inputLaunchConfiguration.num_streams;
 	if (inputLaunchConfiguration.stream != 0)	app->configuration.stream = inputLaunchConfiguration.stream;
-	app->configuration.streamID = 0;
 	int value = 0;
 	res = cuDeviceGetAttribute(&value, CU_DEVICE_ATTRIBUTE_COMPUTE_CAPABILITY_MAJOR, app->configuration.device[0]);
 	if (res != CUDA_SUCCESS) {
@@ -635,7 +634,7 @@ static inline VkFFTResult setConfigurationVkFFT(VkFFTApplication* app, VkFFTConf
 			return VKFFT_ERROR_MALLOC_FAILED;
 		}
 		for (pfUINT i = 0; i < app->configuration.num_streams; i++) {
-			res_t = cudaEventCreate(&app->configuration.stream_event[i]);
+			res_t = cudaEventCreateWithFlags(&app->configuration.stream_event[i], cudaEventDisableTiming);
 			if (res_t != cudaSuccess) {
 				deleteVkFFT(app);
 				return VKFFT_ERROR_FAILED_TO_CREATE_EVENT;
@@ -659,7 +658,6 @@ static inline VkFFTResult setConfigurationVkFFT(VkFFTApplication* app, VkFFTConf
 	app->configuration.device = inputLaunchConfiguration.device;
 	if (inputLaunchConfiguration.num_streams != 0)	app->configuration.num_streams = inputLaunchConfiguration.num_streams;
 	if (inputLaunchConfiguration.stream != 0)	app->configuration.stream = inputLaunchConfiguration.stream;
-	app->configuration.streamID = 0;
 	int value = 0;
 	res = hipDeviceGetAttribute(&value, hipDeviceAttributeComputeCapabilityMajor, app->configuration.device[0]);
 	if (res != hipSuccess) {
@@ -740,7 +738,7 @@ static inline VkFFTResult setConfigurationVkFFT(VkFFTApplication* app, VkFFTConf
 			return VKFFT_ERROR_MALLOC_FAILED;
 		}
 		for (pfUINT i = 0; i < app->configuration.num_streams; i++) {
-			res = hipEventCreate(&app->configuration.stream_event[i]);
+			res = hipEventCreateWithFlags(&app->configuration.stream_event[i], hipEventDisableTiming);
 			if (res != hipSuccess) {
 				deleteVkFFT(app);
 				return VKFFT_ERROR_FAILED_TO_CREATE_EVENT;

diff --git a/vkFFT/vkFFT/vkFFT_AppManagement/vkFFT_RunApp.h b/vkFFT/vkFFT/vkFFT_AppManagement/vkFFT_RunApp.h
@@ -29,23 +29,7 @@ static inline VkFFTResult VkFFTSync(VkFFTApplication* app) {
 #if(VKFFT_BACKEND==0)
     vkCmdPipelineBarrier(app->configuration.commandBuffer[0], VK_PIPELINE_STAGE_COMPUTE_SHADER_BIT, VK_PIPELINE_STAGE_COMPUTE_SHADER_BIT, 0, 1, app->configuration.memory_barrier, 0, 0, 0, 0);
 #elif(VKFFT_BACKEND==1)
-    if (app->configuration.num_streams > 1) {
-        cudaError_t res = cudaSuccess;
-        for (pfUINT s = 0; s < app->configuration.num_streams; s++) {
-            res = cudaEventSynchronize(app->configuration.stream_event[s]);
-            if (res != cudaSuccess) return VKFFT_ERROR_FAILED_TO_SYNCHRONIZE;
-        }
-        app->configuration.streamCounter = 0;
-    }
 #elif(VKFFT_BACKEND==2)
-    if (app->configuration.num_streams > 1) {
-        hipError_t res = hipSuccess;
-        for (pfUINT s = 0; s < app->configuration.num_streams; s++) {
-            res = hipEventSynchronize(app->configuration.stream_event[s]);
-            if (res != hipSuccess) return VKFFT_ERROR_FAILED_TO_SYNCHRONIZE;
-        }
-        app->configuration.streamCounter = 0;
-    }
 #elif(VKFFT_BACKEND==3)
 #elif(VKFFT_BACKEND==4)
     ze_result_t res = ZE_RESULT_SUCCESS;
@@ -88,9 +72,7 @@ static inline VkFFTResult VkFFTAppend(VkFFTApplication* app, int inverse, VkFFTL
     };
     app->configuration.memory_barrier = &memory_barrier;
 #elif(VKFFT_BACKEND==1)
-    app->configuration.streamCounter = 0;
 #elif(VKFFT_BACKEND==2)
-    app->configuration.streamCounter = 0;
 #elif(VKFFT_BACKEND==3)
     app->configuration.commandQueue = launchParams->commandQueue;
 #elif(VKFFT_BACKEND==4)
@@ -108,6 +90,29 @@ static inline VkFFTResult VkFFTAppend(VkFFTApplication* app, int inverse, VkFFTL
     if (resFFT != VKFFT_SUCCESS) {
         return resFFT;
     }
+
+#if(VKFFT_BACKEND==1)
+    if (app->configuration.num_streams > 1) {
+        cudaError_t res = cudaSuccess;
+        for (pfUINT i = 1; i < app->configuration.num_streams; i++) {
+            res = cudaEventRecord(app->configuration.stream_event[i], app->configuration.stream[i]);
+            if (res != cudaSuccess) return VKFFT_ERROR_FAILED_TO_EVENT_RECORD;
+            res = cudaStreamWaitEvent(app->configuration.stream[0], app->configuration.stream_event[i], cudaEventWaitDefault);
+            if (res != cudaSuccess) return VKFFT_ERROR_FAILED_TO_SYNCHRONIZE;
+        }
+    }
+#elif(VKFFT_BACKEND==2)
+    if (app->configuration.num_streams > 1) {
+        hipError_t result = hipSuccess;
+        for (pfUINT i = 1; i < app->configuration.num_streams; i++) {
+            res = hipEventRecord(app->configuration.stream_event[i], app->configuration.stream[i]);
+            if (res != hipSuccess) return VKFFT_ERROR_FAILED_TO_EVENT_RECORD;
+            res = hipStreamWaitEvent(app->configuration.stream[0], app->configuration.stream_event[i], 0);
+            if (res != hipSuccess) return VKFFT_ERROR_FAILED_TO_SYNCHRONIZE;
+        }
+    }
+#endif
+
     if (inverse != 1) {
         //FFT axis 0
         if (!app->configuration.omitDimension[0]) {
@@ -649,6 +654,29 @@ static inline VkFFTResult VkFFTAppend(VkFFTApplication* app, int inverse, VkFFTL
         //if (app->localFFTPlan_inverse->bigSequenceEvenR2C) app->configuration.size[0] *= 2;
 
     }
+
+#if(VKFFT_BACKEND==1)
+    if (app->configuration.num_streams > 1) {
+        cudaError_t res = cudaSuccess;
+        res = cudaEventRecord(app->configuration.stream_event[0], app->configuration.stream[0]);
+        if (res != cudaSuccess) return VKFFT_ERROR_FAILED_TO_EVENT_RECORD;
+        for (pfUINT i = 1; i < app->configuration.num_streams; i++) {
+            res = cudaStreamWaitEvent(app->configuration.stream[i], app->configuration.stream_event[0], cudaEventWaitDefault);
+            if (res != cudaSuccess) return VKFFT_ERROR_FAILED_TO_SYNCHRONIZE;
+        }
+    }
+#elif(VKFFT_BACKEND==2)
+    if (app->configuration.num_streams > 1) {
+        hipError_t res = hipSuccess;
+        res = hipEventRecord(app->configuration.stream_event[0], app->configuration.stream[0]);
+        if (res != hipSuccess) return VKFFT_ERROR_FAILED_TO_EVENT_RECORD;
+        for (pfUINT i = 1; i < app->configuration.num_streams; i++) {
+            res = hipStreamWaitEvent(app->configuration.stream[i], app->configuration.stream_event[0], 0);
+            if (res != hipSuccess) return VKFFT_ERROR_FAILED_TO_SYNCHRONIZE;
+        }
+    }
+#endif
+
     return resFFT;
 }
 

diff --git a/vkFFT/vkFFT/vkFFT_PlanManagement/vkFFT_API_handles/vkFFT_DispatchPlan.h b/vkFFT/vkFFT/vkFFT_PlanManagement/vkFFT_API_handles/vkFFT_DispatchPlan.h
@@ -197,32 +197,16 @@ static inline VkFFTResult VkFFT_DispatchPlan(VkFFTApplication* app, VkFFTAxis* a
 						}
 					}
 				}*/
-				if (app->configuration.num_streams >= 1) {
-					result = cuLaunchKernel(axis->VkFFTKernel,
-						(unsigned int)dispatchSize[0], (unsigned int)dispatchSize[1], (unsigned int)dispatchSize[2],     // grid dim
-						(unsigned int)axis->specializationConstants.localSize[0].data.i, (unsigned int)axis->specializationConstants.localSize[1].data.i, (unsigned int)axis->specializationConstants.localSize[2].data.i,   // block dim
-						(unsigned int)axis->specializationConstants.usedSharedMemory.data.i, app->configuration.stream[app->configuration.streamID],             // shared mem and stream
-						args, 0);
-				}
-				else {
-					result = cuLaunchKernel(axis->VkFFTKernel,
-						(unsigned int)dispatchSize[0], (unsigned int)dispatchSize[1], (unsigned int)dispatchSize[2],     // grid dim
-						(unsigned int)axis->specializationConstants.localSize[0].data.i, (unsigned int)axis->specializationConstants.localSize[1].data.i, (unsigned int)axis->specializationConstants.localSize[2].data.i,   // block dim
-						(unsigned int)axis->specializationConstants.usedSharedMemory.data.i, 0,             // shared mem and stream
-						args, 0);
-				}
+				result = cuLaunchKernel(axis->VkFFTKernel,
+					(unsigned int)dispatchSize[0], (unsigned int)dispatchSize[1], (unsigned int)dispatchSize[2],     // grid dim
+					(unsigned int)axis->specializationConstants.localSize[0].data.i, (unsigned int)axis->specializationConstants.localSize[1].data.i, (unsigned int)axis->specializationConstants.localSize[2].data.i,   // block dim
+					(unsigned int)axis->specializationConstants.usedSharedMemory.data.i, (app->configuration.num_streams > 0) ? app->configuration.stream[0] : 0,             // shared mem and stream
+					args, 0);
+
 				if (result != CUDA_SUCCESS) {
 					printf("cuLaunchKernel error: %d, %" PRIu64 " %" PRIu64 " %" PRIu64 " - %" PRIu64 " %" PRIu64 " %" PRIu64 "\n", result, dispatchSize[0], dispatchSize[1], dispatchSize[2], axis->specializationConstants.localSize[0].data.i, axis->specializationConstants.localSize[1].data.i, axis->specializationConstants.localSize[2].data.i);
 					return VKFFT_ERROR_FAILED_TO_LAUNCH_KERNEL;
 				}
-				if (app->configuration.num_streams > 1) {
-					app->configuration.streamID = app->configuration.streamCounter % app->configuration.num_streams;
-					if (app->configuration.streamCounter == 0) {
-						cudaError_t res2 = cudaEventRecord(app->configuration.stream_event[app->configuration.streamID], app->configuration.stream[app->configuration.streamID]);
-						if (res2 != cudaSuccess) return VKFFT_ERROR_FAILED_TO_EVENT_RECORD;
-					}
-					app->configuration.streamCounter++;
-				}
 #elif(VKFFT_BACKEND==2)
 				hipError_t result = hipSuccess;
 				void* args[10];
@@ -267,32 +251,16 @@ static inline VkFFTResult VkFFT_DispatchPlan(VkFFTApplication* app, VkFFTAxis* a
 					}
 				}*/
 				//printf("%" PRIu64 " %" PRIu64 " %" PRIu64 " %" PRIu64 " %" PRIu64 " %" PRIu64 "\n",maxBlockSize[0], maxBlockSize[1], maxBlockSize[2], axis->specializationConstants.localSize[0], axis->specializationConstants.localSize[1], axis->specializationConstants.localSize[2]);
-				if (app->configuration.num_streams >= 1) {
-					result = hipModuleLaunchKernel(axis->VkFFTKernel,
-						(unsigned int)dispatchSize[0], (unsigned int)dispatchSize[1], (unsigned int)dispatchSize[2],     // grid dim
-						(unsigned int)axis->specializationConstants.localSize[0].data.i, (unsigned int)axis->specializationConstants.localSize[1].data.i, (unsigned int)axis->specializationConstants.localSize[2].data.i,   // block dim
-						(unsigned int)axis->specializationConstants.usedSharedMemory.data.i, app->configuration.stream[app->configuration.streamID],             // shared mem and stream
-						args, 0);
-				}
-				else {
-					result = hipModuleLaunchKernel(axis->VkFFTKernel,
-						(unsigned int)dispatchSize[0], (unsigned int)dispatchSize[1], (unsigned int)dispatchSize[2],     // grid dim
-						(unsigned int)axis->specializationConstants.localSize[0].data.i, (unsigned int)axis->specializationConstants.localSize[1].data.i, (unsigned int)axis->specializationConstants.localSize[2].data.i,   // block dim
-						(unsigned int)axis->specializationConstants.usedSharedMemory.data.i, 0,             // shared mem and stream
-						args, 0);
-				}
+				result = hipModuleLaunchKernel(axis->VkFFTKernel,
+					(unsigned int)dispatchSize[0], (unsigned int)dispatchSize[1], (unsigned int)dispatchSize[2],     // grid dim
+					(unsigned int)axis->specializationConstants.localSize[0].data.i, (unsigned int)axis->specializationConstants.localSize[1].data.i, (unsigned int)axis->specializationConstants.localSize[2].data.i,   // block dim
+					(unsigned int)axis->specializationConstants.usedSharedMemory.data.i, (app->configuration.num_streams > 0) ? app->configuration.stream[0] : 0,             // shared mem and stream
+					args, 0);
+
 				if (result != hipSuccess) {
 					printf("hipModuleLaunchKernel error: %d, %" PRIu64 " %" PRIu64 " %" PRIu64 " - %" PRIu64 " %" PRIu64 " %" PRIu64 "\n", result, dispatchSize[0], dispatchSize[1], dispatchSize[2], axis->specializationConstants.localSize[0].data.i, axis->specializationConstants.localSize[1].data.i, axis->specializationConstants.localSize[2].data.i);
 					return VKFFT_ERROR_FAILED_TO_LAUNCH_KERNEL;
 				}
-				if (app->configuration.num_streams > 1) {
-					app->configuration.streamID = app->configuration.streamCounter % app->configuration.num_streams;
-					if (app->configuration.streamCounter == 0) {
-						result = hipEventRecord(app->configuration.stream_event[app->configuration.streamID], app->configuration.stream[app->configuration.streamID]);
-						if (result != hipSuccess) return VKFFT_ERROR_FAILED_TO_EVENT_RECORD;
-					}
-					app->configuration.streamCounter++;
-				}
 #elif(VKFFT_BACKEND==3)
 				cl_int result = CL_SUCCESS;
 				void* args[10];

diff --git a/vkFFT/vkFFT/vkFFT_Structs/vkFFT_Structs.h b/vkFFT/vkFFT/vkFFT_Structs/vkFFT_Structs.h
@@ -310,12 +310,8 @@ typedef struct {
 	VkMemoryBarrier* memory_barrier;//Filled at app creation
 #elif(VKFFT_BACKEND==1)
 	cudaEvent_t* stream_event;//Filled at app creation
-	pfUINT streamCounter;//Filled at app creation
-	pfUINT streamID;//Filled at app creation
 #elif(VKFFT_BACKEND==2)
 	hipEvent_t* stream_event;//Filled at app creation
-	pfUINT streamCounter;//Filled at app creation
-	pfUINT streamID;//Filled at app creation
 	pfINT  useStrict32BitAddress; // guarantee 32 bit addresses in bytes instead of number of elements. This results in fewer instructions generated. -1: Disable, 0: Infer based on size, 1: enable. Has no effect with useUint64.
 #elif(VKFFT_BACKEND==3)
 	cl_command_queue* commandQueue;