From 443bfa8692c945539bec21e2b910fc22f67f7bc0 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 15:27:00 +0800
Subject: [PATCH 001/393] more

---
 csrc/deep_ep.cpp | 6 ++++++
 csrc/deep_ep.hpp | 7 +++++++
 2 files changed, 13 insertions(+)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 9c90178b..8bae5e79 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -10,6 +10,12 @@
 #include "kernels/api.cuh"
 #include "kernels/configs.cuh"
 
+namespace shared_memory {
+    void get_mem_handle(bool enable_fabric, ) {
+    }
+
+}
+
 namespace deep_ep {
 
 Buffer::Buffer(int rank, int num_ranks, int64_t num_nvl_bytes, int64_t num_rdma_bytes, bool low_latency_mode):
diff --git a/csrc/deep_ep.hpp b/csrc/deep_ep.hpp
index dfa2202d..f984735c 100644
--- a/csrc/deep_ep.hpp
+++ b/csrc/deep_ep.hpp
@@ -20,6 +20,13 @@
 #define TORCH_EXTENSION_NAME deep_ep_cpp
 #endif
 
+namespace shared_memory {
+typedef union {
+  cudaIpcMemHandle_t cuda_ipc_mem_handle;
+  CUmemFabricHandle cu_mem_fabric_handle;
+} MemHandle;
+}
+
 namespace deep_ep {
 
 struct Buffer {

From b986cce27bf39167488415fefcf0ee2dfee24e0c Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 15:27:50 +0800
Subject: [PATCH 002/393] more

---
 csrc/deep_ep.cpp | 9 +++++++--
 1 file changed, 7 insertions(+), 2 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 8bae5e79..6f71f71f 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -11,7 +11,12 @@
 #include "kernels/configs.cuh"
 
 namespace shared_memory {
-    void get_mem_handle(bool enable_fabric, ) {
+    void get_mem_handle(bool enable_fabric, MemHandle* handle, void* ptr) {
+        if (enable_fabric) {
+            TODO;
+        } else {
+            CUDA_CHECK(cudaIpcGetMemHandle(handle, ptr));
+        }
     }
 
 }
@@ -52,7 +57,7 @@ Buffer::Buffer(int rank, int num_ranks, int64_t num_nvl_bytes, int64_t num_rdma_
     if (num_nvl_bytes > 0) {
         // Local IPC: alloc local memory and set local IPC handles
         CUDA_CHECK(cudaMalloc(&buffer_ptrs[nvl_rank], num_nvl_bytes + barrier_signal_bytes + buffer_ptr_bytes + barrier_signal_ptr_bytes));
-        CUDA_CHECK(cudaIpcGetMemHandle(&ipc_handles[nvl_rank], buffer_ptrs[nvl_rank]));
+        CUDA_CHECK(shared_memory::get_mem_handle(&ipc_handles[nvl_rank], buffer_ptrs[nvl_rank]));
         buffer_ptrs_gpu = reinterpret_cast<void**>(static_cast<uint8_t*>(buffer_ptrs[nvl_rank]) + num_nvl_bytes + barrier_signal_bytes);
 
         // Set barrier signals

From 3ea6f58265cfccec4112bc00a195458dda5503d5 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 15:29:26 +0800
Subject: [PATCH 003/393] more

---
 csrc/deep_ep.cpp | 10 +++++++++-
 1 file changed, 9 insertions(+), 1 deletion(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 6f71f71f..a9b72efc 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -11,6 +11,14 @@
 #include "kernels/configs.cuh"
 
 namespace shared_memory {
+    void malloc(void** ptr, size_t size) {
+        if (enable_fabric) {
+            TODO;
+        } else {
+            CUDA_CHECK(cudaMalloc(ptr, size));
+        }
+    }
+
     void get_mem_handle(bool enable_fabric, MemHandle* handle, void* ptr) {
         if (enable_fabric) {
             TODO;
@@ -56,7 +64,7 @@ Buffer::Buffer(int rank, int num_ranks, int64_t num_nvl_bytes, int64_t num_rdma_
 
     if (num_nvl_bytes > 0) {
         // Local IPC: alloc local memory and set local IPC handles
-        CUDA_CHECK(cudaMalloc(&buffer_ptrs[nvl_rank], num_nvl_bytes + barrier_signal_bytes + buffer_ptr_bytes + barrier_signal_ptr_bytes));
+        CUDA_CHECK(shared_memory::malloc(&buffer_ptrs[nvl_rank], num_nvl_bytes + barrier_signal_bytes + buffer_ptr_bytes + barrier_signal_ptr_bytes));
         CUDA_CHECK(shared_memory::get_mem_handle(&ipc_handles[nvl_rank], buffer_ptrs[nvl_rank]));
         buffer_ptrs_gpu = reinterpret_cast<void**>(static_cast<uint8_t*>(buffer_ptrs[nvl_rank]) + num_nvl_bytes + barrier_signal_bytes);
 

From 5d3513bbd3fda45cbd83b40214ecaa736267f4f0 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 15:29:37 +0800
Subject: [PATCH 004/393] more

---
 csrc/deep_ep.hpp | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/deep_ep.hpp b/csrc/deep_ep.hpp
index f984735c..3c4284f0 100644
--- a/csrc/deep_ep.hpp
+++ b/csrc/deep_ep.hpp
@@ -51,7 +51,7 @@ struct Buffer {
     int num_device_sms;
     int rank, rdma_rank, nvl_rank;
     int num_ranks, num_rdma_ranks, num_nvl_ranks;
-    cudaIpcMemHandle_t ipc_handles[NUM_MAX_NVL_PEERS];
+    shared_memory::MemHandle ipc_handles[NUM_MAX_NVL_PEERS];
 
     // Stream for communication
     at::cuda::CUDAStream comm_stream;

From bda56951540b9ea4b7c110e27bb6f877cc69786b Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 15:30:00 +0800
Subject: [PATCH 005/393] more

---
 csrc/deep_ep.cpp | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index a9b72efc..90304b09 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -23,7 +23,7 @@ namespace shared_memory {
         if (enable_fabric) {
             TODO;
         } else {
-            CUDA_CHECK(cudaIpcGetMemHandle(handle, ptr));
+            CUDA_CHECK(cudaIpcGetMemHandle(handle->cuda_ipc_mem_handle, ptr));
         }
     }
 

From 3740762ccfe54edc147472c7c6af81196cfb1243 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 15:30:13 +0800
Subject: [PATCH 006/393] more

---
 csrc/deep_ep.cpp | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 90304b09..d1a299eb 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -23,7 +23,7 @@ namespace shared_memory {
         if (enable_fabric) {
             TODO;
         } else {
-            CUDA_CHECK(cudaIpcGetMemHandle(handle->cuda_ipc_mem_handle, ptr));
+            CUDA_CHECK(cudaIpcGetMemHandle(&handle->cuda_ipc_mem_handle, ptr));
         }
     }
 

From ad4aee8bfcaa3b6c02c0eda2ec5affb637574722 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 15:31:16 +0800
Subject: [PATCH 007/393] more

---
 csrc/deep_ep.cpp | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index d1a299eb..ab04202a 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -161,7 +161,8 @@ int Buffer::get_local_device_id() const {
 }
 
 pybind11::bytearray Buffer::get_local_ipc_handle() const {
-    return {ipc_handles[nvl_rank].reserved, CUDA_IPC_HANDLE_SIZE};
+    const shared_memory::MemHandle& handle = ipc_handles[nvl_rank];
+    return {reinterpret_cast<const char*>(&handle), sizeof(handle)};
 }
 
 pybind11::bytearray Buffer::get_local_nvshmem_unique_id() const {

From b5e4aad6597e7d3487718a05bfd74dac1c7e3687 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 15:33:05 +0800
Subject: [PATCH 008/393] more

---
 csrc/deep_ep.cpp | 9 ++++++++-
 1 file changed, 8 insertions(+), 1 deletion(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index ab04202a..3c8709a4 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -27,6 +27,13 @@ namespace shared_memory {
         }
     }
 
+    void open_mem_handle(bool enable_fabric, void** ptr, MemHandle* handle) {
+        if (enable_fabric) {
+            TODO;
+        } else {
+            CUDA_CHECK(cudaIpcOpenMemHandle(ptr, handle, cudaIpcMemLazyEnablePeerAccess));
+        }
+    }
 }
 
 namespace deep_ep {
@@ -198,7 +205,7 @@ void Buffer::sync(const std::vector<int> &device_ids,
             EP_HOST_ASSERT(handle_str.size() == CUDA_IPC_HANDLE_SIZE);
             if (offset + i != rank) {
                 std::memcpy(ipc_handles[i].reserved, handle_str.c_str(), CUDA_IPC_HANDLE_SIZE);
-                CUDA_CHECK(cudaIpcOpenMemHandle(&buffer_ptrs[i], ipc_handles[i], cudaIpcMemLazyEnablePeerAccess));
+                CUDA_CHECK(shared_memory::open_mem_handle(&buffer_ptrs[i], ipc_handles[i]));
                 barrier_signal_ptrs[i] = reinterpret_cast<int*>(static_cast<uint8_t*>(buffer_ptrs[i]) + num_nvl_bytes);
             } else {
                 EP_HOST_ASSERT(std::memcmp(ipc_handles[i].reserved, handle_str.c_str(), CUDA_IPC_HANDLE_SIZE) == 0);

From 240d0582533b6b0b3864f1a9835e2596bd9fc2cd Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 15:41:25 +0800
Subject: [PATCH 009/393] more

---
 csrc/deep_ep.cpp | 6 +++---
 csrc/deep_ep.hpp | 2 ++
 2 files changed, 5 insertions(+), 3 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 3c8709a4..7174e8a7 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -202,13 +202,13 @@ void Buffer::sync(const std::vector<int> &device_ids,
         for (int i = 0, offset = rdma_rank * num_nvl_ranks; i < num_nvl_ranks; ++ i) {
             EP_HOST_ASSERT(all_gathered_handles[offset + i].has_value());
             auto handle_str = std::string(all_gathered_handles[offset + i].value());
-            EP_HOST_ASSERT(handle_str.size() == CUDA_IPC_HANDLE_SIZE);
+            EP_HOST_ASSERT(handle_str.size() == shared_memory::HANDLE_SIZE);
             if (offset + i != rank) {
-                std::memcpy(ipc_handles[i].reserved, handle_str.c_str(), CUDA_IPC_HANDLE_SIZE);
+                std::memcpy(ipc_handles[i], handle_str.c_str(), shared_memory::HANDLE_SIZE);
                 CUDA_CHECK(shared_memory::open_mem_handle(&buffer_ptrs[i], ipc_handles[i]));
                 barrier_signal_ptrs[i] = reinterpret_cast<int*>(static_cast<uint8_t*>(buffer_ptrs[i]) + num_nvl_bytes);
             } else {
-                EP_HOST_ASSERT(std::memcmp(ipc_handles[i].reserved, handle_str.c_str(), CUDA_IPC_HANDLE_SIZE) == 0);
+                EP_HOST_ASSERT(std::memcmp(ipc_handles[i], handle_str.c_str(), shared_memory::HANDLE_SIZE) == 0);
             }
         }
 
diff --git a/csrc/deep_ep.hpp b/csrc/deep_ep.hpp
index 3c4284f0..dbb4df72 100644
--- a/csrc/deep_ep.hpp
+++ b/csrc/deep_ep.hpp
@@ -25,6 +25,8 @@ typedef union {
   cudaIpcMemHandle_t cuda_ipc_mem_handle;
   CUmemFabricHandle cu_mem_fabric_handle;
 } MemHandle;
+
+constexpr usize_t HANDLE_SIZE = sizeof(MemHandle);
 }
 
 namespace deep_ep {

From 5379d59f6889acdb2063df8177165c282348b4a1 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 15:41:58 +0800
Subject: [PATCH 010/393] more

---
 csrc/deep_ep.cpp | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 7174e8a7..9667961c 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -31,7 +31,7 @@ namespace shared_memory {
         if (enable_fabric) {
             TODO;
         } else {
-            CUDA_CHECK(cudaIpcOpenMemHandle(ptr, handle, cudaIpcMemLazyEnablePeerAccess));
+            CUDA_CHECK(cudaIpcOpenMemHandle(ptr, handle->cuda_ipc_mem_handle, cudaIpcMemLazyEnablePeerAccess));
         }
     }
 }

From 4fc8e79646295def0d90b49859c44154a3ccbda9 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 15:43:21 +0800
Subject: [PATCH 011/393] more

---
 csrc/deep_ep.cpp | 26 +++++++++++++++++++++-----
 1 file changed, 21 insertions(+), 5 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 9667961c..fa2e9def 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -19,6 +19,14 @@ namespace shared_memory {
         }
     }
 
+    void free(void* ptr) {
+        if (enable_fabric) {
+            TODO;
+        } else {
+            CUDA_CHECK(cudaFree(buffer_ptrs[nvl_rank]));
+        }
+    }
+
     void get_mem_handle(bool enable_fabric, MemHandle* handle, void* ptr) {
         if (enable_fabric) {
             TODO;
@@ -34,6 +42,14 @@ namespace shared_memory {
             CUDA_CHECK(cudaIpcOpenMemHandle(ptr, handle->cuda_ipc_mem_handle, cudaIpcMemLazyEnablePeerAccess));
         }
     }
+
+    void close_mem_handle(bool enable_fabric, void* ptr) {
+        if (enable_fabric) {
+            TODO;
+        } else {
+            CUDA_CHECK(cudaIpcCloseMemHandle(buffer_ptrs[i]));
+        }
+    }
 }
 
 namespace deep_ep {
@@ -71,8 +87,8 @@ Buffer::Buffer(int rank, int num_ranks, int64_t num_nvl_bytes, int64_t num_rdma_
 
     if (num_nvl_bytes > 0) {
         // Local IPC: alloc local memory and set local IPC handles
-        CUDA_CHECK(shared_memory::malloc(&buffer_ptrs[nvl_rank], num_nvl_bytes + barrier_signal_bytes + buffer_ptr_bytes + barrier_signal_ptr_bytes));
-        CUDA_CHECK(shared_memory::get_mem_handle(&ipc_handles[nvl_rank], buffer_ptrs[nvl_rank]));
+        shared_memory::malloc(&buffer_ptrs[nvl_rank], num_nvl_bytes + barrier_signal_bytes + buffer_ptr_bytes + barrier_signal_ptr_bytes);
+        shared_memory::get_mem_handle(&ipc_handles[nvl_rank], buffer_ptrs[nvl_rank]);
         buffer_ptrs_gpu = reinterpret_cast<void**>(static_cast<uint8_t*>(buffer_ptrs[nvl_rank]) + num_nvl_bytes + barrier_signal_bytes);
 
         // Set barrier signals
@@ -118,11 +134,11 @@ Buffer::~Buffer() noexcept(false) {
         // Close remote IPC
         if (is_available()) {
             for (int i = 0; i < num_nvl_ranks; ++ i) if (i != nvl_rank)
-                CUDA_CHECK(cudaIpcCloseMemHandle(buffer_ptrs[i]));
+                shared_memory::close_mem_handle(buffer_ptrs[i]);
         }
 
         // Free local buffer and error flag
-        CUDA_CHECK(cudaFree(buffer_ptrs[nvl_rank]));
+        shared_memory::free(buffer_ptrs[nvl_rank]));
     }
 
     // Free NVSHMEM
@@ -205,7 +221,7 @@ void Buffer::sync(const std::vector<int> &device_ids,
             EP_HOST_ASSERT(handle_str.size() == shared_memory::HANDLE_SIZE);
             if (offset + i != rank) {
                 std::memcpy(ipc_handles[i], handle_str.c_str(), shared_memory::HANDLE_SIZE);
-                CUDA_CHECK(shared_memory::open_mem_handle(&buffer_ptrs[i], ipc_handles[i]));
+                shared_memory::open_mem_handle(&buffer_ptrs[i], ipc_handles[i]);
                 barrier_signal_ptrs[i] = reinterpret_cast<int*>(static_cast<uint8_t*>(buffer_ptrs[i]) + num_nvl_bytes);
             } else {
                 EP_HOST_ASSERT(std::memcmp(ipc_handles[i], handle_str.c_str(), shared_memory::HANDLE_SIZE) == 0);

From 2e90afea36cbfe613f89fd7be34268d3e0c3ed2d Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 15:43:35 +0800
Subject: [PATCH 012/393] more

---
 csrc/deep_ep.cpp | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index fa2e9def..453993f2 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -47,7 +47,7 @@ namespace shared_memory {
         if (enable_fabric) {
             TODO;
         } else {
-            CUDA_CHECK(cudaIpcCloseMemHandle(buffer_ptrs[i]));
+            CUDA_CHECK(cudaIpcCloseMemHandle(ptr));
         }
     }
 }

From 3639a57cd511d4bb9539bc2aaef4938eaa0c6614 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 15:48:24 +0800
Subject: [PATCH 013/393] more

---
 csrc/deep_ep.cpp           | 35 ++++++++++++++++++++++++++++++++++-
 csrc/kernels/exception.cuh | 10 ++++++++++
 2 files changed, 44 insertions(+), 1 deletion(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 453993f2..40cfff62 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -13,7 +13,40 @@
 namespace shared_memory {
     void malloc(void** ptr, size_t size) {
         if (enable_fabric) {
-            TODO;
+            CUmemGenericAllocationHandle handle;
+
+            int cudaDev;
+            CUDA_CHECK(cudaGetDevice(&cudaDev));
+
+            CUdevice currentDev;
+            CU_CHECK(cuDeviceGet(&currentDev, cudaDev));
+
+            CUmemAllocationProp prop = {};
+            prop.type = CU_MEM_ALLOCATION_TYPE_PINNED;
+            prop.location.type = CU_MEM_LOCATION_TYPE_DEVICE;
+            prop.requestedHandleTypes = CU_MEM_HANDLE_TYPE_FABRIC;
+            prop.location.id = currentDev;
+
+            size_t granularity = 0;
+            CU_CHECK(cuMemGetAllocationGranularity(&granularity, &prop, CU_MEM_ALLOC_GRANULARITY_MINIMUM));
+
+            size = (size + granularity - 1) & ~(granularity - 1);
+            if (size == 0) size = granularity;
+
+            CU_CHECK(cuMemCreate(&handle, size, &prop, 0));
+            CU_CHECK(cuMemAddressReserve((CUdeviceptr *)ptr, size, granularity, 0, 0));
+            CU_CHECK(cuMemMap((CUdeviceptr)*ptr, size, 0, handle, 0));
+
+            int device_count;
+            CUDA_CHECK(cudaGetDeviceCount(&device_count));
+
+            CUmemAccessDesc accessDesc[device_count];
+            for (int idx = 0; idx < device_count; ++idx) {
+                accessDesc[idx].location.type = CU_MEM_LOCATION_TYPE_DEVICE;
+                accessDesc[idx].location.id = idx;
+                accessDesc[idx].flags = CU_MEM_ACCESS_FLAGS_PROT_READWRITE;
+            }
+            CU_CHECK(cuMemSetAccess((CUdeviceptr)ptr, size, accessDesc, device_count));
         } else {
             CUDA_CHECK(cudaMalloc(ptr, size));
         }
diff --git a/csrc/kernels/exception.cuh b/csrc/kernels/exception.cuh
index 7db0ddb7..9eeedadd 100644
--- a/csrc/kernels/exception.cuh
+++ b/csrc/kernels/exception.cuh
@@ -31,6 +31,16 @@ do { \
 } while (0)
 #endif
 
+#ifndef CU_CHECK
+#define CU_CHECK(cmd) \
+do { \
+    CUresult e = (cmd); \
+    if (e != CUDA_SUCCESS) { \
+        throw EPException("CUDA", __FILE__, __LINE__, std::string(e)); \
+    } \
+} while (0)
+#endif
+
 #ifndef EP_HOST_ASSERT
 #define EP_HOST_ASSERT(cond) \
 do { \

From 4ef8f05afb241c810ee064438f98ef1a5a38f400 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 15:48:38 +0800
Subject: [PATCH 014/393] more

---
 csrc/deep_ep.cpp | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 40cfff62..5fbf20ac 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -13,8 +13,6 @@
 namespace shared_memory {
     void malloc(void** ptr, size_t size) {
         if (enable_fabric) {
-            CUmemGenericAllocationHandle handle;
-
             int cudaDev;
             CUDA_CHECK(cudaGetDevice(&cudaDev));
 
@@ -33,6 +31,7 @@ namespace shared_memory {
             size = (size + granularity - 1) & ~(granularity - 1);
             if (size == 0) size = granularity;
 
+            CUmemGenericAllocationHandle handle;
             CU_CHECK(cuMemCreate(&handle, size, &prop, 0));
             CU_CHECK(cuMemAddressReserve((CUdeviceptr *)ptr, size, granularity, 0, 0));
             CU_CHECK(cuMemMap((CUdeviceptr)*ptr, size, 0, handle, 0));

From 047656e98affce1903a9987f5fa0d789d1323bc8 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 15:49:13 +0800
Subject: [PATCH 015/393] more

---
 csrc/deep_ep.cpp | 9 +++------
 1 file changed, 3 insertions(+), 6 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 5fbf20ac..50b67923 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -13,17 +13,14 @@
 namespace shared_memory {
     void malloc(void** ptr, size_t size) {
         if (enable_fabric) {
-            int cudaDev;
-            CUDA_CHECK(cudaGetDevice(&cudaDev));
-
-            CUdevice currentDev;
-            CU_CHECK(cuDeviceGet(&currentDev, cudaDev));
+            CUdevice device;
+            CURESULT_CHECK(cuCtxGetDevice(&device));
 
             CUmemAllocationProp prop = {};
             prop.type = CU_MEM_ALLOCATION_TYPE_PINNED;
             prop.location.type = CU_MEM_LOCATION_TYPE_DEVICE;
             prop.requestedHandleTypes = CU_MEM_HANDLE_TYPE_FABRIC;
-            prop.location.id = currentDev;
+            prop.location.id = device;
 
             size_t granularity = 0;
             CU_CHECK(cuMemGetAllocationGranularity(&granularity, &prop, CU_MEM_ALLOC_GRANULARITY_MINIMUM));

From c21f36dccdd7ce0061cc3f362f65312095d9620a Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 15:51:01 +0800
Subject: [PATCH 016/393] more

---
 csrc/deep_ep.cpp | 10 +++++++++-
 1 file changed, 9 insertions(+), 1 deletion(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 50b67923..cf5abd8f 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -50,7 +50,15 @@ namespace shared_memory {
 
     void free(void* ptr) {
         if (enable_fabric) {
-            TODO;
+            CUmemGenericAllocationHandle handle;
+            CU_CHECK(cuMemRetainAllocationHandle(&handle, ptr));
+
+            size_t size = 0;
+            CU_CHECK(cuMemGetAddressRange(NULL, &size, (CUdeviceptr)ptr));
+
+            CU_CHECK(cuMemUnmap((CUdeviceptr)ptr, size));
+            CU_CHECK(cuMemAddressFree((CUdeviceptr)ptr, size));
+            CU_CHECK(cuMemRelease(handle));
         } else {
             CUDA_CHECK(cudaFree(buffer_ptrs[nvl_rank]));
         }

From 7f3e4c088c268a700e928bf7a3edfd47f552d9c3 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 15:52:50 +0800
Subject: [PATCH 017/393] more

---
 csrc/deep_ep.cpp | 13 ++++++++-----
 1 file changed, 8 insertions(+), 5 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index cf5abd8f..0c7e63d4 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -64,19 +64,22 @@ namespace shared_memory {
         }
     }
 
-    void get_mem_handle(bool enable_fabric, MemHandle* handle, void* ptr) {
+    void get_mem_handle(bool enable_fabric, MemHandle* mem_handle, void* ptr) {
         if (enable_fabric) {
-            TODO;
+            CUmemGenericAllocationHandle handle;
+            CU_CHECK(cuMemRetainAllocationHandle(&handle, ptr));
+
+            CU_CHECK(cuMemExportToShareableHandle(&mem_handle->cu_mem_fabric_handle, handle, CU_MEM_HANDLE_TYPE_FABRIC, 0));
         } else {
-            CUDA_CHECK(cudaIpcGetMemHandle(&handle->cuda_ipc_mem_handle, ptr));
+            CUDA_CHECK(cudaIpcGetMemHandle(&mem_handle->cuda_ipc_mem_handle, ptr));
         }
     }
 
-    void open_mem_handle(bool enable_fabric, void** ptr, MemHandle* handle) {
+    void open_mem_handle(bool enable_fabric, void** ptr, MemHandle* mem_handle) {
         if (enable_fabric) {
             TODO;
         } else {
-            CUDA_CHECK(cudaIpcOpenMemHandle(ptr, handle->cuda_ipc_mem_handle, cudaIpcMemLazyEnablePeerAccess));
+            CUDA_CHECK(cudaIpcOpenMemHandle(ptr, mem_handle->cuda_ipc_mem_handle, cudaIpcMemLazyEnablePeerAccess));
         }
     }
 

From 92fb573703c5977c0c3af8adfd4f99d32aa927ba Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 15:54:01 +0800
Subject: [PATCH 018/393] more

---
 csrc/deep_ep.cpp | 19 ++++++++++++++++++-
 1 file changed, 18 insertions(+), 1 deletion(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 0c7e63d4..e4b1d5e7 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -77,7 +77,24 @@ namespace shared_memory {
 
     void open_mem_handle(bool enable_fabric, void** ptr, MemHandle* mem_handle) {
         if (enable_fabric) {
-            TODO;
+            CUmemFabricHandle export_handle;
+            memcpy(&export_handle, output_buffer.data(), sizeof(export_handle));
+            void *shm_addr = nullptr;
+            CUmemGenericAllocationHandle handle;
+            CU_CHECK(cuMemImportFromShareableHandle(&handle, &export_handle, CU_MEM_HANDLE_TYPE_FABRIC));
+            CU_CHECK(cuMemAddressReserve((CUdeviceptr *)&shm_addr, entry.length, 0, 0, 0));
+            CU_CHECK(cuMemMap((CUdeviceptr)shm_addr, entry.length, 0, handle, 0));
+
+            int device_count;
+            CUDA_CHECK(cudaGetDeviceCount(&device_count));
+
+            CUmemAccessDesc accessDesc[device_count];
+            for (int device_id = 0; device_id < device_count; ++device_id) {
+                accessDesc[device_id].location.type = CU_MEM_LOCATION_TYPE_DEVICE;
+                accessDesc[device_id].location.id = device_id;
+                accessDesc[device_id].flags = CU_MEM_ACCESS_FLAGS_PROT_READWRITE;
+            }
+            CU_CHECK(cuMemSetAccess((CUdeviceptr)shm_addr, entry.length, accessDesc, device_count));
         } else {
             CUDA_CHECK(cudaIpcOpenMemHandle(ptr, mem_handle->cuda_ipc_mem_handle, cudaIpcMemLazyEnablePeerAccess));
         }

From 29f86f3537cf363207b5968b5f1a0db0c1b11314 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 15:55:06 +0800
Subject: [PATCH 019/393] more

---
 csrc/deep_ep.cpp | 11 +++++------
 1 file changed, 5 insertions(+), 6 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index e4b1d5e7..dfbb103e 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -77,13 +77,12 @@ namespace shared_memory {
 
     void open_mem_handle(bool enable_fabric, void** ptr, MemHandle* mem_handle) {
         if (enable_fabric) {
-            CUmemFabricHandle export_handle;
-            memcpy(&export_handle, output_buffer.data(), sizeof(export_handle));
-            void *shm_addr = nullptr;
+            TODO_size;
+
             CUmemGenericAllocationHandle handle;
-            CU_CHECK(cuMemImportFromShareableHandle(&handle, &export_handle, CU_MEM_HANDLE_TYPE_FABRIC));
-            CU_CHECK(cuMemAddressReserve((CUdeviceptr *)&shm_addr, entry.length, 0, 0, 0));
-            CU_CHECK(cuMemMap((CUdeviceptr)shm_addr, entry.length, 0, handle, 0));
+            CU_CHECK(cuMemImportFromShareableHandle(&handle, &mem_handle->cu_mem_fabric_handle, CU_MEM_HANDLE_TYPE_FABRIC));
+            CU_CHECK(cuMemAddressReserve((CUdeviceptr *)ptr, size, 0, 0, 0));
+            CU_CHECK(cuMemMap((CUdeviceptr)*ptr, size, 0, handle, 0));
 
             int device_count;
             CUDA_CHECK(cudaGetDeviceCount(&device_count));

From 5557e70cb3562d31fd87c811d0c640e24aba6c18 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 15:56:07 +0800
Subject: [PATCH 020/393] more

---
 csrc/deep_ep.cpp | 33 ++++++++++++++++-----------------
 1 file changed, 16 insertions(+), 17 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index dfbb103e..6b530f4a 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -11,6 +11,20 @@
 #include "kernels/configs.cuh"
 
 namespace shared_memory {
+    void cu_mem_set_access_all(void* ptr, size_t size) {
+        int device_count;
+        CUDA_CHECK(cudaGetDeviceCount(&device_count));
+
+        CUmemAccessDesc accessDesc[device_count];
+        for (int idx = 0; idx < device_count; ++idx) {
+            accessDesc[idx].location.type = CU_MEM_LOCATION_TYPE_DEVICE;
+            accessDesc[idx].location.id = idx;
+            accessDesc[idx].flags = CU_MEM_ACCESS_FLAGS_PROT_READWRITE;
+        }
+
+        CU_CHECK(cuMemSetAccess((CUdeviceptr)ptr, size, accessDesc, device_count));
+    }
+
     void malloc(void** ptr, size_t size) {
         if (enable_fabric) {
             CUdevice device;
@@ -33,16 +47,7 @@ namespace shared_memory {
             CU_CHECK(cuMemAddressReserve((CUdeviceptr *)ptr, size, granularity, 0, 0));
             CU_CHECK(cuMemMap((CUdeviceptr)*ptr, size, 0, handle, 0));
 
-            int device_count;
-            CUDA_CHECK(cudaGetDeviceCount(&device_count));
-
-            CUmemAccessDesc accessDesc[device_count];
-            for (int idx = 0; idx < device_count; ++idx) {
-                accessDesc[idx].location.type = CU_MEM_LOCATION_TYPE_DEVICE;
-                accessDesc[idx].location.id = idx;
-                accessDesc[idx].flags = CU_MEM_ACCESS_FLAGS_PROT_READWRITE;
-            }
-            CU_CHECK(cuMemSetAccess((CUdeviceptr)ptr, size, accessDesc, device_count));
+            cu_mem_set_access_all(*ptr, size);
         } else {
             CUDA_CHECK(cudaMalloc(ptr, size));
         }
@@ -87,13 +92,7 @@ namespace shared_memory {
             int device_count;
             CUDA_CHECK(cudaGetDeviceCount(&device_count));
 
-            CUmemAccessDesc accessDesc[device_count];
-            for (int device_id = 0; device_id < device_count; ++device_id) {
-                accessDesc[device_id].location.type = CU_MEM_LOCATION_TYPE_DEVICE;
-                accessDesc[device_id].location.id = device_id;
-                accessDesc[device_id].flags = CU_MEM_ACCESS_FLAGS_PROT_READWRITE;
-            }
-            CU_CHECK(cuMemSetAccess((CUdeviceptr)shm_addr, entry.length, accessDesc, device_count));
+            cu_mem_set_access_all(*ptr, size);
         } else {
             CUDA_CHECK(cudaIpcOpenMemHandle(ptr, mem_handle->cuda_ipc_mem_handle, cudaIpcMemLazyEnablePeerAccess));
         }

From 9fd34e757bc5c35aee509a173d7d5d008a789d2b Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 15:57:53 +0800
Subject: [PATCH 021/393] more

---
 csrc/deep_ep.cpp | 1 +
 1 file changed, 1 insertion(+)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 6b530f4a..a994f918 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -86,6 +86,7 @@ namespace shared_memory {
 
             CUmemGenericAllocationHandle handle;
             CU_CHECK(cuMemImportFromShareableHandle(&handle, &mem_handle->cu_mem_fabric_handle, CU_MEM_HANDLE_TYPE_FABRIC));
+
             CU_CHECK(cuMemAddressReserve((CUdeviceptr *)ptr, size, 0, 0, 0));
             CU_CHECK(cuMemMap((CUdeviceptr)*ptr, size, 0, handle, 0));
 

From 64173931ff7887bd3b40dcca5100e83798348f3d Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 15:58:39 +0800
Subject: [PATCH 022/393] more

---
 csrc/deep_ep.cpp | 10 +++++++++-
 1 file changed, 9 insertions(+), 1 deletion(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index a994f918..bf576ded 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -101,7 +101,15 @@ namespace shared_memory {
 
     void close_mem_handle(bool enable_fabric, void* ptr) {
         if (enable_fabric) {
-            TODO;
+            CUmemGenericAllocationHandle handle;
+            CU_CHECK(cuMemRetainAllocationHandle(&handle, ptr));
+
+            size_t size = 0;
+            CU_CHECK(cuMemGetAddressRange(NULL, &size, (CUdeviceptr)ptr));
+
+            CU_CHECK(cuMemUnmap((CUdeviceptr)ptr, size));
+            CU_CHECK(cuMemAddressFree((CUdeviceptr)ptr, size));
+            CU_CHECK(cuMemRelease(handle));
         } else {
             CUDA_CHECK(cudaIpcCloseMemHandle(ptr));
         }

From faaeaadfdaf741f482eb5b3292782fe85c2feeb0 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 16:00:13 +0800
Subject: [PATCH 023/393] more

---
 csrc/deep_ep.cpp | 14 +++-----------
 1 file changed, 3 insertions(+), 11 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index bf576ded..ef4e940e 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -25,7 +25,7 @@ namespace shared_memory {
         CU_CHECK(cuMemSetAccess((CUdeviceptr)ptr, size, accessDesc, device_count));
     }
 
-    void malloc(void** ptr, size_t size) {
+    void malloc(bool enable_fabric, void** ptr, size_t size) {
         if (enable_fabric) {
             CUdevice device;
             CURESULT_CHECK(cuCtxGetDevice(&device));
@@ -53,7 +53,7 @@ namespace shared_memory {
         }
     }
 
-    void free(void* ptr) {
+    void free(bool enable_fabric, void* ptr) {
         if (enable_fabric) {
             CUmemGenericAllocationHandle handle;
             CU_CHECK(cuMemRetainAllocationHandle(&handle, ptr));
@@ -101,15 +101,7 @@ namespace shared_memory {
 
     void close_mem_handle(bool enable_fabric, void* ptr) {
         if (enable_fabric) {
-            CUmemGenericAllocationHandle handle;
-            CU_CHECK(cuMemRetainAllocationHandle(&handle, ptr));
-
-            size_t size = 0;
-            CU_CHECK(cuMemGetAddressRange(NULL, &size, (CUdeviceptr)ptr));
-
-            CU_CHECK(cuMemUnmap((CUdeviceptr)ptr, size));
-            CU_CHECK(cuMemAddressFree((CUdeviceptr)ptr, size));
-            CU_CHECK(cuMemRelease(handle));
+            free(true, ptr);
         } else {
             CUDA_CHECK(cudaIpcCloseMemHandle(ptr));
         }

From c38dbeddd903279cf6235c76e524e134ff250a59 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 16:00:53 +0800
Subject: [PATCH 024/393] more

---
 csrc/deep_ep.cpp | 26 +++++++++++++++-----------
 1 file changed, 15 insertions(+), 11 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index ef4e940e..e0d6e047 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -25,6 +25,18 @@ namespace shared_memory {
         CU_CHECK(cuMemSetAccess((CUdeviceptr)ptr, size, accessDesc, device_count));
     }
 
+    void cu_mem_free(void* ptr) {
+        CUmemGenericAllocationHandle handle;
+        CU_CHECK(cuMemRetainAllocationHandle(&handle, ptr));
+
+        size_t size = 0;
+        CU_CHECK(cuMemGetAddressRange(NULL, &size, (CUdeviceptr)ptr));
+
+        CU_CHECK(cuMemUnmap((CUdeviceptr)ptr, size));
+        CU_CHECK(cuMemAddressFree((CUdeviceptr)ptr, size));
+        CU_CHECK(cuMemRelease(handle));
+    }
+
     void malloc(bool enable_fabric, void** ptr, size_t size) {
         if (enable_fabric) {
             CUdevice device;
@@ -55,17 +67,9 @@ namespace shared_memory {
 
     void free(bool enable_fabric, void* ptr) {
         if (enable_fabric) {
-            CUmemGenericAllocationHandle handle;
-            CU_CHECK(cuMemRetainAllocationHandle(&handle, ptr));
-
-            size_t size = 0;
-            CU_CHECK(cuMemGetAddressRange(NULL, &size, (CUdeviceptr)ptr));
-
-            CU_CHECK(cuMemUnmap((CUdeviceptr)ptr, size));
-            CU_CHECK(cuMemAddressFree((CUdeviceptr)ptr, size));
-            CU_CHECK(cuMemRelease(handle));
+            cu_mem_free(ptr);
         } else {
-            CUDA_CHECK(cudaFree(buffer_ptrs[nvl_rank]));
+            CUDA_CHECK(cudaFree(ptr));
         }
     }
 
@@ -101,7 +105,7 @@ namespace shared_memory {
 
     void close_mem_handle(bool enable_fabric, void* ptr) {
         if (enable_fabric) {
-            free(true, ptr);
+            cu_mem_free(ptr);
         } else {
             CUDA_CHECK(cudaIpcCloseMemHandle(ptr));
         }

From dc74c0a9f3428c52201ad14bcbbcd64e304d8669 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 16:01:24 +0800
Subject: [PATCH 025/393] more

---
 csrc/deep_ep.cpp | 6 +-----
 1 file changed, 1 insertion(+), 5 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index e0d6e047..a48a7e15 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -56,9 +56,9 @@ namespace shared_memory {
 
             CUmemGenericAllocationHandle handle;
             CU_CHECK(cuMemCreate(&handle, size, &prop, 0));
+
             CU_CHECK(cuMemAddressReserve((CUdeviceptr *)ptr, size, granularity, 0, 0));
             CU_CHECK(cuMemMap((CUdeviceptr)*ptr, size, 0, handle, 0));
-
             cu_mem_set_access_all(*ptr, size);
         } else {
             CUDA_CHECK(cudaMalloc(ptr, size));
@@ -93,10 +93,6 @@ namespace shared_memory {
 
             CU_CHECK(cuMemAddressReserve((CUdeviceptr *)ptr, size, 0, 0, 0));
             CU_CHECK(cuMemMap((CUdeviceptr)*ptr, size, 0, handle, 0));
-
-            int device_count;
-            CUDA_CHECK(cudaGetDeviceCount(&device_count));
-
             cu_mem_set_access_all(*ptr, size);
         } else {
             CUDA_CHECK(cudaIpcOpenMemHandle(ptr, mem_handle->cuda_ipc_mem_handle, cudaIpcMemLazyEnablePeerAccess));

From 61dea30b60ac87409148213a96e3bce0d5c2ab26 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 16:06:00 +0800
Subject: [PATCH 026/393] more

---
 csrc/deep_ep.cpp | 12 +++++++-----
 csrc/deep_ep.hpp | 10 ++++++++--
 2 files changed, 15 insertions(+), 7 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index a48a7e15..54b3a941 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -74,28 +74,30 @@ namespace shared_memory {
     }
 
     void get_mem_handle(bool enable_fabric, MemHandle* mem_handle, void* ptr) {
+        mem_handle->size = TODO;
+
         if (enable_fabric) {
             CUmemGenericAllocationHandle handle;
             CU_CHECK(cuMemRetainAllocationHandle(&handle, ptr));
 
-            CU_CHECK(cuMemExportToShareableHandle(&mem_handle->cu_mem_fabric_handle, handle, CU_MEM_HANDLE_TYPE_FABRIC, 0));
+            CU_CHECK(cuMemExportToShareableHandle(&mem_handle->inner.cu_mem_fabric_handle, handle, CU_MEM_HANDLE_TYPE_FABRIC, 0));
         } else {
-            CUDA_CHECK(cudaIpcGetMemHandle(&mem_handle->cuda_ipc_mem_handle, ptr));
+            CUDA_CHECK(cudaIpcGetMemHandle(&mem_handle->inner.cuda_ipc_mem_handle, ptr));
         }
     }
 
     void open_mem_handle(bool enable_fabric, void** ptr, MemHandle* mem_handle) {
         if (enable_fabric) {
-            TODO_size;
+            size_t size = mem_handle->size;
 
             CUmemGenericAllocationHandle handle;
-            CU_CHECK(cuMemImportFromShareableHandle(&handle, &mem_handle->cu_mem_fabric_handle, CU_MEM_HANDLE_TYPE_FABRIC));
+            CU_CHECK(cuMemImportFromShareableHandle(&handle, &mem_handle->inner.cu_mem_fabric_handle, CU_MEM_HANDLE_TYPE_FABRIC));
 
             CU_CHECK(cuMemAddressReserve((CUdeviceptr *)ptr, size, 0, 0, 0));
             CU_CHECK(cuMemMap((CUdeviceptr)*ptr, size, 0, handle, 0));
             cu_mem_set_access_all(*ptr, size);
         } else {
-            CUDA_CHECK(cudaIpcOpenMemHandle(ptr, mem_handle->cuda_ipc_mem_handle, cudaIpcMemLazyEnablePeerAccess));
+            CUDA_CHECK(cudaIpcOpenMemHandle(ptr, mem_handle->inner.cuda_ipc_mem_handle, cudaIpcMemLazyEnablePeerAccess));
         }
     }
 
diff --git a/csrc/deep_ep.hpp b/csrc/deep_ep.hpp
index dbb4df72..1a015f5a 100644
--- a/csrc/deep_ep.hpp
+++ b/csrc/deep_ep.hpp
@@ -21,10 +21,16 @@
 #endif
 
 namespace shared_memory {
-typedef union {
+
+union MemHandleInner {
   cudaIpcMemHandle_t cuda_ipc_mem_handle;
   CUmemFabricHandle cu_mem_fabric_handle;
-} MemHandle;
+};
+
+struct MemHandle {
+    MemHandleInner inner;
+    size_t size;
+};
 
 constexpr usize_t HANDLE_SIZE = sizeof(MemHandle);
 }

From 7d4bc93e2d204cc1f16c10a1b67e594e8cb65491 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 16:07:00 +0800
Subject: [PATCH 027/393] more

---
 csrc/deep_ep.cpp | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 54b3a941..cf350ce3 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -74,7 +74,10 @@ namespace shared_memory {
     }
 
     void get_mem_handle(bool enable_fabric, MemHandle* mem_handle, void* ptr) {
-        mem_handle->size = TODO;
+        size_t size = 0;
+        CU_CHECK(cuMemGetAddressRange(NULL, &size, (CUdeviceptr)ptr));
+
+        mem_handle->size = size;
 
         if (enable_fabric) {
             CUmemGenericAllocationHandle handle;

From 5b78f2243341a6bd314bfd98faefdf8cbad3e31e Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 16:07:18 +0800
Subject: [PATCH 028/393] more

---
 csrc/deep_ep.cpp | 10 +++++-----
 1 file changed, 5 insertions(+), 5 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index cf350ce3..a16583b8 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -15,14 +15,14 @@ namespace shared_memory {
         int device_count;
         CUDA_CHECK(cudaGetDeviceCount(&device_count));
 
-        CUmemAccessDesc accessDesc[device_count];
+        CUmemAccessDesc access_desc[device_count];
         for (int idx = 0; idx < device_count; ++idx) {
-            accessDesc[idx].location.type = CU_MEM_LOCATION_TYPE_DEVICE;
-            accessDesc[idx].location.id = idx;
-            accessDesc[idx].flags = CU_MEM_ACCESS_FLAGS_PROT_READWRITE;
+            access_desc[idx].location.type = CU_MEM_LOCATION_TYPE_DEVICE;
+            access_desc[idx].location.id = idx;
+            access_desc[idx].flags = CU_MEM_ACCESS_FLAGS_PROT_READWRITE;
         }
 
-        CU_CHECK(cuMemSetAccess((CUdeviceptr)ptr, size, accessDesc, device_count));
+        CU_CHECK(cuMemSetAccess((CUdeviceptr)ptr, size, access_desc, device_count));
     }
 
     void cu_mem_free(void* ptr) {

From 75351cd380ba45cff664683ee3312740a01968ad Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 16:08:34 +0800
Subject: [PATCH 029/393] more

---
 csrc/deep_ep.cpp | 19 ++++++++++++-------
 1 file changed, 12 insertions(+), 7 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index a16583b8..991c94b0 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -37,7 +37,16 @@ namespace shared_memory {
         CU_CHECK(cuMemRelease(handle));
     }
 
-    void malloc(bool enable_fabric, void** ptr, size_t size) {
+    void get_size_align_to_granularity(size_t size_raw) {
+        size_t granularity = 0;
+        CU_CHECK(cuMemGetAllocationGranularity(&granularity, &prop, CU_MEM_ALLOC_GRANULARITY_MINIMUM));
+
+        size_t size = (size_raw + granularity - 1) & ~(granularity - 1);
+        if (size == 0) size = granularity;
+        return size;
+    }
+
+    void malloc(bool enable_fabric, void** ptr, size_t size_raw) {
         if (enable_fabric) {
             CUdevice device;
             CURESULT_CHECK(cuCtxGetDevice(&device));
@@ -47,12 +56,8 @@ namespace shared_memory {
             prop.location.type = CU_MEM_LOCATION_TYPE_DEVICE;
             prop.requestedHandleTypes = CU_MEM_HANDLE_TYPE_FABRIC;
             prop.location.id = device;
-
-            size_t granularity = 0;
-            CU_CHECK(cuMemGetAllocationGranularity(&granularity, &prop, CU_MEM_ALLOC_GRANULARITY_MINIMUM));
-
-            size = (size + granularity - 1) & ~(granularity - 1);
-            if (size == 0) size = granularity;
+            
+            size_t size = get_size_align_to_granularity(size_raw);
 
             CUmemGenericAllocationHandle handle;
             CU_CHECK(cuMemCreate(&handle, size, &prop, 0));

From 7bb12d4e66569af1f8d0a6c37840e139cd8570b0 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 16:08:49 +0800
Subject: [PATCH 030/393] more

---
 csrc/deep_ep.cpp | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 991c94b0..fe099af2 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -37,7 +37,7 @@ namespace shared_memory {
         CU_CHECK(cuMemRelease(handle));
     }
 
-    void get_size_align_to_granularity(size_t size_raw) {
+    void get_size_align_to_granularity(size_t size_raw, CUmemAllocationProp& prop) {
         size_t granularity = 0;
         CU_CHECK(cuMemGetAllocationGranularity(&granularity, &prop, CU_MEM_ALLOC_GRANULARITY_MINIMUM));
 
@@ -57,7 +57,7 @@ namespace shared_memory {
             prop.requestedHandleTypes = CU_MEM_HANDLE_TYPE_FABRIC;
             prop.location.id = device;
             
-            size_t size = get_size_align_to_granularity(size_raw);
+            size_t size = get_size_align_to_granularity(size_raw, prop);
 
             CUmemGenericAllocationHandle handle;
             CU_CHECK(cuMemCreate(&handle, size, &prop, 0));

From 0e5a15509dceb76f82feea6aac775111cc28b4c5 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 16:11:56 +0800
Subject: [PATCH 031/393] more

---
 csrc/deep_ep.cpp | 17 ++++++++++++++++-
 1 file changed, 16 insertions(+), 1 deletion(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index fe099af2..42537a2a 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -46,6 +46,21 @@ namespace shared_memory {
         return size;
     }
 
+    bool support_fabric() {
+        int device_count;
+        CUDA_CHECK(cudaGetDeviceCount(&device_count));
+
+        for (int device = 0; device < device_count; ++device) {
+            int support = 0;
+            CU_CHECK(cuDeviceGetAttribute(&support, CU_DEVICE_ATTRIBUTE_HANDLE_TYPE_FABRIC_SUPPORTED, device));
+            if (!support) {
+                return false;
+            }
+        }
+
+        return true;
+    }
+
     void malloc(bool enable_fabric, void** ptr, size_t size_raw) {
         if (enable_fabric) {
             CUdevice device;
@@ -56,7 +71,7 @@ namespace shared_memory {
             prop.location.type = CU_MEM_LOCATION_TYPE_DEVICE;
             prop.requestedHandleTypes = CU_MEM_HANDLE_TYPE_FABRIC;
             prop.location.id = device;
-            
+
             size_t size = get_size_align_to_granularity(size_raw, prop);
 
             CUmemGenericAllocationHandle handle;

From 87b398034dee42cde66fa362e70f992f2ca08ffa Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 16:13:52 +0800
Subject: [PATCH 032/393] more

---
 csrc/deep_ep.cpp | 10 +++++-----
 csrc/deep_ep.hpp |  5 +++++
 2 files changed, 10 insertions(+), 5 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 42537a2a..0b2cbbe1 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -61,7 +61,7 @@ namespace shared_memory {
         return true;
     }
 
-    void malloc(bool enable_fabric, void** ptr, size_t size_raw) {
+    void malloc(void** ptr, size_t size_raw) {
         if (enable_fabric) {
             CUdevice device;
             CURESULT_CHECK(cuCtxGetDevice(&device));
@@ -85,7 +85,7 @@ namespace shared_memory {
         }
     }
 
-    void free(bool enable_fabric, void* ptr) {
+    void free(void* ptr) {
         if (enable_fabric) {
             cu_mem_free(ptr);
         } else {
@@ -93,7 +93,7 @@ namespace shared_memory {
         }
     }
 
-    void get_mem_handle(bool enable_fabric, MemHandle* mem_handle, void* ptr) {
+    void get_mem_handle(MemHandle* mem_handle, void* ptr) {
         size_t size = 0;
         CU_CHECK(cuMemGetAddressRange(NULL, &size, (CUdeviceptr)ptr));
 
@@ -109,7 +109,7 @@ namespace shared_memory {
         }
     }
 
-    void open_mem_handle(bool enable_fabric, void** ptr, MemHandle* mem_handle) {
+    void open_mem_handle(void** ptr, MemHandle* mem_handle) {
         if (enable_fabric) {
             size_t size = mem_handle->size;
 
@@ -124,7 +124,7 @@ namespace shared_memory {
         }
     }
 
-    void close_mem_handle(bool enable_fabric, void* ptr) {
+    void close_mem_handle(void* ptr) {
         if (enable_fabric) {
             cu_mem_free(ptr);
         } else {
diff --git a/csrc/deep_ep.hpp b/csrc/deep_ep.hpp
index 1a015f5a..017c465a 100644
--- a/csrc/deep_ep.hpp
+++ b/csrc/deep_ep.hpp
@@ -33,6 +33,11 @@ struct MemHandle {
 };
 
 constexpr usize_t HANDLE_SIZE = sizeof(MemHandle);
+
+class SharedMemoryAllocator {
+private:
+    bool enable_fabric;
+};
 }
 
 namespace deep_ep {

From 4398b5ce9737b0f2e2d92f9897a981f5567e5a6d Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 16:14:21 +0800
Subject: [PATCH 033/393] more

---
 csrc/deep_ep.cpp | 189 ++++++++++++++++++++++++-----------------------
 csrc/deep_ep.hpp |   4 -
 2 files changed, 98 insertions(+), 95 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 0b2cbbe1..bae8a622 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -11,127 +11,134 @@
 #include "kernels/configs.cuh"
 
 namespace shared_memory {
-    void cu_mem_set_access_all(void* ptr, size_t size) {
-        int device_count;
-        CUDA_CHECK(cudaGetDeviceCount(&device_count));
-
-        CUmemAccessDesc access_desc[device_count];
-        for (int idx = 0; idx < device_count; ++idx) {
-            access_desc[idx].location.type = CU_MEM_LOCATION_TYPE_DEVICE;
-            access_desc[idx].location.id = idx;
-            access_desc[idx].flags = CU_MEM_ACCESS_FLAGS_PROT_READWRITE;
-        }
-
-        CU_CHECK(cuMemSetAccess((CUdeviceptr)ptr, size, access_desc, device_count));
+void cu_mem_set_access_all(void* ptr, size_t size) {
+    int device_count;
+    CUDA_CHECK(cudaGetDeviceCount(&device_count));
+
+    CUmemAccessDesc access_desc[device_count];
+    for (int idx = 0; idx < device_count; ++idx) {
+        access_desc[idx].location.type = CU_MEM_LOCATION_TYPE_DEVICE;
+        access_desc[idx].location.id = idx;
+        access_desc[idx].flags = CU_MEM_ACCESS_FLAGS_PROT_READWRITE;
     }
 
-    void cu_mem_free(void* ptr) {
-        CUmemGenericAllocationHandle handle;
-        CU_CHECK(cuMemRetainAllocationHandle(&handle, ptr));
+    CU_CHECK(cuMemSetAccess((CUdeviceptr)ptr, size, access_desc, device_count));
+}
 
-        size_t size = 0;
-        CU_CHECK(cuMemGetAddressRange(NULL, &size, (CUdeviceptr)ptr));
+void cu_mem_free(void* ptr) {
+    CUmemGenericAllocationHandle handle;
+    CU_CHECK(cuMemRetainAllocationHandle(&handle, ptr));
 
-        CU_CHECK(cuMemUnmap((CUdeviceptr)ptr, size));
-        CU_CHECK(cuMemAddressFree((CUdeviceptr)ptr, size));
-        CU_CHECK(cuMemRelease(handle));
-    }
+    size_t size = 0;
+    CU_CHECK(cuMemGetAddressRange(NULL, &size, (CUdeviceptr)ptr));
 
-    void get_size_align_to_granularity(size_t size_raw, CUmemAllocationProp& prop) {
-        size_t granularity = 0;
-        CU_CHECK(cuMemGetAllocationGranularity(&granularity, &prop, CU_MEM_ALLOC_GRANULARITY_MINIMUM));
+    CU_CHECK(cuMemUnmap((CUdeviceptr)ptr, size));
+    CU_CHECK(cuMemAddressFree((CUdeviceptr)ptr, size));
+    CU_CHECK(cuMemRelease(handle));
+}
 
-        size_t size = (size_raw + granularity - 1) & ~(granularity - 1);
-        if (size == 0) size = granularity;
-        return size;
-    }
+void get_size_align_to_granularity(size_t size_raw, CUmemAllocationProp& prop) {
+    size_t granularity = 0;
+    CU_CHECK(cuMemGetAllocationGranularity(&granularity, &prop, CU_MEM_ALLOC_GRANULARITY_MINIMUM));
 
-    bool support_fabric() {
-        int device_count;
-        CUDA_CHECK(cudaGetDeviceCount(&device_count));
+    size_t size = (size_raw + granularity - 1) & ~(granularity - 1);
+    if (size == 0) size = granularity;
+    return size;
+}
 
-        for (int device = 0; device < device_count; ++device) {
-            int support = 0;
-            CU_CHECK(cuDeviceGetAttribute(&support, CU_DEVICE_ATTRIBUTE_HANDLE_TYPE_FABRIC_SUPPORTED, device));
-            if (!support) {
-                return false;
-            }
-        }
+bool support_fabric() {
+    int device_count;
+    CUDA_CHECK(cudaGetDeviceCount(&device_count));
 
-        return true;
+    for (int device = 0; device < device_count; ++device) {
+        int support = 0;
+        CU_CHECK(cuDeviceGetAttribute(&support, CU_DEVICE_ATTRIBUTE_HANDLE_TYPE_FABRIC_SUPPORTED, device));
+        if (!support) {
+            return false;
+        }
     }
 
-    void malloc(void** ptr, size_t size_raw) {
-        if (enable_fabric) {
-            CUdevice device;
-            CURESULT_CHECK(cuCtxGetDevice(&device));
+    return true;
+}
 
-            CUmemAllocationProp prop = {};
-            prop.type = CU_MEM_ALLOCATION_TYPE_PINNED;
-            prop.location.type = CU_MEM_LOCATION_TYPE_DEVICE;
-            prop.requestedHandleTypes = CU_MEM_HANDLE_TYPE_FABRIC;
-            prop.location.id = device;
+class SharedMemoryAllocator {
+public:
+    void malloc(void** ptr, size_t size_raw);
+private:
+    bool enable_fabric;
+};
 
-            size_t size = get_size_align_to_granularity(size_raw, prop);
+void malloc(void** ptr, size_t size_raw) {
+    if (enable_fabric) {
+        CUdevice device;
+        CURESULT_CHECK(cuCtxGetDevice(&device));
 
-            CUmemGenericAllocationHandle handle;
-            CU_CHECK(cuMemCreate(&handle, size, &prop, 0));
+        CUmemAllocationProp prop = {};
+        prop.type = CU_MEM_ALLOCATION_TYPE_PINNED;
+        prop.location.type = CU_MEM_LOCATION_TYPE_DEVICE;
+        prop.requestedHandleTypes = CU_MEM_HANDLE_TYPE_FABRIC;
+        prop.location.id = device;
 
-            CU_CHECK(cuMemAddressReserve((CUdeviceptr *)ptr, size, granularity, 0, 0));
-            CU_CHECK(cuMemMap((CUdeviceptr)*ptr, size, 0, handle, 0));
-            cu_mem_set_access_all(*ptr, size);
-        } else {
-            CUDA_CHECK(cudaMalloc(ptr, size));
-        }
+        size_t size = get_size_align_to_granularity(size_raw, prop);
+
+        CUmemGenericAllocationHandle handle;
+        CU_CHECK(cuMemCreate(&handle, size, &prop, 0));
+
+        CU_CHECK(cuMemAddressReserve((CUdeviceptr *)ptr, size, granularity, 0, 0));
+        CU_CHECK(cuMemMap((CUdeviceptr)*ptr, size, 0, handle, 0));
+        cu_mem_set_access_all(*ptr, size);
+    } else {
+        CUDA_CHECK(cudaMalloc(ptr, size));
     }
+}
 
-    void free(void* ptr) {
-        if (enable_fabric) {
-            cu_mem_free(ptr);
-        } else {
-            CUDA_CHECK(cudaFree(ptr));
-        }
+void free(void* ptr) {
+    if (enable_fabric) {
+        cu_mem_free(ptr);
+    } else {
+        CUDA_CHECK(cudaFree(ptr));
     }
+}
 
-    void get_mem_handle(MemHandle* mem_handle, void* ptr) {
-        size_t size = 0;
-        CU_CHECK(cuMemGetAddressRange(NULL, &size, (CUdeviceptr)ptr));
+void get_mem_handle(MemHandle* mem_handle, void* ptr) {
+    size_t size = 0;
+    CU_CHECK(cuMemGetAddressRange(NULL, &size, (CUdeviceptr)ptr));
 
-        mem_handle->size = size;
+    mem_handle->size = size;
 
-        if (enable_fabric) {
-            CUmemGenericAllocationHandle handle;
-            CU_CHECK(cuMemRetainAllocationHandle(&handle, ptr));
+    if (enable_fabric) {
+        CUmemGenericAllocationHandle handle;
+        CU_CHECK(cuMemRetainAllocationHandle(&handle, ptr));
 
-            CU_CHECK(cuMemExportToShareableHandle(&mem_handle->inner.cu_mem_fabric_handle, handle, CU_MEM_HANDLE_TYPE_FABRIC, 0));
-        } else {
-            CUDA_CHECK(cudaIpcGetMemHandle(&mem_handle->inner.cuda_ipc_mem_handle, ptr));
-        }
+        CU_CHECK(cuMemExportToShareableHandle(&mem_handle->inner.cu_mem_fabric_handle, handle, CU_MEM_HANDLE_TYPE_FABRIC, 0));
+    } else {
+        CUDA_CHECK(cudaIpcGetMemHandle(&mem_handle->inner.cuda_ipc_mem_handle, ptr));
     }
+}
 
-    void open_mem_handle(void** ptr, MemHandle* mem_handle) {
-        if (enable_fabric) {
-            size_t size = mem_handle->size;
+void open_mem_handle(void** ptr, MemHandle* mem_handle) {
+    if (enable_fabric) {
+        size_t size = mem_handle->size;
 
-            CUmemGenericAllocationHandle handle;
-            CU_CHECK(cuMemImportFromShareableHandle(&handle, &mem_handle->inner.cu_mem_fabric_handle, CU_MEM_HANDLE_TYPE_FABRIC));
+        CUmemGenericAllocationHandle handle;
+        CU_CHECK(cuMemImportFromShareableHandle(&handle, &mem_handle->inner.cu_mem_fabric_handle, CU_MEM_HANDLE_TYPE_FABRIC));
 
-            CU_CHECK(cuMemAddressReserve((CUdeviceptr *)ptr, size, 0, 0, 0));
-            CU_CHECK(cuMemMap((CUdeviceptr)*ptr, size, 0, handle, 0));
-            cu_mem_set_access_all(*ptr, size);
-        } else {
-            CUDA_CHECK(cudaIpcOpenMemHandle(ptr, mem_handle->inner.cuda_ipc_mem_handle, cudaIpcMemLazyEnablePeerAccess));
-        }
+        CU_CHECK(cuMemAddressReserve((CUdeviceptr *)ptr, size, 0, 0, 0));
+        CU_CHECK(cuMemMap((CUdeviceptr)*ptr, size, 0, handle, 0));
+        cu_mem_set_access_all(*ptr, size);
+    } else {
+        CUDA_CHECK(cudaIpcOpenMemHandle(ptr, mem_handle->inner.cuda_ipc_mem_handle, cudaIpcMemLazyEnablePeerAccess));
     }
+}
 
-    void close_mem_handle(void* ptr) {
-        if (enable_fabric) {
-            cu_mem_free(ptr);
-        } else {
-            CUDA_CHECK(cudaIpcCloseMemHandle(ptr));
-        }
+void close_mem_handle(void* ptr) {
+    if (enable_fabric) {
+        cu_mem_free(ptr);
+    } else {
+        CUDA_CHECK(cudaIpcCloseMemHandle(ptr));
     }
 }
+}
 
 namespace deep_ep {
 
diff --git a/csrc/deep_ep.hpp b/csrc/deep_ep.hpp
index 017c465a..14bbaf7a 100644
--- a/csrc/deep_ep.hpp
+++ b/csrc/deep_ep.hpp
@@ -34,10 +34,6 @@ struct MemHandle {
 
 constexpr usize_t HANDLE_SIZE = sizeof(MemHandle);
 
-class SharedMemoryAllocator {
-private:
-    bool enable_fabric;
-};
 }
 
 namespace deep_ep {

From d7e9ce380c689a5ca42de187a6cdf6633fdf5d5a Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 16:16:08 +0800
Subject: [PATCH 034/393] more

---
 csrc/deep_ep.cpp | 189 +++++++++++++++++++++++------------------------
 csrc/deep_ep.hpp |  10 +++
 2 files changed, 101 insertions(+), 98 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index bae8a622..a2650617 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -11,134 +11,127 @@
 #include "kernels/configs.cuh"
 
 namespace shared_memory {
-void cu_mem_set_access_all(void* ptr, size_t size) {
-    int device_count;
-    CUDA_CHECK(cudaGetDeviceCount(&device_count));
-
-    CUmemAccessDesc access_desc[device_count];
-    for (int idx = 0; idx < device_count; ++idx) {
-        access_desc[idx].location.type = CU_MEM_LOCATION_TYPE_DEVICE;
-        access_desc[idx].location.id = idx;
-        access_desc[idx].flags = CU_MEM_ACCESS_FLAGS_PROT_READWRITE;
-    }
+    void cu_mem_set_access_all(void* ptr, size_t size) {
+        int device_count;
+        CUDA_CHECK(cudaGetDeviceCount(&device_count));
+
+        CUmemAccessDesc access_desc[device_count];
+        for (int idx = 0; idx < device_count; ++idx) {
+            access_desc[idx].location.type = CU_MEM_LOCATION_TYPE_DEVICE;
+            access_desc[idx].location.id = idx;
+            access_desc[idx].flags = CU_MEM_ACCESS_FLAGS_PROT_READWRITE;
+        }
 
-    CU_CHECK(cuMemSetAccess((CUdeviceptr)ptr, size, access_desc, device_count));
-}
+        CU_CHECK(cuMemSetAccess((CUdeviceptr)ptr, size, access_desc, device_count));
+    }
 
-void cu_mem_free(void* ptr) {
-    CUmemGenericAllocationHandle handle;
-    CU_CHECK(cuMemRetainAllocationHandle(&handle, ptr));
+    void cu_mem_free(void* ptr) {
+        CUmemGenericAllocationHandle handle;
+        CU_CHECK(cuMemRetainAllocationHandle(&handle, ptr));
 
-    size_t size = 0;
-    CU_CHECK(cuMemGetAddressRange(NULL, &size, (CUdeviceptr)ptr));
+        size_t size = 0;
+        CU_CHECK(cuMemGetAddressRange(NULL, &size, (CUdeviceptr)ptr));
 
-    CU_CHECK(cuMemUnmap((CUdeviceptr)ptr, size));
-    CU_CHECK(cuMemAddressFree((CUdeviceptr)ptr, size));
-    CU_CHECK(cuMemRelease(handle));
-}
+        CU_CHECK(cuMemUnmap((CUdeviceptr)ptr, size));
+        CU_CHECK(cuMemAddressFree((CUdeviceptr)ptr, size));
+        CU_CHECK(cuMemRelease(handle));
+    }
 
-void get_size_align_to_granularity(size_t size_raw, CUmemAllocationProp& prop) {
-    size_t granularity = 0;
-    CU_CHECK(cuMemGetAllocationGranularity(&granularity, &prop, CU_MEM_ALLOC_GRANULARITY_MINIMUM));
+    void get_size_align_to_granularity(size_t size_raw, CUmemAllocationProp& prop) {
+        size_t granularity = 0;
+        CU_CHECK(cuMemGetAllocationGranularity(&granularity, &prop, CU_MEM_ALLOC_GRANULARITY_MINIMUM));
 
-    size_t size = (size_raw + granularity - 1) & ~(granularity - 1);
-    if (size == 0) size = granularity;
-    return size;
-}
+        size_t size = (size_raw + granularity - 1) & ~(granularity - 1);
+        if (size == 0) size = granularity;
+        return size;
+    }
 
-bool support_fabric() {
-    int device_count;
-    CUDA_CHECK(cudaGetDeviceCount(&device_count));
+    bool support_fabric() {
+        int device_count;
+        CUDA_CHECK(cudaGetDeviceCount(&device_count));
 
-    for (int device = 0; device < device_count; ++device) {
-        int support = 0;
-        CU_CHECK(cuDeviceGetAttribute(&support, CU_DEVICE_ATTRIBUTE_HANDLE_TYPE_FABRIC_SUPPORTED, device));
-        if (!support) {
-            return false;
+        for (int device = 0; device < device_count; ++device) {
+            int support = 0;
+            CU_CHECK(cuDeviceGetAttribute(&support, CU_DEVICE_ATTRIBUTE_HANDLE_TYPE_FABRIC_SUPPORTED, device));
+            if (!support) {
+                return false;
+            }
         }
-    }
-
-    return true;
-}
 
-class SharedMemoryAllocator {
-public:
-    void malloc(void** ptr, size_t size_raw);
-private:
-    bool enable_fabric;
-};
+        return true;
+    }
 
-void malloc(void** ptr, size_t size_raw) {
-    if (enable_fabric) {
-        CUdevice device;
-        CURESULT_CHECK(cuCtxGetDevice(&device));
+    void SharedMemoryAllocator::malloc(void** ptr, size_t size_raw) {
+        if (enable_fabric) {
+            CUdevice device;
+            CURESULT_CHECK(cuCtxGetDevice(&device));
 
-        CUmemAllocationProp prop = {};
-        prop.type = CU_MEM_ALLOCATION_TYPE_PINNED;
-        prop.location.type = CU_MEM_LOCATION_TYPE_DEVICE;
-        prop.requestedHandleTypes = CU_MEM_HANDLE_TYPE_FABRIC;
-        prop.location.id = device;
+            CUmemAllocationProp prop = {};
+            prop.type = CU_MEM_ALLOCATION_TYPE_PINNED;
+            prop.location.type = CU_MEM_LOCATION_TYPE_DEVICE;
+            prop.requestedHandleTypes = CU_MEM_HANDLE_TYPE_FABRIC;
+            prop.location.id = device;
 
-        size_t size = get_size_align_to_granularity(size_raw, prop);
+            size_t size = get_size_align_to_granularity(size_raw, prop);
 
-        CUmemGenericAllocationHandle handle;
-        CU_CHECK(cuMemCreate(&handle, size, &prop, 0));
+            CUmemGenericAllocationHandle handle;
+            CU_CHECK(cuMemCreate(&handle, size, &prop, 0));
 
-        CU_CHECK(cuMemAddressReserve((CUdeviceptr *)ptr, size, granularity, 0, 0));
-        CU_CHECK(cuMemMap((CUdeviceptr)*ptr, size, 0, handle, 0));
-        cu_mem_set_access_all(*ptr, size);
-    } else {
-        CUDA_CHECK(cudaMalloc(ptr, size));
+            CU_CHECK(cuMemAddressReserve((CUdeviceptr *)ptr, size, granularity, 0, 0));
+            CU_CHECK(cuMemMap((CUdeviceptr)*ptr, size, 0, handle, 0));
+            cu_mem_set_access_all(*ptr, size);
+        } else {
+            CUDA_CHECK(cudaMalloc(ptr, size));
+        }
     }
-}
 
-void free(void* ptr) {
-    if (enable_fabric) {
-        cu_mem_free(ptr);
-    } else {
-        CUDA_CHECK(cudaFree(ptr));
+    void SharedMemoryAllocator::free(void* ptr) {
+        if (enable_fabric) {
+            cu_mem_free(ptr);
+        } else {
+            CUDA_CHECK(cudaFree(ptr));
+        }
     }
-}
 
-void get_mem_handle(MemHandle* mem_handle, void* ptr) {
-    size_t size = 0;
-    CU_CHECK(cuMemGetAddressRange(NULL, &size, (CUdeviceptr)ptr));
+    void SharedMemoryAllocator::get_mem_handle(MemHandle* mem_handle, void* ptr) {
+        size_t size = 0;
+        CU_CHECK(cuMemGetAddressRange(NULL, &size, (CUdeviceptr)ptr));
 
-    mem_handle->size = size;
+        mem_handle->size = size;
 
-    if (enable_fabric) {
-        CUmemGenericAllocationHandle handle;
-        CU_CHECK(cuMemRetainAllocationHandle(&handle, ptr));
+        if (enable_fabric) {
+            CUmemGenericAllocationHandle handle;
+            CU_CHECK(cuMemRetainAllocationHandle(&handle, ptr));
 
-        CU_CHECK(cuMemExportToShareableHandle(&mem_handle->inner.cu_mem_fabric_handle, handle, CU_MEM_HANDLE_TYPE_FABRIC, 0));
-    } else {
-        CUDA_CHECK(cudaIpcGetMemHandle(&mem_handle->inner.cuda_ipc_mem_handle, ptr));
+            CU_CHECK(cuMemExportToShareableHandle(&mem_handle->inner.cu_mem_fabric_handle, handle, CU_MEM_HANDLE_TYPE_FABRIC, 0));
+        } else {
+            CUDA_CHECK(cudaIpcGetMemHandle(&mem_handle->inner.cuda_ipc_mem_handle, ptr));
+        }
     }
-}
 
-void open_mem_handle(void** ptr, MemHandle* mem_handle) {
-    if (enable_fabric) {
-        size_t size = mem_handle->size;
+    void SharedMemoryAllocator::open_mem_handle(void** ptr, MemHandle* mem_handle) {
+        if (enable_fabric) {
+            size_t size = mem_handle->size;
 
-        CUmemGenericAllocationHandle handle;
-        CU_CHECK(cuMemImportFromShareableHandle(&handle, &mem_handle->inner.cu_mem_fabric_handle, CU_MEM_HANDLE_TYPE_FABRIC));
+            CUmemGenericAllocationHandle handle;
+            CU_CHECK(cuMemImportFromShareableHandle(&handle, &mem_handle->inner.cu_mem_fabric_handle, CU_MEM_HANDLE_TYPE_FABRIC));
 
-        CU_CHECK(cuMemAddressReserve((CUdeviceptr *)ptr, size, 0, 0, 0));
-        CU_CHECK(cuMemMap((CUdeviceptr)*ptr, size, 0, handle, 0));
-        cu_mem_set_access_all(*ptr, size);
-    } else {
-        CUDA_CHECK(cudaIpcOpenMemHandle(ptr, mem_handle->inner.cuda_ipc_mem_handle, cudaIpcMemLazyEnablePeerAccess));
+            CU_CHECK(cuMemAddressReserve((CUdeviceptr *)ptr, size, 0, 0, 0));
+            CU_CHECK(cuMemMap((CUdeviceptr)*ptr, size, 0, handle, 0));
+            cu_mem_set_access_all(*ptr, size);
+        } else {
+            CUDA_CHECK(cudaIpcOpenMemHandle(ptr, mem_handle->inner.cuda_ipc_mem_handle, cudaIpcMemLazyEnablePeerAccess));
+        }
     }
-}
 
-void close_mem_handle(void* ptr) {
-    if (enable_fabric) {
-        cu_mem_free(ptr);
-    } else {
-        CUDA_CHECK(cudaIpcCloseMemHandle(ptr));
+    void SharedMemoryAllocator::close_mem_handle(void* ptr) {
+        if (enable_fabric) {
+            cu_mem_free(ptr);
+        } else {
+            CUDA_CHECK(cudaIpcCloseMemHandle(ptr));
+        }
     }
 }
-}
 
 namespace deep_ep {
 
diff --git a/csrc/deep_ep.hpp b/csrc/deep_ep.hpp
index 14bbaf7a..5df87429 100644
--- a/csrc/deep_ep.hpp
+++ b/csrc/deep_ep.hpp
@@ -34,6 +34,16 @@ struct MemHandle {
 
 constexpr usize_t HANDLE_SIZE = sizeof(MemHandle);
 
+class SharedMemoryAllocator {
+public:
+    void malloc(void** ptr, size_t size);
+    void free(void* ptr);
+    void get_mem_handle(MemHandle* mem_handle, void* ptr);
+    void open_mem_handle(void** ptr, MemHandle* mem_handle);
+    void close_mem_handle(void* ptr);
+private:
+    bool enable_fabric;
+};
 }
 
 namespace deep_ep {

From 5b83cb85878f39b897432f9b38184bcd17a36f9d Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 16:16:41 +0800
Subject: [PATCH 035/393] more

---
 csrc/deep_ep.cpp | 2 ++
 csrc/deep_ep.hpp | 1 +
 2 files changed, 3 insertions(+)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index a2650617..6e2c084f 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -60,6 +60,8 @@ namespace shared_memory {
 
         return true;
     }
+    
+    SharedMemoryAllocator::SharedMemoryAllocator() : enable_fabric(support_fabric()) {}
 
     void SharedMemoryAllocator::malloc(void** ptr, size_t size_raw) {
         if (enable_fabric) {
diff --git a/csrc/deep_ep.hpp b/csrc/deep_ep.hpp
index 5df87429..a8c73f75 100644
--- a/csrc/deep_ep.hpp
+++ b/csrc/deep_ep.hpp
@@ -36,6 +36,7 @@ constexpr usize_t HANDLE_SIZE = sizeof(MemHandle);
 
 class SharedMemoryAllocator {
 public:
+    SharedMemoryAllocator();
     void malloc(void** ptr, size_t size);
     void free(void* ptr);
     void get_mem_handle(MemHandle* mem_handle, void* ptr);

From f024df5938cb2f81060974cd4ef238b2e596f1bf Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 16:16:45 +0800
Subject: [PATCH 036/393] more

---
 csrc/deep_ep.cpp | 186 +++++++++++++++++++++++------------------------
 1 file changed, 93 insertions(+), 93 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 6e2c084f..6d6deda4 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -11,129 +11,129 @@
 #include "kernels/configs.cuh"
 
 namespace shared_memory {
-    void cu_mem_set_access_all(void* ptr, size_t size) {
-        int device_count;
-        CUDA_CHECK(cudaGetDeviceCount(&device_count));
-
-        CUmemAccessDesc access_desc[device_count];
-        for (int idx = 0; idx < device_count; ++idx) {
-            access_desc[idx].location.type = CU_MEM_LOCATION_TYPE_DEVICE;
-            access_desc[idx].location.id = idx;
-            access_desc[idx].flags = CU_MEM_ACCESS_FLAGS_PROT_READWRITE;
-        }
-
-        CU_CHECK(cuMemSetAccess((CUdeviceptr)ptr, size, access_desc, device_count));
+void cu_mem_set_access_all(void* ptr, size_t size) {
+    int device_count;
+    CUDA_CHECK(cudaGetDeviceCount(&device_count));
+
+    CUmemAccessDesc access_desc[device_count];
+    for (int idx = 0; idx < device_count; ++idx) {
+        access_desc[idx].location.type = CU_MEM_LOCATION_TYPE_DEVICE;
+        access_desc[idx].location.id = idx;
+        access_desc[idx].flags = CU_MEM_ACCESS_FLAGS_PROT_READWRITE;
     }
 
-    void cu_mem_free(void* ptr) {
-        CUmemGenericAllocationHandle handle;
-        CU_CHECK(cuMemRetainAllocationHandle(&handle, ptr));
+    CU_CHECK(cuMemSetAccess((CUdeviceptr)ptr, size, access_desc, device_count));
+}
 
-        size_t size = 0;
-        CU_CHECK(cuMemGetAddressRange(NULL, &size, (CUdeviceptr)ptr));
+void cu_mem_free(void* ptr) {
+    CUmemGenericAllocationHandle handle;
+    CU_CHECK(cuMemRetainAllocationHandle(&handle, ptr));
 
-        CU_CHECK(cuMemUnmap((CUdeviceptr)ptr, size));
-        CU_CHECK(cuMemAddressFree((CUdeviceptr)ptr, size));
-        CU_CHECK(cuMemRelease(handle));
-    }
+    size_t size = 0;
+    CU_CHECK(cuMemGetAddressRange(NULL, &size, (CUdeviceptr)ptr));
 
-    void get_size_align_to_granularity(size_t size_raw, CUmemAllocationProp& prop) {
-        size_t granularity = 0;
-        CU_CHECK(cuMemGetAllocationGranularity(&granularity, &prop, CU_MEM_ALLOC_GRANULARITY_MINIMUM));
+    CU_CHECK(cuMemUnmap((CUdeviceptr)ptr, size));
+    CU_CHECK(cuMemAddressFree((CUdeviceptr)ptr, size));
+    CU_CHECK(cuMemRelease(handle));
+}
 
-        size_t size = (size_raw + granularity - 1) & ~(granularity - 1);
-        if (size == 0) size = granularity;
-        return size;
-    }
+void get_size_align_to_granularity(size_t size_raw, CUmemAllocationProp& prop) {
+    size_t granularity = 0;
+    CU_CHECK(cuMemGetAllocationGranularity(&granularity, &prop, CU_MEM_ALLOC_GRANULARITY_MINIMUM));
 
-    bool support_fabric() {
-        int device_count;
-        CUDA_CHECK(cudaGetDeviceCount(&device_count));
+    size_t size = (size_raw + granularity - 1) & ~(granularity - 1);
+    if (size == 0) size = granularity;
+    return size;
+}
 
-        for (int device = 0; device < device_count; ++device) {
-            int support = 0;
-            CU_CHECK(cuDeviceGetAttribute(&support, CU_DEVICE_ATTRIBUTE_HANDLE_TYPE_FABRIC_SUPPORTED, device));
-            if (!support) {
-                return false;
-            }
-        }
+bool support_fabric() {
+    int device_count;
+    CUDA_CHECK(cudaGetDeviceCount(&device_count));
 
-        return true;
+    for (int device = 0; device < device_count; ++device) {
+        int support = 0;
+        CU_CHECK(cuDeviceGetAttribute(&support, CU_DEVICE_ATTRIBUTE_HANDLE_TYPE_FABRIC_SUPPORTED, device));
+        if (!support) {
+            return false;
+        }
     }
-    
-    SharedMemoryAllocator::SharedMemoryAllocator() : enable_fabric(support_fabric()) {}
 
-    void SharedMemoryAllocator::malloc(void** ptr, size_t size_raw) {
-        if (enable_fabric) {
-            CUdevice device;
-            CURESULT_CHECK(cuCtxGetDevice(&device));
+    return true;
+}
 
-            CUmemAllocationProp prop = {};
-            prop.type = CU_MEM_ALLOCATION_TYPE_PINNED;
-            prop.location.type = CU_MEM_LOCATION_TYPE_DEVICE;
-            prop.requestedHandleTypes = CU_MEM_HANDLE_TYPE_FABRIC;
-            prop.location.id = device;
+SharedMemoryAllocator::SharedMemoryAllocator() : enable_fabric(support_fabric()) {}
 
-            size_t size = get_size_align_to_granularity(size_raw, prop);
+void SharedMemoryAllocator::malloc(void** ptr, size_t size_raw) {
+    if (enable_fabric) {
+        CUdevice device;
+        CURESULT_CHECK(cuCtxGetDevice(&device));
 
-            CUmemGenericAllocationHandle handle;
-            CU_CHECK(cuMemCreate(&handle, size, &prop, 0));
+        CUmemAllocationProp prop = {};
+        prop.type = CU_MEM_ALLOCATION_TYPE_PINNED;
+        prop.location.type = CU_MEM_LOCATION_TYPE_DEVICE;
+        prop.requestedHandleTypes = CU_MEM_HANDLE_TYPE_FABRIC;
+        prop.location.id = device;
 
-            CU_CHECK(cuMemAddressReserve((CUdeviceptr *)ptr, size, granularity, 0, 0));
-            CU_CHECK(cuMemMap((CUdeviceptr)*ptr, size, 0, handle, 0));
-            cu_mem_set_access_all(*ptr, size);
-        } else {
-            CUDA_CHECK(cudaMalloc(ptr, size));
-        }
+        size_t size = get_size_align_to_granularity(size_raw, prop);
+
+        CUmemGenericAllocationHandle handle;
+        CU_CHECK(cuMemCreate(&handle, size, &prop, 0));
+
+        CU_CHECK(cuMemAddressReserve((CUdeviceptr *)ptr, size, granularity, 0, 0));
+        CU_CHECK(cuMemMap((CUdeviceptr)*ptr, size, 0, handle, 0));
+        cu_mem_set_access_all(*ptr, size);
+    } else {
+        CUDA_CHECK(cudaMalloc(ptr, size));
     }
+}
 
-    void SharedMemoryAllocator::free(void* ptr) {
-        if (enable_fabric) {
-            cu_mem_free(ptr);
-        } else {
-            CUDA_CHECK(cudaFree(ptr));
-        }
+void SharedMemoryAllocator::free(void* ptr) {
+    if (enable_fabric) {
+        cu_mem_free(ptr);
+    } else {
+        CUDA_CHECK(cudaFree(ptr));
     }
+}
 
-    void SharedMemoryAllocator::get_mem_handle(MemHandle* mem_handle, void* ptr) {
-        size_t size = 0;
-        CU_CHECK(cuMemGetAddressRange(NULL, &size, (CUdeviceptr)ptr));
+void SharedMemoryAllocator::get_mem_handle(MemHandle* mem_handle, void* ptr) {
+    size_t size = 0;
+    CU_CHECK(cuMemGetAddressRange(NULL, &size, (CUdeviceptr)ptr));
 
-        mem_handle->size = size;
+    mem_handle->size = size;
 
-        if (enable_fabric) {
-            CUmemGenericAllocationHandle handle;
-            CU_CHECK(cuMemRetainAllocationHandle(&handle, ptr));
+    if (enable_fabric) {
+        CUmemGenericAllocationHandle handle;
+        CU_CHECK(cuMemRetainAllocationHandle(&handle, ptr));
 
-            CU_CHECK(cuMemExportToShareableHandle(&mem_handle->inner.cu_mem_fabric_handle, handle, CU_MEM_HANDLE_TYPE_FABRIC, 0));
-        } else {
-            CUDA_CHECK(cudaIpcGetMemHandle(&mem_handle->inner.cuda_ipc_mem_handle, ptr));
-        }
+        CU_CHECK(cuMemExportToShareableHandle(&mem_handle->inner.cu_mem_fabric_handle, handle, CU_MEM_HANDLE_TYPE_FABRIC, 0));
+    } else {
+        CUDA_CHECK(cudaIpcGetMemHandle(&mem_handle->inner.cuda_ipc_mem_handle, ptr));
     }
+}
 
-    void SharedMemoryAllocator::open_mem_handle(void** ptr, MemHandle* mem_handle) {
-        if (enable_fabric) {
-            size_t size = mem_handle->size;
+void SharedMemoryAllocator::open_mem_handle(void** ptr, MemHandle* mem_handle) {
+    if (enable_fabric) {
+        size_t size = mem_handle->size;
 
-            CUmemGenericAllocationHandle handle;
-            CU_CHECK(cuMemImportFromShareableHandle(&handle, &mem_handle->inner.cu_mem_fabric_handle, CU_MEM_HANDLE_TYPE_FABRIC));
+        CUmemGenericAllocationHandle handle;
+        CU_CHECK(cuMemImportFromShareableHandle(&handle, &mem_handle->inner.cu_mem_fabric_handle, CU_MEM_HANDLE_TYPE_FABRIC));
 
-            CU_CHECK(cuMemAddressReserve((CUdeviceptr *)ptr, size, 0, 0, 0));
-            CU_CHECK(cuMemMap((CUdeviceptr)*ptr, size, 0, handle, 0));
-            cu_mem_set_access_all(*ptr, size);
-        } else {
-            CUDA_CHECK(cudaIpcOpenMemHandle(ptr, mem_handle->inner.cuda_ipc_mem_handle, cudaIpcMemLazyEnablePeerAccess));
-        }
+        CU_CHECK(cuMemAddressReserve((CUdeviceptr *)ptr, size, 0, 0, 0));
+        CU_CHECK(cuMemMap((CUdeviceptr)*ptr, size, 0, handle, 0));
+        cu_mem_set_access_all(*ptr, size);
+    } else {
+        CUDA_CHECK(cudaIpcOpenMemHandle(ptr, mem_handle->inner.cuda_ipc_mem_handle, cudaIpcMemLazyEnablePeerAccess));
     }
+}
 
-    void SharedMemoryAllocator::close_mem_handle(void* ptr) {
-        if (enable_fabric) {
-            cu_mem_free(ptr);
-        } else {
-            CUDA_CHECK(cudaIpcCloseMemHandle(ptr));
-        }
+void SharedMemoryAllocator::close_mem_handle(void* ptr) {
+    if (enable_fabric) {
+        cu_mem_free(ptr);
+    } else {
+        CUDA_CHECK(cudaIpcCloseMemHandle(ptr));
     }
 }
+}
 
 namespace deep_ep {
 

From 5a7b2f2ab15ceb2492d9bd13eb6300a5fc71325e Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 16:20:10 +0800
Subject: [PATCH 037/393] more

---
 csrc/deep_ep.cpp | 10 +++++-----
 csrc/deep_ep.hpp |  2 ++
 2 files changed, 7 insertions(+), 5 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 6d6deda4..8bdfc3e9 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -170,8 +170,8 @@ Buffer::Buffer(int rank, int num_ranks, int64_t num_nvl_bytes, int64_t num_rdma_
 
     if (num_nvl_bytes > 0) {
         // Local IPC: alloc local memory and set local IPC handles
-        shared_memory::malloc(&buffer_ptrs[nvl_rank], num_nvl_bytes + barrier_signal_bytes + buffer_ptr_bytes + barrier_signal_ptr_bytes);
-        shared_memory::get_mem_handle(&ipc_handles[nvl_rank], buffer_ptrs[nvl_rank]);
+        shared_memory_allocator.malloc(&buffer_ptrs[nvl_rank], num_nvl_bytes + barrier_signal_bytes + buffer_ptr_bytes + barrier_signal_ptr_bytes);
+        shared_memory_allocator.get_mem_handle(&ipc_handles[nvl_rank], buffer_ptrs[nvl_rank]);
         buffer_ptrs_gpu = reinterpret_cast<void**>(static_cast<uint8_t*>(buffer_ptrs[nvl_rank]) + num_nvl_bytes + barrier_signal_bytes);
 
         // Set barrier signals
@@ -217,11 +217,11 @@ Buffer::~Buffer() noexcept(false) {
         // Close remote IPC
         if (is_available()) {
             for (int i = 0; i < num_nvl_ranks; ++ i) if (i != nvl_rank)
-                shared_memory::close_mem_handle(buffer_ptrs[i]);
+                shared_memory_allocator.close_mem_handle(buffer_ptrs[i]);
         }
 
         // Free local buffer and error flag
-        shared_memory::free(buffer_ptrs[nvl_rank]));
+        shared_memory_allocator.free(buffer_ptrs[nvl_rank]));
     }
 
     // Free NVSHMEM
@@ -304,7 +304,7 @@ void Buffer::sync(const std::vector<int> &device_ids,
             EP_HOST_ASSERT(handle_str.size() == shared_memory::HANDLE_SIZE);
             if (offset + i != rank) {
                 std::memcpy(ipc_handles[i], handle_str.c_str(), shared_memory::HANDLE_SIZE);
-                shared_memory::open_mem_handle(&buffer_ptrs[i], ipc_handles[i]);
+                shared_memory_allocator.open_mem_handle(&buffer_ptrs[i], ipc_handles[i]);
                 barrier_signal_ptrs[i] = reinterpret_cast<int*>(static_cast<uint8_t*>(buffer_ptrs[i]) + num_nvl_bytes);
             } else {
                 EP_HOST_ASSERT(std::memcmp(ipc_handles[i], handle_str.c_str(), shared_memory::HANDLE_SIZE) == 0);
diff --git a/csrc/deep_ep.hpp b/csrc/deep_ep.hpp
index a8c73f75..8ceee158 100644
--- a/csrc/deep_ep.hpp
+++ b/csrc/deep_ep.hpp
@@ -98,6 +98,8 @@ struct Buffer {
     volatile int* moe_recv_rdma_counter = nullptr;
     int* moe_recv_rdma_counter_mapped = nullptr;
 
+    SharedMemoryAllocator shared_memory_allocator;
+
 public:
     Buffer(int rank, int num_ranks, int64_t num_nvl_bytes, int64_t num_rdma_bytes, bool low_latency_mode);
 

From 60523797d95a353b61754e885654115ff1123858 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 16:22:32 +0800
Subject: [PATCH 038/393] more

---
 csrc/kernels/exception.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/exception.cuh b/csrc/kernels/exception.cuh
index 9eeedadd..4be59122 100644
--- a/csrc/kernels/exception.cuh
+++ b/csrc/kernels/exception.cuh
@@ -36,7 +36,7 @@ do { \
 do { \
     CUresult e = (cmd); \
     if (e != CUDA_SUCCESS) { \
-        throw EPException("CUDA", __FILE__, __LINE__, std::string(e)); \
+        throw EPException("CU", __FILE__, __LINE__, cuGetErrorName(e)); \
     } \
 } while (0)
 #endif

From befcd27066f1524737892446900113344dd22dbd Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 16:22:50 +0800
Subject: [PATCH 039/393] more

---
 csrc/kernels/exception.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/exception.cuh b/csrc/kernels/exception.cuh
index 4be59122..80aae935 100644
--- a/csrc/kernels/exception.cuh
+++ b/csrc/kernels/exception.cuh
@@ -36,7 +36,7 @@ do { \
 do { \
     CUresult e = (cmd); \
     if (e != CUDA_SUCCESS) { \
-        throw EPException("CU", __FILE__, __LINE__, cuGetErrorName(e)); \
+        throw EPException("CU", __FILE__, __LINE__, cuGetErrorString(e)); \
     } \
 } while (0)
 #endif

From df598ea7ac8306ab8a80a5130133eab3650d6fd5 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 16:24:54 +0800
Subject: [PATCH 040/393] more

---
 csrc/kernels/exception.cuh | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/csrc/kernels/exception.cuh b/csrc/kernels/exception.cuh
index 80aae935..3026374b 100644
--- a/csrc/kernels/exception.cuh
+++ b/csrc/kernels/exception.cuh
@@ -36,7 +36,9 @@ do { \
 do { \
     CUresult e = (cmd); \
     if (e != CUDA_SUCCESS) { \
-        throw EPException("CU", __FILE__, __LINE__, cuGetErrorString(e)); \
+        const char *error_str = NULL; \
+        cuGetErrorString(e, &error_str); \
+        throw EPException("CU", __FILE__, __LINE__, std::string(error_str)); \
     } \
 } while (0)
 #endif

From 5b23a8ad2190514697523f375d8e18b2571aff4b Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 16:25:15 +0800
Subject: [PATCH 041/393] more

---
 csrc/deep_ep.hpp | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/deep_ep.hpp b/csrc/deep_ep.hpp
index 8ceee158..9b99d5e8 100644
--- a/csrc/deep_ep.hpp
+++ b/csrc/deep_ep.hpp
@@ -32,7 +32,7 @@ struct MemHandle {
     size_t size;
 };
 
-constexpr usize_t HANDLE_SIZE = sizeof(MemHandle);
+constexpr size_t HANDLE_SIZE = sizeof(MemHandle);
 
 class SharedMemoryAllocator {
 public:

From 210e4997026bd372b69632f3589551a454aea81f Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 16:26:28 +0800
Subject: [PATCH 042/393] more

---
 csrc/deep_ep.hpp | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/deep_ep.hpp b/csrc/deep_ep.hpp
index 9b99d5e8..185fd33b 100644
--- a/csrc/deep_ep.hpp
+++ b/csrc/deep_ep.hpp
@@ -98,7 +98,7 @@ struct Buffer {
     volatile int* moe_recv_rdma_counter = nullptr;
     int* moe_recv_rdma_counter_mapped = nullptr;
 
-    SharedMemoryAllocator shared_memory_allocator;
+    shared_memory::SharedMemoryAllocator shared_memory_allocator;
 
 public:
     Buffer(int rank, int num_ranks, int64_t num_nvl_bytes, int64_t num_rdma_bytes, bool low_latency_mode);

From 379ac2447d8415679c493edd8d78855d8e742d5e Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 16:28:11 +0800
Subject: [PATCH 043/393] more

---
 csrc/deep_ep.cpp | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 8bdfc3e9..0e725f88 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -37,10 +37,7 @@ void cu_mem_free(void* ptr) {
     CU_CHECK(cuMemRelease(handle));
 }
 
-void get_size_align_to_granularity(size_t size_raw, CUmemAllocationProp& prop) {
-    size_t granularity = 0;
-    CU_CHECK(cuMemGetAllocationGranularity(&granularity, &prop, CU_MEM_ALLOC_GRANULARITY_MINIMUM));
-
+size_t get_size_align_to_granularity(size_t size_raw, size_t granularity) {
     size_t size = (size_raw + granularity - 1) & ~(granularity - 1);
     if (size == 0) size = granularity;
     return size;
@@ -66,7 +63,7 @@ SharedMemoryAllocator::SharedMemoryAllocator() : enable_fabric(support_fabric())
 void SharedMemoryAllocator::malloc(void** ptr, size_t size_raw) {
     if (enable_fabric) {
         CUdevice device;
-        CURESULT_CHECK(cuCtxGetDevice(&device));
+        CU_CHECK(cuCtxGetDevice(&device));
 
         CUmemAllocationProp prop = {};
         prop.type = CU_MEM_ALLOCATION_TYPE_PINNED;
@@ -74,7 +71,10 @@ void SharedMemoryAllocator::malloc(void** ptr, size_t size_raw) {
         prop.requestedHandleTypes = CU_MEM_HANDLE_TYPE_FABRIC;
         prop.location.id = device;
 
-        size_t size = get_size_align_to_granularity(size_raw, prop);
+        size_t granularity = 0;
+        CU_CHECK(cuMemGetAllocationGranularity(&granularity, &prop, CU_MEM_ALLOC_GRANULARITY_MINIMUM));
+
+        size_t size = get_size_align_to_granularity(size_raw, granularity);
 
         CUmemGenericAllocationHandle handle;
         CU_CHECK(cuMemCreate(&handle, size, &prop, 0));

From 43999dc0d16aaf1436b168ec10f803c4eeaa3142 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 16:29:02 +0800
Subject: [PATCH 044/393] more

---
 csrc/deep_ep.cpp | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 0e725f88..40b3cd1e 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -303,11 +303,11 @@ void Buffer::sync(const std::vector<int> &device_ids,
             auto handle_str = std::string(all_gathered_handles[offset + i].value());
             EP_HOST_ASSERT(handle_str.size() == shared_memory::HANDLE_SIZE);
             if (offset + i != rank) {
-                std::memcpy(ipc_handles[i], handle_str.c_str(), shared_memory::HANDLE_SIZE);
+                std::memcpy(&ipc_handles[i], handle_str.c_str(), shared_memory::HANDLE_SIZE);
                 shared_memory_allocator.open_mem_handle(&buffer_ptrs[i], ipc_handles[i]);
                 barrier_signal_ptrs[i] = reinterpret_cast<int*>(static_cast<uint8_t*>(buffer_ptrs[i]) + num_nvl_bytes);
             } else {
-                EP_HOST_ASSERT(std::memcmp(ipc_handles[i], handle_str.c_str(), shared_memory::HANDLE_SIZE) == 0);
+                EP_HOST_ASSERT(std::memcmp(&ipc_handles[i], handle_str.c_str(), shared_memory::HANDLE_SIZE) == 0);
             }
         }
 

From 791601101bdfb82881b6e7446c17b6bbf9c28815 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 16:30:16 +0800
Subject: [PATCH 045/393] more

---
 csrc/deep_ep.cpp | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 40b3cd1e..d872c037 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -83,7 +83,7 @@ void SharedMemoryAllocator::malloc(void** ptr, size_t size_raw) {
         CU_CHECK(cuMemMap((CUdeviceptr)*ptr, size, 0, handle, 0));
         cu_mem_set_access_all(*ptr, size);
     } else {
-        CUDA_CHECK(cudaMalloc(ptr, size));
+        CUDA_CHECK(cudaMalloc(ptr, size_raw));
     }
 }
 
@@ -221,7 +221,7 @@ Buffer::~Buffer() noexcept(false) {
         }
 
         // Free local buffer and error flag
-        shared_memory_allocator.free(buffer_ptrs[nvl_rank]));
+        shared_memory_allocator.free(buffer_ptrs[nvl_rank]);
     }
 
     // Free NVSHMEM
@@ -304,7 +304,7 @@ void Buffer::sync(const std::vector<int> &device_ids,
             EP_HOST_ASSERT(handle_str.size() == shared_memory::HANDLE_SIZE);
             if (offset + i != rank) {
                 std::memcpy(&ipc_handles[i], handle_str.c_str(), shared_memory::HANDLE_SIZE);
-                shared_memory_allocator.open_mem_handle(&buffer_ptrs[i], ipc_handles[i]);
+                shared_memory_allocator.open_mem_handle(&buffer_ptrs[i], &ipc_handles[i]);
                 barrier_signal_ptrs[i] = reinterpret_cast<int*>(static_cast<uint8_t*>(buffer_ptrs[i]) + num_nvl_bytes);
             } else {
                 EP_HOST_ASSERT(std::memcmp(&ipc_handles[i], handle_str.c_str(), shared_memory::HANDLE_SIZE) == 0);

From 0525f8f79e8b96b8e934130d01bd853c3386b5c2 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Tue, 17 Jun 2025 16:44:00 +0800
Subject: [PATCH 046/393] more

---
 setup.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/setup.py b/setup.py
index b16310a7..93294f74 100644
--- a/setup.py
+++ b/setup.py
@@ -19,7 +19,7 @@
     include_dirs = ['csrc/']
     library_dirs = []
     nvcc_dlink = []
-    extra_link_args = []
+    extra_link_args = ['-lcuda']
 
     # NVSHMEM flags
     if disable_nvshmem:

From 3b3e8ce72ab0d955ecb8be11d85d06d6cd4fa34d Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 19:27:49 +0800
Subject: [PATCH 047/393] wait_signal

---
 csrc/kernels/utils.cuh | 12 ++++++++++++
 1 file changed, 12 insertions(+)

diff --git a/csrc/kernels/utils.cuh b/csrc/kernels/utils.cuh
index 9ef4d7aa..e1a784e9 100644
--- a/csrc/kernels/utils.cuh
+++ b/csrc/kernels/utils.cuh
@@ -582,4 +582,16 @@ __forceinline__ __device__ T warp_reduce_or(T value) {
     return warp_reduce<kNumLanesPerGroup, kIntergroupReduce, T>(value, ReduceOr<T>{});
 }
 
+__device__ __forceinline__ void wait_signal(uint32_t* addr, uint32_t expect_value) {
+  uint32_t ready = *addr;
+  while (ready != expect_value) {
+    // TODO correct?
+    asm volatile("ld.acquire.gpu.global.u32 %0, [%1];"
+                 : "=r"(ready)
+                 : "l"(addr)
+                 : "memory");
+    asm volatile("nanosleep.u32 20;");
+  };
+}
+
 } // namespace deep_ep

From 56b4d96f7a44cb5f3e12a6f1f14bb1cf5515ca0f Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 19:29:40 +0800
Subject: [PATCH 048/393] copy v2

---
 csrc/kernels/internode_ll.cu     |   2 +
 csrc/kernels/internode_ll_v2.cuh | 799 +++++++++++++++++++++++++++++++
 2 files changed, 801 insertions(+)
 create mode 100644 csrc/kernels/internode_ll_v2.cuh

diff --git a/csrc/kernels/internode_ll.cu b/csrc/kernels/internode_ll.cu
index 9cd2bfb5..e499c472 100644
--- a/csrc/kernels/internode_ll.cu
+++ b/csrc/kernels/internode_ll.cu
@@ -3,6 +3,8 @@
 #include "launch.cuh"
 #include "ibgda_device.cuh"
 
+#include "internode_ll_v2.cuh"
+
 namespace deep_ep {
 
 namespace internode_ll {
diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
new file mode 100644
index 00000000..28c301f6
--- /dev/null
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -0,0 +1,799 @@
+#include "configs.cuh"
+#include "exception.cuh"
+#include "launch.cuh"
+#include "ibgda_device.cuh"
+
+namespace deep_ep {
+namespace internode_ll {
+
+template <bool kUseFP8, bool kUseUE8M0, int kHidden>
+__global__ __launch_bounds__(1024, 1) void
+dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
+         int* packed_recv_src_info, int64_t* packed_recv_layout_range,
+         int* packed_recv_count,
+         int* cumulative_local_expert_recv_stats,
+         int64_t* dispatch_wait_recv_cost_stats,
+         void* rdma_recv_x, int* rdma_recv_count, void* rdma_x,
+         const void* x, const int64_t* topk_idx,
+         int* atomic_counter_per_expert, int* atomic_finish_counter_per_expert,
+         int* next_clean, int num_next_clean_int,
+         int num_tokens, int num_max_dispatch_tokens_per_rank,
+         int num_topk, int num_experts, int rank, int num_ranks,
+         int num_warp_groups, int num_warps_per_group,
+         bool round_scale, int phases) {
+    const auto sm_id = static_cast<int>(blockIdx.x);
+    const auto thread_id = static_cast<int>(threadIdx.x);
+    const auto warp_id = thread_id / 32, lane_id = get_lane_id();
+    const auto num_sms = static_cast<int>(gridDim.x);
+    const auto num_warps = num_warp_groups * num_warps_per_group;
+    const auto num_local_experts = num_experts / num_ranks;
+    const auto warp_group_id = warp_id / num_warps_per_group;
+    const auto sub_warp_id = warp_id % num_warps_per_group;
+    const auto responsible_expert_idx = sm_id * num_warp_groups + warp_group_id;
+
+    // May extract UE8M0 from the scales
+    using scale_t = std::conditional_t<kUseUE8M0, uint8_t, float>;
+    using packed_t = std::conditional_t<kUseUE8M0, uint32_t, float>;
+    EP_STATIC_ASSERT(sizeof(packed_t) % sizeof(scale_t) == 0, "Invalid vector length");
+
+    // FP8 staffs
+    constexpr int kNumPerChannels = 128;
+    const int num_scales = kHidden / kNumPerChannels;
+    const size_t hidden_bytes = kHidden * (kUseFP8 ? sizeof(__nv_fp8_storage_t) : sizeof(nv_bfloat16));
+    const size_t hidden_int4 = hidden_bytes / sizeof(int4);
+
+    // Message package: hidden data, FP8 scales, index at source
+    // NOTES: currently we have 3 reserved int fields for future use
+    using vec_t = std::conditional_t<kUseFP8, int2, int4>;
+    const size_t num_bytes_per_msg = sizeof(int4) + (kUseFP8 ? (kHidden + num_scales * sizeof(float)) : (kHidden * sizeof(nv_bfloat16)));
+    const size_t num_int4_per_msg = num_bytes_per_msg / sizeof(int4);
+    EP_DEVICE_ASSERT(num_bytes_per_msg % sizeof(int4) == 0);
+
+    // Expert counts
+    constexpr int kNumMaxWarpGroups = 32;
+    __shared__ int shared_num_tokens_sent_per_expert[kNumMaxWarpGroups];
+
+    // Sending phase
+    if ((phases & LOW_LATENCY_SEND_PHASE) == 0)
+        goto LOW_LATENCY_DISPATCH_RECV;
+
+    // There are 2 kinds of warps in this part:
+    // 1. The first-kind warps for FP8 cast and sending top-k tokens
+    // 2. The last warp for reading `topk_idx` and count for per-expert information
+    if (warp_id < num_warps - 1) {
+        constexpr int kNumElemsPerRead = sizeof(int4) / sizeof(nv_bfloat16);
+        EP_STATIC_ASSERT(kHidden % (32 * kNumElemsPerRead) == 0, "Invalid hidden");
+        EP_STATIC_ASSERT(kNumElemsPerRead * 32 % kNumPerChannels == 0, "Invalid vectorization");
+        const auto num_threads = (num_warps - 1) * 32;
+        const size_t hidden_bf16_int4 = kHidden / kNumElemsPerRead;
+
+        for (int token_idx = sm_id; token_idx < num_tokens; token_idx += num_sms) {
+            const auto x_int4 = static_cast<const int4*>(x) + token_idx * hidden_bf16_int4;
+            const auto rdma_x_src_idx = reinterpret_cast<int*>(static_cast<uint8_t*>(rdma_x) + token_idx * num_bytes_per_msg);
+            const auto rdma_x_vec = reinterpret_cast<vec_t*>(reinterpret_cast<uint8_t*>(rdma_x_src_idx) + sizeof(int4));
+            const auto rdma_x_scales = reinterpret_cast<float*>(reinterpret_cast<uint8_t*>(rdma_x_vec) + hidden_bytes);
+
+            // Overlap top-k index read and source token index writes
+            auto dst_expert_idx = warp_id < num_topk ? static_cast<int>(__ldg(topk_idx + token_idx * num_topk + warp_id)) : -1;
+            thread_id == 0 ? (*rdma_x_src_idx = token_idx) : 0;
+
+            // FP8 cast
+            EP_STATIC_ASSERT(hidden_bf16_int4 % 32 == 0, "Must use the full warp to reduce");
+            #pragma unroll
+            for (int i = thread_id; i < hidden_bf16_int4; i += num_threads) {
+                // Read
+                auto int4_value = __ldg(x_int4 + i);
+
+                if constexpr (kUseFP8) {
+                    // Calculate local amax
+                    auto bf16_values = reinterpret_cast<nv_bfloat16*>(&int4_value);
+                    float fp32_values[kNumElemsPerRead];
+                    float amax = kFP8Margin, scale, scale_inv;
+                    #pragma unroll
+                    for (int j = 0; j < kNumElemsPerRead; ++ j) {
+                        fp32_values[j] = static_cast<float>(bf16_values[j]);
+                        amax = fmaxf(amax, fabsf(fp32_values[j]));
+                    }
+
+                    // Reduce amax and scale
+                    EP_STATIC_ASSERT(kNumElemsPerRead * 32 / kNumPerChannels == 2, "Invalid vectorization");
+                    amax = warp_reduce_max<16>(amax);
+                    calculate_fp8_scales(amax, scale, scale_inv, round_scale);
+                    if (lane_id == 0 or lane_id == 16)
+                        rdma_x_scales[i * kNumElemsPerRead / 128] = scale_inv;
+
+                    // Cast into send buffer
+                    vec_t int2_value;
+                    auto fp8x2_values = reinterpret_cast<__nv_fp8x2_storage_t*>(&int2_value);
+                    #pragma unroll
+                    for (int j = 0; j < kNumElemsPerRead; j += 2) {
+                        float2 fp32x2 = {fp32_values[j] * scale, fp32_values[j + 1] * scale};
+                        fp8x2_values[j / 2] = __nv_cvt_float2_to_fp8x2(fp32x2, __NV_SATFINITE, __NV_E4M3);
+                    }
+                    rdma_x_vec[i] = int2_value;
+                } else {
+                    // Reinterpret-cast is for C++14 compatibility
+                    rdma_x_vec[i] = *reinterpret_cast<vec_t*>(&int4_value);
+                }
+            }
+            asm volatile("bar.sync 1, %0;" :: "r"(num_threads));
+
+            // Issue IBGDA sends
+            if (dst_expert_idx >= 0) {
+                int slot_idx = lane_id == 0 ? atomicAdd(atomic_counter_per_expert + dst_expert_idx, 1) : 0;
+                slot_idx = __shfl_sync(0xffffffff, slot_idx, 0);
+                const auto dst_rank = dst_expert_idx / num_local_experts;
+                const auto dst_expert_local_idx = dst_expert_idx % num_local_experts;
+                const auto src_ptr = reinterpret_cast<uint64_t>(rdma_x_src_idx);
+                const auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_x) +
+                                     dst_expert_local_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_bytes_per_msg +
+                                     rank * num_max_dispatch_tokens_per_rank * num_bytes_per_msg +
+                                     slot_idx * num_bytes_per_msg;
+                const auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
+                if (dst_p2p_ptr == 0) {
+                    nvshmemi_ibgda_put_nbi_warp(dst_ptr, src_ptr, num_bytes_per_msg, dst_rank, dst_expert_local_idx, lane_id, slot_idx);
+                } else {
+                    // NOTES: only 2 load iterations for 7K hidden with 8 unrolls
+                    const auto* src_int4_ptr = reinterpret_cast<const int4*>(src_ptr);
+                    const auto* dst_int4_ptr = reinterpret_cast<int4*>(dst_p2p_ptr);
+                    UNROLLED_WARP_COPY(8, lane_id, num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
+                }
+
+                // Increase counter after finishing
+                __syncwarp();
+                lane_id == 0 ? atomic_add_release_global(atomic_finish_counter_per_expert + dst_expert_idx, 1) : 0;
+            }
+        }
+    } else if (warp_id == num_warps - 1) {
+        EP_DEVICE_ASSERT(num_sms > 1);
+        if (sm_id == 0) {
+            // The first SM is also responsible for checking QPs
+            EP_DEVICE_ASSERT(ibgda_get_state()->num_rc_per_pe >= num_local_experts);
+
+            // The first SM is also responsible for cleaning the next buffer
+            #pragma unroll
+            for (int i = lane_id; i < num_next_clean_int; i += 32)
+                next_clean[i] = 0;
+
+            // Notify before executing `int_p`
+            __syncwarp();
+            #pragma unroll
+            for (int i = lane_id; i < num_experts; i += 32)
+                atomic_add_release_global(atomic_finish_counter_per_expert + i, FINISHED_SUM_TAG);
+        }
+
+        // This SM should be responsible for some destination experts, read `topk_idx` for them
+        int expert_count[kNumMaxWarpGroups] = {0};
+        const auto expert_begin_idx = sm_id * num_warp_groups;
+        const auto expert_end_idx = min(expert_begin_idx + num_warp_groups, num_experts);
+
+        // Per lane count
+        #pragma unroll 8
+        for (int i = lane_id; i < num_tokens * num_topk; i += 32) {
+            auto idx = static_cast<int>(__ldg(topk_idx + i));
+            if (idx >= expert_begin_idx and idx < expert_end_idx)
+                expert_count[idx - expert_begin_idx] ++;
+        }
+
+        // Warp reduce
+        #pragma unroll
+        for (int i = expert_begin_idx; i < expert_end_idx; ++ i) {
+            auto sum = warp_reduce_sum(expert_count[i - expert_begin_idx]);
+            if (lane_id == 0) {
+                shared_num_tokens_sent_per_expert[i - expert_begin_idx] = sum;
+                atomic_add_release_global(atomic_finish_counter_per_expert + i, FINISHED_SUM_TAG - sum);
+            }
+        }
+    }
+    __syncthreads();
+
+    // Issue count sends
+    if (responsible_expert_idx < num_experts and sub_warp_id == 0 and lane_id == 0) {
+        const auto dst_rank = responsible_expert_idx / num_local_experts;
+        const auto dst_expert_local_idx = responsible_expert_idx % num_local_experts;
+        const auto num_tokens_sent = shared_num_tokens_sent_per_expert[responsible_expert_idx - sm_id * num_warp_groups];
+
+        // Wait local sends issued and send expert counts
+        while (ld_acquire_global(atomic_finish_counter_per_expert + responsible_expert_idx) != FINISHED_SUM_TAG * 2);
+        auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_count + dst_expert_local_idx * num_ranks + rank);
+        auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
+        if (dst_p2p_ptr == 0) {
+            nvshmemi_ibgda_amo_nonfetch_add(reinterpret_cast<int*>(dst_ptr), -num_tokens_sent - 1, dst_rank, dst_expert_local_idx);
+        } else {
+            st_release_sys_global(reinterpret_cast<int*>(dst_p2p_ptr), -num_tokens_sent - 1);
+        }
+
+        // Clean workspace for next use
+        atomic_counter_per_expert[responsible_expert_idx] = 0;
+        atomic_finish_counter_per_expert[responsible_expert_idx] = 0;
+
+        // Clean `packed_recv_count`
+        if (dst_rank == 0)
+            packed_recv_count[dst_expert_local_idx] = 0;
+    }
+    __syncwarp();
+
+    // Receiving phase
+    LOW_LATENCY_DISPATCH_RECV:
+    if ((phases & LOW_LATENCY_RECV_PHASE) == 0)
+        return;
+
+    // For send-and-recv kernels, we need a grid sync for making `packed_recv_count` visible
+    if (phases & LOW_LATENCY_SEND_PHASE)
+        cg::this_grid().sync();
+
+    // Receiving and packing
+    if (responsible_expert_idx < num_experts) {
+        const auto src_rank = responsible_expert_idx / num_local_experts;
+        const auto local_expert_idx = responsible_expert_idx % num_local_experts;
+        const auto rdma_recv_x_uint8 = static_cast<uint8_t*>(rdma_recv_x) +
+                local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_bytes_per_msg +
+                src_rank * num_max_dispatch_tokens_per_rank * num_bytes_per_msg;
+        const auto recv_x_int4 = static_cast<int4*>(packed_recv_x) +
+                local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * hidden_int4;
+        const auto recv_src_info = packed_recv_src_info + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank;
+        const auto recv_range = packed_recv_layout_range + local_expert_idx * num_ranks;
+        const auto num_aligned_scales = align<int>(num_scales, sizeof(float) / sizeof(scale_t));
+        const auto recv_x_scales = static_cast<scale_t*>(packed_recv_x_scales) + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_aligned_scales;
+
+        // Shared between sub-warps in warp groups
+        __shared__ int shared_num_recv_tokens[kNumMaxWarpGroups], shared_recv_token_begin_idx[kNumMaxWarpGroups];
+
+        // Wait tokens to arrive
+        // NOTES: using sub-warp 1 to overlap with sub-warp 0
+        int num_recv_tokens, recv_token_begin_idx;
+        EP_DEVICE_ASSERT(num_warps_per_group > 1 and num_warp_groups < 15);
+        if (sub_warp_id == 1 and lane_id == 0) {
+            auto start_time = clock64();
+            while ((num_recv_tokens = ld_acquire_sys_global(rdma_recv_count + local_expert_idx * num_ranks + src_rank)) == 0);
+            auto wait_recv_cost = clock64() - start_time;
+            num_recv_tokens = -num_recv_tokens - 1;
+            recv_token_begin_idx = atomicAdd(packed_recv_count + local_expert_idx, num_recv_tokens);
+            shared_num_recv_tokens[warp_group_id] = num_recv_tokens;
+            shared_recv_token_begin_idx[warp_group_id] = recv_token_begin_idx;
+            recv_range[src_rank] = pack2<int, int64_t>(num_recv_tokens, recv_token_begin_idx);
+
+            // Add stats for diagnosis
+            if (cumulative_local_expert_recv_stats != nullptr)
+                atomicAdd(cumulative_local_expert_recv_stats + local_expert_idx, num_recv_tokens);
+            if (dispatch_wait_recv_cost_stats != nullptr)
+                atomicAdd(reinterpret_cast<unsigned long long*>(dispatch_wait_recv_cost_stats + src_rank), wait_recv_cost);
+        }
+        asm volatile("bar.sync %0, %1;" :: "r"(warp_group_id + 2), "r"(num_warps_per_group * 32));
+        num_recv_tokens = shared_num_recv_tokens[warp_group_id];
+        recv_token_begin_idx = shared_recv_token_begin_idx[warp_group_id];
+
+        // Copy tokens
+        EP_DEVICE_ASSERT(num_scales <= 64);
+        for (int i = sub_warp_id; i < num_recv_tokens; i += num_warps_per_group) {
+            // Copy source info
+            const auto src_src_idx = reinterpret_cast<int*>(rdma_recv_x_uint8 + i * num_bytes_per_msg);
+            if (lane_id == 0)
+                recv_src_info[recv_token_begin_idx + i] = ld_nc_global(src_src_idx);
+            __syncwarp();
+
+            // Copy data
+            // NOTES: only 2 load iterations for 7K hidden with 7 unrolls
+            const auto src_data = reinterpret_cast<int4*>(reinterpret_cast<uint8_t*>(src_src_idx) + sizeof(int4));
+            const auto dst_data = recv_x_int4 + (recv_token_begin_idx + i) * hidden_int4;
+            UNROLLED_WARP_COPY(7, lane_id, hidden_int4, dst_data, src_data, ld_nc_global, st_na_global);
+
+            // Copy scales
+            if constexpr (kUseFP8) {
+                // Equivalent CuTe layout:
+                //   (num_tokens, (num_packed, num_elems_per_pack)):(num_elems_per_pack, (num_tokens * num_elems_per_pack, 1))
+                const auto src_scales = reinterpret_cast<float*>(reinterpret_cast<uint8_t*>(src_data) + hidden_bytes);
+                const auto num_elems_per_pack = static_cast<int>(sizeof(packed_t) / sizeof(scale_t));
+                const auto token_idx = recv_token_begin_idx + i;
+                const auto token_stride = num_elems_per_pack;
+                const auto pack_stride = num_ranks * num_max_dispatch_tokens_per_rank * num_elems_per_pack;
+                if (lane_id < num_scales) {
+                    const auto pack_idx = lane_id / num_elems_per_pack;
+                    const auto elem_idx = lane_id % num_elems_per_pack;
+                    auto scale = extract_required_scale_format<kUseUE8M0>(ld_nc_global(src_scales + lane_id));
+                    recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
+                }
+                if (lane_id + 32 < num_scales) {
+                    const auto pack_idx = (lane_id + 32) / num_elems_per_pack;
+                    const auto elem_idx = (lane_id + 32) % num_elems_per_pack;
+                    auto scale = extract_required_scale_format<kUseUE8M0>(ld_nc_global(src_scales + lane_id + 32));
+                    recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
+                }
+            }
+        }
+    }
+}
+
+void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
+              int* packed_recv_src_info, int64_t* packed_recv_layout_range,
+              int* packed_recv_count,
+              int* cumulative_local_expert_recv_stats,
+              int64_t* dispatch_wait_recv_cost_stats,
+              void* rdma_recv_x, int* rdma_recv_count, void* rdma_x,
+              const void* x, const int64_t* topk_idx,
+              int* next_clean, int num_next_clean_int,
+              int num_tokens, int hidden, int num_max_dispatch_tokens_per_rank,
+              int num_topk, int num_experts, int rank, int num_ranks,
+              bool use_fp8, bool round_scale, bool use_ue8m0,
+              void* workspace, int num_device_sms,
+              cudaStream_t stream, int phases) {
+    constexpr int kNumMaxTopK = 9;
+    const int num_warp_groups = ceil_div(num_experts, num_device_sms);
+    const int num_warps_per_group = 32 / num_warp_groups;
+    EP_HOST_ASSERT(num_warp_groups > 0 and num_warps_per_group > 0);
+    EP_HOST_ASSERT(kNumMaxTopK + 1 <= num_warp_groups * num_warps_per_group);
+
+    const auto num_warps = num_warp_groups * num_warps_per_group;
+    const auto num_sms = ceil_div(num_experts, num_warp_groups);
+    EP_HOST_ASSERT(num_topk <= kNumMaxTopK);
+
+    // Workspace checks
+    auto atomic_counter_per_expert = static_cast<int*>(workspace);
+    auto atomic_finish_counter_per_expert = atomic_counter_per_expert + num_experts;
+    EP_HOST_ASSERT(num_experts * sizeof(int) * 2 <= NUM_WORKSPACE_BYTES);
+
+    // FP8 checks
+    if (use_ue8m0)
+        EP_HOST_ASSERT(round_scale and "UE8M0 SF requires `round_scale=True`");
+
+#define DISPATCH_LAUNCH_CASE(hidden) { \
+auto dispatch_func = dispatch<false, false, hidden>; \
+if (use_fp8 and not use_ue8m0) \
+    dispatch_func = dispatch<true, false, hidden>; \
+if (use_fp8 and use_ue8m0) \
+    dispatch_func = dispatch<true, true, hidden>; \
+LAUNCH_KERNEL(&cfg, dispatch_func, \
+              packed_recv_x, packed_recv_x_scales, \
+              packed_recv_src_info, packed_recv_layout_range, \
+              packed_recv_count, \
+              cumulative_local_expert_recv_stats, \
+              dispatch_wait_recv_cost_stats, \
+              rdma_recv_x, rdma_recv_count, rdma_x, \
+              x, topk_idx, \
+              atomic_counter_per_expert, atomic_finish_counter_per_expert, \
+              next_clean, num_next_clean_int, \
+              num_tokens, num_max_dispatch_tokens_per_rank, \
+              num_topk, num_experts, rank, num_ranks, \
+              num_warp_groups, num_warps_per_group, \
+              round_scale, phases); } break
+
+    SETUP_LAUNCH_CONFIG(num_sms, num_warps * 32, stream);
+    SWITCH_HIDDEN(DISPATCH_LAUNCH_CASE);
+#undef DISPATCH_LAUNCH_CASE
+}
+
+template <bool kUseLogFMT, int kHidden, int kNumMaxTopk, int kNumMaxUnrolls>
+__global__ __launch_bounds__(1024, 1) void
+combine_v2(void* combined_x,
+        void* rdma_recv_x, int* rdma_recv_flag, void* rdma_send_x,
+        const void* x, const int64_t* topk_idx, const float* topk_weights,
+        const int* src_info, const int64_t* layout_range,
+        int64_t* combine_wait_recv_cost_stats,
+        int* next_clean, int num_next_clean_int,
+        int* atomic_clean_flag,
+        int num_combined_tokens, int hidden, int num_topk,
+        int num_max_dispatch_tokens_per_rank,
+        int num_experts, int rank, int num_ranks,
+        int num_warp_groups, int num_warps_per_group,
+        int phases, bool zero_copy) {
+    const auto sm_id = __shfl_sync(0xffffffff, static_cast<int>(blockIdx.x), 0);
+    const auto num_sms = __shfl_sync(0xffffffff, static_cast<int>(gridDim.x), 0);
+    const auto thread_id = static_cast<int>(threadIdx.x);
+    const auto num_threads = __shfl_sync(0xffffffff, static_cast<int>(blockDim.x), 0);
+    const auto warp_id = __shfl_sync(0xffffffff, thread_id / 32, 0), lane_id = get_lane_id();
+    const auto num_local_experts = num_experts / num_ranks;
+    const auto warp_group_id = warp_id / num_warps_per_group;
+    const auto sub_warp_id = warp_id % num_warps_per_group;
+    const auto responsible_expert_idx = sm_id * num_warp_groups + warp_group_id;
+
+    extern __shared__ __align__(1024) uint8_t smem_buffer[];
+
+    // Data type staffs
+    constexpr int kNumElemsPerInt4 = sizeof(int4) / sizeof(nv_bfloat16);
+    constexpr int64_t hidden_bf16_int4 = kHidden / kNumElemsPerInt4;
+
+    // Use different unroll factors for send and recv phases
+    constexpr int kNumSendUnrolls = kHidden % (32 * 4 * sizeof(int4) / sizeof(nv_bfloat16)) == 0 ? 4 : 2;
+    constexpr int kNumRecvUnrolls = 2;
+    constexpr int hidden_bf16_int4_pad = align(static_cast<int>(hidden_bf16_int4), 32 * kNumSendUnrolls);
+    EP_STATIC_ASSERT(kHidden % (32 * 2 * sizeof(int4) / sizeof(nv_bfloat16)) == 0, "Invalid hidden");
+    EP_STATIC_ASSERT(kNumSendUnrolls <= kNumMaxUnrolls and kNumRecvUnrolls <= kNumMaxUnrolls, "Invalid unrolls");
+    EP_STATIC_ASSERT(hidden_bf16_int4 % kNumSendUnrolls == 0, "Invalid hidden");
+    EP_STATIC_ASSERT(kNumSendUnrolls >= kNumRecvUnrolls, "Invalid unroll factors");
+
+    // Message package
+    EP_STATIC_ASSERT(kHidden % 128 == 0, "Invalid hidden");
+    constexpr int kNumDivisions = kHidden / 128;
+    constexpr int kNumMetaBytes = kNumDivisions * sizeof(nv_bfloat162);
+    constexpr size_t num_bytes_per_slot = kHidden * sizeof(nv_bfloat16) + kNumMetaBytes;
+    EP_STATIC_ASSERT(num_bytes_per_slot % sizeof(int4) == 0, "Invalid vectorization");
+
+    // Sending phase
+    if ((phases & LOW_LATENCY_SEND_PHASE) == 0)
+        goto LOW_LATENCY_COMBINE_RECV;
+
+    // Clean up next buffer
+    if (sm_id == 0 and warp_group_id == 0 and sub_warp_id == 0) {
+        #pragma unroll
+        for (int i = lane_id; i < num_next_clean_int; i += 32)
+            next_clean[i] = 0;
+
+        // Notify before executing `int_p`
+        __syncwarp();
+        if (lane_id == 0)
+            atomic_add_release_global(atomic_clean_flag, num_experts);
+    }
+
+    // Issue IBGDA sends
+    if (responsible_expert_idx < num_experts) {
+        const auto dst_rank = responsible_expert_idx / num_local_experts;
+        const auto local_expert_idx = responsible_expert_idx % num_local_experts;
+        const auto global_expert_idx = rank * num_local_experts + local_expert_idx;
+        const auto layout = __ldg(layout_range + local_expert_idx * num_ranks + dst_rank);
+        const auto local_x = static_cast<const int4*>(x) +
+                local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * hidden_bf16_int4;
+        const auto local_src_info = src_info + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank;
+        const auto rdma_send_x_vec = static_cast<uint8_t*>(rdma_send_x) +
+                local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_bytes_per_slot;
+
+        // Unpack layout
+        int offset, num_tokens_to_send;
+        unpack2(layout, num_tokens_to_send, offset);
+
+        // TMA stuffs
+        constexpr int kNumTMABufferBytes = sizeof(int4) * 32 * kNumSendUnrolls;
+        constexpr int kNumStages = 3;
+        constexpr int kNumPrefetch = 1;
+        EP_STATIC_ASSERT(kNumStages == 3 and kNumPrefetch == 1, "Invalid stages");
+
+        auto smem_ptr = smem_buffer + warp_id * (kNumStages * (kNumTMABufferBytes + 16) + kNumMetaBytes);
+        uint32_t tma_phase = 0;
+        auto tma_buffers   = PatternVisitor([=](const int& i) { return reinterpret_cast<int4*>(smem_ptr + i * (kNumTMABufferBytes + 16)); });
+        auto full_barriers = PatternVisitor([=](const int& i) { return reinterpret_cast<uint64_t*>(smem_ptr + i * (kNumTMABufferBytes + 16) + kNumTMABufferBytes); });
+        auto meta_buffers  = kUseLogFMT ? reinterpret_cast<nv_bfloat162*>(smem_ptr + kNumStages * (kNumTMABufferBytes + 16)) : nullptr;
+        EP_STATIC_ASSERT(kNumSendUnrolls * kNumStages <= 12, "TMA buffer size exceed limit");
+
+        // Initialize m-barriers
+        if (lane_id < kNumStages) {
+            mbarrier_init(full_barriers[lane_id], 1);
+            fence_view_async_shared();
+            fence_barrier_init();
+        }
+        __syncwarp();
+
+        constexpr int kNumIters = hidden_bf16_int4_pad / (32 * kNumSendUnrolls);
+        auto tma_load_and_arrive = [&](const int& stage_idx, const int4* gmem_ptr, const int& num_bytes) {
+            tma_load_1d(tma_buffers[stage_idx], gmem_ptr, full_barriers[stage_idx], num_bytes);
+            mbarrier_arrive_and_expect_tx(full_barriers[stage_idx], num_bytes);
+        };
+        auto get_num_tma_bytes = [&](const int& offset_int4) {
+            return min(kNumTMABufferBytes, static_cast<int>((hidden_bf16_int4 - offset_int4) * sizeof(int4)));
+        };
+
+        // Issue IBGDA send
+        for (int token_idx = offset + sub_warp_id; token_idx < offset + num_tokens_to_send; token_idx += num_warps_per_group) {
+            const auto x_int4 = local_x + token_idx * hidden_bf16_int4;
+            const auto rdma_send_type_row = reinterpret_cast<int*>(rdma_send_x_vec + token_idx * num_bytes_per_slot);
+            const auto rdma_send_x_vec_row = reinterpret_cast<uint8_t*>(rdma_send_type_row);
+
+            // Copy directly to local rank, or copy to buffer and issue RDMA
+            const auto src_idx = __shfl_sync(0xffffffff, __ldg(local_src_info + token_idx), 0);
+            const auto buf_ptr = reinterpret_cast<int64_t>(rdma_send_x_vec_row);
+            const auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_x) + (global_expert_idx * num_max_dispatch_tokens_per_rank + src_idx) * num_bytes_per_slot;
+            const auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
+            int num_send_bytes = hidden * sizeof(nv_bfloat16);
+
+            if (not zero_copy or dst_p2p_ptr != 0) {
+                // Read from `cpy_src_int4_ptr` and copy into `cpy_dst_int4_ptr`
+                const auto cpy_src_int4_ptr = zero_copy ? reinterpret_cast<int4*>(buf_ptr) : x_int4;
+                const auto cpy_dst_int4_ptr = dst_p2p_ptr == 0 ? reinterpret_cast<int4*>(buf_ptr) : reinterpret_cast<int4*>(dst_p2p_ptr);
+
+                // Prefetch
+                if (elect_one_sync(lane_id))
+                    tma_load_and_arrive(0, cpy_src_int4_ptr, get_num_tma_bytes(0));
+                __syncwarp();
+
+                int tma_offset_bytes = kNumMetaBytes;
+                #pragma unroll
+                for (int i = lane_id * kNumSendUnrolls, iter_idx = 0; i < hidden_bf16_int4_pad; i += 32 * kNumSendUnrolls, ++ iter_idx) {
+                    // Load the next iteration
+                    const int& stage_idx = iter_idx % kNumStages;
+                    const int& next_stage_idx = (iter_idx + 1) % kNumStages;
+                    if (iter_idx + 1 < kNumIters and elect_one_sync(lane_id)) {
+                        tma_store_wait<kNumStages - kNumPrefetch - 1>();
+                        const auto& offset_int4 = i + 32 * kNumSendUnrolls;
+                        tma_load_and_arrive(next_stage_idx, cpy_src_int4_ptr + offset_int4, get_num_tma_bytes(offset_int4));
+                    }
+                    __syncwarp();
+
+                    // Wait the current TMA arrival
+                    EP_STATIC_ASSERT(kNumStages < 32, "Too many stages");
+                    mbarrier_wait<true>(full_barriers[stage_idx], tma_phase, stage_idx);
+                    if constexpr (kUseLogFMT) {
+                        // Cast if possible
+                        constexpr int kNumInt4PerDivision = 128 / kNumElemsPerInt4;
+                        int num_tma_bytes = logfmt_encode<kNumSendUnrolls>(
+                            tma_buffers[stage_idx],
+                            // NOTES: only the leader lane will write the result
+                            (i % kNumInt4PerDivision == 0) ? meta_buffers + i / kNumInt4PerDivision : nullptr,
+                            lane_id);
+                        if (elect_one_sync(lane_id))
+                            tma_store_1d(tma_buffers[stage_idx], reinterpret_cast<uint8_t*>(cpy_dst_int4_ptr) + tma_offset_bytes, num_tma_bytes);
+                        tma_offset_bytes += num_tma_bytes;
+                    } else {
+                        // BF16 original values
+                        if (elect_one_sync(lane_id))
+                            tma_store_1d(tma_buffers[stage_idx], cpy_dst_int4_ptr + i, get_num_tma_bytes(i));
+                    }
+                    __syncwarp();
+                }
+
+                // Store metadata (min/max values) for LogFMT
+                if constexpr (kUseLogFMT) {
+                    num_send_bytes = tma_offset_bytes;
+                    if (elect_one_sync(lane_id))
+                        tma_store_1d(meta_buffers, cpy_dst_int4_ptr, kNumMetaBytes);
+                }
+
+                // Flush all stores
+                tma_store_wait();
+                __syncwarp();
+            }
+
+            // Issue RDMA
+            // NOTES: for zero-copy mode, we assume the data is already in the send buffer
+            if (dst_p2p_ptr == 0)
+                nvshmemi_ibgda_put_nbi_warp(dst_ptr, buf_ptr, num_send_bytes, dst_rank, local_expert_idx, lane_id, token_idx - offset);
+        }
+
+        // Put the finishing flag
+        EP_DEVICE_ASSERT(num_warps_per_group > 1 and num_warp_groups < 16);
+        asm volatile("bar.sync %0, %1;" :: "r"(warp_group_id + 1), "r"(num_warps_per_group * 32));
+        if (sub_warp_id == 1 and lane_id == 0) {
+            while (ld_acquire_global(atomic_clean_flag) == 0);
+            auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_flag + global_expert_idx);
+            auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
+            if (dst_p2p_ptr == 0) {
+                nvshmemi_ibgda_amo_nonfetch_add(reinterpret_cast<int*>(dst_ptr), 1, dst_rank, local_expert_idx);
+            } else {
+                st_release_sys_global(reinterpret_cast<int*>(dst_p2p_ptr), 1);
+            }
+            atomic_add_release_global(atomic_clean_flag, -1);
+        }
+        __syncwarp();
+
+        // Destroy m-barriers
+        if (lane_id < kNumStages) {
+            mbarrier_inval(full_barriers[lane_id]);
+            fence_view_async_shared();
+            fence_barrier_init();
+        }
+        __syncwarp();
+    }
+
+    // Receiving phase
+    LOW_LATENCY_COMBINE_RECV:
+    if ((phases & LOW_LATENCY_RECV_PHASE) == 0)
+        return;
+
+    // Wait all ranks to arrive
+    if (responsible_expert_idx < num_experts) {
+        EP_DEVICE_ASSERT(num_warps_per_group > 1);
+        if (sub_warp_id == 0 and lane_id == 0) {
+            auto start_time = clock64();
+            while (ld_acquire_sys_global(rdma_recv_flag + responsible_expert_idx) == 0);
+            auto wait_recv_cost = clock64() - start_time;
+            if (combine_wait_recv_cost_stats != nullptr) {
+                const auto& src_rank = responsible_expert_idx / num_local_experts;
+                atomicAdd(reinterpret_cast<unsigned long long*>(combine_wait_recv_cost_stats + src_rank), wait_recv_cost);
+            }
+        }
+    }
+    cg::this_grid().sync();
+
+    // Reassign warp groups
+    constexpr int kMaxNumGroups = 2;
+    const int num_decode_warps = hidden_bf16_int4_pad / (kNumRecvUnrolls * 32);
+    const int num_groups = min(kMaxNumGroups, (num_threads / 32) / (num_decode_warps + 1));
+    const int decode_warp_idx = __shfl_sync(0xffffffff, warp_id % (num_decode_warps + 1), 0);
+    const int group_idx = __shfl_sync(0xffffffff, warp_id / (num_decode_warps + 1), 0);
+    EP_STATIC_ASSERT(kHidden % (32 * kNumElemsPerInt4) == 0, "Invalid vectorization");
+    EP_DEVICE_ASSERT(num_topk <= 32);
+    EP_DEVICE_ASSERT(num_groups > 0);
+
+    if (group_idx < num_groups) {
+        constexpr int kNumStages = 3;
+        constexpr int kNumTMABufferBytes = 16 * 2 + kHidden * 2;
+        constexpr int kNumBF16PerWarpBytes = 32 * kNumRecvUnrolls * kNumElemsPerInt4 * 2;
+        constexpr int kNumLogFMTPerWarpBytes = kNumBF16PerWarpBytes / 16 * 10;
+        constexpr int kNumDivisionBytes = kNumDivisions * sizeof(uint32_t);
+        constexpr int kNumBytesPerGroup = kNumStages * kNumTMABufferBytes + kHidden * 2 + kNumStages * kNumDivisionBytes * 3;
+
+        // Reallocate shared memory
+        const auto smem_group_buffer = smem_buffer + kNumBytesPerGroup * group_idx;
+        auto full_barriers  = PatternVisitor([=](const int& i) { return reinterpret_cast<uint64_t*>(smem_group_buffer + i * kNumTMABufferBytes); });
+        auto empty_barriers = PatternVisitor([=](const int& i) { return reinterpret_cast<uint64_t*>(smem_group_buffer + i * kNumTMABufferBytes + 8); });
+        auto tma_ld_buffers = PatternVisitor([=](const int& i) { return reinterpret_cast<uint8_t* >(smem_group_buffer + i * kNumTMABufferBytes + 16); });
+        auto tma_st_buffers = PatternVisitor([=](const int& i) { return reinterpret_cast<uint32_t*>(smem_group_buffer + kNumStages * kNumTMABufferBytes + i * kNumBF16PerWarpBytes); });
+
+        // Redundant when logfmt is disabled
+        const auto smem_group_ptr = smem_group_buffer + kNumStages * kNumTMABufferBytes + kHidden * 2;
+        auto log_amax_buffers  = PatternVisitor([=](const int& i) { return reinterpret_cast<float*>(smem_group_ptr + i * kNumDivisionBytes); });
+        auto log_amin_buffers  = PatternVisitor([=](const int& i) { return reinterpret_cast<float*>(smem_group_ptr + kNumStages * kNumDivisionBytes + i * kNumDivisionBytes); });
+        auto cast_info_buffers = PatternVisitor([=](const int& i) { return reinterpret_cast<int*>  (smem_group_ptr + kNumStages * kNumDivisionBytes * 2 + i * kNumDivisionBytes); });
+
+        uint32_t tma_phase = 0;
+        EP_STATIC_ASSERT(kNumStages < 32, "Too many stages");
+        if (decode_warp_idx == num_decode_warps)
+            tma_phase = (1 << kNumStages) - 1;
+
+        // Initialize m-barriers
+        if (decode_warp_idx == num_decode_warps and lane_id < kNumStages) {
+            mbarrier_init(full_barriers[lane_id], 1);
+            mbarrier_init(empty_barriers[lane_id], num_decode_warps);
+        }
+        asm volatile("bar.sync %0, %1;" :: "r"(group_idx + 1), "r"((num_decode_warps + 1) * 32));
+
+        int stage_idx = 0, topk_idx_by_lane = 0;
+        EP_STATIC_ASSERT(kNumMaxTopk <= 32, "Invalid number of topks");
+        if (decode_warp_idx == num_decode_warps) {
+            // TMA load warp
+            for (int token_idx = sm_id + num_sms * group_idx; token_idx < num_combined_tokens; token_idx += num_sms * num_groups) {
+                if (lane_id < num_topk)
+                    topk_idx_by_lane = static_cast<int>(__ldg(topk_idx + token_idx * num_topk + lane_id));
+                for (int i = 0; i < num_topk; ++ i) {
+                    int topk_idx_reg = __shfl_sync(0xffffffff, topk_idx_by_lane, i);
+                    if (topk_idx_reg < 0)
+                        continue;
+
+                    mbarrier_wait<true>(empty_barriers[stage_idx], tma_phase, stage_idx);
+                    auto buffer = static_cast<uint8_t*>(rdma_recv_x) + (topk_idx_reg * num_max_dispatch_tokens_per_rank + token_idx) * num_bytes_per_slot;
+                    if constexpr (kUseLogFMT) {
+                        logfmt_check_amaxmin<kNumDivisions / 2, kNumSendUnrolls, kNumRecvUnrolls>(
+                            buffer, reinterpret_cast<float2*>(log_amax_buffers[stage_idx]),
+                            reinterpret_cast<float2*>(log_amin_buffers[stage_idx]), cast_info_buffers[stage_idx], lane_id);
+                    }
+                    if (elect_one_sync(lane_id)) {
+                        int num_casted = 0;
+                        if constexpr (kUseLogFMT) {
+                            const auto& info = cast_info_buffers[stage_idx][num_decode_warps - 1];
+                            num_casted = (info >> 1) + (info & 1);
+                        }
+                        int num_tma_bytes = num_casted * kNumLogFMTPerWarpBytes + (num_decode_warps - num_casted) * kNumBF16PerWarpBytes;
+                        tma_load_1d(tma_ld_buffers[stage_idx], buffer + (kUseLogFMT ? kNumMetaBytes : 0), full_barriers[stage_idx], num_tma_bytes);
+                        mbarrier_arrive_and_expect_tx(full_barriers[stage_idx], num_tma_bytes);
+                    }
+                    __syncwarp();
+                    stage_idx = (stage_idx + 1) % kNumStages;
+                }
+            }
+        } else {
+            // Reduction warps
+            float topk_weights_by_lane;
+            for (int token_idx = sm_id + num_sms * group_idx; token_idx < num_combined_tokens; token_idx += num_sms * num_groups) {
+                if (lane_id < num_topk) {
+                    topk_idx_by_lane = static_cast<int>(__ldg(topk_idx + token_idx * num_topk + lane_id));
+                    topk_weights_by_lane = __ldg(topk_weights + token_idx * num_topk + lane_id);
+                }
+                __syncwarp();
+
+                float combined_values[kNumElemsPerInt4 * kNumRecvUnrolls] = {0.0f};
+                for (int i = 0; i < num_topk; ++ i) {
+                    if (__shfl_sync(0xffffffff, topk_idx_by_lane, i) < 0)
+                        continue;
+                    const auto& topk_weight = __shfl_sync(0xffffffff, topk_weights_by_lane, i);
+
+                    mbarrier_wait<true>(full_barriers[stage_idx], tma_phase, stage_idx);
+                    if constexpr (kUseLogFMT) {
+                        const auto& info = cast_info_buffers[stage_idx][decode_warp_idx];
+                        bool enable_cast = info & 1;
+                        int num_casted_prefix = info >> 1;
+                        int tma_offset = kNumLogFMTPerWarpBytes * num_casted_prefix + kNumBF16PerWarpBytes * (decode_warp_idx - num_casted_prefix);
+                        int division_idx = decode_warp_idx * (kNumRecvUnrolls * 2) + lane_id * kNumRecvUnrolls / 16;
+                        decode_and_accumulate<kNumRecvUnrolls>(
+                            reinterpret_cast<uint32_t*>(tma_ld_buffers[stage_idx] + tma_offset + (enable_cast ? kNumLogFMTPerWarpBytes : kNumBF16PerWarpBytes) / 32 * lane_id),
+                            combined_values, log_amax_buffers[stage_idx][division_idx], log_amin_buffers[stage_idx][division_idx], enable_cast, topk_weight
+                        );
+                    } else {
+                        int tma_offset = kNumBF16PerWarpBytes * decode_warp_idx;
+                        decode_and_accumulate<kNumRecvUnrolls>(
+                            reinterpret_cast<uint32_t*>(tma_ld_buffers[stage_idx] + tma_offset + kNumBF16PerWarpBytes / 32 * lane_id),
+                            combined_values, 0, 0, false, topk_weight
+                        );
+                    }
+
+                    if (elect_one_sync(lane_id))
+                        mbarrier_arrive(empty_barriers[stage_idx]);
+                    stage_idx = (stage_idx + 1) % kNumStages;
+                }
+                tma_store_wait<0>();
+
+                #pragma unroll
+                for (int k = 0; k < kNumRecvUnrolls * 4; ++ k) {
+                    auto combined_pack = __nv_bfloat162(combined_values[k * 2], combined_values[k * 2 + 1]);
+                    tma_st_buffers[decode_warp_idx][kNumRecvUnrolls * 4 * lane_id + k] = *reinterpret_cast<uint32_t*>(&combined_pack);
+                }
+                tma_store_fence();
+                if (elect_one_sync(lane_id)) {
+                    tma_store_1d(tma_st_buffers[decode_warp_idx],
+                                 static_cast<int4*>(combined_x) + token_idx * hidden_bf16_int4 + decode_warp_idx * kNumRecvUnrolls * 32,
+                                 kNumBF16PerWarpBytes);
+                }
+                __syncwarp();
+            }
+        }
+
+        // Flush all stores
+        tma_store_wait<0>();
+    }
+}
+
+void combine_v2(void* combined_x,
+             void* rdma_recv_x, int* rdma_recv_flag, void* rdma_send_x,
+             const void* x, const int64_t* topk_idx, const float* topk_weights,
+             const int* src_info, const int64_t* layout_range,
+             int64_t* combine_wait_recv_cost_stats,
+             int* next_clean, int num_next_clean_int,
+             int num_combined_tokens, int hidden, int num_max_dispatch_tokens_per_rank,
+             int num_topk, int num_experts, int rank, int num_ranks,
+             bool use_logfmt,
+             void* workspace, int num_device_sms,
+             cudaStream_t stream, int phases, bool zero_copy) {
+    constexpr int kNumMaxTopk = 9;
+    const int num_warp_groups = ceil_div(num_experts, num_device_sms);
+    const int num_warps_per_group = 32 / num_warp_groups;
+    const int num_recv_per_sm = ceil_div(num_combined_tokens, num_device_sms);
+    EP_HOST_ASSERT(num_warp_groups > 0 and num_warps_per_group > 0 and ((num_combined_tokens == 0) or (num_recv_per_sm > 0)));
+
+    const auto num_warps = num_warp_groups * num_warps_per_group;
+    const auto num_sms = max(ceil_div(num_experts, num_warp_groups), ceil_div(num_combined_tokens, num_recv_per_sm));
+
+    // Check workspace
+    auto atomic_clean_flag = static_cast<int*>(workspace);
+    EP_HOST_ASSERT(sizeof(int) <= NUM_WORKSPACE_BYTES);
+    EP_HOST_ASSERT(num_topk <= kNumMaxTopk);
+
+    // Online cast cannot use zero-copy
+    EP_HOST_ASSERT(not (zero_copy and use_logfmt));
+
+    constexpr int kNumStages = 3;
+    constexpr int kNumMaxUnrolls = 4;
+    constexpr int kMaxNumGroups = 2;
+
+    // Send buffer size
+    const int num_meta_bytes = hidden / 128 * 4;
+    const int num_send_tma_bytes = 32 * sizeof(int4) * kNumMaxUnrolls + 16;
+    const int smem_send_size = num_warps * (kNumStages * num_send_tma_bytes + num_meta_bytes);
+
+    // Receive buffer size
+    const int num_recv_tma_bytes = 16 + hidden * 2;
+    const int smem_recv_size = kMaxNumGroups * (kNumStages * num_recv_tma_bytes + hidden * 2 + kNumStages * num_meta_bytes * 3);
+
+    // Total requirement
+    const int smem_size = max(smem_send_size, smem_recv_size);
+
+#define COMBINE_LAUNCH_CASE(hidden) { \
+auto combine_func = use_logfmt ? \
+    combine_v2<true, hidden, kNumMaxTopk, kNumMaxUnrolls> : \
+    combine_v2<false, hidden, kNumMaxTopk, kNumMaxUnrolls>; \
+SET_SHARED_MEMORY_FOR_TMA(combine_func); \
+LAUNCH_KERNEL(&cfg, combine_func, \
+              combined_x, \
+              rdma_recv_x, rdma_recv_flag, rdma_send_x, \
+              x, topk_idx, topk_weights, src_info, layout_range, \
+              combine_wait_recv_cost_stats, \
+              next_clean, num_next_clean_int, \
+              atomic_clean_flag, \
+              num_combined_tokens, hidden, num_topk, \
+              num_max_dispatch_tokens_per_rank, \
+              num_experts, rank, num_ranks, \
+              num_warp_groups, num_warps_per_group, \
+              phases, zero_copy); } break
+
+    SETUP_LAUNCH_CONFIG(num_sms, num_warps * 32, stream);
+    SWITCH_HIDDEN(COMBINE_LAUNCH_CASE);
+#undef COMBINE_LAUNCH_CASE
+}
+
+} // namespace internode_ll
+} // namespace deep_ep

From 3a315e6ad89484e8de4eecc01688401bdf8e27f6 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 19:33:30 +0800
Subject: [PATCH 049/393] call v2

---
 csrc/deep_ep.cpp             |  8 ++++----
 csrc/deep_ep.hpp             |  4 ++--
 csrc/kernels/api.cuh         |  4 ++--
 csrc/kernels/internode_ll.cu | 38 ++++++++++++++++++++++++++++++++++--
 deep_ep/buffer.py            | 10 ++++++----
 5 files changed, 50 insertions(+), 14 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 0789cd58..96a3eb25 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1088,7 +1088,7 @@ void Buffer::clean_low_latency_buffer(int num_max_dispatch_tokens_per_rank, int
 }
 
 std::tuple<torch::Tensor, std::optional<torch::Tensor>, torch::Tensor, torch::Tensor, torch::Tensor, std::optional<EventHandle>, std::optional<std::function<void()>>>
-Buffer::low_latency_dispatch(const torch::Tensor& x, const torch::Tensor& topk_idx,
+Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch::Tensor& topk_idx,
                              const std::optional<torch::Tensor>& cumulative_local_expert_recv_stats,
                              const std::optional<torch::Tensor>& dispatch_wait_recv_cost_stats,
                              int num_max_dispatch_tokens_per_rank, int num_experts,
@@ -1166,7 +1166,7 @@ Buffer::low_latency_dispatch(const torch::Tensor& x, const torch::Tensor& topk_i
     // Kernel launch
     auto next_clean_meta = next_buffer.clean_meta();
     auto launcher = [=](int phases) {
-        internode_ll::dispatch(packed_recv_x.data_ptr(), packed_recv_x_scales_ptr,
+        internode_ll::dispatch(enable_v2, packed_recv_x.data_ptr(), packed_recv_x_scales_ptr,
                                packed_recv_src_info.data_ptr<int>(), packed_recv_layout_range.data_ptr<int64_t>(),
                                packed_recv_count.data_ptr<int>(),
                                cumulative_local_expert_recv_stats.has_value() ? cumulative_local_expert_recv_stats->data_ptr<int>() : nullptr,
@@ -1207,7 +1207,7 @@ Buffer::low_latency_dispatch(const torch::Tensor& x, const torch::Tensor& topk_i
 }
 
 std::tuple<torch::Tensor, std::optional<EventHandle>, std::optional<std::function<void()>>>
-Buffer::low_latency_combine(const torch::Tensor& x, const torch::Tensor& topk_idx, const torch::Tensor& topk_weights,
+Buffer::low_latency_combine(bool enable_v2, const torch::Tensor& x, const torch::Tensor& topk_idx, const torch::Tensor& topk_weights,
                             const torch::Tensor& src_info, const torch::Tensor& layout_range,
                             const std::optional<torch::Tensor>& combine_wait_recv_cost_stats,
                             int num_max_dispatch_tokens_per_rank, int num_experts,
@@ -1271,7 +1271,7 @@ Buffer::low_latency_combine(const torch::Tensor& x, const torch::Tensor& topk_id
     // Kernel launch
     auto next_clean_meta = next_buffer.clean_meta();
     auto launcher = [=](int phases) {
-        internode_ll::combine(combined_x.data_ptr(),
+        internode_ll::combine(enable_v2, combined_x.data_ptr(),
                               buffer.combine_rdma_recv_data_buffer, buffer.combine_rdma_recv_flag_buffer,
                               buffer.combine_rdma_send_buffer,
                               x.data_ptr(), topk_idx.data_ptr<int64_t>(), topk_weights.data_ptr<float>(),
diff --git a/csrc/deep_ep.hpp b/csrc/deep_ep.hpp
index aa62ccb0..91f680eb 100644
--- a/csrc/deep_ep.hpp
+++ b/csrc/deep_ep.hpp
@@ -144,7 +144,7 @@ struct Buffer {
     void clean_low_latency_buffer(int num_max_dispatch_tokens_per_rank, int hidden, int num_experts);
 
     std::tuple<torch::Tensor, std::optional<torch::Tensor>, torch::Tensor, torch::Tensor, torch::Tensor, std::optional<EventHandle>, std::optional<std::function<void()>>>
-    low_latency_dispatch(const torch::Tensor& x, const torch::Tensor& topk_idx,
+    low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch::Tensor& topk_idx,
                          const std::optional<torch::Tensor>& cumulative_local_expert_recv_stats,
                          const std::optional<torch::Tensor>& dispatch_wait_recv_cost_stats,
                          int num_max_dispatch_tokens_per_rank, int num_experts,
@@ -152,7 +152,7 @@ struct Buffer {
                          bool async, bool return_recv_hook);
 
     std::tuple<torch::Tensor, std::optional<EventHandle>, std::optional<std::function<void()>>>
-    low_latency_combine(const torch::Tensor& x, const torch::Tensor& topk_idx, const torch::Tensor& topk_weights,
+    low_latency_combine(bool enable_v2, const torch::Tensor& x, const torch::Tensor& topk_idx, const torch::Tensor& topk_weights,
                         const torch::Tensor& src_info, const torch::Tensor& layout_range,
                         const std::optional<torch::Tensor>& combine_wait_recv_cost_stats,
                         int num_max_dispatch_tokens_per_rank, int num_experts,
diff --git a/csrc/kernels/api.cuh b/csrc/kernels/api.cuh
index d34775fd..edeb7e9f 100644
--- a/csrc/kernels/api.cuh
+++ b/csrc/kernels/api.cuh
@@ -139,7 +139,7 @@ void clean_low_latency_buffer(int* clean_0, int num_clean_int_0,
                               int* clean_1, int num_clean_int_1,
                               cudaStream_t stream);
 
-void dispatch(void* packed_recv_x, void* packed_recv_x_scales,
+void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
               int* packed_recv_src_info, int64_t* packed_recv_layout_range,
               int* packed_recv_count,
               int* cumulative_local_expert_recv_stats,
@@ -153,7 +153,7 @@ void dispatch(void* packed_recv_x, void* packed_recv_x_scales,
               void* workspace, int num_device_sms,
               cudaStream_t stream, int phases);
 
-void combine(void* combined_x,
+void combine(bool enable_v2, void* combined_x,
              void* rdma_recv_x, int* rdma_recv_flag, void* rdma_send_x,
              const void* x, const int64_t* topk_idx, const float* topk_weights,
              const int* src_info, const int64_t* layout_range,
diff --git a/csrc/kernels/internode_ll.cu b/csrc/kernels/internode_ll.cu
index e499c472..908f9b12 100644
--- a/csrc/kernels/internode_ll.cu
+++ b/csrc/kernels/internode_ll.cu
@@ -336,7 +336,7 @@ dispatch(void* packed_recv_x, void* packed_recv_x_scales,
     }
 }
 
-void dispatch(void* packed_recv_x, void* packed_recv_x_scales,
+void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
               int* packed_recv_src_info, int64_t* packed_recv_layout_range,
               int* packed_recv_count,
               int* cumulative_local_expert_recv_stats,
@@ -349,6 +349,24 @@ void dispatch(void* packed_recv_x, void* packed_recv_x_scales,
               bool use_fp8, bool round_scale, bool use_ue8m0,
               void* workspace, int num_device_sms,
               cudaStream_t stream, int phases) {
+    if (enable_v2) {
+        return dispatch_v2(
+            packed_recv_x, packed_recv_x_scales,
+            packed_recv_src_info, packed_recv_layout_range,
+            packed_recv_count,
+            cumulative_local_expert_recv_stats,
+            dispatch_wait_recv_cost_stats,
+            rdma_recv_x, rdma_recv_count, rdma_x,
+            x, topk_idx,
+            next_clean, num_next_clean_int,
+            num_tokens, hidden, num_max_dispatch_tokens_per_rank,
+            num_topk, num_experts, rank, num_ranks,
+            use_fp8, round_scale, use_ue8m0,
+            workspace, num_device_sms,
+            stream, phases
+        );
+    }
+
     constexpr int kNumMaxTopK = 9;
     const int num_warp_groups = ceil_div(num_experts, num_device_sms);
     const int num_warps_per_group = 32 / num_warp_groups;
@@ -919,7 +937,7 @@ combine(void* combined_x,
     }
 }
 
-void combine(void* combined_x,
+void combine(bool enable_v2, void* combined_x,
              void* rdma_recv_x, int* rdma_recv_flag, void* rdma_send_x,
              const void* x, const int64_t* topk_idx, const float* topk_weights,
              const int* src_info, const int64_t* layout_range,
@@ -930,6 +948,22 @@ void combine(void* combined_x,
              bool use_logfmt,
              void* workspace, int num_device_sms,
              cudaStream_t stream, int phases, bool zero_copy) {
+    if (enable_v2) {
+        return combine_v2(
+            combined_x,
+            rdma_recv_x, rdma_recv_flag, rdma_send_x,
+            x, topk_idx, topk_weights,
+            src_info, layout_range,
+            combine_wait_recv_cost_stats,
+            next_clean, num_next_clean_int,
+            num_combined_tokens, hidden, num_max_dispatch_tokens_per_rank,
+            num_topk, num_experts, rank, num_ranks,
+            use_logfmt,
+            workspace, num_device_sms,
+            stream, phases, zero_copy
+        );
+    }
+
     constexpr int kNumMaxTopk = 9;
     const int num_warp_groups = ceil_div(num_experts, num_device_sms);
     const int num_warps_per_group = 32 / num_warp_groups;
diff --git a/deep_ep/buffer.py b/deep_ep/buffer.py
index 03386e62..dd038cce 100644
--- a/deep_ep/buffer.py
+++ b/deep_ep/buffer.py
@@ -529,7 +529,8 @@ def low_latency_dispatch(self, x: torch.Tensor, topk_idx: torch.Tensor,
                              cumulative_local_expert_recv_stats: Optional[torch.Tensor] = None,
                              dispatch_wait_recv_cost_stats: Optional[torch.Tensor] = None,
                              use_fp8: bool = True, round_scale: bool = False, use_ue8m0: bool = False,
-                             async_finish: bool = False, return_recv_hook: bool = False) -> \
+                             async_finish: bool = False, return_recv_hook: bool = False,
+                             enable_v2: bool = False) -> \
             Tuple[Tuple[torch.Tensor, torch.Tensor], torch.Tensor, Tuple, EventOverlap, Callable]:
         """
         A low-latency implementation for dispatching with IBGDA.
@@ -579,7 +580,7 @@ def low_latency_dispatch(self, x: torch.Tensor, topk_idx: torch.Tensor,
             hook: the receiving hook function (valid only if `return_recv_hook` is set).
         """
         packed_recv_x, packed_recv_x_scales, packed_recv_count, packed_recv_src_info, packed_recv_layout_range, event, hook = \
-            self.runtime.low_latency_dispatch(x, topk_idx,
+            self.runtime.low_latency_dispatch(enable_v2, x, topk_idx,
                                               cumulative_local_expert_recv_stats,
                                               dispatch_wait_recv_cost_stats,
                                               num_max_dispatch_tokens_per_rank, num_experts,
@@ -597,7 +598,8 @@ def low_latency_dispatch(self, x: torch.Tensor, topk_idx: torch.Tensor,
     def low_latency_combine(self, x: torch.Tensor, topk_idx: torch.Tensor, topk_weights: torch.Tensor,
                             handle: tuple, use_logfmt: bool = False, zero_copy: bool = False, async_finish: bool = False,
                             return_recv_hook: bool = False, out: Optional[torch.Tensor] = None,
-                            combine_wait_recv_cost_stats: Optional[torch.Tensor] = None) -> \
+                            combine_wait_recv_cost_stats: Optional[torch.Tensor] = None,
+                            enable_v2: bool = False) -> \
             Tuple[torch.Tensor, EventOverlap, Callable]:
         """
         A low-latency implementation for combining tokens (reduce **with weights**) with IBGDA.
@@ -633,7 +635,7 @@ def low_latency_combine(self, x: torch.Tensor, topk_idx: torch.Tensor, topk_weig
             hook: the receiving hook function (valid only if `return_recv_hook` is set).
         """
         src_info, layout_range, num_max_dispatch_tokens_per_rank, hidden, num_experts = handle
-        combined_x, event, hook = self.runtime.low_latency_combine(x, topk_idx, topk_weights, src_info, layout_range,
+        combined_x, event, hook = self.runtime.low_latency_combine(enable_v2, x, topk_idx, topk_weights, src_info, layout_range,
                                                                    combine_wait_recv_cost_stats,
                                                                    num_max_dispatch_tokens_per_rank, num_experts,
                                                                    use_logfmt, zero_copy, async_finish, return_recv_hook,

From 9bac355b95fcd88785b8f829bf55ee70955999df Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 19:36:14 +0800
Subject: [PATCH 050/393] local_expert_idx loop

---
 csrc/kernels/internode_ll_v2.cuh | 255 ++++++++++++++++---------------
 1 file changed, 129 insertions(+), 126 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 28c301f6..45b66986 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -426,149 +426,152 @@ combine_v2(void* combined_x,
 
     // Issue IBGDA sends
     if (responsible_expert_idx < num_experts) {
-        const auto dst_rank = responsible_expert_idx / num_local_experts;
-        const auto local_expert_idx = responsible_expert_idx % num_local_experts;
-        const auto global_expert_idx = rank * num_local_experts + local_expert_idx;
-        const auto layout = __ldg(layout_range + local_expert_idx * num_ranks + dst_rank);
-        const auto local_x = static_cast<const int4*>(x) +
-                local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * hidden_bf16_int4;
-        const auto local_src_info = src_info + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank;
-        const auto rdma_send_x_vec = static_cast<uint8_t*>(rdma_send_x) +
-                local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_bytes_per_slot;
-
-        // Unpack layout
-        int offset, num_tokens_to_send;
-        unpack2(layout, num_tokens_to_send, offset);
-
-        // TMA stuffs
-        constexpr int kNumTMABufferBytes = sizeof(int4) * 32 * kNumSendUnrolls;
-        constexpr int kNumStages = 3;
-        constexpr int kNumPrefetch = 1;
-        EP_STATIC_ASSERT(kNumStages == 3 and kNumPrefetch == 1, "Invalid stages");
+        for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
+            const auto dst_rank = responsible_expert_idx / num_local_experts;
+            // NOTE changed to for-loop
+//             const auto local_expert_idx = responsible_expert_idx % num_local_experts;
+            const auto global_expert_idx = rank * num_local_experts + local_expert_idx;
+            const auto layout = __ldg(layout_range + local_expert_idx * num_ranks + dst_rank);
+            const auto local_x = static_cast<const int4*>(x) +
+                    local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * hidden_bf16_int4;
+            const auto local_src_info = src_info + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank;
+            const auto rdma_send_x_vec = static_cast<uint8_t*>(rdma_send_x) +
+                    local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_bytes_per_slot;
+
+            // Unpack layout
+            int offset, num_tokens_to_send;
+            unpack2(layout, num_tokens_to_send, offset);
+
+            // TMA stuffs
+            constexpr int kNumTMABufferBytes = sizeof(int4) * 32 * kNumSendUnrolls;
+            constexpr int kNumStages = 3;
+            constexpr int kNumPrefetch = 1;
+            EP_STATIC_ASSERT(kNumStages == 3 and kNumPrefetch == 1, "Invalid stages");
+
+            auto smem_ptr = smem_buffer + warp_id * (kNumStages * (kNumTMABufferBytes + 16) + kNumMetaBytes);
+            uint32_t tma_phase = 0;
+            auto tma_buffers   = PatternVisitor([=](const int& i) { return reinterpret_cast<int4*>(smem_ptr + i * (kNumTMABufferBytes + 16)); });
+            auto full_barriers = PatternVisitor([=](const int& i) { return reinterpret_cast<uint64_t*>(smem_ptr + i * (kNumTMABufferBytes + 16) + kNumTMABufferBytes); });
+            auto meta_buffers  = kUseLogFMT ? reinterpret_cast<nv_bfloat162*>(smem_ptr + kNumStages * (kNumTMABufferBytes + 16)) : nullptr;
+            EP_STATIC_ASSERT(kNumSendUnrolls * kNumStages <= 12, "TMA buffer size exceed limit");
+
+            // Initialize m-barriers
+            if (lane_id < kNumStages) {
+                mbarrier_init(full_barriers[lane_id], 1);
+                fence_view_async_shared();
+                fence_barrier_init();
+            }
+            __syncwarp();
 
-        auto smem_ptr = smem_buffer + warp_id * (kNumStages * (kNumTMABufferBytes + 16) + kNumMetaBytes);
-        uint32_t tma_phase = 0;
-        auto tma_buffers   = PatternVisitor([=](const int& i) { return reinterpret_cast<int4*>(smem_ptr + i * (kNumTMABufferBytes + 16)); });
-        auto full_barriers = PatternVisitor([=](const int& i) { return reinterpret_cast<uint64_t*>(smem_ptr + i * (kNumTMABufferBytes + 16) + kNumTMABufferBytes); });
-        auto meta_buffers  = kUseLogFMT ? reinterpret_cast<nv_bfloat162*>(smem_ptr + kNumStages * (kNumTMABufferBytes + 16)) : nullptr;
-        EP_STATIC_ASSERT(kNumSendUnrolls * kNumStages <= 12, "TMA buffer size exceed limit");
+            constexpr int kNumIters = hidden_bf16_int4_pad / (32 * kNumSendUnrolls);
+            auto tma_load_and_arrive = [&](const int& stage_idx, const int4* gmem_ptr, const int& num_bytes) {
+                tma_load_1d(tma_buffers[stage_idx], gmem_ptr, full_barriers[stage_idx], num_bytes);
+                mbarrier_arrive_and_expect_tx(full_barriers[stage_idx], num_bytes);
+            };
+            auto get_num_tma_bytes = [&](const int& offset_int4) {
+                return min(kNumTMABufferBytes, static_cast<int>((hidden_bf16_int4 - offset_int4) * sizeof(int4)));
+            };
+
+            // Issue IBGDA send
+            for (int token_idx = offset + sub_warp_id; token_idx < offset + num_tokens_to_send; token_idx += num_warps_per_group) {
+                const auto x_int4 = local_x + token_idx * hidden_bf16_int4;
+                const auto rdma_send_type_row = reinterpret_cast<int*>(rdma_send_x_vec + token_idx * num_bytes_per_slot);
+                const auto rdma_send_x_vec_row = reinterpret_cast<uint8_t*>(rdma_send_type_row);
+
+                // Copy directly to local rank, or copy to buffer and issue RDMA
+                const auto src_idx = __shfl_sync(0xffffffff, __ldg(local_src_info + token_idx), 0);
+                const auto buf_ptr = reinterpret_cast<int64_t>(rdma_send_x_vec_row);
+                const auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_x) + (global_expert_idx * num_max_dispatch_tokens_per_rank + src_idx) * num_bytes_per_slot;
+                const auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
+                int num_send_bytes = hidden * sizeof(nv_bfloat16);
 
-        // Initialize m-barriers
-        if (lane_id < kNumStages) {
-            mbarrier_init(full_barriers[lane_id], 1);
-            fence_view_async_shared();
-            fence_barrier_init();
-        }
-        __syncwarp();
+                if (not zero_copy or dst_p2p_ptr != 0) {
+                    // Read from `cpy_src_int4_ptr` and copy into `cpy_dst_int4_ptr`
+                    const auto cpy_src_int4_ptr = zero_copy ? reinterpret_cast<int4*>(buf_ptr) : x_int4;
+                    const auto cpy_dst_int4_ptr = dst_p2p_ptr == 0 ? reinterpret_cast<int4*>(buf_ptr) : reinterpret_cast<int4*>(dst_p2p_ptr);
 
-        constexpr int kNumIters = hidden_bf16_int4_pad / (32 * kNumSendUnrolls);
-        auto tma_load_and_arrive = [&](const int& stage_idx, const int4* gmem_ptr, const int& num_bytes) {
-            tma_load_1d(tma_buffers[stage_idx], gmem_ptr, full_barriers[stage_idx], num_bytes);
-            mbarrier_arrive_and_expect_tx(full_barriers[stage_idx], num_bytes);
-        };
-        auto get_num_tma_bytes = [&](const int& offset_int4) {
-            return min(kNumTMABufferBytes, static_cast<int>((hidden_bf16_int4 - offset_int4) * sizeof(int4)));
-        };
-
-        // Issue IBGDA send
-        for (int token_idx = offset + sub_warp_id; token_idx < offset + num_tokens_to_send; token_idx += num_warps_per_group) {
-            const auto x_int4 = local_x + token_idx * hidden_bf16_int4;
-            const auto rdma_send_type_row = reinterpret_cast<int*>(rdma_send_x_vec + token_idx * num_bytes_per_slot);
-            const auto rdma_send_x_vec_row = reinterpret_cast<uint8_t*>(rdma_send_type_row);
-
-            // Copy directly to local rank, or copy to buffer and issue RDMA
-            const auto src_idx = __shfl_sync(0xffffffff, __ldg(local_src_info + token_idx), 0);
-            const auto buf_ptr = reinterpret_cast<int64_t>(rdma_send_x_vec_row);
-            const auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_x) + (global_expert_idx * num_max_dispatch_tokens_per_rank + src_idx) * num_bytes_per_slot;
-            const auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
-            int num_send_bytes = hidden * sizeof(nv_bfloat16);
-
-            if (not zero_copy or dst_p2p_ptr != 0) {
-                // Read from `cpy_src_int4_ptr` and copy into `cpy_dst_int4_ptr`
-                const auto cpy_src_int4_ptr = zero_copy ? reinterpret_cast<int4*>(buf_ptr) : x_int4;
-                const auto cpy_dst_int4_ptr = dst_p2p_ptr == 0 ? reinterpret_cast<int4*>(buf_ptr) : reinterpret_cast<int4*>(dst_p2p_ptr);
-
-                // Prefetch
-                if (elect_one_sync(lane_id))
-                    tma_load_and_arrive(0, cpy_src_int4_ptr, get_num_tma_bytes(0));
-                __syncwarp();
+                    // Prefetch
+                    if (elect_one_sync(lane_id))
+                        tma_load_and_arrive(0, cpy_src_int4_ptr, get_num_tma_bytes(0));
+                    __syncwarp();
 
-                int tma_offset_bytes = kNumMetaBytes;
-                #pragma unroll
-                for (int i = lane_id * kNumSendUnrolls, iter_idx = 0; i < hidden_bf16_int4_pad; i += 32 * kNumSendUnrolls, ++ iter_idx) {
-                    // Load the next iteration
-                    const int& stage_idx = iter_idx % kNumStages;
-                    const int& next_stage_idx = (iter_idx + 1) % kNumStages;
-                    if (iter_idx + 1 < kNumIters and elect_one_sync(lane_id)) {
-                        tma_store_wait<kNumStages - kNumPrefetch - 1>();
-                        const auto& offset_int4 = i + 32 * kNumSendUnrolls;
-                        tma_load_and_arrive(next_stage_idx, cpy_src_int4_ptr + offset_int4, get_num_tma_bytes(offset_int4));
+                    int tma_offset_bytes = kNumMetaBytes;
+                    #pragma unroll
+                    for (int i = lane_id * kNumSendUnrolls, iter_idx = 0; i < hidden_bf16_int4_pad; i += 32 * kNumSendUnrolls, ++ iter_idx) {
+                        // Load the next iteration
+                        const int& stage_idx = iter_idx % kNumStages;
+                        const int& next_stage_idx = (iter_idx + 1) % kNumStages;
+                        if (iter_idx + 1 < kNumIters and elect_one_sync(lane_id)) {
+                            tma_store_wait<kNumStages - kNumPrefetch - 1>();
+                            const auto& offset_int4 = i + 32 * kNumSendUnrolls;
+                            tma_load_and_arrive(next_stage_idx, cpy_src_int4_ptr + offset_int4, get_num_tma_bytes(offset_int4));
+                        }
+                        __syncwarp();
+
+                        // Wait the current TMA arrival
+                        EP_STATIC_ASSERT(kNumStages < 32, "Too many stages");
+                        mbarrier_wait<true>(full_barriers[stage_idx], tma_phase, stage_idx);
+                        if constexpr (kUseLogFMT) {
+                            // Cast if possible
+                            constexpr int kNumInt4PerDivision = 128 / kNumElemsPerInt4;
+                            int num_tma_bytes = logfmt_encode<kNumSendUnrolls>(
+                                tma_buffers[stage_idx],
+                                // NOTES: only the leader lane will write the result
+                                (i % kNumInt4PerDivision == 0) ? meta_buffers + i / kNumInt4PerDivision : nullptr,
+                                lane_id);
+                            if (elect_one_sync(lane_id))
+                                tma_store_1d(tma_buffers[stage_idx], reinterpret_cast<uint8_t*>(cpy_dst_int4_ptr) + tma_offset_bytes, num_tma_bytes);
+                            tma_offset_bytes += num_tma_bytes;
+                        } else {
+                            // BF16 original values
+                            if (elect_one_sync(lane_id))
+                                tma_store_1d(tma_buffers[stage_idx], cpy_dst_int4_ptr + i, get_num_tma_bytes(i));
+                        }
+                        __syncwarp();
                     }
-                    __syncwarp();
 
-                    // Wait the current TMA arrival
-                    EP_STATIC_ASSERT(kNumStages < 32, "Too many stages");
-                    mbarrier_wait<true>(full_barriers[stage_idx], tma_phase, stage_idx);
+                    // Store metadata (min/max values) for LogFMT
                     if constexpr (kUseLogFMT) {
-                        // Cast if possible
-                        constexpr int kNumInt4PerDivision = 128 / kNumElemsPerInt4;
-                        int num_tma_bytes = logfmt_encode<kNumSendUnrolls>(
-                            tma_buffers[stage_idx],
-                            // NOTES: only the leader lane will write the result
-                            (i % kNumInt4PerDivision == 0) ? meta_buffers + i / kNumInt4PerDivision : nullptr,
-                            lane_id);
-                        if (elect_one_sync(lane_id))
-                            tma_store_1d(tma_buffers[stage_idx], reinterpret_cast<uint8_t*>(cpy_dst_int4_ptr) + tma_offset_bytes, num_tma_bytes);
-                        tma_offset_bytes += num_tma_bytes;
-                    } else {
-                        // BF16 original values
+                        num_send_bytes = tma_offset_bytes;
                         if (elect_one_sync(lane_id))
-                            tma_store_1d(tma_buffers[stage_idx], cpy_dst_int4_ptr + i, get_num_tma_bytes(i));
+                            tma_store_1d(meta_buffers, cpy_dst_int4_ptr, kNumMetaBytes);
                     }
-                    __syncwarp();
-                }
 
-                // Store metadata (min/max values) for LogFMT
-                if constexpr (kUseLogFMT) {
-                    num_send_bytes = tma_offset_bytes;
-                    if (elect_one_sync(lane_id))
-                        tma_store_1d(meta_buffers, cpy_dst_int4_ptr, kNumMetaBytes);
+                    // Flush all stores
+                    tma_store_wait();
+                    __syncwarp();
                 }
 
-                // Flush all stores
-                tma_store_wait();
-                __syncwarp();
+                // Issue RDMA
+                // NOTES: for zero-copy mode, we assume the data is already in the send buffer
+                if (dst_p2p_ptr == 0)
+                    nvshmemi_ibgda_put_nbi_warp(dst_ptr, buf_ptr, num_send_bytes, dst_rank, local_expert_idx, lane_id, token_idx - offset);
             }
 
-            // Issue RDMA
-            // NOTES: for zero-copy mode, we assume the data is already in the send buffer
-            if (dst_p2p_ptr == 0)
-                nvshmemi_ibgda_put_nbi_warp(dst_ptr, buf_ptr, num_send_bytes, dst_rank, local_expert_idx, lane_id, token_idx - offset);
-        }
-
-        // Put the finishing flag
-        EP_DEVICE_ASSERT(num_warps_per_group > 1 and num_warp_groups < 16);
-        asm volatile("bar.sync %0, %1;" :: "r"(warp_group_id + 1), "r"(num_warps_per_group * 32));
-        if (sub_warp_id == 1 and lane_id == 0) {
-            while (ld_acquire_global(atomic_clean_flag) == 0);
-            auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_flag + global_expert_idx);
-            auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
-            if (dst_p2p_ptr == 0) {
-                nvshmemi_ibgda_amo_nonfetch_add(reinterpret_cast<int*>(dst_ptr), 1, dst_rank, local_expert_idx);
-            } else {
-                st_release_sys_global(reinterpret_cast<int*>(dst_p2p_ptr), 1);
+            // Put the finishing flag
+            EP_DEVICE_ASSERT(num_warps_per_group > 1 and num_warp_groups < 16);
+            asm volatile("bar.sync %0, %1;" :: "r"(warp_group_id + 1), "r"(num_warps_per_group * 32));
+            if (sub_warp_id == 1 and lane_id == 0) {
+                while (ld_acquire_global(atomic_clean_flag) == 0);
+                auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_flag + global_expert_idx);
+                auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
+                if (dst_p2p_ptr == 0) {
+                    nvshmemi_ibgda_amo_nonfetch_add(reinterpret_cast<int*>(dst_ptr), 1, dst_rank, local_expert_idx);
+                } else {
+                    st_release_sys_global(reinterpret_cast<int*>(dst_p2p_ptr), 1);
+                }
+                atomic_add_release_global(atomic_clean_flag, -1);
             }
-            atomic_add_release_global(atomic_clean_flag, -1);
-        }
-        __syncwarp();
+            __syncwarp();
 
-        // Destroy m-barriers
-        if (lane_id < kNumStages) {
-            mbarrier_inval(full_barriers[lane_id]);
-            fence_view_async_shared();
-            fence_barrier_init();
+            // Destroy m-barriers
+            if (lane_id < kNumStages) {
+                mbarrier_inval(full_barriers[lane_id]);
+                fence_view_async_shared();
+                fence_barrier_init();
+            }
+            __syncwarp();
         }
-        __syncwarp();
     }
 
     // Receiving phase

From 2ca9eded0c712206b3cffbb73d1137eba517927e Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 19:37:32 +0800
Subject: [PATCH 051/393] token_cooperate_part_idx

---
 csrc/kernels/internode_ll_v2.cuh | 10 ++++++++--
 1 file changed, 8 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 45b66986..ce6f4862 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -428,8 +428,14 @@ combine_v2(void* combined_x,
     if (responsible_expert_idx < num_experts) {
         for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
             const auto dst_rank = responsible_expert_idx / num_local_experts;
-            // NOTE changed to for-loop
-//             const auto local_expert_idx = responsible_expert_idx % num_local_experts;
+
+            // NOTE
+            // before: "one warp group --- all tokens for one (dsk_rank, local_expert_idx)"
+            // after: "multiple warp groups --- cooperate on tokens for one (dsk_rank, local_expert_idx)"
+            // const auto local_expert_idx = responsible_expert_idx % num_local_experts;
+            const auto token_cooperate_part_idx = responsible_expert_idx % num_local_experts;
+            const auto num_token_cooperate_parts = num_local_experts;
+
             const auto global_expert_idx = rank * num_local_experts + local_expert_idx;
             const auto layout = __ldg(layout_range + local_expert_idx * num_ranks + dst_rank);
             const auto local_x = static_cast<const int4*>(x) +

From d57ecc78023b95140841a069ba9779c53f692087 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 19:41:24 +0800
Subject: [PATCH 052/393] wait signal

---
 csrc/kernels/internode_ll_v2.cuh | 11 +++++++++++
 1 file changed, 11 insertions(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index ce6f4862..69d31352 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -448,6 +448,17 @@ combine_v2(void* combined_x,
             int offset, num_tokens_to_send;
             unpack2(layout, num_tokens_to_send, offset);
 
+            if (src_signals != nullptr) {
+                // TODO shall we let 1st expert be separately computed and then do *not* wait for it
+                // if ((threadIdx.x == 0) and (local_expert_idx > 0)) {
+                if (threadIdx.x == 0) {
+                    wait_signal(src_signals + local_expert_idx, src_signal_expect_value);
+                }
+
+                // TODO original code uses NamedBarrier, better than this?
+                __syncthreads();
+            }
+
             // TMA stuffs
             constexpr int kNumTMABufferBytes = sizeof(int4) * 32 * kNumSendUnrolls;
             constexpr int kNumStages = 3;

From 9b4e5a51cf5ccf6522c481b24be895b2a992abf5 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 19:43:26 +0800
Subject: [PATCH 053/393] inner loop

---
 csrc/kernels/internode_ll_v2.cuh | 18 ++++++++++++++----
 1 file changed, 14 insertions(+), 4 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 69d31352..ef064a9a 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -426,12 +426,13 @@ combine_v2(void* combined_x,
 
     // Issue IBGDA sends
     if (responsible_expert_idx < num_experts) {
+        // NOTE
+        // before: "one warp group --- all tokens for one (dsk_rank, local_expert_idx)"
+        // after: "multiple warp groups --- cooperate on tokens for one (dsk_rank, local_expert_idx)"
         for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
             const auto dst_rank = responsible_expert_idx / num_local_experts;
 
-            // NOTE
-            // before: "one warp group --- all tokens for one (dsk_rank, local_expert_idx)"
-            // after: "multiple warp groups --- cooperate on tokens for one (dsk_rank, local_expert_idx)"
+            // NOTE changed
             // const auto local_expert_idx = responsible_expert_idx % num_local_experts;
             const auto token_cooperate_part_idx = responsible_expert_idx % num_local_experts;
             const auto num_token_cooperate_parts = num_local_experts;
@@ -448,6 +449,7 @@ combine_v2(void* combined_x,
             int offset, num_tokens_to_send;
             unpack2(layout, num_tokens_to_send, offset);
 
+            // NOTE added
             if (src_signals != nullptr) {
                 // TODO shall we let 1st expert be separately computed and then do *not* wait for it
                 // if ((threadIdx.x == 0) and (local_expert_idx > 0)) {
@@ -490,7 +492,15 @@ combine_v2(void* combined_x,
             };
 
             // Issue IBGDA send
-            for (int token_idx = offset + sub_warp_id; token_idx < offset + num_tokens_to_send; token_idx += num_warps_per_group) {
+            // NOTE changed
+            // for (int token_idx = offset + sub_warp_id; token_idx < offset + num_tokens_to_send; token_idx += num_warps_per_group) {
+            const int num_tokens_to_send_per_cooperate_part = ceil_div(num_tokens_to_send, num_token_cooperate_parts);
+            const int token_idx_part_end = offset + min(num_tokens_to_send, num_tokens_to_send_per_cooperate_part * (token_cooperate_part_idx + 1));
+            for (
+                int token_idx = offset + num_tokens_to_send_per_cooperate_part * token_cooperate_part_idx + sub_warp_id;
+                token_idx < token_idx_part_end;
+                token_idx += num_warps_per_group
+            ) {
                 const auto x_int4 = local_x + token_idx * hidden_bf16_int4;
                 const auto rdma_send_type_row = reinterpret_cast<int*>(rdma_send_x_vec + token_idx * num_bytes_per_slot);
                 const auto rdma_send_x_vec_row = reinterpret_cast<uint8_t*>(rdma_send_type_row);

From 09b3ecbb026c5e50d3b97e6317c4d531dd62822b Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 19:44:38 +0800
Subject: [PATCH 054/393] run finishing flag + destroy m-barrier only once

---
 csrc/kernels/internode_ll_v2.cuh | 42 ++++++++++++++++----------------
 1 file changed, 21 insertions(+), 21 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index ef064a9a..0d3539fc 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -574,31 +574,31 @@ combine_v2(void* combined_x,
                 if (dst_p2p_ptr == 0)
                     nvshmemi_ibgda_put_nbi_warp(dst_ptr, buf_ptr, num_send_bytes, dst_rank, local_expert_idx, lane_id, token_idx - offset);
             }
+        }
 
-            // Put the finishing flag
-            EP_DEVICE_ASSERT(num_warps_per_group > 1 and num_warp_groups < 16);
-            asm volatile("bar.sync %0, %1;" :: "r"(warp_group_id + 1), "r"(num_warps_per_group * 32));
-            if (sub_warp_id == 1 and lane_id == 0) {
-                while (ld_acquire_global(atomic_clean_flag) == 0);
-                auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_flag + global_expert_idx);
-                auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
-                if (dst_p2p_ptr == 0) {
-                    nvshmemi_ibgda_amo_nonfetch_add(reinterpret_cast<int*>(dst_ptr), 1, dst_rank, local_expert_idx);
-                } else {
-                    st_release_sys_global(reinterpret_cast<int*>(dst_p2p_ptr), 1);
-                }
-                atomic_add_release_global(atomic_clean_flag, -1);
+        // Put the finishing flag
+        EP_DEVICE_ASSERT(num_warps_per_group > 1 and num_warp_groups < 16);
+        asm volatile("bar.sync %0, %1;" :: "r"(warp_group_id + 1), "r"(num_warps_per_group * 32));
+        if (sub_warp_id == 1 and lane_id == 0) {
+            while (ld_acquire_global(atomic_clean_flag) == 0);
+            auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_flag + global_expert_idx);
+            auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
+            if (dst_p2p_ptr == 0) {
+                nvshmemi_ibgda_amo_nonfetch_add(reinterpret_cast<int*>(dst_ptr), 1, dst_rank, local_expert_idx);
+            } else {
+                st_release_sys_global(reinterpret_cast<int*>(dst_p2p_ptr), 1);
             }
-            __syncwarp();
+            atomic_add_release_global(atomic_clean_flag, -1);
+        }
+        __syncwarp();
 
-            // Destroy m-barriers
-            if (lane_id < kNumStages) {
-                mbarrier_inval(full_barriers[lane_id]);
-                fence_view_async_shared();
-                fence_barrier_init();
-            }
-            __syncwarp();
+        // Destroy m-barriers
+        if (lane_id < kNumStages) {
+            mbarrier_inval(full_barriers[lane_id]);
+            fence_view_async_shared();
+            fence_barrier_init();
         }
+        __syncwarp();
     }
 
     // Receiving phase

From 5a87e71a144d0dca140e8da8add52b486032887a Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 19:45:47 +0800
Subject: [PATCH 055/393] mv tma

---
 csrc/kernels/internode_ll_v2.cuh | 63 +++++++++++++++++---------------
 1 file changed, 33 insertions(+), 30 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 0d3539fc..d8fd445c 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -426,6 +426,39 @@ combine_v2(void* combined_x,
 
     // Issue IBGDA sends
     if (responsible_expert_idx < num_experts) {
+        // NOTE move tma-related to outside local_expert_idx loop
+        // ------------------------------------------ START tma-related -------------------------------------------------
+        // TMA stuffs
+        constexpr int kNumTMABufferBytes = sizeof(int4) * 32 * kNumSendUnrolls;
+        constexpr int kNumStages = 3;
+        constexpr int kNumPrefetch = 1;
+        EP_STATIC_ASSERT(kNumStages == 3 and kNumPrefetch == 1, "Invalid stages");
+
+        auto smem_ptr = smem_buffer + warp_id * (kNumStages * (kNumTMABufferBytes + 16) + kNumMetaBytes);
+        uint32_t tma_phase = 0;
+        auto tma_buffers   = PatternVisitor([=](const int& i) { return reinterpret_cast<int4*>(smem_ptr + i * (kNumTMABufferBytes + 16)); });
+        auto full_barriers = PatternVisitor([=](const int& i) { return reinterpret_cast<uint64_t*>(smem_ptr + i * (kNumTMABufferBytes + 16) + kNumTMABufferBytes); });
+        auto meta_buffers  = kUseLogFMT ? reinterpret_cast<nv_bfloat162*>(smem_ptr + kNumStages * (kNumTMABufferBytes + 16)) : nullptr;
+        EP_STATIC_ASSERT(kNumSendUnrolls * kNumStages <= 12, "TMA buffer size exceed limit");
+
+        // Initialize m-barriers
+        if (lane_id < kNumStages) {
+            mbarrier_init(full_barriers[lane_id], 1);
+            fence_view_async_shared();
+            fence_barrier_init();
+        }
+        __syncwarp();
+
+        constexpr int kNumIters = hidden_bf16_int4_pad / (32 * kNumSendUnrolls);
+        auto tma_load_and_arrive = [&](const int& stage_idx, const int4* gmem_ptr, const int& num_bytes) {
+            tma_load_1d(tma_buffers[stage_idx], gmem_ptr, full_barriers[stage_idx], num_bytes);
+            mbarrier_arrive_and_expect_tx(full_barriers[stage_idx], num_bytes);
+        };
+        auto get_num_tma_bytes = [&](const int& offset_int4) {
+            return min(kNumTMABufferBytes, static_cast<int>((hidden_bf16_int4 - offset_int4) * sizeof(int4)));
+        };
+        // -------------------------------------------- END tma-related -----------------------------------------------
+    
         // NOTE
         // before: "one warp group --- all tokens for one (dsk_rank, local_expert_idx)"
         // after: "multiple warp groups --- cooperate on tokens for one (dsk_rank, local_expert_idx)"
@@ -461,36 +494,6 @@ combine_v2(void* combined_x,
                 __syncthreads();
             }
 
-            // TMA stuffs
-            constexpr int kNumTMABufferBytes = sizeof(int4) * 32 * kNumSendUnrolls;
-            constexpr int kNumStages = 3;
-            constexpr int kNumPrefetch = 1;
-            EP_STATIC_ASSERT(kNumStages == 3 and kNumPrefetch == 1, "Invalid stages");
-
-            auto smem_ptr = smem_buffer + warp_id * (kNumStages * (kNumTMABufferBytes + 16) + kNumMetaBytes);
-            uint32_t tma_phase = 0;
-            auto tma_buffers   = PatternVisitor([=](const int& i) { return reinterpret_cast<int4*>(smem_ptr + i * (kNumTMABufferBytes + 16)); });
-            auto full_barriers = PatternVisitor([=](const int& i) { return reinterpret_cast<uint64_t*>(smem_ptr + i * (kNumTMABufferBytes + 16) + kNumTMABufferBytes); });
-            auto meta_buffers  = kUseLogFMT ? reinterpret_cast<nv_bfloat162*>(smem_ptr + kNumStages * (kNumTMABufferBytes + 16)) : nullptr;
-            EP_STATIC_ASSERT(kNumSendUnrolls * kNumStages <= 12, "TMA buffer size exceed limit");
-
-            // Initialize m-barriers
-            if (lane_id < kNumStages) {
-                mbarrier_init(full_barriers[lane_id], 1);
-                fence_view_async_shared();
-                fence_barrier_init();
-            }
-            __syncwarp();
-
-            constexpr int kNumIters = hidden_bf16_int4_pad / (32 * kNumSendUnrolls);
-            auto tma_load_and_arrive = [&](const int& stage_idx, const int4* gmem_ptr, const int& num_bytes) {
-                tma_load_1d(tma_buffers[stage_idx], gmem_ptr, full_barriers[stage_idx], num_bytes);
-                mbarrier_arrive_and_expect_tx(full_barriers[stage_idx], num_bytes);
-            };
-            auto get_num_tma_bytes = [&](const int& offset_int4) {
-                return min(kNumTMABufferBytes, static_cast<int>((hidden_bf16_int4 - offset_int4) * sizeof(int4)));
-            };
-
             // Issue IBGDA send
             // NOTE changed
             // for (int token_idx = offset + sub_warp_id; token_idx < offset + num_tokens_to_send; token_idx += num_warps_per_group) {

From 7c05830e632dd533041095d0516d1aa29d950c0d Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 19:46:22 +0800
Subject: [PATCH 056/393] fmt

---
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index d8fd445c..f24f057d 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -458,7 +458,7 @@ combine_v2(void* combined_x,
             return min(kNumTMABufferBytes, static_cast<int>((hidden_bf16_int4 - offset_int4) * sizeof(int4)));
         };
         // -------------------------------------------- END tma-related -----------------------------------------------
-    
+
         // NOTE
         // before: "one warp group --- all tokens for one (dsk_rank, local_expert_idx)"
         // after: "multiple warp groups --- cooperate on tokens for one (dsk_rank, local_expert_idx)"

From 79f197b1fd8ff6fb550cec177ff2d8cd4fe429ee Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 19:47:27 +0800
Subject: [PATCH 057/393] else branch

---
 csrc/kernels/internode_ll_v2.cuh | 8 ++++++++
 1 file changed, 8 insertions(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index f24f057d..dd61dbbf 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -602,6 +602,14 @@ combine_v2(void* combined_x,
             fence_barrier_init();
         }
         __syncwarp();
+    } else {
+        // NOTE add
+        for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
+            if (src_signals != nullptr) {
+              // TODO original code uses NamedBarrier, better than this?
+              __syncthreads();
+            }
+        }
     }
 
     // Receiving phase

From 5be75adea6e379a4bd1702c53a4c99eb3d3305b8 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 19:49:30 +0800
Subject: [PATCH 058/393] reduce num sm

---
 csrc/kernels/internode_ll_v2.cuh | 5 +++++
 1 file changed, 5 insertions(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index dd61dbbf..171d6e2c 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -780,6 +780,11 @@ void combine_v2(void* combined_x,
              bool use_logfmt,
              void* workspace, int num_device_sms,
              cudaStream_t stream, int phases, bool zero_copy) {
+    // NOTE reduce combine_send num sm
+    if ((phases & LOW_LATENCY_RECV_PHASE) == 0) {
+        num_device_sms = 32;
+    }
+
     constexpr int kNumMaxTopk = 9;
     const int num_warp_groups = ceil_div(num_experts, num_device_sms);
     const int num_warps_per_group = 32 / num_warp_groups;

From ea10e2ae5e49e67af634dabbc64c28224856b00c Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 20:01:09 +0800
Subject: [PATCH 059/393] cherry pick shifangx nvfp4

---
 csrc/kernels/internode_ll_v2.cuh | 124 +++++++++++++++++++------------
 1 file changed, 76 insertions(+), 48 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 171d6e2c..f04bdf63 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -6,7 +6,7 @@
 namespace deep_ep {
 namespace internode_ll {
 
-template <bool kUseFP8, bool kUseUE8M0, int kHidden>
+template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>
 __global__ __launch_bounds__(1024, 1) void
 dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
          int* packed_recv_src_info, int64_t* packed_recv_layout_range,
@@ -32,20 +32,28 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
     const auto responsible_expert_idx = sm_id * num_warp_groups + warp_group_id;
 
     // May extract UE8M0 from the scales
-    using scale_t = std::conditional_t<kUseUE8M0, uint8_t, float>;
-    using packed_t = std::conditional_t<kUseUE8M0, uint32_t, float>;
+    using scale_t = std::conditional_t<kUseUE8M0 || kUseNVFP4, uint8_t, float>;
+    using packed_t = std::conditional_t<kUseUE8M0 || kUseNVFP4, uint32_t, float>;
     EP_STATIC_ASSERT(sizeof(packed_t) % sizeof(scale_t) == 0, "Invalid vector length");
+    EP_STATIC_ASSERT(!(kUseFP8 && kUseNVFP4), "FP8 and NVFP4 cannot be used together");
 
     // FP8 staffs
-    constexpr int kNumPerChannels = 128;
+    constexpr int kNumPerChannels = kUseNVFP4 ? 16 : 128;
     const int num_scales = kHidden / kNumPerChannels;
-    const size_t hidden_bytes = kHidden * (kUseFP8 ? sizeof(__nv_fp8_storage_t) : sizeof(nv_bfloat16));
+    constexpr size_t hidden_bytes =
+        kUseNVFP4
+            ? kHidden * sizeof(__nv_fp8_storage_t) / 2
+            : kHidden * (kUseFP8 ? sizeof(__nv_fp8_storage_t) : sizeof(nv_bfloat16));
     const size_t hidden_int4 = hidden_bytes / sizeof(int4);
 
-    // Message package: hidden data, FP8 scales, index at source
+    // Message package: index at source (int), 3 reserved int fields, hidden data, FP8 scales
     // NOTES: currently we have 3 reserved int fields for future use
-    using vec_t = std::conditional_t<kUseFP8, int2, int4>;
-    const size_t num_bytes_per_msg = sizeof(int4) + (kUseFP8 ? (kHidden + num_scales * sizeof(float)) : (kHidden * sizeof(nv_bfloat16)));
+    using vec_t = std::conditional_t<
+        kUseNVFP4,
+        int32_t,
+        std::conditional_t<kUseFP8, int2, int4>>;
+    using rdma_x_scale_t = std::conditional_t<kUseNVFP4, uint8_t, float>;
+    const size_t num_bytes_per_msg = sizeof(int4) + ((kUseFP8 || kUseNVFP4) ? (hidden_bytes + num_scales * sizeof(rdma_x_scale_t)) : hidden_bytes);
     const size_t num_int4_per_msg = num_bytes_per_msg / sizeof(int4);
     EP_DEVICE_ASSERT(num_bytes_per_msg % sizeof(int4) == 0);
 
@@ -71,52 +79,54 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
             const auto x_int4 = static_cast<const int4*>(x) + token_idx * hidden_bf16_int4;
             const auto rdma_x_src_idx = reinterpret_cast<int*>(static_cast<uint8_t*>(rdma_x) + token_idx * num_bytes_per_msg);
             const auto rdma_x_vec = reinterpret_cast<vec_t*>(reinterpret_cast<uint8_t*>(rdma_x_src_idx) + sizeof(int4));
-            const auto rdma_x_scales = reinterpret_cast<float*>(reinterpret_cast<uint8_t*>(rdma_x_vec) + hidden_bytes);
+            const auto rdma_x_scales = reinterpret_cast<rdma_x_scale_t*>(reinterpret_cast<uint8_t*>(rdma_x_vec) + hidden_bytes);
 
             // Overlap top-k index read and source token index writes
             auto dst_expert_idx = warp_id < num_topk ? static_cast<int>(__ldg(topk_idx + token_idx * num_topk + warp_id)) : -1;
             thread_id == 0 ? (*rdma_x_src_idx = token_idx) : 0;
 
             // FP8 cast
-            EP_STATIC_ASSERT(hidden_bf16_int4 % 32 == 0, "Must use the full warp to reduce");
-            #pragma unroll
-            for (int i = thread_id; i < hidden_bf16_int4; i += num_threads) {
-                // Read
-                auto int4_value = __ldg(x_int4 + i);
-
-                if constexpr (kUseFP8) {
-                    // Calculate local amax
-                    auto bf16_values = reinterpret_cast<nv_bfloat16*>(&int4_value);
-                    float fp32_values[kNumElemsPerRead];
-                    float amax = kFP8Margin, scale, scale_inv;
-                    #pragma unroll
-                    for (int j = 0; j < kNumElemsPerRead; ++ j) {
-                        fp32_values[j] = static_cast<float>(bf16_values[j]);
-                        amax = fmaxf(amax, fabsf(fp32_values[j]));
-                    }
-
-                    // Reduce amax and scale
-                    EP_STATIC_ASSERT(kNumElemsPerRead * 32 / kNumPerChannels == 2, "Invalid vectorization");
-                    amax = warp_reduce_max<16>(amax);
-                    calculate_fp8_scales(amax, scale, scale_inv, round_scale);
-                    if (lane_id == 0 or lane_id == 16)
-                        rdma_x_scales[i * kNumElemsPerRead / 128] = scale_inv;
+            if constexpr (!kUseNVFP4) {
+                EP_STATIC_ASSERT(hidden_bf16_int4 % 32 == 0, "Must use the full warp to reduce");
+                #pragma unroll
+                for (int i = thread_id; i < hidden_bf16_int4; i += num_threads) {
+                    // Read
+                    auto int4_value = __ldg(x_int4 + i);
+
+                    if constexpr (kUseFP8) {
+                        // Calculate local amax
+                        auto bf16_values = reinterpret_cast<nv_bfloat16*>(&int4_value);
+                        float fp32_values[kNumElemsPerRead];
+                        float amax = kFP8Margin, scale, scale_inv;
+                        #pragma unroll
+                        for (int j = 0; j < kNumElemsPerRead; ++ j) {
+                            fp32_values[j] = static_cast<float>(bf16_values[j]);
+                            amax = fmaxf(amax, fabsf(fp32_values[j]));
+                        }
 
-                    // Cast into send buffer
-                    vec_t int2_value;
-                    auto fp8x2_values = reinterpret_cast<__nv_fp8x2_storage_t*>(&int2_value);
-                    #pragma unroll
-                    for (int j = 0; j < kNumElemsPerRead; j += 2) {
-                        float2 fp32x2 = {fp32_values[j] * scale, fp32_values[j + 1] * scale};
-                        fp8x2_values[j / 2] = __nv_cvt_float2_to_fp8x2(fp32x2, __NV_SATFINITE, __NV_E4M3);
+                        // Reduce amax and scale
+                        EP_STATIC_ASSERT(kNumElemsPerRead * 32 / kNumPerChannels == 2, "Invalid vectorization");
+                        amax = warp_reduce_max<16>(amax);
+                        calculate_fp8_scales(amax, scale, scale_inv, round_scale);
+                        if (lane_id == 0 or lane_id == 16)
+                            rdma_x_scales[i * kNumElemsPerRead / 128] = scale_inv;
+
+                        // Cast into send buffer
+                        vec_t int2_value;
+                        auto fp8x2_values = reinterpret_cast<__nv_fp8x2_storage_t*>(&int2_value);
+                        #pragma unroll
+                        for (int j = 0; j < kNumElemsPerRead; j += 2) {
+                            float2 fp32x2 = {fp32_values[j] * scale, fp32_values[j + 1] * scale};
+                            fp8x2_values[j / 2] = __nv_cvt_float2_to_fp8x2(fp32x2, __NV_SATFINITE, __NV_E4M3);
+                        }
+                        rdma_x_vec[i] = int2_value;
+                    } else {
+                        // Reinterpret-cast is for C++14 compatibility
+                        rdma_x_vec[i] = *reinterpret_cast<vec_t*>(&int4_value);
                     }
-                    rdma_x_vec[i] = int2_value;
-                } else {
-                    // Reinterpret-cast is for C++14 compatibility
-                    rdma_x_vec[i] = *reinterpret_cast<vec_t*>(&int4_value);
                 }
+                asm volatile("bar.sync 1, %0;" :: "r"(num_threads));
             }
-            asm volatile("bar.sync 1, %0;" :: "r"(num_threads));
 
             // Issue IBGDA sends
             if (dst_expert_idx >= 0) {
@@ -264,7 +274,6 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
         recv_token_begin_idx = shared_recv_token_begin_idx[warp_group_id];
 
         // Copy tokens
-        EP_DEVICE_ASSERT(num_scales <= 64);
         for (int i = sub_warp_id; i < num_recv_tokens; i += num_warps_per_group) {
             // Copy source info
             const auto src_src_idx = reinterpret_cast<int*>(rdma_recv_x_uint8 + i * num_bytes_per_msg);
@@ -280,6 +289,7 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
 
             // Copy scales
             if constexpr (kUseFP8) {
+                EP_DEVICE_ASSERT(num_scales <= 64);
                 // Equivalent CuTe layout:
                 //   (num_tokens, (num_packed, num_elems_per_pack)):(num_elems_per_pack, (num_tokens * num_elems_per_pack, 1))
                 const auto src_scales = reinterpret_cast<float*>(reinterpret_cast<uint8_t*>(src_data) + hidden_bytes);
@@ -299,6 +309,22 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
                     auto scale = extract_required_scale_format<kUseUE8M0>(ld_nc_global(src_scales + lane_id + 32));
                     recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
                 }
+            } else if constexpr (kUseNVFP4) {
+                // TODO wait for new swizzle layout
+                // Equivalent CuTe layout:
+                //   (num_tokens, (num_packed, num_elems_per_pack)):(num_elems_per_pack, (num_tokens * num_elems_per_pack, 1))
+                const auto src_scales = reinterpret_cast<uint8_t*>(reinterpret_cast<uint8_t*>(src_data) + hidden_bytes);
+                const auto num_elems_per_pack = static_cast<int>(sizeof(packed_t) / sizeof(scale_t));
+                const auto token_idx = recv_token_begin_idx + i;
+                const auto token_stride = num_elems_per_pack;
+                const auto pack_stride = num_ranks * num_max_dispatch_tokens_per_rank * num_elems_per_pack;
+                #pragma unroll
+                for (int j = lane_id; j < num_scales; j += 32) {
+                    const auto pack_idx = j / num_elems_per_pack;
+                    const auto elem_idx = j % num_elems_per_pack;
+                    auto scale = ld_nc_global(src_scales + j);
+                    recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
+                }
             }
         }
     }
@@ -337,11 +363,13 @@ void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
         EP_HOST_ASSERT(round_scale and "UE8M0 SF requires `round_scale=True`");
 
 #define DISPATCH_LAUNCH_CASE(hidden) { \
-auto dispatch_func = dispatch<false, false, hidden>; \
+auto dispatch_func = dispatch_v2<false, false, false, hidden>; \
 if (use_fp8 and not use_ue8m0) \
-    dispatch_func = dispatch<true, false, hidden>; \
+    dispatch_func = dispatch_v2<true, false, false, hidden>; \
 if (use_fp8 and use_ue8m0) \
-    dispatch_func = dispatch<true, true, hidden>; \
+    dispatch_func = dispatch_v2<true, true, false, hidden>; \
+if (use_nvfp4) \
+    dispatch_func = dispatch_v2<false, false, true, hidden>; \
 LAUNCH_KERNEL(&cfg, dispatch_func, \
               packed_recv_x, packed_recv_x_scales, \
               packed_recv_src_info, packed_recv_layout_range, \

From 90fc1fe461735118b42c8b53ad5bdf39f6007f2f Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 20:02:17 +0800
Subject: [PATCH 060/393] args

---
 csrc/kernels/internode_ll_v2.cuh | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index f04bdf63..331cbf12 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -343,6 +343,7 @@ void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
               bool use_fp8, bool round_scale, bool use_ue8m0,
               void* workspace, int num_device_sms,
               cudaStream_t stream, int phases) {
+    TODO_args(use_nvfp4, dst_signals);
     constexpr int kNumMaxTopK = 9;
     const int num_warp_groups = ceil_div(num_experts, num_device_sms);
     const int num_warps_per_group = 32 / num_warp_groups;
@@ -808,6 +809,7 @@ void combine_v2(void* combined_x,
              bool use_logfmt,
              void* workspace, int num_device_sms,
              cudaStream_t stream, int phases, bool zero_copy) {
+    TODO_args(src_signals);
     // NOTE reduce combine_send num sm
     if ((phases & LOW_LATENCY_RECV_PHASE) == 0) {
         num_device_sms = 32;

From c210f7d4cb38b20f0edcc4e36f025efcef9c66bc Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 20:06:21 +0800
Subject: [PATCH 061/393] expose

---
 csrc/deep_ep.cpp | 1 +
 1 file changed, 1 insertion(+)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 96a3eb25..3bd32175 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1166,6 +1166,7 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
     // Kernel launch
     auto next_clean_meta = next_buffer.clean_meta();
     auto launcher = [=](int phases) {
+        TODO("expose dispatch_rdma_send_buffer to users as a tensor");
         internode_ll::dispatch(enable_v2, packed_recv_x.data_ptr(), packed_recv_x_scales_ptr,
                                packed_recv_src_info.data_ptr<int>(), packed_recv_layout_range.data_ptr<int64_t>(),
                                packed_recv_count.data_ptr<int>(),

From 8ee8e9bc7f2e50af9e8f44c6ea090fb82eea1b48 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 20:16:25 +0800
Subject: [PATCH 062/393] common.cuh

---
 csrc/kernels/internode_ll.cu         | 160 +------------------------
 csrc/kernels/internode_ll_common.cuh | 169 +++++++++++++++++++++++++++
 2 files changed, 170 insertions(+), 159 deletions(-)
 create mode 100644 csrc/kernels/internode_ll_common.cuh

diff --git a/csrc/kernels/internode_ll.cu b/csrc/kernels/internode_ll.cu
index 908f9b12..8eaba63b 100644
--- a/csrc/kernels/internode_ll.cu
+++ b/csrc/kernels/internode_ll.cu
@@ -3,6 +3,7 @@
 #include "launch.cuh"
 #include "ibgda_device.cuh"
 
+#include "internode_ll_common.cuh"
 #include "internode_ll_v2.cuh"
 
 namespace deep_ep {
@@ -412,165 +413,6 @@ LAUNCH_KERNEL(&cfg, dispatch_func, \
 #undef DISPATCH_LAUNCH_CASE
 }
 
-template <int kNumSendUnrolls>
-__forceinline__ __device__ int logfmt_encode(void* buffer, nv_bfloat162 *shared_amaxmin, const int& lane_id) {
-    constexpr int kNumElemsPerInt4 = sizeof(int4) / sizeof(nv_bfloat16);
-    constexpr float kLogThreshold = 0;
-    constexpr float kMinClip = 32; // `== log_2(2 ^ (2 ^ 5))`
-    constexpr int kNumBits = 10;
-    constexpr int kNumValues = 1 << (kNumBits - 1);
-
-    int4 int4_values[kNumSendUnrolls];
-    const auto& uint32_values = reinterpret_cast<uint32_t*>(int4_values);
-    const auto& bf162_values = reinterpret_cast<nv_bfloat162*>(int4_values);
-
-    // Calculate lane offset
-    const auto& ld_buffer = reinterpret_cast<uint32_t*>(static_cast<uint8_t*>(buffer) + lane_id * (kNumSendUnrolls * sizeof(int4)));
-    const auto& st_buffer = reinterpret_cast<uint32_t*>(static_cast<uint8_t*>(buffer) + lane_id * (kNumSendUnrolls * sizeof(int4) * 10 / 16));
-
-    // Local log amax
-    auto bf162_amax = __nv_bfloat162(CUDART_ZERO_BF16, CUDART_ZERO_BF16);
-    auto bf162_amin = __nv_bfloat162(CUDART_INF_BF16, CUDART_INF_BF16);
-    uint32_t local_signs = 0;
-    #pragma unroll
-    for (int k = 0; k < kNumSendUnrolls * kNumElemsPerInt4 / 2; ++ k) {
-        // TODO: eliminate bank conflicts
-        uint32_values[k] = ld_buffer[k];
-        local_signs |= ((uint32_values[k] >> 15) & 1) << (k * 2);
-        local_signs |= ((uint32_values[k] >> 31) & 1) << (k * 2 + 1);
-        uint32_values[k] &= 0x7fff7fff;
-
-        bf162_amax = __hmax2(bf162_amax, bf162_values[k]);
-        bf162_amin = __hmin2(bf162_amin, bf162_values[k]);
-    }
-
-    // Reduce per 128 channels
-    // TODO: figure out how hardware do 2-byte min/max
-    auto amax = std::max(static_cast<float>(bf162_amax.x), static_cast<float>(bf162_amax.y));
-    auto amin = std::min(static_cast<float>(bf162_amin.x), static_cast<float>(bf162_amin.y));
-    constexpr static int kNumLanesToReduce = 128 * sizeof(nv_bfloat16) / (kNumSendUnrolls * sizeof(int4));
-    amax = warp_reduce_max<kNumLanesToReduce>(amax);
-    amin = warp_reduce_min<kNumLanesToReduce>(amin);
-
-    // Write min/max into the shared memory
-    if (shared_amaxmin != nullptr)
-        *shared_amaxmin = __nv_bfloat162(amax, amin);
-    __syncwarp();
-
-    // Calculate log amin/amax float
-    const auto& log_amax = log2f_approx(amax);
-    const auto& log_amin = fmaxf(log2f_approx(amin), log_amax - kMinClip);
-    const bool& enable_cast = warp_reduce_and<kNumLanesToReduce, true>(log_amax < kLogThreshold and log_amin < log_amax);
-
-    // Case into LogFMT-10 if satisfied
-    if (enable_cast) {
-        const auto step = (log_amax - log_amin) / static_cast<float>(kNumValues - 2);
-        const auto step_inv = 1.0f / step;
-        const auto rounding = 2.0f - log2f_approx((1.0f + exp2f_approx(step)) * 0.5f) * step_inv;
-        const auto fused_rounding = rounding - log_amin * step_inv;
-
-        // Pack every 256 bits into 160 bits
-        EP_STATIC_ASSERT(kNumSendUnrolls == 2 or kNumSendUnrolls == 4, "kNumSendUnrolls == 2 or 4 only");
-        uint32_t encoded[kNumElemsPerInt4 * 2];
-        #pragma unroll 1
-        for (int i = 0; i < kNumSendUnrolls / 2; ++ i) {
-            #pragma unroll
-            for (int k = 0; k < kNumElemsPerInt4; ++ k) {
-                const auto& [x, y] = __bfloat1622float2(bf162_values[i * kNumElemsPerInt4 + k]);
-                encoded[k * 2 + 0] = __float2uint_rd(fmaxf(log2f_approx(x) * step_inv + fused_rounding, 0));
-                encoded[k * 2 + 1] = __float2uint_rd(fmaxf(log2f_approx(y) * step_inv + fused_rounding, 0));
-            }
-            st_buffer[i * 5 + 0] = (encoded[ 0] >> 0) | (encoded[ 1] << 9) | (encoded[ 2] << 18) | (encoded[ 3] << 27);
-            st_buffer[i * 5 + 1] = (encoded[ 3] >> 5) | (encoded[ 4] << 4) | (encoded[ 5] << 13) | (encoded[ 6] << 22) | (encoded[7]  << 31);
-            st_buffer[i * 5 + 2] = (encoded[ 7] >> 1) | (encoded[ 8] << 8) | (encoded[ 9] << 17) | (encoded[10] << 26);
-            st_buffer[i * 5 + 3] = (encoded[10] >> 6) | (encoded[11] << 3) | (encoded[12] << 12) | (encoded[13] << 21) | (encoded[14] << 30);
-            st_buffer[i * 5 + 4] = (encoded[14] >> 2) | (encoded[15] << 7) | ((i == 0) ? (local_signs << 16) : (local_signs & 0xffff0000u));
-        }
-        tma_store_fence();
-        __syncwarp();
-    }
-
-    // Return TMA copy bytes
-    return enable_cast ? (32 * (kNumSendUnrolls * sizeof(int4) * 8 * 10 / 16 / 8)):
-                         (32 * (kNumSendUnrolls * sizeof(int4)));
-}
-
-template <int kNumLanes, int kNumSendUnrolls, int kNumRecvUnrolls>
-__forceinline__ __device__ void logfmt_check_amaxmin(uint8_t* meta_buffer, float2* shared_log_amax,
-                                                     float2* shared_log_amin, int* shared_cast_info,
-                                                     const int lane_id) {
-    constexpr float kLogThreshold = 0;
-    constexpr float kMinClip = 32; // `== log_2(2 ^ (2 ^ 5))`
-
-    bool enable_cast = true;
-    if (lane_id < kNumLanes) {
-        // Calculate log amin/amax float
-        auto amaxmin2 = reinterpret_cast<uint64_t*>(meta_buffer)[lane_id];
-        const auto& bf162_amaxmin = reinterpret_cast<__nv_bfloat162*>(&amaxmin2);
-        float log_amax[2], log_amin[2];
-        #pragma unroll
-        for (int i = 0; i < 2; ++ i) {
-            auto amax = static_cast<float>(bf162_amaxmin[i].x);
-            auto amin = static_cast<float>(bf162_amaxmin[i].y);
-            log_amax[i] = log2f_approx(amax);
-            log_amin[i] = amin == 0 ? log_amax[i] - kMinClip : fmaxf(log2f_approx(amin), log_amax[i] - kMinClip);
-            enable_cast = enable_cast and log_amax[i] < kLogThreshold and log_amin[i] < log_amax[i];
-        }
-        shared_log_amax[lane_id] = make_float2(log_amax[0], log_amax[1]);
-        shared_log_amin[lane_id] = make_float2(log_amin[0], log_amin[1]);
-    }
-
-    const auto& casted = warp_reduce_and<kNumSendUnrolls>(enable_cast) ? 1u << (lane_id / kNumRecvUnrolls): 0u;
-    const auto& num_casted_prefix = __popc(warp_reduce_or<kNumRecvUnrolls, true>(casted) & ((1u << (lane_id / kNumRecvUnrolls)) - 1));
-
-    if (lane_id < kNumLanes and lane_id % kNumRecvUnrolls == 0)
-        shared_cast_info[lane_id / kNumRecvUnrolls] = (num_casted_prefix << 1) | (casted ? 1u : 0u);
-    __syncwarp();
-}
-
-template <int kNumRecvUnrolls>
-__forceinline__ __device__ void decode_and_accumulate(uint32_t* ld_buffer, float* accum,
-                                                      const float& log_amax, const float& log_amin,
-                                                      const bool& enable_cast, const float& weight) {
-    if (enable_cast) {
-        constexpr int kNumBits = 10;
-        constexpr int kNumValues = 1 << (kNumBits - 1);
-
-        const auto& step = (log_amax - log_amin) / static_cast<float>(kNumValues - 2);
-        auto decode = [=](const uint32_t &encoded, const uint32_t &sign) {
-            const auto decoded = encoded == 0 ? .0f : exp2f_approx((encoded - 1) * step + log_amin);
-            return sign ? -decoded : decoded;
-        };
-
-        EP_STATIC_ASSERT(kNumRecvUnrolls == 2 or kNumRecvUnrolls == 4, "kNumRecvUnrolls == 2 or 4 only");
-        #pragma unroll
-        for (int i = 0; i < kNumRecvUnrolls / 2; ++ i) {
-            uint32_t concat[6];
-            concat[0] = ld_buffer[i * 5];
-            #pragma unroll
-            for (int k = 1; k < 5; ++ k)
-                concat[k] = (ld_buffer[i * 5 + k - 1] >> (32 - k * 5)) | (ld_buffer[i * 5 + k] << (k * 5));
-            concat[5] = ld_buffer[i * 5 + 4] >> 7;
-
-            const uint32_t& local_signs = ld_buffer[i * 5 + 4] >> 16;
-            #pragma unroll
-            for (int k = 0; k < 5; ++ k) {
-                accum[i * 16 + k * 3 + 0] += decode((concat[k] >>  0) & 0x1ff, (local_signs >> (k * 3 + 0)) & 1) * weight;
-                accum[i * 16 + k * 3 + 1] += decode((concat[k] >>  9) & 0x1ff, (local_signs >> (k * 3 + 1)) & 1) * weight;
-                accum[i * 16 + k * 3 + 2] += decode((concat[k] >> 18) & 0x1ff, (local_signs >> (k * 3 + 2)) & 1) * weight;
-            }
-            accum[i * 16 + 15] += decode(concat[5] & 0x1ff, (local_signs >> 15) & 1) * weight;
-        }
-    } else {
-        #pragma unroll
-        for (int k = 0; k < kNumRecvUnrolls * 4; ++ k) {
-            auto bf16_pack = *reinterpret_cast<__nv_bfloat162*>(ld_buffer + k);
-            accum[k * 2 + 0] += static_cast<float>(bf16_pack.x) * weight;
-            accum[k * 2 + 1] += static_cast<float>(bf16_pack.y) * weight;
-        }
-    }
-}
-
 template <bool kUseLogFMT, int kHidden, int kNumMaxTopk, int kNumMaxUnrolls>
 __global__ __launch_bounds__(1024, 1) void
 combine(void* combined_x,
diff --git a/csrc/kernels/internode_ll_common.cuh b/csrc/kernels/internode_ll_common.cuh
new file mode 100644
index 00000000..25962dcd
--- /dev/null
+++ b/csrc/kernels/internode_ll_common.cuh
@@ -0,0 +1,169 @@
+#include "configs.cuh"
+#include "exception.cuh"
+#include "launch.cuh"
+#include "ibgda_device.cuh"
+
+namespace deep_ep {
+namespace internode_ll {
+
+template <int kNumSendUnrolls>
+__forceinline__ __device__ int logfmt_encode(void* buffer, nv_bfloat162 *shared_amaxmin, const int& lane_id) {
+    constexpr int kNumElemsPerInt4 = sizeof(int4) / sizeof(nv_bfloat16);
+    constexpr float kLogThreshold = 0;
+    constexpr float kMinClip = 32; // `== log_2(2 ^ (2 ^ 5))`
+    constexpr int kNumBits = 10;
+    constexpr int kNumValues = 1 << (kNumBits - 1);
+
+    int4 int4_values[kNumSendUnrolls];
+    const auto& uint32_values = reinterpret_cast<uint32_t*>(int4_values);
+    const auto& bf162_values = reinterpret_cast<nv_bfloat162*>(int4_values);
+
+    // Calculate lane offset
+    const auto& ld_buffer = reinterpret_cast<uint32_t*>(static_cast<uint8_t*>(buffer) + lane_id * (kNumSendUnrolls * sizeof(int4)));
+    const auto& st_buffer = reinterpret_cast<uint32_t*>(static_cast<uint8_t*>(buffer) + lane_id * (kNumSendUnrolls * sizeof(int4) * 10 / 16));
+
+    // Local log amax
+    auto bf162_amax = __nv_bfloat162(CUDART_ZERO_BF16, CUDART_ZERO_BF16);
+    auto bf162_amin = __nv_bfloat162(CUDART_INF_BF16, CUDART_INF_BF16);
+    uint32_t local_signs = 0;
+    #pragma unroll
+    for (int k = 0; k < kNumSendUnrolls * kNumElemsPerInt4 / 2; ++ k) {
+        // TODO: eliminate bank conflicts
+        uint32_values[k] = ld_buffer[k];
+        local_signs |= ((uint32_values[k] >> 15) & 1) << (k * 2);
+        local_signs |= ((uint32_values[k] >> 31) & 1) << (k * 2 + 1);
+        uint32_values[k] &= 0x7fff7fff;
+
+        bf162_amax = __hmax2(bf162_amax, bf162_values[k]);
+        bf162_amin = __hmin2(bf162_amin, bf162_values[k]);
+    }
+
+    // Reduce per 128 channels
+    // TODO: figure out how hardware do 2-byte min/max
+    auto amax = std::max(static_cast<float>(bf162_amax.x), static_cast<float>(bf162_amax.y));
+    auto amin = std::min(static_cast<float>(bf162_amin.x), static_cast<float>(bf162_amin.y));
+    constexpr static int kNumLanesToReduce = 128 * sizeof(nv_bfloat16) / (kNumSendUnrolls * sizeof(int4));
+    amax = warp_reduce_max<kNumLanesToReduce>(amax);
+    amin = warp_reduce_min<kNumLanesToReduce>(amin);
+
+    // Write min/max into the shared memory
+    if (shared_amaxmin != nullptr)
+        *shared_amaxmin = __nv_bfloat162(amax, amin);
+    __syncwarp();
+
+    // Calculate log amin/amax float
+    const auto& log_amax = log2f_approx(amax);
+    const auto& log_amin = fmaxf(log2f_approx(amin), log_amax - kMinClip);
+    const bool& enable_cast = warp_reduce_and<kNumLanesToReduce, true>(log_amax < kLogThreshold and log_amin < log_amax);
+
+    // Case into LogFMT-10 if satisfied
+    if (enable_cast) {
+        const auto step = (log_amax - log_amin) / static_cast<float>(kNumValues - 2);
+        const auto step_inv = 1.0f / step;
+        const auto rounding = 2.0f - log2f_approx((1.0f + exp2f_approx(step)) * 0.5f) * step_inv;
+        const auto fused_rounding = rounding - log_amin * step_inv;
+
+        // Pack every 256 bits into 160 bits
+        EP_STATIC_ASSERT(kNumSendUnrolls == 2 or kNumSendUnrolls == 4, "kNumSendUnrolls == 2 or 4 only");
+        uint32_t encoded[kNumElemsPerInt4 * 2];
+        #pragma unroll 1
+        for (int i = 0; i < kNumSendUnrolls / 2; ++ i) {
+            #pragma unroll
+            for (int k = 0; k < kNumElemsPerInt4; ++ k) {
+                const auto& [x, y] = __bfloat1622float2(bf162_values[i * kNumElemsPerInt4 + k]);
+                encoded[k * 2 + 0] = __float2uint_rd(fmaxf(log2f_approx(x) * step_inv + fused_rounding, 0));
+                encoded[k * 2 + 1] = __float2uint_rd(fmaxf(log2f_approx(y) * step_inv + fused_rounding, 0));
+            }
+            st_buffer[i * 5 + 0] = (encoded[ 0] >> 0) | (encoded[ 1] << 9) | (encoded[ 2] << 18) | (encoded[ 3] << 27);
+            st_buffer[i * 5 + 1] = (encoded[ 3] >> 5) | (encoded[ 4] << 4) | (encoded[ 5] << 13) | (encoded[ 6] << 22) | (encoded[7]  << 31);
+            st_buffer[i * 5 + 2] = (encoded[ 7] >> 1) | (encoded[ 8] << 8) | (encoded[ 9] << 17) | (encoded[10] << 26);
+            st_buffer[i * 5 + 3] = (encoded[10] >> 6) | (encoded[11] << 3) | (encoded[12] << 12) | (encoded[13] << 21) | (encoded[14] << 30);
+            st_buffer[i * 5 + 4] = (encoded[14] >> 2) | (encoded[15] << 7) | ((i == 0) ? (local_signs << 16) : (local_signs & 0xffff0000u));
+        }
+        tma_store_fence();
+        __syncwarp();
+    }
+
+    // Return TMA copy bytes
+    return enable_cast ? (32 * (kNumSendUnrolls * sizeof(int4) * 8 * 10 / 16 / 8)):
+                         (32 * (kNumSendUnrolls * sizeof(int4)));
+}
+
+template <int kNumLanes, int kNumSendUnrolls, int kNumRecvUnrolls>
+__forceinline__ __device__ void logfmt_check_amaxmin(uint8_t* meta_buffer, float2* shared_log_amax,
+                                                     float2* shared_log_amin, int* shared_cast_info,
+                                                     const int lane_id) {
+    constexpr float kLogThreshold = 0;
+    constexpr float kMinClip = 32; // `== log_2(2 ^ (2 ^ 5))`
+
+    bool enable_cast = true;
+    if (lane_id < kNumLanes) {
+        // Calculate log amin/amax float
+        auto amaxmin2 = reinterpret_cast<uint64_t*>(meta_buffer)[lane_id];
+        const auto& bf162_amaxmin = reinterpret_cast<__nv_bfloat162*>(&amaxmin2);
+        float log_amax[2], log_amin[2];
+        #pragma unroll
+        for (int i = 0; i < 2; ++ i) {
+            auto amax = static_cast<float>(bf162_amaxmin[i].x);
+            auto amin = static_cast<float>(bf162_amaxmin[i].y);
+            log_amax[i] = log2f_approx(amax);
+            log_amin[i] = amin == 0 ? log_amax[i] - kMinClip : fmaxf(log2f_approx(amin), log_amax[i] - kMinClip);
+            enable_cast = enable_cast and log_amax[i] < kLogThreshold and log_amin[i] < log_amax[i];
+        }
+        shared_log_amax[lane_id] = make_float2(log_amax[0], log_amax[1]);
+        shared_log_amin[lane_id] = make_float2(log_amin[0], log_amin[1]);
+    }
+
+    const auto& casted = warp_reduce_and<kNumSendUnrolls>(enable_cast) ? 1u << (lane_id / kNumRecvUnrolls): 0u;
+    const auto& num_casted_prefix = __popc(warp_reduce_or<kNumRecvUnrolls, true>(casted) & ((1u << (lane_id / kNumRecvUnrolls)) - 1));
+
+    if (lane_id < kNumLanes and lane_id % kNumRecvUnrolls == 0)
+        shared_cast_info[lane_id / kNumRecvUnrolls] = (num_casted_prefix << 1) | (casted ? 1u : 0u);
+    __syncwarp();
+}
+
+template <int kNumRecvUnrolls>
+__forceinline__ __device__ void decode_and_accumulate(uint32_t* ld_buffer, float* accum,
+                                                      const float& log_amax, const float& log_amin,
+                                                      const bool& enable_cast, const float& weight) {
+    if (enable_cast) {
+        constexpr int kNumBits = 10;
+        constexpr int kNumValues = 1 << (kNumBits - 1);
+
+        const auto& step = (log_amax - log_amin) / static_cast<float>(kNumValues - 2);
+        auto decode = [=](const uint32_t &encoded, const uint32_t &sign) {
+            const auto decoded = encoded == 0 ? .0f : exp2f_approx((encoded - 1) * step + log_amin);
+            return sign ? -decoded : decoded;
+        };
+
+        EP_STATIC_ASSERT(kNumRecvUnrolls == 2 or kNumRecvUnrolls == 4, "kNumRecvUnrolls == 2 or 4 only");
+        #pragma unroll
+        for (int i = 0; i < kNumRecvUnrolls / 2; ++ i) {
+            uint32_t concat[6];
+            concat[0] = ld_buffer[i * 5];
+            #pragma unroll
+            for (int k = 1; k < 5; ++ k)
+                concat[k] = (ld_buffer[i * 5 + k - 1] >> (32 - k * 5)) | (ld_buffer[i * 5 + k] << (k * 5));
+            concat[5] = ld_buffer[i * 5 + 4] >> 7;
+
+            const uint32_t& local_signs = ld_buffer[i * 5 + 4] >> 16;
+            #pragma unroll
+            for (int k = 0; k < 5; ++ k) {
+                accum[i * 16 + k * 3 + 0] += decode((concat[k] >>  0) & 0x1ff, (local_signs >> (k * 3 + 0)) & 1) * weight;
+                accum[i * 16 + k * 3 + 1] += decode((concat[k] >>  9) & 0x1ff, (local_signs >> (k * 3 + 1)) & 1) * weight;
+                accum[i * 16 + k * 3 + 2] += decode((concat[k] >> 18) & 0x1ff, (local_signs >> (k * 3 + 2)) & 1) * weight;
+            }
+            accum[i * 16 + 15] += decode(concat[5] & 0x1ff, (local_signs >> 15) & 1) * weight;
+        }
+    } else {
+        #pragma unroll
+        for (int k = 0; k < kNumRecvUnrolls * 4; ++ k) {
+            auto bf16_pack = *reinterpret_cast<__nv_bfloat162*>(ld_buffer + k);
+            accum[k * 2 + 0] += static_cast<float>(bf16_pack.x) * weight;
+            accum[k * 2 + 1] += static_cast<float>(bf16_pack.y) * weight;
+        }
+    }
+}
+
+} // namespace internode_ll
+} // namespace deep_ep

From d565c515d18491f2df0bbf12aa52790c54646f14 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 20:16:49 +0800
Subject: [PATCH 063/393] chore

---
 csrc/kernels/internode_ll.cu | 1 +
 1 file changed, 1 insertion(+)

diff --git a/csrc/kernels/internode_ll.cu b/csrc/kernels/internode_ll.cu
index 8eaba63b..0adf43ae 100644
--- a/csrc/kernels/internode_ll.cu
+++ b/csrc/kernels/internode_ll.cu
@@ -3,6 +3,7 @@
 #include "launch.cuh"
 #include "ibgda_device.cuh"
 
+// temporary hack to put it into cuh
 #include "internode_ll_common.cuh"
 #include "internode_ll_v2.cuh"
 

From 1cb98abf6c650a09f050abd3e34a115574c32d74 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 20:18:01 +0800
Subject: [PATCH 064/393] extract

---
 csrc/kernels/internode_ll_v2.cuh | 144 ++++++++++++++++---------------
 1 file changed, 76 insertions(+), 68 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 331cbf12..23fc132a 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -6,65 +6,7 @@
 namespace deep_ep {
 namespace internode_ll {
 
-template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>
-__global__ __launch_bounds__(1024, 1) void
-dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
-         int* packed_recv_src_info, int64_t* packed_recv_layout_range,
-         int* packed_recv_count,
-         int* cumulative_local_expert_recv_stats,
-         int64_t* dispatch_wait_recv_cost_stats,
-         void* rdma_recv_x, int* rdma_recv_count, void* rdma_x,
-         const void* x, const int64_t* topk_idx,
-         int* atomic_counter_per_expert, int* atomic_finish_counter_per_expert,
-         int* next_clean, int num_next_clean_int,
-         int num_tokens, int num_max_dispatch_tokens_per_rank,
-         int num_topk, int num_experts, int rank, int num_ranks,
-         int num_warp_groups, int num_warps_per_group,
-         bool round_scale, int phases) {
-    const auto sm_id = static_cast<int>(blockIdx.x);
-    const auto thread_id = static_cast<int>(threadIdx.x);
-    const auto warp_id = thread_id / 32, lane_id = get_lane_id();
-    const auto num_sms = static_cast<int>(gridDim.x);
-    const auto num_warps = num_warp_groups * num_warps_per_group;
-    const auto num_local_experts = num_experts / num_ranks;
-    const auto warp_group_id = warp_id / num_warps_per_group;
-    const auto sub_warp_id = warp_id % num_warps_per_group;
-    const auto responsible_expert_idx = sm_id * num_warp_groups + warp_group_id;
-
-    // May extract UE8M0 from the scales
-    using scale_t = std::conditional_t<kUseUE8M0 || kUseNVFP4, uint8_t, float>;
-    using packed_t = std::conditional_t<kUseUE8M0 || kUseNVFP4, uint32_t, float>;
-    EP_STATIC_ASSERT(sizeof(packed_t) % sizeof(scale_t) == 0, "Invalid vector length");
-    EP_STATIC_ASSERT(!(kUseFP8 && kUseNVFP4), "FP8 and NVFP4 cannot be used together");
-
-    // FP8 staffs
-    constexpr int kNumPerChannels = kUseNVFP4 ? 16 : 128;
-    const int num_scales = kHidden / kNumPerChannels;
-    constexpr size_t hidden_bytes =
-        kUseNVFP4
-            ? kHidden * sizeof(__nv_fp8_storage_t) / 2
-            : kHidden * (kUseFP8 ? sizeof(__nv_fp8_storage_t) : sizeof(nv_bfloat16));
-    const size_t hidden_int4 = hidden_bytes / sizeof(int4);
-
-    // Message package: index at source (int), 3 reserved int fields, hidden data, FP8 scales
-    // NOTES: currently we have 3 reserved int fields for future use
-    using vec_t = std::conditional_t<
-        kUseNVFP4,
-        int32_t,
-        std::conditional_t<kUseFP8, int2, int4>>;
-    using rdma_x_scale_t = std::conditional_t<kUseNVFP4, uint8_t, float>;
-    const size_t num_bytes_per_msg = sizeof(int4) + ((kUseFP8 || kUseNVFP4) ? (hidden_bytes + num_scales * sizeof(rdma_x_scale_t)) : hidden_bytes);
-    const size_t num_int4_per_msg = num_bytes_per_msg / sizeof(int4);
-    EP_DEVICE_ASSERT(num_bytes_per_msg % sizeof(int4) == 0);
-
-    // Expert counts
-    constexpr int kNumMaxWarpGroups = 32;
-    __shared__ int shared_num_tokens_sent_per_expert[kNumMaxWarpGroups];
-
-    // Sending phase
-    if ((phases & LOW_LATENCY_SEND_PHASE) == 0)
-        goto LOW_LATENCY_DISPATCH_RECV;
-
+__forceinline__ __device__ int dispatch_send() {
     // There are 2 kinds of warps in this part:
     // 1. The first-kind warps for FP8 cast and sending top-k tokens
     // 2. The last warp for reading `topk_idx` and count for per-expert information
@@ -222,16 +164,9 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
             packed_recv_count[dst_expert_local_idx] = 0;
     }
     __syncwarp();
+}
 
-    // Receiving phase
-    LOW_LATENCY_DISPATCH_RECV:
-    if ((phases & LOW_LATENCY_RECV_PHASE) == 0)
-        return;
-
-    // For send-and-recv kernels, we need a grid sync for making `packed_recv_count` visible
-    if (phases & LOW_LATENCY_SEND_PHASE)
-        cg::this_grid().sync();
-
+__forceinline__ __device__ int dispatch_recv() {
     // Receiving and packing
     if (responsible_expert_idx < num_experts) {
         const auto src_rank = responsible_expert_idx / num_local_experts;
@@ -330,6 +265,79 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
     }
 }
 
+template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>
+__global__ __launch_bounds__(1024, 1) void
+dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
+         int* packed_recv_src_info, int64_t* packed_recv_layout_range,
+         int* packed_recv_count,
+         int* cumulative_local_expert_recv_stats,
+         int64_t* dispatch_wait_recv_cost_stats,
+         void* rdma_recv_x, int* rdma_recv_count, void* rdma_x,
+         const void* x, const int64_t* topk_idx,
+         int* atomic_counter_per_expert, int* atomic_finish_counter_per_expert,
+         int* next_clean, int num_next_clean_int,
+         int num_tokens, int num_max_dispatch_tokens_per_rank,
+         int num_topk, int num_experts, int rank, int num_ranks,
+         int num_warp_groups, int num_warps_per_group,
+         bool round_scale, int phases) {
+    const auto sm_id = static_cast<int>(blockIdx.x);
+    const auto thread_id = static_cast<int>(threadIdx.x);
+    const auto warp_id = thread_id / 32, lane_id = get_lane_id();
+    const auto num_sms = static_cast<int>(gridDim.x);
+    const auto num_warps = num_warp_groups * num_warps_per_group;
+    const auto num_local_experts = num_experts / num_ranks;
+    const auto warp_group_id = warp_id / num_warps_per_group;
+    const auto sub_warp_id = warp_id % num_warps_per_group;
+    const auto responsible_expert_idx = sm_id * num_warp_groups + warp_group_id;
+
+    // May extract UE8M0 from the scales
+    using scale_t = std::conditional_t<kUseUE8M0 || kUseNVFP4, uint8_t, float>;
+    using packed_t = std::conditional_t<kUseUE8M0 || kUseNVFP4, uint32_t, float>;
+    EP_STATIC_ASSERT(sizeof(packed_t) % sizeof(scale_t) == 0, "Invalid vector length");
+    EP_STATIC_ASSERT(!(kUseFP8 && kUseNVFP4), "FP8 and NVFP4 cannot be used together");
+
+    // FP8 staffs
+    constexpr int kNumPerChannels = kUseNVFP4 ? 16 : 128;
+    const int num_scales = kHidden / kNumPerChannels;
+    constexpr size_t hidden_bytes =
+        kUseNVFP4
+            ? kHidden * sizeof(__nv_fp8_storage_t) / 2
+            : kHidden * (kUseFP8 ? sizeof(__nv_fp8_storage_t) : sizeof(nv_bfloat16));
+    const size_t hidden_int4 = hidden_bytes / sizeof(int4);
+
+    // Message package: index at source (int), 3 reserved int fields, hidden data, FP8 scales
+    // NOTES: currently we have 3 reserved int fields for future use
+    using vec_t = std::conditional_t<
+        kUseNVFP4,
+        int32_t,
+        std::conditional_t<kUseFP8, int2, int4>>;
+    using rdma_x_scale_t = std::conditional_t<kUseNVFP4, uint8_t, float>;
+    const size_t num_bytes_per_msg = sizeof(int4) + ((kUseFP8 || kUseNVFP4) ? (hidden_bytes + num_scales * sizeof(rdma_x_scale_t)) : hidden_bytes);
+    const size_t num_int4_per_msg = num_bytes_per_msg / sizeof(int4);
+    EP_DEVICE_ASSERT(num_bytes_per_msg % sizeof(int4) == 0);
+
+    // Expert counts
+    constexpr int kNumMaxWarpGroups = 32;
+    __shared__ int shared_num_tokens_sent_per_expert[kNumMaxWarpGroups];
+
+    // Sending phase
+    if ((phases & LOW_LATENCY_SEND_PHASE) == 0)
+        goto LOW_LATENCY_DISPATCH_RECV;
+
+    dispatch_send();
+
+    // Receiving phase
+    LOW_LATENCY_DISPATCH_RECV:
+    if ((phases & LOW_LATENCY_RECV_PHASE) == 0)
+        return;
+
+    // For send-and-recv kernels, we need a grid sync for making `packed_recv_count` visible
+    if (phases & LOW_LATENCY_SEND_PHASE)
+        cg::this_grid().sync();
+
+    dispatch_recv();
+}
+
 void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
               int* packed_recv_src_info, int64_t* packed_recv_layout_range,
               int* packed_recv_count,

From 3cd106a21589d5413593eae742ea3b8028848403 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 20:18:16 +0800
Subject: [PATCH 065/393] args

---
 csrc/kernels/internode_ll_v2.cuh | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 23fc132a..301c2ee7 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -324,7 +324,7 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
     if ((phases & LOW_LATENCY_SEND_PHASE) == 0)
         goto LOW_LATENCY_DISPATCH_RECV;
 
-    dispatch_send();
+    dispatch_send(TODO_args);
 
     // Receiving phase
     LOW_LATENCY_DISPATCH_RECV:
@@ -335,7 +335,7 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
     if (phases & LOW_LATENCY_SEND_PHASE)
         cg::this_grid().sync();
 
-    dispatch_recv();
+    dispatch_recv(TODO_args);
 }
 
 void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,

From fdbf0b749471f0d6ec7fc90eb5afcadd0c9ee8cd Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 20:19:01 +0800
Subject: [PATCH 066/393] rm cast

---
 csrc/kernels/internode_ll_v2.cuh | 81 ++++++++++++++++----------------
 1 file changed, 40 insertions(+), 41 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 301c2ee7..afdc670b 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -27,48 +27,47 @@ __forceinline__ __device__ int dispatch_send() {
             auto dst_expert_idx = warp_id < num_topk ? static_cast<int>(__ldg(topk_idx + token_idx * num_topk + warp_id)) : -1;
             thread_id == 0 ? (*rdma_x_src_idx = token_idx) : 0;
 
+            // NOTE no read or cast in fp4
             // FP8 cast
-            if constexpr (!kUseNVFP4) {
-                EP_STATIC_ASSERT(hidden_bf16_int4 % 32 == 0, "Must use the full warp to reduce");
-                #pragma unroll
-                for (int i = thread_id; i < hidden_bf16_int4; i += num_threads) {
-                    // Read
-                    auto int4_value = __ldg(x_int4 + i);
-
-                    if constexpr (kUseFP8) {
-                        // Calculate local amax
-                        auto bf16_values = reinterpret_cast<nv_bfloat16*>(&int4_value);
-                        float fp32_values[kNumElemsPerRead];
-                        float amax = kFP8Margin, scale, scale_inv;
-                        #pragma unroll
-                        for (int j = 0; j < kNumElemsPerRead; ++ j) {
-                            fp32_values[j] = static_cast<float>(bf16_values[j]);
-                            amax = fmaxf(amax, fabsf(fp32_values[j]));
-                        }
-
-                        // Reduce amax and scale
-                        EP_STATIC_ASSERT(kNumElemsPerRead * 32 / kNumPerChannels == 2, "Invalid vectorization");
-                        amax = warp_reduce_max<16>(amax);
-                        calculate_fp8_scales(amax, scale, scale_inv, round_scale);
-                        if (lane_id == 0 or lane_id == 16)
-                            rdma_x_scales[i * kNumElemsPerRead / 128] = scale_inv;
-
-                        // Cast into send buffer
-                        vec_t int2_value;
-                        auto fp8x2_values = reinterpret_cast<__nv_fp8x2_storage_t*>(&int2_value);
-                        #pragma unroll
-                        for (int j = 0; j < kNumElemsPerRead; j += 2) {
-                            float2 fp32x2 = {fp32_values[j] * scale, fp32_values[j + 1] * scale};
-                            fp8x2_values[j / 2] = __nv_cvt_float2_to_fp8x2(fp32x2, __NV_SATFINITE, __NV_E4M3);
-                        }
-                        rdma_x_vec[i] = int2_value;
-                    } else {
-                        // Reinterpret-cast is for C++14 compatibility
-                        rdma_x_vec[i] = *reinterpret_cast<vec_t*>(&int4_value);
-                    }
-                }
-                asm volatile("bar.sync 1, %0;" :: "r"(num_threads));
-            }
+//             EP_STATIC_ASSERT(hidden_bf16_int4 % 32 == 0, "Must use the full warp to reduce");
+//             #pragma unroll
+//             for (int i = thread_id; i < hidden_bf16_int4; i += num_threads) {
+//                 // Read
+//                 auto int4_value = __ldg(x_int4 + i);
+//
+//                 if constexpr (kUseFP8) {
+//                     // Calculate local amax
+//                     auto bf16_values = reinterpret_cast<nv_bfloat16*>(&int4_value);
+//                     float fp32_values[kNumElemsPerRead];
+//                     float amax = kFP8Margin, scale, scale_inv;
+//                     #pragma unroll
+//                     for (int j = 0; j < kNumElemsPerRead; ++ j) {
+//                         fp32_values[j] = static_cast<float>(bf16_values[j]);
+//                         amax = fmaxf(amax, fabsf(fp32_values[j]));
+//                     }
+//
+//                     // Reduce amax and scale
+//                     EP_STATIC_ASSERT(kNumElemsPerRead * 32 / kNumPerChannels == 2, "Invalid vectorization");
+//                     amax = warp_reduce_max<16>(amax);
+//                     calculate_fp8_scales(amax, scale, scale_inv, round_scale);
+//                     if (lane_id == 0 or lane_id == 16)
+//                         rdma_x_scales[i * kNumElemsPerRead / 128] = scale_inv;
+//
+//                     // Cast into send buffer
+//                     vec_t int2_value;
+//                     auto fp8x2_values = reinterpret_cast<__nv_fp8x2_storage_t*>(&int2_value);
+//                     #pragma unroll
+//                     for (int j = 0; j < kNumElemsPerRead; j += 2) {
+//                         float2 fp32x2 = {fp32_values[j] * scale, fp32_values[j + 1] * scale};
+//                         fp8x2_values[j / 2] = __nv_cvt_float2_to_fp8x2(fp32x2, __NV_SATFINITE, __NV_E4M3);
+//                     }
+//                     rdma_x_vec[i] = int2_value;
+//                 } else {
+//                     // Reinterpret-cast is for C++14 compatibility
+//                     rdma_x_vec[i] = *reinterpret_cast<vec_t*>(&int4_value);
+//                 }
+//             }
+//             asm volatile("bar.sync 1, %0;" :: "r"(num_threads));
 
             // Issue IBGDA sends
             if (dst_expert_idx >= 0) {

From 411cbb4c4e31dfbc8b29d15dd791d9efe2b05e58 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 20:19:59 +0800
Subject: [PATCH 067/393] mv

---
 csrc/kernels/internode_ll_v2.cuh | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index afdc670b..ae9d5389 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -166,6 +166,12 @@ __forceinline__ __device__ int dispatch_send() {
 }
 
 __forceinline__ __device__ int dispatch_recv() {
+    // May extract UE8M0 from the scales
+    using scale_t = std::conditional_t<kUseUE8M0 || kUseNVFP4, uint8_t, float>;
+    using packed_t = std::conditional_t<kUseUE8M0 || kUseNVFP4, uint32_t, float>;
+    EP_STATIC_ASSERT(sizeof(packed_t) % sizeof(scale_t) == 0, "Invalid vector length");
+    EP_STATIC_ASSERT(!(kUseFP8 && kUseNVFP4), "FP8 and NVFP4 cannot be used together");
+
     // Receiving and packing
     if (responsible_expert_idx < num_experts) {
         const auto src_rank = responsible_expert_idx / num_local_experts;
@@ -289,12 +295,6 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
     const auto sub_warp_id = warp_id % num_warps_per_group;
     const auto responsible_expert_idx = sm_id * num_warp_groups + warp_group_id;
 
-    // May extract UE8M0 from the scales
-    using scale_t = std::conditional_t<kUseUE8M0 || kUseNVFP4, uint8_t, float>;
-    using packed_t = std::conditional_t<kUseUE8M0 || kUseNVFP4, uint32_t, float>;
-    EP_STATIC_ASSERT(sizeof(packed_t) % sizeof(scale_t) == 0, "Invalid vector length");
-    EP_STATIC_ASSERT(!(kUseFP8 && kUseNVFP4), "FP8 and NVFP4 cannot be used together");
-
     // FP8 staffs
     constexpr int kNumPerChannels = kUseNVFP4 ? 16 : 128;
     const int num_scales = kHidden / kNumPerChannels;

From 4f5d8d9f4544d2f6540d8056067c5642e3133d87 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 20:20:39 +0800
Subject: [PATCH 068/393] mv

---
 csrc/kernels/internode_ll_v2.cuh | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index ae9d5389..b877df70 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -7,6 +7,10 @@ namespace deep_ep {
 namespace internode_ll {
 
 __forceinline__ __device__ int dispatch_send() {
+    // Expert counts
+    constexpr int kNumMaxWarpGroups = 32;
+    __shared__ int shared_num_tokens_sent_per_expert[kNumMaxWarpGroups];
+
     // There are 2 kinds of warps in this part:
     // 1. The first-kind warps for FP8 cast and sending top-k tokens
     // 2. The last warp for reading `topk_idx` and count for per-expert information
@@ -315,10 +319,6 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
     const size_t num_int4_per_msg = num_bytes_per_msg / sizeof(int4);
     EP_DEVICE_ASSERT(num_bytes_per_msg % sizeof(int4) == 0);
 
-    // Expert counts
-    constexpr int kNumMaxWarpGroups = 32;
-    __shared__ int shared_num_tokens_sent_per_expert[kNumMaxWarpGroups];
-
     // Sending phase
     if ((phases & LOW_LATENCY_SEND_PHASE) == 0)
         goto LOW_LATENCY_DISPATCH_RECV;

From e12ee8a4918201d957b92c0ea9a2897473474fc0 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 20:22:25 +0800
Subject: [PATCH 069/393] constexpr

---
 csrc/kernels/internode_ll_v2.cuh | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index b877df70..16b72552 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -301,12 +301,12 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
 
     // FP8 staffs
     constexpr int kNumPerChannels = kUseNVFP4 ? 16 : 128;
-    const int num_scales = kHidden / kNumPerChannels;
+    constexpr int num_scales = kHidden / kNumPerChannels;
     constexpr size_t hidden_bytes =
         kUseNVFP4
             ? kHidden * sizeof(__nv_fp8_storage_t) / 2
             : kHidden * (kUseFP8 ? sizeof(__nv_fp8_storage_t) : sizeof(nv_bfloat16));
-    const size_t hidden_int4 = hidden_bytes / sizeof(int4);
+    constexpr size_t hidden_int4 = hidden_bytes / sizeof(int4);
 
     // Message package: index at source (int), 3 reserved int fields, hidden data, FP8 scales
     // NOTES: currently we have 3 reserved int fields for future use
@@ -315,8 +315,8 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
         int32_t,
         std::conditional_t<kUseFP8, int2, int4>>;
     using rdma_x_scale_t = std::conditional_t<kUseNVFP4, uint8_t, float>;
-    const size_t num_bytes_per_msg = sizeof(int4) + ((kUseFP8 || kUseNVFP4) ? (hidden_bytes + num_scales * sizeof(rdma_x_scale_t)) : hidden_bytes);
-    const size_t num_int4_per_msg = num_bytes_per_msg / sizeof(int4);
+    constexpr size_t num_bytes_per_msg = sizeof(int4) + ((kUseFP8 || kUseNVFP4) ? (hidden_bytes + num_scales * sizeof(rdma_x_scale_t)) : hidden_bytes);
+    constexpr size_t num_int4_per_msg = num_bytes_per_msg / sizeof(int4);
     EP_DEVICE_ASSERT(num_bytes_per_msg % sizeof(int4) == 0);
 
     // Sending phase

From affc2caaa78ae5898217a5c3a850a72c727b77da Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 20:24:38 +0800
Subject: [PATCH 070/393] DispatchConst

---
 csrc/kernels/internode_ll_v2.cuh | 41 ++++++++++++++++++--------------
 1 file changed, 23 insertions(+), 18 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 16b72552..da6b1089 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -6,6 +6,29 @@
 namespace deep_ep {
 namespace internode_ll {
 
+// NOTE extracted from `dispatch` body
+template <bool kUseFP8, bool kUseNVFP4, int kHidden>
+struct DispatchConstTemplate {
+    // FP8 staffs
+    static constexpr int kNumPerChannels = kUseNVFP4 ? 16 : 128;
+    static constexpr int num_scales = kHidden / kNumPerChannels;
+    static constexpr size_t hidden_bytes =
+        kUseNVFP4
+            ? kHidden * sizeof(__nv_fp8_storage_t) / 2
+            : kHidden * (kUseFP8 ? sizeof(__nv_fp8_storage_t) : sizeof(nv_bfloat16));
+    static constexpr size_t hidden_int4 = hidden_bytes / sizeof(int4);
+
+    // Message package: index at source (int), 3 reserved int fields, hidden data, FP8 scales
+    // NOTES: currently we have 3 reserved int fields for future use
+    using vec_t = std::conditional_t<
+        kUseNVFP4,
+        int32_t,
+        std::conditional_t<kUseFP8, int2, int4>>;
+    using rdma_x_scale_t = std::conditional_t<kUseNVFP4, uint8_t, float>;
+    static constexpr size_t num_bytes_per_msg = sizeof(int4) + ((kUseFP8 || kUseNVFP4) ? (hidden_bytes + num_scales * sizeof(rdma_x_scale_t)) : hidden_bytes);
+    static constexpr size_t num_int4_per_msg = num_bytes_per_msg / sizeof(int4);
+}
+
 __forceinline__ __device__ int dispatch_send() {
     // Expert counts
     constexpr int kNumMaxWarpGroups = 32;
@@ -299,24 +322,6 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
     const auto sub_warp_id = warp_id % num_warps_per_group;
     const auto responsible_expert_idx = sm_id * num_warp_groups + warp_group_id;
 
-    // FP8 staffs
-    constexpr int kNumPerChannels = kUseNVFP4 ? 16 : 128;
-    constexpr int num_scales = kHidden / kNumPerChannels;
-    constexpr size_t hidden_bytes =
-        kUseNVFP4
-            ? kHidden * sizeof(__nv_fp8_storage_t) / 2
-            : kHidden * (kUseFP8 ? sizeof(__nv_fp8_storage_t) : sizeof(nv_bfloat16));
-    constexpr size_t hidden_int4 = hidden_bytes / sizeof(int4);
-
-    // Message package: index at source (int), 3 reserved int fields, hidden data, FP8 scales
-    // NOTES: currently we have 3 reserved int fields for future use
-    using vec_t = std::conditional_t<
-        kUseNVFP4,
-        int32_t,
-        std::conditional_t<kUseFP8, int2, int4>>;
-    using rdma_x_scale_t = std::conditional_t<kUseNVFP4, uint8_t, float>;
-    constexpr size_t num_bytes_per_msg = sizeof(int4) + ((kUseFP8 || kUseNVFP4) ? (hidden_bytes + num_scales * sizeof(rdma_x_scale_t)) : hidden_bytes);
-    constexpr size_t num_int4_per_msg = num_bytes_per_msg / sizeof(int4);
     EP_DEVICE_ASSERT(num_bytes_per_msg % sizeof(int4) == 0);
 
     // Sending phase

From 4a74a725a2183029819a6155716847ee44b2a475 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 20:25:15 +0800
Subject: [PATCH 071/393] template

---
 csrc/kernels/internode_ll_v2.cuh | 10 ++++++++--
 1 file changed, 8 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index da6b1089..8b38fa61 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -29,7 +29,10 @@ struct DispatchConstTemplate {
     static constexpr size_t num_int4_per_msg = num_bytes_per_msg / sizeof(int4);
 }
 
+template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>
 __forceinline__ __device__ int dispatch_send() {
+    using DispatchConst = DispatchConstTemplate<kUseFP8, kUseNVFP4, kHidden>;
+
     // Expert counts
     constexpr int kNumMaxWarpGroups = 32;
     __shared__ int shared_num_tokens_sent_per_expert[kNumMaxWarpGroups];
@@ -192,7 +195,10 @@ __forceinline__ __device__ int dispatch_send() {
     __syncwarp();
 }
 
+template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>
 __forceinline__ __device__ int dispatch_recv() {
+    using DispatchConst = DispatchConstTemplate<kUseFP8, kUseNVFP4, kHidden>;
+
     // May extract UE8M0 from the scales
     using scale_t = std::conditional_t<kUseUE8M0 || kUseNVFP4, uint8_t, float>;
     using packed_t = std::conditional_t<kUseUE8M0 || kUseNVFP4, uint32_t, float>;
@@ -328,7 +334,7 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
     if ((phases & LOW_LATENCY_SEND_PHASE) == 0)
         goto LOW_LATENCY_DISPATCH_RECV;
 
-    dispatch_send(TODO_args);
+    dispatch_send<kUseFP8, kUseUE8M0, kUseNVFP4, kHidden>(TODO_args);
 
     // Receiving phase
     LOW_LATENCY_DISPATCH_RECV:
@@ -339,7 +345,7 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
     if (phases & LOW_LATENCY_SEND_PHASE)
         cg::this_grid().sync();
 
-    dispatch_recv(TODO_args);
+    dispatch_recv<kUseFP8, kUseUE8M0, kUseNVFP4, kHidden>(TODO_args);
 }
 
 void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,

From 4f6d362f10f9971315aeef8eb1190879ced3dcc1 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 20:26:08 +0800
Subject: [PATCH 072/393] rename

---
 csrc/kernels/internode_ll_v2.cuh | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 8b38fa61..56caadae 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -8,7 +8,7 @@ namespace internode_ll {
 
 // NOTE extracted from `dispatch` body
 template <bool kUseFP8, bool kUseNVFP4, int kHidden>
-struct DispatchConstTemplate {
+struct DispatchConstsTemplate {
     // FP8 staffs
     static constexpr int kNumPerChannels = kUseNVFP4 ? 16 : 128;
     static constexpr int num_scales = kHidden / kNumPerChannels;
@@ -31,7 +31,7 @@ struct DispatchConstTemplate {
 
 template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>
 __forceinline__ __device__ int dispatch_send() {
-    using DispatchConst = DispatchConstTemplate<kUseFP8, kUseNVFP4, kHidden>;
+    using Consts = DispatchConstsTemplate<kUseFP8, kUseNVFP4, kHidden>;
 
     // Expert counts
     constexpr int kNumMaxWarpGroups = 32;
@@ -197,7 +197,7 @@ __forceinline__ __device__ int dispatch_send() {
 
 template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>
 __forceinline__ __device__ int dispatch_recv() {
-    using DispatchConst = DispatchConstTemplate<kUseFP8, kUseNVFP4, kHidden>;
+    using Consts = DispatchConstsTemplate<kUseFP8, kUseNVFP4, kHidden>;
 
     // May extract UE8M0 from the scales
     using scale_t = std::conditional_t<kUseUE8M0 || kUseNVFP4, uint8_t, float>;

From cbc4182779eca57a0b1884eacde991ddf172cd6b Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 20:27:51 +0800
Subject: [PATCH 073/393] call

---
 csrc/kernels/internode_ll_v2.cuh | 47 ++++++++++++++++----------------
 1 file changed, 23 insertions(+), 24 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 56caadae..5ab69fe5 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -32,6 +32,7 @@ struct DispatchConstsTemplate {
 template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>
 __forceinline__ __device__ int dispatch_send() {
     using Consts = DispatchConstsTemplate<kUseFP8, kUseNVFP4, kHidden>;
+    EP_DEVICE_ASSERT(Consts::num_bytes_per_msg % sizeof(int4) == 0);
 
     // Expert counts
     constexpr int kNumMaxWarpGroups = 32;
@@ -43,15 +44,15 @@ __forceinline__ __device__ int dispatch_send() {
     if (warp_id < num_warps - 1) {
         constexpr int kNumElemsPerRead = sizeof(int4) / sizeof(nv_bfloat16);
         EP_STATIC_ASSERT(kHidden % (32 * kNumElemsPerRead) == 0, "Invalid hidden");
-        EP_STATIC_ASSERT(kNumElemsPerRead * 32 % kNumPerChannels == 0, "Invalid vectorization");
+        EP_STATIC_ASSERT(kNumElemsPerRead * 32 % Consts::kNumPerChannels == 0, "Invalid vectorization");
         const auto num_threads = (num_warps - 1) * 32;
         const size_t hidden_bf16_int4 = kHidden / kNumElemsPerRead;
 
         for (int token_idx = sm_id; token_idx < num_tokens; token_idx += num_sms) {
             const auto x_int4 = static_cast<const int4*>(x) + token_idx * hidden_bf16_int4;
-            const auto rdma_x_src_idx = reinterpret_cast<int*>(static_cast<uint8_t*>(rdma_x) + token_idx * num_bytes_per_msg);
-            const auto rdma_x_vec = reinterpret_cast<vec_t*>(reinterpret_cast<uint8_t*>(rdma_x_src_idx) + sizeof(int4));
-            const auto rdma_x_scales = reinterpret_cast<rdma_x_scale_t*>(reinterpret_cast<uint8_t*>(rdma_x_vec) + hidden_bytes);
+            const auto rdma_x_src_idx = reinterpret_cast<int*>(static_cast<uint8_t*>(rdma_x) + token_idx * Consts::num_bytes_per_msg);
+            const auto rdma_x_vec = reinterpret_cast<Consts::vec_t*>(reinterpret_cast<uint8_t*>(rdma_x_src_idx) + sizeof(int4));
+            const auto rdma_x_scales = reinterpret_cast<Consts::rdma_x_scale_t*>(reinterpret_cast<uint8_t*>(rdma_x_vec) + Consts::hidden_bytes);
 
             // Overlap top-k index read and source token index writes
             auto dst_expert_idx = warp_id < num_topk ? static_cast<int>(__ldg(topk_idx + token_idx * num_topk + warp_id)) : -1;
@@ -107,17 +108,17 @@ __forceinline__ __device__ int dispatch_send() {
                 const auto dst_expert_local_idx = dst_expert_idx % num_local_experts;
                 const auto src_ptr = reinterpret_cast<uint64_t>(rdma_x_src_idx);
                 const auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_x) +
-                                     dst_expert_local_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_bytes_per_msg +
-                                     rank * num_max_dispatch_tokens_per_rank * num_bytes_per_msg +
-                                     slot_idx * num_bytes_per_msg;
+                                     dst_expert_local_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
+                                     rank * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
+                                     slot_idx * Consts::num_bytes_per_msg;
                 const auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
                 if (dst_p2p_ptr == 0) {
-                    nvshmemi_ibgda_put_nbi_warp(dst_ptr, src_ptr, num_bytes_per_msg, dst_rank, dst_expert_local_idx, lane_id, slot_idx);
+                    nvshmemi_ibgda_put_nbi_warp(dst_ptr, src_ptr, Consts::num_bytes_per_msg, dst_rank, dst_expert_local_idx, lane_id, slot_idx);
                 } else {
                     // NOTES: only 2 load iterations for 7K hidden with 8 unrolls
                     const auto* src_int4_ptr = reinterpret_cast<const int4*>(src_ptr);
                     const auto* dst_int4_ptr = reinterpret_cast<int4*>(dst_p2p_ptr);
-                    UNROLLED_WARP_COPY(8, lane_id, num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
+                    UNROLLED_WARP_COPY(8, lane_id, Consts::num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
                 }
 
                 // Increase counter after finishing
@@ -210,13 +211,13 @@ __forceinline__ __device__ int dispatch_recv() {
         const auto src_rank = responsible_expert_idx / num_local_experts;
         const auto local_expert_idx = responsible_expert_idx % num_local_experts;
         const auto rdma_recv_x_uint8 = static_cast<uint8_t*>(rdma_recv_x) +
-                local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_bytes_per_msg +
-                src_rank * num_max_dispatch_tokens_per_rank * num_bytes_per_msg;
+                local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
+                src_rank * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg;
         const auto recv_x_int4 = static_cast<int4*>(packed_recv_x) +
-                local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * hidden_int4;
+                local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::hidden_int4;
         const auto recv_src_info = packed_recv_src_info + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank;
         const auto recv_range = packed_recv_layout_range + local_expert_idx * num_ranks;
-        const auto num_aligned_scales = align<int>(num_scales, sizeof(float) / sizeof(scale_t));
+        const auto num_aligned_scales = align<int>(Consts::num_scales, sizeof(float) / sizeof(scale_t));
         const auto recv_x_scales = static_cast<scale_t*>(packed_recv_x_scales) + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_aligned_scales;
 
         // Shared between sub-warps in warp groups
@@ -249,7 +250,7 @@ __forceinline__ __device__ int dispatch_recv() {
         // Copy tokens
         for (int i = sub_warp_id; i < num_recv_tokens; i += num_warps_per_group) {
             // Copy source info
-            const auto src_src_idx = reinterpret_cast<int*>(rdma_recv_x_uint8 + i * num_bytes_per_msg);
+            const auto src_src_idx = reinterpret_cast<int*>(rdma_recv_x_uint8 + i * Consts::num_bytes_per_msg);
             if (lane_id == 0)
                 recv_src_info[recv_token_begin_idx + i] = ld_nc_global(src_src_idx);
             __syncwarp();
@@ -257,26 +258,26 @@ __forceinline__ __device__ int dispatch_recv() {
             // Copy data
             // NOTES: only 2 load iterations for 7K hidden with 7 unrolls
             const auto src_data = reinterpret_cast<int4*>(reinterpret_cast<uint8_t*>(src_src_idx) + sizeof(int4));
-            const auto dst_data = recv_x_int4 + (recv_token_begin_idx + i) * hidden_int4;
-            UNROLLED_WARP_COPY(7, lane_id, hidden_int4, dst_data, src_data, ld_nc_global, st_na_global);
+            const auto dst_data = recv_x_int4 + (recv_token_begin_idx + i) * Consts::hidden_int4;
+            UNROLLED_WARP_COPY(7, lane_id, Consts::hidden_int4, dst_data, src_data, ld_nc_global, st_na_global);
 
             // Copy scales
             if constexpr (kUseFP8) {
-                EP_DEVICE_ASSERT(num_scales <= 64);
+                EP_DEVICE_ASSERT(Consts::num_scales <= 64);
                 // Equivalent CuTe layout:
                 //   (num_tokens, (num_packed, num_elems_per_pack)):(num_elems_per_pack, (num_tokens * num_elems_per_pack, 1))
-                const auto src_scales = reinterpret_cast<float*>(reinterpret_cast<uint8_t*>(src_data) + hidden_bytes);
+                const auto src_scales = reinterpret_cast<float*>(reinterpret_cast<uint8_t*>(src_data) + Consts::hidden_bytes);
                 const auto num_elems_per_pack = static_cast<int>(sizeof(packed_t) / sizeof(scale_t));
                 const auto token_idx = recv_token_begin_idx + i;
                 const auto token_stride = num_elems_per_pack;
                 const auto pack_stride = num_ranks * num_max_dispatch_tokens_per_rank * num_elems_per_pack;
-                if (lane_id < num_scales) {
+                if (lane_id < Consts::num_scales) {
                     const auto pack_idx = lane_id / num_elems_per_pack;
                     const auto elem_idx = lane_id % num_elems_per_pack;
                     auto scale = extract_required_scale_format<kUseUE8M0>(ld_nc_global(src_scales + lane_id));
                     recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
                 }
-                if (lane_id + 32 < num_scales) {
+                if (lane_id + 32 < Consts::num_scales) {
                     const auto pack_idx = (lane_id + 32) / num_elems_per_pack;
                     const auto elem_idx = (lane_id + 32) % num_elems_per_pack;
                     auto scale = extract_required_scale_format<kUseUE8M0>(ld_nc_global(src_scales + lane_id + 32));
@@ -286,13 +287,13 @@ __forceinline__ __device__ int dispatch_recv() {
                 // TODO wait for new swizzle layout
                 // Equivalent CuTe layout:
                 //   (num_tokens, (num_packed, num_elems_per_pack)):(num_elems_per_pack, (num_tokens * num_elems_per_pack, 1))
-                const auto src_scales = reinterpret_cast<uint8_t*>(reinterpret_cast<uint8_t*>(src_data) + hidden_bytes);
+                const auto src_scales = reinterpret_cast<uint8_t*>(reinterpret_cast<uint8_t*>(src_data) + Consts::hidden_bytes);
                 const auto num_elems_per_pack = static_cast<int>(sizeof(packed_t) / sizeof(scale_t));
                 const auto token_idx = recv_token_begin_idx + i;
                 const auto token_stride = num_elems_per_pack;
                 const auto pack_stride = num_ranks * num_max_dispatch_tokens_per_rank * num_elems_per_pack;
                 #pragma unroll
-                for (int j = lane_id; j < num_scales; j += 32) {
+                for (int j = lane_id; j < Consts::num_scales; j += 32) {
                     const auto pack_idx = j / num_elems_per_pack;
                     const auto elem_idx = j % num_elems_per_pack;
                     auto scale = ld_nc_global(src_scales + j);
@@ -328,8 +329,6 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
     const auto sub_warp_id = warp_id % num_warps_per_group;
     const auto responsible_expert_idx = sm_id * num_warp_groups + warp_group_id;
 
-    EP_DEVICE_ASSERT(num_bytes_per_msg % sizeof(int4) == 0);
-
     // Sending phase
     if ((phases & LOW_LATENCY_SEND_PHASE) == 0)
         goto LOW_LATENCY_DISPATCH_RECV;

From 4e1ac39e51e7ae8a055d8fdf287cdf92322c9ee3 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 20:29:41 +0800
Subject: [PATCH 074/393] extract consts

---
 csrc/kernels/internode_ll_v2.cuh | 34 ++++++++++++++++++++++----------
 1 file changed, 24 insertions(+), 10 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 5ab69fe5..f1092053 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -34,6 +34,16 @@ __forceinline__ __device__ int dispatch_send() {
     using Consts = DispatchConstsTemplate<kUseFP8, kUseNVFP4, kHidden>;
     EP_DEVICE_ASSERT(Consts::num_bytes_per_msg % sizeof(int4) == 0);
 
+    // NOTE copied from dispatch body
+    const auto sm_id = static_cast<int>(blockIdx.x);
+    const auto num_sms = static_cast<int>(gridDim.x);
+    const auto warp_id = thread_id / 32, lane_id = get_lane_id();
+    const auto num_warps = num_warp_groups * num_warps_per_group;
+    const auto num_local_experts = num_experts / num_ranks;
+    const auto warp_group_id = warp_id / num_warps_per_group;
+    const auto sub_warp_id = warp_id % num_warps_per_group;
+    const auto responsible_expert_idx = sm_id * num_warp_groups + warp_group_id;
+
     // Expert counts
     constexpr int kNumMaxWarpGroups = 32;
     __shared__ int shared_num_tokens_sent_per_expert[kNumMaxWarpGroups];
@@ -200,6 +210,16 @@ template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>
 __forceinline__ __device__ int dispatch_recv() {
     using Consts = DispatchConstsTemplate<kUseFP8, kUseNVFP4, kHidden>;
 
+    // NOTE copied from dispatch body
+    const auto sm_id = static_cast<int>(blockIdx.x);
+    const auto num_sms = static_cast<int>(gridDim.x);
+    const auto warp_id = thread_id / 32, lane_id = get_lane_id();
+    const auto num_warps = num_warp_groups * num_warps_per_group;
+    const auto num_local_experts = num_experts / num_ranks;
+    const auto warp_group_id = warp_id / num_warps_per_group;
+    const auto sub_warp_id = warp_id % num_warps_per_group;
+    const auto responsible_expert_idx = sm_id * num_warp_groups + warp_group_id;
+
     // May extract UE8M0 from the scales
     using scale_t = std::conditional_t<kUseUE8M0 || kUseNVFP4, uint8_t, float>;
     using packed_t = std::conditional_t<kUseUE8M0 || kUseNVFP4, uint32_t, float>;
@@ -317,17 +337,11 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
          int* next_clean, int num_next_clean_int,
          int num_tokens, int num_max_dispatch_tokens_per_rank,
          int num_topk, int num_experts, int rank, int num_ranks,
-         int num_warp_groups, int num_warps_per_group,
+         // NOTE split num_warp_groups
+         int num_send_warp_groups, int num_recv_warp_groups,
+         int num_warps_per_group,
          bool round_scale, int phases) {
-    const auto sm_id = static_cast<int>(blockIdx.x);
-    const auto thread_id = static_cast<int>(threadIdx.x);
-    const auto warp_id = thread_id / 32, lane_id = get_lane_id();
-    const auto num_sms = static_cast<int>(gridDim.x);
-    const auto num_warps = num_warp_groups * num_warps_per_group;
-    const auto num_local_experts = num_experts / num_ranks;
-    const auto warp_group_id = warp_id / num_warps_per_group;
-    const auto sub_warp_id = warp_id % num_warps_per_group;
-    const auto responsible_expert_idx = sm_id * num_warp_groups + warp_group_id;
+    const auto raw_thread_id = static_cast<int>(threadIdx.x);
 
     // Sending phase
     if ((phases & LOW_LATENCY_SEND_PHASE) == 0)

From 9daeb50fcb6096cccde50b1218a1a2440a50aed2 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 20:31:22 +0800
Subject: [PATCH 075/393] two warp groups

---
 csrc/kernels/internode_ll_v2.cuh | 8 ++++++++
 1 file changed, 8 insertions(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index f1092053..3ba355d7 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -341,7 +341,15 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
          int num_send_warp_groups, int num_recv_warp_groups,
          int num_warps_per_group,
          bool round_scale, int phases) {
+    const auto num_send_threads = num_send_warp_groups * num_warps_per_group * 32;
     const auto raw_thread_id = static_cast<int>(threadIdx.x);
+    if (raw_thread_id < num_send_threads) {
+        const auto send_thread_id = raw_thread_id;
+        TODO_send;
+    } else {
+        const auto recv_thread_id = raw_thread_id - num_send_threads;
+        TODO_recv;
+    }
 
     // Sending phase
     if ((phases & LOW_LATENCY_SEND_PHASE) == 0)

From 3bceea633931741cfcf9a4764e56d3671eb1fe4c Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 20:32:14 +0800
Subject: [PATCH 076/393] compute num_send_warp_groups,num_recv_warp_groups

---
 csrc/kernels/internode_ll_v2.cuh | 7 ++++++-
 1 file changed, 6 insertions(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 3ba355d7..3aa3b8af 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -398,6 +398,11 @@ void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
     auto atomic_finish_counter_per_expert = atomic_counter_per_expert + num_experts;
     EP_HOST_ASSERT(num_experts * sizeof(int) * 2 <= NUM_WORKSPACE_BYTES);
 
+    // NOTE add
+    EP_HOST_ASSERT(num_warp_groups >= 2);
+    const int num_send_warp_groups = num_warp_groups - 1;
+    const int num_recv_warp_groups = 1;
+
     // FP8 checks
     if (use_ue8m0)
         EP_HOST_ASSERT(round_scale and "UE8M0 SF requires `round_scale=True`");
@@ -422,7 +427,7 @@ LAUNCH_KERNEL(&cfg, dispatch_func, \
               next_clean, num_next_clean_int, \
               num_tokens, num_max_dispatch_tokens_per_rank, \
               num_topk, num_experts, rank, num_ranks, \
-              num_warp_groups, num_warps_per_group, \
+              num_send_warp_groups, num_recv_warp_groups, num_warps_per_group, \
               round_scale, phases); } break
 
     SETUP_LAUNCH_CONFIG(num_sms, num_warps * 32, stream);

From 62a7c615f7116ebf8ea923d0b0ce5fd60b2705e4 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 20:33:03 +0800
Subject: [PATCH 077/393] more send/recv parallel

---
 csrc/kernels/internode_ll_v2.cuh | 34 +++++++++++++++-----------------
 1 file changed, 16 insertions(+), 18 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 3aa3b8af..c3d143a9 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -226,6 +226,11 @@ __forceinline__ __device__ int dispatch_recv() {
     EP_STATIC_ASSERT(sizeof(packed_t) % sizeof(scale_t) == 0, "Invalid vector length");
     EP_STATIC_ASSERT(!(kUseFP8 && kUseNVFP4), "FP8 and NVFP4 cannot be used together");
 
+    TODO_remove;
+    // For send-and-recv kernels, we need a grid sync for making `packed_recv_count` visible
+    if (phases & LOW_LATENCY_SEND_PHASE)
+        cg::this_grid().sync();
+
     // Receiving and packing
     if (responsible_expert_idx < num_experts) {
         const auto src_rank = responsible_expert_idx / num_local_experts;
@@ -345,28 +350,21 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
     const auto raw_thread_id = static_cast<int>(threadIdx.x);
     if (raw_thread_id < num_send_threads) {
         const auto send_thread_id = raw_thread_id;
-        TODO_send;
+        dispatch_send<kUseFP8, kUseUE8M0, kUseNVFP4, kHidden>(TODO_args);
     } else {
         const auto recv_thread_id = raw_thread_id - num_send_threads;
-        TODO_recv;
+        dispatch_recv<kUseFP8, kUseUE8M0, kUseNVFP4, kHidden>(TODO_args);
     }
 
-    // Sending phase
-    if ((phases & LOW_LATENCY_SEND_PHASE) == 0)
-        goto LOW_LATENCY_DISPATCH_RECV;
-
-    dispatch_send<kUseFP8, kUseUE8M0, kUseNVFP4, kHidden>(TODO_args);
-
-    // Receiving phase
-    LOW_LATENCY_DISPATCH_RECV:
-    if ((phases & LOW_LATENCY_RECV_PHASE) == 0)
-        return;
-
-    // For send-and-recv kernels, we need a grid sync for making `packed_recv_count` visible
-    if (phases & LOW_LATENCY_SEND_PHASE)
-        cg::this_grid().sync();
-
-    dispatch_recv<kUseFP8, kUseUE8M0, kUseNVFP4, kHidden>(TODO_args);
+// NOTE removed
+//     // Sending phase
+//     if ((phases & LOW_LATENCY_SEND_PHASE) == 0)
+//         goto LOW_LATENCY_DISPATCH_RECV;
+//
+//     // Receiving phase
+//     LOW_LATENCY_DISPATCH_RECV:
+//     if ((phases & LOW_LATENCY_RECV_PHASE) == 0)
+//         return;
 }
 
 void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,

From 2de44877a1bebf55fe1496cbf6354e2172964d79 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 20:33:34 +0800
Subject: [PATCH 078/393] comments

---
 csrc/kernels/internode_ll_v2.cuh | 1 +
 1 file changed, 1 insertion(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index c3d143a9..a278bf77 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -396,6 +396,7 @@ void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
     auto atomic_finish_counter_per_expert = atomic_counter_per_expert + num_experts;
     EP_HOST_ASSERT(num_experts * sizeof(int) * 2 <= NUM_WORKSPACE_BYTES);
 
+    // TODO inefficient, may change it
     // NOTE add
     EP_HOST_ASSERT(num_warp_groups >= 2);
     const int num_send_warp_groups = num_warp_groups - 1;

From c53a32aa5b3ea6d72b88ec86e3a9c41519e67aba Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 20:35:37 +0800
Subject: [PATCH 079/393] local_thread_id

---
 csrc/kernels/internode_ll_v2.cuh | 16 ++++++++--------
 1 file changed, 8 insertions(+), 8 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index a278bf77..c30464f2 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -30,14 +30,14 @@ struct DispatchConstsTemplate {
 }
 
 template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>
-__forceinline__ __device__ int dispatch_send() {
+__forceinline__ __device__ int dispatch_send(int local_thrad_id) {
     using Consts = DispatchConstsTemplate<kUseFP8, kUseNVFP4, kHidden>;
     EP_DEVICE_ASSERT(Consts::num_bytes_per_msg % sizeof(int4) == 0);
 
     // NOTE copied from dispatch body
     const auto sm_id = static_cast<int>(blockIdx.x);
     const auto num_sms = static_cast<int>(gridDim.x);
-    const auto warp_id = thread_id / 32, lane_id = get_lane_id();
+    const auto warp_id = local_thread_id / 32, lane_id = get_lane_id();
     const auto num_warps = num_warp_groups * num_warps_per_group;
     const auto num_local_experts = num_experts / num_ranks;
     const auto warp_group_id = warp_id / num_warps_per_group;
@@ -66,13 +66,13 @@ __forceinline__ __device__ int dispatch_send() {
 
             // Overlap top-k index read and source token index writes
             auto dst_expert_idx = warp_id < num_topk ? static_cast<int>(__ldg(topk_idx + token_idx * num_topk + warp_id)) : -1;
-            thread_id == 0 ? (*rdma_x_src_idx = token_idx) : 0;
+            local_thread_id == 0 ? (*rdma_x_src_idx = token_idx) : 0;
 
             // NOTE no read or cast in fp4
             // FP8 cast
 //             EP_STATIC_ASSERT(hidden_bf16_int4 % 32 == 0, "Must use the full warp to reduce");
 //             #pragma unroll
-//             for (int i = thread_id; i < hidden_bf16_int4; i += num_threads) {
+//             for (int i = local_thread_id; i < hidden_bf16_int4; i += num_threads) {
 //                 // Read
 //                 auto int4_value = __ldg(x_int4 + i);
 //
@@ -207,13 +207,13 @@ __forceinline__ __device__ int dispatch_send() {
 }
 
 template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>
-__forceinline__ __device__ int dispatch_recv() {
+__forceinline__ __device__ int dispatch_recv(int local_thrad_id) {
     using Consts = DispatchConstsTemplate<kUseFP8, kUseNVFP4, kHidden>;
 
     // NOTE copied from dispatch body
     const auto sm_id = static_cast<int>(blockIdx.x);
     const auto num_sms = static_cast<int>(gridDim.x);
-    const auto warp_id = thread_id / 32, lane_id = get_lane_id();
+    const auto warp_id = local_thread_id / 32, lane_id = get_lane_id();
     const auto num_warps = num_warp_groups * num_warps_per_group;
     const auto num_local_experts = num_experts / num_ranks;
     const auto warp_group_id = warp_id / num_warps_per_group;
@@ -350,10 +350,10 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
     const auto raw_thread_id = static_cast<int>(threadIdx.x);
     if (raw_thread_id < num_send_threads) {
         const auto send_thread_id = raw_thread_id;
-        dispatch_send<kUseFP8, kUseUE8M0, kUseNVFP4, kHidden>(TODO_args);
+        dispatch_send<kUseFP8, kUseUE8M0, kUseNVFP4, kHidden>(send_thread_id, TODO_args);
     } else {
         const auto recv_thread_id = raw_thread_id - num_send_threads;
-        dispatch_recv<kUseFP8, kUseUE8M0, kUseNVFP4, kHidden>(TODO_args);
+        dispatch_recv<kUseFP8, kUseUE8M0, kUseNVFP4, kHidden>(recv_thread_id, TODO_args);
     }
 
 // NOTE removed

From 69bade5e252a95de8dd65ac253679372ab6f52d6 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 20:37:47 +0800
Subject: [PATCH 080/393] packed_recv_count zeroing

---
 csrc/deep_ep.cpp                 | 11 ++++++++++-
 csrc/kernels/exception.cuh       |  3 +++
 csrc/kernels/internode_ll_v2.cuh | 15 ++++++++-------
 3 files changed, 21 insertions(+), 8 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 3bd32175..96d3a0d2 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1094,6 +1094,7 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
                              int num_max_dispatch_tokens_per_rank, int num_experts,
                              bool use_fp8, bool round_scale, bool use_ue8m0,
                              bool async, bool return_recv_hook) {
+    TODO_arg(zeroed_tensor);
 #ifndef DISABLE_NVSHMEM
     EP_HOST_ASSERT(low_latency_mode);
 
@@ -1141,7 +1142,15 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
                                       x.options().dtype(use_fp8 ? torch::kFloat8_e4m3fn: torch::kBFloat16));
     auto packed_recv_src_info = torch::empty({num_local_experts, num_ranks * num_max_dispatch_tokens_per_rank}, torch::dtype(torch::kInt32).device(torch::kCUDA));
     auto packed_recv_layout_range = torch::empty({num_local_experts, num_ranks}, torch::dtype(torch::kInt64).device(torch::kCUDA));
-    auto packed_recv_count = torch::empty({num_local_experts}, torch::dtype(torch::kInt32).device(torch::kCUDA));
+
+    // NOTE let users do the zeroing
+    // auto packed_recv_count = torch::empty({num_local_experts}, torch::dtype(torch::kInt32).device(torch::kCUDA));
+    auto packed_recv_count = zeroed_tensor;
+    EP_HOST_ASSERT(packed_recv_count.dim() == 1);
+    EP_HOST_ASSERT(packed_recv_count.size(0) == num_local_experts);
+    EP_HOST_ASSERT(packed_recv_count.dtype() == torch::kInt32);
+    EP_HOST_ASSERT(packed_recv_count.device().is_cuda());
+    EP_HOST_ASSERT(packed_recv_count.stride() == 1);
 
     // Allocate column-majored scales
     auto packed_recv_x_scales = std::optional<torch::Tensor>();
diff --git a/csrc/kernels/exception.cuh b/csrc/kernels/exception.cuh
index 7db0ddb7..c55b4171 100644
--- a/csrc/kernels/exception.cuh
+++ b/csrc/kernels/exception.cuh
@@ -49,3 +49,6 @@ do { \
     } \
 } while (0)
 #endif
+
+#define EP_DEBUG_DEVICE_ASSERT(cond) EP_DEVICE_ASSERT(cond)
+// #define EP_DEBUG_DEVICE_ASSERT(cond) do {} while (0)
diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index c30464f2..f58ab067 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -199,9 +199,10 @@ __forceinline__ __device__ int dispatch_send(int local_thrad_id) {
         atomic_counter_per_expert[responsible_expert_idx] = 0;
         atomic_finish_counter_per_expert[responsible_expert_idx] = 0;
 
-        // Clean `packed_recv_count`
-        if (dst_rank == 0)
-            packed_recv_count[dst_expert_local_idx] = 0;
+        // NOTE packed_recv_count zeroing is removed
+//         // Clean `packed_recv_count`
+//         if (dst_rank == 0)
+//             packed_recv_count[dst_expert_local_idx] = 0;
     }
     __syncwarp();
 }
@@ -226,10 +227,10 @@ __forceinline__ __device__ int dispatch_recv(int local_thrad_id) {
     EP_STATIC_ASSERT(sizeof(packed_t) % sizeof(scale_t) == 0, "Invalid vector length");
     EP_STATIC_ASSERT(!(kUseFP8 && kUseNVFP4), "FP8 and NVFP4 cannot be used together");
 
-    TODO_remove;
-    // For send-and-recv kernels, we need a grid sync for making `packed_recv_count` visible
-    if (phases & LOW_LATENCY_SEND_PHASE)
-        cg::this_grid().sync();
+// NOTE packed_recv_count zeroing is removed
+//     // For send-and-recv kernels, we need a grid sync for making `packed_recv_count` visible
+//     if (phases & LOW_LATENCY_SEND_PHASE)
+//         cg::this_grid().sync();
 
     // Receiving and packing
     if (responsible_expert_idx < num_experts) {

From 2916668ec8df6b13fdadca08f2d1118ac743d67c Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 20:55:39 +0800
Subject: [PATCH 081/393] fix bar sync

---
 csrc/kernels/internode_ll_v2.cuh | 6 +++++-
 1 file changed, 5 insertions(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index f58ab067..68bbd003 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -108,7 +108,11 @@ __forceinline__ __device__ int dispatch_send(int local_thrad_id) {
 //                     rdma_x_vec[i] = *reinterpret_cast<vec_t*>(&int4_value);
 //                 }
 //             }
-//             asm volatile("bar.sync 1, %0;" :: "r"(num_threads));
+
+            // NOTE this cannot be removed even if we do not do casting
+            // b/c we need to write to `rdma_x_src_idx`
+            // (but we may optimize it later)
+            asm volatile("bar.sync 1, %0;" :: "r"(num_threads));
 
             // Issue IBGDA sends
             if (dst_expert_idx >= 0) {

From 170f86b4675c5a1c4f6c6e7be54fbaade76cd58b Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 20:56:08 +0800
Subject: [PATCH 082/393] typo

---
 csrc/kernels/internode_ll_v2.cuh | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 68bbd003..8e959690 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -30,7 +30,7 @@ struct DispatchConstsTemplate {
 }
 
 template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>
-__forceinline__ __device__ int dispatch_send(int local_thrad_id) {
+__forceinline__ __device__ int dispatch_send(int local_thread_id) {
     using Consts = DispatchConstsTemplate<kUseFP8, kUseNVFP4, kHidden>;
     EP_DEVICE_ASSERT(Consts::num_bytes_per_msg % sizeof(int4) == 0);
 
@@ -212,7 +212,7 @@ __forceinline__ __device__ int dispatch_send(int local_thrad_id) {
 }
 
 template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>
-__forceinline__ __device__ int dispatch_recv(int local_thrad_id) {
+__forceinline__ __device__ int dispatch_recv(int local_thread_id) {
     using Consts = DispatchConstsTemplate<kUseFP8, kUseNVFP4, kHidden>;
 
     // NOTE copied from dispatch body

From 8aeaba9604acb22553326683a0d5c19441d59b03 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 20:56:33 +0800
Subject: [PATCH 083/393] rm unused

---
 csrc/kernels/internode_ll_v2.cuh | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 8e959690..948f5566 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -61,8 +61,8 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id) {
         for (int token_idx = sm_id; token_idx < num_tokens; token_idx += num_sms) {
             const auto x_int4 = static_cast<const int4*>(x) + token_idx * hidden_bf16_int4;
             const auto rdma_x_src_idx = reinterpret_cast<int*>(static_cast<uint8_t*>(rdma_x) + token_idx * Consts::num_bytes_per_msg);
-            const auto rdma_x_vec = reinterpret_cast<Consts::vec_t*>(reinterpret_cast<uint8_t*>(rdma_x_src_idx) + sizeof(int4));
-            const auto rdma_x_scales = reinterpret_cast<Consts::rdma_x_scale_t*>(reinterpret_cast<uint8_t*>(rdma_x_vec) + Consts::hidden_bytes);
+//             const auto rdma_x_vec = reinterpret_cast<Consts::vec_t*>(reinterpret_cast<uint8_t*>(rdma_x_src_idx) + sizeof(int4));
+//             const auto rdma_x_scales = reinterpret_cast<Consts::rdma_x_scale_t*>(reinterpret_cast<uint8_t*>(rdma_x_vec) + Consts::hidden_bytes);
 
             // Overlap top-k index read and source token index writes
             auto dst_expert_idx = warp_id < num_topk ? static_cast<int>(__ldg(topk_idx + token_idx * num_topk + warp_id)) : -1;

From 1dc6fb901629973179ab915ac33af771601d9e12 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 20:57:48 +0800
Subject: [PATCH 084/393] rm input x

---
 csrc/kernels/internode_ll.cu     | 3 ++-
 csrc/kernels/internode_ll_v2.cuh | 5 +++--
 2 files changed, 5 insertions(+), 3 deletions(-)

diff --git a/csrc/kernels/internode_ll.cu b/csrc/kernels/internode_ll.cu
index 0adf43ae..da6b83a7 100644
--- a/csrc/kernels/internode_ll.cu
+++ b/csrc/kernels/internode_ll.cu
@@ -359,7 +359,8 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
             cumulative_local_expert_recv_stats,
             dispatch_wait_recv_cost_stats,
             rdma_recv_x, rdma_recv_count, rdma_x,
-            x, topk_idx,
+            // x, // NOTE removed
+            topk_idx,
             next_clean, num_next_clean_int,
             num_tokens, hidden, num_max_dispatch_tokens_per_rank,
             num_topk, num_experts, rank, num_ranks,
diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 948f5566..3c63b9a8 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -59,7 +59,7 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id) {
         const size_t hidden_bf16_int4 = kHidden / kNumElemsPerRead;
 
         for (int token_idx = sm_id; token_idx < num_tokens; token_idx += num_sms) {
-            const auto x_int4 = static_cast<const int4*>(x) + token_idx * hidden_bf16_int4;
+//             const auto x_int4 = static_cast<const int4*>(x) + token_idx * hidden_bf16_int4;
             const auto rdma_x_src_idx = reinterpret_cast<int*>(static_cast<uint8_t*>(rdma_x) + token_idx * Consts::num_bytes_per_msg);
 //             const auto rdma_x_vec = reinterpret_cast<Consts::vec_t*>(reinterpret_cast<uint8_t*>(rdma_x_src_idx) + sizeof(int4));
 //             const auto rdma_x_scales = reinterpret_cast<Consts::rdma_x_scale_t*>(reinterpret_cast<uint8_t*>(rdma_x_vec) + Consts::hidden_bytes);
@@ -342,7 +342,8 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
          int* cumulative_local_expert_recv_stats,
          int64_t* dispatch_wait_recv_cost_stats,
          void* rdma_recv_x, int* rdma_recv_count, void* rdma_x,
-         const void* x, const int64_t* topk_idx,
+         // const void* x, // NOTE removed
+         const int64_t* topk_idx,
          int* atomic_counter_per_expert, int* atomic_finish_counter_per_expert,
          int* next_clean, int num_next_clean_int,
          int num_tokens, int num_max_dispatch_tokens_per_rank,

From 767ca97765426b5f4014a881cfd2d0e5b99d999b Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 20:58:30 +0800
Subject: [PATCH 085/393] rm rdma_x

---
 csrc/kernels/internode_ll.cu     | 6 +++---
 csrc/kernels/internode_ll_v2.cuh | 6 +++---
 2 files changed, 6 insertions(+), 6 deletions(-)

diff --git a/csrc/kernels/internode_ll.cu b/csrc/kernels/internode_ll.cu
index da6b83a7..bc9136a1 100644
--- a/csrc/kernels/internode_ll.cu
+++ b/csrc/kernels/internode_ll.cu
@@ -358,9 +358,9 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
             packed_recv_count,
             cumulative_local_expert_recv_stats,
             dispatch_wait_recv_cost_stats,
-            rdma_recv_x, rdma_recv_count, rdma_x,
-            // x, // NOTE removed
-            topk_idx,
+            rdma_recv_x, rdma_recv_count,
+            // rdma_x, // NOTE removed
+            x, topk_idx,
             next_clean, num_next_clean_int,
             num_tokens, hidden, num_max_dispatch_tokens_per_rank,
             num_topk, num_experts, rank, num_ranks,
diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 3c63b9a8..698eeb67 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -341,9 +341,9 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
          int* packed_recv_count,
          int* cumulative_local_expert_recv_stats,
          int64_t* dispatch_wait_recv_cost_stats,
-         void* rdma_recv_x, int* rdma_recv_count, void* rdma_x,
-         // const void* x, // NOTE removed
-         const int64_t* topk_idx,
+         void* rdma_recv_x, int* rdma_recv_count,
+         // void* rdma_x, // NOTE removed
+         const void* x, const int64_t* topk_idx,
          int* atomic_counter_per_expert, int* atomic_finish_counter_per_expert,
          int* next_clean, int num_next_clean_int,
          int num_tokens, int num_max_dispatch_tokens_per_rank,

From ee3f32dee16a3e2af71b403787f78bff0c609e85 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 20:59:50 +0800
Subject: [PATCH 086/393] rdma_x -> x

---
 csrc/kernels/internode_ll_v2.cuh | 14 +++++++++++---
 1 file changed, 11 insertions(+), 3 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 698eeb67..602b1e6b 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -60,13 +60,19 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id) {
 
         for (int token_idx = sm_id; token_idx < num_tokens; token_idx += num_sms) {
 //             const auto x_int4 = static_cast<const int4*>(x) + token_idx * hidden_bf16_int4;
-            const auto rdma_x_src_idx = reinterpret_cast<int*>(static_cast<uint8_t*>(rdma_x) + token_idx * Consts::num_bytes_per_msg);
+
+            // NOTE do not use `rdma_x` but use `x`
+//             const auto rdma_x_src_idx = reinterpret_cast<int*>(static_cast<uint8_t*>(rdma_x) + token_idx * Consts::num_bytes_per_msg);
+            const auto x_src_idx = reinterpret_cast<int*>(static_cast<uint8_t*>(x) + token_idx * Consts::num_bytes_per_msg);
+
 //             const auto rdma_x_vec = reinterpret_cast<Consts::vec_t*>(reinterpret_cast<uint8_t*>(rdma_x_src_idx) + sizeof(int4));
 //             const auto rdma_x_scales = reinterpret_cast<Consts::rdma_x_scale_t*>(reinterpret_cast<uint8_t*>(rdma_x_vec) + Consts::hidden_bytes);
 
             // Overlap top-k index read and source token index writes
             auto dst_expert_idx = warp_id < num_topk ? static_cast<int>(__ldg(topk_idx + token_idx * num_topk + warp_id)) : -1;
-            local_thread_id == 0 ? (*rdma_x_src_idx = token_idx) : 0;
+            // NOTE do not use `rdma_x` but use `x`
+            // local_thread_id == 0 ? (*rdma_x_src_idx = token_idx) : 0;
+            local_thread_id == 0 ? (*x_src_idx = token_idx) : 0;
 
             // NOTE no read or cast in fp4
             // FP8 cast
@@ -120,7 +126,9 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id) {
                 slot_idx = __shfl_sync(0xffffffff, slot_idx, 0);
                 const auto dst_rank = dst_expert_idx / num_local_experts;
                 const auto dst_expert_local_idx = dst_expert_idx % num_local_experts;
-                const auto src_ptr = reinterpret_cast<uint64_t>(rdma_x_src_idx);
+                // NOTE do not use `rdma_x` but use `x`
+                // const auto src_ptr = reinterpret_cast<uint64_t>(rdma_x_src_idx);
+                const auto src_ptr = reinterpret_cast<uint64_t>(x_src_idx);
                 const auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_x) +
                                      dst_expert_local_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
                                      rank * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +

From 0547ab0a7d23006371e065fe2ab2cf3897483e57 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 21:00:05 +0800
Subject: [PATCH 087/393] fmt

---
 csrc/kernels/internode_ll_v2.cuh | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 602b1e6b..2c989f14 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -59,14 +59,14 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id) {
         const size_t hidden_bf16_int4 = kHidden / kNumElemsPerRead;
 
         for (int token_idx = sm_id; token_idx < num_tokens; token_idx += num_sms) {
-//             const auto x_int4 = static_cast<const int4*>(x) + token_idx * hidden_bf16_int4;
+            // const auto x_int4 = static_cast<const int4*>(x) + token_idx * hidden_bf16_int4;
 
             // NOTE do not use `rdma_x` but use `x`
-//             const auto rdma_x_src_idx = reinterpret_cast<int*>(static_cast<uint8_t*>(rdma_x) + token_idx * Consts::num_bytes_per_msg);
+            // const auto rdma_x_src_idx = reinterpret_cast<int*>(static_cast<uint8_t*>(rdma_x) + token_idx * Consts::num_bytes_per_msg);
             const auto x_src_idx = reinterpret_cast<int*>(static_cast<uint8_t*>(x) + token_idx * Consts::num_bytes_per_msg);
 
-//             const auto rdma_x_vec = reinterpret_cast<Consts::vec_t*>(reinterpret_cast<uint8_t*>(rdma_x_src_idx) + sizeof(int4));
-//             const auto rdma_x_scales = reinterpret_cast<Consts::rdma_x_scale_t*>(reinterpret_cast<uint8_t*>(rdma_x_vec) + Consts::hidden_bytes);
+            // const auto rdma_x_vec = reinterpret_cast<Consts::vec_t*>(reinterpret_cast<uint8_t*>(rdma_x_src_idx) + sizeof(int4));
+            // const auto rdma_x_scales = reinterpret_cast<Consts::rdma_x_scale_t*>(reinterpret_cast<uint8_t*>(rdma_x_vec) + Consts::hidden_bytes);
 
             // Overlap top-k index read and source token index writes
             auto dst_expert_idx = warp_id < num_topk ? static_cast<int>(__ldg(topk_idx + token_idx * num_topk + warp_id)) : -1;

From 364b0225aa9fc9ea33efbe1fbd0368fe42d285e9 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 21:02:55 +0800
Subject: [PATCH 088/393] host handle x

---
 csrc/deep_ep.cpp | 14 ++++++++++----
 1 file changed, 10 insertions(+), 4 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 96d3a0d2..1d5fce27 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1100,10 +1100,15 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
 
     // Tensor checks
     // By default using `ptp128c` FP8 cast
-    EP_HOST_ASSERT(x.dim() == 2 and x.is_contiguous() and x.scalar_type() == torch::kBFloat16);
-    EP_HOST_ASSERT(x.size(1) % sizeof(int4) == 0 and x.size(1) % 128 == 0);
-    EP_HOST_ASSERT(topk_idx.dim() == 2 and topk_idx.is_contiguous());
+
+    // NOTE `x` is packed now
+    // EP_HOST_ASSERT(x.dim() == 2 and x.is_contiguous() and x.scalar_type() == torch::kBFloat16);
+    // EP_HOST_ASSERT(x.size(1) % sizeof(int4) == 0 and x.size(1) % 128 == 0);
+    EP_HOST_ASSERT(x.dim() == 2 and x.is_contiguous() and x.scalar_type() == torch::Uint8);
+    EP_HOST_ASSERT(x.size(1) == TODO);
+
     EP_HOST_ASSERT(x.size(0) == topk_idx.size(0) and x.size(0) <= num_max_dispatch_tokens_per_rank);
+    EP_HOST_ASSERT(topk_idx.dim() == 2 and topk_idx.is_contiguous());
     EP_HOST_ASSERT(topk_idx.scalar_type() == torch::kInt64);
     EP_HOST_ASSERT(num_experts % num_ranks == 0);
 
@@ -1139,7 +1144,8 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
 
     // Allocate packed tensors
     auto packed_recv_x = torch::empty({num_local_experts, num_ranks * num_max_dispatch_tokens_per_rank, hidden},
-                                      x.options().dtype(use_fp8 ? torch::kFloat8_e4m3fn: torch::kBFloat16));
+                                      TODO);
+                                      // x.options().dtype(use_fp8 ? torch::kFloat8_e4m3fn: torch::kBFloat16));
     auto packed_recv_src_info = torch::empty({num_local_experts, num_ranks * num_max_dispatch_tokens_per_rank}, torch::dtype(torch::kInt32).device(torch::kCUDA));
     auto packed_recv_layout_range = torch::empty({num_local_experts, num_ranks}, torch::dtype(torch::kInt64).device(torch::kCUDA));
 

From 0149aa4615ea6bcbee1740fbfc28b522b7bef8e1 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 21:03:52 +0800
Subject: [PATCH 089/393] extract

---
 csrc/kernels/internode_ll_v2.cuh     | 25 ++---------------------
 csrc/kernels/internode_ll_v2_inc.cuh | 30 ++++++++++++++++++++++++++++
 2 files changed, 32 insertions(+), 23 deletions(-)
 create mode 100644 csrc/kernels/internode_ll_v2_inc.cuh

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 2c989f14..af502515 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -3,32 +3,11 @@
 #include "launch.cuh"
 #include "ibgda_device.cuh"
 
+#include "internode_ll_v2_inc.cuh"
+
 namespace deep_ep {
 namespace internode_ll {
 
-// NOTE extracted from `dispatch` body
-template <bool kUseFP8, bool kUseNVFP4, int kHidden>
-struct DispatchConstsTemplate {
-    // FP8 staffs
-    static constexpr int kNumPerChannels = kUseNVFP4 ? 16 : 128;
-    static constexpr int num_scales = kHidden / kNumPerChannels;
-    static constexpr size_t hidden_bytes =
-        kUseNVFP4
-            ? kHidden * sizeof(__nv_fp8_storage_t) / 2
-            : kHidden * (kUseFP8 ? sizeof(__nv_fp8_storage_t) : sizeof(nv_bfloat16));
-    static constexpr size_t hidden_int4 = hidden_bytes / sizeof(int4);
-
-    // Message package: index at source (int), 3 reserved int fields, hidden data, FP8 scales
-    // NOTES: currently we have 3 reserved int fields for future use
-    using vec_t = std::conditional_t<
-        kUseNVFP4,
-        int32_t,
-        std::conditional_t<kUseFP8, int2, int4>>;
-    using rdma_x_scale_t = std::conditional_t<kUseNVFP4, uint8_t, float>;
-    static constexpr size_t num_bytes_per_msg = sizeof(int4) + ((kUseFP8 || kUseNVFP4) ? (hidden_bytes + num_scales * sizeof(rdma_x_scale_t)) : hidden_bytes);
-    static constexpr size_t num_int4_per_msg = num_bytes_per_msg / sizeof(int4);
-}
-
 template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>
 __forceinline__ __device__ int dispatch_send(int local_thread_id) {
     using Consts = DispatchConstsTemplate<kUseFP8, kUseNVFP4, kHidden>;
diff --git a/csrc/kernels/internode_ll_v2_inc.cuh b/csrc/kernels/internode_ll_v2_inc.cuh
new file mode 100644
index 00000000..b5a436fc
--- /dev/null
+++ b/csrc/kernels/internode_ll_v2_inc.cuh
@@ -0,0 +1,30 @@
+// This file is the real header...
+
+namespace deep_ep {
+namespace internode_ll {
+
+// NOTE extracted from `dispatch` body
+template <bool kUseFP8, bool kUseNVFP4, int kHidden>
+struct DispatchConstsTemplate {
+    // FP8 staffs
+    static constexpr int kNumPerChannels = kUseNVFP4 ? 16 : 128;
+    static constexpr int num_scales = kHidden / kNumPerChannels;
+    static constexpr size_t hidden_bytes =
+        kUseNVFP4
+            ? kHidden * sizeof(__nv_fp8_storage_t) / 2
+            : kHidden * (kUseFP8 ? sizeof(__nv_fp8_storage_t) : sizeof(nv_bfloat16));
+    static constexpr size_t hidden_int4 = hidden_bytes / sizeof(int4);
+
+    // Message package: index at source (int), 3 reserved int fields, hidden data, FP8 scales
+    // NOTES: currently we have 3 reserved int fields for future use
+    using vec_t = std::conditional_t<
+        kUseNVFP4,
+        int32_t,
+        std::conditional_t<kUseFP8, int2, int4>>;
+    using rdma_x_scale_t = std::conditional_t<kUseNVFP4, uint8_t, float>;
+    static constexpr size_t num_bytes_per_msg = sizeof(int4) + ((kUseFP8 || kUseNVFP4) ? (hidden_bytes + num_scales * sizeof(rdma_x_scale_t)) : hidden_bytes);
+    static constexpr size_t num_int4_per_msg = num_bytes_per_msg / sizeof(int4);
+}
+
+} // namespace internode_ll
+} // namespace deep_ep

From de04a05810b781117acbff6a378dc4d8a14c7de8 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 21:06:21 +0800
Subject: [PATCH 090/393] more host check x

---
 csrc/deep_ep.cpp | 12 +++++++++---
 1 file changed, 9 insertions(+), 3 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 1d5fce27..1338104f 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -9,6 +9,7 @@
 #include "deep_ep.hpp"
 #include "kernels/api.cuh"
 #include "kernels/configs.cuh"
+#include "kernels/internode_ll_v2_inc.cuh"
 
 namespace deep_ep {
 
@@ -1098,14 +1099,17 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
 #ifndef DISABLE_NVSHMEM
     EP_HOST_ASSERT(low_latency_mode);
 
+    constexpr int HIDDEN_DIM = 7168;
+
     // Tensor checks
     // By default using `ptp128c` FP8 cast
 
     // NOTE `x` is packed now
     // EP_HOST_ASSERT(x.dim() == 2 and x.is_contiguous() and x.scalar_type() == torch::kBFloat16);
     // EP_HOST_ASSERT(x.size(1) % sizeof(int4) == 0 and x.size(1) % 128 == 0);
+    using Consts = DispatchConstsTemplate<false, true, HIDDEN_DIM>;
     EP_HOST_ASSERT(x.dim() == 2 and x.is_contiguous() and x.scalar_type() == torch::Uint8);
-    EP_HOST_ASSERT(x.size(1) == TODO);
+    EP_HOST_ASSERT(x.size(1) == Consts::num_bytes_per_msg);
 
     EP_HOST_ASSERT(x.size(0) == topk_idx.size(0) and x.size(0) <= num_max_dispatch_tokens_per_rank);
     EP_HOST_ASSERT(topk_idx.dim() == 2 and topk_idx.is_contiguous());
@@ -1124,7 +1128,9 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
         EP_HOST_ASSERT(dispatch_wait_recv_cost_stats->size(0) == num_ranks);
     }
 
-    auto num_tokens = static_cast<int>(x.size(0)), hidden = static_cast<int>(x.size(1));
+    // auto num_tokens = static_cast<int>(x.size(0)), hidden = static_cast<int>(x.size(1));
+    auto num_tokens = static_cast<int>(x.size(0)), hidden = HIDDEN_DIM;
+
     auto num_topk = static_cast<int>(topk_idx.size(1));
     auto num_local_experts = num_experts / num_ranks;
 
@@ -1144,7 +1150,7 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
 
     // Allocate packed tensors
     auto packed_recv_x = torch::empty({num_local_experts, num_ranks * num_max_dispatch_tokens_per_rank, hidden},
-                                      TODO);
+                                      torch::dtype(use_fp8 ? torch::kFloat8_e4m3fn: torch::kBFloat16).device(torch::kCUDA));
                                       // x.options().dtype(use_fp8 ? torch::kFloat8_e4m3fn: torch::kBFloat16));
     auto packed_recv_src_info = torch::empty({num_local_experts, num_ranks * num_max_dispatch_tokens_per_rank}, torch::dtype(torch::kInt32).device(torch::kCUDA));
     auto packed_recv_layout_range = torch::empty({num_local_experts, num_ranks}, torch::dtype(torch::kInt64).device(torch::kCUDA));

From be01a59f226f20cce109236b844ece3e896d900a Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 21:09:43 +0800
Subject: [PATCH 091/393] rm last warp

---
 csrc/kernels/internode_ll_v2.cuh | 90 +++++++++++++++++---------------
 1 file changed, 49 insertions(+), 41 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index af502515..364dc3cb 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -30,11 +30,17 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id) {
     // There are 2 kinds of warps in this part:
     // 1. The first-kind warps for FP8 cast and sending top-k tokens
     // 2. The last warp for reading `topk_idx` and count for per-expert information
-    if (warp_id < num_warps - 1) {
+
+    // NOTE remove the last warp
+    // if (warp_id < num_warps - 1) {
         constexpr int kNumElemsPerRead = sizeof(int4) / sizeof(nv_bfloat16);
         EP_STATIC_ASSERT(kHidden % (32 * kNumElemsPerRead) == 0, "Invalid hidden");
         EP_STATIC_ASSERT(kNumElemsPerRead * 32 % Consts::kNumPerChannels == 0, "Invalid vectorization");
-        const auto num_threads = (num_warps - 1) * 32;
+
+        // NOTE no need "-1" b/c we do not reserve one warp for counting anymore
+        // const auto num_threads = (num_warps - 1) * 32;
+        const auto num_threads = num_warps * 32;
+
         const size_t hidden_bf16_int4 = kHidden / kNumElemsPerRead;
 
         for (int token_idx = sm_id; token_idx < num_tokens; token_idx += num_sms) {
@@ -127,47 +133,49 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id) {
                 lane_id == 0 ? atomic_add_release_global(atomic_finish_counter_per_expert + dst_expert_idx, 1) : 0;
             }
         }
-    } else if (warp_id == num_warps - 1) {
-        EP_DEVICE_ASSERT(num_sms > 1);
-        if (sm_id == 0) {
-            // The first SM is also responsible for checking QPs
-            EP_DEVICE_ASSERT(ibgda_get_state()->num_rc_per_pe >= num_local_experts);
-
-            // The first SM is also responsible for cleaning the next buffer
-            #pragma unroll
-            for (int i = lane_id; i < num_next_clean_int; i += 32)
-                next_clean[i] = 0;
-
-            // Notify before executing `int_p`
-            __syncwarp();
-            #pragma unroll
-            for (int i = lane_id; i < num_experts; i += 32)
-                atomic_add_release_global(atomic_finish_counter_per_expert + i, FINISHED_SUM_TAG);
-        }
 
-        // This SM should be responsible for some destination experts, read `topk_idx` for them
-        int expert_count[kNumMaxWarpGroups] = {0};
-        const auto expert_begin_idx = sm_id * num_warp_groups;
-        const auto expert_end_idx = min(expert_begin_idx + num_warp_groups, num_experts);
-
-        // Per lane count
-        #pragma unroll 8
-        for (int i = lane_id; i < num_tokens * num_topk; i += 32) {
-            auto idx = static_cast<int>(__ldg(topk_idx + i));
-            if (idx >= expert_begin_idx and idx < expert_end_idx)
-                expert_count[idx - expert_begin_idx] ++;
-        }
+//     } else if (warp_id == num_warps - 1) {
+//         EP_DEVICE_ASSERT(num_sms > 1);
+//         if (sm_id == 0) {
+//             // The first SM is also responsible for checking QPs
+//             EP_DEVICE_ASSERT(ibgda_get_state()->num_rc_per_pe >= num_local_experts);
+//
+//             // The first SM is also responsible for cleaning the next buffer
+//             #pragma unroll
+//             for (int i = lane_id; i < num_next_clean_int; i += 32)
+//                 next_clean[i] = 0;
+//
+//             // Notify before executing `int_p`
+//             __syncwarp();
+//             #pragma unroll
+//             for (int i = lane_id; i < num_experts; i += 32)
+//                 atomic_add_release_global(atomic_finish_counter_per_expert + i, FINISHED_SUM_TAG);
+//         }
+//
+//         // This SM should be responsible for some destination experts, read `topk_idx` for them
+//         int expert_count[kNumMaxWarpGroups] = {0};
+//         const auto expert_begin_idx = sm_id * num_warp_groups;
+//         const auto expert_end_idx = min(expert_begin_idx + num_warp_groups, num_experts);
+//
+//         // Per lane count
+//         #pragma unroll 8
+//         for (int i = lane_id; i < num_tokens * num_topk; i += 32) {
+//             auto idx = static_cast<int>(__ldg(topk_idx + i));
+//             if (idx >= expert_begin_idx and idx < expert_end_idx)
+//                 expert_count[idx - expert_begin_idx] ++;
+//         }
+//
+//         // Warp reduce
+//         #pragma unroll
+//         for (int i = expert_begin_idx; i < expert_end_idx; ++ i) {
+//             auto sum = warp_reduce_sum(expert_count[i - expert_begin_idx]);
+//             if (lane_id == 0) {
+//                 shared_num_tokens_sent_per_expert[i - expert_begin_idx] = sum;
+//                 atomic_add_release_global(atomic_finish_counter_per_expert + i, FINISHED_SUM_TAG - sum);
+//             }
+//         }
+//     }
 
-        // Warp reduce
-        #pragma unroll
-        for (int i = expert_begin_idx; i < expert_end_idx; ++ i) {
-            auto sum = warp_reduce_sum(expert_count[i - expert_begin_idx]);
-            if (lane_id == 0) {
-                shared_num_tokens_sent_per_expert[i - expert_begin_idx] = sum;
-                atomic_add_release_global(atomic_finish_counter_per_expert + i, FINISHED_SUM_TAG - sum);
-            }
-        }
-    }
     __syncthreads();
 
     // Issue count sends

From 65cafacb61a682a215415ca4656404f39c854f29 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 21:11:45 +0800
Subject: [PATCH 092/393] extract next_clean

---
 csrc/kernels/internode_ll_v2.cuh | 24 ++++++++++++++----------
 1 file changed, 14 insertions(+), 10 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 364dc3cb..a5c013a8 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -27,6 +27,19 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id) {
     constexpr int kNumMaxWarpGroups = 32;
     __shared__ int shared_num_tokens_sent_per_expert[kNumMaxWarpGroups];
 
+    if ((sm_id == 0) and (warp_id == 0)) {
+        // The first SM is also responsible for cleaning the next buffer
+        #pragma unroll
+        for (int i = lane_id; i < num_next_clean_int; i += 32)
+            next_clean[i] = 0;
+
+        // Notify before executing `int_p`
+        __syncwarp();
+        #pragma unroll
+        for (int i = lane_id; i < num_experts; i += 32)
+            atomic_add_release_global(atomic_finish_counter_per_expert + i, FINISHED_SUM_TAG);
+    }
+
     // There are 2 kinds of warps in this part:
     // 1. The first-kind warps for FP8 cast and sending top-k tokens
     // 2. The last warp for reading `topk_idx` and count for per-expert information
@@ -140,16 +153,7 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id) {
 //             // The first SM is also responsible for checking QPs
 //             EP_DEVICE_ASSERT(ibgda_get_state()->num_rc_per_pe >= num_local_experts);
 //
-//             // The first SM is also responsible for cleaning the next buffer
-//             #pragma unroll
-//             for (int i = lane_id; i < num_next_clean_int; i += 32)
-//                 next_clean[i] = 0;
-//
-//             // Notify before executing `int_p`
-//             __syncwarp();
-//             #pragma unroll
-//             for (int i = lane_id; i < num_experts; i += 32)
-//                 atomic_add_release_global(atomic_finish_counter_per_expert + i, FINISHED_SUM_TAG);
+//             // NOTE (the `next_clean` + notify part is moved)
 //         }
 //
 //         // This SM should be responsible for some destination experts, read `topk_idx` for them

From ee8259aaa17c6356576064d424db745be379de48 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 21:13:25 +0800
Subject: [PATCH 093/393] handle atomic_finish_counter_per_expert

---
 csrc/kernels/internode_ll_v2.cuh | 9 ++++++++-
 1 file changed, 8 insertions(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index a5c013a8..319db588 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -27,6 +27,8 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id) {
     constexpr int kNumMaxWarpGroups = 32;
     __shared__ int shared_num_tokens_sent_per_expert[kNumMaxWarpGroups];
 
+    int num_tokens_of_responsible_expert = TODO;
+
     if ((sm_id == 0) and (warp_id == 0)) {
         // The first SM is also responsible for cleaning the next buffer
         #pragma unroll
@@ -189,7 +191,12 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id) {
         const auto num_tokens_sent = shared_num_tokens_sent_per_expert[responsible_expert_idx - sm_id * num_warp_groups];
 
         // Wait local sends issued and send expert counts
-        while (ld_acquire_global(atomic_finish_counter_per_expert + responsible_expert_idx) != FINISHED_SUM_TAG * 2);
+        while (
+            ld_acquire_global(atomic_finish_counter_per_expert + responsible_expert_idx) !=
+            // NOTE changed
+            // FINISHED_SUM_TAG * 2
+            FINISHED_SUM_TAG + num_tokens_of_responsible_expert
+        );
         auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_count + dst_expert_local_idx * num_ranks + rank);
         auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
         if (dst_p2p_ptr == 0) {

From 4ce206bf1f297b58e0c4b87387eef46314da7371 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 21:13:50 +0800
Subject: [PATCH 094/393] rm shared_num_tokens_sent_per_expert

---
 csrc/kernels/internode_ll_v2.cuh | 8 +++++---
 1 file changed, 5 insertions(+), 3 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 319db588..2e3f4a3a 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -24,8 +24,8 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id) {
     const auto responsible_expert_idx = sm_id * num_warp_groups + warp_group_id;
 
     // Expert counts
-    constexpr int kNumMaxWarpGroups = 32;
-    __shared__ int shared_num_tokens_sent_per_expert[kNumMaxWarpGroups];
+    // constexpr int kNumMaxWarpGroups = 32;
+    // __shared__ int shared_num_tokens_sent_per_expert[kNumMaxWarpGroups];
 
     int num_tokens_of_responsible_expert = TODO;
 
@@ -188,7 +188,9 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id) {
     if (responsible_expert_idx < num_experts and sub_warp_id == 0 and lane_id == 0) {
         const auto dst_rank = responsible_expert_idx / num_local_experts;
         const auto dst_expert_local_idx = responsible_expert_idx % num_local_experts;
-        const auto num_tokens_sent = shared_num_tokens_sent_per_expert[responsible_expert_idx - sm_id * num_warp_groups];
+
+        // const auto num_tokens_sent = shared_num_tokens_sent_per_expert[responsible_expert_idx - sm_id * num_warp_groups];
+        const int num_tokens_sent = num_tokens_of_responsible_expert;
 
         // Wait local sends issued and send expert counts
         while (

From 5d2a9d411fc6541427c49e10bf3d603c9d235df6 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 21:15:09 +0800
Subject: [PATCH 095/393] comment

---
 csrc/kernels/internode_ll_v2.cuh | 1 +
 1 file changed, 1 insertion(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 2e3f4a3a..777ace41 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -27,6 +27,7 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id) {
     // constexpr int kNumMaxWarpGroups = 32;
     // __shared__ int shared_num_tokens_sent_per_expert[kNumMaxWarpGroups];
 
+    // TODO can hide if gmem read is too slow
     int num_tokens_of_responsible_expert = TODO;
 
     if ((sm_id == 0) and (warp_id == 0)) {

From ca00be914b875bb979a71f4518bff12186f55ae8 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 21:17:12 +0800
Subject: [PATCH 096/393] comment

---
 csrc/kernels/internode_ll_v2.cuh | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 777ace41..47a70fae 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -28,7 +28,7 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id) {
     // __shared__ int shared_num_tokens_sent_per_expert[kNumMaxWarpGroups];
 
     // TODO can hide if gmem read is too slow
-    int num_tokens_of_responsible_expert = TODO;
+    int num_tokens_of_responsible_expert = count_per_expert[responsible_expert_idx];
 
     if ((sm_id == 0) and (warp_id == 0)) {
         // The first SM is also responsible for cleaning the next buffer
@@ -70,6 +70,7 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id) {
             // const auto rdma_x_scales = reinterpret_cast<Consts::rdma_x_scale_t*>(reinterpret_cast<uint8_t*>(rdma_x_vec) + Consts::hidden_bytes);
 
             // Overlap top-k index read and source token index writes
+            TODO_here_only_use_first_8_warps_which_is_wasting;
             auto dst_expert_idx = warp_id < num_topk ? static_cast<int>(__ldg(topk_idx + token_idx * num_topk + warp_id)) : -1;
             // NOTE do not use `rdma_x` but use `x`
             // local_thread_id == 0 ? (*rdma_x_src_idx = token_idx) : 0;
@@ -361,6 +362,8 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
          int num_send_warp_groups, int num_recv_warp_groups,
          int num_warps_per_group,
          bool round_scale, int phases) {
+    TODO_arg(count_per_expert, token_ids_of_expert);
+
     const auto num_send_threads = num_send_warp_groups * num_warps_per_group * 32;
     const auto raw_thread_id = static_cast<int>(threadIdx.x);
     if (raw_thread_id < num_send_threads) {

From c71542cdc7c595728fd3b2cb0a9a9d49fe4c96ff Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 21:18:53 +0800
Subject: [PATCH 097/393] local_expert_idx loop

---
 csrc/kernels/internode_ll_v2.cuh | 19 +++++++++++--------
 1 file changed, 11 insertions(+), 8 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 47a70fae..83f8b929 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -47,18 +47,20 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id) {
     // 1. The first-kind warps for FP8 cast and sending top-k tokens
     // 2. The last warp for reading `topk_idx` and count for per-expert information
 
-    // NOTE remove the last warp
+    // NOTE remove the last warp (and thus the if)
     // if (warp_id < num_warps - 1) {
-        constexpr int kNumElemsPerRead = sizeof(int4) / sizeof(nv_bfloat16);
-        EP_STATIC_ASSERT(kHidden % (32 * kNumElemsPerRead) == 0, "Invalid hidden");
-        EP_STATIC_ASSERT(kNumElemsPerRead * 32 % Consts::kNumPerChannels == 0, "Invalid vectorization");
 
-        // NOTE no need "-1" b/c we do not reserve one warp for counting anymore
-        // const auto num_threads = (num_warps - 1) * 32;
-        const auto num_threads = num_warps * 32;
+    constexpr int kNumElemsPerRead = sizeof(int4) / sizeof(nv_bfloat16);
+    EP_STATIC_ASSERT(kHidden % (32 * kNumElemsPerRead) == 0, "Invalid hidden");
+    EP_STATIC_ASSERT(kNumElemsPerRead * 32 % Consts::kNumPerChannels == 0, "Invalid vectorization");
 
-        const size_t hidden_bf16_int4 = kHidden / kNumElemsPerRead;
+    // NOTE no need "-1" b/c we do not reserve one warp for counting anymore
+    // const auto num_threads = (num_warps - 1) * 32;
+    const auto num_threads = num_warps * 32;
 
+    const size_t hidden_bf16_int4 = kHidden / kNumElemsPerRead;
+
+    for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
         for (int token_idx = sm_id; token_idx < num_tokens; token_idx += num_sms) {
             // const auto x_int4 = static_cast<const int4*>(x) + token_idx * hidden_bf16_int4;
 
@@ -150,6 +152,7 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id) {
                 lane_id == 0 ? atomic_add_release_global(atomic_finish_counter_per_expert + dst_expert_idx, 1) : 0;
             }
         }
+    }
 
 //     } else if (warp_id == num_warps - 1) {
 //         EP_DEVICE_ASSERT(num_sms > 1);

From cc85c1ae12a033d1dab927854427c10d7d96466a Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 21:20:47 +0800
Subject: [PATCH 098/393] inner loop

---
 csrc/kernels/internode_ll_v2.cuh | 7 ++++++-
 1 file changed, 6 insertions(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 83f8b929..91eb7276 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -61,7 +61,12 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id) {
     const size_t hidden_bf16_int4 = kHidden / kNumElemsPerRead;
 
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
-        for (int token_idx = sm_id; token_idx < num_tokens; token_idx += num_sms) {
+        // NOTE change from "linearly scan token_idx= 0,1,2,..." to "linearly scan shuffled_token_idx"
+        // for (int token_idx = sm_id; token_idx < num_tokens; token_idx += num_sms) {
+        for (int shuffled_token_idx = sm_id; token_idx < num_tokens_of_responsible_expert; token_idx += num_sms) {
+            // TODO may overlap to optimize
+            int token_idx = token_ids_of_expert[shuffled_token_idx];
+
             // const auto x_int4 = static_cast<const int4*>(x) + token_idx * hidden_bf16_int4;
 
             // NOTE do not use `rdma_x` but use `x`

From c527121352002410b14742c60572a1dc89b0b3f0 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 21:24:12 +0800
Subject: [PATCH 099/393] fix

---
 csrc/kernels/internode_ll_v2.cuh | 8 +++++++-
 1 file changed, 7 insertions(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 91eb7276..e47bec09 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -63,7 +63,11 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id) {
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
         // NOTE change from "linearly scan token_idx= 0,1,2,..." to "linearly scan shuffled_token_idx"
         // for (int token_idx = sm_id; token_idx < num_tokens; token_idx += num_sms) {
-        for (int shuffled_token_idx = sm_id; token_idx < num_tokens_of_responsible_expert; token_idx += num_sms) {
+        for (
+            int shuffled_token_idx = sm_id;
+            token_idx < TODO_wrong(num_tokens_of_responsible_expert);
+            token_idx += num_sms
+        ) {
             // TODO may overlap to optimize
             int token_idx = token_ids_of_expert[shuffled_token_idx];
 
@@ -78,7 +82,9 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id) {
 
             // Overlap top-k index read and source token index writes
             TODO_here_only_use_first_8_warps_which_is_wasting;
+            TODO_this_logic_is_wrong;
             auto dst_expert_idx = warp_id < num_topk ? static_cast<int>(__ldg(topk_idx + token_idx * num_topk + warp_id)) : -1;
+
             // NOTE do not use `rdma_x` but use `x`
             // local_thread_id == 0 ? (*rdma_x_src_idx = token_idx) : 0;
             local_thread_id == 0 ? (*x_src_idx = token_idx) : 0;

From 1f058e39e731a7e61b68d86ae9dc1d557d7319ab Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 21:24:48 +0800
Subject: [PATCH 100/393] fix

---
 csrc/kernels/internode_ll_v2.cuh | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index e47bec09..4b0d2749 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -64,12 +64,13 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id) {
         // NOTE change from "linearly scan token_idx= 0,1,2,..." to "linearly scan shuffled_token_idx"
         // for (int token_idx = sm_id; token_idx < num_tokens; token_idx += num_sms) {
         for (
-            int shuffled_token_idx = sm_id;
+            int shuffled_token_idx = TODO_wrong(sm_id);
             token_idx < TODO_wrong(num_tokens_of_responsible_expert);
-            token_idx += num_sms
+            token_idx += TODO_wrong(num_sms)
         ) {
             // TODO may overlap to optimize
-            int token_idx = token_ids_of_expert[shuffled_token_idx];
+            int token_idx = TODO;
+            int dst_expert_idx = TODO;
 
             // const auto x_int4 = static_cast<const int4*>(x) + token_idx * hidden_bf16_int4;
 
@@ -81,9 +82,8 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id) {
             // const auto rdma_x_scales = reinterpret_cast<Consts::rdma_x_scale_t*>(reinterpret_cast<uint8_t*>(rdma_x_vec) + Consts::hidden_bytes);
 
             // Overlap top-k index read and source token index writes
-            TODO_here_only_use_first_8_warps_which_is_wasting;
-            TODO_this_logic_is_wrong;
-            auto dst_expert_idx = warp_id < num_topk ? static_cast<int>(__ldg(topk_idx + token_idx * num_topk + warp_id)) : -1;
+            // NOTE the parallel strategy is changed
+            // auto dst_expert_idx = warp_id < num_topk ? static_cast<int>(__ldg(topk_idx + token_idx * num_topk + warp_id)) : -1;
 
             // NOTE do not use `rdma_x` but use `x`
             // local_thread_id == 0 ? (*rdma_x_src_idx = token_idx) : 0;

From 3be894dded9be08270155042dd30163525c84073 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 21:28:11 +0800
Subject: [PATCH 101/393] rename

---
 csrc/kernels/internode_ll_v2.cuh | 28 +++++++++++++++-------------
 1 file changed, 15 insertions(+), 13 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 4b0d2749..c52b3305 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -21,14 +21,16 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id) {
     const auto num_local_experts = num_experts / num_ranks;
     const auto warp_group_id = warp_id / num_warps_per_group;
     const auto sub_warp_id = warp_id % num_warps_per_group;
-    const auto responsible_expert_idx = sm_id * num_warp_groups + warp_group_id;
+
+    // NOTE renamed `responsible_expert_idx` -> `count_send_responsible_expert_idx`
+    const auto count_send_responsible_expert_idx = sm_id * num_warp_groups + warp_group_id;
 
     // Expert counts
     // constexpr int kNumMaxWarpGroups = 32;
     // __shared__ int shared_num_tokens_sent_per_expert[kNumMaxWarpGroups];
 
     // TODO can hide if gmem read is too slow
-    int num_tokens_of_responsible_expert = count_per_expert[responsible_expert_idx];
+    int num_tokens_of_count_send_responsible_expert = count_per_expert[count_send_responsible_expert_idx];
 
     if ((sm_id == 0) and (warp_id == 0)) {
         // The first SM is also responsible for cleaning the next buffer
@@ -64,9 +66,9 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id) {
         // NOTE change from "linearly scan token_idx= 0,1,2,..." to "linearly scan shuffled_token_idx"
         // for (int token_idx = sm_id; token_idx < num_tokens; token_idx += num_sms) {
         for (
-            int shuffled_token_idx = TODO_wrong(sm_id);
-            token_idx < TODO_wrong(num_tokens_of_responsible_expert);
-            token_idx += TODO_wrong(num_sms)
+            int shuffled_token_idx = TODO;
+            token_idx < TODO;
+            token_idx += TODO
         ) {
             // TODO may overlap to optimize
             int token_idx = TODO;
@@ -201,16 +203,16 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id) {
     __syncthreads();
 
     // Issue count sends
-    if (responsible_expert_idx < num_experts and sub_warp_id == 0 and lane_id == 0) {
-        const auto dst_rank = responsible_expert_idx / num_local_experts;
-        const auto dst_expert_local_idx = responsible_expert_idx % num_local_experts;
+    if (count_send_responsible_expert_idx < num_experts and sub_warp_id == 0 and lane_id == 0) {
+        const auto dst_rank = count_send_responsible_expert_idx / num_local_experts;
+        const auto dst_expert_local_idx = count_send_responsible_expert_idx % num_local_experts;
 
-        // const auto num_tokens_sent = shared_num_tokens_sent_per_expert[responsible_expert_idx - sm_id * num_warp_groups];
-        const int num_tokens_sent = num_tokens_of_responsible_expert;
+        // const auto num_tokens_sent = shared_num_tokens_sent_per_expert[count_send_responsible_expert_idx - sm_id * num_warp_groups];
+        const int num_tokens_sent = num_tokens_of_count_send_responsible_expert;
 
         // Wait local sends issued and send expert counts
         while (
-            ld_acquire_global(atomic_finish_counter_per_expert + responsible_expert_idx) !=
+            ld_acquire_global(atomic_finish_counter_per_expert + count_send_responsible_expert_idx) !=
             // NOTE changed
             // FINISHED_SUM_TAG * 2
             FINISHED_SUM_TAG + num_tokens_of_responsible_expert
@@ -224,8 +226,8 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id) {
         }
 
         // Clean workspace for next use
-        atomic_counter_per_expert[responsible_expert_idx] = 0;
-        atomic_finish_counter_per_expert[responsible_expert_idx] = 0;
+        atomic_counter_per_expert[count_send_responsible_expert_idx] = 0;
+        atomic_finish_counter_per_expert[count_send_responsible_expert_idx] = 0;
 
         // NOTE packed_recv_count zeroing is removed
 //         // Clean `packed_recv_count`

From d0b04b0b52e6f22ff9fc2e6729c4f0d739aafe42 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 21:30:14 +0800
Subject: [PATCH 102/393] comment

---
 csrc/kernels/internode_ll_v2.cuh | 1 +
 1 file changed, 1 insertion(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index c52b3305..47ba7864 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -88,6 +88,7 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id) {
             // auto dst_expert_idx = warp_id < num_topk ? static_cast<int>(__ldg(topk_idx + token_idx * num_topk + warp_id)) : -1;
 
             // NOTE do not use `rdma_x` but use `x`
+            // NOTE the new code will write `x_src_idx` multiple times w/ same value, thus wasting but correct
             // local_thread_id == 0 ? (*rdma_x_src_idx = token_idx) : 0;
             local_thread_id == 0 ? (*x_src_idx = token_idx) : 0;
 

From 122515182991c309236af82a01c74862d60c908d Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 21:34:12 +0800
Subject: [PATCH 103/393] comment

---
 csrc/kernels/internode_ll_v2.cuh | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 47ba7864..3105ed99 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -63,7 +63,9 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id) {
     const size_t hidden_bf16_int4 = kHidden / kNumElemsPerRead;
 
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
-        // NOTE change from "linearly scan token_idx= 0,1,2,..." to "linearly scan shuffled_token_idx"
+        // NOTE
+        // before: one SM = one token, one warp = one dst rank of that token, only use first 8 warps of the SM (?)
+        // after:
         // for (int token_idx = sm_id; token_idx < num_tokens; token_idx += num_sms) {
         for (
             int shuffled_token_idx = TODO;
@@ -90,6 +92,7 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id) {
             // NOTE do not use `rdma_x` but use `x`
             // NOTE the new code will write `x_src_idx` multiple times w/ same value, thus wasting but correct
             // local_thread_id == 0 ? (*rdma_x_src_idx = token_idx) : 0;
+            TODO_should_no_longer_be_local_thread_id_zero;
             local_thread_id == 0 ? (*x_src_idx = token_idx) : 0;
 
             // NOTE no read or cast in fp4

From 416e13111c3ce27288366f3e31cd54e81b7efb87 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 21:38:29 +0800
Subject: [PATCH 104/393] rm

---
 csrc/kernels/internode_ll_v2.cuh | 16 +++++++++++++---
 1 file changed, 13 insertions(+), 3 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 3105ed99..667ccd21 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -65,7 +65,10 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id) {
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
         // NOTE
         // before: one SM = one token, one warp = one dst rank of that token, only use first 8 warps of the SM (?)
-        // after:
+        // after: flatten all warps in all SMs, then one warp = one dst rank of one token
+        //
+        // WARN: cannot have too many warps per SM, o/w not all SMs will have work
+        //
         // for (int token_idx = sm_id; token_idx < num_tokens; token_idx += num_sms) {
         for (
             int shuffled_token_idx = TODO;
@@ -421,9 +424,16 @@ void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
     TODO_args(use_nvfp4, dst_signals);
     constexpr int kNumMaxTopK = 9;
     const int num_warp_groups = ceil_div(num_experts, num_device_sms);
-    const int num_warps_per_group = 32 / num_warp_groups;
+
+    // NOTE temporarily reduce num warps per group to avoid workload imbalance in dispatch_send
+    // TODO may increase it later e.g. for dispatch_recv
+    const int num_warps_per_group = 8;
+    // const int num_warps_per_group = 32 / num_warp_groups;
+
     EP_HOST_ASSERT(num_warp_groups > 0 and num_warps_per_group > 0);
-    EP_HOST_ASSERT(kNumMaxTopK + 1 <= num_warp_groups * num_warps_per_group);
+
+    // NOTE no longer need one SM to send all topk destinations
+    // EP_HOST_ASSERT(kNumMaxTopK + 1 <= num_warp_groups * num_warps_per_group);
 
     const auto num_warps = num_warp_groups * num_warps_per_group;
     const auto num_sms = ceil_div(num_experts, num_warp_groups);

From 65de18337aed8875af7d432d86f4a7ebada11f46 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 21:42:33 +0800
Subject: [PATCH 105/393] compute idx

---
 csrc/kernels/internode_ll_v2.cuh | 27 ++++++++++++++++-----------
 1 file changed, 16 insertions(+), 11 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 667ccd21..39139b96 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -9,7 +9,7 @@ namespace deep_ep {
 namespace internode_ll {
 
 template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>
-__forceinline__ __device__ int dispatch_send(int local_thread_id) {
+__forceinline__ __device__ int dispatch_send(int local_thread_id, int num_warp_groups) {
     using Consts = DispatchConstsTemplate<kUseFP8, kUseNVFP4, kHidden>;
     EP_DEVICE_ASSERT(Consts::num_bytes_per_msg % sizeof(int4) == 0);
 
@@ -62,13 +62,19 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id) {
 
     const size_t hidden_bf16_int4 = kHidden / kNumElemsPerRead;
 
+    // NOTE
+    // before: one SM = one token, one warp = one dst rank of that token, only use first 8 warps of the SM (?)
+    // after: flatten all warps in all SMs, then reorder to (..., num_ranks) grid, then one warp = one dst rank of one token
+    //
+    // WARN: cannot have too many warps per SM, o/w not all SMs will have work
+    //
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
-        // NOTE
-        // before: one SM = one token, one warp = one dst rank of that token, only use first 8 warps of the SM (?)
-        // after: flatten all warps in all SMs, then one warp = one dst rank of one token
-        //
-        // WARN: cannot have too many warps per SM, o/w not all SMs will have work
-        //
+        const int flatten_sm_id_and_warp_id = sm_id * num_warps + warp_id;
+        // TODO this will cause workload imbalance?
+        const int TODO = flatten_sm_id_and_warp_id / num_ranks;
+        const int dst_rank = flatten_sm_id_and_warp_id % num_ranks;
+        const int dst_expert_idx = dst_rank * num_local_experts + local_expert_idx;
+
         // for (int token_idx = sm_id; token_idx < num_tokens; token_idx += num_sms) {
         for (
             int shuffled_token_idx = TODO;
@@ -77,7 +83,6 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id) {
         ) {
             // TODO may overlap to optimize
             int token_idx = TODO;
-            int dst_expert_idx = TODO;
 
             // const auto x_int4 = static_cast<const int4*>(x) + token_idx * hidden_bf16_int4;
 
@@ -245,7 +250,7 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id) {
 }
 
 template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>
-__forceinline__ __device__ int dispatch_recv(int local_thread_id) {
+__forceinline__ __device__ int dispatch_recv(int local_thread_id, int num_warp_groups) {
     using Consts = DispatchConstsTemplate<kUseFP8, kUseNVFP4, kHidden>;
 
     // NOTE copied from dispatch body
@@ -391,10 +396,10 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
     const auto raw_thread_id = static_cast<int>(threadIdx.x);
     if (raw_thread_id < num_send_threads) {
         const auto send_thread_id = raw_thread_id;
-        dispatch_send<kUseFP8, kUseUE8M0, kUseNVFP4, kHidden>(send_thread_id, TODO_args);
+        dispatch_send<kUseFP8, kUseUE8M0, kUseNVFP4, kHidden>(send_thread_id, num_send_warp_groups, TODO_args);
     } else {
         const auto recv_thread_id = raw_thread_id - num_send_threads;
-        dispatch_recv<kUseFP8, kUseUE8M0, kUseNVFP4, kHidden>(recv_thread_id, TODO_args);
+        dispatch_recv<kUseFP8, kUseUE8M0, kUseNVFP4, kHidden>(recv_thread_id, num_recv_warp_groups, TODO_args);
     }
 
 // NOTE removed

From 82bfe245cf814820b8de75cc4d0f2246049f7eef Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 21:45:29 +0800
Subject: [PATCH 106/393] nit

---
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 39139b96..db87c0dc 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -70,7 +70,7 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id, int num_warp_g
     //
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
         const int flatten_sm_id_and_warp_id = sm_id * num_warps + warp_id;
-        // TODO this will cause workload imbalance?
+        TODO; // TODO this will cause workload imbalance?
         const int TODO = flatten_sm_id_and_warp_id / num_ranks;
         const int dst_rank = flatten_sm_id_and_warp_id % num_ranks;
         const int dst_expert_idx = dst_rank * num_local_experts + local_expert_idx;

From 9273d06d9d38d80fa681376a253a8b8fbbd18b24 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 21:49:13 +0800
Subject: [PATCH 107/393] mv

---
 csrc/kernels/internode_ll_v2.cuh | 77 +++++++++++++++++---------------
 1 file changed, 41 insertions(+), 36 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index db87c0dc..2a0c6050 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -177,6 +177,47 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id, int num_warp_g
                 lane_id == 0 ? atomic_add_release_global(atomic_finish_counter_per_expert + dst_expert_idx, 1) : 0;
             }
         }
+
+        // NOTE mv from do-once to do-per-local-expert
+        // TODO what does this do? do we break something, b/c we let multi SM cooperate?
+        // (seems it is safe, b/c our next step will check gmem?)
+        __syncthreads();
+
+        // NOTE mv from do-once to do-per-local-expert
+        // Issue count sends
+        if (count_send_responsible_expert_idx < num_experts and sub_warp_id == 0 and lane_id == 0) {
+            const auto dst_rank = count_send_responsible_expert_idx / num_local_experts;
+            const auto dst_expert_local_idx = count_send_responsible_expert_idx % num_local_experts;
+
+            // const auto num_tokens_sent = shared_num_tokens_sent_per_expert[count_send_responsible_expert_idx - sm_id * num_warp_groups];
+            const int num_tokens_sent = num_tokens_of_count_send_responsible_expert;
+
+            // Wait local sends issued and send expert counts
+            while (
+                ld_acquire_global(atomic_finish_counter_per_expert + count_send_responsible_expert_idx) !=
+                // NOTE changed
+                // FINISHED_SUM_TAG * 2
+                FINISHED_SUM_TAG + num_tokens_of_responsible_expert
+            );
+            auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_count + dst_expert_local_idx * num_ranks + rank);
+            auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
+            if (dst_p2p_ptr == 0) {
+                nvshmemi_ibgda_amo_nonfetch_add(reinterpret_cast<int*>(dst_ptr), -num_tokens_sent - 1, dst_rank, dst_expert_local_idx);
+            } else {
+                st_release_sys_global(reinterpret_cast<int*>(dst_p2p_ptr), -num_tokens_sent - 1);
+            }
+
+            // Clean workspace for next use
+            atomic_counter_per_expert[count_send_responsible_expert_idx] = 0;
+            atomic_finish_counter_per_expert[count_send_responsible_expert_idx] = 0;
+
+            // NOTE packed_recv_count zeroing is removed
+            // // Clean `packed_recv_count`
+            // if (dst_rank == 0)
+            //     packed_recv_count[dst_expert_local_idx] = 0;
+        }
+        // TODO what does this do?
+        __syncwarp();
     }
 
 //     } else if (warp_id == num_warps - 1) {
@@ -211,42 +252,6 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id, int num_warp_g
 //             }
 //         }
 //     }
-
-    __syncthreads();
-
-    // Issue count sends
-    if (count_send_responsible_expert_idx < num_experts and sub_warp_id == 0 and lane_id == 0) {
-        const auto dst_rank = count_send_responsible_expert_idx / num_local_experts;
-        const auto dst_expert_local_idx = count_send_responsible_expert_idx % num_local_experts;
-
-        // const auto num_tokens_sent = shared_num_tokens_sent_per_expert[count_send_responsible_expert_idx - sm_id * num_warp_groups];
-        const int num_tokens_sent = num_tokens_of_count_send_responsible_expert;
-
-        // Wait local sends issued and send expert counts
-        while (
-            ld_acquire_global(atomic_finish_counter_per_expert + count_send_responsible_expert_idx) !=
-            // NOTE changed
-            // FINISHED_SUM_TAG * 2
-            FINISHED_SUM_TAG + num_tokens_of_responsible_expert
-        );
-        auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_count + dst_expert_local_idx * num_ranks + rank);
-        auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
-        if (dst_p2p_ptr == 0) {
-            nvshmemi_ibgda_amo_nonfetch_add(reinterpret_cast<int*>(dst_ptr), -num_tokens_sent - 1, dst_rank, dst_expert_local_idx);
-        } else {
-            st_release_sys_global(reinterpret_cast<int*>(dst_p2p_ptr), -num_tokens_sent - 1);
-        }
-
-        // Clean workspace for next use
-        atomic_counter_per_expert[count_send_responsible_expert_idx] = 0;
-        atomic_finish_counter_per_expert[count_send_responsible_expert_idx] = 0;
-
-        // NOTE packed_recv_count zeroing is removed
-//         // Clean `packed_recv_count`
-//         if (dst_rank == 0)
-//             packed_recv_count[dst_expert_local_idx] = 0;
-    }
-    __syncwarp();
 }
 
 template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>

From 04ae1f8833b2a1b4c03d8b11eabacc39675e9eb3 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 21:50:34 +0800
Subject: [PATCH 108/393] dst_expert_local_idx

---
 csrc/kernels/internode_ll_v2.cuh | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 2a0c6050..e725d4fd 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -187,7 +187,10 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id, int num_warp_g
         // Issue count sends
         if (count_send_responsible_expert_idx < num_experts and sub_warp_id == 0 and lane_id == 0) {
             const auto dst_rank = count_send_responsible_expert_idx / num_local_experts;
-            const auto dst_expert_local_idx = count_send_responsible_expert_idx % num_local_experts;
+
+            // NOTE changed
+            // const auto dst_expert_local_idx = count_send_responsible_expert_idx % num_local_experts;
+            const auto dst_expert_local_idx = local_expert_idx;
 
             // const auto num_tokens_sent = shared_num_tokens_sent_per_expert[count_send_responsible_expert_idx - sm_id * num_warp_groups];
             const int num_tokens_sent = num_tokens_of_count_send_responsible_expert;

From e0a2de85e201624d5cf346c56abaf1a686c5d4f2 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 21:52:37 +0800
Subject: [PATCH 109/393] count_send_responsible_expert_idx

---
 csrc/kernels/internode_ll_v2.cuh | 11 +++++------
 1 file changed, 5 insertions(+), 6 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index e725d4fd..0d8960ce 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -22,16 +22,13 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id, int num_warp_g
     const auto warp_group_id = warp_id / num_warps_per_group;
     const auto sub_warp_id = warp_id % num_warps_per_group;
 
-    // NOTE renamed `responsible_expert_idx` -> `count_send_responsible_expert_idx`
-    const auto count_send_responsible_expert_idx = sm_id * num_warp_groups + warp_group_id;
+    // NOTE renamed `responsible_expert_idx` -> `count_send_responsible_expert_idx`, and then removed
+    // const auto count_send_responsible_expert_idx = sm_id * num_warp_groups + warp_group_id;
 
     // Expert counts
     // constexpr int kNumMaxWarpGroups = 32;
     // __shared__ int shared_num_tokens_sent_per_expert[kNumMaxWarpGroups];
 
-    // TODO can hide if gmem read is too slow
-    int num_tokens_of_count_send_responsible_expert = count_per_expert[count_send_responsible_expert_idx];
-
     if ((sm_id == 0) and (warp_id == 0)) {
         // The first SM is also responsible for cleaning the next buffer
         #pragma unroll
@@ -185,6 +182,7 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id, int num_warp_g
 
         // NOTE mv from do-once to do-per-local-expert
         // Issue count sends
+        const int count_send_responsible_expert_idx = TODO;
         if (count_send_responsible_expert_idx < num_experts and sub_warp_id == 0 and lane_id == 0) {
             const auto dst_rank = count_send_responsible_expert_idx / num_local_experts;
 
@@ -192,8 +190,9 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id, int num_warp_g
             // const auto dst_expert_local_idx = count_send_responsible_expert_idx % num_local_experts;
             const auto dst_expert_local_idx = local_expert_idx;
 
+            // TODO can hide the gmem read if too slow
             // const auto num_tokens_sent = shared_num_tokens_sent_per_expert[count_send_responsible_expert_idx - sm_id * num_warp_groups];
-            const int num_tokens_sent = num_tokens_of_count_send_responsible_expert;
+            const int num_tokens_sent = count_per_expert[count_send_responsible_expert_idx];
 
             // Wait local sends issued and send expert counts
             while (

From 252718c09f80aa7cf0a2a170e1722f4c1605ff51 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 21:54:05 +0800
Subject: [PATCH 110/393] counter thread

---
 csrc/kernels/internode_ll_v2.cuh | 17 +++++++++++++----
 1 file changed, 13 insertions(+), 4 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 0d8960ce..bfba94c1 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -181,12 +181,21 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id, int num_warp_g
         __syncthreads();
 
         // NOTE mv from do-once to do-per-local-expert
+        //
+        // NOTE
+        // before: one (sm_id, warp_group_id) = one responsible_expert_idx = send counter to that (dst rank, dst local expert)
+        //         thus use one thread per warp_group
+        // after: one sm_id = one dst_rank = send counter to that (dsk_rank, const local_expert_idx)
+        //         thus use one thread per SM
+        //
         // Issue count sends
-        const int count_send_responsible_expert_idx = TODO;
-        if (count_send_responsible_expert_idx < num_experts and sub_warp_id == 0 and lane_id == 0) {
-            const auto dst_rank = count_send_responsible_expert_idx / num_local_experts;
-
+        EP_DEBUG_DEVICE_ASSERT(num_sms >= num_ranks);
+        const int dst_rank = sm_id;
+        // NOTE changed
+        // if (count_send_responsible_expert_idx < num_experts and sub_warp_id == 0 and lane_id == 0) {
+        if ((dst_rank < num_ranks) and (local_thread_id == 0)) {
             // NOTE changed
+            // const auto dst_rank = count_send_responsible_expert_idx / num_local_experts;
             // const auto dst_expert_local_idx = count_send_responsible_expert_idx % num_local_experts;
             const auto dst_expert_local_idx = local_expert_idx;
 

From eaf26bf08f709baa1c5ca8f25e6d6a3a152229d5 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 21:58:35 +0800
Subject: [PATCH 111/393] rm

---
 csrc/kernels/internode_ll_v2.cuh | 42 +++++++++++++++++---------------
 1 file changed, 22 insertions(+), 20 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index bfba94c1..1a148224 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -347,26 +347,28 @@ __forceinline__ __device__ int dispatch_recv(int local_thread_id, int num_warp_g
 
             // Copy scales
             if constexpr (kUseFP8) {
-                EP_DEVICE_ASSERT(Consts::num_scales <= 64);
-                // Equivalent CuTe layout:
-                //   (num_tokens, (num_packed, num_elems_per_pack)):(num_elems_per_pack, (num_tokens * num_elems_per_pack, 1))
-                const auto src_scales = reinterpret_cast<float*>(reinterpret_cast<uint8_t*>(src_data) + Consts::hidden_bytes);
-                const auto num_elems_per_pack = static_cast<int>(sizeof(packed_t) / sizeof(scale_t));
-                const auto token_idx = recv_token_begin_idx + i;
-                const auto token_stride = num_elems_per_pack;
-                const auto pack_stride = num_ranks * num_max_dispatch_tokens_per_rank * num_elems_per_pack;
-                if (lane_id < Consts::num_scales) {
-                    const auto pack_idx = lane_id / num_elems_per_pack;
-                    const auto elem_idx = lane_id % num_elems_per_pack;
-                    auto scale = extract_required_scale_format<kUseUE8M0>(ld_nc_global(src_scales + lane_id));
-                    recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
-                }
-                if (lane_id + 32 < Consts::num_scales) {
-                    const auto pack_idx = (lane_id + 32) / num_elems_per_pack;
-                    const auto elem_idx = (lane_id + 32) % num_elems_per_pack;
-                    auto scale = extract_required_scale_format<kUseUE8M0>(ld_nc_global(src_scales + lane_id + 32));
-                    recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
-                }
+                // NOTE simply remove to simplify code
+                EP_DEVICE_ASSERT(false);
+//                 EP_DEVICE_ASSERT(Consts::num_scales <= 64);
+//                 // Equivalent CuTe layout:
+//                 //   (num_tokens, (num_packed, num_elems_per_pack)):(num_elems_per_pack, (num_tokens * num_elems_per_pack, 1))
+//                 const auto src_scales = reinterpret_cast<float*>(reinterpret_cast<uint8_t*>(src_data) + Consts::hidden_bytes);
+//                 const auto num_elems_per_pack = static_cast<int>(sizeof(packed_t) / sizeof(scale_t));
+//                 const auto token_idx = recv_token_begin_idx + i;
+//                 const auto token_stride = num_elems_per_pack;
+//                 const auto pack_stride = num_ranks * num_max_dispatch_tokens_per_rank * num_elems_per_pack;
+//                 if (lane_id < Consts::num_scales) {
+//                     const auto pack_idx = lane_id / num_elems_per_pack;
+//                     const auto elem_idx = lane_id % num_elems_per_pack;
+//                     auto scale = extract_required_scale_format<kUseUE8M0>(ld_nc_global(src_scales + lane_id));
+//                     recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
+//                 }
+//                 if (lane_id + 32 < Consts::num_scales) {
+//                     const auto pack_idx = (lane_id + 32) / num_elems_per_pack;
+//                     const auto elem_idx = (lane_id + 32) % num_elems_per_pack;
+//                     auto scale = extract_required_scale_format<kUseUE8M0>(ld_nc_global(src_scales + lane_id + 32));
+//                     recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
+//                 }
             } else if constexpr (kUseNVFP4) {
                 // TODO wait for new swizzle layout
                 // Equivalent CuTe layout:

From 18252d523d7af9dc7fe32601b01a78c2587ac515 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 22:01:06 +0800
Subject: [PATCH 112/393] comments

---
 csrc/kernels/internode_ll_v2.cuh | 7 +++++++
 1 file changed, 7 insertions(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 1a148224..fdc2d869 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -290,10 +290,17 @@ __forceinline__ __device__ int dispatch_recv(int local_thread_id, int num_warp_g
 //     if (phases & LOW_LATENCY_SEND_PHASE)
 //         cg::this_grid().sync();
 
+    // TODO a lot of SM is wasted, optimize it later
+    //
+    // NOTE
+    // before: one (sm_id, warp_group_id) = one responsible_expert_idx = handle all tokens for one (src_rank, local_expert_idx)
+    // after: one sm_id = handle all tokens for one (src_rank, const local_expert_idx)
+
     // Receiving and packing
     if (responsible_expert_idx < num_experts) {
         const auto src_rank = responsible_expert_idx / num_local_experts;
         const auto local_expert_idx = responsible_expert_idx % num_local_experts;
+
         const auto rdma_recv_x_uint8 = static_cast<uint8_t*>(rdma_recv_x) +
                 local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
                 src_rank * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg;

From 56fe854231e5a2394784c8adf715f35d0d4731b3 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 22:03:13 +0800
Subject: [PATCH 113/393] comments

---
 csrc/kernels/internode_ll_v2.cuh | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index fdc2d869..c4fd3775 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -291,10 +291,11 @@ __forceinline__ __device__ int dispatch_recv(int local_thread_id, int num_warp_g
 //         cg::this_grid().sync();
 
     // TODO a lot of SM is wasted, optimize it later
+    // TODO at least make dispatch_recv have 16 instead of 8 warps
     //
     // NOTE
     // before: one (sm_id, warp_group_id) = one responsible_expert_idx = handle all tokens for one (src_rank, local_expert_idx)
-    // after: one sm_id = handle all tokens for one (src_rank, const local_expert_idx)
+    // after: one sm_id = one src_rank = handle all tokens for one (src_rank, const local_expert_idx)
 
     // Receiving and packing
     if (responsible_expert_idx < num_experts) {

From 1b8e950e6e418f0ee75bf17bab5ae0f078adf4c3 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 22:04:09 +0800
Subject: [PATCH 114/393] fix

---
 csrc/kernels/internode_ll_v2.cuh | 1 +
 1 file changed, 1 insertion(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index c4fd3775..eb309fa7 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -198,6 +198,7 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id, int num_warp_g
             // const auto dst_rank = count_send_responsible_expert_idx / num_local_experts;
             // const auto dst_expert_local_idx = count_send_responsible_expert_idx % num_local_experts;
             const auto dst_expert_local_idx = local_expert_idx;
+            const auto count_send_responsible_expert_idx = dst_rank * num_local_experts + dst_expert_local_idx;
 
             // TODO can hide the gmem read if too slow
             // const auto num_tokens_sent = shared_num_tokens_sent_per_expert[count_send_responsible_expert_idx - sm_id * num_warp_groups];

From dd71ecb1a8775f92f1a0b009152f3682053039c3 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 22:04:49 +0800
Subject: [PATCH 115/393] loop

---
 csrc/kernels/internode_ll_v2.cuh | 198 ++++++++++++++++---------------
 1 file changed, 103 insertions(+), 95 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index eb309fa7..65b17edb 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -278,7 +278,9 @@ __forceinline__ __device__ int dispatch_recv(int local_thread_id, int num_warp_g
     const auto num_local_experts = num_experts / num_ranks;
     const auto warp_group_id = warp_id / num_warps_per_group;
     const auto sub_warp_id = warp_id % num_warps_per_group;
-    const auto responsible_expert_idx = sm_id * num_warp_groups + warp_group_id;
+
+    // NOTE rm
+    // const auto responsible_expert_idx = sm_id * num_warp_groups + warp_group_id;
 
     // May extract UE8M0 from the scales
     using scale_t = std::conditional_t<kUseUE8M0 || kUseNVFP4, uint8_t, float>;
@@ -299,100 +301,106 @@ __forceinline__ __device__ int dispatch_recv(int local_thread_id, int num_warp_g
     // after: one sm_id = one src_rank = handle all tokens for one (src_rank, const local_expert_idx)
 
     // Receiving and packing
-    if (responsible_expert_idx < num_experts) {
-        const auto src_rank = responsible_expert_idx / num_local_experts;
-        const auto local_expert_idx = responsible_expert_idx % num_local_experts;
-
-        const auto rdma_recv_x_uint8 = static_cast<uint8_t*>(rdma_recv_x) +
-                local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
-                src_rank * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg;
-        const auto recv_x_int4 = static_cast<int4*>(packed_recv_x) +
-                local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::hidden_int4;
-        const auto recv_src_info = packed_recv_src_info + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank;
-        const auto recv_range = packed_recv_layout_range + local_expert_idx * num_ranks;
-        const auto num_aligned_scales = align<int>(Consts::num_scales, sizeof(float) / sizeof(scale_t));
-        const auto recv_x_scales = static_cast<scale_t*>(packed_recv_x_scales) + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_aligned_scales;
-
-        // Shared between sub-warps in warp groups
-        __shared__ int shared_num_recv_tokens[kNumMaxWarpGroups], shared_recv_token_begin_idx[kNumMaxWarpGroups];
-
-        // Wait tokens to arrive
-        // NOTES: using sub-warp 1 to overlap with sub-warp 0
-        int num_recv_tokens, recv_token_begin_idx;
-        EP_DEVICE_ASSERT(num_warps_per_group > 1 and num_warp_groups < 15);
-        if (sub_warp_id == 1 and lane_id == 0) {
-            auto start_time = clock64();
-            while ((num_recv_tokens = ld_acquire_sys_global(rdma_recv_count + local_expert_idx * num_ranks + src_rank)) == 0);
-            auto wait_recv_cost = clock64() - start_time;
-            num_recv_tokens = -num_recv_tokens - 1;
-            recv_token_begin_idx = atomicAdd(packed_recv_count + local_expert_idx, num_recv_tokens);
-            shared_num_recv_tokens[warp_group_id] = num_recv_tokens;
-            shared_recv_token_begin_idx[warp_group_id] = recv_token_begin_idx;
-            recv_range[src_rank] = pack2<int, int64_t>(num_recv_tokens, recv_token_begin_idx);
-
-            // Add stats for diagnosis
-            if (cumulative_local_expert_recv_stats != nullptr)
-                atomicAdd(cumulative_local_expert_recv_stats + local_expert_idx, num_recv_tokens);
-            if (dispatch_wait_recv_cost_stats != nullptr)
-                atomicAdd(reinterpret_cast<unsigned long long*>(dispatch_wait_recv_cost_stats + src_rank), wait_recv_cost);
-        }
-        asm volatile("bar.sync %0, %1;" :: "r"(warp_group_id + 2), "r"(num_warps_per_group * 32));
-        num_recv_tokens = shared_num_recv_tokens[warp_group_id];
-        recv_token_begin_idx = shared_recv_token_begin_idx[warp_group_id];
-
-        // Copy tokens
-        for (int i = sub_warp_id; i < num_recv_tokens; i += num_warps_per_group) {
-            // Copy source info
-            const auto src_src_idx = reinterpret_cast<int*>(rdma_recv_x_uint8 + i * Consts::num_bytes_per_msg);
-            if (lane_id == 0)
-                recv_src_info[recv_token_begin_idx + i] = ld_nc_global(src_src_idx);
-            __syncwarp();
-
-            // Copy data
-            // NOTES: only 2 load iterations for 7K hidden with 7 unrolls
-            const auto src_data = reinterpret_cast<int4*>(reinterpret_cast<uint8_t*>(src_src_idx) + sizeof(int4));
-            const auto dst_data = recv_x_int4 + (recv_token_begin_idx + i) * Consts::hidden_int4;
-            UNROLLED_WARP_COPY(7, lane_id, Consts::hidden_int4, dst_data, src_data, ld_nc_global, st_na_global);
-
-            // Copy scales
-            if constexpr (kUseFP8) {
-                // NOTE simply remove to simplify code
-                EP_DEVICE_ASSERT(false);
-//                 EP_DEVICE_ASSERT(Consts::num_scales <= 64);
-//                 // Equivalent CuTe layout:
-//                 //   (num_tokens, (num_packed, num_elems_per_pack)):(num_elems_per_pack, (num_tokens * num_elems_per_pack, 1))
-//                 const auto src_scales = reinterpret_cast<float*>(reinterpret_cast<uint8_t*>(src_data) + Consts::hidden_bytes);
-//                 const auto num_elems_per_pack = static_cast<int>(sizeof(packed_t) / sizeof(scale_t));
-//                 const auto token_idx = recv_token_begin_idx + i;
-//                 const auto token_stride = num_elems_per_pack;
-//                 const auto pack_stride = num_ranks * num_max_dispatch_tokens_per_rank * num_elems_per_pack;
-//                 if (lane_id < Consts::num_scales) {
-//                     const auto pack_idx = lane_id / num_elems_per_pack;
-//                     const auto elem_idx = lane_id % num_elems_per_pack;
-//                     auto scale = extract_required_scale_format<kUseUE8M0>(ld_nc_global(src_scales + lane_id));
-//                     recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
-//                 }
-//                 if (lane_id + 32 < Consts::num_scales) {
-//                     const auto pack_idx = (lane_id + 32) / num_elems_per_pack;
-//                     const auto elem_idx = (lane_id + 32) % num_elems_per_pack;
-//                     auto scale = extract_required_scale_format<kUseUE8M0>(ld_nc_global(src_scales + lane_id + 32));
-//                     recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
-//                 }
-            } else if constexpr (kUseNVFP4) {
-                // TODO wait for new swizzle layout
-                // Equivalent CuTe layout:
-                //   (num_tokens, (num_packed, num_elems_per_pack)):(num_elems_per_pack, (num_tokens * num_elems_per_pack, 1))
-                const auto src_scales = reinterpret_cast<uint8_t*>(reinterpret_cast<uint8_t*>(src_data) + Consts::hidden_bytes);
-                const auto num_elems_per_pack = static_cast<int>(sizeof(packed_t) / sizeof(scale_t));
-                const auto token_idx = recv_token_begin_idx + i;
-                const auto token_stride = num_elems_per_pack;
-                const auto pack_stride = num_ranks * num_max_dispatch_tokens_per_rank * num_elems_per_pack;
-                #pragma unroll
-                for (int j = lane_id; j < Consts::num_scales; j += 32) {
-                    const auto pack_idx = j / num_elems_per_pack;
-                    const auto elem_idx = j % num_elems_per_pack;
-                    auto scale = ld_nc_global(src_scales + j);
-                    recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
+    // NOTE if -> for
+    // if (responsible_expert_idx < num_experts) {
+    const auto src_rank = sm_id;
+    if (src_rank < num_ranks) {
+        for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
+            // NOTE modified
+            // const auto src_rank = responsible_expert_idx / num_local_experts;
+            // const auto local_expert_idx = responsible_expert_idx % num_local_experts;
+
+            const auto rdma_recv_x_uint8 = static_cast<uint8_t*>(rdma_recv_x) +
+                    local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
+                    src_rank * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg;
+            const auto recv_x_int4 = static_cast<int4*>(packed_recv_x) +
+                    local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::hidden_int4;
+            const auto recv_src_info = packed_recv_src_info + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank;
+            const auto recv_range = packed_recv_layout_range + local_expert_idx * num_ranks;
+            const auto num_aligned_scales = align<int>(Consts::num_scales, sizeof(float) / sizeof(scale_t));
+            const auto recv_x_scales = static_cast<scale_t*>(packed_recv_x_scales) + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_aligned_scales;
+
+            // Shared between sub-warps in warp groups
+            __shared__ int shared_num_recv_tokens[kNumMaxWarpGroups], shared_recv_token_begin_idx[kNumMaxWarpGroups];
+
+            // Wait tokens to arrive
+            // NOTES: using sub-warp 1 to overlap with sub-warp 0
+            int num_recv_tokens, recv_token_begin_idx;
+            EP_DEVICE_ASSERT(num_warps_per_group > 1 and num_warp_groups < 15);
+            if (sub_warp_id == 1 and lane_id == 0) {
+                auto start_time = clock64();
+                while ((num_recv_tokens = ld_acquire_sys_global(rdma_recv_count + local_expert_idx * num_ranks + src_rank)) == 0);
+                auto wait_recv_cost = clock64() - start_time;
+                num_recv_tokens = -num_recv_tokens - 1;
+                recv_token_begin_idx = atomicAdd(packed_recv_count + local_expert_idx, num_recv_tokens);
+                shared_num_recv_tokens[warp_group_id] = num_recv_tokens;
+                shared_recv_token_begin_idx[warp_group_id] = recv_token_begin_idx;
+                recv_range[src_rank] = pack2<int, int64_t>(num_recv_tokens, recv_token_begin_idx);
+
+                // Add stats for diagnosis
+                if (cumulative_local_expert_recv_stats != nullptr)
+                    atomicAdd(cumulative_local_expert_recv_stats + local_expert_idx, num_recv_tokens);
+                if (dispatch_wait_recv_cost_stats != nullptr)
+                    atomicAdd(reinterpret_cast<unsigned long long*>(dispatch_wait_recv_cost_stats + src_rank), wait_recv_cost);
+            }
+            asm volatile("bar.sync %0, %1;" :: "r"(warp_group_id + 2), "r"(num_warps_per_group * 32));
+            num_recv_tokens = shared_num_recv_tokens[warp_group_id];
+            recv_token_begin_idx = shared_recv_token_begin_idx[warp_group_id];
+
+            // Copy tokens
+            for (int i = sub_warp_id; i < num_recv_tokens; i += num_warps_per_group) {
+                // Copy source info
+                const auto src_src_idx = reinterpret_cast<int*>(rdma_recv_x_uint8 + i * Consts::num_bytes_per_msg);
+                if (lane_id == 0)
+                    recv_src_info[recv_token_begin_idx + i] = ld_nc_global(src_src_idx);
+                __syncwarp();
+
+                // Copy data
+                // NOTES: only 2 load iterations for 7K hidden with 7 unrolls
+                const auto src_data = reinterpret_cast<int4*>(reinterpret_cast<uint8_t*>(src_src_idx) + sizeof(int4));
+                const auto dst_data = recv_x_int4 + (recv_token_begin_idx + i) * Consts::hidden_int4;
+                UNROLLED_WARP_COPY(7, lane_id, Consts::hidden_int4, dst_data, src_data, ld_nc_global, st_na_global);
+
+                // Copy scales
+                if constexpr (kUseFP8) {
+                    // NOTE simply remove to simplify code
+                    EP_DEVICE_ASSERT(false);
+    //                 EP_DEVICE_ASSERT(Consts::num_scales <= 64);
+    //                 // Equivalent CuTe layout:
+    //                 //   (num_tokens, (num_packed, num_elems_per_pack)):(num_elems_per_pack, (num_tokens * num_elems_per_pack, 1))
+    //                 const auto src_scales = reinterpret_cast<float*>(reinterpret_cast<uint8_t*>(src_data) + Consts::hidden_bytes);
+    //                 const auto num_elems_per_pack = static_cast<int>(sizeof(packed_t) / sizeof(scale_t));
+    //                 const auto token_idx = recv_token_begin_idx + i;
+    //                 const auto token_stride = num_elems_per_pack;
+    //                 const auto pack_stride = num_ranks * num_max_dispatch_tokens_per_rank * num_elems_per_pack;
+    //                 if (lane_id < Consts::num_scales) {
+    //                     const auto pack_idx = lane_id / num_elems_per_pack;
+    //                     const auto elem_idx = lane_id % num_elems_per_pack;
+    //                     auto scale = extract_required_scale_format<kUseUE8M0>(ld_nc_global(src_scales + lane_id));
+    //                     recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
+    //                 }
+    //                 if (lane_id + 32 < Consts::num_scales) {
+    //                     const auto pack_idx = (lane_id + 32) / num_elems_per_pack;
+    //                     const auto elem_idx = (lane_id + 32) % num_elems_per_pack;
+    //                     auto scale = extract_required_scale_format<kUseUE8M0>(ld_nc_global(src_scales + lane_id + 32));
+    //                     recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
+    //                 }
+                } else if constexpr (kUseNVFP4) {
+                    // TODO wait for new swizzle layout
+                    // Equivalent CuTe layout:
+                    //   (num_tokens, (num_packed, num_elems_per_pack)):(num_elems_per_pack, (num_tokens * num_elems_per_pack, 1))
+                    const auto src_scales = reinterpret_cast<uint8_t*>(reinterpret_cast<uint8_t*>(src_data) + Consts::hidden_bytes);
+                    const auto num_elems_per_pack = static_cast<int>(sizeof(packed_t) / sizeof(scale_t));
+                    const auto token_idx = recv_token_begin_idx + i;
+                    const auto token_stride = num_elems_per_pack;
+                    const auto pack_stride = num_ranks * num_max_dispatch_tokens_per_rank * num_elems_per_pack;
+                    #pragma unroll
+                    for (int j = lane_id; j < Consts::num_scales; j += 32) {
+                        const auto pack_idx = j / num_elems_per_pack;
+                        const auto elem_idx = j % num_elems_per_pack;
+                        auto scale = ld_nc_global(src_scales + j);
+                        recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
+                    }
                 }
             }
         }

From e3ff65bb712650bead29b5693c7b800dde75b57e Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 22:05:55 +0800
Subject: [PATCH 116/393] assert

---
 csrc/kernels/internode_ll_v2.cuh | 1 +
 1 file changed, 1 insertion(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 65b17edb..3d53fcf4 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -303,6 +303,7 @@ __forceinline__ __device__ int dispatch_recv(int local_thread_id, int num_warp_g
     // Receiving and packing
     // NOTE if -> for
     // if (responsible_expert_idx < num_experts) {
+    EP_DEVICE_ASSERT(num_warp_groups == 1); // not consider multi warp_group case below
     const auto src_rank = sm_id;
     if (src_rank < num_ranks) {
         for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {

From cdbb1b7db90461b27437ca04c75c3eef19179276 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 22:08:15 +0800
Subject: [PATCH 117/393] signal

---
 csrc/kernels/internode_ll_v2.cuh | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 3d53fcf4..d409220b 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -404,6 +404,10 @@ __forceinline__ __device__ int dispatch_recv(int local_thread_id, int num_warp_g
                     }
                 }
             }
+
+            if (dst_signals != nullptr) {
+                atomic_add_release_global(dst_signals + local_expert_idx, 1);
+            }
         }
     }
 }

From 6ea6d76f5b83e283c21ce9532435c32382ef6fc0 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 22:08:38 +0800
Subject: [PATCH 118/393] vars

---
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index d409220b..ae4adf7a 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -430,7 +430,7 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
          int num_send_warp_groups, int num_recv_warp_groups,
          int num_warps_per_group,
          bool round_scale, int phases) {
-    TODO_arg(count_per_expert, token_ids_of_expert);
+    TODO_arg(count_per_expert, token_ids_of_expert, dst_signals);
 
     const auto num_send_threads = num_send_warp_groups * num_warps_per_group * 32;
     const auto raw_thread_id = static_cast<int>(threadIdx.x);

From 48bfb0b26e8aa2d5424835e1407802e7b3618597 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 22:13:03 +0800
Subject: [PATCH 119/393] parallel

---
 csrc/kernels/internode_ll_v2.cuh | 25 +++++++++++++------------
 1 file changed, 13 insertions(+), 12 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index ae4adf7a..e230d323 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -61,25 +61,26 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id, int num_warp_g
 
     // NOTE
     // before: one SM = one token, one warp = one dst rank of that token, only use first 8 warps of the SM (?)
-    // after: flatten all warps in all SMs, then reorder to (..., num_ranks) grid, then one warp = one dst rank of one token
-    //
-    // WARN: cannot have too many warps per SM, o/w not all SMs will have work
-    //
+    // after: flatten all warps in all SMs, then reshape to (num_cooperate_parts, num_ranks) grid, then one warp = one dst rank of one token
+    const int flatten_sm_id_and_warp_id = sm_id * num_warps + warp_id;
+    const int cooperate_part_idx = flatten_sm_id_and_warp_id / num_ranks;
+    const int dst_rank = flatten_sm_id_and_warp_id % num_ranks;
+    EP_DEVICE_ASSERT(num_sms * num_warps == num_cooperate_parts * num_ranks); // even division
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
-        const int flatten_sm_id_and_warp_id = sm_id * num_warps + warp_id;
-        TODO; // TODO this will cause workload imbalance?
-        const int TODO = flatten_sm_id_and_warp_id / num_ranks;
-        const int dst_rank = flatten_sm_id_and_warp_id % num_ranks;
         const int dst_expert_idx = dst_rank * num_local_experts + local_expert_idx;
 
+        // TODO may hide latency if needed
+        const int num_tokens_of_dst_expert = count_per_expert[dst_expert_idx];
+
+        // NOTE changed
         // for (int token_idx = sm_id; token_idx < num_tokens; token_idx += num_sms) {
         for (
-            int shuffled_token_idx = TODO;
-            token_idx < TODO;
-            token_idx += TODO
+            int pseudo_token_idx = TODO;
+            pseudo_token_idx < TODO;
+            pseudo_token_idx += TODO
         ) {
             // TODO may overlap to optimize
-            int token_idx = TODO;
+            int token_idx = token_ids_of_expert[dst_expert_idx * token_ids_of_expert_stride_0 + pseudo_token_idx];
 
             // const auto x_int4 = static_cast<const int4*>(x) + token_idx * hidden_bf16_int4;
 

From 2285a9ea01662f9f0784eb7be5e49beaebc1ce89 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 22:20:36 +0800
Subject: [PATCH 120/393] lane_id

---
 csrc/kernels/internode_ll_v2.cuh | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index e230d323..bc1ed617 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -96,10 +96,10 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id, int num_warp_g
             // auto dst_expert_idx = warp_id < num_topk ? static_cast<int>(__ldg(topk_idx + token_idx * num_topk + warp_id)) : -1;
 
             // NOTE do not use `rdma_x` but use `x`
-            // NOTE the new code will write `x_src_idx` multiple times w/ same value, thus wasting but correct
+            // NOTE use lane_id instead of local_thread id
+            // NOTE and the new code will write `x_src_idx` *MULTIPLE* times w/ same value, thus wasting but correct
             // local_thread_id == 0 ? (*rdma_x_src_idx = token_idx) : 0;
-            TODO_should_no_longer_be_local_thread_id_zero;
-            local_thread_id == 0 ? (*x_src_idx = token_idx) : 0;
+            lane_id == 0 ? (*x_src_idx = token_idx) : 0;
 
             // NOTE no read or cast in fp4
             // FP8 cast

From c561b1af491d813f3b0db8fcf10f1ff1be222151 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 22:21:12 +0800
Subject: [PATCH 121/393] comments

---
 csrc/kernels/internode_ll_v2.cuh | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index bc1ed617..c2b06d30 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -62,6 +62,7 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id, int num_warp_g
     // NOTE
     // before: one SM = one token, one warp = one dst rank of that token, only use first 8 warps of the SM (?)
     // after: flatten all warps in all SMs, then reshape to (num_cooperate_parts, num_ranks) grid, then one warp = one dst rank of one token
+    //
     const int flatten_sm_id_and_warp_id = sm_id * num_warps + warp_id;
     const int cooperate_part_idx = flatten_sm_id_and_warp_id / num_ranks;
     const int dst_rank = flatten_sm_id_and_warp_id % num_ranks;
@@ -72,7 +73,7 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id, int num_warp_g
         // TODO may hide latency if needed
         const int num_tokens_of_dst_expert = count_per_expert[dst_expert_idx];
 
-        // NOTE changed
+        // NOTE changed, see "before-after" above
         // for (int token_idx = sm_id; token_idx < num_tokens; token_idx += num_sms) {
         for (
             int pseudo_token_idx = TODO;

From 4dfa1bb8c1a9b9cf7ec2cc70fdf919a87f37d229 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 22:22:46 +0800
Subject: [PATCH 122/393] reorder

---
 csrc/kernels/internode_ll_v2.cuh | 10 ++++++----
 1 file changed, 6 insertions(+), 4 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index c2b06d30..4d26ad4f 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -61,11 +61,13 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id, int num_warp_g
 
     // NOTE
     // before: one SM = one token, one warp = one dst rank of that token, only use first 8 warps of the SM (?)
-    // after: flatten all warps in all SMs, then reshape to (num_cooperate_parts, num_ranks) grid, then one warp = one dst rank of one token
+    // after: flatten all (warp_id, sm_id), then reshape to (num_cooperate_parts, num_ranks) grid, then one warp = one dst rank of one token
     //
-    const int flatten_sm_id_and_warp_id = sm_id * num_warps + warp_id;
-    const int cooperate_part_idx = flatten_sm_id_and_warp_id / num_ranks;
-    const int dst_rank = flatten_sm_id_and_warp_id % num_ranks;
+    // NOTE: deliberately be (warp_id, sm_id) instead of (sm_id, warp_id)
+    //       to allow work be distributed to all SMs when few work
+    const int flatten_warp_id_and_sm_id = warp_id * num_sm + sm_id;
+    const int cooperate_part_idx = flatten_warp_id_and_sm_id / num_ranks;
+    const int dst_rank = flatten_warp_id_and_sm_id % num_ranks;
     EP_DEVICE_ASSERT(num_sms * num_warps == num_cooperate_parts * num_ranks); // even division
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
         const int dst_expert_idx = dst_rank * num_local_experts + local_expert_idx;

From 3973a9e8ed42eefdfd9a9632a11ecde4cb36e908 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 22:23:00 +0800
Subject: [PATCH 123/393] rename

---
 csrc/kernels/internode_ll_v2.cuh | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 4d26ad4f..d2c7427c 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -65,9 +65,9 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id, int num_warp_g
     //
     // NOTE: deliberately be (warp_id, sm_id) instead of (sm_id, warp_id)
     //       to allow work be distributed to all SMs when few work
-    const int flatten_warp_id_and_sm_id = warp_id * num_sm + sm_id;
-    const int cooperate_part_idx = flatten_warp_id_and_sm_id / num_ranks;
-    const int dst_rank = flatten_warp_id_and_sm_id % num_ranks;
+    const int flatten_id = warp_id * num_sm + sm_id;
+    const int cooperate_part_idx = flatten_id / num_ranks;
+    const int dst_rank = flatten_id % num_ranks;
     EP_DEVICE_ASSERT(num_sms * num_warps == num_cooperate_parts * num_ranks); // even division
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
         const int dst_expert_idx = dst_rank * num_local_experts + local_expert_idx;

From a38f37176d517529d11a695049d66a234a55165c Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 22:23:37 +0800
Subject: [PATCH 124/393] var

---
 csrc/kernels/internode_ll_v2.cuh | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index d2c7427c..96a39815 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -65,10 +65,11 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id, int num_warp_g
     //
     // NOTE: deliberately be (warp_id, sm_id) instead of (sm_id, warp_id)
     //       to allow work be distributed to all SMs when few work
+    const int num_cooperate_parts = num_sms * num_warps / num_ranks;
+    EP_DEVICE_ASSERT(num_sms * num_warps == num_cooperate_parts * num_ranks); // even division
     const int flatten_id = warp_id * num_sm + sm_id;
     const int cooperate_part_idx = flatten_id / num_ranks;
     const int dst_rank = flatten_id % num_ranks;
-    EP_DEVICE_ASSERT(num_sms * num_warps == num_cooperate_parts * num_ranks); // even division
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
         const int dst_expert_idx = dst_rank * num_local_experts + local_expert_idx;
 

From 107f54862d601f5503c02d7774d6647e9dcbd4f9 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 22:24:52 +0800
Subject: [PATCH 125/393] doc

---
 csrc/kernels/internode_ll_v2.cuh | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 96a39815..6bbbf810 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -61,7 +61,9 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id, int num_warp_g
 
     // NOTE
     // before: one SM = one token, one warp = one dst rank of that token, only use first 8 warps of the SM (?)
-    // after: flatten all (warp_id, sm_id), then reshape to (num_cooperate_parts, num_ranks) grid, then one warp = one dst rank of one token
+    // after: flatten all (warp_id, sm_id),
+    //        then reshape to (num_cooperate_parts, num_ranks) grid,
+    //        then one warp = one pseudo_token_idx (i.e. one dst rank of one token)
     //
     // NOTE: deliberately be (warp_id, sm_id) instead of (sm_id, warp_id)
     //       to allow work be distributed to all SMs when few work

From 75c063898435b1ed1e3e82010a6f5fa36ad1488c Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Mon, 25 Aug 2025 22:28:26 +0800
Subject: [PATCH 126/393] loop

---
 csrc/kernels/internode_ll_v2.cuh | 9 +++++----
 1 file changed, 5 insertions(+), 4 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 6bbbf810..f62d0942 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -67,10 +67,11 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id, int num_warp_g
     //
     // NOTE: deliberately be (warp_id, sm_id) instead of (sm_id, warp_id)
     //       to allow work be distributed to all SMs when few work
+    // TODO is these ordering suboptimal for nvlink write or gmem read?
     const int num_cooperate_parts = num_sms * num_warps / num_ranks;
     EP_DEVICE_ASSERT(num_sms * num_warps == num_cooperate_parts * num_ranks); // even division
     const int flatten_id = warp_id * num_sm + sm_id;
-    const int cooperate_part_idx = flatten_id / num_ranks;
+    const int flatten_num = num_warps * num_sm;
     const int dst_rank = flatten_id % num_ranks;
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
         const int dst_expert_idx = dst_rank * num_local_experts + local_expert_idx;
@@ -81,9 +82,9 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id, int num_warp_g
         // NOTE changed, see "before-after" above
         // for (int token_idx = sm_id; token_idx < num_tokens; token_idx += num_sms) {
         for (
-            int pseudo_token_idx = TODO;
-            pseudo_token_idx < TODO;
-            pseudo_token_idx += TODO
+            int pseudo_token_idx = flatten_id;
+            pseudo_token_idx < num_tokens_of_dst_expert;
+            pseudo_token_idx += flatten_num
         ) {
             // TODO may overlap to optimize
             int token_idx = token_ids_of_expert[dst_expert_idx * token_ids_of_expert_stride_0 + pseudo_token_idx];

From ffaaac839f5a607099c01ba05cc4afb37a408049 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Wed, 27 Aug 2025 10:05:20 +0800
Subject: [PATCH 127/393] ll combine - src signals

---
 csrc/deep_ep.cpp                 |  6 ++++--
 csrc/deep_ep.hpp                 |  3 ++-
 csrc/kernels/api.cuh             |  3 ++-
 csrc/kernels/internode_ll.cu     |  6 ++++--
 csrc/kernels/internode_ll_v2.cuh | 10 ++++++----
 deep_ep/buffer.py                |  6 ++++--
 6 files changed, 22 insertions(+), 12 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 1338104f..99805752 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1234,7 +1234,8 @@ Buffer::low_latency_combine(bool enable_v2, const torch::Tensor& x, const torch:
                             const std::optional<torch::Tensor>& combine_wait_recv_cost_stats,
                             int num_max_dispatch_tokens_per_rank, int num_experts,
                             bool use_logfmt, bool zero_copy, bool async, bool return_recv_hook,
-                            const std::optional<torch::Tensor>& out) {
+                            const std::optional<torch::Tensor>& out,
+                            const std::optional<torch::Tensor>& src_signals, uint32_t src_signal_expect_value) {
 #ifndef DISABLE_NVSHMEM
     EP_HOST_ASSERT(low_latency_mode);
 
@@ -1304,7 +1305,8 @@ Buffer::low_latency_combine(bool enable_v2, const torch::Tensor& x, const torch:
                               num_topk, num_experts, rank, num_ranks,
                               use_logfmt,
                               workspace, num_device_sms,
-                              launch_stream, phases, zero_copy);
+                              launch_stream, phases, zero_copy,
+                              src_signals.has_value() ? src_signals->data_ptr<uint32_t>() : nullptr, src_signal_expect_value);
     };
     launcher(return_recv_hook ? LOW_LATENCY_SEND_PHASE : (LOW_LATENCY_SEND_PHASE | LOW_LATENCY_RECV_PHASE));
 
diff --git a/csrc/deep_ep.hpp b/csrc/deep_ep.hpp
index 91f680eb..c5667a3e 100644
--- a/csrc/deep_ep.hpp
+++ b/csrc/deep_ep.hpp
@@ -157,7 +157,8 @@ struct Buffer {
                         const std::optional<torch::Tensor>& combine_wait_recv_cost_stats,
                         int num_max_dispatch_tokens_per_rank, int num_experts,
                         bool use_logfmt, bool zero_copy, bool async, bool return_recv_hook,
-                        const std::optional<torch::Tensor>& out = std::nullopt);
+                        const std::optional<torch::Tensor>& out = std::nullopt,
+                        const std::optional<torch::Tensor>& src_signals = std::nullopt, uint32_t src_signal_expect_value = 0);
 
     torch::Tensor
     get_next_low_latency_combine_buffer(int num_max_dispatch_tokens_per_rank, int hidden, int num_experts) const;
diff --git a/csrc/kernels/api.cuh b/csrc/kernels/api.cuh
index edeb7e9f..52de28e6 100644
--- a/csrc/kernels/api.cuh
+++ b/csrc/kernels/api.cuh
@@ -163,7 +163,8 @@ void combine(bool enable_v2, void* combined_x,
              int num_topk, int num_experts, int rank, int num_ranks,
              bool use_logfmt,
              void* workspace, int num_device_sms,
-             cudaStream_t stream, int phases, bool zero_copy);
+             cudaStream_t stream, int phases, bool zero_copy,
+             uint32_t* src_signals, uint32_t src_signal_expect_value);
 
 } // namespace internode_ll
 
diff --git a/csrc/kernels/internode_ll.cu b/csrc/kernels/internode_ll.cu
index bc9136a1..f20162ae 100644
--- a/csrc/kernels/internode_ll.cu
+++ b/csrc/kernels/internode_ll.cu
@@ -791,7 +791,8 @@ void combine(bool enable_v2, void* combined_x,
              int num_topk, int num_experts, int rank, int num_ranks,
              bool use_logfmt,
              void* workspace, int num_device_sms,
-             cudaStream_t stream, int phases, bool zero_copy) {
+             cudaStream_t stream, int phases, bool zero_copy,
+             uint32_t* src_signals, uint32_t src_signal_expect_value) {
     if (enable_v2) {
         return combine_v2(
             combined_x,
@@ -804,7 +805,8 @@ void combine(bool enable_v2, void* combined_x,
             num_topk, num_experts, rank, num_ranks,
             use_logfmt,
             workspace, num_device_sms,
-            stream, phases, zero_copy
+            stream, phases, zero_copy,
+            src_signals, src_signal_expect_value
         );
     }
 
diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index f62d0942..c7bd4c42 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -548,7 +548,8 @@ combine_v2(void* combined_x,
         int num_max_dispatch_tokens_per_rank,
         int num_experts, int rank, int num_ranks,
         int num_warp_groups, int num_warps_per_group,
-        int phases, bool zero_copy) {
+        int phases, bool zero_copy,
+        uint32_t* src_signals, uint32_t src_signal_expect_value) {
     const auto sm_id = __shfl_sync(0xffffffff, static_cast<int>(blockIdx.x), 0);
     const auto num_sms = __shfl_sync(0xffffffff, static_cast<int>(gridDim.x), 0);
     const auto thread_id = static_cast<int>(threadIdx.x);
@@ -952,8 +953,8 @@ void combine_v2(void* combined_x,
              int num_topk, int num_experts, int rank, int num_ranks,
              bool use_logfmt,
              void* workspace, int num_device_sms,
-             cudaStream_t stream, int phases, bool zero_copy) {
-    TODO_args(src_signals);
+             cudaStream_t stream, int phases, bool zero_copy,
+             uint32_t* src_signals, uint32_t src_signal_expect_value) {
     // NOTE reduce combine_send num sm
     if ((phases & LOW_LATENCY_RECV_PHASE) == 0) {
         num_device_sms = 32;
@@ -1008,7 +1009,8 @@ LAUNCH_KERNEL(&cfg, combine_func, \
               num_max_dispatch_tokens_per_rank, \
               num_experts, rank, num_ranks, \
               num_warp_groups, num_warps_per_group, \
-              phases, zero_copy); } break
+              phases, zero_copy,
+              src_signals, src_signal_expect_value); } break
 
     SETUP_LAUNCH_CONFIG(num_sms, num_warps * 32, stream);
     SWITCH_HIDDEN(COMBINE_LAUNCH_CASE);
diff --git a/deep_ep/buffer.py b/deep_ep/buffer.py
index dd038cce..b74ec4a2 100644
--- a/deep_ep/buffer.py
+++ b/deep_ep/buffer.py
@@ -599,7 +599,8 @@ def low_latency_combine(self, x: torch.Tensor, topk_idx: torch.Tensor, topk_weig
                             handle: tuple, use_logfmt: bool = False, zero_copy: bool = False, async_finish: bool = False,
                             return_recv_hook: bool = False, out: Optional[torch.Tensor] = None,
                             combine_wait_recv_cost_stats: Optional[torch.Tensor] = None,
-                            enable_v2: bool = False) -> \
+                            enable_v2: bool = False,
+                            src_signals: Optional[torch.Tensor] = None, src_signal_expect_value: int = 0) -> \
             Tuple[torch.Tensor, EventOverlap, Callable]:
         """
         A low-latency implementation for combining tokens (reduce **with weights**) with IBGDA.
@@ -639,7 +640,8 @@ def low_latency_combine(self, x: torch.Tensor, topk_idx: torch.Tensor, topk_weig
                                                                    combine_wait_recv_cost_stats,
                                                                    num_max_dispatch_tokens_per_rank, num_experts,
                                                                    use_logfmt, zero_copy, async_finish, return_recv_hook,
-                                                                   out)
+                                                                   out,
+                                                                   src_signals, src_signal_expect_value)
         tensors_to_record = (x, topk_idx, topk_weights, src_info, layout_range, combined_x)
         return combined_x, EventOverlap(event, tensors_to_record if async_finish else None), hook
 

From f8812ab7f69a42c5b0675df2efeb0daea73c00ca Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Wed, 27 Aug 2025 10:08:46 +0800
Subject: [PATCH 128/393] ll dispatch - dst signals

---
 csrc/deep_ep.cpp                 |  6 ++++--
 csrc/deep_ep.hpp                 |  3 ++-
 csrc/kernels/api.cuh             |  3 ++-
 csrc/kernels/internode_ll.cu     |  9 ++++++---
 csrc/kernels/internode_ll_v2.cuh | 17 +++++++++++++----
 deep_ep/buffer.py                |  6 ++++--
 6 files changed, 31 insertions(+), 13 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 99805752..3aba5a9f 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1094,7 +1094,8 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
                              const std::optional<torch::Tensor>& dispatch_wait_recv_cost_stats,
                              int num_max_dispatch_tokens_per_rank, int num_experts,
                              bool use_fp8, bool round_scale, bool use_ue8m0,
-                             bool async, bool return_recv_hook) {
+                             bool async, bool return_recv_hook,
+                             const std::optional<torch::Tensor>& dst_signals) {
     TODO_arg(zeroed_tensor);
 #ifndef DISABLE_NVSHMEM
     EP_HOST_ASSERT(low_latency_mode);
@@ -1201,7 +1202,8 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
                                num_topk, num_experts, rank, num_ranks,
                                use_fp8, round_scale, use_ue8m0,
                                workspace, num_device_sms,
-                               launch_stream, phases);
+                               launch_stream, phases,
+                               dst_signals.has_value() ? dst_signals->data_ptr<uint32_t>() : nullptr);
     };
     launcher(return_recv_hook ? LOW_LATENCY_SEND_PHASE : (LOW_LATENCY_SEND_PHASE | LOW_LATENCY_RECV_PHASE));
 
diff --git a/csrc/deep_ep.hpp b/csrc/deep_ep.hpp
index c5667a3e..0fe1a57a 100644
--- a/csrc/deep_ep.hpp
+++ b/csrc/deep_ep.hpp
@@ -149,7 +149,8 @@ struct Buffer {
                          const std::optional<torch::Tensor>& dispatch_wait_recv_cost_stats,
                          int num_max_dispatch_tokens_per_rank, int num_experts,
                          bool use_fp8, bool round_scale, bool use_ue8m0,
-                         bool async, bool return_recv_hook);
+                         bool async, bool return_recv_hook,
+                         const std::optional<torch::Tensor>& dst_signals);
 
     std::tuple<torch::Tensor, std::optional<EventHandle>, std::optional<std::function<void()>>>
     low_latency_combine(bool enable_v2, const torch::Tensor& x, const torch::Tensor& topk_idx, const torch::Tensor& topk_weights,
diff --git a/csrc/kernels/api.cuh b/csrc/kernels/api.cuh
index 52de28e6..db1a5a43 100644
--- a/csrc/kernels/api.cuh
+++ b/csrc/kernels/api.cuh
@@ -151,7 +151,8 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
               int num_topk, int num_experts, int rank, int num_ranks,
               bool use_fp8, bool round_scale, bool use_ue8m0,
               void* workspace, int num_device_sms,
-              cudaStream_t stream, int phases);
+              cudaStream_t stream, int phases,
+              uint32_t* dst_signals);
 
 void combine(bool enable_v2, void* combined_x,
              void* rdma_recv_x, int* rdma_recv_flag, void* rdma_send_x,
diff --git a/csrc/kernels/internode_ll.cu b/csrc/kernels/internode_ll.cu
index f20162ae..fdacd07f 100644
--- a/csrc/kernels/internode_ll.cu
+++ b/csrc/kernels/internode_ll.cu
@@ -350,7 +350,8 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
               int num_topk, int num_experts, int rank, int num_ranks,
               bool use_fp8, bool round_scale, bool use_ue8m0,
               void* workspace, int num_device_sms,
-              cudaStream_t stream, int phases) {
+              cudaStream_t stream, int phases,
+              uint32_t* dst_signals) {
     if (enable_v2) {
         return dispatch_v2(
             packed_recv_x, packed_recv_x_scales,
@@ -366,7 +367,8 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
             num_topk, num_experts, rank, num_ranks,
             use_fp8, round_scale, use_ue8m0,
             workspace, num_device_sms,
-            stream, phases
+            stream, phases,
+            dst_signals
         );
     }
 
@@ -408,7 +410,8 @@ LAUNCH_KERNEL(&cfg, dispatch_func, \
               num_tokens, num_max_dispatch_tokens_per_rank, \
               num_topk, num_experts, rank, num_ranks, \
               num_warp_groups, num_warps_per_group, \
-              round_scale, phases); } break
+              round_scale, phases,
+              dst_signals); } break
 
     SETUP_LAUNCH_CONFIG(num_sms, num_warps * 32, stream);
     SWITCH_HIDDEN(DISPATCH_LAUNCH_CASE);
diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index c7bd4c42..4f2541b2 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -437,17 +437,26 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
          // NOTE split num_warp_groups
          int num_send_warp_groups, int num_recv_warp_groups,
          int num_warps_per_group,
-         bool round_scale, int phases) {
-    TODO_arg(count_per_expert, token_ids_of_expert, dst_signals);
+         bool round_scale, int phases,
+         uint32_t* dst_signals) {
+    TODO_arg(count_per_expert, token_ids_of_expert);
 
     const auto num_send_threads = num_send_warp_groups * num_warps_per_group * 32;
     const auto raw_thread_id = static_cast<int>(threadIdx.x);
     if (raw_thread_id < num_send_threads) {
         const auto send_thread_id = raw_thread_id;
-        dispatch_send<kUseFP8, kUseUE8M0, kUseNVFP4, kHidden>(send_thread_id, num_send_warp_groups, TODO_args);
+        dispatch_send<kUseFP8, kUseUE8M0, kUseNVFP4, kHidden>(
+            send_thread_id, num_send_warp_groups,
+            TODO_args,
+            dst_signals
+        );
     } else {
         const auto recv_thread_id = raw_thread_id - num_send_threads;
-        dispatch_recv<kUseFP8, kUseUE8M0, kUseNVFP4, kHidden>(recv_thread_id, num_recv_warp_groups, TODO_args);
+        dispatch_recv<kUseFP8, kUseUE8M0, kUseNVFP4, kHidden>(
+            recv_thread_id, num_recv_warp_groups,
+            TODO_args,
+            dst_signals
+        );
     }
 
 // NOTE removed
diff --git a/deep_ep/buffer.py b/deep_ep/buffer.py
index b74ec4a2..37f74b68 100644
--- a/deep_ep/buffer.py
+++ b/deep_ep/buffer.py
@@ -530,7 +530,8 @@ def low_latency_dispatch(self, x: torch.Tensor, topk_idx: torch.Tensor,
                              dispatch_wait_recv_cost_stats: Optional[torch.Tensor] = None,
                              use_fp8: bool = True, round_scale: bool = False, use_ue8m0: bool = False,
                              async_finish: bool = False, return_recv_hook: bool = False,
-                             enable_v2: bool = False) -> \
+                             enable_v2: bool = False,
+                             dst_signals: Optional[torch.Tensor] = None) -> \
             Tuple[Tuple[torch.Tensor, torch.Tensor], torch.Tensor, Tuple, EventOverlap, Callable]:
         """
         A low-latency implementation for dispatching with IBGDA.
@@ -585,7 +586,8 @@ def low_latency_dispatch(self, x: torch.Tensor, topk_idx: torch.Tensor,
                                               dispatch_wait_recv_cost_stats,
                                               num_max_dispatch_tokens_per_rank, num_experts,
                                               use_fp8, round_scale, use_ue8m0,
-                                              async_finish, return_recv_hook)
+                                              async_finish, return_recv_hook,
+                                              dst_signals)
         handle = (packed_recv_src_info, packed_recv_layout_range, num_max_dispatch_tokens_per_rank, x.size(1), num_experts)
         tensors_to_record = (x, topk_idx,
                              packed_recv_x, packed_recv_x_scales, packed_recv_count,

From 62172d00aea01cc458b11d1e1515ebaa0dfa99ca Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Wed, 27 Aug 2025 10:10:41 +0800
Subject: [PATCH 129/393] zeroed_tensor

---
 csrc/deep_ep.cpp | 8 +++++---
 1 file changed, 5 insertions(+), 3 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 3aba5a9f..4e97d497 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1095,8 +1095,8 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
                              int num_max_dispatch_tokens_per_rank, int num_experts,
                              bool use_fp8, bool round_scale, bool use_ue8m0,
                              bool async, bool return_recv_hook,
+                             const std::optional<torch::Tensor>& zeroed_tensor,
                              const std::optional<torch::Tensor>& dst_signals) {
-    TODO_arg(zeroed_tensor);
 #ifndef DISABLE_NVSHMEM
     EP_HOST_ASSERT(low_latency_mode);
 
@@ -1157,8 +1157,10 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
     auto packed_recv_layout_range = torch::empty({num_local_experts, num_ranks}, torch::dtype(torch::kInt64).device(torch::kCUDA));
 
     // NOTE let users do the zeroing
-    // auto packed_recv_count = torch::empty({num_local_experts}, torch::dtype(torch::kInt32).device(torch::kCUDA));
-    auto packed_recv_count = zeroed_tensor;
+    EP_HOST_ASSERT(enable_v2 == zeroed_tensor.has_value());
+    auto packed_recv_count = zeroed_tensor.has_value()
+        ? zeroed_tensor.value()
+        ; torch::empty({num_local_experts}, torch::dtype(torch::kInt32).device(torch::kCUDA));
     EP_HOST_ASSERT(packed_recv_count.dim() == 1);
     EP_HOST_ASSERT(packed_recv_count.size(0) == num_local_experts);
     EP_HOST_ASSERT(packed_recv_count.dtype() == torch::kInt32);

From f00b4bd46615f7401da9dab8f42948ed7d4a61cf Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Wed, 27 Aug 2025 10:11:32 +0800
Subject: [PATCH 130/393] more zeroed_tensor

---
 csrc/deep_ep.cpp  | 2 +-
 csrc/deep_ep.hpp  | 1 +
 deep_ep/buffer.py | 3 ++-
 3 files changed, 4 insertions(+), 2 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 4e97d497..4f3b4291 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1160,7 +1160,7 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
     EP_HOST_ASSERT(enable_v2 == zeroed_tensor.has_value());
     auto packed_recv_count = zeroed_tensor.has_value()
         ? zeroed_tensor.value()
-        ; torch::empty({num_local_experts}, torch::dtype(torch::kInt32).device(torch::kCUDA));
+        : torch::empty({num_local_experts}, torch::dtype(torch::kInt32).device(torch::kCUDA));
     EP_HOST_ASSERT(packed_recv_count.dim() == 1);
     EP_HOST_ASSERT(packed_recv_count.size(0) == num_local_experts);
     EP_HOST_ASSERT(packed_recv_count.dtype() == torch::kInt32);
diff --git a/csrc/deep_ep.hpp b/csrc/deep_ep.hpp
index 0fe1a57a..7d40cbca 100644
--- a/csrc/deep_ep.hpp
+++ b/csrc/deep_ep.hpp
@@ -150,6 +150,7 @@ struct Buffer {
                          int num_max_dispatch_tokens_per_rank, int num_experts,
                          bool use_fp8, bool round_scale, bool use_ue8m0,
                          bool async, bool return_recv_hook,
+                         const std::optional<torch::Tensor>& zeroed_tensor,
                          const std::optional<torch::Tensor>& dst_signals);
 
     std::tuple<torch::Tensor, std::optional<EventHandle>, std::optional<std::function<void()>>>
diff --git a/deep_ep/buffer.py b/deep_ep/buffer.py
index 37f74b68..1637c72c 100644
--- a/deep_ep/buffer.py
+++ b/deep_ep/buffer.py
@@ -531,6 +531,7 @@ def low_latency_dispatch(self, x: torch.Tensor, topk_idx: torch.Tensor,
                              use_fp8: bool = True, round_scale: bool = False, use_ue8m0: bool = False,
                              async_finish: bool = False, return_recv_hook: bool = False,
                              enable_v2: bool = False,
+                             zeroed_tensor: Optional[torch.Tensor] = None,
                              dst_signals: Optional[torch.Tensor] = None) -> \
             Tuple[Tuple[torch.Tensor, torch.Tensor], torch.Tensor, Tuple, EventOverlap, Callable]:
         """
@@ -587,7 +588,7 @@ def low_latency_dispatch(self, x: torch.Tensor, topk_idx: torch.Tensor,
                                               num_max_dispatch_tokens_per_rank, num_experts,
                                               use_fp8, round_scale, use_ue8m0,
                                               async_finish, return_recv_hook,
-                                              dst_signals)
+                                              zeroed_tensor, dst_signals)
         handle = (packed_recv_src_info, packed_recv_layout_range, num_max_dispatch_tokens_per_rank, x.size(1), num_experts)
         tensors_to_record = (x, topk_idx,
                              packed_recv_x, packed_recv_x_scales, packed_recv_count,

From 33d8b76e4db4944febd919cd79a923885a29f298 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Wed, 27 Aug 2025 10:12:19 +0800
Subject: [PATCH 131/393] rm

---
 csrc/deep_ep.cpp | 1 -
 1 file changed, 1 deletion(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 4f3b4291..52eaf25f 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1190,7 +1190,6 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
     // Kernel launch
     auto next_clean_meta = next_buffer.clean_meta();
     auto launcher = [=](int phases) {
-        TODO("expose dispatch_rdma_send_buffer to users as a tensor");
         internode_ll::dispatch(enable_v2, packed_recv_x.data_ptr(), packed_recv_x_scales_ptr,
                                packed_recv_src_info.data_ptr<int>(), packed_recv_layout_range.data_ptr<int64_t>(),
                                packed_recv_count.data_ptr<int>(),

From 6127f384d26acbfb8818f82b1458c015ef94cf20 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Wed, 27 Aug 2025 10:14:16 +0800
Subject: [PATCH 132/393] use_nvfp4

---
 csrc/deep_ep.cpp                 | 4 +++-
 csrc/deep_ep.hpp                 | 1 +
 csrc/kernels/api.cuh             | 2 +-
 csrc/kernels/internode_ll.cu     | 4 ++--
 csrc/kernels/internode_ll_v2.cuh | 7 ++++---
 5 files changed, 11 insertions(+), 7 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 52eaf25f..d90e5d2b 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1096,6 +1096,7 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
                              bool use_fp8, bool round_scale, bool use_ue8m0,
                              bool async, bool return_recv_hook,
                              const std::optional<torch::Tensor>& zeroed_tensor,
+                             bool use_nvfp4,
                              const std::optional<torch::Tensor>& dst_signals) {
 #ifndef DISABLE_NVSHMEM
     EP_HOST_ASSERT(low_latency_mode);
@@ -1172,6 +1173,7 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
     void* packed_recv_x_scales_ptr = nullptr;
     EP_HOST_ASSERT((num_ranks * num_max_dispatch_tokens_per_rank) % 4 == 0 and "TMA requires the number of tokens to be multiple of 4");
 
+    TODO_use_nvfp4;
     if (use_fp8) {
         // TODO: support unaligned cases
         EP_HOST_ASSERT(hidden % 512 == 0);
@@ -1204,7 +1206,7 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
                                use_fp8, round_scale, use_ue8m0,
                                workspace, num_device_sms,
                                launch_stream, phases,
-                               dst_signals.has_value() ? dst_signals->data_ptr<uint32_t>() : nullptr);
+                               use_nvfp4, dst_signals.has_value() ? dst_signals->data_ptr<uint32_t>() : nullptr);
     };
     launcher(return_recv_hook ? LOW_LATENCY_SEND_PHASE : (LOW_LATENCY_SEND_PHASE | LOW_LATENCY_RECV_PHASE));
 
diff --git a/csrc/deep_ep.hpp b/csrc/deep_ep.hpp
index 7d40cbca..79bf038b 100644
--- a/csrc/deep_ep.hpp
+++ b/csrc/deep_ep.hpp
@@ -151,6 +151,7 @@ struct Buffer {
                          bool use_fp8, bool round_scale, bool use_ue8m0,
                          bool async, bool return_recv_hook,
                          const std::optional<torch::Tensor>& zeroed_tensor,
+                         bool use_nvfp4,
                          const std::optional<torch::Tensor>& dst_signals);
 
     std::tuple<torch::Tensor, std::optional<EventHandle>, std::optional<std::function<void()>>>
diff --git a/csrc/kernels/api.cuh b/csrc/kernels/api.cuh
index db1a5a43..be6c8dc5 100644
--- a/csrc/kernels/api.cuh
+++ b/csrc/kernels/api.cuh
@@ -152,7 +152,7 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
               bool use_fp8, bool round_scale, bool use_ue8m0,
               void* workspace, int num_device_sms,
               cudaStream_t stream, int phases,
-              uint32_t* dst_signals);
+              bool use_nvfp4, uint32_t* dst_signals);
 
 void combine(bool enable_v2, void* combined_x,
              void* rdma_recv_x, int* rdma_recv_flag, void* rdma_send_x,
diff --git a/csrc/kernels/internode_ll.cu b/csrc/kernels/internode_ll.cu
index fdacd07f..c6b0b60a 100644
--- a/csrc/kernels/internode_ll.cu
+++ b/csrc/kernels/internode_ll.cu
@@ -351,7 +351,7 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
               bool use_fp8, bool round_scale, bool use_ue8m0,
               void* workspace, int num_device_sms,
               cudaStream_t stream, int phases,
-              uint32_t* dst_signals) {
+              bool use_nvfp4, uint32_t* dst_signals) {
     if (enable_v2) {
         return dispatch_v2(
             packed_recv_x, packed_recv_x_scales,
@@ -368,7 +368,7 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
             use_fp8, round_scale, use_ue8m0,
             workspace, num_device_sms,
             stream, phases,
-            dst_signals
+            use_nvfp4, dst_signals
         );
     }
 
diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 4f2541b2..63598c02 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -482,8 +482,8 @@ void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
               int num_topk, int num_experts, int rank, int num_ranks,
               bool use_fp8, bool round_scale, bool use_ue8m0,
               void* workspace, int num_device_sms,
-              cudaStream_t stream, int phases) {
-    TODO_args(use_nvfp4, dst_signals);
+              cudaStream_t stream, int phases,
+              bool use_nvfp4, uint32_t* dst_signals) {
     constexpr int kNumMaxTopK = 9;
     const int num_warp_groups = ceil_div(num_experts, num_device_sms);
 
@@ -537,7 +537,8 @@ LAUNCH_KERNEL(&cfg, dispatch_func, \
               num_tokens, num_max_dispatch_tokens_per_rank, \
               num_topk, num_experts, rank, num_ranks, \
               num_send_warp_groups, num_recv_warp_groups, num_warps_per_group, \
-              round_scale, phases); } break
+              round_scale, phases,
+              dst_signals); } break
 
     SETUP_LAUNCH_CONFIG(num_sms, num_warps * 32, stream);
     SWITCH_HIDDEN(DISPATCH_LAUNCH_CASE);

From d798064dc9174dafb20837e30f6c3720c8a91ea4 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Wed, 27 Aug 2025 10:16:01 +0800
Subject: [PATCH 133/393] revert

---
 csrc/deep_ep.cpp | 4 +---
 1 file changed, 1 insertion(+), 3 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index d90e5d2b..8032fa5b 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1152,8 +1152,7 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
 
     // Allocate packed tensors
     auto packed_recv_x = torch::empty({num_local_experts, num_ranks * num_max_dispatch_tokens_per_rank, hidden},
-                                      torch::dtype(use_fp8 ? torch::kFloat8_e4m3fn: torch::kBFloat16).device(torch::kCUDA));
-                                      // x.options().dtype(use_fp8 ? torch::kFloat8_e4m3fn: torch::kBFloat16));
+                                      x.options().dtype(use_fp8 ? torch::kFloat8_e4m3fn: torch::kBFloat16));
     auto packed_recv_src_info = torch::empty({num_local_experts, num_ranks * num_max_dispatch_tokens_per_rank}, torch::dtype(torch::kInt32).device(torch::kCUDA));
     auto packed_recv_layout_range = torch::empty({num_local_experts, num_ranks}, torch::dtype(torch::kInt64).device(torch::kCUDA));
 
@@ -1173,7 +1172,6 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
     void* packed_recv_x_scales_ptr = nullptr;
     EP_HOST_ASSERT((num_ranks * num_max_dispatch_tokens_per_rank) % 4 == 0 and "TMA requires the number of tokens to be multiple of 4");
 
-    TODO_use_nvfp4;
     if (use_fp8) {
         // TODO: support unaligned cases
         EP_HOST_ASSERT(hidden % 512 == 0);

From bd11c96285e1e68d265c41de79f86f51e55998f6 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Wed, 27 Aug 2025 10:18:54 +0800
Subject: [PATCH 134/393] deepep.cpp nvfp4

---
 csrc/deep_ep.cpp | 12 ++++++++++--
 1 file changed, 10 insertions(+), 2 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 8032fa5b..c302992e 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1151,8 +1151,9 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
         stream_wait(launch_stream, compute_stream);
 
     // Allocate packed tensors
-    auto packed_recv_x = torch::empty({num_local_experts, num_ranks * num_max_dispatch_tokens_per_rank, hidden},
-                                      x.options().dtype(use_fp8 ? torch::kFloat8_e4m3fn: torch::kBFloat16));
+    constexpr int NUM_ELEMS_PER_PACK = 8;
+    auto packed_recv_x = torch::empty({num_local_experts, num_ranks * num_max_dispatch_tokens_per_rank, use_nvfp4 ? hidden / NUM_ELEMS_PER_PACK : hidden},
+                                      x.options().dtype(use_nvfp4 ? torch::kInt32 : (use_fp8 ? torch::kFloat8_e4m3fn: torch::kBFloat16)));
     auto packed_recv_src_info = torch::empty({num_local_experts, num_ranks * num_max_dispatch_tokens_per_rank}, torch::dtype(torch::kInt32).device(torch::kCUDA));
     auto packed_recv_layout_range = torch::empty({num_local_experts, num_ranks}, torch::dtype(torch::kInt64).device(torch::kCUDA));
 
@@ -1185,6 +1186,13 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
         }
         packed_recv_x_scales = torch::transpose(packed_recv_x_scales.value(), 1, 2);
         packed_recv_x_scales_ptr = packed_recv_x_scales->data_ptr();
+    } else if (use_nvfp4) {
+        constexpr int SF_VEC_SIZE = 16;
+        constexpr int NUM_SF_ELEMS_PER_PACK = 4;
+        packed_recv_x_scales = torch::empty({num_local_experts, hidden / (SF_VEC_SIZE * NUM_SF_ELEMS_PER_PACK), num_ranks * num_max_dispatch_tokens_per_rank},
+                                            torch::dtype(torch::kInt).device(torch::kCUDA));
+        packed_recv_x_scales = torch::transpose(packed_recv_x_scales.value(), 1, 2);
+        packed_recv_x_scales_ptr = packed_recv_x_scales->data_ptr();
     }
 
     // Kernel launch

From 46ec0dd450e84e7f099182793497359044ed9d70 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Wed, 27 Aug 2025 10:25:29 +0800
Subject: [PATCH 135/393] count of expert

---
 csrc/deep_ep.cpp                 | 22 ++++++++++++++++++++--
 csrc/deep_ep.hpp                 |  3 ++-
 csrc/kernels/api.cuh             |  3 ++-
 csrc/kernels/internode_ll.cu     |  6 ++++--
 csrc/kernels/internode_ll_v2.cuh |  8 ++++----
 deep_ep/buffer.py                | 12 ++++++++++--
 6 files changed, 42 insertions(+), 12 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index c302992e..e9087dcf 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1097,10 +1097,26 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
                              bool async, bool return_recv_hook,
                              const std::optional<torch::Tensor>& zeroed_tensor,
                              bool use_nvfp4,
-                             const std::optional<torch::Tensor>& dst_signals) {
+                             const std::optional<torch::Tensor>& dst_signals,
+                             const std::optional<torch::Tensor>& count_per_expert, const std::optional<torch::Tensor>& token_ids_of_expert) {
 #ifndef DISABLE_NVSHMEM
     EP_HOST_ASSERT(low_latency_mode);
 
+    // NOTE ADD
+    if (count_per_expert.has_value()) {
+        EP_HOST_ASSERT(count_per_expert->is_contiguous());
+        EP_HOST_ASSERT(count_per_expert->dim() == 1);
+        EP_HOST_ASSERT(count_per_expert->size(0) == num_experts);
+        EP_HOST_ASSERT(count_per_expert->dtype() == torch::kUInt32);
+    }
+    if (token_ids_of_expert.has_value()) {
+        EP_HOST_ASSERT(token_ids_of_expert->is_contiguous());
+        EP_HOST_ASSERT(token_ids_of_expert->dim() == 2);
+        EP_HOST_ASSERT(token_ids_of_expert->size(0) == num_experts);
+        // EP_HOST_ASSERT(token_ids_of_expert->size(1) == ...whatever...);
+        EP_HOST_ASSERT(token_ids_of_expert->dtype() == torch::kInt32);
+    }
+
     constexpr int HIDDEN_DIM = 7168;
 
     // Tensor checks
@@ -1212,7 +1228,9 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
                                use_fp8, round_scale, use_ue8m0,
                                workspace, num_device_sms,
                                launch_stream, phases,
-                               use_nvfp4, dst_signals.has_value() ? dst_signals->data_ptr<uint32_t>() : nullptr);
+                               use_nvfp4, dst_signals.has_value() ? dst_signals->data_ptr<uint32_t>() : nullptr,
+                               count_per_expert.has_value() ? count_per_expert->data_ptr<uint32_t>() : count_per_expert,
+                               token_ids_of_expert.has_value() ? token_ids_of_expert->data_ptr<int>() : token_ids_of_expert);
     };
     launcher(return_recv_hook ? LOW_LATENCY_SEND_PHASE : (LOW_LATENCY_SEND_PHASE | LOW_LATENCY_RECV_PHASE));
 
diff --git a/csrc/deep_ep.hpp b/csrc/deep_ep.hpp
index 79bf038b..269af513 100644
--- a/csrc/deep_ep.hpp
+++ b/csrc/deep_ep.hpp
@@ -152,7 +152,8 @@ struct Buffer {
                          bool async, bool return_recv_hook,
                          const std::optional<torch::Tensor>& zeroed_tensor,
                          bool use_nvfp4,
-                         const std::optional<torch::Tensor>& dst_signals);
+                         const std::optional<torch::Tensor>& dst_signals,
+                         const std::optional<torch::Tensor>& count_per_expert, const std::optional<torch::Tensor>& token_ids_of_expert);
 
     std::tuple<torch::Tensor, std::optional<EventHandle>, std::optional<std::function<void()>>>
     low_latency_combine(bool enable_v2, const torch::Tensor& x, const torch::Tensor& topk_idx, const torch::Tensor& topk_weights,
diff --git a/csrc/kernels/api.cuh b/csrc/kernels/api.cuh
index be6c8dc5..cc133566 100644
--- a/csrc/kernels/api.cuh
+++ b/csrc/kernels/api.cuh
@@ -152,7 +152,8 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
               bool use_fp8, bool round_scale, bool use_ue8m0,
               void* workspace, int num_device_sms,
               cudaStream_t stream, int phases,
-              bool use_nvfp4, uint32_t* dst_signals);
+              bool use_nvfp4, uint32_t* dst_signals,
+              uint32_t* count_per_expert, int* token_ids_of_expert);
 
 void combine(bool enable_v2, void* combined_x,
              void* rdma_recv_x, int* rdma_recv_flag, void* rdma_send_x,
diff --git a/csrc/kernels/internode_ll.cu b/csrc/kernels/internode_ll.cu
index c6b0b60a..9274548c 100644
--- a/csrc/kernels/internode_ll.cu
+++ b/csrc/kernels/internode_ll.cu
@@ -351,7 +351,8 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
               bool use_fp8, bool round_scale, bool use_ue8m0,
               void* workspace, int num_device_sms,
               cudaStream_t stream, int phases,
-              bool use_nvfp4, uint32_t* dst_signals) {
+              bool use_nvfp4, uint32_t* dst_signals,
+              int* count_per_expert, int* token_ids_of_expert) {
     if (enable_v2) {
         return dispatch_v2(
             packed_recv_x, packed_recv_x_scales,
@@ -368,7 +369,8 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
             use_fp8, round_scale, use_ue8m0,
             workspace, num_device_sms,
             stream, phases,
-            use_nvfp4, dst_signals
+            use_nvfp4, dst_signals,
+            count_per_expert, token_ids_of_expert
         );
     }
 
diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 63598c02..42adcd8c 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -438,9 +438,8 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
          int num_send_warp_groups, int num_recv_warp_groups,
          int num_warps_per_group,
          bool round_scale, int phases,
-         uint32_t* dst_signals) {
-    TODO_arg(count_per_expert, token_ids_of_expert);
-
+         uint32_t* dst_signals,
+         int* count_per_expert, int* token_ids_of_expert) {
     const auto num_send_threads = num_send_warp_groups * num_warps_per_group * 32;
     const auto raw_thread_id = static_cast<int>(threadIdx.x);
     if (raw_thread_id < num_send_threads) {
@@ -483,7 +482,8 @@ void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
               bool use_fp8, bool round_scale, bool use_ue8m0,
               void* workspace, int num_device_sms,
               cudaStream_t stream, int phases,
-              bool use_nvfp4, uint32_t* dst_signals) {
+              bool use_nvfp4, uint32_t* dst_signals,
+              int* count_per_expert, int* token_ids_of_expert) {
     constexpr int kNumMaxTopK = 9;
     const int num_warp_groups = ceil_div(num_experts, num_device_sms);
 
diff --git a/deep_ep/buffer.py b/deep_ep/buffer.py
index 1637c72c..97d861b5 100644
--- a/deep_ep/buffer.py
+++ b/deep_ep/buffer.py
@@ -532,7 +532,8 @@ def low_latency_dispatch(self, x: torch.Tensor, topk_idx: torch.Tensor,
                              async_finish: bool = False, return_recv_hook: bool = False,
                              enable_v2: bool = False,
                              zeroed_tensor: Optional[torch.Tensor] = None,
-                             dst_signals: Optional[torch.Tensor] = None) -> \
+                             dst_signals: Optional[torch.Tensor] = None,
+                             count_per_expert: Optional[torch.Tensor] = None, token_ids_of_expert: Optional[torch.Tensor] = None) -> \
             Tuple[Tuple[torch.Tensor, torch.Tensor], torch.Tensor, Tuple, EventOverlap, Callable]:
         """
         A low-latency implementation for dispatching with IBGDA.
@@ -562,6 +563,12 @@ def low_latency_dispatch(self, x: torch.Tensor, topk_idx: torch.Tensor,
                 but **without actually receiving the data**. You must call the received hook to make sure the data's arrival.
                 If you do not set this flag, the kernel will ensure the data's arrival.
 
+    		count_per_expert: (num_global_experts,)
+                * how many tokens a expert has
+    		token_ids_of_expert: (num_global_experts, max_num_tokens)
+    			* for expert_id-th item, only first `count_per_expert[expert_id]` elements are valid
+    			* means which token ids should be sent in this expert
+
         Returns:
             recv_x: a tensor or tuple with received tokens for each expert.
                 With `use_fp8=True`: the first element is a `torch.Tensor` shaped as
@@ -588,7 +595,8 @@ def low_latency_dispatch(self, x: torch.Tensor, topk_idx: torch.Tensor,
                                               num_max_dispatch_tokens_per_rank, num_experts,
                                               use_fp8, round_scale, use_ue8m0,
                                               async_finish, return_recv_hook,
-                                              zeroed_tensor, dst_signals)
+                                              zeroed_tensor, dst_signals,
+                                              count_per_expert, token_ids_of_expert)
         handle = (packed_recv_src_info, packed_recv_layout_range, num_max_dispatch_tokens_per_rank, x.size(1), num_experts)
         tensors_to_record = (x, topk_idx,
                              packed_recv_x, packed_recv_x_scales, packed_recv_count,

From 7379f12eecf3405098bf54e0eebedd481933aa9c Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Wed, 27 Aug 2025 10:27:13 +0800
Subject: [PATCH 136/393] stride

---
 csrc/deep_ep.cpp                 | 3 ++-
 csrc/kernels/api.cuh             | 2 +-
 csrc/kernels/internode_ll.cu     | 7 +++----
 csrc/kernels/internode_ll_v2.cuh | 7 ++++---
 4 files changed, 10 insertions(+), 9 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index e9087dcf..69c594c6 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1230,7 +1230,8 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
                                launch_stream, phases,
                                use_nvfp4, dst_signals.has_value() ? dst_signals->data_ptr<uint32_t>() : nullptr,
                                count_per_expert.has_value() ? count_per_expert->data_ptr<uint32_t>() : count_per_expert,
-                               token_ids_of_expert.has_value() ? token_ids_of_expert->data_ptr<int>() : token_ids_of_expert);
+                               token_ids_of_expert.has_value() ? token_ids_of_expert->data_ptr<int>() : token_ids_of_expert,
+                               token_ids_of_expert.has_value() ? token_ids_of_expert->stride(0) : 0);
     };
     launcher(return_recv_hook ? LOW_LATENCY_SEND_PHASE : (LOW_LATENCY_SEND_PHASE | LOW_LATENCY_RECV_PHASE));
 
diff --git a/csrc/kernels/api.cuh b/csrc/kernels/api.cuh
index cc133566..ada30882 100644
--- a/csrc/kernels/api.cuh
+++ b/csrc/kernels/api.cuh
@@ -153,7 +153,7 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
               void* workspace, int num_device_sms,
               cudaStream_t stream, int phases,
               bool use_nvfp4, uint32_t* dst_signals,
-              uint32_t* count_per_expert, int* token_ids_of_expert);
+              uint32_t* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0);
 
 void combine(bool enable_v2, void* combined_x,
              void* rdma_recv_x, int* rdma_recv_flag, void* rdma_send_x,
diff --git a/csrc/kernels/internode_ll.cu b/csrc/kernels/internode_ll.cu
index 9274548c..6a1dfadb 100644
--- a/csrc/kernels/internode_ll.cu
+++ b/csrc/kernels/internode_ll.cu
@@ -352,7 +352,7 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
               void* workspace, int num_device_sms,
               cudaStream_t stream, int phases,
               bool use_nvfp4, uint32_t* dst_signals,
-              int* count_per_expert, int* token_ids_of_expert) {
+              int* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0) {
     if (enable_v2) {
         return dispatch_v2(
             packed_recv_x, packed_recv_x_scales,
@@ -370,7 +370,7 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
             workspace, num_device_sms,
             stream, phases,
             use_nvfp4, dst_signals,
-            count_per_expert, token_ids_of_expert
+            count_per_expert, token_ids_of_expert, token_ids_of_expert_stride_0
         );
     }
 
@@ -412,8 +412,7 @@ LAUNCH_KERNEL(&cfg, dispatch_func, \
               num_tokens, num_max_dispatch_tokens_per_rank, \
               num_topk, num_experts, rank, num_ranks, \
               num_warp_groups, num_warps_per_group, \
-              round_scale, phases,
-              dst_signals); } break
+              round_scale, phases); } break
 
     SETUP_LAUNCH_CONFIG(num_sms, num_warps * 32, stream);
     SWITCH_HIDDEN(DISPATCH_LAUNCH_CASE);
diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 42adcd8c..16522461 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -439,7 +439,7 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
          int num_warps_per_group,
          bool round_scale, int phases,
          uint32_t* dst_signals,
-         int* count_per_expert, int* token_ids_of_expert) {
+         int* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0) {
     const auto num_send_threads = num_send_warp_groups * num_warps_per_group * 32;
     const auto raw_thread_id = static_cast<int>(threadIdx.x);
     if (raw_thread_id < num_send_threads) {
@@ -483,7 +483,7 @@ void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
               void* workspace, int num_device_sms,
               cudaStream_t stream, int phases,
               bool use_nvfp4, uint32_t* dst_signals,
-              int* count_per_expert, int* token_ids_of_expert) {
+              int* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0) {
     constexpr int kNumMaxTopK = 9;
     const int num_warp_groups = ceil_div(num_experts, num_device_sms);
 
@@ -538,7 +538,8 @@ LAUNCH_KERNEL(&cfg, dispatch_func, \
               num_topk, num_experts, rank, num_ranks, \
               num_send_warp_groups, num_recv_warp_groups, num_warps_per_group, \
               round_scale, phases,
-              dst_signals); } break
+              dst_signals,
+              count_per_expert, token_ids_of_expert, token_ids_of_expert_stride_0); } break
 
     SETUP_LAUNCH_CONFIG(num_sms, num_warps * 32, stream);
     SWITCH_HIDDEN(DISPATCH_LAUNCH_CASE);

From 7e15ec73b5fe138d1a858adfafb50414e891320c Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Wed, 27 Aug 2025 10:30:00 +0800
Subject: [PATCH 137/393] dispatch args

---
 csrc/kernels/internode_ll_v2.cuh | 84 +++++++++++++++++++++++++++++---
 1 file changed, 78 insertions(+), 6 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 16522461..3c0e70c8 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -9,7 +9,28 @@ namespace deep_ep {
 namespace internode_ll {
 
 template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>
-__forceinline__ __device__ int dispatch_send(int local_thread_id, int num_warp_groups) {
+__forceinline__ __device__ int dispatch_send(
+    int local_thread_id, int num_warp_groups,
+
+    // copied args
+    void* packed_recv_x, void* packed_recv_x_scales,
+    int* packed_recv_src_info, int64_t* packed_recv_layout_range,
+    int* packed_recv_count,
+    int* cumulative_local_expert_recv_stats,
+    int64_t* dispatch_wait_recv_cost_stats,
+    void* rdma_recv_x, int* rdma_recv_count,
+    // void* rdma_x, // NOTE removed
+    const void* x, const int64_t* topk_idx,
+    int* atomic_counter_per_expert, int* atomic_finish_counter_per_expert,
+    int* next_clean, int num_next_clean_int,
+    int num_tokens, int num_max_dispatch_tokens_per_rank,
+    int num_topk, int num_experts, int rank, int num_ranks,
+    // int num_send_warp_groups, int num_recv_warp_groups, // NOTE removed
+    int num_warps_per_group,
+    bool round_scale, int phases,
+    uint32_t* dst_signals,
+    int* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0
+) {
     using Consts = DispatchConstsTemplate<kUseFP8, kUseNVFP4, kHidden>;
     EP_DEVICE_ASSERT(Consts::num_bytes_per_msg % sizeof(int4) == 0);
 
@@ -275,7 +296,28 @@ __forceinline__ __device__ int dispatch_send(int local_thread_id, int num_warp_g
 }
 
 template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>
-__forceinline__ __device__ int dispatch_recv(int local_thread_id, int num_warp_groups) {
+__forceinline__ __device__ int dispatch_recv(
+    int local_thread_id, int num_warp_groups,
+
+    // copied args
+    void* packed_recv_x, void* packed_recv_x_scales,
+    int* packed_recv_src_info, int64_t* packed_recv_layout_range,
+    int* packed_recv_count,
+    int* cumulative_local_expert_recv_stats,
+    int64_t* dispatch_wait_recv_cost_stats,
+    void* rdma_recv_x, int* rdma_recv_count,
+    // void* rdma_x, // NOTE removed
+    const void* x, const int64_t* topk_idx,
+    int* atomic_counter_per_expert, int* atomic_finish_counter_per_expert,
+    int* next_clean, int num_next_clean_int,
+    int num_tokens, int num_max_dispatch_tokens_per_rank,
+    int num_topk, int num_experts, int rank, int num_ranks,
+    // int num_send_warp_groups, int num_recv_warp_groups, // NOTE removed
+    int num_warps_per_group,
+    bool round_scale, int phases,
+    uint32_t* dst_signals,
+    int* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0
+) {
     using Consts = DispatchConstsTemplate<kUseFP8, kUseNVFP4, kHidden>;
 
     // NOTE copied from dispatch body
@@ -446,15 +488,45 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
         const auto send_thread_id = raw_thread_id;
         dispatch_send<kUseFP8, kUseUE8M0, kUseNVFP4, kHidden>(
             send_thread_id, num_send_warp_groups,
-            TODO_args,
-            dst_signals
+
+            // forward args
+            packed_recv_x, packed_recv_x_scales,
+            packed_recv_src_info, packed_recv_layout_range,
+            packed_recv_count,
+            cumulative_local_expert_recv_stats,
+            dispatch_wait_recv_cost_stats,
+            rdma_recv_x, rdma_recv_count,
+            x, topk_idx,
+            atomic_counter_per_expert, atomic_finish_counter_per_expert,
+            next_clean, num_next_clean_int,
+            num_tokens, num_max_dispatch_tokens_per_rank,
+            num_topk, num_experts, rank, num_ranks,
+            num_warps_per_group,
+            round_scale, phases,
+            dst_signals,
+            count_per_expert, token_ids_of_expert, token_ids_of_expert_stride_0
         );
     } else {
         const auto recv_thread_id = raw_thread_id - num_send_threads;
         dispatch_recv<kUseFP8, kUseUE8M0, kUseNVFP4, kHidden>(
             recv_thread_id, num_recv_warp_groups,
-            TODO_args,
-            dst_signals
+
+            // forward args
+            packed_recv_x, packed_recv_x_scales,
+            packed_recv_src_info, packed_recv_layout_range,
+            packed_recv_count,
+            cumulative_local_expert_recv_stats,
+            dispatch_wait_recv_cost_stats,
+            rdma_recv_x, rdma_recv_count,
+            x, topk_idx,
+            atomic_counter_per_expert, atomic_finish_counter_per_expert,
+            next_clean, num_next_clean_int,
+            num_tokens, num_max_dispatch_tokens_per_rank,
+            num_topk, num_experts, rank, num_ranks,
+            num_warps_per_group,
+            round_scale, phases,
+            dst_signals,
+            count_per_expert, token_ids_of_expert, token_ids_of_expert_stride_0
         );
     }
 

From 334eb4678f05b31af0ac8690eafca95381a0efb5 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Wed, 27 Aug 2025 10:38:54 +0800
Subject: [PATCH 138/393] signal

---
 csrc/kernels/internode_ll_v2.cuh | 10 +++++-----
 1 file changed, 5 insertions(+), 5 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 3c0e70c8..786d7d63 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -355,8 +355,8 @@ __forceinline__ __device__ int dispatch_recv(
     // if (responsible_expert_idx < num_experts) {
     EP_DEVICE_ASSERT(num_warp_groups == 1); // not consider multi warp_group case below
     const auto src_rank = sm_id;
-    if (src_rank < num_ranks) {
-        for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
+    for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
+        if (src_rank < num_ranks) {
             // NOTE modified
             // const auto src_rank = responsible_expert_idx / num_local_experts;
             // const auto local_expert_idx = responsible_expert_idx % num_local_experts;
@@ -454,10 +454,10 @@ __forceinline__ __device__ int dispatch_recv(
                     }
                 }
             }
+        }
 
-            if (dst_signals != nullptr) {
-                atomic_add_release_global(dst_signals + local_expert_idx, 1);
-            }
+        if (dst_signals != nullptr) {
+            atomic_add_release_global(dst_signals + local_expert_idx, 1);
         }
     }
 }

From 0f082f81bb8eb89c3b6dd47d0f1e68b405006b44 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Wed, 27 Aug 2025 10:46:34 +0800
Subject: [PATCH 139/393] wait_signal

---
 csrc/kernels/utils.cuh | 11 ++++++++---
 1 file changed, 8 insertions(+), 3 deletions(-)

diff --git a/csrc/kernels/utils.cuh b/csrc/kernels/utils.cuh
index e1a784e9..b41277fc 100644
--- a/csrc/kernels/utils.cuh
+++ b/csrc/kernels/utils.cuh
@@ -582,14 +582,19 @@ __forceinline__ __device__ T warp_reduce_or(T value) {
     return warp_reduce<kNumLanesPerGroup, kIntergroupReduce, T>(value, ReduceOr<T>{});
 }
 
+// TODO correct?
 __device__ __forceinline__ void wait_signal(uint32_t* addr, uint32_t expect_value) {
-  uint32_t ready = *addr;
-  while (ready != expect_value) {
-    // TODO correct?
+  while (true) {
+    uint32_t ready = 0;
     asm volatile("ld.acquire.gpu.global.u32 %0, [%1];"
                  : "=r"(ready)
                  : "l"(addr)
                  : "memory");
+
+    if (ready == expect_value) {
+        return;
+    }
+
     asm volatile("nanosleep.u32 20;");
   };
 }

From c6eef147bec92cc035ab37a0d9cef01d9d64b81b Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Wed, 27 Aug 2025 12:35:49 +0800
Subject: [PATCH 140/393] more

---
 csrc/deep_ep.cpp                     | 5 +++--
 csrc/kernels/internode_ll_v2.cuh     | 2 +-
 csrc/kernels/internode_ll_v2_inc.cuh | 2 +-
 3 files changed, 5 insertions(+), 4 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 69c594c6..167dc402 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1126,7 +1126,7 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
     // EP_HOST_ASSERT(x.dim() == 2 and x.is_contiguous() and x.scalar_type() == torch::kBFloat16);
     // EP_HOST_ASSERT(x.size(1) % sizeof(int4) == 0 and x.size(1) % 128 == 0);
     using Consts = DispatchConstsTemplate<false, true, HIDDEN_DIM>;
-    EP_HOST_ASSERT(x.dim() == 2 and x.is_contiguous() and x.scalar_type() == torch::Uint8);
+    EP_HOST_ASSERT(x.dim() == 2 and x.is_contiguous() and x.scalar_type() == torch::kUInt8);
     EP_HOST_ASSERT(x.size(1) == Consts::num_bytes_per_msg);
 
     EP_HOST_ASSERT(x.size(0) == topk_idx.size(0) and x.size(0) <= num_max_dispatch_tokens_per_rank);
@@ -1178,11 +1178,12 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
     auto packed_recv_count = zeroed_tensor.has_value()
         ? zeroed_tensor.value()
         : torch::empty({num_local_experts}, torch::dtype(torch::kInt32).device(torch::kCUDA));
+    EP_HOST_ASSERT(packed_recv_count.is_contiguous());
     EP_HOST_ASSERT(packed_recv_count.dim() == 1);
     EP_HOST_ASSERT(packed_recv_count.size(0) == num_local_experts);
     EP_HOST_ASSERT(packed_recv_count.dtype() == torch::kInt32);
     EP_HOST_ASSERT(packed_recv_count.device().is_cuda());
-    EP_HOST_ASSERT(packed_recv_count.stride() == 1);
+    EP_HOST_ASSERT(packed_recv_count.stride(0) == 1);
 
     // Allocate column-majored scales
     auto packed_recv_x_scales = std::optional<torch::Tensor>();
diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 786d7d63..eb470fd6 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -1092,7 +1092,7 @@ LAUNCH_KERNEL(&cfg, combine_func, \
               num_max_dispatch_tokens_per_rank, \
               num_experts, rank, num_ranks, \
               num_warp_groups, num_warps_per_group, \
-              phases, zero_copy,
+              phases, zero_copy, \
               src_signals, src_signal_expect_value); } break
 
     SETUP_LAUNCH_CONFIG(num_sms, num_warps * 32, stream);
diff --git a/csrc/kernels/internode_ll_v2_inc.cuh b/csrc/kernels/internode_ll_v2_inc.cuh
index b5a436fc..edd96ded 100644
--- a/csrc/kernels/internode_ll_v2_inc.cuh
+++ b/csrc/kernels/internode_ll_v2_inc.cuh
@@ -24,7 +24,7 @@ struct DispatchConstsTemplate {
     using rdma_x_scale_t = std::conditional_t<kUseNVFP4, uint8_t, float>;
     static constexpr size_t num_bytes_per_msg = sizeof(int4) + ((kUseFP8 || kUseNVFP4) ? (hidden_bytes + num_scales * sizeof(rdma_x_scale_t)) : hidden_bytes);
     static constexpr size_t num_int4_per_msg = num_bytes_per_msg / sizeof(int4);
-}
+};
 
 } // namespace internode_ll
 } // namespace deep_ep

From fa2dc356a8f1aa7f1f2167d4837afa940920f1d0 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Wed, 27 Aug 2025 12:37:17 +0800
Subject: [PATCH 141/393] more

---
 csrc/deep_ep.cpp | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 167dc402..b6755a9c 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1125,7 +1125,7 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
     // NOTE `x` is packed now
     // EP_HOST_ASSERT(x.dim() == 2 and x.is_contiguous() and x.scalar_type() == torch::kBFloat16);
     // EP_HOST_ASSERT(x.size(1) % sizeof(int4) == 0 and x.size(1) % 128 == 0);
-    using Consts = DispatchConstsTemplate<false, true, HIDDEN_DIM>;
+    using Consts = internode_ll::DispatchConstsTemplate<false, true, HIDDEN_DIM>;
     EP_HOST_ASSERT(x.dim() == 2 and x.is_contiguous() and x.scalar_type() == torch::kUInt8);
     EP_HOST_ASSERT(x.size(1) == Consts::num_bytes_per_msg);
 

From e60efd9996c3d0f29aec0e7f33a92d6216f749ae Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Wed, 27 Aug 2025 12:38:16 +0800
Subject: [PATCH 142/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index eb470fd6..1c647c02 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -609,8 +609,8 @@ LAUNCH_KERNEL(&cfg, dispatch_func, \
               num_tokens, num_max_dispatch_tokens_per_rank, \
               num_topk, num_experts, rank, num_ranks, \
               num_send_warp_groups, num_recv_warp_groups, num_warps_per_group, \
-              round_scale, phases,
-              dst_signals,
+              round_scale, phases, \
+              dst_signals, \
               count_per_expert, token_ids_of_expert, token_ids_of_expert_stride_0); } break
 
     SETUP_LAUNCH_CONFIG(num_sms, num_warps * 32, stream);

From f521676209a1aee16e68b6b14dff666e2f4c3fe7 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Wed, 27 Aug 2025 12:40:13 +0800
Subject: [PATCH 143/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 7 ++++---
 1 file changed, 4 insertions(+), 3 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 1c647c02..56aa3a9c 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -8,6 +8,8 @@
 namespace deep_ep {
 namespace internode_ll {
 
+constexpr int kNumMaxWarpGroups = 32;
+
 template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>
 __forceinline__ __device__ int dispatch_send(
     int local_thread_id, int num_warp_groups,
@@ -47,7 +49,6 @@ __forceinline__ __device__ int dispatch_send(
     // const auto count_send_responsible_expert_idx = sm_id * num_warp_groups + warp_group_id;
 
     // Expert counts
-    // constexpr int kNumMaxWarpGroups = 32;
     // __shared__ int shared_num_tokens_sent_per_expert[kNumMaxWarpGroups];
 
     if ((sm_id == 0) and (warp_id == 0)) {
@@ -91,8 +92,8 @@ __forceinline__ __device__ int dispatch_send(
     // TODO is these ordering suboptimal for nvlink write or gmem read?
     const int num_cooperate_parts = num_sms * num_warps / num_ranks;
     EP_DEVICE_ASSERT(num_sms * num_warps == num_cooperate_parts * num_ranks); // even division
-    const int flatten_id = warp_id * num_sm + sm_id;
-    const int flatten_num = num_warps * num_sm;
+    const int flatten_id = warp_id * num_sms + sm_id;
+    const int flatten_num = num_warps * num_sms;
     const int dst_rank = flatten_id % num_ranks;
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
         const int dst_expert_idx = dst_rank * num_local_experts + local_expert_idx;

From 01cc84a980bdc2cf9d0de8262edd64fb3148928f Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Wed, 27 Aug 2025 12:41:15 +0800
Subject: [PATCH 144/393] more

---
 csrc/kernels/utils.cuh | 6 ++++++
 1 file changed, 6 insertions(+)

diff --git a/csrc/kernels/utils.cuh b/csrc/kernels/utils.cuh
index b41277fc..ebab4969 100644
--- a/csrc/kernels/utils.cuh
+++ b/csrc/kernels/utils.cuh
@@ -101,6 +101,12 @@ __device__ __forceinline__ int atomic_add_release_global(const int* ptr, int val
     return ret;
 }
 
+__device__ __forceinline__ uint32_t atomic_add_release_global(const uint32_t* ptr, uint32_t value) {
+    uint32_t ret;
+    asm volatile("atom.add.release.gpu.global.u32 %0, [%1], %2;" : "=r"(ret) : "l"(ptr), "r"(value));
+    return ret;
+}
+
 __device__ __forceinline__ int ld_acquire_cta(const int *ptr) {
     int ret;
     asm volatile("ld.acquire.cta.s32 %0, [%1];" : "=r"(ret) : "l"(ptr));

From e31fa9a1c2906748536e9cfbdcab5289a6ecec58 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Wed, 27 Aug 2025 12:42:21 +0800
Subject: [PATCH 145/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 56aa3a9c..bc2468bc 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -717,12 +717,12 @@ combine_v2(void* combined_x,
         };
         // -------------------------------------------- END tma-related -----------------------------------------------
 
+        const auto dst_rank = responsible_expert_idx / num_local_experts;
+
         // NOTE
         // before: "one warp group --- all tokens for one (dsk_rank, local_expert_idx)"
         // after: "multiple warp groups --- cooperate on tokens for one (dsk_rank, local_expert_idx)"
         for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
-            const auto dst_rank = responsible_expert_idx / num_local_experts;
-
             // NOTE changed
             // const auto local_expert_idx = responsible_expert_idx % num_local_experts;
             const auto token_cooperate_part_idx = responsible_expert_idx % num_local_experts;

From 06c9db1465685a7039761b687906382e43b8d74d Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Wed, 27 Aug 2025 12:42:51 +0800
Subject: [PATCH 146/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index bc2468bc..d786e10f 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -845,7 +845,9 @@ combine_v2(void* combined_x,
             auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_flag + global_expert_idx);
             auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
             if (dst_p2p_ptr == 0) {
-                nvshmemi_ibgda_amo_nonfetch_add(reinterpret_cast<int*>(dst_ptr), 1, dst_rank, local_expert_idx);
+                // will not visit this branch
+                // nvshmemi_ibgda_amo_nonfetch_add(reinterpret_cast<int*>(dst_ptr), 1, dst_rank, local_expert_idx);
+                EP_DEVICE_ASSERT(0);
             } else {
                 st_release_sys_global(reinterpret_cast<int*>(dst_p2p_ptr), 1);
             }

From f5d6fe267ff5d3589d39aca5337e7857694bcecb Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Wed, 27 Aug 2025 12:45:00 +0800
Subject: [PATCH 147/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index d786e10f..5e760dc3 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -547,7 +547,8 @@ void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
               int* packed_recv_count,
               int* cumulative_local_expert_recv_stats,
               int64_t* dispatch_wait_recv_cost_stats,
-              void* rdma_recv_x, int* rdma_recv_count, void* rdma_x,
+              void* rdma_recv_x, int* rdma_recv_count,
+              // void* rdma_x, // NOTE removed
               const void* x, const int64_t* topk_idx,
               int* next_clean, int num_next_clean_int,
               int num_tokens, int hidden, int num_max_dispatch_tokens_per_rank,
@@ -603,7 +604,7 @@ LAUNCH_KERNEL(&cfg, dispatch_func, \
               packed_recv_count, \
               cumulative_local_expert_recv_stats, \
               dispatch_wait_recv_cost_stats, \
-              rdma_recv_x, rdma_recv_count, rdma_x, \
+              rdma_recv_x, rdma_recv_count, \
               x, topk_idx, \
               atomic_counter_per_expert, atomic_finish_counter_per_expert, \
               next_clean, num_next_clean_int, \

From f1c9d167ed60502957ae98a929f58665fc3d871d Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Wed, 27 Aug 2025 12:46:32 +0800
Subject: [PATCH 148/393] more

---
 csrc/deep_ep.cpp                 | 4 ++--
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 2 files changed, 3 insertions(+), 3 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index b6755a9c..5dcd49e2 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1230,8 +1230,8 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
                                workspace, num_device_sms,
                                launch_stream, phases,
                                use_nvfp4, dst_signals.has_value() ? dst_signals->data_ptr<uint32_t>() : nullptr,
-                               count_per_expert.has_value() ? count_per_expert->data_ptr<uint32_t>() : count_per_expert,
-                               token_ids_of_expert.has_value() ? token_ids_of_expert->data_ptr<int>() : token_ids_of_expert,
+                               count_per_expert.has_value() ? count_per_expert->data_ptr<uint32_t>() : nullptr,
+                               token_ids_of_expert.has_value() ? token_ids_of_expert->data_ptr<int>() : nullptr,
                                token_ids_of_expert.has_value() ? token_ids_of_expert->stride(0) : 0);
     };
     launcher(return_recv_hook ? LOW_LATENCY_SEND_PHASE : (LOW_LATENCY_SEND_PHASE | LOW_LATENCY_RECV_PHASE));
diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 5e760dc3..8a41264d 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -115,7 +115,7 @@ __forceinline__ __device__ int dispatch_send(
 
             // NOTE do not use `rdma_x` but use `x`
             // const auto rdma_x_src_idx = reinterpret_cast<int*>(static_cast<uint8_t*>(rdma_x) + token_idx * Consts::num_bytes_per_msg);
-            const auto x_src_idx = reinterpret_cast<int*>(static_cast<uint8_t*>(x) + token_idx * Consts::num_bytes_per_msg);
+            const auto x_src_idx = reinterpret_cast<int*>(reinterpret_cast<uint8_t*>(x) + token_idx * Consts::num_bytes_per_msg);
 
             // const auto rdma_x_vec = reinterpret_cast<Consts::vec_t*>(reinterpret_cast<uint8_t*>(rdma_x_src_idx) + sizeof(int4));
             // const auto rdma_x_scales = reinterpret_cast<Consts::rdma_x_scale_t*>(reinterpret_cast<uint8_t*>(rdma_x_vec) + Consts::hidden_bytes);

From 1191e61de52fe32e5d2c633c7d2af6461b045b78 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Wed, 27 Aug 2025 12:46:55 +0800
Subject: [PATCH 149/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 23 +++++++++++------------
 1 file changed, 11 insertions(+), 12 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 8a41264d..5e610f9e 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -45,9 +45,8 @@ __forceinline__ __device__ int dispatch_send(
     const auto warp_group_id = warp_id / num_warps_per_group;
     const auto sub_warp_id = warp_id % num_warps_per_group;
 
-    // NOTE renamed `responsible_expert_idx` -> `count_send_responsible_expert_idx`, and then removed
-    // const auto count_send_responsible_expert_idx = sm_id * num_warp_groups + warp_group_id;
-
+    // NOTE removed
+    // const auto responsible_expert_idx = sm_id * num_warp_groups + warp_group_id;
     // Expert counts
     // __shared__ int shared_num_tokens_sent_per_expert[kNumMaxWarpGroups];
 
@@ -222,21 +221,21 @@ __forceinline__ __device__ int dispatch_send(
         EP_DEBUG_DEVICE_ASSERT(num_sms >= num_ranks);
         const int dst_rank = sm_id;
         // NOTE changed
-        // if (count_send_responsible_expert_idx < num_experts and sub_warp_id == 0 and lane_id == 0) {
+        // if (responsible_expert_idx < num_experts and sub_warp_id == 0 and lane_id == 0) {
         if ((dst_rank < num_ranks) and (local_thread_id == 0)) {
             // NOTE changed
-            // const auto dst_rank = count_send_responsible_expert_idx / num_local_experts;
-            // const auto dst_expert_local_idx = count_send_responsible_expert_idx % num_local_experts;
+            // const auto dst_rank = responsible_expert_idx / num_local_experts;
+            // const auto dst_expert_local_idx = responsible_expert_idx % num_local_experts;
             const auto dst_expert_local_idx = local_expert_idx;
-            const auto count_send_responsible_expert_idx = dst_rank * num_local_experts + dst_expert_local_idx;
+            const auto responsible_expert_idx = dst_rank * num_local_experts + dst_expert_local_idx;
 
             // TODO can hide the gmem read if too slow
-            // const auto num_tokens_sent = shared_num_tokens_sent_per_expert[count_send_responsible_expert_idx - sm_id * num_warp_groups];
-            const int num_tokens_sent = count_per_expert[count_send_responsible_expert_idx];
+            // const auto num_tokens_sent = shared_num_tokens_sent_per_expert[responsible_expert_idx - sm_id * num_warp_groups];
+            const int num_tokens_sent = count_per_expert[responsible_expert_idx];
 
             // Wait local sends issued and send expert counts
             while (
-                ld_acquire_global(atomic_finish_counter_per_expert + count_send_responsible_expert_idx) !=
+                ld_acquire_global(atomic_finish_counter_per_expert + responsible_expert_idx) !=
                 // NOTE changed
                 // FINISHED_SUM_TAG * 2
                 FINISHED_SUM_TAG + num_tokens_of_responsible_expert
@@ -250,8 +249,8 @@ __forceinline__ __device__ int dispatch_send(
             }
 
             // Clean workspace for next use
-            atomic_counter_per_expert[count_send_responsible_expert_idx] = 0;
-            atomic_finish_counter_per_expert[count_send_responsible_expert_idx] = 0;
+            atomic_counter_per_expert[responsible_expert_idx] = 0;
+            atomic_finish_counter_per_expert[responsible_expert_idx] = 0;
 
             // NOTE packed_recv_count zeroing is removed
             // // Clean `packed_recv_count`

From 39ba248d8f8d7ce6c78680ec761cc19f4847acfc Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Wed, 27 Aug 2025 12:47:50 +0800
Subject: [PATCH 150/393] fix

---
 csrc/kernels/internode_ll_v2.cuh | 32 ++++++++++++++++----------------
 1 file changed, 16 insertions(+), 16 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 5e610f9e..6d9cb77d 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -835,25 +835,25 @@ combine_v2(void* combined_x,
                 if (dst_p2p_ptr == 0)
                     nvshmemi_ibgda_put_nbi_warp(dst_ptr, buf_ptr, num_send_bytes, dst_rank, local_expert_idx, lane_id, token_idx - offset);
             }
-        }
 
-        // Put the finishing flag
-        EP_DEVICE_ASSERT(num_warps_per_group > 1 and num_warp_groups < 16);
-        asm volatile("bar.sync %0, %1;" :: "r"(warp_group_id + 1), "r"(num_warps_per_group * 32));
-        if (sub_warp_id == 1 and lane_id == 0) {
-            while (ld_acquire_global(atomic_clean_flag) == 0);
-            auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_flag + global_expert_idx);
-            auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
-            if (dst_p2p_ptr == 0) {
-                // will not visit this branch
-                // nvshmemi_ibgda_amo_nonfetch_add(reinterpret_cast<int*>(dst_ptr), 1, dst_rank, local_expert_idx);
-                EP_DEVICE_ASSERT(0);
-            } else {
-                st_release_sys_global(reinterpret_cast<int*>(dst_p2p_ptr), 1);
+            // Put the finishing flag
+            EP_DEVICE_ASSERT(num_warps_per_group > 1 and num_warp_groups < 16);
+            asm volatile("bar.sync %0, %1;" :: "r"(warp_group_id + 1), "r"(num_warps_per_group * 32));
+            if (sub_warp_id == 1 and lane_id == 0) {
+                while (ld_acquire_global(atomic_clean_flag) == 0);
+                auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_flag + global_expert_idx);
+                auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
+                if (dst_p2p_ptr == 0) {
+                    // will not visit this branch
+                    // nvshmemi_ibgda_amo_nonfetch_add(reinterpret_cast<int*>(dst_ptr), 1, dst_rank, local_expert_idx);
+                    EP_DEVICE_ASSERT(0);
+                } else {
+                    st_release_sys_global(reinterpret_cast<int*>(dst_p2p_ptr), 1);
+                }
+                atomic_add_release_global(atomic_clean_flag, -1);
             }
-            atomic_add_release_global(atomic_clean_flag, -1);
+            __syncwarp();
         }
-        __syncwarp();
 
         // Destroy m-barriers
         if (lane_id < kNumStages) {

From 4528bba4e341055595d0ecb06a93f267dff3b0b8 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Wed, 27 Aug 2025 12:48:12 +0800
Subject: [PATCH 151/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 6d9cb77d..d5c1805b 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -238,7 +238,7 @@ __forceinline__ __device__ int dispatch_send(
                 ld_acquire_global(atomic_finish_counter_per_expert + responsible_expert_idx) !=
                 // NOTE changed
                 // FINISHED_SUM_TAG * 2
-                FINISHED_SUM_TAG + num_tokens_of_responsible_expert
+                FINISHED_SUM_TAG + num_tokens_sent
             );
             auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_count + dst_expert_local_idx * num_ranks + rank);
             auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);

From a25bc011f081e6507dac139b3847423580fc8539 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Wed, 27 Aug 2025 12:51:51 +0800
Subject: [PATCH 152/393] more

---
 csrc/deep_ep.cpp                 | 1 +
 csrc/kernels/api.cuh             | 2 +-
 csrc/kernels/internode_ll.cu     | 4 ++--
 csrc/kernels/internode_ll_v2.cuh | 6 +++---
 4 files changed, 7 insertions(+), 6 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 5dcd49e2..a76cc290 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1088,6 +1088,7 @@ void Buffer::clean_low_latency_buffer(int num_max_dispatch_tokens_per_rank, int
 #endif
 }
 
+// TODO `x` (in the new approach), `zeroed_tensor`, `dst_signals` etc will be modified. shall we represent in m.def?
 std::tuple<torch::Tensor, std::optional<torch::Tensor>, torch::Tensor, torch::Tensor, torch::Tensor, std::optional<EventHandle>, std::optional<std::function<void()>>>
 Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch::Tensor& topk_idx,
                              const std::optional<torch::Tensor>& cumulative_local_expert_recv_stats,
diff --git a/csrc/kernels/api.cuh b/csrc/kernels/api.cuh
index ada30882..6078f163 100644
--- a/csrc/kernels/api.cuh
+++ b/csrc/kernels/api.cuh
@@ -145,7 +145,7 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
               int* cumulative_local_expert_recv_stats,
               int64_t* dispatch_wait_recv_cost_stats,
               void* rdma_recv_x, int* rdma_recv_count, void* rdma_x,
-              const void* x, const int64_t* topk_idx,
+              void* x, const int64_t* topk_idx, // NOTE rm `const` of x
               int* next_clean, int num_next_clean_int,
               int num_tokens, int hidden, int num_max_dispatch_tokens_per_rank,
               int num_topk, int num_experts, int rank, int num_ranks,
diff --git a/csrc/kernels/internode_ll.cu b/csrc/kernels/internode_ll.cu
index 6a1dfadb..7f254462 100644
--- a/csrc/kernels/internode_ll.cu
+++ b/csrc/kernels/internode_ll.cu
@@ -344,7 +344,7 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
               int* cumulative_local_expert_recv_stats,
               int64_t* dispatch_wait_recv_cost_stats,
               void* rdma_recv_x, int* rdma_recv_count, void* rdma_x,
-              const void* x, const int64_t* topk_idx,
+              void* x, const int64_t* topk_idx,
               int* next_clean, int num_next_clean_int,
               int num_tokens, int hidden, int num_max_dispatch_tokens_per_rank,
               int num_topk, int num_experts, int rank, int num_ranks,
@@ -362,7 +362,7 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
             dispatch_wait_recv_cost_stats,
             rdma_recv_x, rdma_recv_count,
             // rdma_x, // NOTE removed
-            x, topk_idx,
+            x, topk_idx,  // NOTE rm `const` of x
             next_clean, num_next_clean_int,
             num_tokens, hidden, num_max_dispatch_tokens_per_rank,
             num_topk, num_experts, rank, num_ranks,
diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index d5c1805b..1272d922 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -22,7 +22,7 @@ __forceinline__ __device__ int dispatch_send(
     int64_t* dispatch_wait_recv_cost_stats,
     void* rdma_recv_x, int* rdma_recv_count,
     // void* rdma_x, // NOTE removed
-    const void* x, const int64_t* topk_idx,
+    void* x, const int64_t* topk_idx, // NOTE rm `const` of x
     int* atomic_counter_per_expert, int* atomic_finish_counter_per_expert,
     int* next_clean, int num_next_clean_int,
     int num_tokens, int num_max_dispatch_tokens_per_rank,
@@ -471,7 +471,7 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
          int64_t* dispatch_wait_recv_cost_stats,
          void* rdma_recv_x, int* rdma_recv_count,
          // void* rdma_x, // NOTE removed
-         const void* x, const int64_t* topk_idx,
+         void* x, const int64_t* topk_idx, // NOTE rm `const` of x
          int* atomic_counter_per_expert, int* atomic_finish_counter_per_expert,
          int* next_clean, int num_next_clean_int,
          int num_tokens, int num_max_dispatch_tokens_per_rank,
@@ -548,7 +548,7 @@ void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
               int64_t* dispatch_wait_recv_cost_stats,
               void* rdma_recv_x, int* rdma_recv_count,
               // void* rdma_x, // NOTE removed
-              const void* x, const int64_t* topk_idx,
+              void* x, const int64_t* topk_idx, // NOTE rm `const` of x
               int* next_clean, int num_next_clean_int,
               int num_tokens, int hidden, int num_max_dispatch_tokens_per_rank,
               int num_topk, int num_experts, int rank, int num_ranks,

From 2fbb21d2285d44ed7311e7464e16e8734761984f Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Wed, 27 Aug 2025 12:53:43 +0800
Subject: [PATCH 153/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 12 +++++++-----
 1 file changed, 7 insertions(+), 5 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 1272d922..86603b7e 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -42,8 +42,9 @@ __forceinline__ __device__ int dispatch_send(
     const auto warp_id = local_thread_id / 32, lane_id = get_lane_id();
     const auto num_warps = num_warp_groups * num_warps_per_group;
     const auto num_local_experts = num_experts / num_ranks;
-    const auto warp_group_id = warp_id / num_warps_per_group;
-    const auto sub_warp_id = warp_id % num_warps_per_group;
+    // unused
+    // const auto warp_group_id = warp_id / num_warps_per_group;
+    // const auto sub_warp_id = warp_id % num_warps_per_group;
 
     // NOTE removed
     // const auto responsible_expert_idx = sm_id * num_warp_groups + warp_group_id;
@@ -78,7 +79,8 @@ __forceinline__ __device__ int dispatch_send(
     // const auto num_threads = (num_warps - 1) * 32;
     const auto num_threads = num_warps * 32;
 
-    const size_t hidden_bf16_int4 = kHidden / kNumElemsPerRead;
+    // unused
+    // const size_t hidden_bf16_int4 = kHidden / kNumElemsPerRead;
 
     // NOTE
     // before: one SM = one token, one warp = one dst rank of that token, only use first 8 warps of the SM (?)
@@ -322,9 +324,9 @@ __forceinline__ __device__ int dispatch_recv(
 
     // NOTE copied from dispatch body
     const auto sm_id = static_cast<int>(blockIdx.x);
-    const auto num_sms = static_cast<int>(gridDim.x);
+    // const auto num_sms = static_cast<int>(gridDim.x); // unused
     const auto warp_id = local_thread_id / 32, lane_id = get_lane_id();
-    const auto num_warps = num_warp_groups * num_warps_per_group;
+    // const auto num_warps = num_warp_groups * num_warps_per_group; // unused
     const auto num_local_experts = num_experts / num_ranks;
     const auto warp_group_id = warp_id / num_warps_per_group;
     const auto sub_warp_id = warp_id % num_warps_per_group;

From 3180d23cab4f28ee6501e339acef278e90890ddb Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Wed, 27 Aug 2025 12:54:48 +0800
Subject: [PATCH 154/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 86603b7e..44e188cb 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -11,7 +11,7 @@ namespace internode_ll {
 constexpr int kNumMaxWarpGroups = 32;
 
 template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>
-__forceinline__ __device__ int dispatch_send(
+__forceinline__ __device__ void dispatch_send(
     int local_thread_id, int num_warp_groups,
 
     // copied args
@@ -298,7 +298,7 @@ __forceinline__ __device__ int dispatch_send(
 }
 
 template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>
-__forceinline__ __device__ int dispatch_recv(
+__forceinline__ __device__ void dispatch_recv(
     int local_thread_id, int num_warp_groups,
 
     // copied args

From 14ecba29cf320549d3b989ab31a9fcc76cca0d63 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Wed, 27 Aug 2025 12:57:47 +0800
Subject: [PATCH 155/393] more

---
 csrc/kernels/api.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/api.cuh b/csrc/kernels/api.cuh
index 6078f163..89d19fbf 100644
--- a/csrc/kernels/api.cuh
+++ b/csrc/kernels/api.cuh
@@ -153,7 +153,7 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
               void* workspace, int num_device_sms,
               cudaStream_t stream, int phases,
               bool use_nvfp4, uint32_t* dst_signals,
-              uint32_t* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0);
+              int* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0);
 
 void combine(bool enable_v2, void* combined_x,
              void* rdma_recv_x, int* rdma_recv_flag, void* rdma_send_x,

From 8b6af18b58b60d6a5f3688309f2a2519aca66cca Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Wed, 27 Aug 2025 13:01:02 +0800
Subject: [PATCH 156/393] more

---
 csrc/kernels/api.cuh             | 2 +-
 csrc/kernels/internode_ll.cu     | 2 +-
 csrc/kernels/internode_ll_v2.cuh | 8 ++++----
 3 files changed, 6 insertions(+), 6 deletions(-)

diff --git a/csrc/kernels/api.cuh b/csrc/kernels/api.cuh
index 89d19fbf..6078f163 100644
--- a/csrc/kernels/api.cuh
+++ b/csrc/kernels/api.cuh
@@ -153,7 +153,7 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
               void* workspace, int num_device_sms,
               cudaStream_t stream, int phases,
               bool use_nvfp4, uint32_t* dst_signals,
-              int* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0);
+              uint32_t* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0);
 
 void combine(bool enable_v2, void* combined_x,
              void* rdma_recv_x, int* rdma_recv_flag, void* rdma_send_x,
diff --git a/csrc/kernels/internode_ll.cu b/csrc/kernels/internode_ll.cu
index 7f254462..d6618049 100644
--- a/csrc/kernels/internode_ll.cu
+++ b/csrc/kernels/internode_ll.cu
@@ -352,7 +352,7 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
               void* workspace, int num_device_sms,
               cudaStream_t stream, int phases,
               bool use_nvfp4, uint32_t* dst_signals,
-              int* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0) {
+              uint32_t* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0) {
     if (enable_v2) {
         return dispatch_v2(
             packed_recv_x, packed_recv_x_scales,
diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 44e188cb..3c80e252 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -31,7 +31,7 @@ __forceinline__ __device__ void dispatch_send(
     int num_warps_per_group,
     bool round_scale, int phases,
     uint32_t* dst_signals,
-    int* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0
+    uint32_t* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0
 ) {
     using Consts = DispatchConstsTemplate<kUseFP8, kUseNVFP4, kHidden>;
     EP_DEVICE_ASSERT(Consts::num_bytes_per_msg % sizeof(int4) == 0);
@@ -318,7 +318,7 @@ __forceinline__ __device__ void dispatch_recv(
     int num_warps_per_group,
     bool round_scale, int phases,
     uint32_t* dst_signals,
-    int* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0
+    uint32_t* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0
 ) {
     using Consts = DispatchConstsTemplate<kUseFP8, kUseNVFP4, kHidden>;
 
@@ -483,7 +483,7 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
          int num_warps_per_group,
          bool round_scale, int phases,
          uint32_t* dst_signals,
-         int* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0) {
+         uint32_t* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0) {
     const auto num_send_threads = num_send_warp_groups * num_warps_per_group * 32;
     const auto raw_thread_id = static_cast<int>(threadIdx.x);
     if (raw_thread_id < num_send_threads) {
@@ -558,7 +558,7 @@ void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
               void* workspace, int num_device_sms,
               cudaStream_t stream, int phases,
               bool use_nvfp4, uint32_t* dst_signals,
-              int* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0) {
+              uint32_t* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0) {
     constexpr int kNumMaxTopK = 9;
     const int num_warp_groups = ceil_div(num_experts, num_device_sms);
 

From e8c33a47af80ffad1b079568507e342ddff1b9a0 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Wed, 27 Aug 2025 13:17:05 +0800
Subject: [PATCH 157/393] more

---
 csrc/deep_ep.cpp  | 3 ++-
 deep_ep/buffer.py | 5 ++++-
 2 files changed, 6 insertions(+), 2 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index a76cc290..1e972bf3 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1230,7 +1230,8 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
                                use_fp8, round_scale, use_ue8m0,
                                workspace, num_device_sms,
                                launch_stream, phases,
-                               use_nvfp4, dst_signals.has_value() ? dst_signals->data_ptr<uint32_t>() : nullptr,
+                               use_nvfp4,
+                               dst_signals.has_value() ? dst_signals->data_ptr<uint32_t>() : nullptr,
                                count_per_expert.has_value() ? count_per_expert->data_ptr<uint32_t>() : nullptr,
                                token_ids_of_expert.has_value() ? token_ids_of_expert->data_ptr<int>() : nullptr,
                                token_ids_of_expert.has_value() ? token_ids_of_expert->stride(0) : 0);
diff --git a/deep_ep/buffer.py b/deep_ep/buffer.py
index 97d861b5..a70c54ff 100644
--- a/deep_ep/buffer.py
+++ b/deep_ep/buffer.py
@@ -532,6 +532,7 @@ def low_latency_dispatch(self, x: torch.Tensor, topk_idx: torch.Tensor,
                              async_finish: bool = False, return_recv_hook: bool = False,
                              enable_v2: bool = False,
                              zeroed_tensor: Optional[torch.Tensor] = None,
+                             use_nvfp4: bool = False,
                              dst_signals: Optional[torch.Tensor] = None,
                              count_per_expert: Optional[torch.Tensor] = None, token_ids_of_expert: Optional[torch.Tensor] = None) -> \
             Tuple[Tuple[torch.Tensor, torch.Tensor], torch.Tensor, Tuple, EventOverlap, Callable]:
@@ -595,7 +596,9 @@ def low_latency_dispatch(self, x: torch.Tensor, topk_idx: torch.Tensor,
                                               num_max_dispatch_tokens_per_rank, num_experts,
                                               use_fp8, round_scale, use_ue8m0,
                                               async_finish, return_recv_hook,
-                                              zeroed_tensor, dst_signals,
+                                              zeroed_tensor,
+                                              use_nvfp4,
+                                              dst_signals,
                                               count_per_expert, token_ids_of_expert)
         handle = (packed_recv_src_info, packed_recv_layout_range, num_max_dispatch_tokens_per_rank, x.size(1), num_experts)
         tensors_to_record = (x, topk_idx,

From 945f4a7776362c4aaa35109a5e88be049f3d4685 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Wed, 27 Aug 2025 13:20:35 +0800
Subject: [PATCH 158/393] more

---
 csrc/deep_ep.cpp | 30 ++++++++++++++++++------------
 1 file changed, 18 insertions(+), 12 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 1e972bf3..da5841b6 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1123,17 +1123,20 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
     // Tensor checks
     // By default using `ptp128c` FP8 cast
 
-    // NOTE `x` is packed now
-    // EP_HOST_ASSERT(x.dim() == 2 and x.is_contiguous() and x.scalar_type() == torch::kBFloat16);
-    // EP_HOST_ASSERT(x.size(1) % sizeof(int4) == 0 and x.size(1) % 128 == 0);
-    using Consts = internode_ll::DispatchConstsTemplate<false, true, HIDDEN_DIM>;
-    EP_HOST_ASSERT(x.dim() == 2 and x.is_contiguous() and x.scalar_type() == torch::kUInt8);
-    EP_HOST_ASSERT(x.size(1) == Consts::num_bytes_per_msg);
-
-    EP_HOST_ASSERT(x.size(0) == topk_idx.size(0) and x.size(0) <= num_max_dispatch_tokens_per_rank);
-    EP_HOST_ASSERT(topk_idx.dim() == 2 and topk_idx.is_contiguous());
-    EP_HOST_ASSERT(topk_idx.scalar_type() == torch::kInt64);
-    EP_HOST_ASSERT(num_experts % num_ranks == 0);
+    if (enable_v2) {
+        // NOTE `x` is packed now
+        using Consts = internode_ll::DispatchConstsTemplate<false, true, HIDDEN_DIM>;
+        EP_HOST_ASSERT(x.dim() == 2 and x.is_contiguous() and x.scalar_type() == torch::kUInt8);
+        EP_HOST_ASSERT(x.size(1) == Consts::num_bytes_per_msg);
+
+        EP_HOST_ASSERT(x.size(0) == topk_idx.size(0) and x.size(0) <= num_max_dispatch_tokens_per_rank);
+        EP_HOST_ASSERT(topk_idx.dim() == 2 and topk_idx.is_contiguous());
+        EP_HOST_ASSERT(topk_idx.scalar_type() == torch::kInt64);
+        EP_HOST_ASSERT(num_experts % num_ranks == 0);
+    } else {
+        EP_HOST_ASSERT(x.dim() == 2 and x.is_contiguous() and x.scalar_type() == torch::kBFloat16);
+        EP_HOST_ASSERT(x.size(1) % sizeof(int4) == 0 and x.size(1) % 128 == 0);
+    }
 
     // Diagnosis tensors
     if (cumulative_local_expert_recv_stats.has_value()) {
@@ -1148,7 +1151,10 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
     }
 
     // auto num_tokens = static_cast<int>(x.size(0)), hidden = static_cast<int>(x.size(1));
-    auto num_tokens = static_cast<int>(x.size(0)), hidden = HIDDEN_DIM;
+    auto num_tokens = static_cast<int>(x.size(0));
+    auto hidden = enable_v2
+        ? HIDDEN_DIM
+        : static_cast<int>(x.size(1));
 
     auto num_topk = static_cast<int>(topk_idx.size(1));
     auto num_local_experts = num_experts / num_ranks;

From c1b586fa9a497cd113837469dabbd10b54bad190 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Wed, 27 Aug 2025 16:19:16 +0800
Subject: [PATCH 159/393] Revert "fix"

This reverts commit 39ba248d8f8d7ce6c78680ec761cc19f4847acfc.
---
 csrc/kernels/internode_ll_v2.cuh | 32 ++++++++++++++++----------------
 1 file changed, 16 insertions(+), 16 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 3c80e252..f69307db 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -837,25 +837,25 @@ combine_v2(void* combined_x,
                 if (dst_p2p_ptr == 0)
                     nvshmemi_ibgda_put_nbi_warp(dst_ptr, buf_ptr, num_send_bytes, dst_rank, local_expert_idx, lane_id, token_idx - offset);
             }
+        }
 
-            // Put the finishing flag
-            EP_DEVICE_ASSERT(num_warps_per_group > 1 and num_warp_groups < 16);
-            asm volatile("bar.sync %0, %1;" :: "r"(warp_group_id + 1), "r"(num_warps_per_group * 32));
-            if (sub_warp_id == 1 and lane_id == 0) {
-                while (ld_acquire_global(atomic_clean_flag) == 0);
-                auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_flag + global_expert_idx);
-                auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
-                if (dst_p2p_ptr == 0) {
-                    // will not visit this branch
-                    // nvshmemi_ibgda_amo_nonfetch_add(reinterpret_cast<int*>(dst_ptr), 1, dst_rank, local_expert_idx);
-                    EP_DEVICE_ASSERT(0);
-                } else {
-                    st_release_sys_global(reinterpret_cast<int*>(dst_p2p_ptr), 1);
-                }
-                atomic_add_release_global(atomic_clean_flag, -1);
+        // Put the finishing flag
+        EP_DEVICE_ASSERT(num_warps_per_group > 1 and num_warp_groups < 16);
+        asm volatile("bar.sync %0, %1;" :: "r"(warp_group_id + 1), "r"(num_warps_per_group * 32));
+        if (sub_warp_id == 1 and lane_id == 0) {
+            while (ld_acquire_global(atomic_clean_flag) == 0);
+            auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_flag + global_expert_idx);
+            auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
+            if (dst_p2p_ptr == 0) {
+                // will not visit this branch
+                // nvshmemi_ibgda_amo_nonfetch_add(reinterpret_cast<int*>(dst_ptr), 1, dst_rank, local_expert_idx);
+                EP_DEVICE_ASSERT(0);
+            } else {
+                st_release_sys_global(reinterpret_cast<int*>(dst_p2p_ptr), 1);
             }
-            __syncwarp();
+            atomic_add_release_global(atomic_clean_flag, -1);
         }
+        __syncwarp();
 
         // Destroy m-barriers
         if (lane_id < kNumStages) {

From b1d59595c8364207656ca8913e8e324fe3bc682b Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Wed, 27 Aug 2025 16:33:37 +0800
Subject: [PATCH 160/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 1 +
 1 file changed, 1 insertion(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index f69307db..2693b402 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -839,6 +839,7 @@ combine_v2(void* combined_x,
             }
         }
 
+        // TODO maybe move to above?
         // Put the finishing flag
         EP_DEVICE_ASSERT(num_warps_per_group > 1 and num_warp_groups < 16);
         asm volatile("bar.sync %0, %1;" :: "r"(warp_group_id + 1), "r"(num_warps_per_group * 32));

From ed6ae45cb30c3b656abe887252872b3d6dca453b Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Wed, 27 Aug 2025 16:37:43 +0800
Subject: [PATCH 161/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 7 ++++++-
 1 file changed, 6 insertions(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 2693b402..82776465 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -844,8 +844,13 @@ combine_v2(void* combined_x,
         EP_DEVICE_ASSERT(num_warps_per_group > 1 and num_warp_groups < 16);
         asm volatile("bar.sync %0, %1;" :: "r"(warp_group_id + 1), "r"(num_warps_per_group * 32));
         if (sub_warp_id == 1 and lane_id == 0) {
+            // copied from global to this part
+            const auto local_expert_idx_for_signal = responsible_expert_idx % num_local_experts;
+            const auto global_expert_idx_for_signal = rank * num_local_experts + local_expert_idx_for_signal;
+            // =============================================
+
             while (ld_acquire_global(atomic_clean_flag) == 0);
-            auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_flag + global_expert_idx);
+            auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_flag + global_expert_idx_for_signal);
             auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
             if (dst_p2p_ptr == 0) {
                 // will not visit this branch

From e5f369c13706109f17d2a05a6bcb08a1fcd3bb4c Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Thu, 28 Aug 2025 15:28:15 +0800
Subject: [PATCH 162/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 82776465..b9cad574 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -560,7 +560,10 @@ void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
               bool use_nvfp4, uint32_t* dst_signals,
               uint32_t* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0) {
     constexpr int kNumMaxTopK = 9;
-    const int num_warp_groups = ceil_div(num_experts, num_device_sms);
+
+    // NOTE MODIFIED
+    // const int num_warp_groups = ceil_div(num_experts, num_device_sms);
+    const int num_warp_groups = 2;
 
     // NOTE temporarily reduce num warps per group to avoid workload imbalance in dispatch_send
     // TODO may increase it later e.g. for dispatch_recv

From bf8c15a79bcd557ecf133463ba91e791d6b47b37 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Thu, 28 Aug 2025 15:31:35 +0800
Subject: [PATCH 163/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 6 ++++++
 1 file changed, 6 insertions(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index b9cad574..66fef1fb 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -97,6 +97,8 @@ __forceinline__ __device__ void dispatch_send(
     const int flatten_num = num_warps * num_sms;
     const int dst_rank = flatten_id % num_ranks;
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
+        if (local_thread_id % 32 == 0) { printf("[T%d] dispatch_send local_expert_idx=%d START \n", thread_id, local_expert_idx); }
+
         const int dst_expert_idx = dst_rank * num_local_experts + local_expert_idx;
 
         // TODO may hide latency if needed
@@ -263,6 +265,8 @@ __forceinline__ __device__ void dispatch_send(
         __syncwarp();
     }
 
+    if (local_thread_id % 32 == 0) { printf("[T%d] dispatch_send END\n", thread_id); }
+
 //     } else if (warp_id == num_warps - 1) {
 //         EP_DEVICE_ASSERT(num_sms > 1);
 //         if (sm_id == 0) {
@@ -358,6 +362,8 @@ __forceinline__ __device__ void dispatch_recv(
     EP_DEVICE_ASSERT(num_warp_groups == 1); // not consider multi warp_group case below
     const auto src_rank = sm_id;
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
+        if (local_thread_id % 32 == 0) { printf("[T%d] dispatch_recv local_expert_idx=%d START\n", thread_id, local_expert_idx); }
+
         if (src_rank < num_ranks) {
             // NOTE modified
             // const auto src_rank = responsible_expert_idx / num_local_experts;

From 614d4528cf8734b28ada1588a78e968825b6b5b6 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Thu, 28 Aug 2025 15:31:58 +0800
Subject: [PATCH 164/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 20 ++++++++++----------
 1 file changed, 10 insertions(+), 10 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 66fef1fb..a21effbc 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -12,7 +12,7 @@ constexpr int kNumMaxWarpGroups = 32;
 
 template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>
 __forceinline__ __device__ void dispatch_send(
-    int local_thread_id, int num_warp_groups,
+    int subroutine_thread_id, int num_warp_groups,
 
     // copied args
     void* packed_recv_x, void* packed_recv_x_scales,
@@ -39,7 +39,7 @@ __forceinline__ __device__ void dispatch_send(
     // NOTE copied from dispatch body
     const auto sm_id = static_cast<int>(blockIdx.x);
     const auto num_sms = static_cast<int>(gridDim.x);
-    const auto warp_id = local_thread_id / 32, lane_id = get_lane_id();
+    const auto warp_id = subroutine_thread_id / 32, lane_id = get_lane_id();
     const auto num_warps = num_warp_groups * num_warps_per_group;
     const auto num_local_experts = num_experts / num_ranks;
     // unused
@@ -97,7 +97,7 @@ __forceinline__ __device__ void dispatch_send(
     const int flatten_num = num_warps * num_sms;
     const int dst_rank = flatten_id % num_ranks;
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
-        if (local_thread_id % 32 == 0) { printf("[T%d] dispatch_send local_expert_idx=%d START \n", thread_id, local_expert_idx); }
+        if (subroutine_thread_id % 32 == 0) { printf("[T%d] dispatch_send local_expert_idx=%d START \n", thread_id, local_expert_idx); }
 
         const int dst_expert_idx = dst_rank * num_local_experts + local_expert_idx;
 
@@ -130,14 +130,14 @@ __forceinline__ __device__ void dispatch_send(
             // NOTE do not use `rdma_x` but use `x`
             // NOTE use lane_id instead of local_thread id
             // NOTE and the new code will write `x_src_idx` *MULTIPLE* times w/ same value, thus wasting but correct
-            // local_thread_id == 0 ? (*rdma_x_src_idx = token_idx) : 0;
+            // subroutine_thread_id == 0 ? (*rdma_x_src_idx = token_idx) : 0;
             lane_id == 0 ? (*x_src_idx = token_idx) : 0;
 
             // NOTE no read or cast in fp4
             // FP8 cast
 //             EP_STATIC_ASSERT(hidden_bf16_int4 % 32 == 0, "Must use the full warp to reduce");
 //             #pragma unroll
-//             for (int i = local_thread_id; i < hidden_bf16_int4; i += num_threads) {
+//             for (int i = subroutine_thread_id; i < hidden_bf16_int4; i += num_threads) {
 //                 // Read
 //                 auto int4_value = __ldg(x_int4 + i);
 //
@@ -226,7 +226,7 @@ __forceinline__ __device__ void dispatch_send(
         const int dst_rank = sm_id;
         // NOTE changed
         // if (responsible_expert_idx < num_experts and sub_warp_id == 0 and lane_id == 0) {
-        if ((dst_rank < num_ranks) and (local_thread_id == 0)) {
+        if ((dst_rank < num_ranks) and (subroutine_thread_id == 0)) {
             // NOTE changed
             // const auto dst_rank = responsible_expert_idx / num_local_experts;
             // const auto dst_expert_local_idx = responsible_expert_idx % num_local_experts;
@@ -265,7 +265,7 @@ __forceinline__ __device__ void dispatch_send(
         __syncwarp();
     }
 
-    if (local_thread_id % 32 == 0) { printf("[T%d] dispatch_send END\n", thread_id); }
+    if (subroutine_thread_id % 32 == 0) { printf("[T%d] dispatch_send END\n", thread_id); }
 
 //     } else if (warp_id == num_warps - 1) {
 //         EP_DEVICE_ASSERT(num_sms > 1);
@@ -303,7 +303,7 @@ __forceinline__ __device__ void dispatch_send(
 
 template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>
 __forceinline__ __device__ void dispatch_recv(
-    int local_thread_id, int num_warp_groups,
+    int subroutine_thread_id, int num_warp_groups,
 
     // copied args
     void* packed_recv_x, void* packed_recv_x_scales,
@@ -329,7 +329,7 @@ __forceinline__ __device__ void dispatch_recv(
     // NOTE copied from dispatch body
     const auto sm_id = static_cast<int>(blockIdx.x);
     // const auto num_sms = static_cast<int>(gridDim.x); // unused
-    const auto warp_id = local_thread_id / 32, lane_id = get_lane_id();
+    const auto warp_id = subroutine_thread_id / 32, lane_id = get_lane_id();
     // const auto num_warps = num_warp_groups * num_warps_per_group; // unused
     const auto num_local_experts = num_experts / num_ranks;
     const auto warp_group_id = warp_id / num_warps_per_group;
@@ -362,7 +362,7 @@ __forceinline__ __device__ void dispatch_recv(
     EP_DEVICE_ASSERT(num_warp_groups == 1); // not consider multi warp_group case below
     const auto src_rank = sm_id;
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
-        if (local_thread_id % 32 == 0) { printf("[T%d] dispatch_recv local_expert_idx=%d START\n", thread_id, local_expert_idx); }
+        if (subroutine_thread_id % 32 == 0) { printf("[T%d] dispatch_recv local_expert_idx=%d START\n", thread_id, local_expert_idx); }
 
         if (src_rank < num_ranks) {
             // NOTE modified

From 81667271e1f3ef88a69abefa7d79aa2a66193c59 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Thu, 28 Aug 2025 15:32:27 +0800
Subject: [PATCH 165/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index a21effbc..e10ea2ef 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -97,7 +97,7 @@ __forceinline__ __device__ void dispatch_send(
     const int flatten_num = num_warps * num_sms;
     const int dst_rank = flatten_id % num_ranks;
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
-        if (subroutine_thread_id % 32 == 0) { printf("[T%d] dispatch_send local_expert_idx=%d START \n", thread_id, local_expert_idx); }
+        if (subroutine_thread_id % 32 == 0) { printf("[T%d] dispatch_send local_expert_idx=%d START \n", subroutine_thread_id, local_expert_idx); }
 
         const int dst_expert_idx = dst_rank * num_local_experts + local_expert_idx;
 
@@ -265,7 +265,7 @@ __forceinline__ __device__ void dispatch_send(
         __syncwarp();
     }
 
-    if (subroutine_thread_id % 32 == 0) { printf("[T%d] dispatch_send END\n", thread_id); }
+    if (subroutine_thread_id % 32 == 0) { printf("[T%d] dispatch_send END\n", subroutine_thread_id); }
 
 //     } else if (warp_id == num_warps - 1) {
 //         EP_DEVICE_ASSERT(num_sms > 1);
@@ -362,7 +362,7 @@ __forceinline__ __device__ void dispatch_recv(
     EP_DEVICE_ASSERT(num_warp_groups == 1); // not consider multi warp_group case below
     const auto src_rank = sm_id;
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
-        if (subroutine_thread_id % 32 == 0) { printf("[T%d] dispatch_recv local_expert_idx=%d START\n", thread_id, local_expert_idx); }
+        if (subroutine_thread_id % 32 == 0) { printf("[T%d] dispatch_recv local_expert_idx=%d START\n", subroutine_thread_id, local_expert_idx); }
 
         if (src_rank < num_ranks) {
             // NOTE modified

From e4740173225329ca12a393df0f797ef128bb7c80 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Thu, 28 Aug 2025 15:34:54 +0800
Subject: [PATCH 166/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 8 +++++---
 1 file changed, 5 insertions(+), 3 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index e10ea2ef..0384383a 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -97,7 +97,7 @@ __forceinline__ __device__ void dispatch_send(
     const int flatten_num = num_warps * num_sms;
     const int dst_rank = flatten_id % num_ranks;
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
-        if (subroutine_thread_id % 32 == 0) { printf("[T%d] dispatch_send local_expert_idx=%d START \n", subroutine_thread_id, local_expert_idx); }
+        if (subroutine_thread_id % 32 == 0) { printf("[S%dT%d] dispatch_send local_expert_idx=%d START \n", sm_id, subroutine_thread_id, local_expert_idx); }
 
         const int dst_expert_idx = dst_rank * num_local_experts + local_expert_idx;
 
@@ -265,7 +265,7 @@ __forceinline__ __device__ void dispatch_send(
         __syncwarp();
     }
 
-    if (subroutine_thread_id % 32 == 0) { printf("[T%d] dispatch_send END\n", subroutine_thread_id); }
+    if (subroutine_thread_id % 32 == 0) { printf("[S%dT%d] dispatch_send END\n", sm_id, subroutine_thread_id); }
 
 //     } else if (warp_id == num_warps - 1) {
 //         EP_DEVICE_ASSERT(num_sms > 1);
@@ -362,7 +362,7 @@ __forceinline__ __device__ void dispatch_recv(
     EP_DEVICE_ASSERT(num_warp_groups == 1); // not consider multi warp_group case below
     const auto src_rank = sm_id;
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
-        if (subroutine_thread_id % 32 == 0) { printf("[T%d] dispatch_recv local_expert_idx=%d START\n", subroutine_thread_id, local_expert_idx); }
+        if (subroutine_thread_id % 32 == 0) { printf("[S%dT%d] dispatch_recv local_expert_idx=%d START \n", sm_id, subroutine_thread_id, local_expert_idx); }
 
         if (src_rank < num_ranks) {
             // NOTE modified
@@ -468,6 +468,8 @@ __forceinline__ __device__ void dispatch_recv(
             atomic_add_release_global(dst_signals + local_expert_idx, 1);
         }
     }
+
+    if (subroutine_thread_id % 32 == 0) { printf("[S%dT%d] dispatch_recv END\n", sm_id, subroutine_thread_id); }
 }
 
 template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>

From db7af147dfd188265f12650aaef07921b513da46 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Thu, 28 Aug 2025 15:37:41 +0800
Subject: [PATCH 167/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 12 ++++++++----
 1 file changed, 8 insertions(+), 4 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 0384383a..401493cc 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -51,6 +51,8 @@ __forceinline__ __device__ void dispatch_send(
     // Expert counts
     // __shared__ int shared_num_tokens_sent_per_expert[kNumMaxWarpGroups];
 
+    if (subroutine_thread_id % 32 == 0) { printf("[S%d,T%d] dispatch_send START\n", sm_id, subroutine_thread_id); }
+    
     if ((sm_id == 0) and (warp_id == 0)) {
         // The first SM is also responsible for cleaning the next buffer
         #pragma unroll
@@ -97,7 +99,7 @@ __forceinline__ __device__ void dispatch_send(
     const int flatten_num = num_warps * num_sms;
     const int dst_rank = flatten_id % num_ranks;
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
-        if (subroutine_thread_id % 32 == 0) { printf("[S%dT%d] dispatch_send local_expert_idx=%d START \n", sm_id, subroutine_thread_id, local_expert_idx); }
+        if (subroutine_thread_id % 32 == 0) { printf("[S%d,T%d] dispatch_send local_expert_idx=%d START \n", sm_id, subroutine_thread_id, local_expert_idx); }
 
         const int dst_expert_idx = dst_rank * num_local_experts + local_expert_idx;
 
@@ -265,7 +267,7 @@ __forceinline__ __device__ void dispatch_send(
         __syncwarp();
     }
 
-    if (subroutine_thread_id % 32 == 0) { printf("[S%dT%d] dispatch_send END\n", sm_id, subroutine_thread_id); }
+    if (subroutine_thread_id % 32 == 0) { printf("[S%d,T%d] dispatch_send END\n", sm_id, subroutine_thread_id); }
 
 //     } else if (warp_id == num_warps - 1) {
 //         EP_DEVICE_ASSERT(num_sms > 1);
@@ -344,6 +346,8 @@ __forceinline__ __device__ void dispatch_recv(
     EP_STATIC_ASSERT(sizeof(packed_t) % sizeof(scale_t) == 0, "Invalid vector length");
     EP_STATIC_ASSERT(!(kUseFP8 && kUseNVFP4), "FP8 and NVFP4 cannot be used together");
 
+    if (subroutine_thread_id % 32 == 0) { printf("[S%d,T%d] dispatch_recv START\n", sm_id, subroutine_thread_id); }
+
 // NOTE packed_recv_count zeroing is removed
 //     // For send-and-recv kernels, we need a grid sync for making `packed_recv_count` visible
 //     if (phases & LOW_LATENCY_SEND_PHASE)
@@ -362,7 +366,7 @@ __forceinline__ __device__ void dispatch_recv(
     EP_DEVICE_ASSERT(num_warp_groups == 1); // not consider multi warp_group case below
     const auto src_rank = sm_id;
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
-        if (subroutine_thread_id % 32 == 0) { printf("[S%dT%d] dispatch_recv local_expert_idx=%d START \n", sm_id, subroutine_thread_id, local_expert_idx); }
+        if (subroutine_thread_id % 32 == 0) { printf("[S%d,T%d] dispatch_recv local_expert_idx=%d START \n", sm_id, subroutine_thread_id, local_expert_idx); }
 
         if (src_rank < num_ranks) {
             // NOTE modified
@@ -469,7 +473,7 @@ __forceinline__ __device__ void dispatch_recv(
         }
     }
 
-    if (subroutine_thread_id % 32 == 0) { printf("[S%dT%d] dispatch_recv END\n", sm_id, subroutine_thread_id); }
+    if (subroutine_thread_id % 32 == 0) { printf("[S%d,T%d] dispatch_recv END\n", sm_id, subroutine_thread_id); }
 }
 
 template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>

From bf13e6a670600ba4b94e9873b74dbd43e5d63ab8 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Thu, 28 Aug 2025 15:43:23 +0800
Subject: [PATCH 168/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 14 +++++++-------
 1 file changed, 7 insertions(+), 7 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 401493cc..25ed7450 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -51,8 +51,8 @@ __forceinline__ __device__ void dispatch_send(
     // Expert counts
     // __shared__ int shared_num_tokens_sent_per_expert[kNumMaxWarpGroups];
 
-    if (subroutine_thread_id % 32 == 0) { printf("[S%d,T%d] dispatch_send START\n", sm_id, subroutine_thread_id); }
-    
+    if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_send START\n", rank, sm_id, subroutine_thread_id); }
+
     if ((sm_id == 0) and (warp_id == 0)) {
         // The first SM is also responsible for cleaning the next buffer
         #pragma unroll
@@ -99,7 +99,7 @@ __forceinline__ __device__ void dispatch_send(
     const int flatten_num = num_warps * num_sms;
     const int dst_rank = flatten_id % num_ranks;
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
-        if (subroutine_thread_id % 32 == 0) { printf("[S%d,T%d] dispatch_send local_expert_idx=%d START \n", sm_id, subroutine_thread_id, local_expert_idx); }
+        if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_send local_expert_idx=%d START \n", rank, sm_id, subroutine_thread_id, local_expert_idx); }
 
         const int dst_expert_idx = dst_rank * num_local_experts + local_expert_idx;
 
@@ -267,7 +267,7 @@ __forceinline__ __device__ void dispatch_send(
         __syncwarp();
     }
 
-    if (subroutine_thread_id % 32 == 0) { printf("[S%d,T%d] dispatch_send END\n", sm_id, subroutine_thread_id); }
+    if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_send END\n", rank, sm_id, subroutine_thread_id); }
 
 //     } else if (warp_id == num_warps - 1) {
 //         EP_DEVICE_ASSERT(num_sms > 1);
@@ -346,7 +346,7 @@ __forceinline__ __device__ void dispatch_recv(
     EP_STATIC_ASSERT(sizeof(packed_t) % sizeof(scale_t) == 0, "Invalid vector length");
     EP_STATIC_ASSERT(!(kUseFP8 && kUseNVFP4), "FP8 and NVFP4 cannot be used together");
 
-    if (subroutine_thread_id % 32 == 0) { printf("[S%d,T%d] dispatch_recv START\n", sm_id, subroutine_thread_id); }
+    if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv START\n", rank, sm_id, subroutine_thread_id); }
 
 // NOTE packed_recv_count zeroing is removed
 //     // For send-and-recv kernels, we need a grid sync for making `packed_recv_count` visible
@@ -366,7 +366,7 @@ __forceinline__ __device__ void dispatch_recv(
     EP_DEVICE_ASSERT(num_warp_groups == 1); // not consider multi warp_group case below
     const auto src_rank = sm_id;
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
-        if (subroutine_thread_id % 32 == 0) { printf("[S%d,T%d] dispatch_recv local_expert_idx=%d START \n", sm_id, subroutine_thread_id, local_expert_idx); }
+        if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv local_expert_idx=%d START \n", rank, sm_id, subroutine_thread_id, local_expert_idx); }
 
         if (src_rank < num_ranks) {
             // NOTE modified
@@ -473,7 +473,7 @@ __forceinline__ __device__ void dispatch_recv(
         }
     }
 
-    if (subroutine_thread_id % 32 == 0) { printf("[S%d,T%d] dispatch_recv END\n", sm_id, subroutine_thread_id); }
+    if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv END\n", rank, sm_id, subroutine_thread_id); }
 }
 
 template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>

From 98a22cdf245e1e2cf5f4247cdddcd64c28e6f92e Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Thu, 28 Aug 2025 15:45:37 +0800
Subject: [PATCH 169/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 25ed7450..68a8d4ce 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -213,7 +213,7 @@ __forceinline__ __device__ void dispatch_send(
         // NOTE mv from do-once to do-per-local-expert
         // TODO what does this do? do we break something, b/c we let multi SM cooperate?
         // (seems it is safe, b/c our next step will check gmem?)
-        __syncthreads();
+        // __syncthreads();
 
         // NOTE mv from do-once to do-per-local-expert
         //

From f521d34bff9c670bbebcc6773f71c731f4b9c94a Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Thu, 28 Aug 2025 15:54:12 +0800
Subject: [PATCH 170/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 68a8d4ce..3cfe9eb2 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -129,11 +129,12 @@ __forceinline__ __device__ void dispatch_send(
             // NOTE the parallel strategy is changed
             // auto dst_expert_idx = warp_id < num_topk ? static_cast<int>(__ldg(topk_idx + token_idx * num_topk + warp_id)) : -1;
 
+            // NOTE (0828) require users to set this value
             // NOTE do not use `rdma_x` but use `x`
             // NOTE use lane_id instead of local_thread id
             // NOTE and the new code will write `x_src_idx` *MULTIPLE* times w/ same value, thus wasting but correct
             // subroutine_thread_id == 0 ? (*rdma_x_src_idx = token_idx) : 0;
-            lane_id == 0 ? (*x_src_idx = token_idx) : 0;
+            // lane_id == 0 ? (*x_src_idx = token_idx) : 0;
 
             // NOTE no read or cast in fp4
             // FP8 cast
@@ -179,7 +180,7 @@ __forceinline__ __device__ void dispatch_send(
             // NOTE this cannot be removed even if we do not do casting
             // b/c we need to write to `rdma_x_src_idx`
             // (but we may optimize it later)
-            asm volatile("bar.sync 1, %0;" :: "r"(num_threads));
+            // asm volatile("bar.sync 1, %0;" :: "r"(num_threads));
 
             // Issue IBGDA sends
             if (dst_expert_idx >= 0) {

From 5a2fa4eb5a585e6873d0e1b5669c42eddf9cb492 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Thu, 28 Aug 2025 16:07:02 +0800
Subject: [PATCH 171/393] fix

---
 csrc/kernels/internode_ll_v2.cuh | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 3cfe9eb2..2614961a 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -98,6 +98,7 @@ __forceinline__ __device__ void dispatch_send(
     const int flatten_id = warp_id * num_sms + sm_id;
     const int flatten_num = num_warps * num_sms;
     const int dst_rank = flatten_id % num_ranks;
+    const int cooperate_idx = flatten_id / num_ranks;
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
         if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_send local_expert_idx=%d START \n", rank, sm_id, subroutine_thread_id, local_expert_idx); }
 
@@ -109,9 +110,9 @@ __forceinline__ __device__ void dispatch_send(
         // NOTE changed, see "before-after" above
         // for (int token_idx = sm_id; token_idx < num_tokens; token_idx += num_sms) {
         for (
-            int pseudo_token_idx = flatten_id;
+            int pseudo_token_idx = cooperate_idx;
             pseudo_token_idx < num_tokens_of_dst_expert;
-            pseudo_token_idx += flatten_num
+            pseudo_token_idx += num_cooperate_parts
         ) {
             // TODO may overlap to optimize
             int token_idx = token_ids_of_expert[dst_expert_idx * token_ids_of_expert_stride_0 + pseudo_token_idx];

From 8d82ae7fbac7588bbea5ece6e0036c9d2ceaffe9 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Thu, 28 Aug 2025 16:08:26 +0800
Subject: [PATCH 172/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 5 ++---
 1 file changed, 2 insertions(+), 3 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 2614961a..fb32299d 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -87,7 +87,7 @@ __forceinline__ __device__ void dispatch_send(
     // NOTE
     // before: one SM = one token, one warp = one dst rank of that token, only use first 8 warps of the SM (?)
     // after: flatten all (warp_id, sm_id),
-    //        then reshape to (num_cooperate_parts, num_ranks) grid,
+    //        then reshape to (num_cooperate_parts, num_ranks) grid and get (cooperate_idx, dst_rank),
     //        then one warp = one pseudo_token_idx (i.e. one dst rank of one token)
     //
     // NOTE: deliberately be (warp_id, sm_id) instead of (sm_id, warp_id)
@@ -97,8 +97,8 @@ __forceinline__ __device__ void dispatch_send(
     EP_DEVICE_ASSERT(num_sms * num_warps == num_cooperate_parts * num_ranks); // even division
     const int flatten_id = warp_id * num_sms + sm_id;
     const int flatten_num = num_warps * num_sms;
-    const int dst_rank = flatten_id % num_ranks;
     const int cooperate_idx = flatten_id / num_ranks;
+    const int dst_rank = flatten_id % num_ranks;
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
         if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_send local_expert_idx=%d START \n", rank, sm_id, subroutine_thread_id, local_expert_idx); }
 
@@ -227,7 +227,6 @@ __forceinline__ __device__ void dispatch_send(
         //
         // Issue count sends
         EP_DEBUG_DEVICE_ASSERT(num_sms >= num_ranks);
-        const int dst_rank = sm_id;
         // NOTE changed
         // if (responsible_expert_idx < num_experts and sub_warp_id == 0 and lane_id == 0) {
         if ((dst_rank < num_ranks) and (subroutine_thread_id == 0)) {

From 159a8d45e9d3762ed60b360cdc513752c9f0f656 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Thu, 28 Aug 2025 16:11:22 +0800
Subject: [PATCH 173/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 12 +++++-------
 1 file changed, 5 insertions(+), 7 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index fb32299d..2dd06acc 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -222,23 +222,21 @@ __forceinline__ __device__ void dispatch_send(
         // NOTE
         // before: one (sm_id, warp_group_id) = one responsible_expert_idx = send counter to that (dst rank, dst local expert)
         //         thus use one thread per warp_group
-        // after: one sm_id = one dst_rank = send counter to that (dsk_rank, const local_expert_idx)
+        // after: reuse the (cooperate_idx, dst_rank) assignment and send counter to that (dsk_rank, const local_expert_idx)
         //         thus use one thread per SM
         //
         // Issue count sends
         EP_DEBUG_DEVICE_ASSERT(num_sms >= num_ranks);
         // NOTE changed
         // if (responsible_expert_idx < num_experts and sub_warp_id == 0 and lane_id == 0) {
-        if ((dst_rank < num_ranks) and (subroutine_thread_id == 0)) {
+        if ((cooperate_idx == 0) and (lane_id == 0)) {
             // NOTE changed
             // const auto dst_rank = responsible_expert_idx / num_local_experts;
             // const auto dst_expert_local_idx = responsible_expert_idx % num_local_experts;
-            const auto dst_expert_local_idx = local_expert_idx;
-            const auto responsible_expert_idx = dst_rank * num_local_experts + dst_expert_local_idx;
-
-            // TODO can hide the gmem read if too slow
             // const auto num_tokens_sent = shared_num_tokens_sent_per_expert[responsible_expert_idx - sm_id * num_warp_groups];
-            const int num_tokens_sent = count_per_expert[responsible_expert_idx];
+            const auto dst_expert_local_idx = local_expert_idx;
+            const auto responsible_expert_idx = dst_expert_idx;
+            const int num_tokens_sent = num_tokens_of_dst_expert;
 
             // Wait local sends issued and send expert counts
             while (

From 6c8772cc0707af188c5ba965cf1008f61626d373 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Thu, 28 Aug 2025 16:13:31 +0800
Subject: [PATCH 174/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 2dd06acc..43f548ad 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -51,7 +51,7 @@ __forceinline__ __device__ void dispatch_send(
     // Expert counts
     // __shared__ int shared_num_tokens_sent_per_expert[kNumMaxWarpGroups];
 
-    if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_send START\n", rank, sm_id, subroutine_thread_id); }
+//     if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_send START\n", rank, sm_id, subroutine_thread_id); }
 
     if ((sm_id == 0) and (warp_id == 0)) {
         // The first SM is also responsible for cleaning the next buffer
@@ -100,7 +100,7 @@ __forceinline__ __device__ void dispatch_send(
     const int cooperate_idx = flatten_id / num_ranks;
     const int dst_rank = flatten_id % num_ranks;
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
-        if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_send local_expert_idx=%d START \n", rank, sm_id, subroutine_thread_id, local_expert_idx); }
+//         if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_send local_expert_idx=%d START \n", rank, sm_id, subroutine_thread_id, local_expert_idx); }
 
         const int dst_expert_idx = dst_rank * num_local_experts + local_expert_idx;
 
@@ -266,7 +266,7 @@ __forceinline__ __device__ void dispatch_send(
         __syncwarp();
     }
 
-    if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_send END\n", rank, sm_id, subroutine_thread_id); }
+//     if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_send END\n", rank, sm_id, subroutine_thread_id); }
 
 //     } else if (warp_id == num_warps - 1) {
 //         EP_DEVICE_ASSERT(num_sms > 1);
@@ -345,7 +345,7 @@ __forceinline__ __device__ void dispatch_recv(
     EP_STATIC_ASSERT(sizeof(packed_t) % sizeof(scale_t) == 0, "Invalid vector length");
     EP_STATIC_ASSERT(!(kUseFP8 && kUseNVFP4), "FP8 and NVFP4 cannot be used together");
 
-    if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv START\n", rank, sm_id, subroutine_thread_id); }
+//     if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv START\n", rank, sm_id, subroutine_thread_id); }
 
 // NOTE packed_recv_count zeroing is removed
 //     // For send-and-recv kernels, we need a grid sync for making `packed_recv_count` visible
@@ -365,7 +365,7 @@ __forceinline__ __device__ void dispatch_recv(
     EP_DEVICE_ASSERT(num_warp_groups == 1); // not consider multi warp_group case below
     const auto src_rank = sm_id;
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
-        if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv local_expert_idx=%d START \n", rank, sm_id, subroutine_thread_id, local_expert_idx); }
+//         if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv local_expert_idx=%d START \n", rank, sm_id, subroutine_thread_id, local_expert_idx); }
 
         if (src_rank < num_ranks) {
             // NOTE modified
@@ -472,7 +472,7 @@ __forceinline__ __device__ void dispatch_recv(
         }
     }
 
-    if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv END\n", rank, sm_id, subroutine_thread_id); }
+//     if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv END\n", rank, sm_id, subroutine_thread_id); }
 }
 
 template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>

From acaf1c13c709a0ed5bccce99dfcecf616629856d Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Thu, 28 Aug 2025 16:16:54 +0800
Subject: [PATCH 175/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 43f548ad..4bda91c9 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -468,7 +468,10 @@ __forceinline__ __device__ void dispatch_recv(
         }
 
         if (dst_signals != nullptr) {
-            atomic_add_release_global(dst_signals + local_expert_idx, 1);
+            __syncwarp();
+            if (lane_id == 0) {
+                atomic_add_release_global(dst_signals + local_expert_idx, 1);
+            }
         }
     }
 

From 31815d7394ee00c33e0338bb4931eebde6fb7263 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Thu, 28 Aug 2025 18:33:25 +0800
Subject: [PATCH 176/393] more

---
 setup.py | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/setup.py b/setup.py
index f01e45e8..c3c975e1 100644
--- a/setup.py
+++ b/setup.py
@@ -80,6 +80,9 @@ def get_nvshmem_host_lib_name(base_dir):
         cxx_flags.append('-DDISABLE_AGGRESSIVE_PTX_INSTRS')
         nvcc_flags.append('-DDISABLE_AGGRESSIVE_PTX_INSTRS')
 
+    if (extra_nvcc_flags := os.environ.get("DEEPEP_EXTRA_NVCC_FLAGS")) is not None:
+        nvcc_flags += extra_nvcc_flags.split(" ")
+
     # Put them together
     extra_compile_args = {
         'cxx': cxx_flags,

From b797e5054a93ad52bb172977c883866c0587159c Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Thu, 28 Aug 2025 20:06:46 +0800
Subject: [PATCH 177/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 88 +++++++++++++++++---------------
 1 file changed, 46 insertions(+), 42 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 4bda91c9..dbfec04f 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -501,49 +501,53 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
     const auto num_send_threads = num_send_warp_groups * num_warps_per_group * 32;
     const auto raw_thread_id = static_cast<int>(threadIdx.x);
     if (raw_thread_id < num_send_threads) {
-        const auto send_thread_id = raw_thread_id;
-        dispatch_send<kUseFP8, kUseUE8M0, kUseNVFP4, kHidden>(
-            send_thread_id, num_send_warp_groups,
-
-            // forward args
-            packed_recv_x, packed_recv_x_scales,
-            packed_recv_src_info, packed_recv_layout_range,
-            packed_recv_count,
-            cumulative_local_expert_recv_stats,
-            dispatch_wait_recv_cost_stats,
-            rdma_recv_x, rdma_recv_count,
-            x, topk_idx,
-            atomic_counter_per_expert, atomic_finish_counter_per_expert,
-            next_clean, num_next_clean_int,
-            num_tokens, num_max_dispatch_tokens_per_rank,
-            num_topk, num_experts, rank, num_ranks,
-            num_warps_per_group,
-            round_scale, phases,
-            dst_signals,
-            count_per_expert, token_ids_of_expert, token_ids_of_expert_stride_0
-        );
+        if (phases & LOW_LATENCY_SEND_PHASE) {
+            const auto send_thread_id = raw_thread_id;
+            dispatch_send<kUseFP8, kUseUE8M0, kUseNVFP4, kHidden>(
+                send_thread_id, num_send_warp_groups,
+
+                // forward args
+                packed_recv_x, packed_recv_x_scales,
+                packed_recv_src_info, packed_recv_layout_range,
+                packed_recv_count,
+                cumulative_local_expert_recv_stats,
+                dispatch_wait_recv_cost_stats,
+                rdma_recv_x, rdma_recv_count,
+                x, topk_idx,
+                atomic_counter_per_expert, atomic_finish_counter_per_expert,
+                next_clean, num_next_clean_int,
+                num_tokens, num_max_dispatch_tokens_per_rank,
+                num_topk, num_experts, rank, num_ranks,
+                num_warps_per_group,
+                round_scale, phases,
+                dst_signals,
+                count_per_expert, token_ids_of_expert, token_ids_of_expert_stride_0
+            );
+        }
     } else {
-        const auto recv_thread_id = raw_thread_id - num_send_threads;
-        dispatch_recv<kUseFP8, kUseUE8M0, kUseNVFP4, kHidden>(
-            recv_thread_id, num_recv_warp_groups,
-
-            // forward args
-            packed_recv_x, packed_recv_x_scales,
-            packed_recv_src_info, packed_recv_layout_range,
-            packed_recv_count,
-            cumulative_local_expert_recv_stats,
-            dispatch_wait_recv_cost_stats,
-            rdma_recv_x, rdma_recv_count,
-            x, topk_idx,
-            atomic_counter_per_expert, atomic_finish_counter_per_expert,
-            next_clean, num_next_clean_int,
-            num_tokens, num_max_dispatch_tokens_per_rank,
-            num_topk, num_experts, rank, num_ranks,
-            num_warps_per_group,
-            round_scale, phases,
-            dst_signals,
-            count_per_expert, token_ids_of_expert, token_ids_of_expert_stride_0
-        );
+        if (phases & LOW_LATENCY_RECV_PHASE) {
+            const auto recv_thread_id = raw_thread_id - num_send_threads;
+            dispatch_recv<kUseFP8, kUseUE8M0, kUseNVFP4, kHidden>(
+                recv_thread_id, num_recv_warp_groups,
+
+                // forward args
+                packed_recv_x, packed_recv_x_scales,
+                packed_recv_src_info, packed_recv_layout_range,
+                packed_recv_count,
+                cumulative_local_expert_recv_stats,
+                dispatch_wait_recv_cost_stats,
+                rdma_recv_x, rdma_recv_count,
+                x, topk_idx,
+                atomic_counter_per_expert, atomic_finish_counter_per_expert,
+                next_clean, num_next_clean_int,
+                num_tokens, num_max_dispatch_tokens_per_rank,
+                num_topk, num_experts, rank, num_ranks,
+                num_warps_per_group,
+                round_scale, phases,
+                dst_signals,
+                count_per_expert, token_ids_of_expert, token_ids_of_expert_stride_0
+            );
+        }
     }
 
 // NOTE removed

From 9e81422caf771e991817e9e60396ef7fb5523e1c Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Thu, 28 Aug 2025 20:10:12 +0800
Subject: [PATCH 178/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index dbfec04f..f84bfeb4 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -79,7 +79,7 @@ __forceinline__ __device__ void dispatch_send(
 
     // NOTE no need "-1" b/c we do not reserve one warp for counting anymore
     // const auto num_threads = (num_warps - 1) * 32;
-    const auto num_threads = num_warps * 32;
+    // const auto num_threads = num_warps * 32; // not used
 
     // unused
     // const size_t hidden_bf16_int4 = kHidden / kNumElemsPerRead;

From aae399f8d0d35eb68d0259313b6182ea49cd71af Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Thu, 28 Aug 2025 20:25:02 +0800
Subject: [PATCH 179/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 11 ++++++-----
 1 file changed, 6 insertions(+), 5 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index f84bfeb4..a676b6dd 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -399,11 +399,12 @@ __forceinline__ __device__ void dispatch_recv(
                 shared_recv_token_begin_idx[warp_group_id] = recv_token_begin_idx;
                 recv_range[src_rank] = pack2<int, int64_t>(num_recv_tokens, recv_token_begin_idx);
 
-                // Add stats for diagnosis
-                if (cumulative_local_expert_recv_stats != nullptr)
-                    atomicAdd(cumulative_local_expert_recv_stats + local_expert_idx, num_recv_tokens);
-                if (dispatch_wait_recv_cost_stats != nullptr)
-                    atomicAdd(reinterpret_cast<unsigned long long*>(dispatch_wait_recv_cost_stats + src_rank), wait_recv_cost);
+                // not handled
+//                 // Add stats for diagnosis
+//                 if (cumulative_local_expert_recv_stats != nullptr)
+//                     atomicAdd(cumulative_local_expert_recv_stats + local_expert_idx, num_recv_tokens);
+//                 if (dispatch_wait_recv_cost_stats != nullptr)
+//                     atomicAdd(reinterpret_cast<unsigned long long*>(dispatch_wait_recv_cost_stats + src_rank), wait_recv_cost);
             }
             asm volatile("bar.sync %0, %1;" :: "r"(warp_group_id + 2), "r"(num_warps_per_group * 32));
             num_recv_tokens = shared_num_recv_tokens[warp_group_id];

From 20865f7c3bbeda75b066bc9db1d754b0843fbcae Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Thu, 28 Aug 2025 20:25:44 +0800
Subject: [PATCH 180/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index a676b6dd..eacc9c49 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -390,9 +390,9 @@ __forceinline__ __device__ void dispatch_recv(
             int num_recv_tokens, recv_token_begin_idx;
             EP_DEVICE_ASSERT(num_warps_per_group > 1 and num_warp_groups < 15);
             if (sub_warp_id == 1 and lane_id == 0) {
-                auto start_time = clock64();
+                // auto start_time = clock64(); // not used
                 while ((num_recv_tokens = ld_acquire_sys_global(rdma_recv_count + local_expert_idx * num_ranks + src_rank)) == 0);
-                auto wait_recv_cost = clock64() - start_time;
+                // auto wait_recv_cost = clock64() - start_time; // not used
                 num_recv_tokens = -num_recv_tokens - 1;
                 recv_token_begin_idx = atomicAdd(packed_recv_count + local_expert_idx, num_recv_tokens);
                 shared_num_recv_tokens[warp_group_id] = num_recv_tokens;

From 81aff45a3ec806ec887d085ae57c8d5642baed99 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 09:40:29 +0800
Subject: [PATCH 181/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 118 +++++++++++++++----------------
 1 file changed, 56 insertions(+), 62 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index eacc9c49..a808c87c 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -31,7 +31,7 @@ __forceinline__ __device__ void dispatch_send(
     int num_warps_per_group,
     bool round_scale, int phases,
     uint32_t* dst_signals,
-    uint32_t* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0
+    uint32_t* count_per_expert, int* token_idx_and_dst_rank_flat_list,
 ) {
     using Consts = DispatchConstsTemplate<kUseFP8, kUseNVFP4, kHidden>;
     EP_DEVICE_ASSERT(Consts::num_bytes_per_msg % sizeof(int4) == 0);
@@ -87,19 +87,18 @@ __forceinline__ __device__ void dispatch_send(
     // NOTE
     // before: one SM = one token, one warp = one dst rank of that token, only use first 8 warps of the SM (?)
     // after: flatten all (warp_id, sm_id),
-    //        then reshape to (num_cooperate_parts, num_ranks) grid and get (cooperate_idx, dst_rank),
     //        then one warp = one pseudo_token_idx (i.e. one dst rank of one token)
     //
     // NOTE: deliberately be (warp_id, sm_id) instead of (sm_id, warp_id)
     //       to allow work be distributed to all SMs when few work
     // TODO is these ordering suboptimal for nvlink write or gmem read?
-    const int num_cooperate_parts = num_sms * num_warps / num_ranks;
-    EP_DEVICE_ASSERT(num_sms * num_warps == num_cooperate_parts * num_ranks); // even division
     const int flatten_id = warp_id * num_sms + sm_id;
     const int flatten_num = num_warps * num_sms;
-    const int cooperate_idx = flatten_id / num_ranks;
-    const int dst_rank = flatten_id % num_ranks;
-    for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
+    for (
+        int pseudo_token_idx = flatten_id;
+        pseudo_token_idx < num_tokens * num_topk;
+        pseudo_token_idx += flatten_num
+    ) {
 //         if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_send local_expert_idx=%d START \n", rank, sm_id, subroutine_thread_id, local_expert_idx); }
 
         const int dst_expert_idx = dst_rank * num_local_experts + local_expert_idx;
@@ -109,36 +108,31 @@ __forceinline__ __device__ void dispatch_send(
 
         // NOTE changed, see "before-after" above
         // for (int token_idx = sm_id; token_idx < num_tokens; token_idx += num_sms) {
-        for (
-            int pseudo_token_idx = cooperate_idx;
-            pseudo_token_idx < num_tokens_of_dst_expert;
-            pseudo_token_idx += num_cooperate_parts
-        ) {
-            // TODO may overlap to optimize
-            int token_idx = token_ids_of_expert[dst_expert_idx * token_ids_of_expert_stride_0 + pseudo_token_idx];
+        // TODO may overlap to optimize
+        int token_idx = token_ids_of_expert[dst_expert_idx * token_ids_of_expert_stride_0 + pseudo_token_idx];
 
-            // const auto x_int4 = static_cast<const int4*>(x) + token_idx * hidden_bf16_int4;
+        // const auto x_int4 = static_cast<const int4*>(x) + token_idx * hidden_bf16_int4;
 
-            // NOTE do not use `rdma_x` but use `x`
-            // const auto rdma_x_src_idx = reinterpret_cast<int*>(static_cast<uint8_t*>(rdma_x) + token_idx * Consts::num_bytes_per_msg);
-            const auto x_src_idx = reinterpret_cast<int*>(reinterpret_cast<uint8_t*>(x) + token_idx * Consts::num_bytes_per_msg);
+        // NOTE do not use `rdma_x` but use `x`
+        // const auto rdma_x_src_idx = reinterpret_cast<int*>(static_cast<uint8_t*>(rdma_x) + token_idx * Consts::num_bytes_per_msg);
+        const auto x_src_idx = reinterpret_cast<int*>(reinterpret_cast<uint8_t*>(x) + token_idx * Consts::num_bytes_per_msg);
 
-            // const auto rdma_x_vec = reinterpret_cast<Consts::vec_t*>(reinterpret_cast<uint8_t*>(rdma_x_src_idx) + sizeof(int4));
-            // const auto rdma_x_scales = reinterpret_cast<Consts::rdma_x_scale_t*>(reinterpret_cast<uint8_t*>(rdma_x_vec) + Consts::hidden_bytes);
+        // const auto rdma_x_vec = reinterpret_cast<Consts::vec_t*>(reinterpret_cast<uint8_t*>(rdma_x_src_idx) + sizeof(int4));
+        // const auto rdma_x_scales = reinterpret_cast<Consts::rdma_x_scale_t*>(reinterpret_cast<uint8_t*>(rdma_x_vec) + Consts::hidden_bytes);
 
-            // Overlap top-k index read and source token index writes
-            // NOTE the parallel strategy is changed
-            // auto dst_expert_idx = warp_id < num_topk ? static_cast<int>(__ldg(topk_idx + token_idx * num_topk + warp_id)) : -1;
+        // Overlap top-k index read and source token index writes
+        // NOTE the parallel strategy is changed
+        // auto dst_expert_idx = warp_id < num_topk ? static_cast<int>(__ldg(topk_idx + token_idx * num_topk + warp_id)) : -1;
 
-            // NOTE (0828) require users to set this value
-            // NOTE do not use `rdma_x` but use `x`
-            // NOTE use lane_id instead of local_thread id
-            // NOTE and the new code will write `x_src_idx` *MULTIPLE* times w/ same value, thus wasting but correct
-            // subroutine_thread_id == 0 ? (*rdma_x_src_idx = token_idx) : 0;
-            // lane_id == 0 ? (*x_src_idx = token_idx) : 0;
+        // NOTE (0828) require users to set this value
+        // NOTE do not use `rdma_x` but use `x`
+        // NOTE use lane_id instead of local_thread id
+        // NOTE and the new code will write `x_src_idx` *MULTIPLE* times w/ same value, thus wasting but correct
+        // subroutine_thread_id == 0 ? (*rdma_x_src_idx = token_idx) : 0;
+        // lane_id == 0 ? (*x_src_idx = token_idx) : 0;
 
-            // NOTE no read or cast in fp4
-            // FP8 cast
+        // NOTE no read or cast in fp4
+        // FP8 cast
 //             EP_STATIC_ASSERT(hidden_bf16_int4 % 32 == 0, "Must use the full warp to reduce");
 //             #pragma unroll
 //             for (int i = subroutine_thread_id; i < hidden_bf16_int4; i += num_threads) {
@@ -178,38 +172,37 @@ __forceinline__ __device__ void dispatch_send(
 //                 }
 //             }
 
-            // NOTE this cannot be removed even if we do not do casting
-            // b/c we need to write to `rdma_x_src_idx`
-            // (but we may optimize it later)
-            // asm volatile("bar.sync 1, %0;" :: "r"(num_threads));
-
-            // Issue IBGDA sends
-            if (dst_expert_idx >= 0) {
-                int slot_idx = lane_id == 0 ? atomicAdd(atomic_counter_per_expert + dst_expert_idx, 1) : 0;
-                slot_idx = __shfl_sync(0xffffffff, slot_idx, 0);
-                const auto dst_rank = dst_expert_idx / num_local_experts;
-                const auto dst_expert_local_idx = dst_expert_idx % num_local_experts;
-                // NOTE do not use `rdma_x` but use `x`
-                // const auto src_ptr = reinterpret_cast<uint64_t>(rdma_x_src_idx);
-                const auto src_ptr = reinterpret_cast<uint64_t>(x_src_idx);
-                const auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_x) +
-                                     dst_expert_local_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
-                                     rank * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
-                                     slot_idx * Consts::num_bytes_per_msg;
-                const auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
-                if (dst_p2p_ptr == 0) {
-                    nvshmemi_ibgda_put_nbi_warp(dst_ptr, src_ptr, Consts::num_bytes_per_msg, dst_rank, dst_expert_local_idx, lane_id, slot_idx);
-                } else {
-                    // NOTES: only 2 load iterations for 7K hidden with 8 unrolls
-                    const auto* src_int4_ptr = reinterpret_cast<const int4*>(src_ptr);
-                    const auto* dst_int4_ptr = reinterpret_cast<int4*>(dst_p2p_ptr);
-                    UNROLLED_WARP_COPY(8, lane_id, Consts::num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
-                }
-
-                // Increase counter after finishing
-                __syncwarp();
-                lane_id == 0 ? atomic_add_release_global(atomic_finish_counter_per_expert + dst_expert_idx, 1) : 0;
+        // NOTE this cannot be removed even if we do not do casting
+        // b/c we need to write to `rdma_x_src_idx`
+        // (but we may optimize it later)
+        // asm volatile("bar.sync 1, %0;" :: "r"(num_threads));
+
+        // Issue IBGDA sends
+        if (dst_expert_idx >= 0) {
+            int slot_idx = lane_id == 0 ? atomicAdd(atomic_counter_per_expert + dst_expert_idx, 1) : 0;
+            slot_idx = __shfl_sync(0xffffffff, slot_idx, 0);
+            const auto dst_rank = dst_expert_idx / num_local_experts;
+            const auto dst_expert_local_idx = dst_expert_idx % num_local_experts;
+            // NOTE do not use `rdma_x` but use `x`
+            // const auto src_ptr = reinterpret_cast<uint64_t>(rdma_x_src_idx);
+            const auto src_ptr = reinterpret_cast<uint64_t>(x_src_idx);
+            const auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_x) +
+                                 dst_expert_local_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
+                                 rank * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
+                                 slot_idx * Consts::num_bytes_per_msg;
+            const auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
+            if (dst_p2p_ptr == 0) {
+                nvshmemi_ibgda_put_nbi_warp(dst_ptr, src_ptr, Consts::num_bytes_per_msg, dst_rank, dst_expert_local_idx, lane_id, slot_idx);
+            } else {
+                // NOTES: only 2 load iterations for 7K hidden with 8 unrolls
+                const auto* src_int4_ptr = reinterpret_cast<const int4*>(src_ptr);
+                const auto* dst_int4_ptr = reinterpret_cast<int4*>(dst_p2p_ptr);
+                UNROLLED_WARP_COPY(8, lane_id, Consts::num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
             }
+
+            // Increase counter after finishing
+            __syncwarp();
+            lane_id == 0 ? atomic_add_release_global(atomic_finish_counter_per_expert + dst_expert_idx, 1) : 0;
         }
 
         // NOTE mv from do-once to do-per-local-expert
@@ -578,6 +571,7 @@ void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
               cudaStream_t stream, int phases,
               bool use_nvfp4, uint32_t* dst_signals,
               uint32_t* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0) {
+    TOOD_args_rm(token_ids_of_expert, token_ids_of_expert_stride_0);
     constexpr int kNumMaxTopK = 9;
 
     // NOTE MODIFIED

From 77be765ded251b30e25eee02650cfc6fc7e9e6a6 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 09:53:31 +0800
Subject: [PATCH 182/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 24 ++++++++++++------------
 1 file changed, 12 insertions(+), 12 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index a808c87c..a725908c 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -31,7 +31,7 @@ __forceinline__ __device__ void dispatch_send(
     int num_warps_per_group,
     bool round_scale, int phases,
     uint32_t* dst_signals,
-    uint32_t* count_per_expert, int* token_idx_and_dst_rank_flat_list,
+    uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
 ) {
     using Consts = DispatchConstsTemplate<kUseFP8, kUseNVFP4, kHidden>;
     EP_DEVICE_ASSERT(Consts::num_bytes_per_msg % sizeof(int4) == 0);
@@ -92,24 +92,24 @@ __forceinline__ __device__ void dispatch_send(
     // NOTE: deliberately be (warp_id, sm_id) instead of (sm_id, warp_id)
     //       to allow work be distributed to all SMs when few work
     // TODO is these ordering suboptimal for nvlink write or gmem read?
-    const int flatten_id = warp_id * num_sms + sm_id;
-    const int flatten_num = num_warps * num_sms;
+    const int flat_worker_id = warp_id * num_sms + sm_id;
+    const int flat_worker_num = num_warps * num_sms;
     for (
-        int pseudo_token_idx = flatten_id;
-        pseudo_token_idx < num_tokens * num_topk;
-        pseudo_token_idx += flatten_num
+        // "tefl" := "token_idx_and_dst_expert_flat_list"
+        int tefl_idx = flat_worker_id
+        tefl_idx < num_tokens * num_topk;
+        tefl_idx += flat_worker_num
     ) {
 //         if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_send local_expert_idx=%d START \n", rank, sm_id, subroutine_thread_id, local_expert_idx); }
 
-        const int dst_expert_idx = dst_rank * num_local_experts + local_expert_idx;
-
-        // TODO may hide latency if needed
-        const int num_tokens_of_dst_expert = count_per_expert[dst_expert_idx];
+        // TODO do prefetching if needed
+        // NOTE ldg is for read-only data cache, if token_idx_and_dst_expert_flat_list is somehow overlapped in the future we should change it
+        const auto token_idx_and_dst_expert = __ldg(token_idx_and_dst_expert_flat_list + tefl_idx);
+        int token_idx, dst_expert_idx;
+        unpack2(token_idx_and_dst_rank, token_idx, dst_expert_idx);
 
         // NOTE changed, see "before-after" above
         // for (int token_idx = sm_id; token_idx < num_tokens; token_idx += num_sms) {
-        // TODO may overlap to optimize
-        int token_idx = token_ids_of_expert[dst_expert_idx * token_ids_of_expert_stride_0 + pseudo_token_idx];
 
         // const auto x_int4 = static_cast<const int4*>(x) + token_idx * hidden_bf16_int4;
 

From 33d4025f17c6c3130ddb6137db3ef2bbf6c58bf9 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 09:58:02 +0800
Subject: [PATCH 183/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index a725908c..cacd3a19 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -188,7 +188,9 @@ __forceinline__ __device__ void dispatch_send(
             const auto src_ptr = reinterpret_cast<uint64_t>(x_src_idx);
             const auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_x) +
                                  dst_expert_local_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
-                                 rank * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
+                                 // NOTE modified
+                                 // rank * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
+                                 TODO * Consts::num_bytes_per_msg +
                                  slot_idx * Consts::num_bytes_per_msg;
             const auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
             if (dst_p2p_ptr == 0) {

From 7005ae8aab9b385044e20e2417c775efb642d760 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 09:59:36 +0800
Subject: [PATCH 184/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 6 +++++-
 1 file changed, 5 insertions(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index cacd3a19..674993f1 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -102,6 +102,10 @@ __forceinline__ __device__ void dispatch_send(
     ) {
 //         if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_send local_expert_idx=%d START \n", rank, sm_id, subroutine_thread_id, local_expert_idx); }
 
+        // TODO can speedup by prefetching, delayed checking, etc
+        int remote_start_offset_of_dst_rank;
+        while ((remote_start_offset_of_dst_rank = TODO(TODO)) == 0);
+
         // TODO do prefetching if needed
         // NOTE ldg is for read-only data cache, if token_idx_and_dst_expert_flat_list is somehow overlapped in the future we should change it
         const auto token_idx_and_dst_expert = __ldg(token_idx_and_dst_expert_flat_list + tefl_idx);
@@ -190,7 +194,7 @@ __forceinline__ __device__ void dispatch_send(
                                  dst_expert_local_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
                                  // NOTE modified
                                  // rank * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
-                                 TODO * Consts::num_bytes_per_msg +
+                                 remote_start_offset_of_dst_rank * Consts::num_bytes_per_msg +
                                  slot_idx * Consts::num_bytes_per_msg;
             const auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
             if (dst_p2p_ptr == 0) {

From 30b29389fc2394b66f781c1246493d59daf05e0c Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 10:01:06 +0800
Subject: [PATCH 185/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 118 ++++++++++++++++---------------
 1 file changed, 62 insertions(+), 56 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 674993f1..6c2681a7 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -23,7 +23,8 @@ __forceinline__ __device__ void dispatch_send(
     void* rdma_recv_x, int* rdma_recv_count,
     // void* rdma_x, // NOTE removed
     void* x, const int64_t* topk_idx, // NOTE rm `const` of x
-    int* atomic_counter_per_expert, int* atomic_finish_counter_per_expert,
+    int* atomic_counter_per_expert,
+    // int* atomic_finish_counter_per_expert, // NOTE removed
     int* next_clean, int num_next_clean_int,
     int num_tokens, int num_max_dispatch_tokens_per_rank,
     int num_topk, int num_experts, int rank, int num_ranks,
@@ -59,11 +60,14 @@ __forceinline__ __device__ void dispatch_send(
         for (int i = lane_id; i < num_next_clean_int; i += 32)
             next_clean[i] = 0;
 
-        // Notify before executing `int_p`
-        __syncwarp();
-        #pragma unroll
-        for (int i = lane_id; i < num_experts; i += 32)
-            atomic_add_release_global(atomic_finish_counter_per_expert + i, FINISHED_SUM_TAG);
+        TODO_await_next_clean;
+
+        // not needed in per-token signal approach
+//         // Notify before executing `int_p`
+//         __syncwarp();
+//         #pragma unroll
+//         for (int i = lane_id; i < num_experts; i += 32)
+//             atomic_add_release_global(atomic_finish_counter_per_expert + i, FINISHED_SUM_TAG);
     }
 
     // There are 2 kinds of warps in this part:
@@ -206,9 +210,10 @@ __forceinline__ __device__ void dispatch_send(
                 UNROLLED_WARP_COPY(8, lane_id, Consts::num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
             }
 
-            // Increase counter after finishing
-            __syncwarp();
-            lane_id == 0 ? atomic_add_release_global(atomic_finish_counter_per_expert + dst_expert_idx, 1) : 0;
+            // not needed in per-token signal approach
+//             // Increase counter after finishing
+//             __syncwarp();
+//             lane_id == 0 ? atomic_add_release_global(atomic_finish_counter_per_expert + dst_expert_idx, 1) : 0;
         }
 
         // NOTE mv from do-once to do-per-local-expert
@@ -216,53 +221,54 @@ __forceinline__ __device__ void dispatch_send(
         // (seems it is safe, b/c our next step will check gmem?)
         // __syncthreads();
 
-        // NOTE mv from do-once to do-per-local-expert
-        //
-        // NOTE
-        // before: one (sm_id, warp_group_id) = one responsible_expert_idx = send counter to that (dst rank, dst local expert)
-        //         thus use one thread per warp_group
-        // after: reuse the (cooperate_idx, dst_rank) assignment and send counter to that (dsk_rank, const local_expert_idx)
-        //         thus use one thread per SM
-        //
-        // Issue count sends
-        EP_DEBUG_DEVICE_ASSERT(num_sms >= num_ranks);
-        // NOTE changed
-        // if (responsible_expert_idx < num_experts and sub_warp_id == 0 and lane_id == 0) {
-        if ((cooperate_idx == 0) and (lane_id == 0)) {
-            // NOTE changed
-            // const auto dst_rank = responsible_expert_idx / num_local_experts;
-            // const auto dst_expert_local_idx = responsible_expert_idx % num_local_experts;
-            // const auto num_tokens_sent = shared_num_tokens_sent_per_expert[responsible_expert_idx - sm_id * num_warp_groups];
-            const auto dst_expert_local_idx = local_expert_idx;
-            const auto responsible_expert_idx = dst_expert_idx;
-            const int num_tokens_sent = num_tokens_of_dst_expert;
-
-            // Wait local sends issued and send expert counts
-            while (
-                ld_acquire_global(atomic_finish_counter_per_expert + responsible_expert_idx) !=
-                // NOTE changed
-                // FINISHED_SUM_TAG * 2
-                FINISHED_SUM_TAG + num_tokens_sent
-            );
-            auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_count + dst_expert_local_idx * num_ranks + rank);
-            auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
-            if (dst_p2p_ptr == 0) {
-                nvshmemi_ibgda_amo_nonfetch_add(reinterpret_cast<int*>(dst_ptr), -num_tokens_sent - 1, dst_rank, dst_expert_local_idx);
-            } else {
-                st_release_sys_global(reinterpret_cast<int*>(dst_p2p_ptr), -num_tokens_sent - 1);
-            }
-
-            // Clean workspace for next use
-            atomic_counter_per_expert[responsible_expert_idx] = 0;
-            atomic_finish_counter_per_expert[responsible_expert_idx] = 0;
-
-            // NOTE packed_recv_count zeroing is removed
-            // // Clean `packed_recv_count`
-            // if (dst_rank == 0)
-            //     packed_recv_count[dst_expert_local_idx] = 0;
-        }
-        // TODO what does this do?
-        __syncwarp();
+        // not needed in per-token signal approach
+//         // NOTE mv from do-once to do-per-local-expert
+//         //
+//         // NOTE
+//         // before: one (sm_id, warp_group_id) = one responsible_expert_idx = send counter to that (dst rank, dst local expert)
+//         //         thus use one thread per warp_group
+//         // after: reuse the (cooperate_idx, dst_rank) assignment and send counter to that (dsk_rank, const local_expert_idx)
+//         //         thus use one thread per SM
+//         //
+//         // Issue count sends
+//         EP_DEBUG_DEVICE_ASSERT(num_sms >= num_ranks);
+//         // NOTE changed
+//         // if (responsible_expert_idx < num_experts and sub_warp_id == 0 and lane_id == 0) {
+//         if ((cooperate_idx == 0) and (lane_id == 0)) {
+//             // NOTE changed
+//             // const auto dst_rank = responsible_expert_idx / num_local_experts;
+//             // const auto dst_expert_local_idx = responsible_expert_idx % num_local_experts;
+//             // const auto num_tokens_sent = shared_num_tokens_sent_per_expert[responsible_expert_idx - sm_id * num_warp_groups];
+//             const auto dst_expert_local_idx = local_expert_idx;
+//             const auto responsible_expert_idx = dst_expert_idx;
+//             const int num_tokens_sent = num_tokens_of_dst_expert;
+//
+//             // Wait local sends issued and send expert counts
+//             while (
+//                 ld_acquire_global(atomic_finish_counter_per_expert + responsible_expert_idx) !=
+//                 // NOTE changed
+//                 // FINISHED_SUM_TAG * 2
+//                 FINISHED_SUM_TAG + num_tokens_sent
+//             );
+//             auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_count + dst_expert_local_idx * num_ranks + rank);
+//             auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
+//             if (dst_p2p_ptr == 0) {
+//                 nvshmemi_ibgda_amo_nonfetch_add(reinterpret_cast<int*>(dst_ptr), -num_tokens_sent - 1, dst_rank, dst_expert_local_idx);
+//             } else {
+//                 st_release_sys_global(reinterpret_cast<int*>(dst_p2p_ptr), -num_tokens_sent - 1);
+//             }
+//
+//             // Clean workspace for next use
+//             atomic_counter_per_expert[responsible_expert_idx] = 0;
+//             atomic_finish_counter_per_expert[responsible_expert_idx] = 0;
+//
+//             // NOTE packed_recv_count zeroing is removed
+//             // // Clean `packed_recv_count`
+//             // if (dst_rank == 0)
+//             //     packed_recv_count[dst_expert_local_idx] = 0;
+//         }
+//         // TODO what does this do?
+//         __syncwarp();
     }
 
 //     if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_send END\n", rank, sm_id, subroutine_thread_id); }

From d6fbbcb7fc856db6aadcaa9210660580e0c0e915 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 10:02:18 +0800
Subject: [PATCH 186/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 6c2681a7..07f8d0a6 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -202,7 +202,9 @@ __forceinline__ __device__ void dispatch_send(
                                  slot_idx * Consts::num_bytes_per_msg;
             const auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
             if (dst_p2p_ptr == 0) {
-                nvshmemi_ibgda_put_nbi_warp(dst_ptr, src_ptr, Consts::num_bytes_per_msg, dst_rank, dst_expert_local_idx, lane_id, slot_idx);
+                // NOTE remove to simplify code
+                EP_DEVICE_ASSERT(false);
+                // nvshmemi_ibgda_put_nbi_warp(dst_ptr, src_ptr, Consts::num_bytes_per_msg, dst_rank, dst_expert_local_idx, lane_id, slot_idx);
             } else {
                 // NOTES: only 2 load iterations for 7K hidden with 8 unrolls
                 const auto* src_int4_ptr = reinterpret_cast<const int4*>(src_ptr);

From 74aec6c1707ba2d1828a2cd3c3630c63bd23af32 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 10:10:13 +0800
Subject: [PATCH 187/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 07f8d0a6..f102c6c3 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -211,6 +211,8 @@ __forceinline__ __device__ void dispatch_send(
                 const auto* dst_int4_ptr = reinterpret_cast<int4*>(dst_p2p_ptr);
                 UNROLLED_WARP_COPY(8, lane_id, Consts::num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
             }
+            
+            TODO_send_signal;
 
             // not needed in per-token signal approach
 //             // Increase counter after finishing

From 4e42c825d2b6bc7685a0d1f60579882d924aadfb Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 10:17:34 +0800
Subject: [PATCH 188/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index f102c6c3..5fb9ff2d 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -211,7 +211,7 @@ __forceinline__ __device__ void dispatch_send(
                 const auto* dst_int4_ptr = reinterpret_cast<int4*>(dst_p2p_ptr);
                 UNROLLED_WARP_COPY(8, lane_id, Consts::num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
             }
-            
+
             TODO_send_signal;
 
             // not needed in per-token signal approach

From 0d1488a1a070d4639654f7095ce02e75f6e77130 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 10:19:07 +0800
Subject: [PATCH 189/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 5fb9ff2d..51b25f34 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -60,8 +60,7 @@ __forceinline__ __device__ void dispatch_send(
         for (int i = lane_id; i < num_next_clean_int; i += 32)
             next_clean[i] = 0;
 
-        TODO_await_next_clean;
-
+        // TODO do we really need this? since `next_clean` will be used only in the next round of kernels
         // not needed in per-token signal approach
 //         // Notify before executing `int_p`
 //         __syncwarp();

From 85234e344337d7c8ab6f68ddff8d3b1c1ea7ab3e Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 10:20:44 +0800
Subject: [PATCH 190/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 11 ++++++++++-
 1 file changed, 10 insertions(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 51b25f34..aa462fe1 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -208,7 +208,16 @@ __forceinline__ __device__ void dispatch_send(
                 // NOTES: only 2 load iterations for 7K hidden with 8 unrolls
                 const auto* src_int4_ptr = reinterpret_cast<const int4*>(src_ptr);
                 const auto* dst_int4_ptr = reinterpret_cast<int4*>(dst_p2p_ptr);
-                UNROLLED_WARP_COPY(8, lane_id, Consts::num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
+
+                // NOTE do *not* send the first int4, which is the signal
+                // UNROLLED_WARP_COPY(8, lane_id, Consts::num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
+                UNROLLED_WARP_COPY(
+                    8, lane_id,
+                    Consts::num_int4_per_msg - sizeof(int4),
+                    dst_int4_ptr + 1,
+                    src_int4_ptr + 1,
+                    ld_nc_global, st_na_global
+                );
             }
 
             TODO_send_signal;

From 946d95437a0bda7c3f09b186e47b5c4697f6e364 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 10:22:31 +0800
Subject: [PATCH 191/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 8 +++++---
 1 file changed, 5 insertions(+), 3 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index aa462fe1..cba688ff 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -201,7 +201,7 @@ __forceinline__ __device__ void dispatch_send(
                                  slot_idx * Consts::num_bytes_per_msg;
             const auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
             if (dst_p2p_ptr == 0) {
-                // NOTE remove to simplify code
+                // NOTE remove to simplify code (and it does not handle signals etc)
                 EP_DEVICE_ASSERT(false);
                 // nvshmemi_ibgda_put_nbi_warp(dst_ptr, src_ptr, Consts::num_bytes_per_msg, dst_rank, dst_expert_local_idx, lane_id, slot_idx);
             } else {
@@ -218,9 +218,11 @@ __forceinline__ __device__ void dispatch_send(
                     src_int4_ptr + 1,
                     ld_nc_global, st_na_global
                 );
-            }
 
-            TODO_send_signal;
+                // Send per-token signal
+                // NOTE only first 4B of 16B has value, the other 12B is not needed
+                st_release_sys_global(reinterpret_cast<int*>(dst_p2p_ptr), -TODO - 1);
+            }
 
             // not needed in per-token signal approach
 //             // Increase counter after finishing

From 5b0fc04a34236a76424582db0652655e946b4a85 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 10:23:00 +0800
Subject: [PATCH 192/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index cba688ff..c664dce8 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -209,7 +209,7 @@ __forceinline__ __device__ void dispatch_send(
                 const auto* src_int4_ptr = reinterpret_cast<const int4*>(src_ptr);
                 const auto* dst_int4_ptr = reinterpret_cast<int4*>(dst_p2p_ptr);
 
-                // NOTE do *not* send the first int4, which is the signal
+                // NOTE do *not* send the first int4, which is handled via the signal
                 // UNROLLED_WARP_COPY(8, lane_id, Consts::num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
                 UNROLLED_WARP_COPY(
                     8, lane_id,

From 9a9efe9f16ab1f28a2a54dc951319a4113cdafb9 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 10:23:50 +0800
Subject: [PATCH 193/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index c664dce8..6e4dd482 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -221,7 +221,10 @@ __forceinline__ __device__ void dispatch_send(
 
                 // Send per-token signal
                 // NOTE only first 4B of 16B has value, the other 12B is not needed
-                st_release_sys_global(reinterpret_cast<int*>(dst_p2p_ptr), -TODO - 1);
+                __syncwarp();
+                if (lane_id == 0) {
+                    st_release_sys_global(reinterpret_cast<int*>(dst_p2p_ptr), -TODO - 1);
+                }
             }
 
             // not needed in per-token signal approach

From dbe13bffb27395dadec965a0db1221adb1ddd4af Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 10:24:29 +0800
Subject: [PATCH 194/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 6e4dd482..17c1811b 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -223,7 +223,7 @@ __forceinline__ __device__ void dispatch_send(
                 // NOTE only first 4B of 16B has value, the other 12B is not needed
                 __syncwarp();
                 if (lane_id == 0) {
-                    st_release_sys_global(reinterpret_cast<int*>(dst_p2p_ptr), -TODO - 1);
+                    st_release_sys_global(reinterpret_cast<int*>(dst_p2p_ptr), -token_idx - 1);
                 }
             }
 

From edd3e94a5cab381f6ec6245e3fdf6d5ce26799f5 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 10:25:42 +0800
Subject: [PATCH 195/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 1 +
 1 file changed, 1 insertion(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 17c1811b..8626531a 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -95,6 +95,7 @@ __forceinline__ __device__ void dispatch_send(
     // NOTE: deliberately be (warp_id, sm_id) instead of (sm_id, warp_id)
     //       to allow work be distributed to all SMs when few work
     // TODO is these ordering suboptimal for nvlink write or gmem read?
+    // TODO may use multi warp to send one token
     const int flat_worker_id = warp_id * num_sms + sm_id;
     const int flat_worker_num = num_warps * num_sms;
     for (

From c85d29e69c0e3fb6f7a7a5ce9e4dcd01348106e9 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 10:27:50 +0800
Subject: [PATCH 196/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 9 +++++++++
 1 file changed, 9 insertions(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 8626531a..f990b7b9 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -69,6 +69,15 @@ __forceinline__ __device__ void dispatch_send(
 //             atomic_add_release_global(atomic_finish_counter_per_expert + i, FINISHED_SUM_TAG);
     }
 
+    // Reserve remote locations
+    {
+        EP_DEVICE_ASSERT(num_ranks <= num_sms);
+        EP_DEVICE_ASSERT(num_warps * 32 <= num_local_experts);
+        const int dst_rank = sm_id;
+        const int dst_expert_local_idx = subroutine_thread_id;
+        
+    }
+
     // There are 2 kinds of warps in this part:
     // 1. The first-kind warps for FP8 cast and sending top-k tokens
     // 2. The last warp for reading `topk_idx` and count for per-expert information

From 4fec0000fb6594ad99bf83820aa11ac8642421da Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 10:30:21 +0800
Subject: [PATCH 197/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index f990b7b9..80c89e73 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -75,7 +75,9 @@ __forceinline__ __device__ void dispatch_send(
         EP_DEVICE_ASSERT(num_warps * 32 <= num_local_experts);
         const int dst_rank = sm_id;
         const int dst_expert_local_idx = subroutine_thread_id;
-        
+
+        // TODO maybe do not need `release` (but yes need `sys`)
+        atomic_add_release_sys_global(TODO, TODO);
     }
 
     // There are 2 kinds of warps in this part:

From c7e3bec436ee8b351e3d70abc2cf47726a76090a Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 10:32:44 +0800
Subject: [PATCH 198/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 7 ++++++-
 1 file changed, 6 insertions(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 80c89e73..baf7aadd 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -75,9 +75,14 @@ __forceinline__ __device__ void dispatch_send(
         EP_DEVICE_ASSERT(num_warps * 32 <= num_local_experts);
         const int dst_rank = sm_id;
         const int dst_expert_local_idx = subroutine_thread_id;
+        const auto global_expert_idx = dst_rank * num_local_experts + dst_expert_local_idx;
+
+        const int num_tokens_to_send = count_per_expert[global_expert_idx];
 
         // TODO maybe do not need `release` (but yes need `sys`)
-        atomic_add_release_sys_global(TODO, TODO);
+        const int remote_start_offset_of_dst_rank = atomic_add_release_sys_global(TODO + dst_expert_local_idx, num_tokens_to_send);
+
+        TODO_store_to_self_gpu_gmem;
     }
 
     // There are 2 kinds of warps in this part:

From 52fa6b4d64a79610bf7a4724dbfd5cea6fb023dc Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 10:33:18 +0800
Subject: [PATCH 199/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 13 ++++++++-----
 1 file changed, 8 insertions(+), 5 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index baf7aadd..08ef45e4 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -75,14 +75,17 @@ __forceinline__ __device__ void dispatch_send(
         EP_DEVICE_ASSERT(num_warps * 32 <= num_local_experts);
         const int dst_rank = sm_id;
         const int dst_expert_local_idx = subroutine_thread_id;
-        const auto global_expert_idx = dst_rank * num_local_experts + dst_expert_local_idx;
 
-        const int num_tokens_to_send = count_per_expert[global_expert_idx];
+        if ((dst_rank < num_ranks) and (dst_expert_local_idx < num_local_experts)) {
+            const auto global_expert_idx = dst_rank * num_local_experts + dst_expert_local_idx;
 
-        // TODO maybe do not need `release` (but yes need `sys`)
-        const int remote_start_offset_of_dst_rank = atomic_add_release_sys_global(TODO + dst_expert_local_idx, num_tokens_to_send);
+            const int num_tokens_to_send = count_per_expert[global_expert_idx];
 
-        TODO_store_to_self_gpu_gmem;
+            // TODO maybe do not need `release` (but yes need `sys`)
+            const int remote_start_offset_of_dst_rank = atomic_add_release_sys_global(TODO + dst_expert_local_idx, num_tokens_to_send);
+
+            TODO_store_to_self_gpu_gmem;
+        }
     }
 
     // There are 2 kinds of warps in this part:

From 4afcd146eae3307c8b74623efa2cfaaa2e3b0008 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 10:34:10 +0800
Subject: [PATCH 200/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 08ef45e4..f481e3a5 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -84,6 +84,8 @@ __forceinline__ __device__ void dispatch_send(
             // TODO maybe do not need `release` (but yes need `sys`)
             const int remote_start_offset_of_dst_rank = atomic_add_release_sys_global(TODO + dst_expert_local_idx, num_tokens_to_send);
 
+            TODO_store_to_remote_gpu_gmem;
+
             TODO_store_to_self_gpu_gmem;
         }
     }

From 4d65f425d2cf29c1f92906ab204bfbac800c7d18 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 10:35:31 +0800
Subject: [PATCH 201/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index f481e3a5..1c8eb08e 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -82,7 +82,9 @@ __forceinline__ __device__ void dispatch_send(
             const int num_tokens_to_send = count_per_expert[global_expert_idx];
 
             // TODO maybe do not need `release` (but yes need `sys`)
-            const int remote_start_offset_of_dst_rank = atomic_add_release_sys_global(TODO + dst_expert_local_idx, num_tokens_to_send);
+            const auto dst_ptr = TODO;
+            const auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
+            const int remote_start_offset_of_dst_rank = atomic_add_release_sys_global(dst_p2p_ptr + dst_expert_local_idx, num_tokens_to_send);
 
             TODO_store_to_remote_gpu_gmem;
 

From d07bdedd35bb75dba293c63bd2db1bb229704a70 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 10:39:27 +0800
Subject: [PATCH 202/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 1c8eb08e..b56e7b1f 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -69,6 +69,9 @@ __forceinline__ __device__ void dispatch_send(
 //             atomic_add_release_global(atomic_finish_counter_per_expert + i, FINISHED_SUM_TAG);
     }
 
+    // (num_local_experts,), all gpus atomic-add on it to get a slice of locations to send data to
+    const int* negotiate_offset_of_expert_buffer = TODO;
+
     // Reserve remote locations
     {
         EP_DEVICE_ASSERT(num_ranks <= num_sms);

From 3592fcc8a1f3d6ceb8f25d506fea97f6ab9a7125 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 10:39:54 +0800
Subject: [PATCH 203/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index b56e7b1f..6a15d6c1 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -85,7 +85,7 @@ __forceinline__ __device__ void dispatch_send(
             const int num_tokens_to_send = count_per_expert[global_expert_idx];
 
             // TODO maybe do not need `release` (but yes need `sys`)
-            const auto dst_ptr = TODO;
+            const auto dst_ptr = negotiate_offset_of_expert_buffer;
             const auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
             const int remote_start_offset_of_dst_rank = atomic_add_release_sys_global(dst_p2p_ptr + dst_expert_local_idx, num_tokens_to_send);
 

From 7fd37183f4d90c5270a1f6acf042ca754efdafbe Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 10:43:07 +0800
Subject: [PATCH 204/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 19 ++++++++++++-------
 1 file changed, 12 insertions(+), 7 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 6a15d6c1..f08bbac5 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -72,6 +72,9 @@ __forceinline__ __device__ void dispatch_send(
     // (num_local_experts,), all gpus atomic-add on it to get a slice of locations to send data to
     const int* negotiate_offset_of_expert_buffer = TODO;
 
+    // (num_global_experts,), for i-th dst rank, what is the start offset in the remote buffer
+    const int* remote_start_offset_of_dst_rank_buffer = TODO;
+
     // Reserve remote locations
     {
         EP_DEVICE_ASSERT(num_ranks <= num_sms);
@@ -80,9 +83,9 @@ __forceinline__ __device__ void dispatch_send(
         const int dst_expert_local_idx = subroutine_thread_id;
 
         if ((dst_rank < num_ranks) and (dst_expert_local_idx < num_local_experts)) {
-            const auto global_expert_idx = dst_rank * num_local_experts + dst_expert_local_idx;
+            const auto dst_global_expert_idx = dst_rank * num_local_experts + dst_expert_local_idx;
 
-            const int num_tokens_to_send = count_per_expert[global_expert_idx];
+            const int num_tokens_to_send = count_per_expert[dst_global_expert_idx];
 
             // TODO maybe do not need `release` (but yes need `sys`)
             const auto dst_ptr = negotiate_offset_of_expert_buffer;
@@ -91,7 +94,7 @@ __forceinline__ __device__ void dispatch_send(
 
             TODO_store_to_remote_gpu_gmem;
 
-            TODO_store_to_self_gpu_gmem;
+            remote_start_offset_of_dst_rank_buffer[dst_global_expert_idx] = remote_start_offset_of_dst_rank;
         }
     }
 
@@ -132,15 +135,17 @@ __forceinline__ __device__ void dispatch_send(
     ) {
 //         if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_send local_expert_idx=%d START \n", rank, sm_id, subroutine_thread_id, local_expert_idx); }
 
-        // TODO can speedup by prefetching, delayed checking, etc
-        int remote_start_offset_of_dst_rank;
-        while ((remote_start_offset_of_dst_rank = TODO(TODO)) == 0);
-
         // TODO do prefetching if needed
         // NOTE ldg is for read-only data cache, if token_idx_and_dst_expert_flat_list is somehow overlapped in the future we should change it
         const auto token_idx_and_dst_expert = __ldg(token_idx_and_dst_expert_flat_list + tefl_idx);
         int token_idx, dst_expert_idx;
         unpack2(token_idx_and_dst_rank, token_idx, dst_expert_idx);
+        const auto dst_rank = dst_expert_idx / num_local_experts;
+
+        // TODO can speedup by prefetching, delayed checking, etc
+        // TODO is this load strong enough?
+        int remote_start_offset_of_dst_rank;
+        while ((remote_start_offset_of_dst_rank = ld_volatile_global(remote_start_offset_of_dst_rank_buffer + dst_rank)) == 0);
 
         // NOTE changed, see "before-after" above
         // for (int token_idx = sm_id; token_idx < num_tokens; token_idx += num_sms) {

From 2a5ca59e02c2bd1498f9ec171772735afed8fd14 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 10:43:46 +0800
Subject: [PATCH 205/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 1 +
 1 file changed, 1 insertion(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index f08bbac5..cccb3ae6 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -142,6 +142,7 @@ __forceinline__ __device__ void dispatch_send(
         unpack2(token_idx_and_dst_rank, token_idx, dst_expert_idx);
         const auto dst_rank = dst_expert_idx / num_local_experts;
 
+        TODO_this_read_is_inefficient;
         // TODO can speedup by prefetching, delayed checking, etc
         // TODO is this load strong enough?
         int remote_start_offset_of_dst_rank;

From 8632fe575ad4daccc09630e3e8500ccc63a8f9ce Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 10:44:12 +0800
Subject: [PATCH 206/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 1 -
 1 file changed, 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index cccb3ae6..f08bbac5 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -142,7 +142,6 @@ __forceinline__ __device__ void dispatch_send(
         unpack2(token_idx_and_dst_rank, token_idx, dst_expert_idx);
         const auto dst_rank = dst_expert_idx / num_local_experts;
 
-        TODO_this_read_is_inefficient;
         // TODO can speedup by prefetching, delayed checking, etc
         // TODO is this load strong enough?
         int remote_start_offset_of_dst_rank;

From 123e7ec189c68112488fdab9e403263aaf5afc09 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 10:45:10 +0800
Subject: [PATCH 207/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index f08bbac5..590443c5 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -69,10 +69,10 @@ __forceinline__ __device__ void dispatch_send(
 //             atomic_add_release_global(atomic_finish_counter_per_expert + i, FINISHED_SUM_TAG);
     }
 
-    // (num_local_experts,), all gpus atomic-add on it to get a slice of locations to send data to
+    // (num_local_experts,). use by REMOTE gpus. all gpus atomic-add on it to get a slice of locations to send data to
     const int* negotiate_offset_of_expert_buffer = TODO;
 
-    // (num_global_experts,), for i-th dst rank, what is the start offset in the remote buffer
+    // (num_global_experts,). used in curr gpu. for i-th dst rank, what is the start offset in the remote buffer
     const int* remote_start_offset_of_dst_rank_buffer = TODO;
 
     // Reserve remote locations

From f71758c70e6770150641f40f42d566fd0b3034e4 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 10:45:38 +0800
Subject: [PATCH 208/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 590443c5..00dc9bec 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -94,7 +94,7 @@ __forceinline__ __device__ void dispatch_send(
 
             TODO_store_to_remote_gpu_gmem;
 
-            remote_start_offset_of_dst_rank_buffer[dst_global_expert_idx] = remote_start_offset_of_dst_rank;
+            remote_start_offset_of_dst_rank_buffer[dst_global_expert_idx] = -remote_start_offset_of_dst_rank-1;
         }
     }
 
@@ -146,6 +146,7 @@ __forceinline__ __device__ void dispatch_send(
         // TODO is this load strong enough?
         int remote_start_offset_of_dst_rank;
         while ((remote_start_offset_of_dst_rank = ld_volatile_global(remote_start_offset_of_dst_rank_buffer + dst_rank)) == 0);
+        remote_start_offset_of_dst_rank = -remote_start_offset_of_dst_rank - 1;
 
         // NOTE changed, see "before-after" above
         // for (int token_idx = sm_id; token_idx < num_tokens; token_idx += num_sms) {

From 36ed956dbbc62dda4b54951b02fb03926518538f Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 10:46:02 +0800
Subject: [PATCH 209/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 1 +
 1 file changed, 1 insertion(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 00dc9bec..d17c082a 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -73,6 +73,7 @@ __forceinline__ __device__ void dispatch_send(
     const int* negotiate_offset_of_expert_buffer = TODO;
 
     // (num_global_experts,). used in curr gpu. for i-th dst rank, what is the start offset in the remote buffer
+    TODO_need_zeroing;
     const int* remote_start_offset_of_dst_rank_buffer = TODO;
 
     // Reserve remote locations

From a49eac397e35ac8b8ad7b4bc770d0a0cfd7180f2 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 10:48:37 +0800
Subject: [PATCH 210/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 7 ++++++-
 1 file changed, 6 insertions(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index d17c082a..2b3b2c2a 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -72,7 +72,12 @@ __forceinline__ __device__ void dispatch_send(
     // (num_local_experts,). use by REMOTE gpus. all gpus atomic-add on it to get a slice of locations to send data to
     const int* negotiate_offset_of_expert_buffer = TODO;
 
-    // (num_global_experts,). used in curr gpu. for i-th dst rank, what is the start offset in the remote buffer
+    // (num_local_experts, num_ranks). written by REMOTE gpus, read by curr gpu.
+    // the (start_offset, num_tokens) layout information of that src
+    // similar to `packed_recv_layout_range`, but written remotely
+    const int64_t* layout_range_buffer = TODO;
+
+    // (num_experts,). used in curr gpu. for i-th dst rank, what is the start offset in the remote buffer
     TODO_need_zeroing;
     const int* remote_start_offset_of_dst_rank_buffer = TODO;
 

From 700c772a412ac4334da003ec3e27d3a30a8c2604 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 10:49:27 +0800
Subject: [PATCH 211/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 1 +
 1 file changed, 1 insertion(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 2b3b2c2a..872855e1 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -100,6 +100,7 @@ __forceinline__ __device__ void dispatch_send(
 
             TODO_store_to_remote_gpu_gmem;
 
+            // TODO is this strong enough
             remote_start_offset_of_dst_rank_buffer[dst_global_expert_idx] = -remote_start_offset_of_dst_rank-1;
         }
     }

From 8d4bfb58d068404472d9fd87ef4cb1b967b5a190 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 10:54:20 +0800
Subject: [PATCH 212/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 18 +++++++++++++-----
 1 file changed, 13 insertions(+), 5 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 872855e1..f241d10e 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -73,7 +73,7 @@ __forceinline__ __device__ void dispatch_send(
     const int* negotiate_offset_of_expert_buffer = TODO;
 
     // (num_local_experts, num_ranks). written by REMOTE gpus, read by curr gpu.
-    // the (start_offset, num_tokens) layout information of that src
+    // arr[local_expert_idx, src_rank] := the (num_tokens, start_offset) layout information of that src_rank
     // similar to `packed_recv_layout_range`, but written remotely
     const int64_t* layout_range_buffer = TODO;
 
@@ -94,11 +94,19 @@ __forceinline__ __device__ void dispatch_send(
             const int num_tokens_to_send = count_per_expert[dst_global_expert_idx];
 
             // TODO maybe do not need `release` (but yes need `sys`)
-            const auto dst_ptr = negotiate_offset_of_expert_buffer;
-            const auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
-            const int remote_start_offset_of_dst_rank = atomic_add_release_sys_global(dst_p2p_ptr + dst_expert_local_idx, num_tokens_to_send);
+            int remote_start_offset_of_dst_rank;
+            {
+                const auto dst_ptr = negotiate_offset_of_expert_buffer;
+                const auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
+                remote_start_offset_of_dst_rank = atomic_add_release_sys_global(dst_p2p_ptr + dst_expert_local_idx, num_tokens_to_send);
+            }
 
-            TODO_store_to_remote_gpu_gmem;
+            // TODO is this strong enough
+            {
+                const auto dst_ptr = layout_range_buffer;
+                const auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
+                dst_p2p_ptr[dst_expert_local_idx * num_ranks + rank] = pack2<int, int64_t>(num_tokens_to_send, remote_start_offset_of_dst_rank);
+            }
 
             // TODO is this strong enough
             remote_start_offset_of_dst_rank_buffer[dst_global_expert_idx] = -remote_start_offset_of_dst_rank-1;

From 46042a0a2c3ea5256a0cfe7308f5993160ee3323 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 10:55:38 +0800
Subject: [PATCH 213/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index f241d10e..5728e554 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -93,6 +93,7 @@ __forceinline__ __device__ void dispatch_send(
 
             const int num_tokens_to_send = count_per_expert[dst_global_expert_idx];
 
+            // 1. Compete to get a range of locations to set data to
             // TODO maybe do not need `release` (but yes need `sys`)
             int remote_start_offset_of_dst_rank;
             {
@@ -101,6 +102,7 @@ __forceinline__ __device__ void dispatch_send(
                 remote_start_offset_of_dst_rank = atomic_add_release_sys_global(dst_p2p_ptr + dst_expert_local_idx, num_tokens_to_send);
             }
 
+            // 2. Write metadata to remote
             // TODO is this strong enough
             {
                 const auto dst_ptr = layout_range_buffer;
@@ -108,6 +110,7 @@ __forceinline__ __device__ void dispatch_send(
                 dst_p2p_ptr[dst_expert_local_idx * num_ranks + rank] = pack2<int, int64_t>(num_tokens_to_send, remote_start_offset_of_dst_rank);
             }
 
+            // 2. Write metadata to local
             // TODO is this strong enough
             remote_start_offset_of_dst_rank_buffer[dst_global_expert_idx] = -remote_start_offset_of_dst_rank-1;
         }

From 1e5b9110e4b41797ea3f2ac8141f1735bb40e686 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 10:58:44 +0800
Subject: [PATCH 214/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 9 +++++++--
 1 file changed, 7 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 5728e554..608fe510 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -430,13 +430,18 @@ __forceinline__ __device__ void dispatch_recv(
     //
     // NOTE
     // before: one (sm_id, warp_group_id) = one responsible_expert_idx = handle all tokens for one (src_rank, local_expert_idx)
-    // after: one sm_id = one src_rank = handle all tokens for one (src_rank, const local_expert_idx)
+    // after: reshape (warp_id, sm_id) into (cooperate_idx, src_rank)
+    //        then all num_cooperate warps handle tokens from one src_rank
+    const int num_cooperate_parts = num_sms * num_warps / num_ranks;
+    EP_DEVICE_ASSERT(num_sms * num_warps == num_cooperate_parts * num_ranks); // even division
+    const int flatten_id = warp_id * num_sms + sm_id;
+    const int cooperate_idx = flatten_id / num_ranks;
+    const int src_rank = flatten_id % num_ranks;
 
     // Receiving and packing
     // NOTE if -> for
     // if (responsible_expert_idx < num_experts) {
     EP_DEVICE_ASSERT(num_warp_groups == 1); // not consider multi warp_group case below
-    const auto src_rank = sm_id;
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
 //         if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv local_expert_idx=%d START \n", rank, sm_id, subroutine_thread_id, local_expert_idx); }
 

From a9a6388b8886a9a6f572a3ceb751a5b85d34a648 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:00:02 +0800
Subject: [PATCH 215/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 186 ++++++++++++++++---------------
 1 file changed, 94 insertions(+), 92 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 608fe510..61f12537 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -442,106 +442,108 @@ __forceinline__ __device__ void dispatch_recv(
     // NOTE if -> for
     // if (responsible_expert_idx < num_experts) {
     EP_DEVICE_ASSERT(num_warp_groups == 1); // not consider multi warp_group case below
-    for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
+    for (
+        int token_idx = TODO;
+        token_idx < TODO;
+        token_idx += TODO
+    ) {
 //         if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv local_expert_idx=%d START \n", rank, sm_id, subroutine_thread_id, local_expert_idx); }
 
-        if (src_rank < num_ranks) {
-            // NOTE modified
-            // const auto src_rank = responsible_expert_idx / num_local_experts;
-            // const auto local_expert_idx = responsible_expert_idx % num_local_experts;
-
-            const auto rdma_recv_x_uint8 = static_cast<uint8_t*>(rdma_recv_x) +
-                    local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
-                    src_rank * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg;
-            const auto recv_x_int4 = static_cast<int4*>(packed_recv_x) +
-                    local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::hidden_int4;
-            const auto recv_src_info = packed_recv_src_info + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank;
-            const auto recv_range = packed_recv_layout_range + local_expert_idx * num_ranks;
-            const auto num_aligned_scales = align<int>(Consts::num_scales, sizeof(float) / sizeof(scale_t));
-            const auto recv_x_scales = static_cast<scale_t*>(packed_recv_x_scales) + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_aligned_scales;
-
-            // Shared between sub-warps in warp groups
-            __shared__ int shared_num_recv_tokens[kNumMaxWarpGroups], shared_recv_token_begin_idx[kNumMaxWarpGroups];
-
-            // Wait tokens to arrive
-            // NOTES: using sub-warp 1 to overlap with sub-warp 0
-            int num_recv_tokens, recv_token_begin_idx;
-            EP_DEVICE_ASSERT(num_warps_per_group > 1 and num_warp_groups < 15);
-            if (sub_warp_id == 1 and lane_id == 0) {
-                // auto start_time = clock64(); // not used
-                while ((num_recv_tokens = ld_acquire_sys_global(rdma_recv_count + local_expert_idx * num_ranks + src_rank)) == 0);
-                // auto wait_recv_cost = clock64() - start_time; // not used
-                num_recv_tokens = -num_recv_tokens - 1;
-                recv_token_begin_idx = atomicAdd(packed_recv_count + local_expert_idx, num_recv_tokens);
-                shared_num_recv_tokens[warp_group_id] = num_recv_tokens;
-                shared_recv_token_begin_idx[warp_group_id] = recv_token_begin_idx;
-                recv_range[src_rank] = pack2<int, int64_t>(num_recv_tokens, recv_token_begin_idx);
-
-                // not handled
+        // NOTE modified
+        // const auto src_rank = responsible_expert_idx / num_local_experts;
+        // const auto local_expert_idx = responsible_expert_idx % num_local_experts;
+
+        const auto rdma_recv_x_uint8 = static_cast<uint8_t*>(rdma_recv_x) +
+                local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
+                src_rank * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg;
+        const auto recv_x_int4 = static_cast<int4*>(packed_recv_x) +
+                local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::hidden_int4;
+        const auto recv_src_info = packed_recv_src_info + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank;
+        const auto recv_range = packed_recv_layout_range + local_expert_idx * num_ranks;
+        const auto num_aligned_scales = align<int>(Consts::num_scales, sizeof(float) / sizeof(scale_t));
+        const auto recv_x_scales = static_cast<scale_t*>(packed_recv_x_scales) + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_aligned_scales;
+
+        // Shared between sub-warps in warp groups
+        __shared__ int shared_num_recv_tokens[kNumMaxWarpGroups], shared_recv_token_begin_idx[kNumMaxWarpGroups];
+
+        // Wait tokens to arrive
+        // NOTES: using sub-warp 1 to overlap with sub-warp 0
+        int num_recv_tokens, recv_token_begin_idx;
+        EP_DEVICE_ASSERT(num_warps_per_group > 1 and num_warp_groups < 15);
+        if (sub_warp_id == 1 and lane_id == 0) {
+            // auto start_time = clock64(); // not used
+            while ((num_recv_tokens = ld_acquire_sys_global(rdma_recv_count + local_expert_idx * num_ranks + src_rank)) == 0);
+            // auto wait_recv_cost = clock64() - start_time; // not used
+            num_recv_tokens = -num_recv_tokens - 1;
+            recv_token_begin_idx = atomicAdd(packed_recv_count + local_expert_idx, num_recv_tokens);
+            shared_num_recv_tokens[warp_group_id] = num_recv_tokens;
+            shared_recv_token_begin_idx[warp_group_id] = recv_token_begin_idx;
+            recv_range[src_rank] = pack2<int, int64_t>(num_recv_tokens, recv_token_begin_idx);
+
+            // not handled
 //                 // Add stats for diagnosis
 //                 if (cumulative_local_expert_recv_stats != nullptr)
 //                     atomicAdd(cumulative_local_expert_recv_stats + local_expert_idx, num_recv_tokens);
 //                 if (dispatch_wait_recv_cost_stats != nullptr)
 //                     atomicAdd(reinterpret_cast<unsigned long long*>(dispatch_wait_recv_cost_stats + src_rank), wait_recv_cost);
-            }
-            asm volatile("bar.sync %0, %1;" :: "r"(warp_group_id + 2), "r"(num_warps_per_group * 32));
-            num_recv_tokens = shared_num_recv_tokens[warp_group_id];
-            recv_token_begin_idx = shared_recv_token_begin_idx[warp_group_id];
-
-            // Copy tokens
-            for (int i = sub_warp_id; i < num_recv_tokens; i += num_warps_per_group) {
-                // Copy source info
-                const auto src_src_idx = reinterpret_cast<int*>(rdma_recv_x_uint8 + i * Consts::num_bytes_per_msg);
-                if (lane_id == 0)
-                    recv_src_info[recv_token_begin_idx + i] = ld_nc_global(src_src_idx);
-                __syncwarp();
+        }
+        asm volatile("bar.sync %0, %1;" :: "r"(warp_group_id + 2), "r"(num_warps_per_group * 32));
+        num_recv_tokens = shared_num_recv_tokens[warp_group_id];
+        recv_token_begin_idx = shared_recv_token_begin_idx[warp_group_id];
+
+        // Copy tokens
+        for (int i = sub_warp_id; i < num_recv_tokens; i += num_warps_per_group) {
+            // Copy source info
+            const auto src_src_idx = reinterpret_cast<int*>(rdma_recv_x_uint8 + i * Consts::num_bytes_per_msg);
+            if (lane_id == 0)
+                recv_src_info[recv_token_begin_idx + i] = ld_nc_global(src_src_idx);
+            __syncwarp();
 
-                // Copy data
-                // NOTES: only 2 load iterations for 7K hidden with 7 unrolls
-                const auto src_data = reinterpret_cast<int4*>(reinterpret_cast<uint8_t*>(src_src_idx) + sizeof(int4));
-                const auto dst_data = recv_x_int4 + (recv_token_begin_idx + i) * Consts::hidden_int4;
-                UNROLLED_WARP_COPY(7, lane_id, Consts::hidden_int4, dst_data, src_data, ld_nc_global, st_na_global);
-
-                // Copy scales
-                if constexpr (kUseFP8) {
-                    // NOTE simply remove to simplify code
-                    EP_DEVICE_ASSERT(false);
-    //                 EP_DEVICE_ASSERT(Consts::num_scales <= 64);
-    //                 // Equivalent CuTe layout:
-    //                 //   (num_tokens, (num_packed, num_elems_per_pack)):(num_elems_per_pack, (num_tokens * num_elems_per_pack, 1))
-    //                 const auto src_scales = reinterpret_cast<float*>(reinterpret_cast<uint8_t*>(src_data) + Consts::hidden_bytes);
-    //                 const auto num_elems_per_pack = static_cast<int>(sizeof(packed_t) / sizeof(scale_t));
-    //                 const auto token_idx = recv_token_begin_idx + i;
-    //                 const auto token_stride = num_elems_per_pack;
-    //                 const auto pack_stride = num_ranks * num_max_dispatch_tokens_per_rank * num_elems_per_pack;
-    //                 if (lane_id < Consts::num_scales) {
-    //                     const auto pack_idx = lane_id / num_elems_per_pack;
-    //                     const auto elem_idx = lane_id % num_elems_per_pack;
-    //                     auto scale = extract_required_scale_format<kUseUE8M0>(ld_nc_global(src_scales + lane_id));
-    //                     recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
-    //                 }
-    //                 if (lane_id + 32 < Consts::num_scales) {
-    //                     const auto pack_idx = (lane_id + 32) / num_elems_per_pack;
-    //                     const auto elem_idx = (lane_id + 32) % num_elems_per_pack;
-    //                     auto scale = extract_required_scale_format<kUseUE8M0>(ld_nc_global(src_scales + lane_id + 32));
-    //                     recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
-    //                 }
-                } else if constexpr (kUseNVFP4) {
-                    // TODO wait for new swizzle layout
-                    // Equivalent CuTe layout:
-                    //   (num_tokens, (num_packed, num_elems_per_pack)):(num_elems_per_pack, (num_tokens * num_elems_per_pack, 1))
-                    const auto src_scales = reinterpret_cast<uint8_t*>(reinterpret_cast<uint8_t*>(src_data) + Consts::hidden_bytes);
-                    const auto num_elems_per_pack = static_cast<int>(sizeof(packed_t) / sizeof(scale_t));
-                    const auto token_idx = recv_token_begin_idx + i;
-                    const auto token_stride = num_elems_per_pack;
-                    const auto pack_stride = num_ranks * num_max_dispatch_tokens_per_rank * num_elems_per_pack;
-                    #pragma unroll
-                    for (int j = lane_id; j < Consts::num_scales; j += 32) {
-                        const auto pack_idx = j / num_elems_per_pack;
-                        const auto elem_idx = j % num_elems_per_pack;
-                        auto scale = ld_nc_global(src_scales + j);
-                        recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
-                    }
+            // Copy data
+            // NOTES: only 2 load iterations for 7K hidden with 7 unrolls
+            const auto src_data = reinterpret_cast<int4*>(reinterpret_cast<uint8_t*>(src_src_idx) + sizeof(int4));
+            const auto dst_data = recv_x_int4 + (recv_token_begin_idx + i) * Consts::hidden_int4;
+            UNROLLED_WARP_COPY(7, lane_id, Consts::hidden_int4, dst_data, src_data, ld_nc_global, st_na_global);
+
+            // Copy scales
+            if constexpr (kUseFP8) {
+                // NOTE simply remove to simplify code
+                EP_DEVICE_ASSERT(false);
+//                 EP_DEVICE_ASSERT(Consts::num_scales <= 64);
+//                 // Equivalent CuTe layout:
+//                 //   (num_tokens, (num_packed, num_elems_per_pack)):(num_elems_per_pack, (num_tokens * num_elems_per_pack, 1))
+//                 const auto src_scales = reinterpret_cast<float*>(reinterpret_cast<uint8_t*>(src_data) + Consts::hidden_bytes);
+//                 const auto num_elems_per_pack = static_cast<int>(sizeof(packed_t) / sizeof(scale_t));
+//                 const auto token_idx = recv_token_begin_idx + i;
+//                 const auto token_stride = num_elems_per_pack;
+//                 const auto pack_stride = num_ranks * num_max_dispatch_tokens_per_rank * num_elems_per_pack;
+//                 if (lane_id < Consts::num_scales) {
+//                     const auto pack_idx = lane_id / num_elems_per_pack;
+//                     const auto elem_idx = lane_id % num_elems_per_pack;
+//                     auto scale = extract_required_scale_format<kUseUE8M0>(ld_nc_global(src_scales + lane_id));
+//                     recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
+//                 }
+//                 if (lane_id + 32 < Consts::num_scales) {
+//                     const auto pack_idx = (lane_id + 32) / num_elems_per_pack;
+//                     const auto elem_idx = (lane_id + 32) % num_elems_per_pack;
+//                     auto scale = extract_required_scale_format<kUseUE8M0>(ld_nc_global(src_scales + lane_id + 32));
+//                     recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
+//                 }
+            } else if constexpr (kUseNVFP4) {
+                // TODO wait for new swizzle layout
+                // Equivalent CuTe layout:
+                //   (num_tokens, (num_packed, num_elems_per_pack)):(num_elems_per_pack, (num_tokens * num_elems_per_pack, 1))
+                const auto src_scales = reinterpret_cast<uint8_t*>(reinterpret_cast<uint8_t*>(src_data) + Consts::hidden_bytes);
+                const auto num_elems_per_pack = static_cast<int>(sizeof(packed_t) / sizeof(scale_t));
+                const auto token_idx = recv_token_begin_idx + i;
+                const auto token_stride = num_elems_per_pack;
+                const auto pack_stride = num_ranks * num_max_dispatch_tokens_per_rank * num_elems_per_pack;
+                #pragma unroll
+                for (int j = lane_id; j < Consts::num_scales; j += 32) {
+                    const auto pack_idx = j / num_elems_per_pack;
+                    const auto elem_idx = j % num_elems_per_pack;
+                    auto scale = ld_nc_global(src_scales + j);
+                    recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
                 }
             }
         }

From 2834f12cf03776d39adfd4f3a2f3d18f6dc35794 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:00:23 +0800
Subject: [PATCH 216/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 61f12537..ffc579d9 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -452,6 +452,8 @@ __forceinline__ __device__ void dispatch_recv(
         // NOTE modified
         // const auto src_rank = responsible_expert_idx / num_local_experts;
         // const auto local_expert_idx = responsible_expert_idx % num_local_experts;
+        
+        TODO_this_init_code_should_not_be_in_loop;
 
         const auto rdma_recv_x_uint8 = static_cast<uint8_t*>(rdma_recv_x) +
                 local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +

From 0e679e4959e832fa289eb4f6a86cd0f0038bfcf5 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:00:57 +0800
Subject: [PATCH 217/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 35 +++++++++++++++++---------------
 1 file changed, 19 insertions(+), 16 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index ffc579d9..a8fc2c8a 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -438,22 +438,9 @@ __forceinline__ __device__ void dispatch_recv(
     const int cooperate_idx = flatten_id / num_ranks;
     const int src_rank = flatten_id % num_ranks;
 
-    // Receiving and packing
-    // NOTE if -> for
-    // if (responsible_expert_idx < num_experts) {
-    EP_DEVICE_ASSERT(num_warp_groups == 1); // not consider multi warp_group case below
-    for (
-        int token_idx = TODO;
-        token_idx < TODO;
-        token_idx += TODO
-    ) {
-//         if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv local_expert_idx=%d START \n", rank, sm_id, subroutine_thread_id, local_expert_idx); }
-
-        // NOTE modified
-        // const auto src_rank = responsible_expert_idx / num_local_experts;
-        // const auto local_expert_idx = responsible_expert_idx % num_local_experts;
-        
-        TODO_this_init_code_should_not_be_in_loop;
+    // Initialize
+    {
+        TODO_not_handled_yet;
 
         const auto rdma_recv_x_uint8 = static_cast<uint8_t*>(rdma_recv_x) +
                 local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
@@ -492,6 +479,22 @@ __forceinline__ __device__ void dispatch_recv(
         asm volatile("bar.sync %0, %1;" :: "r"(warp_group_id + 2), "r"(num_warps_per_group * 32));
         num_recv_tokens = shared_num_recv_tokens[warp_group_id];
         recv_token_begin_idx = shared_recv_token_begin_idx[warp_group_id];
+    }
+
+    // Receiving and packing
+    // NOTE if -> for
+    // if (responsible_expert_idx < num_experts) {
+    EP_DEVICE_ASSERT(num_warp_groups == 1); // not consider multi warp_group case below
+    for (
+        int token_idx = TODO;
+        token_idx < TODO;
+        token_idx += TODO
+    ) {
+//         if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv local_expert_idx=%d START \n", rank, sm_id, subroutine_thread_id, local_expert_idx); }
+
+        // NOTE modified
+        // const auto src_rank = responsible_expert_idx / num_local_experts;
+        // const auto local_expert_idx = responsible_expert_idx % num_local_experts;
 
         // Copy tokens
         for (int i = sub_warp_id; i < num_recv_tokens; i += num_warps_per_group) {

From a4b83455d29f1b200c86771ccbc138470115e560 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:02:43 +0800
Subject: [PATCH 218/393] Revert "more"

This reverts commit 0e679e4959e832fa289eb4f6a86cd0f0038bfcf5.
---
 csrc/kernels/internode_ll_v2.cuh | 35 +++++++++++++++-----------------
 1 file changed, 16 insertions(+), 19 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index a8fc2c8a..ffc579d9 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -438,9 +438,22 @@ __forceinline__ __device__ void dispatch_recv(
     const int cooperate_idx = flatten_id / num_ranks;
     const int src_rank = flatten_id % num_ranks;
 
-    // Initialize
-    {
-        TODO_not_handled_yet;
+    // Receiving and packing
+    // NOTE if -> for
+    // if (responsible_expert_idx < num_experts) {
+    EP_DEVICE_ASSERT(num_warp_groups == 1); // not consider multi warp_group case below
+    for (
+        int token_idx = TODO;
+        token_idx < TODO;
+        token_idx += TODO
+    ) {
+//         if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv local_expert_idx=%d START \n", rank, sm_id, subroutine_thread_id, local_expert_idx); }
+
+        // NOTE modified
+        // const auto src_rank = responsible_expert_idx / num_local_experts;
+        // const auto local_expert_idx = responsible_expert_idx % num_local_experts;
+        
+        TODO_this_init_code_should_not_be_in_loop;
 
         const auto rdma_recv_x_uint8 = static_cast<uint8_t*>(rdma_recv_x) +
                 local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
@@ -479,22 +492,6 @@ __forceinline__ __device__ void dispatch_recv(
         asm volatile("bar.sync %0, %1;" :: "r"(warp_group_id + 2), "r"(num_warps_per_group * 32));
         num_recv_tokens = shared_num_recv_tokens[warp_group_id];
         recv_token_begin_idx = shared_recv_token_begin_idx[warp_group_id];
-    }
-
-    // Receiving and packing
-    // NOTE if -> for
-    // if (responsible_expert_idx < num_experts) {
-    EP_DEVICE_ASSERT(num_warp_groups == 1); // not consider multi warp_group case below
-    for (
-        int token_idx = TODO;
-        token_idx < TODO;
-        token_idx += TODO
-    ) {
-//         if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv local_expert_idx=%d START \n", rank, sm_id, subroutine_thread_id, local_expert_idx); }
-
-        // NOTE modified
-        // const auto src_rank = responsible_expert_idx / num_local_experts;
-        // const auto local_expert_idx = responsible_expert_idx % num_local_experts;
 
         // Copy tokens
         for (int i = sub_warp_id; i < num_recv_tokens; i += num_warps_per_group) {

From 45deb5d37924226d3d968f5e177ce3373967faf7 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:02:43 +0800
Subject: [PATCH 219/393] Revert "more"

This reverts commit 2834f12cf03776d39adfd4f3a2f3d18f6dc35794.
---
 csrc/kernels/internode_ll_v2.cuh | 2 --
 1 file changed, 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index ffc579d9..61f12537 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -452,8 +452,6 @@ __forceinline__ __device__ void dispatch_recv(
         // NOTE modified
         // const auto src_rank = responsible_expert_idx / num_local_experts;
         // const auto local_expert_idx = responsible_expert_idx % num_local_experts;
-        
-        TODO_this_init_code_should_not_be_in_loop;
 
         const auto rdma_recv_x_uint8 = static_cast<uint8_t*>(rdma_recv_x) +
                 local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +

From 3291a4081bb0bb5bf4380f66a5df5a3314efd8da Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:02:43 +0800
Subject: [PATCH 220/393] Revert "more"

This reverts commit a9a6388b8886a9a6f572a3ceb751a5b85d34a648.
---
 csrc/kernels/internode_ll_v2.cuh | 186 +++++++++++++++----------------
 1 file changed, 92 insertions(+), 94 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 61f12537..608fe510 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -442,108 +442,106 @@ __forceinline__ __device__ void dispatch_recv(
     // NOTE if -> for
     // if (responsible_expert_idx < num_experts) {
     EP_DEVICE_ASSERT(num_warp_groups == 1); // not consider multi warp_group case below
-    for (
-        int token_idx = TODO;
-        token_idx < TODO;
-        token_idx += TODO
-    ) {
+    for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
 //         if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv local_expert_idx=%d START \n", rank, sm_id, subroutine_thread_id, local_expert_idx); }
 
-        // NOTE modified
-        // const auto src_rank = responsible_expert_idx / num_local_experts;
-        // const auto local_expert_idx = responsible_expert_idx % num_local_experts;
-
-        const auto rdma_recv_x_uint8 = static_cast<uint8_t*>(rdma_recv_x) +
-                local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
-                src_rank * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg;
-        const auto recv_x_int4 = static_cast<int4*>(packed_recv_x) +
-                local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::hidden_int4;
-        const auto recv_src_info = packed_recv_src_info + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank;
-        const auto recv_range = packed_recv_layout_range + local_expert_idx * num_ranks;
-        const auto num_aligned_scales = align<int>(Consts::num_scales, sizeof(float) / sizeof(scale_t));
-        const auto recv_x_scales = static_cast<scale_t*>(packed_recv_x_scales) + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_aligned_scales;
-
-        // Shared between sub-warps in warp groups
-        __shared__ int shared_num_recv_tokens[kNumMaxWarpGroups], shared_recv_token_begin_idx[kNumMaxWarpGroups];
-
-        // Wait tokens to arrive
-        // NOTES: using sub-warp 1 to overlap with sub-warp 0
-        int num_recv_tokens, recv_token_begin_idx;
-        EP_DEVICE_ASSERT(num_warps_per_group > 1 and num_warp_groups < 15);
-        if (sub_warp_id == 1 and lane_id == 0) {
-            // auto start_time = clock64(); // not used
-            while ((num_recv_tokens = ld_acquire_sys_global(rdma_recv_count + local_expert_idx * num_ranks + src_rank)) == 0);
-            // auto wait_recv_cost = clock64() - start_time; // not used
-            num_recv_tokens = -num_recv_tokens - 1;
-            recv_token_begin_idx = atomicAdd(packed_recv_count + local_expert_idx, num_recv_tokens);
-            shared_num_recv_tokens[warp_group_id] = num_recv_tokens;
-            shared_recv_token_begin_idx[warp_group_id] = recv_token_begin_idx;
-            recv_range[src_rank] = pack2<int, int64_t>(num_recv_tokens, recv_token_begin_idx);
-
-            // not handled
+        if (src_rank < num_ranks) {
+            // NOTE modified
+            // const auto src_rank = responsible_expert_idx / num_local_experts;
+            // const auto local_expert_idx = responsible_expert_idx % num_local_experts;
+
+            const auto rdma_recv_x_uint8 = static_cast<uint8_t*>(rdma_recv_x) +
+                    local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
+                    src_rank * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg;
+            const auto recv_x_int4 = static_cast<int4*>(packed_recv_x) +
+                    local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::hidden_int4;
+            const auto recv_src_info = packed_recv_src_info + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank;
+            const auto recv_range = packed_recv_layout_range + local_expert_idx * num_ranks;
+            const auto num_aligned_scales = align<int>(Consts::num_scales, sizeof(float) / sizeof(scale_t));
+            const auto recv_x_scales = static_cast<scale_t*>(packed_recv_x_scales) + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_aligned_scales;
+
+            // Shared between sub-warps in warp groups
+            __shared__ int shared_num_recv_tokens[kNumMaxWarpGroups], shared_recv_token_begin_idx[kNumMaxWarpGroups];
+
+            // Wait tokens to arrive
+            // NOTES: using sub-warp 1 to overlap with sub-warp 0
+            int num_recv_tokens, recv_token_begin_idx;
+            EP_DEVICE_ASSERT(num_warps_per_group > 1 and num_warp_groups < 15);
+            if (sub_warp_id == 1 and lane_id == 0) {
+                // auto start_time = clock64(); // not used
+                while ((num_recv_tokens = ld_acquire_sys_global(rdma_recv_count + local_expert_idx * num_ranks + src_rank)) == 0);
+                // auto wait_recv_cost = clock64() - start_time; // not used
+                num_recv_tokens = -num_recv_tokens - 1;
+                recv_token_begin_idx = atomicAdd(packed_recv_count + local_expert_idx, num_recv_tokens);
+                shared_num_recv_tokens[warp_group_id] = num_recv_tokens;
+                shared_recv_token_begin_idx[warp_group_id] = recv_token_begin_idx;
+                recv_range[src_rank] = pack2<int, int64_t>(num_recv_tokens, recv_token_begin_idx);
+
+                // not handled
 //                 // Add stats for diagnosis
 //                 if (cumulative_local_expert_recv_stats != nullptr)
 //                     atomicAdd(cumulative_local_expert_recv_stats + local_expert_idx, num_recv_tokens);
 //                 if (dispatch_wait_recv_cost_stats != nullptr)
 //                     atomicAdd(reinterpret_cast<unsigned long long*>(dispatch_wait_recv_cost_stats + src_rank), wait_recv_cost);
-        }
-        asm volatile("bar.sync %0, %1;" :: "r"(warp_group_id + 2), "r"(num_warps_per_group * 32));
-        num_recv_tokens = shared_num_recv_tokens[warp_group_id];
-        recv_token_begin_idx = shared_recv_token_begin_idx[warp_group_id];
-
-        // Copy tokens
-        for (int i = sub_warp_id; i < num_recv_tokens; i += num_warps_per_group) {
-            // Copy source info
-            const auto src_src_idx = reinterpret_cast<int*>(rdma_recv_x_uint8 + i * Consts::num_bytes_per_msg);
-            if (lane_id == 0)
-                recv_src_info[recv_token_begin_idx + i] = ld_nc_global(src_src_idx);
-            __syncwarp();
-
-            // Copy data
-            // NOTES: only 2 load iterations for 7K hidden with 7 unrolls
-            const auto src_data = reinterpret_cast<int4*>(reinterpret_cast<uint8_t*>(src_src_idx) + sizeof(int4));
-            const auto dst_data = recv_x_int4 + (recv_token_begin_idx + i) * Consts::hidden_int4;
-            UNROLLED_WARP_COPY(7, lane_id, Consts::hidden_int4, dst_data, src_data, ld_nc_global, st_na_global);
+            }
+            asm volatile("bar.sync %0, %1;" :: "r"(warp_group_id + 2), "r"(num_warps_per_group * 32));
+            num_recv_tokens = shared_num_recv_tokens[warp_group_id];
+            recv_token_begin_idx = shared_recv_token_begin_idx[warp_group_id];
+
+            // Copy tokens
+            for (int i = sub_warp_id; i < num_recv_tokens; i += num_warps_per_group) {
+                // Copy source info
+                const auto src_src_idx = reinterpret_cast<int*>(rdma_recv_x_uint8 + i * Consts::num_bytes_per_msg);
+                if (lane_id == 0)
+                    recv_src_info[recv_token_begin_idx + i] = ld_nc_global(src_src_idx);
+                __syncwarp();
 
-            // Copy scales
-            if constexpr (kUseFP8) {
-                // NOTE simply remove to simplify code
-                EP_DEVICE_ASSERT(false);
-//                 EP_DEVICE_ASSERT(Consts::num_scales <= 64);
-//                 // Equivalent CuTe layout:
-//                 //   (num_tokens, (num_packed, num_elems_per_pack)):(num_elems_per_pack, (num_tokens * num_elems_per_pack, 1))
-//                 const auto src_scales = reinterpret_cast<float*>(reinterpret_cast<uint8_t*>(src_data) + Consts::hidden_bytes);
-//                 const auto num_elems_per_pack = static_cast<int>(sizeof(packed_t) / sizeof(scale_t));
-//                 const auto token_idx = recv_token_begin_idx + i;
-//                 const auto token_stride = num_elems_per_pack;
-//                 const auto pack_stride = num_ranks * num_max_dispatch_tokens_per_rank * num_elems_per_pack;
-//                 if (lane_id < Consts::num_scales) {
-//                     const auto pack_idx = lane_id / num_elems_per_pack;
-//                     const auto elem_idx = lane_id % num_elems_per_pack;
-//                     auto scale = extract_required_scale_format<kUseUE8M0>(ld_nc_global(src_scales + lane_id));
-//                     recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
-//                 }
-//                 if (lane_id + 32 < Consts::num_scales) {
-//                     const auto pack_idx = (lane_id + 32) / num_elems_per_pack;
-//                     const auto elem_idx = (lane_id + 32) % num_elems_per_pack;
-//                     auto scale = extract_required_scale_format<kUseUE8M0>(ld_nc_global(src_scales + lane_id + 32));
-//                     recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
-//                 }
-            } else if constexpr (kUseNVFP4) {
-                // TODO wait for new swizzle layout
-                // Equivalent CuTe layout:
-                //   (num_tokens, (num_packed, num_elems_per_pack)):(num_elems_per_pack, (num_tokens * num_elems_per_pack, 1))
-                const auto src_scales = reinterpret_cast<uint8_t*>(reinterpret_cast<uint8_t*>(src_data) + Consts::hidden_bytes);
-                const auto num_elems_per_pack = static_cast<int>(sizeof(packed_t) / sizeof(scale_t));
-                const auto token_idx = recv_token_begin_idx + i;
-                const auto token_stride = num_elems_per_pack;
-                const auto pack_stride = num_ranks * num_max_dispatch_tokens_per_rank * num_elems_per_pack;
-                #pragma unroll
-                for (int j = lane_id; j < Consts::num_scales; j += 32) {
-                    const auto pack_idx = j / num_elems_per_pack;
-                    const auto elem_idx = j % num_elems_per_pack;
-                    auto scale = ld_nc_global(src_scales + j);
-                    recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
+                // Copy data
+                // NOTES: only 2 load iterations for 7K hidden with 7 unrolls
+                const auto src_data = reinterpret_cast<int4*>(reinterpret_cast<uint8_t*>(src_src_idx) + sizeof(int4));
+                const auto dst_data = recv_x_int4 + (recv_token_begin_idx + i) * Consts::hidden_int4;
+                UNROLLED_WARP_COPY(7, lane_id, Consts::hidden_int4, dst_data, src_data, ld_nc_global, st_na_global);
+
+                // Copy scales
+                if constexpr (kUseFP8) {
+                    // NOTE simply remove to simplify code
+                    EP_DEVICE_ASSERT(false);
+    //                 EP_DEVICE_ASSERT(Consts::num_scales <= 64);
+    //                 // Equivalent CuTe layout:
+    //                 //   (num_tokens, (num_packed, num_elems_per_pack)):(num_elems_per_pack, (num_tokens * num_elems_per_pack, 1))
+    //                 const auto src_scales = reinterpret_cast<float*>(reinterpret_cast<uint8_t*>(src_data) + Consts::hidden_bytes);
+    //                 const auto num_elems_per_pack = static_cast<int>(sizeof(packed_t) / sizeof(scale_t));
+    //                 const auto token_idx = recv_token_begin_idx + i;
+    //                 const auto token_stride = num_elems_per_pack;
+    //                 const auto pack_stride = num_ranks * num_max_dispatch_tokens_per_rank * num_elems_per_pack;
+    //                 if (lane_id < Consts::num_scales) {
+    //                     const auto pack_idx = lane_id / num_elems_per_pack;
+    //                     const auto elem_idx = lane_id % num_elems_per_pack;
+    //                     auto scale = extract_required_scale_format<kUseUE8M0>(ld_nc_global(src_scales + lane_id));
+    //                     recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
+    //                 }
+    //                 if (lane_id + 32 < Consts::num_scales) {
+    //                     const auto pack_idx = (lane_id + 32) / num_elems_per_pack;
+    //                     const auto elem_idx = (lane_id + 32) % num_elems_per_pack;
+    //                     auto scale = extract_required_scale_format<kUseUE8M0>(ld_nc_global(src_scales + lane_id + 32));
+    //                     recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
+    //                 }
+                } else if constexpr (kUseNVFP4) {
+                    // TODO wait for new swizzle layout
+                    // Equivalent CuTe layout:
+                    //   (num_tokens, (num_packed, num_elems_per_pack)):(num_elems_per_pack, (num_tokens * num_elems_per_pack, 1))
+                    const auto src_scales = reinterpret_cast<uint8_t*>(reinterpret_cast<uint8_t*>(src_data) + Consts::hidden_bytes);
+                    const auto num_elems_per_pack = static_cast<int>(sizeof(packed_t) / sizeof(scale_t));
+                    const auto token_idx = recv_token_begin_idx + i;
+                    const auto token_stride = num_elems_per_pack;
+                    const auto pack_stride = num_ranks * num_max_dispatch_tokens_per_rank * num_elems_per_pack;
+                    #pragma unroll
+                    for (int j = lane_id; j < Consts::num_scales; j += 32) {
+                        const auto pack_idx = j / num_elems_per_pack;
+                        const auto elem_idx = j % num_elems_per_pack;
+                        auto scale = ld_nc_global(src_scales + j);
+                        recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
+                    }
                 }
             }
         }

From 4c708a7d9df16e9ee965a43e5a1b113b9358a821 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:03:57 +0800
Subject: [PATCH 221/393] rm cond

---
 csrc/kernels/internode_ll_v2.cuh | 180 +++++++++++++++----------------
 1 file changed, 89 insertions(+), 91 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 608fe510..e41d5704 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -445,103 +445,101 @@ __forceinline__ __device__ void dispatch_recv(
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
 //         if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv local_expert_idx=%d START \n", rank, sm_id, subroutine_thread_id, local_expert_idx); }
 
-        if (src_rank < num_ranks) {
-            // NOTE modified
-            // const auto src_rank = responsible_expert_idx / num_local_experts;
-            // const auto local_expert_idx = responsible_expert_idx % num_local_experts;
-
-            const auto rdma_recv_x_uint8 = static_cast<uint8_t*>(rdma_recv_x) +
-                    local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
-                    src_rank * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg;
-            const auto recv_x_int4 = static_cast<int4*>(packed_recv_x) +
-                    local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::hidden_int4;
-            const auto recv_src_info = packed_recv_src_info + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank;
-            const auto recv_range = packed_recv_layout_range + local_expert_idx * num_ranks;
-            const auto num_aligned_scales = align<int>(Consts::num_scales, sizeof(float) / sizeof(scale_t));
-            const auto recv_x_scales = static_cast<scale_t*>(packed_recv_x_scales) + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_aligned_scales;
-
-            // Shared between sub-warps in warp groups
-            __shared__ int shared_num_recv_tokens[kNumMaxWarpGroups], shared_recv_token_begin_idx[kNumMaxWarpGroups];
-
-            // Wait tokens to arrive
-            // NOTES: using sub-warp 1 to overlap with sub-warp 0
-            int num_recv_tokens, recv_token_begin_idx;
-            EP_DEVICE_ASSERT(num_warps_per_group > 1 and num_warp_groups < 15);
-            if (sub_warp_id == 1 and lane_id == 0) {
-                // auto start_time = clock64(); // not used
-                while ((num_recv_tokens = ld_acquire_sys_global(rdma_recv_count + local_expert_idx * num_ranks + src_rank)) == 0);
-                // auto wait_recv_cost = clock64() - start_time; // not used
-                num_recv_tokens = -num_recv_tokens - 1;
-                recv_token_begin_idx = atomicAdd(packed_recv_count + local_expert_idx, num_recv_tokens);
-                shared_num_recv_tokens[warp_group_id] = num_recv_tokens;
-                shared_recv_token_begin_idx[warp_group_id] = recv_token_begin_idx;
-                recv_range[src_rank] = pack2<int, int64_t>(num_recv_tokens, recv_token_begin_idx);
-
-                // not handled
+        // NOTE modified
+        // const auto src_rank = responsible_expert_idx / num_local_experts;
+        // const auto local_expert_idx = responsible_expert_idx % num_local_experts;
+
+        const auto rdma_recv_x_uint8 = static_cast<uint8_t*>(rdma_recv_x) +
+                local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
+                src_rank * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg;
+        const auto recv_x_int4 = static_cast<int4*>(packed_recv_x) +
+                local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::hidden_int4;
+        const auto recv_src_info = packed_recv_src_info + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank;
+        const auto recv_range = packed_recv_layout_range + local_expert_idx * num_ranks;
+        const auto num_aligned_scales = align<int>(Consts::num_scales, sizeof(float) / sizeof(scale_t));
+        const auto recv_x_scales = static_cast<scale_t*>(packed_recv_x_scales) + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_aligned_scales;
+
+        // Shared between sub-warps in warp groups
+        __shared__ int shared_num_recv_tokens[kNumMaxWarpGroups], shared_recv_token_begin_idx[kNumMaxWarpGroups];
+
+        // Wait tokens to arrive
+        // NOTES: using sub-warp 1 to overlap with sub-warp 0
+        int num_recv_tokens, recv_token_begin_idx;
+        EP_DEVICE_ASSERT(num_warps_per_group > 1 and num_warp_groups < 15);
+        if (sub_warp_id == 1 and lane_id == 0) {
+            // auto start_time = clock64(); // not used
+            while ((num_recv_tokens = ld_acquire_sys_global(rdma_recv_count + local_expert_idx * num_ranks + src_rank)) == 0);
+            // auto wait_recv_cost = clock64() - start_time; // not used
+            num_recv_tokens = -num_recv_tokens - 1;
+            recv_token_begin_idx = atomicAdd(packed_recv_count + local_expert_idx, num_recv_tokens);
+            shared_num_recv_tokens[warp_group_id] = num_recv_tokens;
+            shared_recv_token_begin_idx[warp_group_id] = recv_token_begin_idx;
+            recv_range[src_rank] = pack2<int, int64_t>(num_recv_tokens, recv_token_begin_idx);
+
+            // not handled
 //                 // Add stats for diagnosis
 //                 if (cumulative_local_expert_recv_stats != nullptr)
 //                     atomicAdd(cumulative_local_expert_recv_stats + local_expert_idx, num_recv_tokens);
 //                 if (dispatch_wait_recv_cost_stats != nullptr)
 //                     atomicAdd(reinterpret_cast<unsigned long long*>(dispatch_wait_recv_cost_stats + src_rank), wait_recv_cost);
-            }
-            asm volatile("bar.sync %0, %1;" :: "r"(warp_group_id + 2), "r"(num_warps_per_group * 32));
-            num_recv_tokens = shared_num_recv_tokens[warp_group_id];
-            recv_token_begin_idx = shared_recv_token_begin_idx[warp_group_id];
-
-            // Copy tokens
-            for (int i = sub_warp_id; i < num_recv_tokens; i += num_warps_per_group) {
-                // Copy source info
-                const auto src_src_idx = reinterpret_cast<int*>(rdma_recv_x_uint8 + i * Consts::num_bytes_per_msg);
-                if (lane_id == 0)
-                    recv_src_info[recv_token_begin_idx + i] = ld_nc_global(src_src_idx);
-                __syncwarp();
+        }
+        asm volatile("bar.sync %0, %1;" :: "r"(warp_group_id + 2), "r"(num_warps_per_group * 32));
+        num_recv_tokens = shared_num_recv_tokens[warp_group_id];
+        recv_token_begin_idx = shared_recv_token_begin_idx[warp_group_id];
+
+        // Copy tokens
+        for (int i = sub_warp_id; i < num_recv_tokens; i += num_warps_per_group) {
+            // Copy source info
+            const auto src_src_idx = reinterpret_cast<int*>(rdma_recv_x_uint8 + i * Consts::num_bytes_per_msg);
+            if (lane_id == 0)
+                recv_src_info[recv_token_begin_idx + i] = ld_nc_global(src_src_idx);
+            __syncwarp();
 
-                // Copy data
-                // NOTES: only 2 load iterations for 7K hidden with 7 unrolls
-                const auto src_data = reinterpret_cast<int4*>(reinterpret_cast<uint8_t*>(src_src_idx) + sizeof(int4));
-                const auto dst_data = recv_x_int4 + (recv_token_begin_idx + i) * Consts::hidden_int4;
-                UNROLLED_WARP_COPY(7, lane_id, Consts::hidden_int4, dst_data, src_data, ld_nc_global, st_na_global);
-
-                // Copy scales
-                if constexpr (kUseFP8) {
-                    // NOTE simply remove to simplify code
-                    EP_DEVICE_ASSERT(false);
-    //                 EP_DEVICE_ASSERT(Consts::num_scales <= 64);
-    //                 // Equivalent CuTe layout:
-    //                 //   (num_tokens, (num_packed, num_elems_per_pack)):(num_elems_per_pack, (num_tokens * num_elems_per_pack, 1))
-    //                 const auto src_scales = reinterpret_cast<float*>(reinterpret_cast<uint8_t*>(src_data) + Consts::hidden_bytes);
-    //                 const auto num_elems_per_pack = static_cast<int>(sizeof(packed_t) / sizeof(scale_t));
-    //                 const auto token_idx = recv_token_begin_idx + i;
-    //                 const auto token_stride = num_elems_per_pack;
-    //                 const auto pack_stride = num_ranks * num_max_dispatch_tokens_per_rank * num_elems_per_pack;
-    //                 if (lane_id < Consts::num_scales) {
-    //                     const auto pack_idx = lane_id / num_elems_per_pack;
-    //                     const auto elem_idx = lane_id % num_elems_per_pack;
-    //                     auto scale = extract_required_scale_format<kUseUE8M0>(ld_nc_global(src_scales + lane_id));
-    //                     recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
-    //                 }
-    //                 if (lane_id + 32 < Consts::num_scales) {
-    //                     const auto pack_idx = (lane_id + 32) / num_elems_per_pack;
-    //                     const auto elem_idx = (lane_id + 32) % num_elems_per_pack;
-    //                     auto scale = extract_required_scale_format<kUseUE8M0>(ld_nc_global(src_scales + lane_id + 32));
-    //                     recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
-    //                 }
-                } else if constexpr (kUseNVFP4) {
-                    // TODO wait for new swizzle layout
-                    // Equivalent CuTe layout:
-                    //   (num_tokens, (num_packed, num_elems_per_pack)):(num_elems_per_pack, (num_tokens * num_elems_per_pack, 1))
-                    const auto src_scales = reinterpret_cast<uint8_t*>(reinterpret_cast<uint8_t*>(src_data) + Consts::hidden_bytes);
-                    const auto num_elems_per_pack = static_cast<int>(sizeof(packed_t) / sizeof(scale_t));
-                    const auto token_idx = recv_token_begin_idx + i;
-                    const auto token_stride = num_elems_per_pack;
-                    const auto pack_stride = num_ranks * num_max_dispatch_tokens_per_rank * num_elems_per_pack;
-                    #pragma unroll
-                    for (int j = lane_id; j < Consts::num_scales; j += 32) {
-                        const auto pack_idx = j / num_elems_per_pack;
-                        const auto elem_idx = j % num_elems_per_pack;
-                        auto scale = ld_nc_global(src_scales + j);
-                        recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
-                    }
+            // Copy data
+            // NOTES: only 2 load iterations for 7K hidden with 7 unrolls
+            const auto src_data = reinterpret_cast<int4*>(reinterpret_cast<uint8_t*>(src_src_idx) + sizeof(int4));
+            const auto dst_data = recv_x_int4 + (recv_token_begin_idx + i) * Consts::hidden_int4;
+            UNROLLED_WARP_COPY(7, lane_id, Consts::hidden_int4, dst_data, src_data, ld_nc_global, st_na_global);
+
+            // Copy scales
+            if constexpr (kUseFP8) {
+                // NOTE simply remove to simplify code
+                EP_DEVICE_ASSERT(false);
+//                 EP_DEVICE_ASSERT(Consts::num_scales <= 64);
+//                 // Equivalent CuTe layout:
+//                 //   (num_tokens, (num_packed, num_elems_per_pack)):(num_elems_per_pack, (num_tokens * num_elems_per_pack, 1))
+//                 const auto src_scales = reinterpret_cast<float*>(reinterpret_cast<uint8_t*>(src_data) + Consts::hidden_bytes);
+//                 const auto num_elems_per_pack = static_cast<int>(sizeof(packed_t) / sizeof(scale_t));
+//                 const auto token_idx = recv_token_begin_idx + i;
+//                 const auto token_stride = num_elems_per_pack;
+//                 const auto pack_stride = num_ranks * num_max_dispatch_tokens_per_rank * num_elems_per_pack;
+//                 if (lane_id < Consts::num_scales) {
+//                     const auto pack_idx = lane_id / num_elems_per_pack;
+//                     const auto elem_idx = lane_id % num_elems_per_pack;
+//                     auto scale = extract_required_scale_format<kUseUE8M0>(ld_nc_global(src_scales + lane_id));
+//                     recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
+//                 }
+//                 if (lane_id + 32 < Consts::num_scales) {
+//                     const auto pack_idx = (lane_id + 32) / num_elems_per_pack;
+//                     const auto elem_idx = (lane_id + 32) % num_elems_per_pack;
+//                     auto scale = extract_required_scale_format<kUseUE8M0>(ld_nc_global(src_scales + lane_id + 32));
+//                     recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
+//                 }
+            } else if constexpr (kUseNVFP4) {
+                // TODO wait for new swizzle layout
+                // Equivalent CuTe layout:
+                //   (num_tokens, (num_packed, num_elems_per_pack)):(num_elems_per_pack, (num_tokens * num_elems_per_pack, 1))
+                const auto src_scales = reinterpret_cast<uint8_t*>(reinterpret_cast<uint8_t*>(src_data) + Consts::hidden_bytes);
+                const auto num_elems_per_pack = static_cast<int>(sizeof(packed_t) / sizeof(scale_t));
+                const auto token_idx = recv_token_begin_idx + i;
+                const auto token_stride = num_elems_per_pack;
+                const auto pack_stride = num_ranks * num_max_dispatch_tokens_per_rank * num_elems_per_pack;
+                #pragma unroll
+                for (int j = lane_id; j < Consts::num_scales; j += 32) {
+                    const auto pack_idx = j / num_elems_per_pack;
+                    const auto elem_idx = j % num_elems_per_pack;
+                    auto scale = ld_nc_global(src_scales + j);
+                    recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
                 }
             }
         }

From f5cf5467d3d1825385de09f42aea45a2b03f3995 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:05:16 +0800
Subject: [PATCH 222/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 7 ++++++-
 1 file changed, 6 insertions(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index e41d5704..e4421741 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -488,7 +488,12 @@ __forceinline__ __device__ void dispatch_recv(
         recv_token_begin_idx = shared_recv_token_begin_idx[warp_group_id];
 
         // Copy tokens
-        for (int i = sub_warp_id; i < num_recv_tokens; i += num_warps_per_group) {
+        // for (int i = sub_warp_id; i < num_recv_tokens; i += num_warps_per_group) {
+        for (
+            int i = cooperate_idx;
+            i < num_recv_tokens;
+            i += num_cooperate_parts
+        ) {
             // Copy source info
             const auto src_src_idx = reinterpret_cast<int*>(rdma_recv_x_uint8 + i * Consts::num_bytes_per_msg);
             if (lane_id == 0)

From 7c371921fae91b060df8352ec41699c7bb287848 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:05:51 +0800
Subject: [PATCH 223/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 55 ++++++++++++++++----------------
 1 file changed, 28 insertions(+), 27 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index e4421741..86cb04f8 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -459,33 +459,34 @@ __forceinline__ __device__ void dispatch_recv(
         const auto num_aligned_scales = align<int>(Consts::num_scales, sizeof(float) / sizeof(scale_t));
         const auto recv_x_scales = static_cast<scale_t*>(packed_recv_x_scales) + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_aligned_scales;
 
-        // Shared between sub-warps in warp groups
-        __shared__ int shared_num_recv_tokens[kNumMaxWarpGroups], shared_recv_token_begin_idx[kNumMaxWarpGroups];
-
-        // Wait tokens to arrive
-        // NOTES: using sub-warp 1 to overlap with sub-warp 0
-        int num_recv_tokens, recv_token_begin_idx;
-        EP_DEVICE_ASSERT(num_warps_per_group > 1 and num_warp_groups < 15);
-        if (sub_warp_id == 1 and lane_id == 0) {
-            // auto start_time = clock64(); // not used
-            while ((num_recv_tokens = ld_acquire_sys_global(rdma_recv_count + local_expert_idx * num_ranks + src_rank)) == 0);
-            // auto wait_recv_cost = clock64() - start_time; // not used
-            num_recv_tokens = -num_recv_tokens - 1;
-            recv_token_begin_idx = atomicAdd(packed_recv_count + local_expert_idx, num_recv_tokens);
-            shared_num_recv_tokens[warp_group_id] = num_recv_tokens;
-            shared_recv_token_begin_idx[warp_group_id] = recv_token_begin_idx;
-            recv_range[src_rank] = pack2<int, int64_t>(num_recv_tokens, recv_token_begin_idx);
-
-            // not handled
-//                 // Add stats for diagnosis
-//                 if (cumulative_local_expert_recv_stats != nullptr)
-//                     atomicAdd(cumulative_local_expert_recv_stats + local_expert_idx, num_recv_tokens);
-//                 if (dispatch_wait_recv_cost_stats != nullptr)
-//                     atomicAdd(reinterpret_cast<unsigned long long*>(dispatch_wait_recv_cost_stats + src_rank), wait_recv_cost);
-        }
-        asm volatile("bar.sync %0, %1;" :: "r"(warp_group_id + 2), "r"(num_warps_per_group * 32));
-        num_recv_tokens = shared_num_recv_tokens[warp_group_id];
-        recv_token_begin_idx = shared_recv_token_begin_idx[warp_group_id];
+        // NOTE no longer have per-expert signals
+//         // Shared between sub-warps in warp groups
+//         __shared__ int shared_num_recv_tokens[kNumMaxWarpGroups], shared_recv_token_begin_idx[kNumMaxWarpGroups];
+//
+//         // Wait tokens to arrive
+//         // NOTES: using sub-warp 1 to overlap with sub-warp 0
+//         int num_recv_tokens, recv_token_begin_idx;
+//         EP_DEVICE_ASSERT(num_warps_per_group > 1 and num_warp_groups < 15);
+//         if (sub_warp_id == 1 and lane_id == 0) {
+//             // auto start_time = clock64(); // not used
+//             while ((num_recv_tokens = ld_acquire_sys_global(rdma_recv_count + local_expert_idx * num_ranks + src_rank)) == 0);
+//             // auto wait_recv_cost = clock64() - start_time; // not used
+//             num_recv_tokens = -num_recv_tokens - 1;
+//             recv_token_begin_idx = atomicAdd(packed_recv_count + local_expert_idx, num_recv_tokens);
+//             shared_num_recv_tokens[warp_group_id] = num_recv_tokens;
+//             shared_recv_token_begin_idx[warp_group_id] = recv_token_begin_idx;
+//             recv_range[src_rank] = pack2<int, int64_t>(num_recv_tokens, recv_token_begin_idx);
+//
+//             // not handled
+// //                 // Add stats for diagnosis
+// //                 if (cumulative_local_expert_recv_stats != nullptr)
+// //                     atomicAdd(cumulative_local_expert_recv_stats + local_expert_idx, num_recv_tokens);
+// //                 if (dispatch_wait_recv_cost_stats != nullptr)
+// //                     atomicAdd(reinterpret_cast<unsigned long long*>(dispatch_wait_recv_cost_stats + src_rank), wait_recv_cost);
+//         }
+//         asm volatile("bar.sync %0, %1;" :: "r"(warp_group_id + 2), "r"(num_warps_per_group * 32));
+//         num_recv_tokens = shared_num_recv_tokens[warp_group_id];
+//         recv_token_begin_idx = shared_recv_token_begin_idx[warp_group_id];
 
         // Copy tokens
         // for (int i = sub_warp_id; i < num_recv_tokens; i += num_warps_per_group) {

From 5736c08f686b2a8ebd87021608f6186e94750be5 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:09:54 +0800
Subject: [PATCH 224/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 19 +++++++++++++++----
 1 file changed, 15 insertions(+), 4 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 86cb04f8..f0a96b68 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -107,7 +107,8 @@ __forceinline__ __device__ void dispatch_send(
             {
                 const auto dst_ptr = layout_range_buffer;
                 const auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
-                dst_p2p_ptr[dst_expert_local_idx * num_ranks + rank] = pack2<int, int64_t>(num_tokens_to_send, remote_start_offset_of_dst_rank);
+                const auto val = pack2<int, int64_t>(num_tokens_to_send, remote_start_offset_of_dst_rank);
+                dst_p2p_ptr[dst_expert_local_idx * num_ranks + rank] = -val-1;
             }
 
             // 2. Write metadata to local
@@ -459,6 +460,14 @@ __forceinline__ __device__ void dispatch_recv(
         const auto num_aligned_scales = align<int>(Consts::num_scales, sizeof(float) / sizeof(scale_t));
         const auto recv_x_scales = static_cast<scale_t*>(packed_recv_x_scales) + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_aligned_scales;
 
+        int num_recv_tokens, token_start_offset;
+        {
+            int64_t layout;
+            while((layout = TODO(layout_range_buffer + local_expert_idx * num_ranks + src_rank)) == 0);
+            layout = -layout - 1;
+            unpack2(layout, num_recv_tokens, token_start_offset);
+        }
+
         // NOTE no longer have per-expert signals
 //         // Shared between sub-warps in warp groups
 //         __shared__ int shared_num_recv_tokens[kNumMaxWarpGroups], shared_recv_token_begin_idx[kNumMaxWarpGroups];
@@ -491,10 +500,12 @@ __forceinline__ __device__ void dispatch_recv(
         // Copy tokens
         // for (int i = sub_warp_id; i < num_recv_tokens; i += num_warps_per_group) {
         for (
-            int i = cooperate_idx;
-            i < num_recv_tokens;
-            i += num_cooperate_parts
+            int i_raw = cooperate_idx;
+            i_raw < num_recv_tokens;
+            i_raw += num_cooperate_parts
         ) {
+            const int i = i_raw + token_start_offset;
+
             // Copy source info
             const auto src_src_idx = reinterpret_cast<int*>(rdma_recv_x_uint8 + i * Consts::num_bytes_per_msg);
             if (lane_id == 0)

From c6fd0cdc590894f59eb79fe8ba7ca9131ca93d37 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:10:14 +0800
Subject: [PATCH 225/393] moew

---
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index f0a96b68..3f0ec7bb 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -463,7 +463,7 @@ __forceinline__ __device__ void dispatch_recv(
         int num_recv_tokens, token_start_offset;
         {
             int64_t layout;
-            while((layout = TODO(layout_range_buffer + local_expert_idx * num_ranks + src_rank)) == 0);
+            while((layout = ld_volatile_global(layout_range_buffer + local_expert_idx * num_ranks + src_rank)) == 0);
             layout = -layout - 1;
             unpack2(layout, num_recv_tokens, token_start_offset);
         }

From e2378e73d727420b16afec6d68a0f16f51216a6b Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:11:04 +0800
Subject: [PATCH 226/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 1 +
 1 file changed, 1 insertion(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 3f0ec7bb..9c110580 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -460,6 +460,7 @@ __forceinline__ __device__ void dispatch_recv(
         const auto num_aligned_scales = align<int>(Consts::num_scales, sizeof(float) / sizeof(scale_t));
         const auto recv_x_scales = static_cast<scale_t*>(packed_recv_x_scales) + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_aligned_scales;
 
+        TODO_only_run_on_some_threads;
         int num_recv_tokens, token_start_offset;
         {
             int64_t layout;

From ee84ee060e991e874f478a3338866c475035c7ee Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:14:04 +0800
Subject: [PATCH 227/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 9c110580..ab02015e 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -460,14 +460,15 @@ __forceinline__ __device__ void dispatch_recv(
         const auto num_aligned_scales = align<int>(Consts::num_scales, sizeof(float) / sizeof(scale_t));
         const auto recv_x_scales = static_cast<scale_t*>(packed_recv_x_scales) + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_aligned_scales;
 
-        TODO_only_run_on_some_threads;
         int num_recv_tokens, token_start_offset;
-        {
+        if (lane_id == 0) {
             int64_t layout;
             while((layout = ld_volatile_global(layout_range_buffer + local_expert_idx * num_ranks + src_rank)) == 0);
             layout = -layout - 1;
             unpack2(layout, num_recv_tokens, token_start_offset);
         }
+        num_recv_tokens = __shfl_sync(0xffffffff, num_recv_tokens, 0);
+        token_start_offset = __shfl_sync(0xffffffff, token_start_offset, 0);
 
         // NOTE no longer have per-expert signals
 //         // Shared between sub-warps in warp groups

From f1fd7e339f9e7f01a11df63c7efecd97e1ef9cc5 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:16:30 +0800
Subject: [PATCH 228/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 6 ++++++
 1 file changed, 6 insertions(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index ab02015e..73830acd 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -5,6 +5,8 @@
 
 #include "internode_ll_v2_inc.cuh"
 
+constexpr int DST_SIGNAL_EXPECT_VALUE = 1000000;
+
 namespace deep_ep {
 namespace internode_ll {
 
@@ -466,6 +468,10 @@ __forceinline__ __device__ void dispatch_recv(
             while((layout = ld_volatile_global(layout_range_buffer + local_expert_idx * num_ranks + src_rank)) == 0);
             layout = -layout - 1;
             unpack2(layout, num_recv_tokens, token_start_offset);
+
+            if (dst_signals != nullptr) {
+                atomic_add_release_global(dst_signals + local_expert_idx, DST_SIGNAL_EXPECT_VALUE - num_recv_tokens);
+            }
         }
         num_recv_tokens = __shfl_sync(0xffffffff, num_recv_tokens, 0);
         token_start_offset = __shfl_sync(0xffffffff, token_start_offset, 0);

From a4c50da183512a9d971dea3e517fdab3dca8451c Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:17:22 +0800
Subject: [PATCH 229/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 73830acd..181d78ce 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -469,7 +469,7 @@ __forceinline__ __device__ void dispatch_recv(
             layout = -layout - 1;
             unpack2(layout, num_recv_tokens, token_start_offset);
 
-            if (dst_signals != nullptr) {
+            if ((dst_signals != nullptr) and TODO) {
                 atomic_add_release_global(dst_signals + local_expert_idx, DST_SIGNAL_EXPECT_VALUE - num_recv_tokens);
             }
         }

From 23cf179fa33fad0635c32541363f7716e8a2a1e5 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:17:51 +0800
Subject: [PATCH 230/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 181d78ce..7fdaaf3b 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -469,7 +469,7 @@ __forceinline__ __device__ void dispatch_recv(
             layout = -layout - 1;
             unpack2(layout, num_recv_tokens, token_start_offset);
 
-            if ((dst_signals != nullptr) and TODO) {
+            if ((dst_signals != nullptr) and (cooperate_idx == 0)) {
                 atomic_add_release_global(dst_signals + local_expert_idx, DST_SIGNAL_EXPECT_VALUE - num_recv_tokens);
             }
         }

From 550a0377532cb6262b5bca8ac505656fb2bb4165 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:18:21 +0800
Subject: [PATCH 231/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 11 ++++++-----
 1 file changed, 6 insertions(+), 5 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 7fdaaf3b..f965acd7 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -520,11 +520,12 @@ __forceinline__ __device__ void dispatch_recv(
                 recv_src_info[recv_token_begin_idx + i] = ld_nc_global(src_src_idx);
             __syncwarp();
 
-            // Copy data
-            // NOTES: only 2 load iterations for 7K hidden with 7 unrolls
-            const auto src_data = reinterpret_cast<int4*>(reinterpret_cast<uint8_t*>(src_src_idx) + sizeof(int4));
-            const auto dst_data = recv_x_int4 + (recv_token_begin_idx + i) * Consts::hidden_int4;
-            UNROLLED_WARP_COPY(7, lane_id, Consts::hidden_int4, dst_data, src_data, ld_nc_global, st_na_global);
+            // do not need to copy real data now
+//             // Copy data
+//             // NOTES: only 2 load iterations for 7K hidden with 7 unrolls
+//             const auto src_data = reinterpret_cast<int4*>(reinterpret_cast<uint8_t*>(src_src_idx) + sizeof(int4));
+//             const auto dst_data = recv_x_int4 + (recv_token_begin_idx + i) * Consts::hidden_int4;
+//             UNROLLED_WARP_COPY(7, lane_id, Consts::hidden_int4, dst_data, src_data, ld_nc_global, st_na_global);
 
             // Copy scales
             if constexpr (kUseFP8) {

From 0323a11d5071115ac9a6fcb78ea120817ee4fb3b Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:18:45 +0800
Subject: [PATCH 232/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 10 +++++-----
 1 file changed, 5 insertions(+), 5 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index f965acd7..3044435d 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -568,12 +568,12 @@ __forceinline__ __device__ void dispatch_recv(
                     recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
                 }
             }
-        }
 
-        if (dst_signals != nullptr) {
-            __syncwarp();
-            if (lane_id == 0) {
-                atomic_add_release_global(dst_signals + local_expert_idx, 1);
+            if (dst_signals != nullptr) {
+                __syncwarp();
+                if (lane_id == 0) {
+                    atomic_add_release_global(dst_signals + local_expert_idx, 1);
+                }
             }
         }
     }

From 8e2d27748d38e30c09904f5748c2eacaacc2a1d6 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:26:56 +0800
Subject: [PATCH 233/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 17 +++++++++++++----
 1 file changed, 13 insertions(+), 4 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 3044435d..b4630f06 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -514,10 +514,19 @@ __forceinline__ __device__ void dispatch_recv(
         ) {
             const int i = i_raw + token_start_offset;
 
-            // Copy source info
-            const auto src_src_idx = reinterpret_cast<int*>(rdma_recv_x_uint8 + i * Consts::num_bytes_per_msg);
-            if (lane_id == 0)
-                recv_src_info[recv_token_begin_idx + i] = ld_nc_global(src_src_idx);
+//             // Copy source info
+//             const auto src_src_idx = reinterpret_cast<int*>(rdma_recv_x_uint8 + i * Consts::num_bytes_per_msg);
+//             if (lane_id == 0)
+//                 recv_src_info[recv_token_begin_idx + i] = ld_nc_global(src_src_idx);
+
+            // Read signal + Copy source info
+            if (lane_id == 0) {
+                int recv_src_idx;
+                while ((recv_src_idx = ld_acquire_sys_global(TODO)) == 0);
+                recv_src_idx = -recv_src_idx-1;
+
+                recv_src_info[recv_token_begin_idx + i] = recv_src_idx;
+            }
             __syncwarp();
 
             // do not need to copy real data now

From 621535a6900504118b66bb07c0ae083690f11f8b Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:27:45 +0800
Subject: [PATCH 234/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index b4630f06..8ee6c961 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -515,14 +515,14 @@ __forceinline__ __device__ void dispatch_recv(
             const int i = i_raw + token_start_offset;
 
 //             // Copy source info
-//             const auto src_src_idx = reinterpret_cast<int*>(rdma_recv_x_uint8 + i * Consts::num_bytes_per_msg);
+            const auto src_src_idx = reinterpret_cast<int*>(rdma_recv_x_uint8 + i * Consts::num_bytes_per_msg);
 //             if (lane_id == 0)
 //                 recv_src_info[recv_token_begin_idx + i] = ld_nc_global(src_src_idx);
 
             // Read signal + Copy source info
             if (lane_id == 0) {
                 int recv_src_idx;
-                while ((recv_src_idx = ld_acquire_sys_global(TODO)) == 0);
+                while ((recv_src_idx = ld_acquire_sys_global(src_src_idx)) == 0);
                 recv_src_idx = -recv_src_idx-1;
 
                 recv_src_info[recv_token_begin_idx + i] = recv_src_idx;
@@ -532,7 +532,7 @@ __forceinline__ __device__ void dispatch_recv(
             // do not need to copy real data now
 //             // Copy data
 //             // NOTES: only 2 load iterations for 7K hidden with 7 unrolls
-//             const auto src_data = reinterpret_cast<int4*>(reinterpret_cast<uint8_t*>(src_src_idx) + sizeof(int4));
+            const auto src_data = reinterpret_cast<int4*>(reinterpret_cast<uint8_t*>(src_src_idx) + sizeof(int4));
 //             const auto dst_data = recv_x_int4 + (recv_token_begin_idx + i) * Consts::hidden_int4;
 //             UNROLLED_WARP_COPY(7, lane_id, Consts::hidden_int4, dst_data, src_data, ld_nc_global, st_na_global);
 

From 75ec102fc91cab9378d00a9de2bb4cbf0abffde7 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:28:38 +0800
Subject: [PATCH 235/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 8ee6c961..a2eef597 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -525,6 +525,9 @@ __forceinline__ __device__ void dispatch_recv(
                 while ((recv_src_idx = ld_acquire_sys_global(src_src_idx)) == 0);
                 recv_src_idx = -recv_src_idx-1;
 
+                // cleanup (will be used in the next round)
+                *src_src_idx = 0;
+
                 recv_src_info[recv_token_begin_idx + i] = recv_src_idx;
             }
             __syncwarp();

From 3ff888a2c04b4df223d6ec482e5fc6e58585453a Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:30:49 +0800
Subject: [PATCH 236/393] more

---
 csrc/deep_ep.cpp | 9 ++++++++-
 1 file changed, 8 insertions(+), 1 deletion(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index da5841b6..c6ed705b 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -13,6 +13,12 @@
 
 namespace deep_ep {
 
+cudaError_t cudaMallocAndZero(void** devPtr, size_t size) {
+    cudaError_t err = cudaMalloc(devPtr, size);
+    if (err != cudaSuccess) return err;
+    return cudaMemset(*devPtr, 0, size);
+}
+
 Buffer::Buffer(int rank, int num_ranks, int64_t num_nvl_bytes, int64_t num_rdma_bytes, bool low_latency_mode, bool explicitly_destroy):
         rank(rank), num_ranks(num_ranks),
         num_nvl_bytes(num_nvl_bytes), num_rdma_bytes(num_rdma_bytes),
@@ -47,7 +53,8 @@ Buffer::Buffer(int rank, int num_ranks, int64_t num_nvl_bytes, int64_t num_rdma_
 
     if (num_nvl_bytes > 0) {
         // Local IPC: alloc local memory and set local IPC handles
-        CUDA_CHECK(cudaMalloc(&buffer_ptrs[nvl_rank], num_nvl_bytes + barrier_signal_bytes + buffer_ptr_bytes + barrier_signal_ptr_bytes));
+        // NOTE cudaMalloc -> cudaMallocAndZero, since the per-token signal in dispatch needs init as zero
+        CUDA_CHECK(cudaMallocAndZero(&buffer_ptrs[nvl_rank], num_nvl_bytes + barrier_signal_bytes + buffer_ptr_bytes + barrier_signal_ptr_bytes));
         CUDA_CHECK(cudaIpcGetMemHandle(&ipc_handles[nvl_rank], buffer_ptrs[nvl_rank]));
         buffer_ptrs_gpu = reinterpret_cast<void**>(static_cast<uint8_t*>(buffer_ptrs[nvl_rank]) + num_nvl_bytes + barrier_signal_bytes);
 

From e791b3e5644fdba1c38aac55d77dc33a2153ae05 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:44:56 +0800
Subject: [PATCH 237/393] more

---
 csrc/config.hpp | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/csrc/config.hpp b/csrc/config.hpp
index 5c911989..ff5ab21d 100644
--- a/csrc/config.hpp
+++ b/csrc/config.hpp
@@ -89,6 +89,10 @@ struct Config {
         num_bytes += num_channels * num_rdma_ranks * num_max_rdma_chunked_recv_tokens * kNumMaxTopK * sizeof(float) * 2;
         num_bytes += num_channels * num_rdma_ranks * num_max_rdma_chunked_recv_tokens * kNumMaxScales * sizeof(float) * 2;
         num_bytes += num_channels * num_rdma_ranks * num_max_rdma_chunked_recv_tokens * sizeof(int4) * 2;
+
+        // NOTE add a large number to be safe
+        num_bytes += 1048576;
+
         num_bytes = ((num_bytes + 127) / 128) * 128;
         return num_bytes;
 #else

From b57ec16f401fac4221080d40efe97caac48d4375 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:46:25 +0800
Subject: [PATCH 238/393] more

---
 csrc/config.hpp                  | 4 +++-
 csrc/kernels/internode_ll_v2.cuh | 6 +++---
 2 files changed, 6 insertions(+), 4 deletions(-)

diff --git a/csrc/config.hpp b/csrc/config.hpp
index ff5ab21d..ee12a3a6 100644
--- a/csrc/config.hpp
+++ b/csrc/config.hpp
@@ -161,7 +161,9 @@ struct LowLatencyLayout {
         total_bytes += recv_buffer_bytes * 2;
 
         // Symmetric signaling buffers
-        size_t dispatch_recv_count_buffer_bytes = num_experts * sizeof(int);
+        // NOTE can only increase instead of decrease to be compatible with v1
+        // size_t dispatch_recv_count_buffer_bytes = num_experts * sizeof(int);
+        size_t dispatch_recv_count_buffer_bytes = num_experts * sizeof(int64_t) + num_local_experts * sizeof(int);
         size_t combine_recv_flag_buffer_bytes = dispatch_recv_count_buffer_bytes;
         size_t signaling_buffer_bytes = std::max(dispatch_recv_count_buffer_bytes, combine_recv_flag_buffer_bytes);
         size_t signaling_buffer_bytes_aligned = align<size_t>(signaling_buffer_bytes, 128);
diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index a2eef597..381d99fb 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -71,14 +71,14 @@ __forceinline__ __device__ void dispatch_send(
 //             atomic_add_release_global(atomic_finish_counter_per_expert + i, FINISHED_SUM_TAG);
     }
 
-    // (num_local_experts,). use by REMOTE gpus. all gpus atomic-add on it to get a slice of locations to send data to
-    const int* negotiate_offset_of_expert_buffer = TODO;
-
     // (num_local_experts, num_ranks). written by REMOTE gpus, read by curr gpu.
     // arr[local_expert_idx, src_rank] := the (num_tokens, start_offset) layout information of that src_rank
     // similar to `packed_recv_layout_range`, but written remotely
     const int64_t* layout_range_buffer = TODO;
 
+    // (num_local_experts,). use by REMOTE gpus. all gpus atomic-add on it to get a slice of locations to send data to
+    const int* negotiate_offset_of_expert_buffer = TODO;
+
     // (num_experts,). used in curr gpu. for i-th dst rank, what is the start offset in the remote buffer
     TODO_need_zeroing;
     const int* remote_start_offset_of_dst_rank_buffer = TODO;

From 030cdf0ad4538c1d9ee92872b5be77d01b067a60 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:46:35 +0800
Subject: [PATCH 239/393] more

---
 csrc/config.hpp | 1 +
 1 file changed, 1 insertion(+)

diff --git a/csrc/config.hpp b/csrc/config.hpp
index ee12a3a6..6b0a2bf1 100644
--- a/csrc/config.hpp
+++ b/csrc/config.hpp
@@ -162,6 +162,7 @@ struct LowLatencyLayout {
 
         // Symmetric signaling buffers
         // NOTE can only increase instead of decrease to be compatible with v1
+        // NOTE be careful about alignment
         // size_t dispatch_recv_count_buffer_bytes = num_experts * sizeof(int);
         size_t dispatch_recv_count_buffer_bytes = num_experts * sizeof(int64_t) + num_local_experts * sizeof(int);
         size_t combine_recv_flag_buffer_bytes = dispatch_recv_count_buffer_bytes;

From 86c6c7e76f5daf8b9b8bd867cdb8873a391b1f55 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:47:02 +0800
Subject: [PATCH 240/393] more

---
 csrc/config.hpp | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/csrc/config.hpp b/csrc/config.hpp
index 6b0a2bf1..6c92dcc2 100644
--- a/csrc/config.hpp
+++ b/csrc/config.hpp
@@ -164,9 +164,9 @@ struct LowLatencyLayout {
         // NOTE can only increase instead of decrease to be compatible with v1
         // NOTE be careful about alignment
         // size_t dispatch_recv_count_buffer_bytes = num_experts * sizeof(int);
-        size_t dispatch_recv_count_buffer_bytes = num_experts * sizeof(int64_t) + num_local_experts * sizeof(int);
-        size_t combine_recv_flag_buffer_bytes = dispatch_recv_count_buffer_bytes;
-        size_t signaling_buffer_bytes = std::max(dispatch_recv_count_buffer_bytes, combine_recv_flag_buffer_bytes);
+        size_t dispatch_general_signal_buffer_bytes = num_experts * sizeof(int64_t) + num_local_experts * sizeof(int);
+        size_t combine_recv_flag_buffer_bytes = dispatch_general_signal_buffer_bytes;
+        size_t signaling_buffer_bytes = std::max(dispatch_general_signal_buffer_bytes, combine_recv_flag_buffer_bytes);
         size_t signaling_buffer_bytes_aligned = align<size_t>(signaling_buffer_bytes, 128);
         total_bytes += signaling_buffer_bytes_aligned * 2;
 

From 2c53894d49acefb2c834d36e69ca6a9f428f1503 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:47:52 +0800
Subject: [PATCH 241/393] more

---
 csrc/config.hpp  | 8 +++++---
 csrc/deep_ep.cpp | 2 +-
 2 files changed, 6 insertions(+), 4 deletions(-)

diff --git a/csrc/config.hpp b/csrc/config.hpp
index 6c92dcc2..d521fb64 100644
--- a/csrc/config.hpp
+++ b/csrc/config.hpp
@@ -106,7 +106,9 @@ struct LowLatencyBuffer {
 
     void* dispatch_rdma_send_buffer = nullptr;
     void* dispatch_rdma_recv_data_buffer = nullptr;
-    int* dispatch_rdma_recv_count_buffer = nullptr;
+    // NOTE rename
+    // int* dispatch_rdma_recv_count_buffer = nullptr;
+    int* dispatch_rdma_general_signal_buffer = nullptr;
 
     void* combine_rdma_send_buffer = nullptr;
     void* combine_rdma_recv_data_buffer = nullptr;
@@ -116,8 +118,8 @@ struct LowLatencyBuffer {
     size_t num_bytes_per_combine_msg = 0;
 
     std::pair<int*, int> clean_meta() {
-        EP_HOST_ASSERT(dispatch_rdma_recv_count_buffer == combine_rdma_recv_flag_buffer);
-        return {dispatch_rdma_recv_count_buffer, num_clean_int};
+        EP_HOST_ASSERT(dispatch_rdma_general_signal_buffer == combine_rdma_recv_flag_buffer);
+        return {dispatch_rdma_general_signal_buffer, num_clean_int};
     }
 };
 
diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index c6ed705b..6b94e3a9 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1234,7 +1234,7 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
                                packed_recv_count.data_ptr<int>(),
                                cumulative_local_expert_recv_stats.has_value() ? cumulative_local_expert_recv_stats->data_ptr<int>() : nullptr,
                                dispatch_wait_recv_cost_stats.has_value() ? dispatch_wait_recv_cost_stats->data_ptr<int64_t>() : nullptr,
-                               buffer.dispatch_rdma_recv_data_buffer, buffer.dispatch_rdma_recv_count_buffer,
+                               buffer.dispatch_rdma_recv_data_buffer, buffer.dispatch_rdma_general_signal_buffer,
                                buffer.dispatch_rdma_send_buffer,
                                x.data_ptr(), topk_idx.data_ptr<int64_t>(),
                                next_clean_meta.first, next_clean_meta.second,

From 4b21761ee1edc3d219319d5282e77305abef853d Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:48:59 +0800
Subject: [PATCH 242/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 11 ++++++++---
 1 file changed, 8 insertions(+), 3 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 381d99fb..c062e83f 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -22,7 +22,8 @@ __forceinline__ __device__ void dispatch_send(
     int* packed_recv_count,
     int* cumulative_local_expert_recv_stats,
     int64_t* dispatch_wait_recv_cost_stats,
-    void* rdma_recv_x, int* rdma_recv_count,
+    void* rdma_recv_x,
+    // int* rdma_recv_count, // NOTE removed
     // void* rdma_x, // NOTE removed
     void* x, const int64_t* topk_idx, // NOTE rm `const` of x
     int* atomic_counter_per_expert,
@@ -388,7 +389,8 @@ __forceinline__ __device__ void dispatch_recv(
     int* packed_recv_count,
     int* cumulative_local_expert_recv_stats,
     int64_t* dispatch_wait_recv_cost_stats,
-    void* rdma_recv_x, int* rdma_recv_count,
+    void* rdma_recv_x,
+    // int* rdma_recv_count, // NOTE removed
     // void* rdma_x, // NOTE removed
     const void* x, const int64_t* topk_idx,
     int* atomic_counter_per_expert, int* atomic_finish_counter_per_expert,
@@ -695,6 +697,9 @@ void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
     TOOD_args_rm(token_ids_of_expert, token_ids_of_expert_stride_0);
     constexpr int kNumMaxTopK = 9;
 
+    // NOTE renamed
+    int* rdma_general_signal;
+
     // NOTE MODIFIED
     // const int num_warp_groups = ceil_div(num_experts, num_device_sms);
     const int num_warp_groups = 2;
@@ -742,7 +747,7 @@ LAUNCH_KERNEL(&cfg, dispatch_func, \
               packed_recv_count, \
               cumulative_local_expert_recv_stats, \
               dispatch_wait_recv_cost_stats, \
-              rdma_recv_x, rdma_recv_count, \
+              rdma_recv_x, \
               x, topk_idx, \
               atomic_counter_per_expert, atomic_finish_counter_per_expert, \
               next_clean, num_next_clean_int, \

From 38394ebc81251da3812629c4739975c05126ce71 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:49:18 +0800
Subject: [PATCH 243/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 7 ++++---
 1 file changed, 4 insertions(+), 3 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index c062e83f..10edf550 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -602,7 +602,8 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
          int* packed_recv_count,
          int* cumulative_local_expert_recv_stats,
          int64_t* dispatch_wait_recv_cost_stats,
-         void* rdma_recv_x, int* rdma_recv_count,
+         void* rdma_recv_x,
+         // int* rdma_recv_count, // NOTE removed
          // void* rdma_x, // NOTE removed
          void* x, const int64_t* topk_idx, // NOTE rm `const` of x
          int* atomic_counter_per_expert, int* atomic_finish_counter_per_expert,
@@ -629,7 +630,7 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
                 packed_recv_count,
                 cumulative_local_expert_recv_stats,
                 dispatch_wait_recv_cost_stats,
-                rdma_recv_x, rdma_recv_count,
+                rdma_recv_x,
                 x, topk_idx,
                 atomic_counter_per_expert, atomic_finish_counter_per_expert,
                 next_clean, num_next_clean_int,
@@ -653,7 +654,7 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
                 packed_recv_count,
                 cumulative_local_expert_recv_stats,
                 dispatch_wait_recv_cost_stats,
-                rdma_recv_x, rdma_recv_count,
+                rdma_recv_x,
                 x, topk_idx,
                 atomic_counter_per_expert, atomic_finish_counter_per_expert,
                 next_clean, num_next_clean_int,

From 52bbde5bb6916cad6d1a94a23952f2c037a4bb07 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:49:40 +0800
Subject: [PATCH 244/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 10edf550..57017e22 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -698,8 +698,8 @@ void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
     TOOD_args_rm(token_ids_of_expert, token_ids_of_expert_stride_0);
     constexpr int kNumMaxTopK = 9;
 
-    // NOTE renamed
-    int* rdma_general_signal;
+    // NOTE simple renaming
+    int* rdma_general_signal = rdma_recv_count;
 
     // NOTE MODIFIED
     // const int num_warp_groups = ceil_div(num_experts, num_device_sms);

From 05ac9c3b3aa8b8a0280e8ce9f1482790771de59e Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:51:40 +0800
Subject: [PATCH 245/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 29 +++++++++++++++++------------
 1 file changed, 17 insertions(+), 12 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 57017e22..05bf9109 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -36,6 +36,7 @@ __forceinline__ __device__ void dispatch_send(
     bool round_scale, int phases,
     uint32_t* dst_signals,
     uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
+    int64_t* layout_range_buffer, int* negotiate_offset_of_expert_buffer
 ) {
     using Consts = DispatchConstsTemplate<kUseFP8, kUseNVFP4, kHidden>;
     EP_DEVICE_ASSERT(Consts::num_bytes_per_msg % sizeof(int4) == 0);
@@ -72,14 +73,6 @@ __forceinline__ __device__ void dispatch_send(
 //             atomic_add_release_global(atomic_finish_counter_per_expert + i, FINISHED_SUM_TAG);
     }
 
-    // (num_local_experts, num_ranks). written by REMOTE gpus, read by curr gpu.
-    // arr[local_expert_idx, src_rank] := the (num_tokens, start_offset) layout information of that src_rank
-    // similar to `packed_recv_layout_range`, but written remotely
-    const int64_t* layout_range_buffer = TODO;
-
-    // (num_local_experts,). use by REMOTE gpus. all gpus atomic-add on it to get a slice of locations to send data to
-    const int* negotiate_offset_of_expert_buffer = TODO;
-
     // (num_experts,). used in curr gpu. for i-th dst rank, what is the start offset in the remote buffer
     TODO_need_zeroing;
     const int* remote_start_offset_of_dst_rank_buffer = TODO;
@@ -401,7 +394,8 @@ __forceinline__ __device__ void dispatch_recv(
     int num_warps_per_group,
     bool round_scale, int phases,
     uint32_t* dst_signals,
-    uint32_t* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0
+    uint32_t* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0,
+    int64_t* layout_range_buffer, int* negotiate_offset_of_expert_buffer
 ) {
     using Consts = DispatchConstsTemplate<kUseFP8, kUseNVFP4, kHidden>;
 
@@ -603,7 +597,7 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
          int* cumulative_local_expert_recv_stats,
          int64_t* dispatch_wait_recv_cost_stats,
          void* rdma_recv_x,
-         // int* rdma_recv_count, // NOTE removed
+         int* rdma_general_signal, // NOTE renamed from `rdma_recv_count`
          // void* rdma_x, // NOTE removed
          void* x, const int64_t* topk_idx, // NOTE rm `const` of x
          int* atomic_counter_per_expert, int* atomic_finish_counter_per_expert,
@@ -618,6 +612,15 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
          uint32_t* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0) {
     const auto num_send_threads = num_send_warp_groups * num_warps_per_group * 32;
     const auto raw_thread_id = static_cast<int>(threadIdx.x);
+
+    // (num_local_experts, num_ranks). written by REMOTE gpus, read by curr gpu.
+    // arr[local_expert_idx, src_rank] := the (num_tokens, start_offset) layout information of that src_rank
+    // similar to `packed_recv_layout_range`, but written remotely
+    int64_t* layout_range_buffer = TODO;
+
+    // (num_local_experts,). use by REMOTE gpus. all gpus atomic-add on it to get a slice of locations to send data to
+    int* negotiate_offset_of_expert_buffer = TODO;
+
     if (raw_thread_id < num_send_threads) {
         if (phases & LOW_LATENCY_SEND_PHASE) {
             const auto send_thread_id = raw_thread_id;
@@ -639,7 +642,8 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
                 num_warps_per_group,
                 round_scale, phases,
                 dst_signals,
-                count_per_expert, token_ids_of_expert, token_ids_of_expert_stride_0
+                count_per_expert, token_ids_of_expert, token_ids_of_expert_stride_0,
+                layout_range_buffer, negotiate_offset_of_expert_buffer
             );
         }
     } else {
@@ -663,7 +667,8 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
                 num_warps_per_group,
                 round_scale, phases,
                 dst_signals,
-                count_per_expert, token_ids_of_expert, token_ids_of_expert_stride_0
+                count_per_expert, token_ids_of_expert, token_ids_of_expert_stride_0,
+                layout_range_buffer, negotiate_offset_of_expert_buffer
             );
         }
     }

From cfbfeb98680c60d5c6075452ec8c435de89adf4e Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:52:42 +0800
Subject: [PATCH 246/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 7 +++++++
 1 file changed, 7 insertions(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 05bf9109..92177628 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -610,6 +610,7 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
          bool round_scale, int phases,
          uint32_t* dst_signals,
          uint32_t* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0) {
+    const auto sm_id = static_cast<int>(blockIdx.x);
     const auto num_send_threads = num_send_warp_groups * num_warps_per_group * 32;
     const auto raw_thread_id = static_cast<int>(threadIdx.x);
 
@@ -621,6 +622,12 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
     // (num_local_experts,). use by REMOTE gpus. all gpus atomic-add on it to get a slice of locations to send data to
     int* negotiate_offset_of_expert_buffer = TODO;
 
+    if ((sm_id == 0) and (raw_thread_id == 0)) {
+        // assert alignment
+        EP_DEVICE_ASSERT(((int64_t)layout_range_buffer) % 16 == 0);
+        EP_DEVICE_ASSERT(((int64_t)negotiate_offset_of_expert_buffer) % 16 == 0);
+    }
+
     if (raw_thread_id < num_send_threads) {
         if (phases & LOW_LATENCY_SEND_PHASE) {
             const auto send_thread_id = raw_thread_id;

From 729cfccefe1c02b0e13f9759f007431c8213f162 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:53:20 +0800
Subject: [PATCH 247/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 92177628..6fd92df6 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -617,10 +617,10 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
     // (num_local_experts, num_ranks). written by REMOTE gpus, read by curr gpu.
     // arr[local_expert_idx, src_rank] := the (num_tokens, start_offset) layout information of that src_rank
     // similar to `packed_recv_layout_range`, but written remotely
-    int64_t* layout_range_buffer = TODO;
+    int64_t* layout_range_buffer = (int64_t*) rdma_general_signal;
 
     // (num_local_experts,). use by REMOTE gpus. all gpus atomic-add on it to get a slice of locations to send data to
-    int* negotiate_offset_of_expert_buffer = TODO;
+    int* negotiate_offset_of_expert_buffer = (int*) (((uint8_t*)rdma_general_signal) + TODO);
 
     if ((sm_id == 0) and (raw_thread_id == 0)) {
         // assert alignment

From aba542e12872d15d432cf258965232219c5c0396 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:53:53 +0800
Subject: [PATCH 248/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 6fd92df6..92091944 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -620,7 +620,7 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
     int64_t* layout_range_buffer = (int64_t*) rdma_general_signal;
 
     // (num_local_experts,). use by REMOTE gpus. all gpus atomic-add on it to get a slice of locations to send data to
-    int* negotiate_offset_of_expert_buffer = (int*) (((uint8_t*)rdma_general_signal) + TODO);
+    int* negotiate_offset_of_expert_buffer = (int*) (((uint8_t*)rdma_general_signal) + num_experts * sizeof(int64_t));
 
     if ((sm_id == 0) and (raw_thread_id == 0)) {
         // assert alignment

From 94d10323f20974658eb2a0c66d04facb16e9d724 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:54:23 +0800
Subject: [PATCH 249/393] more

---
 csrc/config.hpp                  | 2 ++
 csrc/kernels/internode_ll_v2.cuh | 4 ++--
 2 files changed, 4 insertions(+), 2 deletions(-)

diff --git a/csrc/config.hpp b/csrc/config.hpp
index d521fb64..2771fb4a 100644
--- a/csrc/config.hpp
+++ b/csrc/config.hpp
@@ -90,6 +90,7 @@ struct Config {
         num_bytes += num_channels * num_rdma_ranks * num_max_rdma_chunked_recv_tokens * kNumMaxScales * sizeof(float) * 2;
         num_bytes += num_channels * num_rdma_ranks * num_max_rdma_chunked_recv_tokens * sizeof(int4) * 2;
 
+        // NOTE Please keep in sync: Config.get_nvl_buffer_size_hint, LowLatencyLayout.constructor, internode_ll_v2
         // NOTE add a large number to be safe
         num_bytes += 1048576;
 
@@ -166,6 +167,7 @@ struct LowLatencyLayout {
         // NOTE can only increase instead of decrease to be compatible with v1
         // NOTE be careful about alignment
         // size_t dispatch_recv_count_buffer_bytes = num_experts * sizeof(int);
+        // NOTE Please keep in sync: Config.get_nvl_buffer_size_hint, LowLatencyLayout.constructor, internode_ll_v2
         size_t dispatch_general_signal_buffer_bytes = num_experts * sizeof(int64_t) + num_local_experts * sizeof(int);
         size_t combine_recv_flag_buffer_bytes = dispatch_general_signal_buffer_bytes;
         size_t signaling_buffer_bytes = std::max(dispatch_general_signal_buffer_bytes, combine_recv_flag_buffer_bytes);
diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 92091944..0918ade9 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -614,14 +614,14 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
     const auto num_send_threads = num_send_warp_groups * num_warps_per_group * 32;
     const auto raw_thread_id = static_cast<int>(threadIdx.x);
 
+    // NOTE Please keep in sync: Config.get_nvl_buffer_size_hint, LowLatencyLayout.constructor, internode_ll_v2
+    //
     // (num_local_experts, num_ranks). written by REMOTE gpus, read by curr gpu.
     // arr[local_expert_idx, src_rank] := the (num_tokens, start_offset) layout information of that src_rank
     // similar to `packed_recv_layout_range`, but written remotely
     int64_t* layout_range_buffer = (int64_t*) rdma_general_signal;
-
     // (num_local_experts,). use by REMOTE gpus. all gpus atomic-add on it to get a slice of locations to send data to
     int* negotiate_offset_of_expert_buffer = (int*) (((uint8_t*)rdma_general_signal) + num_experts * sizeof(int64_t));
-
     if ((sm_id == 0) and (raw_thread_id == 0)) {
         // assert alignment
         EP_DEVICE_ASSERT(((int64_t)layout_range_buffer) % 16 == 0);

From e6e234930448bf788c384db6a6c78d97e377673b Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:55:28 +0800
Subject: [PATCH 250/393] more

---
 csrc/deep_ep.cpp                 | 1 +
 csrc/kernels/internode_ll_v2.cuh | 2 ++
 2 files changed, 3 insertions(+)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 6b94e3a9..8a156992 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1198,6 +1198,7 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
     EP_HOST_ASSERT(packed_recv_count.dtype() == torch::kInt32);
     EP_HOST_ASSERT(packed_recv_count.device().is_cuda());
     EP_HOST_ASSERT(packed_recv_count.stride(0) == 1);
+    EP_HOST_ASSERT(((int64_t)packed_recv_count.data_ptr()) % 16 == 0); // alignment
 
     // Allocate column-majored scales
     auto packed_recv_x_scales = std::optional<torch::Tensor>();
diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 0918ade9..970c9b39 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -622,10 +622,12 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
     int64_t* layout_range_buffer = (int64_t*) rdma_general_signal;
     // (num_local_experts,). use by REMOTE gpus. all gpus atomic-add on it to get a slice of locations to send data to
     int* negotiate_offset_of_expert_buffer = (int*) (((uint8_t*)rdma_general_signal) + num_experts * sizeof(int64_t));
+
     if ((sm_id == 0) and (raw_thread_id == 0)) {
         // assert alignment
         EP_DEVICE_ASSERT(((int64_t)layout_range_buffer) % 16 == 0);
         EP_DEVICE_ASSERT(((int64_t)negotiate_offset_of_expert_buffer) % 16 == 0);
+        EP_DEVICE_ASSERT(zero);
     }
 
     if (raw_thread_id < num_send_threads) {

From 83485f0430e9b2cf77427ceefd122da3422c5852 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:56:47 +0800
Subject: [PATCH 251/393] more

---
 csrc/kernels/internode_ll.cu     |  6 ++++--
 csrc/kernels/internode_ll_v2.cuh | 15 ++++++---------
 2 files changed, 10 insertions(+), 11 deletions(-)

diff --git a/csrc/kernels/internode_ll.cu b/csrc/kernels/internode_ll.cu
index d6618049..9041a614 100644
--- a/csrc/kernels/internode_ll.cu
+++ b/csrc/kernels/internode_ll.cu
@@ -352,7 +352,8 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
               void* workspace, int num_device_sms,
               cudaStream_t stream, int phases,
               bool use_nvfp4, uint32_t* dst_signals,
-              uint32_t* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0) {
+              uint32_t* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0,
+              int* remote_start_offset_of_dst_rank_buffer) {
     if (enable_v2) {
         return dispatch_v2(
             packed_recv_x, packed_recv_x_scales,
@@ -370,7 +371,8 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
             workspace, num_device_sms,
             stream, phases,
             use_nvfp4, dst_signals,
-            count_per_expert, token_ids_of_expert, token_ids_of_expert_stride_0
+            count_per_expert, token_ids_of_expert, token_ids_of_expert_stride_0,
+            remote_start_offset_of_dst_rank_buffer
         );
     }
 
diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 970c9b39..e051b1f2 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -36,7 +36,7 @@ __forceinline__ __device__ void dispatch_send(
     bool round_scale, int phases,
     uint32_t* dst_signals,
     uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
-    int64_t* layout_range_buffer, int* negotiate_offset_of_expert_buffer
+    int64_t* layout_range_buffer, int* negotiate_offset_of_expert_buffer, int* remote_start_offset_of_dst_rank_buffer
 ) {
     using Consts = DispatchConstsTemplate<kUseFP8, kUseNVFP4, kHidden>;
     EP_DEVICE_ASSERT(Consts::num_bytes_per_msg % sizeof(int4) == 0);
@@ -73,10 +73,6 @@ __forceinline__ __device__ void dispatch_send(
 //             atomic_add_release_global(atomic_finish_counter_per_expert + i, FINISHED_SUM_TAG);
     }
 
-    // (num_experts,). used in curr gpu. for i-th dst rank, what is the start offset in the remote buffer
-    TODO_need_zeroing;
-    const int* remote_start_offset_of_dst_rank_buffer = TODO;
-
     // Reserve remote locations
     {
         EP_DEVICE_ASSERT(num_ranks <= num_sms);
@@ -395,7 +391,7 @@ __forceinline__ __device__ void dispatch_recv(
     bool round_scale, int phases,
     uint32_t* dst_signals,
     uint32_t* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0,
-    int64_t* layout_range_buffer, int* negotiate_offset_of_expert_buffer
+    int64_t* layout_range_buffer, int* negotiate_offset_of_expert_buffer, int* remote_start_offset_of_dst_rank_buffer
 ) {
     using Consts = DispatchConstsTemplate<kUseFP8, kUseNVFP4, kHidden>;
 
@@ -609,7 +605,8 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
          int num_warps_per_group,
          bool round_scale, int phases,
          uint32_t* dst_signals,
-         uint32_t* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0) {
+         uint32_t* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0,
+         int* remote_start_offset_of_dst_rank_buffer) {
     const auto sm_id = static_cast<int>(blockIdx.x);
     const auto num_send_threads = num_send_warp_groups * num_warps_per_group * 32;
     const auto raw_thread_id = static_cast<int>(threadIdx.x);
@@ -652,7 +649,7 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
                 round_scale, phases,
                 dst_signals,
                 count_per_expert, token_ids_of_expert, token_ids_of_expert_stride_0,
-                layout_range_buffer, negotiate_offset_of_expert_buffer
+                layout_range_buffer, negotiate_offset_of_expert_buffer, remote_start_offset_of_dst_rank_buffer
             );
         }
     } else {
@@ -677,7 +674,7 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
                 round_scale, phases,
                 dst_signals,
                 count_per_expert, token_ids_of_expert, token_ids_of_expert_stride_0,
-                layout_range_buffer, negotiate_offset_of_expert_buffer
+                layout_range_buffer, negotiate_offset_of_expert_buffer, remote_start_offset_of_dst_rank_buffer
             );
         }
     }

From bcba00fc9708f89f75f016908a0a9182cdbe9e5e Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 11:57:19 +0800
Subject: [PATCH 252/393] more

---
 csrc/kernels/api.cuh         | 3 ++-
 csrc/kernels/internode_ll.cu | 2 +-
 2 files changed, 3 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/api.cuh b/csrc/kernels/api.cuh
index 6078f163..883e8e46 100644
--- a/csrc/kernels/api.cuh
+++ b/csrc/kernels/api.cuh
@@ -153,7 +153,8 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
               void* workspace, int num_device_sms,
               cudaStream_t stream, int phases,
               bool use_nvfp4, uint32_t* dst_signals,
-              uint32_t* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0);
+              uint32_t* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0,
+              int* remote_start_offset_of_dst_rank_buffer);
 
 void combine(bool enable_v2, void* combined_x,
              void* rdma_recv_x, int* rdma_recv_flag, void* rdma_send_x,
diff --git a/csrc/kernels/internode_ll.cu b/csrc/kernels/internode_ll.cu
index 9041a614..08a9176e 100644
--- a/csrc/kernels/internode_ll.cu
+++ b/csrc/kernels/internode_ll.cu
@@ -344,7 +344,7 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
               int* cumulative_local_expert_recv_stats,
               int64_t* dispatch_wait_recv_cost_stats,
               void* rdma_recv_x, int* rdma_recv_count, void* rdma_x,
-              void* x, const int64_t* topk_idx,
+              void* x, const int64_t* topk_idx, // NOTE rm `const` of x
               int* next_clean, int num_next_clean_int,
               int num_tokens, int hidden, int num_max_dispatch_tokens_per_rank,
               int num_topk, int num_experts, int rank, int num_ranks,

From 1727b577eb5afef7f26f61cd4c9de351750c7c86 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 12:01:19 +0800
Subject: [PATCH 253/393] more

---
 csrc/deep_ep.cpp | 25 ++++++++++++++++++++-----
 1 file changed, 20 insertions(+), 5 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 8a156992..60b8ef7b 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1103,7 +1103,8 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
                              int num_max_dispatch_tokens_per_rank, int num_experts,
                              bool use_fp8, bool round_scale, bool use_ue8m0,
                              bool async, bool return_recv_hook,
-                             const std::optional<torch::Tensor>& zeroed_tensor,
+                             const std::optional<torch::Tensor>& zeroed_tensor_a,
+                             const std::optional<torch::Tensor>& zeroed_tensor_b,
                              bool use_nvfp4,
                              const std::optional<torch::Tensor>& dst_signals,
                              const std::optional<torch::Tensor>& count_per_expert, const std::optional<torch::Tensor>& token_ids_of_expert) {
@@ -1188,9 +1189,9 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
     auto packed_recv_layout_range = torch::empty({num_local_experts, num_ranks}, torch::dtype(torch::kInt64).device(torch::kCUDA));
 
     // NOTE let users do the zeroing
-    EP_HOST_ASSERT(enable_v2 == zeroed_tensor.has_value());
-    auto packed_recv_count = zeroed_tensor.has_value()
-        ? zeroed_tensor.value()
+    EP_HOST_ASSERT(enable_v2 == zeroed_tensor_a.has_value());
+    auto packed_recv_count = zeroed_tensor_a.has_value()
+        ? zeroed_tensor_a.value()
         : torch::empty({num_local_experts}, torch::dtype(torch::kInt32).device(torch::kCUDA));
     EP_HOST_ASSERT(packed_recv_count.is_contiguous());
     EP_HOST_ASSERT(packed_recv_count.dim() == 1);
@@ -1200,6 +1201,19 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
     EP_HOST_ASSERT(packed_recv_count.stride(0) == 1);
     EP_HOST_ASSERT(((int64_t)packed_recv_count.data_ptr()) % 16 == 0); // alignment
 
+    // (num_experts,). used in curr gpu. for i-th dst rank, what is the start offset in the remote buffer
+    const std::optional<torch::Tensor>& remote_start_offset_of_dst_rank_buffer = zeroed_tensor_b;
+    EP_HOST_ASSERT(enable_v2 == remote_start_offset_of_dst_rank_buffer.has_value());
+    if (enable_v2) {
+        EP_HOST_ASSERT(remote_start_offset_of_dst_rank_buffer->is_contiguous());
+        EP_HOST_ASSERT(remote_start_offset_of_dst_rank_buffer->dim() == 1);
+        EP_HOST_ASSERT(remote_start_offset_of_dst_rank_buffer->size(0) == num_experts);
+        EP_HOST_ASSERT(remote_start_offset_of_dst_rank_buffer->dtype() == torch::kInt32);
+        EP_HOST_ASSERT(remote_start_offset_of_dst_rank_buffer->device().is_cuda());
+        EP_HOST_ASSERT(remote_start_offset_of_dst_rank_buffer->stride(0) == 1);
+        EP_HOST_ASSERT(((int64_t)remote_start_offset_of_dst_rank_buffer->data_ptr()) % 16 == 0); // alignment
+    }
+
     // Allocate column-majored scales
     auto packed_recv_x_scales = std::optional<torch::Tensor>();
     void* packed_recv_x_scales_ptr = nullptr;
@@ -1248,7 +1262,8 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
                                dst_signals.has_value() ? dst_signals->data_ptr<uint32_t>() : nullptr,
                                count_per_expert.has_value() ? count_per_expert->data_ptr<uint32_t>() : nullptr,
                                token_ids_of_expert.has_value() ? token_ids_of_expert->data_ptr<int>() : nullptr,
-                               token_ids_of_expert.has_value() ? token_ids_of_expert->stride(0) : 0);
+                               token_ids_of_expert.has_value() ? token_ids_of_expert->stride(0) : 0,
+                               remote_start_offset_of_dst_rank_buffer.has_value() ? remote_start_offset_of_dst_rank_buffer->data_ptr<int>() : nullptr);
     };
     launcher(return_recv_hook ? LOW_LATENCY_SEND_PHASE : (LOW_LATENCY_SEND_PHASE | LOW_LATENCY_RECV_PHASE));
 

From f1b79fab8e166756835d03278438e75bd22ef3d8 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 12:02:23 +0800
Subject: [PATCH 254/393] nire

---
 deep_ep/buffer.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/deep_ep/buffer.py b/deep_ep/buffer.py
index a70c54ff..ec9b1575 100644
--- a/deep_ep/buffer.py
+++ b/deep_ep/buffer.py
@@ -531,7 +531,7 @@ def low_latency_dispatch(self, x: torch.Tensor, topk_idx: torch.Tensor,
                              use_fp8: bool = True, round_scale: bool = False, use_ue8m0: bool = False,
                              async_finish: bool = False, return_recv_hook: bool = False,
                              enable_v2: bool = False,
-                             zeroed_tensor: Optional[torch.Tensor] = None,
+                             zeroed_tensor_a: Optional[torch.Tensor] = None, zeroed_tensor_b: Optional[torch.Tensor] = None,
                              use_nvfp4: bool = False,
                              dst_signals: Optional[torch.Tensor] = None,
                              count_per_expert: Optional[torch.Tensor] = None, token_ids_of_expert: Optional[torch.Tensor] = None) -> \
@@ -596,7 +596,7 @@ def low_latency_dispatch(self, x: torch.Tensor, topk_idx: torch.Tensor,
                                               num_max_dispatch_tokens_per_rank, num_experts,
                                               use_fp8, round_scale, use_ue8m0,
                                               async_finish, return_recv_hook,
-                                              zeroed_tensor,
+                                              zeroed_tensor_a, zeroed_tensor_b,
                                               use_nvfp4,
                                               dst_signals,
                                               count_per_expert, token_ids_of_expert)

From 32a93d16d7a38caa9b3ccd032017e6ff52fb9646 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 12:06:10 +0800
Subject: [PATCH 255/393] more

---
 csrc/deep_ep.cpp                 | 25 ++++++++++++++++---------
 csrc/kernels/api.cuh             |  2 +-
 csrc/kernels/internode_ll.cu     |  4 ++--
 csrc/kernels/internode_ll_v2.cuh | 14 +++++++-------
 deep_ep/buffer.py                | 11 ++++++-----
 5 files changed, 32 insertions(+), 24 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 60b8ef7b..6a401703 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1107,7 +1107,7 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
                              const std::optional<torch::Tensor>& zeroed_tensor_b,
                              bool use_nvfp4,
                              const std::optional<torch::Tensor>& dst_signals,
-                             const std::optional<torch::Tensor>& count_per_expert, const std::optional<torch::Tensor>& token_ids_of_expert) {
+                             const std::optional<torch::Tensor>& count_per_expert, const std::optional<torch::Tensor>& token_idx_and_dst_expert_flat_list) {
 #ifndef DISABLE_NVSHMEM
     EP_HOST_ASSERT(low_latency_mode);
 
@@ -1118,12 +1118,18 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
         EP_HOST_ASSERT(count_per_expert->size(0) == num_experts);
         EP_HOST_ASSERT(count_per_expert->dtype() == torch::kUInt32);
     }
-    if (token_ids_of_expert.has_value()) {
-        EP_HOST_ASSERT(token_ids_of_expert->is_contiguous());
-        EP_HOST_ASSERT(token_ids_of_expert->dim() == 2);
-        EP_HOST_ASSERT(token_ids_of_expert->size(0) == num_experts);
-        // EP_HOST_ASSERT(token_ids_of_expert->size(1) == ...whatever...);
-        EP_HOST_ASSERT(token_ids_of_expert->dtype() == torch::kInt32);
+//    if (token_ids_of_expert.has_value()) {
+//        EP_HOST_ASSERT(token_ids_of_expert->is_contiguous());
+//        EP_HOST_ASSERT(token_ids_of_expert->dim() == 2);
+//        EP_HOST_ASSERT(token_ids_of_expert->size(0) == num_experts);
+//        // EP_HOST_ASSERT(token_ids_of_expert->size(1) == ...whatever...);
+//        EP_HOST_ASSERT(token_ids_of_expert->dtype() == torch::kInt32);
+//    }
+    if (token_idx_and_dst_expert_flat_list.has_value()) {
+        EP_HOST_ASSERT(token_idx_and_dst_expert_flat_list->is_contiguous());
+        EP_HOST_ASSERT(token_idx_and_dst_expert_flat_list->dim() == 1);
+        EP_HOST_ASSERT(token_idx_and_dst_expert_flat_list->size(0) == num_tokens * num_topk);
+        EP_HOST_ASSERT(token_idx_and_dst_expert_flat_list->dtype() == torch::kInt64);
     }
 
     constexpr int HIDDEN_DIM = 7168;
@@ -1261,8 +1267,9 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
                                use_nvfp4,
                                dst_signals.has_value() ? dst_signals->data_ptr<uint32_t>() : nullptr,
                                count_per_expert.has_value() ? count_per_expert->data_ptr<uint32_t>() : nullptr,
-                               token_ids_of_expert.has_value() ? token_ids_of_expert->data_ptr<int>() : nullptr,
-                               token_ids_of_expert.has_value() ? token_ids_of_expert->stride(0) : 0,
+                               token_idx_and_dst_expert_flat_list.has_value() ? token_idx_and_dst_expert_flat_list->data_ptr() : nullptr,
+//                               token_ids_of_expert.has_value() ? token_ids_of_expert->data_ptr<int>() : nullptr,
+//                               token_ids_of_expert.has_value() ? token_ids_of_expert->stride(0) : 0,
                                remote_start_offset_of_dst_rank_buffer.has_value() ? remote_start_offset_of_dst_rank_buffer->data_ptr<int>() : nullptr);
     };
     launcher(return_recv_hook ? LOW_LATENCY_SEND_PHASE : (LOW_LATENCY_SEND_PHASE | LOW_LATENCY_RECV_PHASE));
diff --git a/csrc/kernels/api.cuh b/csrc/kernels/api.cuh
index 883e8e46..51625a9f 100644
--- a/csrc/kernels/api.cuh
+++ b/csrc/kernels/api.cuh
@@ -153,7 +153,7 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
               void* workspace, int num_device_sms,
               cudaStream_t stream, int phases,
               bool use_nvfp4, uint32_t* dst_signals,
-              uint32_t* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0,
+              uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
               int* remote_start_offset_of_dst_rank_buffer);
 
 void combine(bool enable_v2, void* combined_x,
diff --git a/csrc/kernels/internode_ll.cu b/csrc/kernels/internode_ll.cu
index 08a9176e..0670a2de 100644
--- a/csrc/kernels/internode_ll.cu
+++ b/csrc/kernels/internode_ll.cu
@@ -352,7 +352,7 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
               void* workspace, int num_device_sms,
               cudaStream_t stream, int phases,
               bool use_nvfp4, uint32_t* dst_signals,
-              uint32_t* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0,
+              uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
               int* remote_start_offset_of_dst_rank_buffer) {
     if (enable_v2) {
         return dispatch_v2(
@@ -371,7 +371,7 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
             workspace, num_device_sms,
             stream, phases,
             use_nvfp4, dst_signals,
-            count_per_expert, token_ids_of_expert, token_ids_of_expert_stride_0,
+            count_per_expert, token_idx_and_dst_expert_flat_list,
             remote_start_offset_of_dst_rank_buffer
         );
     }
diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index e051b1f2..685d83b0 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -390,7 +390,7 @@ __forceinline__ __device__ void dispatch_recv(
     int num_warps_per_group,
     bool round_scale, int phases,
     uint32_t* dst_signals,
-    uint32_t* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0,
+    uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
     int64_t* layout_range_buffer, int* negotiate_offset_of_expert_buffer, int* remote_start_offset_of_dst_rank_buffer
 ) {
     using Consts = DispatchConstsTemplate<kUseFP8, kUseNVFP4, kHidden>;
@@ -605,7 +605,7 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
          int num_warps_per_group,
          bool round_scale, int phases,
          uint32_t* dst_signals,
-         uint32_t* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0,
+         uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
          int* remote_start_offset_of_dst_rank_buffer) {
     const auto sm_id = static_cast<int>(blockIdx.x);
     const auto num_send_threads = num_send_warp_groups * num_warps_per_group * 32;
@@ -648,7 +648,7 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
                 num_warps_per_group,
                 round_scale, phases,
                 dst_signals,
-                count_per_expert, token_ids_of_expert, token_ids_of_expert_stride_0,
+                count_per_expert, token_idx_and_dst_expert_flat_list,
                 layout_range_buffer, negotiate_offset_of_expert_buffer, remote_start_offset_of_dst_rank_buffer
             );
         }
@@ -673,7 +673,7 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
                 num_warps_per_group,
                 round_scale, phases,
                 dst_signals,
-                count_per_expert, token_ids_of_expert, token_ids_of_expert_stride_0,
+                count_per_expert, token_idx_and_dst_expert_flat_list,
                 layout_range_buffer, negotiate_offset_of_expert_buffer, remote_start_offset_of_dst_rank_buffer
             );
         }
@@ -705,8 +705,8 @@ void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
               void* workspace, int num_device_sms,
               cudaStream_t stream, int phases,
               bool use_nvfp4, uint32_t* dst_signals,
-              uint32_t* count_per_expert, int* token_ids_of_expert, int token_ids_of_expert_stride_0) {
-    TOOD_args_rm(token_ids_of_expert, token_ids_of_expert_stride_0);
+              uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
+              int* remote_start_offset_of_dst_rank_buffer) {
     constexpr int kNumMaxTopK = 9;
 
     // NOTE simple renaming
@@ -768,7 +768,7 @@ LAUNCH_KERNEL(&cfg, dispatch_func, \
               num_send_warp_groups, num_recv_warp_groups, num_warps_per_group, \
               round_scale, phases, \
               dst_signals, \
-              count_per_expert, token_ids_of_expert, token_ids_of_expert_stride_0); } break
+              count_per_expert, token_idx_and_dst_expert_flat_list); } break
 
     SETUP_LAUNCH_CONFIG(num_sms, num_warps * 32, stream);
     SWITCH_HIDDEN(DISPATCH_LAUNCH_CASE);
diff --git a/deep_ep/buffer.py b/deep_ep/buffer.py
index ec9b1575..4e021f69 100644
--- a/deep_ep/buffer.py
+++ b/deep_ep/buffer.py
@@ -534,7 +534,7 @@ def low_latency_dispatch(self, x: torch.Tensor, topk_idx: torch.Tensor,
                              zeroed_tensor_a: Optional[torch.Tensor] = None, zeroed_tensor_b: Optional[torch.Tensor] = None,
                              use_nvfp4: bool = False,
                              dst_signals: Optional[torch.Tensor] = None,
-                             count_per_expert: Optional[torch.Tensor] = None, token_ids_of_expert: Optional[torch.Tensor] = None) -> \
+                             count_per_expert: Optional[torch.Tensor] = None, token_idx_and_dst_expert_flat_list: Optional[torch.Tensor] = None) -> \
             Tuple[Tuple[torch.Tensor, torch.Tensor], torch.Tensor, Tuple, EventOverlap, Callable]:
         """
         A low-latency implementation for dispatching with IBGDA.
@@ -566,9 +566,10 @@ def low_latency_dispatch(self, x: torch.Tensor, topk_idx: torch.Tensor,
 
     		count_per_expert: (num_global_experts,)
                 * how many tokens a expert has
-    		token_ids_of_expert: (num_global_experts, max_num_tokens)
-    			* for expert_id-th item, only first `count_per_expert[expert_id]` elements are valid
-    			* means which token ids should be sent in this expert
+    		# token_ids_of_expert: (num_global_experts, max_num_tokens)
+    		# 	* for expert_id-th item, only first `count_per_expert[expert_id]` elements are valid
+    		# 	* means which token ids should be sent in this expert
+    		token_idx_and_dst_expert_flat_list: TODO
 
         Returns:
             recv_x: a tensor or tuple with received tokens for each expert.
@@ -599,7 +600,7 @@ def low_latency_dispatch(self, x: torch.Tensor, topk_idx: torch.Tensor,
                                               zeroed_tensor_a, zeroed_tensor_b,
                                               use_nvfp4,
                                               dst_signals,
-                                              count_per_expert, token_ids_of_expert)
+                                              count_per_expert, token_idx_and_dst_expert_flat_list)
         handle = (packed_recv_src_info, packed_recv_layout_range, num_max_dispatch_tokens_per_rank, x.size(1), num_experts)
         tensors_to_record = (x, topk_idx,
                              packed_recv_x, packed_recv_x_scales, packed_recv_count,

From 0c57568276508a6dcea7f721e5c9d1dc6f90d614 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 12:14:58 +0800
Subject: [PATCH 256/393] more

---
 csrc/deep_ep.cpp | 14 +++++++++++++-
 1 file changed, 13 insertions(+), 1 deletion(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 6a401703..337791ad 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1189,6 +1189,7 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
 
     // Allocate packed tensors
     constexpr int NUM_ELEMS_PER_PACK = 8;
+    // TODO do not allocate this in v2
     auto packed_recv_x = torch::empty({num_local_experts, num_ranks * num_max_dispatch_tokens_per_rank, use_nvfp4 ? hidden / NUM_ELEMS_PER_PACK : hidden},
                                       x.options().dtype(use_nvfp4 ? torch::kInt32 : (use_fp8 ? torch::kFloat8_e4m3fn: torch::kBFloat16)));
     auto packed_recv_src_info = torch::empty({num_local_experts, num_ranks * num_max_dispatch_tokens_per_rank}, torch::dtype(torch::kInt32).device(torch::kCUDA));
@@ -1289,8 +1290,19 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
     if (return_recv_hook)
         recv_hook = [=]() { launcher(LOW_LATENCY_RECV_PHASE); };
 
+    const auto returned_x = enable_v2
+        ? TODO
+        : packed_recv_x;
+    if (enable_v2) {
+        EP_HOST_ASSERT(returned_x.dim() == 3);
+        EP_HOST_ASSERT(returned_x.size(0) == num_local_experts);
+        EP_HOST_ASSERT(returned_x.size(1) == num_ranks * num_max_dispatch_tokens_per_rank);
+        EP_HOST_ASSERT(returned_x.size(2) == num_ranks * hidden / NUM_ELEMS_PER_PACK);
+        EP_HOST_ASSERT(returned_x.dtype() == torch::kInt32);
+    }
+
     // Return values
-    return {packed_recv_x, packed_recv_x_scales, packed_recv_count, packed_recv_src_info, packed_recv_layout_range, event, recv_hook};
+    return {returned_x, packed_recv_x_scales, packed_recv_count, packed_recv_src_info, packed_recv_layout_range, event, recv_hook};
 #else
     EP_HOST_ASSERT(false and "NVSHMEM is disabled during compilation");
     return {};

From 398ea1947a28708d1e4bc858fb5414baa21f371d Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 12:15:37 +0800
Subject: [PATCH 257/393] more

---
 csrc/deep_ep.cpp | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 337791ad..28419c85 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1291,7 +1291,7 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
         recv_hook = [=]() { launcher(LOW_LATENCY_RECV_PHASE); };
 
     const auto returned_x = enable_v2
-        ? TODO
+        ? TODO(buffer.dispatch_rdma_recv_data_buffer)
         : packed_recv_x;
     if (enable_v2) {
         EP_HOST_ASSERT(returned_x.dim() == 3);

From 09a779a01a5726f67f2a91ba1358d84d0e691d71 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 12:22:11 +0800
Subject: [PATCH 258/393] more

---
 csrc/deep_ep.cpp | 18 +++++++++++++++---
 1 file changed, 15 insertions(+), 3 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 28419c85..ff541afc 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1291,14 +1291,26 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
         recv_hook = [=]() { launcher(LOW_LATENCY_RECV_PHASE); };
 
     const auto returned_x = enable_v2
-        ? TODO(buffer.dispatch_rdma_recv_data_buffer)
+        // https://stackoverflow.com/questions/58631466/create-a-torchtensor-from-c-c-array-without-using-from-blob
+        // https://docs.pytorch.org/cppdocs/api/function_namespacetorch_1ac009244049812a3efdf4605d19c5e79b.html
+        ? torch::from_blob(
+            buffer.dispatch_rdma_recv_data_buffer,
+            // ref: LowLatencyLayout constructor `dispatch_recv_data_buffer_bytes`
+            {num_experts, num_max_dispatch_tokens_per_rank, num_bytes_per_dispatch_msg},
+            {num_max_dispatch_tokens_per_rank * num_bytes_per_dispatch_msg, num_bytes_per_dispatch_msg, 1},
+            torch::TensorOptions().dtype(torch::kUInt8).device(torch::kCUDA)
+        ).index({
+            Slice(),
+            Slice(),
+            Slice(sizeof(int4), sizeof(int4) + hidden / 2)
+        })
         : packed_recv_x;
     if (enable_v2) {
         EP_HOST_ASSERT(returned_x.dim() == 3);
         EP_HOST_ASSERT(returned_x.size(0) == num_local_experts);
         EP_HOST_ASSERT(returned_x.size(1) == num_ranks * num_max_dispatch_tokens_per_rank);
-        EP_HOST_ASSERT(returned_x.size(2) == num_ranks * hidden / NUM_ELEMS_PER_PACK);
-        EP_HOST_ASSERT(returned_x.dtype() == torch::kInt32);
+        EP_HOST_ASSERT(returned_x.size(2) == num_ranks * hidden / 2);
+        EP_HOST_ASSERT(returned_x.dtype() == torch::kUInt8);
     }
 
     // Return values

From 040decc20d23ec8e1f734be1d675bb3ca4b1cadf Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 12:23:27 +0800
Subject: [PATCH 259/393] more

---
 csrc/deep_ep.cpp | 8 ++++++--
 1 file changed, 6 insertions(+), 2 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index ff541afc..2406e448 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1290,14 +1290,17 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
     if (return_recv_hook)
         recv_hook = [=]() { launcher(LOW_LATENCY_RECV_PHASE); };
 
+    const auto dim0 = num_experts;
+    const auto dim1 = num_max_dispatch_tokens_per_rank;
+    const auto dim2 = num_bytes_per_dispatch_msg;
     const auto returned_x = enable_v2
         // https://stackoverflow.com/questions/58631466/create-a-torchtensor-from-c-c-array-without-using-from-blob
         // https://docs.pytorch.org/cppdocs/api/function_namespacetorch_1ac009244049812a3efdf4605d19c5e79b.html
         ? torch::from_blob(
             buffer.dispatch_rdma_recv_data_buffer,
             // ref: LowLatencyLayout constructor `dispatch_recv_data_buffer_bytes`
-            {num_experts, num_max_dispatch_tokens_per_rank, num_bytes_per_dispatch_msg},
-            {num_max_dispatch_tokens_per_rank * num_bytes_per_dispatch_msg, num_bytes_per_dispatch_msg, 1},
+            {dim0, dim1, dim2},
+            {dim1 * dim2, dim2, 1},
             torch::TensorOptions().dtype(torch::kUInt8).device(torch::kCUDA)
         ).index({
             Slice(),
@@ -1306,6 +1309,7 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
         })
         : packed_recv_x;
     if (enable_v2) {
+        // ref: packed_recv_x's shape etc
         EP_HOST_ASSERT(returned_x.dim() == 3);
         EP_HOST_ASSERT(returned_x.size(0) == num_local_experts);
         EP_HOST_ASSERT(returned_x.size(1) == num_ranks * num_max_dispatch_tokens_per_rank);

From dc903477f4be357258713694424daa4ab958cee2 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 12:23:43 +0800
Subject: [PATCH 260/393] more

---
 csrc/deep_ep.cpp | 1 +
 1 file changed, 1 insertion(+)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 2406e448..e063d707 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1290,6 +1290,7 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
     if (return_recv_hook)
         recv_hook = [=]() { launcher(LOW_LATENCY_RECV_PHASE); };
 
+    TODO_dim1_wrong;
     const auto dim0 = num_experts;
     const auto dim1 = num_max_dispatch_tokens_per_rank;
     const auto dim2 = num_bytes_per_dispatch_msg;

From c67ad134ccc61d465df5c07b630d2054987fa14f Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 12:24:28 +0800
Subject: [PATCH 261/393] more

---
 csrc/deep_ep.cpp | 5 ++---
 1 file changed, 2 insertions(+), 3 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index e063d707..07f77ca1 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1290,9 +1290,8 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
     if (return_recv_hook)
         recv_hook = [=]() { launcher(LOW_LATENCY_RECV_PHASE); };
 
-    TODO_dim1_wrong;
-    const auto dim0 = num_experts;
-    const auto dim1 = num_max_dispatch_tokens_per_rank;
+    const auto dim0 = num_local_experts;
+    const auto dim1 = num_ranks * num_max_dispatch_tokens_per_rank;
     const auto dim2 = num_bytes_per_dispatch_msg;
     const auto returned_x = enable_v2
         // https://stackoverflow.com/questions/58631466/create-a-torchtensor-from-c-c-array-without-using-from-blob

From 93a7d9c1655c19f88820fe7fd946cf89b8653827 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 12:26:39 +0800
Subject: [PATCH 262/393] more

---
 csrc/deep_ep.cpp | 7 ++++---
 1 file changed, 4 insertions(+), 3 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 07f77ca1..95c6c4b9 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -11,6 +11,8 @@
 #include "kernels/configs.cuh"
 #include "kernels/internode_ll_v2_inc.cuh"
 
+constexpr int HIDDEN_DIM = 7168;
+
 namespace deep_ep {
 
 cudaError_t cudaMallocAndZero(void** devPtr, size_t size) {
@@ -1132,8 +1134,6 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
         EP_HOST_ASSERT(token_idx_and_dst_expert_flat_list->dtype() == torch::kInt64);
     }
 
-    constexpr int HIDDEN_DIM = 7168;
-
     // Tensor checks
     // By default using `ptp128c` FP8 cast
 
@@ -1290,9 +1290,10 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
     if (return_recv_hook)
         recv_hook = [=]() { launcher(LOW_LATENCY_RECV_PHASE); };
 
+    using Consts = internode_ll::DispatchConstsTemplate<false, true, HIDDEN_DIM>;
     const auto dim0 = num_local_experts;
     const auto dim1 = num_ranks * num_max_dispatch_tokens_per_rank;
-    const auto dim2 = num_bytes_per_dispatch_msg;
+    const auto dim2 = Consts::num_bytes_per_msg;
     const auto returned_x = enable_v2
         // https://stackoverflow.com/questions/58631466/create-a-torchtensor-from-c-c-array-without-using-from-blob
         // https://docs.pytorch.org/cppdocs/api/function_namespacetorch_1ac009244049812a3efdf4605d19c5e79b.html

From a3e21f40bfd982a1c6990ae2b91a9b9e8cfb8069 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 12:27:58 +0800
Subject: [PATCH 263/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 6 ++++--
 1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 685d83b0..d6ff6735 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -444,9 +444,11 @@ __forceinline__ __device__ void dispatch_recv(
         // const auto src_rank = responsible_expert_idx / num_local_experts;
         // const auto local_expert_idx = responsible_expert_idx % num_local_experts;
 
+        // NOTE MODIFIED
         const auto rdma_recv_x_uint8 = static_cast<uint8_t*>(rdma_recv_x) +
-                local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
-                src_rank * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg;
+                local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg;
+                // this is removed
+                // + src_rank * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg;
         const auto recv_x_int4 = static_cast<int4*>(packed_recv_x) +
                 local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::hidden_int4;
         const auto recv_src_info = packed_recv_src_info + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank;

From c4262e2d02c209e9ac54d9c6cfc4c682b6af91f5 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 12:28:52 +0800
Subject: [PATCH 264/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index d6ff6735..c8cef5cf 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -449,8 +449,8 @@ __forceinline__ __device__ void dispatch_recv(
                 local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg;
                 // this is removed
                 // + src_rank * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg;
-        const auto recv_x_int4 = static_cast<int4*>(packed_recv_x) +
-                local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::hidden_int4;
+//         const auto recv_x_int4 = static_cast<int4*>(packed_recv_x) +
+//                 local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::hidden_int4;
         const auto recv_src_info = packed_recv_src_info + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank;
         const auto recv_range = packed_recv_layout_range + local_expert_idx * num_ranks;
         const auto num_aligned_scales = align<int>(Consts::num_scales, sizeof(float) / sizeof(scale_t));

From df7942a89c78d542b57f1c3941aba47617e9e82c Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 12:29:07 +0800
Subject: [PATCH 265/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index c8cef5cf..fed535bb 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -239,7 +239,7 @@ __forceinline__ __device__ void dispatch_send(
             const auto src_ptr = reinterpret_cast<uint64_t>(x_src_idx);
             const auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_x) +
                                  dst_expert_local_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
-                                 // NOTE modified
+                                 // NOTE modified rm
                                  // rank * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
                                  remote_start_offset_of_dst_rank * Consts::num_bytes_per_msg +
                                  slot_idx * Consts::num_bytes_per_msg;

From 8dca04356a365170238d895a80670e26e0a7532a Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 14:05:58 +0800
Subject: [PATCH 266/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 16 ++++++++--------
 1 file changed, 8 insertions(+), 8 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index fed535bb..5d2bfce7 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -89,16 +89,16 @@ __forceinline__ __device__ void dispatch_send(
             // TODO maybe do not need `release` (but yes need `sys`)
             int remote_start_offset_of_dst_rank;
             {
-                const auto dst_ptr = negotiate_offset_of_expert_buffer;
-                const auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
+                const auto dst_ptr = reinterpret_cast<uint64_t>(negotiate_offset_of_expert_buffer);
+                const auto dst_p2p_ptr = reinterpret_cast<int*>(nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank));
                 remote_start_offset_of_dst_rank = atomic_add_release_sys_global(dst_p2p_ptr + dst_expert_local_idx, num_tokens_to_send);
             }
 
             // 2. Write metadata to remote
             // TODO is this strong enough
             {
-                const auto dst_ptr = layout_range_buffer;
-                const auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
+                const auto dst_ptr = reinterpret_cast<uint64_t>(layout_range_buffer);
+                const auto dst_p2p_ptr = reinterpret_cast<int64_t*>(nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank));
                 const auto val = pack2<int, int64_t>(num_tokens_to_send, remote_start_offset_of_dst_rank);
                 dst_p2p_ptr[dst_expert_local_idx * num_ranks + rank] = -val-1;
             }
@@ -140,7 +140,7 @@ __forceinline__ __device__ void dispatch_send(
     const int flat_worker_num = num_warps * num_sms;
     for (
         // "tefl" := "token_idx_and_dst_expert_flat_list"
-        int tefl_idx = flat_worker_id
+        int tefl_idx = flat_worker_id;
         tefl_idx < num_tokens * num_topk;
         tefl_idx += flat_worker_num
     ) {
@@ -150,7 +150,7 @@ __forceinline__ __device__ void dispatch_send(
         // NOTE ldg is for read-only data cache, if token_idx_and_dst_expert_flat_list is somehow overlapped in the future we should change it
         const auto token_idx_and_dst_expert = __ldg(token_idx_and_dst_expert_flat_list + tefl_idx);
         int token_idx, dst_expert_idx;
-        unpack2(token_idx_and_dst_rank, token_idx, dst_expert_idx);
+        unpack2(token_idx_and_dst_expert, token_idx, dst_expert_idx);
         const auto dst_rank = dst_expert_idx / num_local_experts;
 
         // TODO can speedup by prefetching, delayed checking, etc
@@ -397,9 +397,9 @@ __forceinline__ __device__ void dispatch_recv(
 
     // NOTE copied from dispatch body
     const auto sm_id = static_cast<int>(blockIdx.x);
-    // const auto num_sms = static_cast<int>(gridDim.x); // unused
+    const auto num_sms = static_cast<int>(gridDim.x); // unused
     const auto warp_id = subroutine_thread_id / 32, lane_id = get_lane_id();
-    // const auto num_warps = num_warp_groups * num_warps_per_group; // unused
+    const auto num_warps = num_warp_groups * num_warps_per_group; // unused
     const auto num_local_experts = num_experts / num_ranks;
     const auto warp_group_id = warp_id / num_warps_per_group;
     const auto sub_warp_id = warp_id % num_warps_per_group;

From 78b544353391253570e787eb65d541ff120c0750 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 14:07:31 +0800
Subject: [PATCH 267/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 5d2bfce7..920a8574 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -506,10 +506,10 @@ __forceinline__ __device__ void dispatch_recv(
             i_raw < num_recv_tokens;
             i_raw += num_cooperate_parts
         ) {
-            const int i = i_raw + token_start_offset;
+            const int token_idx = i_raw + token_start_offset;
 
 //             // Copy source info
-            const auto src_src_idx = reinterpret_cast<int*>(rdma_recv_x_uint8 + i * Consts::num_bytes_per_msg);
+            const auto src_src_idx = reinterpret_cast<int*>(rdma_recv_x_uint8 + token_idx * Consts::num_bytes_per_msg);
 //             if (lane_id == 0)
 //                 recv_src_info[recv_token_begin_idx + i] = ld_nc_global(src_src_idx);
 
@@ -522,7 +522,7 @@ __forceinline__ __device__ void dispatch_recv(
                 // cleanup (will be used in the next round)
                 *src_src_idx = 0;
 
-                recv_src_info[recv_token_begin_idx + i] = recv_src_idx;
+                recv_src_info[token_idx] = recv_src_idx;
             }
             __syncwarp();
 
@@ -563,7 +563,7 @@ __forceinline__ __device__ void dispatch_recv(
                 //   (num_tokens, (num_packed, num_elems_per_pack)):(num_elems_per_pack, (num_tokens * num_elems_per_pack, 1))
                 const auto src_scales = reinterpret_cast<uint8_t*>(reinterpret_cast<uint8_t*>(src_data) + Consts::hidden_bytes);
                 const auto num_elems_per_pack = static_cast<int>(sizeof(packed_t) / sizeof(scale_t));
-                const auto token_idx = recv_token_begin_idx + i;
+                // const auto token_idx = recv_token_begin_idx + i;
                 const auto token_stride = num_elems_per_pack;
                 const auto pack_stride = num_ranks * num_max_dispatch_tokens_per_rank * num_elems_per_pack;
                 #pragma unroll

From 2764ddc9777bef878ce7ac2b845e82045611ed99 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 14:10:25 +0800
Subject: [PATCH 268/393] more

---
 csrc/config.hpp                  | 3 +++
 csrc/kernels/internode_ll_v2.cuh | 1 -
 2 files changed, 3 insertions(+), 1 deletion(-)

diff --git a/csrc/config.hpp b/csrc/config.hpp
index 2771fb4a..eac9db04 100644
--- a/csrc/config.hpp
+++ b/csrc/config.hpp
@@ -136,6 +136,9 @@ struct LowLatencyLayout {
     LowLatencyLayout(void* rdma_buffer, int num_max_dispatch_tokens_per_rank, int hidden, int num_ranks, int num_experts) {
         const int num_scales = hidden / 128;
 
+        EP_HOST_ASSERT(num_experts % num_ranks == 0);
+        const int num_local_experts = num_experts / num_ranks;
+
         // Dispatch and combine layout:
         //  - 2 symmetric odd/even send buffer
         //  - 2 symmetric odd/even receive buffers
diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 920a8574..b43130e3 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -626,7 +626,6 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
         // assert alignment
         EP_DEVICE_ASSERT(((int64_t)layout_range_buffer) % 16 == 0);
         EP_DEVICE_ASSERT(((int64_t)negotiate_offset_of_expert_buffer) % 16 == 0);
-        EP_DEVICE_ASSERT(zero);
     }
 
     if (raw_thread_id < num_send_threads) {

From 6435f7fd10f04fa9fab2255ef065e39488b7d59b Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 14:11:43 +0800
Subject: [PATCH 269/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 1 +
 1 file changed, 1 insertion(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index b43130e3..42c8518f 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -761,6 +761,7 @@ LAUNCH_KERNEL(&cfg, dispatch_func, \
               cumulative_local_expert_recv_stats, \
               dispatch_wait_recv_cost_stats, \
               rdma_recv_x, \
+              rdma_general_signal, \
               x, topk_idx, \
               atomic_counter_per_expert, atomic_finish_counter_per_expert, \
               next_clean, num_next_clean_int, \

From d812f474c2aba9d18adba9020434b71f06a6052d Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 14:13:16 +0800
Subject: [PATCH 270/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 16 +++++++++-------
 1 file changed, 9 insertions(+), 7 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 42c8518f..46612d42 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -382,7 +382,8 @@ __forceinline__ __device__ void dispatch_recv(
     // int* rdma_recv_count, // NOTE removed
     // void* rdma_x, // NOTE removed
     const void* x, const int64_t* topk_idx,
-    int* atomic_counter_per_expert, int* atomic_finish_counter_per_expert,
+    int* atomic_counter_per_expert,
+    // int* atomic_finish_counter_per_expert, // NOTE removed
     int* next_clean, int num_next_clean_int,
     int num_tokens, int num_max_dispatch_tokens_per_rank,
     int num_topk, int num_experts, int rank, int num_ranks,
@@ -598,7 +599,8 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
          int* rdma_general_signal, // NOTE renamed from `rdma_recv_count`
          // void* rdma_x, // NOTE removed
          void* x, const int64_t* topk_idx, // NOTE rm `const` of x
-         int* atomic_counter_per_expert, int* atomic_finish_counter_per_expert,
+         int* atomic_counter_per_expert,
+         // int* atomic_finish_counter_per_expert, // NOTE removed
          int* next_clean, int num_next_clean_int,
          int num_tokens, int num_max_dispatch_tokens_per_rank,
          int num_topk, int num_experts, int rank, int num_ranks,
@@ -642,7 +644,7 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
                 dispatch_wait_recv_cost_stats,
                 rdma_recv_x,
                 x, topk_idx,
-                atomic_counter_per_expert, atomic_finish_counter_per_expert,
+                atomic_counter_per_expert,
                 next_clean, num_next_clean_int,
                 num_tokens, num_max_dispatch_tokens_per_rank,
                 num_topk, num_experts, rank, num_ranks,
@@ -667,7 +669,7 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
                 dispatch_wait_recv_cost_stats,
                 rdma_recv_x,
                 x, topk_idx,
-                atomic_counter_per_expert, atomic_finish_counter_per_expert,
+                atomic_counter_per_expert,
                 next_clean, num_next_clean_int,
                 num_tokens, num_max_dispatch_tokens_per_rank,
                 num_topk, num_experts, rank, num_ranks,
@@ -733,7 +735,7 @@ void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
 
     // Workspace checks
     auto atomic_counter_per_expert = static_cast<int*>(workspace);
-    auto atomic_finish_counter_per_expert = atomic_counter_per_expert + num_experts;
+    // auto atomic_finish_counter_per_expert = atomic_counter_per_expert + num_experts; // NOTE removed
     EP_HOST_ASSERT(num_experts * sizeof(int) * 2 <= NUM_WORKSPACE_BYTES);
 
     // TODO inefficient, may change it
@@ -763,14 +765,14 @@ LAUNCH_KERNEL(&cfg, dispatch_func, \
               rdma_recv_x, \
               rdma_general_signal, \
               x, topk_idx, \
-              atomic_counter_per_expert, atomic_finish_counter_per_expert, \
+              atomic_counter_per_expert, \
               next_clean, num_next_clean_int, \
               num_tokens, num_max_dispatch_tokens_per_rank, \
               num_topk, num_experts, rank, num_ranks, \
               num_send_warp_groups, num_recv_warp_groups, num_warps_per_group, \
               round_scale, phases, \
               dst_signals, \
-              count_per_expert, token_idx_and_dst_expert_flat_list); } break
+              count_per_expert, token_idx_and_dst_expert_flat_list, remote_start_offset_of_dst_rank_buffer); } break
 
     SETUP_LAUNCH_CONFIG(num_sms, num_warps * 32, stream);
     SWITCH_HIDDEN(DISPATCH_LAUNCH_CASE);

From 3f2f02bc46d0c8be6b991727d312d533e9289bae Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 14:17:37 +0800
Subject: [PATCH 271/393] more

---
 csrc/deep_ep.cpp | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 95c6c4b9..a03c1521 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1268,7 +1268,7 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
                                use_nvfp4,
                                dst_signals.has_value() ? dst_signals->data_ptr<uint32_t>() : nullptr,
                                count_per_expert.has_value() ? count_per_expert->data_ptr<uint32_t>() : nullptr,
-                               token_idx_and_dst_expert_flat_list.has_value() ? token_idx_and_dst_expert_flat_list->data_ptr() : nullptr,
+                               token_idx_and_dst_expert_flat_list.has_value() ? token_idx_and_dst_expert_flat_list->data_ptr<int64_t>() : nullptr,
 //                               token_ids_of_expert.has_value() ? token_ids_of_expert->data_ptr<int>() : nullptr,
 //                               token_ids_of_expert.has_value() ? token_ids_of_expert->stride(0) : 0,
                                remote_start_offset_of_dst_rank_buffer.has_value() ? remote_start_offset_of_dst_rank_buffer->data_ptr<int>() : nullptr);

From 700d1b809354a30dbcd81a769cdf30a9c9db3cfe Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 14:20:19 +0800
Subject: [PATCH 272/393] more

---
 csrc/deep_ep.hpp | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/csrc/deep_ep.hpp b/csrc/deep_ep.hpp
index 269af513..c238563d 100644
--- a/csrc/deep_ep.hpp
+++ b/csrc/deep_ep.hpp
@@ -150,10 +150,11 @@ struct Buffer {
                          int num_max_dispatch_tokens_per_rank, int num_experts,
                          bool use_fp8, bool round_scale, bool use_ue8m0,
                          bool async, bool return_recv_hook,
-                         const std::optional<torch::Tensor>& zeroed_tensor,
+                         const std::optional<torch::Tensor>& zeroed_tensor_a,
+                         const std::optional<torch::Tensor>& zeroed_tensor_b,
                          bool use_nvfp4,
                          const std::optional<torch::Tensor>& dst_signals,
-                         const std::optional<torch::Tensor>& count_per_expert, const std::optional<torch::Tensor>& token_ids_of_expert);
+                         const std::optional<torch::Tensor>& count_per_expert, const std::optional<torch::Tensor>& token_idx_and_dst_expert_flat_list) {
 
     std::tuple<torch::Tensor, std::optional<EventHandle>, std::optional<std::function<void()>>>
     low_latency_combine(bool enable_v2, const torch::Tensor& x, const torch::Tensor& topk_idx, const torch::Tensor& topk_weights,

From 471dd36030625241cd80c5886ce825e8116f7c51 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 14:20:48 +0800
Subject: [PATCH 273/393] morwe

---
 csrc/kernels/internode_ll_v2.cuh | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 46612d42..cd3e86b6 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -403,7 +403,7 @@ __forceinline__ __device__ void dispatch_recv(
     const auto num_warps = num_warp_groups * num_warps_per_group; // unused
     const auto num_local_experts = num_experts / num_ranks;
     const auto warp_group_id = warp_id / num_warps_per_group;
-    const auto sub_warp_id = warp_id % num_warps_per_group;
+    // const auto sub_warp_id = warp_id % num_warps_per_group;
 
     // NOTE rm
     // const auto responsible_expert_idx = sm_id * num_warp_groups + warp_group_id;
@@ -453,7 +453,7 @@ __forceinline__ __device__ void dispatch_recv(
 //         const auto recv_x_int4 = static_cast<int4*>(packed_recv_x) +
 //                 local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::hidden_int4;
         const auto recv_src_info = packed_recv_src_info + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank;
-        const auto recv_range = packed_recv_layout_range + local_expert_idx * num_ranks;
+        // const auto recv_range = packed_recv_layout_range + local_expert_idx * num_ranks;
         const auto num_aligned_scales = align<int>(Consts::num_scales, sizeof(float) / sizeof(scale_t));
         const auto recv_x_scales = static_cast<scale_t*>(packed_recv_x_scales) + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_aligned_scales;
 

From 36f4669204e127e953847a4a5d21bb5ec80530ac Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 14:21:43 +0800
Subject: [PATCH 274/393] more

---
 csrc/deep_ep.hpp | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/deep_ep.hpp b/csrc/deep_ep.hpp
index c238563d..a7f42494 100644
--- a/csrc/deep_ep.hpp
+++ b/csrc/deep_ep.hpp
@@ -154,7 +154,7 @@ struct Buffer {
                          const std::optional<torch::Tensor>& zeroed_tensor_b,
                          bool use_nvfp4,
                          const std::optional<torch::Tensor>& dst_signals,
-                         const std::optional<torch::Tensor>& count_per_expert, const std::optional<torch::Tensor>& token_idx_and_dst_expert_flat_list) {
+                         const std::optional<torch::Tensor>& count_per_expert, const std::optional<torch::Tensor>& token_idx_and_dst_expert_flat_list);
 
     std::tuple<torch::Tensor, std::optional<EventHandle>, std::optional<std::function<void()>>>
     low_latency_combine(bool enable_v2, const torch::Tensor& x, const torch::Tensor& topk_idx, const torch::Tensor& topk_weights,

From 1e4aab824035dfd51f2bb8a259c51f6d7af9a8a1 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 14:22:52 +0800
Subject: [PATCH 275/393] more

---
 csrc/deep_ep.cpp | 48 ++++++++++++++++++++++++------------------------
 1 file changed, 24 insertions(+), 24 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index a03c1521..d2d39dd6 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1113,27 +1113,6 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
 #ifndef DISABLE_NVSHMEM
     EP_HOST_ASSERT(low_latency_mode);
 
-    // NOTE ADD
-    if (count_per_expert.has_value()) {
-        EP_HOST_ASSERT(count_per_expert->is_contiguous());
-        EP_HOST_ASSERT(count_per_expert->dim() == 1);
-        EP_HOST_ASSERT(count_per_expert->size(0) == num_experts);
-        EP_HOST_ASSERT(count_per_expert->dtype() == torch::kUInt32);
-    }
-//    if (token_ids_of_expert.has_value()) {
-//        EP_HOST_ASSERT(token_ids_of_expert->is_contiguous());
-//        EP_HOST_ASSERT(token_ids_of_expert->dim() == 2);
-//        EP_HOST_ASSERT(token_ids_of_expert->size(0) == num_experts);
-//        // EP_HOST_ASSERT(token_ids_of_expert->size(1) == ...whatever...);
-//        EP_HOST_ASSERT(token_ids_of_expert->dtype() == torch::kInt32);
-//    }
-    if (token_idx_and_dst_expert_flat_list.has_value()) {
-        EP_HOST_ASSERT(token_idx_and_dst_expert_flat_list->is_contiguous());
-        EP_HOST_ASSERT(token_idx_and_dst_expert_flat_list->dim() == 1);
-        EP_HOST_ASSERT(token_idx_and_dst_expert_flat_list->size(0) == num_tokens * num_topk);
-        EP_HOST_ASSERT(token_idx_and_dst_expert_flat_list->dtype() == torch::kInt64);
-    }
-
     // Tensor checks
     // By default using `ptp128c` FP8 cast
 
@@ -1173,6 +1152,27 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
     auto num_topk = static_cast<int>(topk_idx.size(1));
     auto num_local_experts = num_experts / num_ranks;
 
+    // NOTE ADD
+    if (count_per_expert.has_value()) {
+        EP_HOST_ASSERT(count_per_expert->is_contiguous());
+        EP_HOST_ASSERT(count_per_expert->dim() == 1);
+        EP_HOST_ASSERT(count_per_expert->size(0) == num_experts);
+        EP_HOST_ASSERT(count_per_expert->dtype() == torch::kUInt32);
+    }
+//    if (token_ids_of_expert.has_value()) {
+//        EP_HOST_ASSERT(token_ids_of_expert->is_contiguous());
+//        EP_HOST_ASSERT(token_ids_of_expert->dim() == 2);
+//        EP_HOST_ASSERT(token_ids_of_expert->size(0) == num_experts);
+//        // EP_HOST_ASSERT(token_ids_of_expert->size(1) == ...whatever...);
+//        EP_HOST_ASSERT(token_ids_of_expert->dtype() == torch::kInt32);
+//    }
+    if (token_idx_and_dst_expert_flat_list.has_value()) {
+        EP_HOST_ASSERT(token_idx_and_dst_expert_flat_list->is_contiguous());
+        EP_HOST_ASSERT(token_idx_and_dst_expert_flat_list->dim() == 1);
+        EP_HOST_ASSERT(token_idx_and_dst_expert_flat_list->size(0) == num_tokens * num_topk);
+        EP_HOST_ASSERT(token_idx_and_dst_expert_flat_list->dtype() == torch::kInt64);
+    }
+
     // Buffer control
     LowLatencyLayout layout(rdma_buffer_ptr, num_max_dispatch_tokens_per_rank, hidden, num_ranks, num_experts);
     EP_HOST_ASSERT(layout.total_bytes <= num_rdma_bytes);
@@ -1304,9 +1304,9 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
             {dim1 * dim2, dim2, 1},
             torch::TensorOptions().dtype(torch::kUInt8).device(torch::kCUDA)
         ).index({
-            Slice(),
-            Slice(),
-            Slice(sizeof(int4), sizeof(int4) + hidden / 2)
+            torch::Slice(),
+            torch::Slice(),
+            torch::Slice(sizeof(int4), sizeof(int4) + hidden / 2)
         })
         : packed_recv_x;
     if (enable_v2) {

From 4c81bb27755bfa708f86b04e59a466917e22b944 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 14:24:53 +0800
Subject: [PATCH 276/393] more

---
 csrc/deep_ep.cpp | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index d2d39dd6..2c7628b6 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1301,12 +1301,12 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
             buffer.dispatch_rdma_recv_data_buffer,
             // ref: LowLatencyLayout constructor `dispatch_recv_data_buffer_bytes`
             {dim0, dim1, dim2},
-            {dim1 * dim2, dim2, 1},
+            {(int)(dim1 * dim2), dim2, 1},
             torch::TensorOptions().dtype(torch::kUInt8).device(torch::kCUDA)
         ).index({
-            torch::Slice(),
-            torch::Slice(),
-            torch::Slice(sizeof(int4), sizeof(int4) + hidden / 2)
+            torch::indexing::Slice(),
+            torch::indexing::Slice(),
+            torch::indexing::Slice(sizeof(int4), sizeof(int4) + hidden / 2)
         })
         : packed_recv_x;
     if (enable_v2) {

From 3eae3a21b97ea1654713101e94388cf774655053 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 14:36:31 +0800
Subject: [PATCH 277/393] more

---
 csrc/deep_ep.cpp | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 2c7628b6..b6de7461 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1314,7 +1314,7 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
         EP_HOST_ASSERT(returned_x.dim() == 3);
         EP_HOST_ASSERT(returned_x.size(0) == num_local_experts);
         EP_HOST_ASSERT(returned_x.size(1) == num_ranks * num_max_dispatch_tokens_per_rank);
-        EP_HOST_ASSERT(returned_x.size(2) == num_ranks * hidden / 2);
+        EP_HOST_ASSERT(returned_x.size(2) == hidden / 2);
         EP_HOST_ASSERT(returned_x.dtype() == torch::kUInt8);
     }
 

From 67805f1d97f54a5828dc7728948b606f489b88ea Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 14:38:32 +0800
Subject: [PATCH 278/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index cd3e86b6..fea0e48a 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -76,7 +76,7 @@ __forceinline__ __device__ void dispatch_send(
     // Reserve remote locations
     {
         EP_DEVICE_ASSERT(num_ranks <= num_sms);
-        EP_DEVICE_ASSERT(num_warps * 32 <= num_local_experts);
+        EP_DEVICE_ASSERT(num_local_experts <= num_warps * 32);
         const int dst_rank = sm_id;
         const int dst_expert_local_idx = subroutine_thread_id;
 

From 440bbd22d02e9a81f8ca5c33509f997aaf66426f Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 14:39:26 +0800
Subject: [PATCH 279/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index fea0e48a..627ba15f 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -402,7 +402,7 @@ __forceinline__ __device__ void dispatch_recv(
     const auto warp_id = subroutine_thread_id / 32, lane_id = get_lane_id();
     const auto num_warps = num_warp_groups * num_warps_per_group; // unused
     const auto num_local_experts = num_experts / num_ranks;
-    const auto warp_group_id = warp_id / num_warps_per_group;
+    // const auto warp_group_id = warp_id / num_warps_per_group;
     // const auto sub_warp_id = warp_id % num_warps_per_group;
 
     // NOTE rm

From b8b4d35de39a1d5a65a64e3074aa8815e5b0275b Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 14:45:40 +0800
Subject: [PATCH 280/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 627ba15f..c90e7ae5 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -459,11 +459,15 @@ __forceinline__ __device__ void dispatch_recv(
 
         int num_recv_tokens, token_start_offset;
         if (lane_id == 0) {
+            if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-layout START\n", rank, sm_id, subroutine_thread_id); }
+
             int64_t layout;
             while((layout = ld_volatile_global(layout_range_buffer + local_expert_idx * num_ranks + src_rank)) == 0);
             layout = -layout - 1;
             unpack2(layout, num_recv_tokens, token_start_offset);
 
+            if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-layout END num_recv_tokens=%d token_start_offset=%d\n", rank, sm_id, subroutine_thread_id, num_recv_tokens, token_start_offset); }
+
             if ((dst_signals != nullptr) and (cooperate_idx == 0)) {
                 atomic_add_release_global(dst_signals + local_expert_idx, DST_SIGNAL_EXPECT_VALUE - num_recv_tokens);
             }

From 33cbd0d7ff682c1d7c613893e0006e13ebf014e5 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 14:47:18 +0800
Subject: [PATCH 281/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index c90e7ae5..dccea618 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -439,7 +439,7 @@ __forceinline__ __device__ void dispatch_recv(
     // if (responsible_expert_idx < num_experts) {
     EP_DEVICE_ASSERT(num_warp_groups == 1); // not consider multi warp_group case below
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
-//         if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv local_expert_idx=%d START \n", rank, sm_id, subroutine_thread_id, local_expert_idx); }
+        if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv local_expert_idx=%d START \n", rank, sm_id, subroutine_thread_id, local_expert_idx); }
 
         // NOTE modified
         // const auto src_rank = responsible_expert_idx / num_local_experts;
@@ -459,14 +459,14 @@ __forceinline__ __device__ void dispatch_recv(
 
         int num_recv_tokens, token_start_offset;
         if (lane_id == 0) {
-            if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-layout START\n", rank, sm_id, subroutine_thread_id); }
+//             if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-layout START\n", rank, sm_id, subroutine_thread_id); }
 
             int64_t layout;
             while((layout = ld_volatile_global(layout_range_buffer + local_expert_idx * num_ranks + src_rank)) == 0);
             layout = -layout - 1;
             unpack2(layout, num_recv_tokens, token_start_offset);
 
-            if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-layout END num_recv_tokens=%d token_start_offset=%d\n", rank, sm_id, subroutine_thread_id, num_recv_tokens, token_start_offset); }
+//             if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-layout END num_recv_tokens=%d token_start_offset=%d\n", rank, sm_id, subroutine_thread_id, num_recv_tokens, token_start_offset); }
 
             if ((dst_signals != nullptr) and (cooperate_idx == 0)) {
                 atomic_add_release_global(dst_signals + local_expert_idx, DST_SIGNAL_EXPECT_VALUE - num_recv_tokens);
@@ -589,7 +589,7 @@ __forceinline__ __device__ void dispatch_recv(
         }
     }
 
-//     if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv END\n", rank, sm_id, subroutine_thread_id); }
+    if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv END\n", rank, sm_id, subroutine_thread_id); }
 }
 
 template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>

From c2e0cee1767a783a396e698f2f8c32708b65bc95 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 14:50:22 +0800
Subject: [PATCH 282/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 8 ++++++--
 1 file changed, 6 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index dccea618..8b03db84 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -459,14 +459,14 @@ __forceinline__ __device__ void dispatch_recv(
 
         int num_recv_tokens, token_start_offset;
         if (lane_id == 0) {
-//             if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-layout START\n", rank, sm_id, subroutine_thread_id); }
+            if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-layout START\n", rank, sm_id, subroutine_thread_id); }
 
             int64_t layout;
             while((layout = ld_volatile_global(layout_range_buffer + local_expert_idx * num_ranks + src_rank)) == 0);
             layout = -layout - 1;
             unpack2(layout, num_recv_tokens, token_start_offset);
 
-//             if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-layout END num_recv_tokens=%d token_start_offset=%d\n", rank, sm_id, subroutine_thread_id, num_recv_tokens, token_start_offset); }
+            if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-layout END num_recv_tokens=%d token_start_offset=%d\n", rank, sm_id, subroutine_thread_id, num_recv_tokens, token_start_offset); }
 
             if ((dst_signals != nullptr) and (cooperate_idx == 0)) {
                 atomic_add_release_global(dst_signals + local_expert_idx, DST_SIGNAL_EXPECT_VALUE - num_recv_tokens);
@@ -520,10 +520,14 @@ __forceinline__ __device__ void dispatch_recv(
 
             // Read signal + Copy source info
             if (lane_id == 0) {
+                if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-token-signal START\n", rank, sm_id, subroutine_thread_id); }
+
                 int recv_src_idx;
                 while ((recv_src_idx = ld_acquire_sys_global(src_src_idx)) == 0);
                 recv_src_idx = -recv_src_idx-1;
 
+                if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-token-signal END recv_src_idx=%d\n", rank, sm_id, subroutine_thread_id, recv_src_idx); }
+
                 // cleanup (will be used in the next round)
                 *src_src_idx = 0;
 

From 7a96ac80dfde7314735f8e027783984a56e11992 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 14:56:47 +0800
Subject: [PATCH 283/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 1 +
 1 file changed, 1 insertion(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 8b03db84..61230261 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -267,6 +267,7 @@ __forceinline__ __device__ void dispatch_send(
                 // NOTE only first 4B of 16B has value, the other 12B is not needed
                 __syncwarp();
                 if (lane_id == 0) {
+                    if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] st-token-signal token_idx=%d \n", rank, sm_id, subroutine_thread_id, token_idx); }
                     st_release_sys_global(reinterpret_cast<int*>(dst_p2p_ptr), -token_idx - 1);
                 }
             }

From 83cebc0ba963000efe54c76522531b0dd6cc340c Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 15:01:02 +0800
Subject: [PATCH 284/393] more

---
 csrc/deep_ep.cpp                 | 14 +++++++++++++-
 csrc/deep_ep.hpp                 |  1 +
 csrc/kernels/api.cuh             |  3 ++-
 csrc/kernels/internode_ll.cu     |  6 ++++--
 csrc/kernels/internode_ll_v2.cuh |  8 ++++----
 deep_ep/buffer.py                |  6 ++++--
 6 files changed, 28 insertions(+), 10 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index b6de7461..89f5f561 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1107,6 +1107,7 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
                              bool async, bool return_recv_hook,
                              const std::optional<torch::Tensor>& zeroed_tensor_a,
                              const std::optional<torch::Tensor>& zeroed_tensor_b,
+                             const std::optional<torch::Tensor>& zeroed_buffer_for_atomic_counter_per_expert,
                              bool use_nvfp4,
                              const std::optional<torch::Tensor>& dst_signals,
                              const std::optional<torch::Tensor>& count_per_expert, const std::optional<torch::Tensor>& token_idx_and_dst_expert_flat_list) {
@@ -1221,6 +1222,16 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
         EP_HOST_ASSERT(((int64_t)remote_start_offset_of_dst_rank_buffer->data_ptr()) % 16 == 0); // alignment
     }
 
+    if (enable_v2) {
+        EP_HOST_ASSERT(zeroed_buffer_for_atomic_counter_per_expert->is_contiguous());
+        EP_HOST_ASSERT(zeroed_buffer_for_atomic_counter_per_expert->dim() == 1);
+        EP_HOST_ASSERT(zeroed_buffer_for_atomic_counter_per_expert->size(0) == num_experts);
+        EP_HOST_ASSERT(zeroed_buffer_for_atomic_counter_per_expert->dtype() == torch::kInt32);
+        EP_HOST_ASSERT(zeroed_buffer_for_atomic_counter_per_expert->device().is_cuda());
+        EP_HOST_ASSERT(zeroed_buffer_for_atomic_counter_per_expert->stride(0) == 1);
+        EP_HOST_ASSERT(((int64_t)zeroed_buffer_for_atomic_counter_per_expert->data_ptr()) % 16 == 0); // alignment
+    }
+
     // Allocate column-majored scales
     auto packed_recv_x_scales = std::optional<torch::Tensor>();
     void* packed_recv_x_scales_ptr = nullptr;
@@ -1271,7 +1282,8 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
                                token_idx_and_dst_expert_flat_list.has_value() ? token_idx_and_dst_expert_flat_list->data_ptr<int64_t>() : nullptr,
 //                               token_ids_of_expert.has_value() ? token_ids_of_expert->data_ptr<int>() : nullptr,
 //                               token_ids_of_expert.has_value() ? token_ids_of_expert->stride(0) : 0,
-                               remote_start_offset_of_dst_rank_buffer.has_value() ? remote_start_offset_of_dst_rank_buffer->data_ptr<int>() : nullptr);
+                               remote_start_offset_of_dst_rank_buffer.has_value() ? remote_start_offset_of_dst_rank_buffer->data_ptr<int>() : nullptr,
+                               zeroed_buffer_for_atomic_counter_per_expert.has_value() ? zeroed_buffer_for_atomic_counter_per_expert->data_ptr<int>() : nullptr);
     };
     launcher(return_recv_hook ? LOW_LATENCY_SEND_PHASE : (LOW_LATENCY_SEND_PHASE | LOW_LATENCY_RECV_PHASE));
 
diff --git a/csrc/deep_ep.hpp b/csrc/deep_ep.hpp
index a7f42494..3d09e5b6 100644
--- a/csrc/deep_ep.hpp
+++ b/csrc/deep_ep.hpp
@@ -152,6 +152,7 @@ struct Buffer {
                          bool async, bool return_recv_hook,
                          const std::optional<torch::Tensor>& zeroed_tensor_a,
                          const std::optional<torch::Tensor>& zeroed_tensor_b,
+                         const std::optional<torch::Tensor>& zeroed_buffer_for_atomic_counter_per_expert,
                          bool use_nvfp4,
                          const std::optional<torch::Tensor>& dst_signals,
                          const std::optional<torch::Tensor>& count_per_expert, const std::optional<torch::Tensor>& token_idx_and_dst_expert_flat_list);
diff --git a/csrc/kernels/api.cuh b/csrc/kernels/api.cuh
index 51625a9f..2ac950d4 100644
--- a/csrc/kernels/api.cuh
+++ b/csrc/kernels/api.cuh
@@ -154,7 +154,8 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
               cudaStream_t stream, int phases,
               bool use_nvfp4, uint32_t* dst_signals,
               uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
-              int* remote_start_offset_of_dst_rank_buffer);
+              int* remote_start_offset_of_dst_rank_buffer,
+              int* zeroed_buffer_for_atomic_counter_per_expert);
 
 void combine(bool enable_v2, void* combined_x,
              void* rdma_recv_x, int* rdma_recv_flag, void* rdma_send_x,
diff --git a/csrc/kernels/internode_ll.cu b/csrc/kernels/internode_ll.cu
index 0670a2de..75dd5ed6 100644
--- a/csrc/kernels/internode_ll.cu
+++ b/csrc/kernels/internode_ll.cu
@@ -353,7 +353,8 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
               cudaStream_t stream, int phases,
               bool use_nvfp4, uint32_t* dst_signals,
               uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
-              int* remote_start_offset_of_dst_rank_buffer) {
+              int* remote_start_offset_of_dst_rank_buffer,
+              int* zeroed_buffer_for_atomic_counter_per_expert) {
     if (enable_v2) {
         return dispatch_v2(
             packed_recv_x, packed_recv_x_scales,
@@ -372,7 +373,8 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
             stream, phases,
             use_nvfp4, dst_signals,
             count_per_expert, token_idx_and_dst_expert_flat_list,
-            remote_start_offset_of_dst_rank_buffer
+            remote_start_offset_of_dst_rank_buffer,
+            zeroed_buffer_for_atomic_counter_per_expert
         );
     }
 
diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 61230261..30b9896e 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -718,7 +718,7 @@ void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
               cudaStream_t stream, int phases,
               bool use_nvfp4, uint32_t* dst_signals,
               uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
-              int* remote_start_offset_of_dst_rank_buffer) {
+              int* remote_start_offset_of_dst_rank_buffer, int* zeroed_buffer_for_atomic_counter_per_expert) {
     constexpr int kNumMaxTopK = 9;
 
     // NOTE simple renaming
@@ -743,9 +743,9 @@ void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
     EP_HOST_ASSERT(num_topk <= kNumMaxTopK);
 
     // Workspace checks
-    auto atomic_counter_per_expert = static_cast<int*>(workspace);
+    // auto atomic_counter_per_expert = static_cast<int*>(workspace); // NOTE let users pass a zeroed buffer
     // auto atomic_finish_counter_per_expert = atomic_counter_per_expert + num_experts; // NOTE removed
-    EP_HOST_ASSERT(num_experts * sizeof(int) * 2 <= NUM_WORKSPACE_BYTES);
+    // EP_HOST_ASSERT(num_experts * sizeof(int) * 2 <= NUM_WORKSPACE_BYTES);
 
     // TODO inefficient, may change it
     // NOTE add
@@ -774,7 +774,7 @@ LAUNCH_KERNEL(&cfg, dispatch_func, \
               rdma_recv_x, \
               rdma_general_signal, \
               x, topk_idx, \
-              atomic_counter_per_expert, \
+              zeroed_buffer_for_atomic_counter_per_expert, \
               next_clean, num_next_clean_int, \
               num_tokens, num_max_dispatch_tokens_per_rank, \
               num_topk, num_experts, rank, num_ranks, \
diff --git a/deep_ep/buffer.py b/deep_ep/buffer.py
index 4e021f69..dd8eb9d2 100644
--- a/deep_ep/buffer.py
+++ b/deep_ep/buffer.py
@@ -531,7 +531,9 @@ def low_latency_dispatch(self, x: torch.Tensor, topk_idx: torch.Tensor,
                              use_fp8: bool = True, round_scale: bool = False, use_ue8m0: bool = False,
                              async_finish: bool = False, return_recv_hook: bool = False,
                              enable_v2: bool = False,
-                             zeroed_tensor_a: Optional[torch.Tensor] = None, zeroed_tensor_b: Optional[torch.Tensor] = None,
+                             zeroed_tensor_a: Optional[torch.Tensor] = None,
+                             zeroed_tensor_b: Optional[torch.Tensor] = None,
+                             zeroed_tensor_c: Optional[torch.Tensor] = None,
                              use_nvfp4: bool = False,
                              dst_signals: Optional[torch.Tensor] = None,
                              count_per_expert: Optional[torch.Tensor] = None, token_idx_and_dst_expert_flat_list: Optional[torch.Tensor] = None) -> \
@@ -597,7 +599,7 @@ def low_latency_dispatch(self, x: torch.Tensor, topk_idx: torch.Tensor,
                                               num_max_dispatch_tokens_per_rank, num_experts,
                                               use_fp8, round_scale, use_ue8m0,
                                               async_finish, return_recv_hook,
-                                              zeroed_tensor_a, zeroed_tensor_b,
+                                              zeroed_tensor_a, zeroed_tensor_b, zeroed_tensor_c,
                                               use_nvfp4,
                                               dst_signals,
                                               count_per_expert, token_idx_and_dst_expert_flat_list)

From ddf364a4283f2fb1e3d2e94214092bca826bcd45 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 15:03:51 +0800
Subject: [PATCH 285/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 30b9896e..eb22d30b 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -521,7 +521,7 @@ __forceinline__ __device__ void dispatch_recv(
 
             // Read signal + Copy source info
             if (lane_id == 0) {
-                if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-token-signal START\n", rank, sm_id, subroutine_thread_id); }
+                if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-token-signal START token_idx=%d\n", rank, sm_id, subroutine_thread_id, token_idx); }
 
                 int recv_src_idx;
                 while ((recv_src_idx = ld_acquire_sys_global(src_src_idx)) == 0);

From 9176b414c9727fa8fd2156d30d38d3644e6aff27 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 15:08:05 +0800
Subject: [PATCH 286/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 7 +++++--
 1 file changed, 5 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index eb22d30b..5aace638 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -267,7 +267,9 @@ __forceinline__ __device__ void dispatch_send(
                 // NOTE only first 4B of 16B has value, the other 12B is not needed
                 __syncwarp();
                 if (lane_id == 0) {
-                    if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] st-token-signal token_idx=%d \n", rank, sm_id, subroutine_thread_id, token_idx); }
+                    if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] st-token-signal START addr=%p delta_addr=%d token_idx=%d\n",
+                        rank, sm_id, subroutine_thread_id, src_src_idx, (int)((int64_t)dst_ptr - (int64_t)rdma_recv_x), token_idx); }
+
                     st_release_sys_global(reinterpret_cast<int*>(dst_p2p_ptr), -token_idx - 1);
                 }
             }
@@ -521,7 +523,8 @@ __forceinline__ __device__ void dispatch_recv(
 
             // Read signal + Copy source info
             if (lane_id == 0) {
-                if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-token-signal START token_idx=%d\n", rank, sm_id, subroutine_thread_id, token_idx); }
+                if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-token-signal START addr=%p delta_addr=%d token_idx=%d\n",
+                    rank, sm_id, subroutine_thread_id, src_src_idx, (int)((int64_t)src_src_idx - (int64_t)rdma_recv_x), token_idx); }
 
                 int recv_src_idx;
                 while ((recv_src_idx = ld_acquire_sys_global(src_src_idx)) == 0);

From 7922f7043b8844e2c03e41c0c191338c6a8e0f9a Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 15:08:57 +0800
Subject: [PATCH 287/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 5aace638..75266714 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -268,7 +268,7 @@ __forceinline__ __device__ void dispatch_send(
                 __syncwarp();
                 if (lane_id == 0) {
                     if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] st-token-signal START addr=%p delta_addr=%d token_idx=%d\n",
-                        rank, sm_id, subroutine_thread_id, src_src_idx, (int)((int64_t)dst_ptr - (int64_t)rdma_recv_x), token_idx); }
+                        rank, sm_id, subroutine_thread_id, (int*)dst_ptr, (int)((int64_t)dst_ptr - (int64_t)rdma_recv_x), token_idx); }
 
                     st_release_sys_global(reinterpret_cast<int*>(dst_p2p_ptr), -token_idx - 1);
                 }

From 1674d26d5d98d06ec94ce33f84158a0c4bcd5373 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 15:14:34 +0800
Subject: [PATCH 288/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 75266714..828207ec 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -267,8 +267,9 @@ __forceinline__ __device__ void dispatch_send(
                 // NOTE only first 4B of 16B has value, the other 12B is not needed
                 __syncwarp();
                 if (lane_id == 0) {
-                    if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] st-token-signal START addr=%p delta_addr=%d token_idx=%d\n",
-                        rank, sm_id, subroutine_thread_id, (int*)dst_ptr, (int)((int64_t)dst_ptr - (int64_t)rdma_recv_x), token_idx); }
+                    if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] st-token-signal START dst_rank=%d addr=%p delta_addr=%d token_idx=%d\n",
+                        rank, sm_id, subroutine_thread_id,
+                        dst_rank, (int*)dst_ptr, (int)((int64_t)dst_ptr - (int64_t)rdma_recv_x), token_idx); }
 
                     st_release_sys_global(reinterpret_cast<int*>(dst_p2p_ptr), -token_idx - 1);
                 }

From b3521a0714d1ba0e4ba924215d0d571c3404b0f2 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 15:40:10 +0800
Subject: [PATCH 289/393] fix

---
 csrc/kernels/internode_ll_v2.cuh | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 828207ec..381438ea 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -151,12 +151,12 @@ __forceinline__ __device__ void dispatch_send(
         const auto token_idx_and_dst_expert = __ldg(token_idx_and_dst_expert_flat_list + tefl_idx);
         int token_idx, dst_expert_idx;
         unpack2(token_idx_and_dst_expert, token_idx, dst_expert_idx);
-        const auto dst_rank = dst_expert_idx / num_local_experts;
+        // const auto dst_rank = dst_expert_idx / num_local_experts;
 
         // TODO can speedup by prefetching, delayed checking, etc
         // TODO is this load strong enough?
         int remote_start_offset_of_dst_rank;
-        while ((remote_start_offset_of_dst_rank = ld_volatile_global(remote_start_offset_of_dst_rank_buffer + dst_rank)) == 0);
+        while ((remote_start_offset_of_dst_rank = ld_volatile_global(remote_start_offset_of_dst_rank_buffer + dst_expert_local_idx)) == 0);
         remote_start_offset_of_dst_rank = -remote_start_offset_of_dst_rank - 1;
 
         // NOTE changed, see "before-after" above

From 5d2c1285a63b6517b493c129a0e9b2b927e35647 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 15:41:13 +0800
Subject: [PATCH 290/393] rename

---
 csrc/deep_ep.cpp                 | 20 ++++++++++----------
 csrc/kernels/api.cuh             |  2 +-
 csrc/kernels/internode_ll.cu     |  4 ++--
 csrc/kernels/internode_ll_v2.cuh | 30 +++++++++++++++---------------
 4 files changed, 28 insertions(+), 28 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 89f5f561..c21516d7 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1210,16 +1210,16 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
     EP_HOST_ASSERT(((int64_t)packed_recv_count.data_ptr()) % 16 == 0); // alignment
 
     // (num_experts,). used in curr gpu. for i-th dst rank, what is the start offset in the remote buffer
-    const std::optional<torch::Tensor>& remote_start_offset_of_dst_rank_buffer = zeroed_tensor_b;
-    EP_HOST_ASSERT(enable_v2 == remote_start_offset_of_dst_rank_buffer.has_value());
+    const std::optional<torch::Tensor>& remote_start_offset_buffer = zeroed_tensor_b;
+    EP_HOST_ASSERT(enable_v2 == remote_start_offset_buffer.has_value());
     if (enable_v2) {
-        EP_HOST_ASSERT(remote_start_offset_of_dst_rank_buffer->is_contiguous());
-        EP_HOST_ASSERT(remote_start_offset_of_dst_rank_buffer->dim() == 1);
-        EP_HOST_ASSERT(remote_start_offset_of_dst_rank_buffer->size(0) == num_experts);
-        EP_HOST_ASSERT(remote_start_offset_of_dst_rank_buffer->dtype() == torch::kInt32);
-        EP_HOST_ASSERT(remote_start_offset_of_dst_rank_buffer->device().is_cuda());
-        EP_HOST_ASSERT(remote_start_offset_of_dst_rank_buffer->stride(0) == 1);
-        EP_HOST_ASSERT(((int64_t)remote_start_offset_of_dst_rank_buffer->data_ptr()) % 16 == 0); // alignment
+        EP_HOST_ASSERT(remote_start_offset_buffer->is_contiguous());
+        EP_HOST_ASSERT(remote_start_offset_buffer->dim() == 1);
+        EP_HOST_ASSERT(remote_start_offset_buffer->size(0) == num_experts);
+        EP_HOST_ASSERT(remote_start_offset_buffer->dtype() == torch::kInt32);
+        EP_HOST_ASSERT(remote_start_offset_buffer->device().is_cuda());
+        EP_HOST_ASSERT(remote_start_offset_buffer->stride(0) == 1);
+        EP_HOST_ASSERT(((int64_t)remote_start_offset_buffer->data_ptr()) % 16 == 0); // alignment
     }
 
     if (enable_v2) {
@@ -1282,7 +1282,7 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
                                token_idx_and_dst_expert_flat_list.has_value() ? token_idx_and_dst_expert_flat_list->data_ptr<int64_t>() : nullptr,
 //                               token_ids_of_expert.has_value() ? token_ids_of_expert->data_ptr<int>() : nullptr,
 //                               token_ids_of_expert.has_value() ? token_ids_of_expert->stride(0) : 0,
-                               remote_start_offset_of_dst_rank_buffer.has_value() ? remote_start_offset_of_dst_rank_buffer->data_ptr<int>() : nullptr,
+                               remote_start_offset_buffer.has_value() ? remote_start_offset_buffer->data_ptr<int>() : nullptr,
                                zeroed_buffer_for_atomic_counter_per_expert.has_value() ? zeroed_buffer_for_atomic_counter_per_expert->data_ptr<int>() : nullptr);
     };
     launcher(return_recv_hook ? LOW_LATENCY_SEND_PHASE : (LOW_LATENCY_SEND_PHASE | LOW_LATENCY_RECV_PHASE));
diff --git a/csrc/kernels/api.cuh b/csrc/kernels/api.cuh
index 2ac950d4..069ecafa 100644
--- a/csrc/kernels/api.cuh
+++ b/csrc/kernels/api.cuh
@@ -154,7 +154,7 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
               cudaStream_t stream, int phases,
               bool use_nvfp4, uint32_t* dst_signals,
               uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
-              int* remote_start_offset_of_dst_rank_buffer,
+              int* remote_start_offset_buffer,
               int* zeroed_buffer_for_atomic_counter_per_expert);
 
 void combine(bool enable_v2, void* combined_x,
diff --git a/csrc/kernels/internode_ll.cu b/csrc/kernels/internode_ll.cu
index 75dd5ed6..f6b949e4 100644
--- a/csrc/kernels/internode_ll.cu
+++ b/csrc/kernels/internode_ll.cu
@@ -353,7 +353,7 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
               cudaStream_t stream, int phases,
               bool use_nvfp4, uint32_t* dst_signals,
               uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
-              int* remote_start_offset_of_dst_rank_buffer,
+              int* remote_start_offset_buffer,
               int* zeroed_buffer_for_atomic_counter_per_expert) {
     if (enable_v2) {
         return dispatch_v2(
@@ -373,7 +373,7 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
             stream, phases,
             use_nvfp4, dst_signals,
             count_per_expert, token_idx_and_dst_expert_flat_list,
-            remote_start_offset_of_dst_rank_buffer,
+            remote_start_offset_buffer,
             zeroed_buffer_for_atomic_counter_per_expert
         );
     }
diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 381438ea..e6bf2650 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -36,7 +36,7 @@ __forceinline__ __device__ void dispatch_send(
     bool round_scale, int phases,
     uint32_t* dst_signals,
     uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
-    int64_t* layout_range_buffer, int* negotiate_offset_of_expert_buffer, int* remote_start_offset_of_dst_rank_buffer
+    int64_t* layout_range_buffer, int* negotiate_offset_of_expert_buffer, int* remote_start_offset_buffer
 ) {
     using Consts = DispatchConstsTemplate<kUseFP8, kUseNVFP4, kHidden>;
     EP_DEVICE_ASSERT(Consts::num_bytes_per_msg % sizeof(int4) == 0);
@@ -87,11 +87,11 @@ __forceinline__ __device__ void dispatch_send(
 
             // 1. Compete to get a range of locations to set data to
             // TODO maybe do not need `release` (but yes need `sys`)
-            int remote_start_offset_of_dst_rank;
+            int remote_start_offset;
             {
                 const auto dst_ptr = reinterpret_cast<uint64_t>(negotiate_offset_of_expert_buffer);
                 const auto dst_p2p_ptr = reinterpret_cast<int*>(nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank));
-                remote_start_offset_of_dst_rank = atomic_add_release_sys_global(dst_p2p_ptr + dst_expert_local_idx, num_tokens_to_send);
+                remote_start_offset = atomic_add_release_sys_global(dst_p2p_ptr + dst_expert_local_idx, num_tokens_to_send);
             }
 
             // 2. Write metadata to remote
@@ -99,13 +99,13 @@ __forceinline__ __device__ void dispatch_send(
             {
                 const auto dst_ptr = reinterpret_cast<uint64_t>(layout_range_buffer);
                 const auto dst_p2p_ptr = reinterpret_cast<int64_t*>(nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank));
-                const auto val = pack2<int, int64_t>(num_tokens_to_send, remote_start_offset_of_dst_rank);
+                const auto val = pack2<int, int64_t>(num_tokens_to_send, remote_start_offset);
                 dst_p2p_ptr[dst_expert_local_idx * num_ranks + rank] = -val-1;
             }
 
             // 2. Write metadata to local
             // TODO is this strong enough
-            remote_start_offset_of_dst_rank_buffer[dst_global_expert_idx] = -remote_start_offset_of_dst_rank-1;
+            remote_start_offset_buffer[dst_global_expert_idx] = -remote_start_offset-1;
         }
     }
 
@@ -155,9 +155,9 @@ __forceinline__ __device__ void dispatch_send(
 
         // TODO can speedup by prefetching, delayed checking, etc
         // TODO is this load strong enough?
-        int remote_start_offset_of_dst_rank;
-        while ((remote_start_offset_of_dst_rank = ld_volatile_global(remote_start_offset_of_dst_rank_buffer + dst_expert_local_idx)) == 0);
-        remote_start_offset_of_dst_rank = -remote_start_offset_of_dst_rank - 1;
+        int remote_start_offset;
+        while ((remote_start_offset = ld_volatile_global(remote_start_offset_buffer + dst_expert_local_idx)) == 0);
+        remote_start_offset = -remote_start_offset - 1;
 
         // NOTE changed, see "before-after" above
         // for (int token_idx = sm_id; token_idx < num_tokens; token_idx += num_sms) {
@@ -241,7 +241,7 @@ __forceinline__ __device__ void dispatch_send(
                                  dst_expert_local_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
                                  // NOTE modified rm
                                  // rank * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
-                                 remote_start_offset_of_dst_rank * Consts::num_bytes_per_msg +
+                                 remote_start_offset * Consts::num_bytes_per_msg +
                                  slot_idx * Consts::num_bytes_per_msg;
             const auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
             if (dst_p2p_ptr == 0) {
@@ -396,7 +396,7 @@ __forceinline__ __device__ void dispatch_recv(
     bool round_scale, int phases,
     uint32_t* dst_signals,
     uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
-    int64_t* layout_range_buffer, int* negotiate_offset_of_expert_buffer, int* remote_start_offset_of_dst_rank_buffer
+    int64_t* layout_range_buffer, int* negotiate_offset_of_expert_buffer, int* remote_start_offset_buffer
 ) {
     using Consts = DispatchConstsTemplate<kUseFP8, kUseNVFP4, kHidden>;
 
@@ -623,7 +623,7 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
          bool round_scale, int phases,
          uint32_t* dst_signals,
          uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
-         int* remote_start_offset_of_dst_rank_buffer) {
+         int* remote_start_offset_buffer) {
     const auto sm_id = static_cast<int>(blockIdx.x);
     const auto num_send_threads = num_send_warp_groups * num_warps_per_group * 32;
     const auto raw_thread_id = static_cast<int>(threadIdx.x);
@@ -665,7 +665,7 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
                 round_scale, phases,
                 dst_signals,
                 count_per_expert, token_idx_and_dst_expert_flat_list,
-                layout_range_buffer, negotiate_offset_of_expert_buffer, remote_start_offset_of_dst_rank_buffer
+                layout_range_buffer, negotiate_offset_of_expert_buffer, remote_start_offset_buffer
             );
         }
     } else {
@@ -690,7 +690,7 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
                 round_scale, phases,
                 dst_signals,
                 count_per_expert, token_idx_and_dst_expert_flat_list,
-                layout_range_buffer, negotiate_offset_of_expert_buffer, remote_start_offset_of_dst_rank_buffer
+                layout_range_buffer, negotiate_offset_of_expert_buffer, remote_start_offset_buffer
             );
         }
     }
@@ -722,7 +722,7 @@ void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
               cudaStream_t stream, int phases,
               bool use_nvfp4, uint32_t* dst_signals,
               uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
-              int* remote_start_offset_of_dst_rank_buffer, int* zeroed_buffer_for_atomic_counter_per_expert) {
+              int* remote_start_offset_buffer, int* zeroed_buffer_for_atomic_counter_per_expert) {
     constexpr int kNumMaxTopK = 9;
 
     // NOTE simple renaming
@@ -785,7 +785,7 @@ LAUNCH_KERNEL(&cfg, dispatch_func, \
               num_send_warp_groups, num_recv_warp_groups, num_warps_per_group, \
               round_scale, phases, \
               dst_signals, \
-              count_per_expert, token_idx_and_dst_expert_flat_list, remote_start_offset_of_dst_rank_buffer); } break
+              count_per_expert, token_idx_and_dst_expert_flat_list, remote_start_offset_buffer); } break
 
     SETUP_LAUNCH_CONFIG(num_sms, num_warps * 32, stream);
     SWITCH_HIDDEN(DISPATCH_LAUNCH_CASE);

From abb6aeae6429db87bacc52ffa46f0e28f4955fcd Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 15:42:31 +0800
Subject: [PATCH 291/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index e6bf2650..fbe6434b 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -156,7 +156,7 @@ __forceinline__ __device__ void dispatch_send(
         // TODO can speedup by prefetching, delayed checking, etc
         // TODO is this load strong enough?
         int remote_start_offset;
-        while ((remote_start_offset = ld_volatile_global(remote_start_offset_buffer + dst_expert_local_idx)) == 0);
+        while ((remote_start_offset = ld_volatile_global(remote_start_offset_buffer + dst_expert_idx)) == 0);
         remote_start_offset = -remote_start_offset - 1;
 
         // NOTE changed, see "before-after" above

From da18c3416b38f44069e9cdb041c4b7c85fd1965d Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 15:45:01 +0800
Subject: [PATCH 292/393] rm log

---
 csrc/kernels/internode_ll_v2.cuh | 20 ++++++++++----------
 1 file changed, 10 insertions(+), 10 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index fbe6434b..0347b386 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -267,9 +267,9 @@ __forceinline__ __device__ void dispatch_send(
                 // NOTE only first 4B of 16B has value, the other 12B is not needed
                 __syncwarp();
                 if (lane_id == 0) {
-                    if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] st-token-signal START dst_rank=%d addr=%p delta_addr=%d token_idx=%d\n",
-                        rank, sm_id, subroutine_thread_id,
-                        dst_rank, (int*)dst_ptr, (int)((int64_t)dst_ptr - (int64_t)rdma_recv_x), token_idx); }
+//                     if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] st-token-signal START dst_rank=%d addr=%p delta_addr=%d token_idx=%d\n",
+//                         rank, sm_id, subroutine_thread_id,
+//                         dst_rank, (int*)dst_ptr, (int)((int64_t)dst_ptr - (int64_t)rdma_recv_x), token_idx); }
 
                     st_release_sys_global(reinterpret_cast<int*>(dst_p2p_ptr), -token_idx - 1);
                 }
@@ -443,7 +443,7 @@ __forceinline__ __device__ void dispatch_recv(
     // if (responsible_expert_idx < num_experts) {
     EP_DEVICE_ASSERT(num_warp_groups == 1); // not consider multi warp_group case below
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
-        if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv local_expert_idx=%d START \n", rank, sm_id, subroutine_thread_id, local_expert_idx); }
+//         if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv local_expert_idx=%d START \n", rank, sm_id, subroutine_thread_id, local_expert_idx); }
 
         // NOTE modified
         // const auto src_rank = responsible_expert_idx / num_local_experts;
@@ -463,14 +463,14 @@ __forceinline__ __device__ void dispatch_recv(
 
         int num_recv_tokens, token_start_offset;
         if (lane_id == 0) {
-            if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-layout START\n", rank, sm_id, subroutine_thread_id); }
+//             if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-layout START\n", rank, sm_id, subroutine_thread_id); }
 
             int64_t layout;
             while((layout = ld_volatile_global(layout_range_buffer + local_expert_idx * num_ranks + src_rank)) == 0);
             layout = -layout - 1;
             unpack2(layout, num_recv_tokens, token_start_offset);
 
-            if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-layout END num_recv_tokens=%d token_start_offset=%d\n", rank, sm_id, subroutine_thread_id, num_recv_tokens, token_start_offset); }
+//             if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-layout END num_recv_tokens=%d token_start_offset=%d\n", rank, sm_id, subroutine_thread_id, num_recv_tokens, token_start_offset); }
 
             if ((dst_signals != nullptr) and (cooperate_idx == 0)) {
                 atomic_add_release_global(dst_signals + local_expert_idx, DST_SIGNAL_EXPECT_VALUE - num_recv_tokens);
@@ -524,14 +524,14 @@ __forceinline__ __device__ void dispatch_recv(
 
             // Read signal + Copy source info
             if (lane_id == 0) {
-                if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-token-signal START addr=%p delta_addr=%d token_idx=%d\n",
-                    rank, sm_id, subroutine_thread_id, src_src_idx, (int)((int64_t)src_src_idx - (int64_t)rdma_recv_x), token_idx); }
+//                 if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-token-signal START addr=%p delta_addr=%d token_idx=%d\n",
+//                     rank, sm_id, subroutine_thread_id, src_src_idx, (int)((int64_t)src_src_idx - (int64_t)rdma_recv_x), token_idx); }
 
                 int recv_src_idx;
                 while ((recv_src_idx = ld_acquire_sys_global(src_src_idx)) == 0);
                 recv_src_idx = -recv_src_idx-1;
 
-                if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-token-signal END recv_src_idx=%d\n", rank, sm_id, subroutine_thread_id, recv_src_idx); }
+//                 if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-token-signal END recv_src_idx=%d\n", rank, sm_id, subroutine_thread_id, recv_src_idx); }
 
                 // cleanup (will be used in the next round)
                 *src_src_idx = 0;
@@ -598,7 +598,7 @@ __forceinline__ __device__ void dispatch_recv(
         }
     }
 
-    if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv END\n", rank, sm_id, subroutine_thread_id); }
+//     if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv END\n", rank, sm_id, subroutine_thread_id); }
 }
 
 template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>

From b0c459956db30530133bc7f3e033683942f17f57 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 15:46:52 +0800
Subject: [PATCH 293/393] fix

---
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 0347b386..04f189f6 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -473,7 +473,7 @@ __forceinline__ __device__ void dispatch_recv(
 //             if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-layout END num_recv_tokens=%d token_start_offset=%d\n", rank, sm_id, subroutine_thread_id, num_recv_tokens, token_start_offset); }
 
             if ((dst_signals != nullptr) and (cooperate_idx == 0)) {
-                atomic_add_release_global(dst_signals + local_expert_idx, DST_SIGNAL_EXPECT_VALUE - num_recv_tokens);
+                atomic_add_release_global(dst_signals + local_expert_idx, ((src_rank == 0) ? DST_SIGNAL_EXPECT_VALUE: 0) - num_recv_tokens);
             }
         }
         num_recv_tokens = __shfl_sync(0xffffffff, num_recv_tokens, 0);

From 526d74ae7b965d3c129968586797b71de04c929e Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 16:12:15 +0800
Subject: [PATCH 294/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 7 ++++++-
 1 file changed, 6 insertions(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 04f189f6..37f84f1e 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -457,7 +457,7 @@ __forceinline__ __device__ void dispatch_recv(
 //         const auto recv_x_int4 = static_cast<int4*>(packed_recv_x) +
 //                 local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::hidden_int4;
         const auto recv_src_info = packed_recv_src_info + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank;
-        // const auto recv_range = packed_recv_layout_range + local_expert_idx * num_ranks;
+        const auto recv_range = packed_recv_layout_range + local_expert_idx * num_ranks;
         const auto num_aligned_scales = align<int>(Consts::num_scales, sizeof(float) / sizeof(scale_t));
         const auto recv_x_scales = static_cast<scale_t*>(packed_recv_x_scales) + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_aligned_scales;
 
@@ -470,6 +470,11 @@ __forceinline__ __device__ void dispatch_recv(
             layout = -layout - 1;
             unpack2(layout, num_recv_tokens, token_start_offset);
 
+            // TODO may not need to do this extra copy
+            if (cooperate_idx == 0) {
+                recv_range[src_rank] = layout;
+            }
+
 //             if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-layout END num_recv_tokens=%d token_start_offset=%d\n", rank, sm_id, subroutine_thread_id, num_recv_tokens, token_start_offset); }
 
             if ((dst_signals != nullptr) and (cooperate_idx == 0)) {

From 97cd74d5e186decac5303718363626359bfe3755 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 16:26:11 +0800
Subject: [PATCH 295/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 37f84f1e..f567d39f 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -470,9 +470,11 @@ __forceinline__ __device__ void dispatch_recv(
             layout = -layout - 1;
             unpack2(layout, num_recv_tokens, token_start_offset);
 
-            // TODO may not need to do this extra copy
             if (cooperate_idx == 0) {
+                // TODO may not need to do this extra copy - directly use the `layout_range_buffer`
                 recv_range[src_rank] = layout;
+                // TODO may also not need to do this extra copy - directly use the `negotiate_offset_of_expert_buffer`
+                atomicAdd(packed_recv_count + local_expert_idx, num_recv_tokens);
             }
 
 //             if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-layout END num_recv_tokens=%d token_start_offset=%d\n", rank, sm_id, subroutine_thread_id, num_recv_tokens, token_start_offset); }

From 96d23e9c525e5b53465fd4c098894d2df82918ef Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 16:37:06 +0800
Subject: [PATCH 296/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index f567d39f..27f8a75e 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -741,8 +741,7 @@ void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
 
     // NOTE temporarily reduce num warps per group to avoid workload imbalance in dispatch_send
     // TODO may increase it later e.g. for dispatch_recv
-    const int num_warps_per_group = 8;
-    // const int num_warps_per_group = 32 / num_warp_groups;
+    const int num_warps_per_group = 32 / num_warp_groups;
 
     EP_HOST_ASSERT(num_warp_groups > 0 and num_warps_per_group > 0);
 

From ba16fd98fe10c396eb5a59a4f868e27da6e57e18 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 17:48:57 +0800
Subject: [PATCH 297/393] more

---
 csrc/deep_ep.cpp                 |  6 ++++--
 csrc/deep_ep.hpp                 |  3 ++-
 csrc/kernels/api.cuh             |  3 ++-
 csrc/kernels/internode_ll.cu     |  6 ++++--
 csrc/kernels/internode_ll_v2.cuh | 21 ++++++++++++++-------
 deep_ep/buffer.py                |  6 ++++--
 6 files changed, 30 insertions(+), 15 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index c21516d7..02f550a5 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1110,7 +1110,8 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
                              const std::optional<torch::Tensor>& zeroed_buffer_for_atomic_counter_per_expert,
                              bool use_nvfp4,
                              const std::optional<torch::Tensor>& dst_signals,
-                             const std::optional<torch::Tensor>& count_per_expert, const std::optional<torch::Tensor>& token_idx_and_dst_expert_flat_list) {
+                             const std::optional<torch::Tensor>& count_per_expert, const std::optional<torch::Tensor>& token_idx_and_dst_expert_flat_list,
+                             const std::optional<torch::Tensor>& debug_tensor) {
 #ifndef DISABLE_NVSHMEM
     EP_HOST_ASSERT(low_latency_mode);
 
@@ -1283,7 +1284,8 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
 //                               token_ids_of_expert.has_value() ? token_ids_of_expert->data_ptr<int>() : nullptr,
 //                               token_ids_of_expert.has_value() ? token_ids_of_expert->stride(0) : 0,
                                remote_start_offset_buffer.has_value() ? remote_start_offset_buffer->data_ptr<int>() : nullptr,
-                               zeroed_buffer_for_atomic_counter_per_expert.has_value() ? zeroed_buffer_for_atomic_counter_per_expert->data_ptr<int>() : nullptr);
+                               zeroed_buffer_for_atomic_counter_per_expert.has_value() ? zeroed_buffer_for_atomic_counter_per_expert->data_ptr<int>() : nullptr,
+                               debug_tensor.has_value() ? debug_tensor->data_ptr<int>() : nullptr);
     };
     launcher(return_recv_hook ? LOW_LATENCY_SEND_PHASE : (LOW_LATENCY_SEND_PHASE | LOW_LATENCY_RECV_PHASE));
 
diff --git a/csrc/deep_ep.hpp b/csrc/deep_ep.hpp
index 3d09e5b6..de785c77 100644
--- a/csrc/deep_ep.hpp
+++ b/csrc/deep_ep.hpp
@@ -155,7 +155,8 @@ struct Buffer {
                          const std::optional<torch::Tensor>& zeroed_buffer_for_atomic_counter_per_expert,
                          bool use_nvfp4,
                          const std::optional<torch::Tensor>& dst_signals,
-                         const std::optional<torch::Tensor>& count_per_expert, const std::optional<torch::Tensor>& token_idx_and_dst_expert_flat_list);
+                         const std::optional<torch::Tensor>& count_per_expert, const std::optional<torch::Tensor>& token_idx_and_dst_expert_flat_list,
+                         const std::optional<torch::Tensor>& debug_tensor);
 
     std::tuple<torch::Tensor, std::optional<EventHandle>, std::optional<std::function<void()>>>
     low_latency_combine(bool enable_v2, const torch::Tensor& x, const torch::Tensor& topk_idx, const torch::Tensor& topk_weights,
diff --git a/csrc/kernels/api.cuh b/csrc/kernels/api.cuh
index 069ecafa..5e37222b 100644
--- a/csrc/kernels/api.cuh
+++ b/csrc/kernels/api.cuh
@@ -155,7 +155,8 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
               bool use_nvfp4, uint32_t* dst_signals,
               uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
               int* remote_start_offset_buffer,
-              int* zeroed_buffer_for_atomic_counter_per_expert);
+              int* zeroed_buffer_for_atomic_counter_per_expert,
+              int* debug_tensor);
 
 void combine(bool enable_v2, void* combined_x,
              void* rdma_recv_x, int* rdma_recv_flag, void* rdma_send_x,
diff --git a/csrc/kernels/internode_ll.cu b/csrc/kernels/internode_ll.cu
index f6b949e4..61233c91 100644
--- a/csrc/kernels/internode_ll.cu
+++ b/csrc/kernels/internode_ll.cu
@@ -354,7 +354,8 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
               bool use_nvfp4, uint32_t* dst_signals,
               uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
               int* remote_start_offset_buffer,
-              int* zeroed_buffer_for_atomic_counter_per_expert) {
+              int* zeroed_buffer_for_atomic_counter_per_expert,
+              int* debug_tensor) {
     if (enable_v2) {
         return dispatch_v2(
             packed_recv_x, packed_recv_x_scales,
@@ -374,7 +375,8 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
             use_nvfp4, dst_signals,
             count_per_expert, token_idx_and_dst_expert_flat_list,
             remote_start_offset_buffer,
-            zeroed_buffer_for_atomic_counter_per_expert
+            zeroed_buffer_for_atomic_counter_per_expert,
+            debug_tensor
         );
     }
 
diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 27f8a75e..f40dfbc4 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -36,7 +36,8 @@ __forceinline__ __device__ void dispatch_send(
     bool round_scale, int phases,
     uint32_t* dst_signals,
     uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
-    int64_t* layout_range_buffer, int* negotiate_offset_of_expert_buffer, int* remote_start_offset_buffer
+    int64_t* layout_range_buffer, int* negotiate_offset_of_expert_buffer, int* remote_start_offset_buffer,
+    int* debug_tensor
 ) {
     using Consts = DispatchConstsTemplate<kUseFP8, kUseNVFP4, kHidden>;
     EP_DEVICE_ASSERT(Consts::num_bytes_per_msg % sizeof(int4) == 0);
@@ -396,7 +397,8 @@ __forceinline__ __device__ void dispatch_recv(
     bool round_scale, int phases,
     uint32_t* dst_signals,
     uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
-    int64_t* layout_range_buffer, int* negotiate_offset_of_expert_buffer, int* remote_start_offset_buffer
+    int64_t* layout_range_buffer, int* negotiate_offset_of_expert_buffer, int* remote_start_offset_buffer,
+    int* debug_tensor
 ) {
     using Consts = DispatchConstsTemplate<kUseFP8, kUseNVFP4, kHidden>;
 
@@ -630,7 +632,8 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
          bool round_scale, int phases,
          uint32_t* dst_signals,
          uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
-         int* remote_start_offset_buffer) {
+         int* remote_start_offset_buffer,
+         int* debug_tensor) {
     const auto sm_id = static_cast<int>(blockIdx.x);
     const auto num_send_threads = num_send_warp_groups * num_warps_per_group * 32;
     const auto raw_thread_id = static_cast<int>(threadIdx.x);
@@ -672,7 +675,8 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
                 round_scale, phases,
                 dst_signals,
                 count_per_expert, token_idx_and_dst_expert_flat_list,
-                layout_range_buffer, negotiate_offset_of_expert_buffer, remote_start_offset_buffer
+                layout_range_buffer, negotiate_offset_of_expert_buffer, remote_start_offset_buffer,
+                debug_tensor
             );
         }
     } else {
@@ -697,7 +701,8 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
                 round_scale, phases,
                 dst_signals,
                 count_per_expert, token_idx_and_dst_expert_flat_list,
-                layout_range_buffer, negotiate_offset_of_expert_buffer, remote_start_offset_buffer
+                layout_range_buffer, negotiate_offset_of_expert_buffer, remote_start_offset_buffer,
+                debug_tensor
             );
         }
     }
@@ -729,7 +734,8 @@ void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
               cudaStream_t stream, int phases,
               bool use_nvfp4, uint32_t* dst_signals,
               uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
-              int* remote_start_offset_buffer, int* zeroed_buffer_for_atomic_counter_per_expert) {
+              int* remote_start_offset_buffer, int* zeroed_buffer_for_atomic_counter_per_expert,
+              int* debug_tensor) {
     constexpr int kNumMaxTopK = 9;
 
     // NOTE simple renaming
@@ -791,7 +797,8 @@ LAUNCH_KERNEL(&cfg, dispatch_func, \
               num_send_warp_groups, num_recv_warp_groups, num_warps_per_group, \
               round_scale, phases, \
               dst_signals, \
-              count_per_expert, token_idx_and_dst_expert_flat_list, remote_start_offset_buffer); } break
+              count_per_expert, token_idx_and_dst_expert_flat_list, remote_start_offset_buffer, \
+              debug_tensor); } break
 
     SETUP_LAUNCH_CONFIG(num_sms, num_warps * 32, stream);
     SWITCH_HIDDEN(DISPATCH_LAUNCH_CASE);
diff --git a/deep_ep/buffer.py b/deep_ep/buffer.py
index dd8eb9d2..bd6ff48e 100644
--- a/deep_ep/buffer.py
+++ b/deep_ep/buffer.py
@@ -536,7 +536,8 @@ def low_latency_dispatch(self, x: torch.Tensor, topk_idx: torch.Tensor,
                              zeroed_tensor_c: Optional[torch.Tensor] = None,
                              use_nvfp4: bool = False,
                              dst_signals: Optional[torch.Tensor] = None,
-                             count_per_expert: Optional[torch.Tensor] = None, token_idx_and_dst_expert_flat_list: Optional[torch.Tensor] = None) -> \
+                             count_per_expert: Optional[torch.Tensor] = None, token_idx_and_dst_expert_flat_list: Optional[torch.Tensor] = None,
+                             debug_tensor: Optional[torch.Tensor] = None) -> \
             Tuple[Tuple[torch.Tensor, torch.Tensor], torch.Tensor, Tuple, EventOverlap, Callable]:
         """
         A low-latency implementation for dispatching with IBGDA.
@@ -602,7 +603,8 @@ def low_latency_dispatch(self, x: torch.Tensor, topk_idx: torch.Tensor,
                                               zeroed_tensor_a, zeroed_tensor_b, zeroed_tensor_c,
                                               use_nvfp4,
                                               dst_signals,
-                                              count_per_expert, token_idx_and_dst_expert_flat_list)
+                                              count_per_expert, token_idx_and_dst_expert_flat_list,
+                                              debug_tensor)
         handle = (packed_recv_src_info, packed_recv_layout_range, num_max_dispatch_tokens_per_rank, x.size(1), num_experts)
         tensors_to_record = (x, topk_idx,
                              packed_recv_x, packed_recv_x_scales, packed_recv_count,

From a87fe74372715461c67a578c3fcd1d46eba1fcdc Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 18:01:19 +0800
Subject: [PATCH 298/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 71 +++++++++++++++++++++++++++++++-
 1 file changed, 69 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index f40dfbc4..d904f0a6 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -7,6 +7,36 @@
 
 constexpr int DST_SIGNAL_EXPECT_VALUE = 1000000;
 
+constexpr int DT_MAX_NUM_EVENT_GROUPS = 10;
+constexpr int DT_MAX_NUM_EVENTS_PER_GROUP = 100;
+constexpr int DT_MAX_NUM_MODES = 2;
+constexpr int DT_MAX_NUM_SMS = 200;
+constexpr int DT_MAX_NUM_WARPS_PER_SM = 100;
+
+__forceinline__ __device__ void write_debug_time(
+    int* debug_tensor,
+    uint32_t t_start,
+    int event_group_id,
+    int event_id,
+    int mode_id,
+    int sm_id,
+    int warp_id
+) {
+    if (get_lane_id() == 0) {
+        uint32_t t_delta = ((uint32_t)clock()) - t_start;
+
+        int idx = (
+            event_group_id * (DT_MAX_NUM_EVENTS_PER_GROUP * DT_MAX_NUM_MODES * DT_MAX_NUM_SMS * DT_MAX_NUM_WARPS_PER_SM) +
+            event_id * (DT_MAX_NUM_MODES * DT_MAX_NUM_SMS * DT_MAX_NUM_WARPS_PER_SM) +
+            mode_id * (DT_MAX_NUM_SMS * DT_MAX_NUM_WARPS_PER_SM) +
+            sm_id * (DT_MAX_NUM_WARPS_PER_SM) +
+            warp_id
+        );
+
+        debug_tensor[idx] = t_delta;
+    }
+}
+
 namespace deep_ep {
 namespace internode_ll {
 
@@ -39,6 +69,8 @@ __forceinline__ __device__ void dispatch_send(
     int64_t* layout_range_buffer, int* negotiate_offset_of_expert_buffer, int* remote_start_offset_buffer,
     int* debug_tensor
 ) {
+    uint32_t t_start = clock();
+
     using Consts = DispatchConstsTemplate<kUseFP8, kUseNVFP4, kHidden>;
     EP_DEVICE_ASSERT(Consts::num_bytes_per_msg % sizeof(int4) == 0);
 
@@ -141,11 +173,18 @@ __forceinline__ __device__ void dispatch_send(
     const int flat_worker_num = num_warps * num_sms;
     for (
         // "tefl" := "token_idx_and_dst_expert_flat_list"
-        int tefl_idx = flat_worker_id;
+        int tefl_idx = flat_worker_id, debug_iter_idx = 0;
         tefl_idx < num_tokens * num_topk;
-        tefl_idx += flat_worker_num
+        tefl_idx += flat_worker_num, debug_iter_idx += 1
     ) {
 //         if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_send local_expert_idx=%d START \n", rank, sm_id, subroutine_thread_id, local_expert_idx); }
+        write_debug_time(
+            debug_tensor, t_start,
+            /* event_group_id */ 0,
+            /* event_id */ debug_iter_idx,
+            /* mode_id */ 0,
+            sm_id, warp_id
+        );
 
         // TODO do prefetching if needed
         // NOTE ldg is for read-only data cache, if token_idx_and_dst_expert_flat_list is somehow overlapped in the future we should change it
@@ -400,6 +439,8 @@ __forceinline__ __device__ void dispatch_recv(
     int64_t* layout_range_buffer, int* negotiate_offset_of_expert_buffer, int* remote_start_offset_buffer,
     int* debug_tensor
 ) {
+    uint32_t t_start = clock();
+
     using Consts = DispatchConstsTemplate<kUseFP8, kUseNVFP4, kHidden>;
 
     // NOTE copied from dispatch body
@@ -440,12 +481,21 @@ __forceinline__ __device__ void dispatch_recv(
     const int cooperate_idx = flatten_id / num_ranks;
     const int src_rank = flatten_id % num_ranks;
 
+    int debug_ld_token_signal_event_id = 0;
+
     // Receiving and packing
     // NOTE if -> for
     // if (responsible_expert_idx < num_experts) {
     EP_DEVICE_ASSERT(num_warp_groups == 1); // not consider multi warp_group case below
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
 //         if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv local_expert_idx=%d START \n", rank, sm_id, subroutine_thread_id, local_expert_idx); }
+        write_debug_time(
+            debug_tensor, t_start,
+            /* event_group_id */ 0,
+            /* event_id */ local_expert_idx,
+            /* mode_id */ 1,
+            sm_id, warp_id
+        );
 
         // NOTE modified
         // const auto src_rank = responsible_expert_idx / num_local_experts;
@@ -472,6 +522,14 @@ __forceinline__ __device__ void dispatch_recv(
             layout = -layout - 1;
             unpack2(layout, num_recv_tokens, token_start_offset);
 
+            write_debug_time(
+                debug_tensor, t_start,
+                /* event_group_id */ 1,
+                /* event_id */ local_expert_idx,
+                /* mode_id */ 1,
+                sm_id, warp_id
+            );
+
             if (cooperate_idx == 0) {
                 // TODO may not need to do this extra copy - directly use the `layout_range_buffer`
                 recv_range[src_rank] = layout;
@@ -540,6 +598,15 @@ __forceinline__ __device__ void dispatch_recv(
                 while ((recv_src_idx = ld_acquire_sys_global(src_src_idx)) == 0);
                 recv_src_idx = -recv_src_idx-1;
 
+                write_debug_time(
+                    debug_tensor, t_start,
+                    /* event_group_id */ 2,
+                    /* event_id */ debug_ld_token_signal_event_id,
+                    /* mode_id */ 1,
+                    sm_id, warp_id
+                );
+                debug_ld_token_signal_event_id++;
+
 //                 if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-token-signal END recv_src_idx=%d\n", rank, sm_id, subroutine_thread_id, recv_src_idx); }
 
                 // cleanup (will be used in the next round)

From 63bb84a2724823edbd75b6d8e29915c2fc0b56dc Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 18:04:55 +0800
Subject: [PATCH 299/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 11 +++++------
 1 file changed, 5 insertions(+), 6 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index d904f0a6..5b28f9a4 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -7,12 +7,16 @@
 
 constexpr int DST_SIGNAL_EXPECT_VALUE = 1000000;
 
+namespace deep_ep {
+namespace internode_ll {
+
+constexpr int kNumMaxWarpGroups = 32;
+
 constexpr int DT_MAX_NUM_EVENT_GROUPS = 10;
 constexpr int DT_MAX_NUM_EVENTS_PER_GROUP = 100;
 constexpr int DT_MAX_NUM_MODES = 2;
 constexpr int DT_MAX_NUM_SMS = 200;
 constexpr int DT_MAX_NUM_WARPS_PER_SM = 100;
-
 __forceinline__ __device__ void write_debug_time(
     int* debug_tensor,
     uint32_t t_start,
@@ -37,11 +41,6 @@ __forceinline__ __device__ void write_debug_time(
     }
 }
 
-namespace deep_ep {
-namespace internode_ll {
-
-constexpr int kNumMaxWarpGroups = 32;
-
 template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>
 __forceinline__ __device__ void dispatch_send(
     int subroutine_thread_id, int num_warp_groups,

From 9d56557dbc6aa0919622c6c82ae7223af8b02452 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 20:45:19 +0800
Subject: [PATCH 300/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 60 ++++++++++++++++----------------
 1 file changed, 30 insertions(+), 30 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 5b28f9a4..aec486a7 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -177,13 +177,13 @@ __forceinline__ __device__ void dispatch_send(
         tefl_idx += flat_worker_num, debug_iter_idx += 1
     ) {
 //         if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_send local_expert_idx=%d START \n", rank, sm_id, subroutine_thread_id, local_expert_idx); }
-        write_debug_time(
-            debug_tensor, t_start,
-            /* event_group_id */ 0,
-            /* event_id */ debug_iter_idx,
-            /* mode_id */ 0,
-            sm_id, warp_id
-        );
+//         write_debug_time(
+//             debug_tensor, t_start,
+//             /* event_group_id */ 0,
+//             /* event_id */ debug_iter_idx,
+//             /* mode_id */ 0,
+//             sm_id, warp_id
+//         );
 
         // TODO do prefetching if needed
         // NOTE ldg is for read-only data cache, if token_idx_and_dst_expert_flat_list is somehow overlapped in the future we should change it
@@ -480,7 +480,7 @@ __forceinline__ __device__ void dispatch_recv(
     const int cooperate_idx = flatten_id / num_ranks;
     const int src_rank = flatten_id % num_ranks;
 
-    int debug_ld_token_signal_event_id = 0;
+//     int debug_ld_token_signal_event_id = 0;
 
     // Receiving and packing
     // NOTE if -> for
@@ -488,13 +488,13 @@ __forceinline__ __device__ void dispatch_recv(
     EP_DEVICE_ASSERT(num_warp_groups == 1); // not consider multi warp_group case below
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
 //         if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv local_expert_idx=%d START \n", rank, sm_id, subroutine_thread_id, local_expert_idx); }
-        write_debug_time(
-            debug_tensor, t_start,
-            /* event_group_id */ 0,
-            /* event_id */ local_expert_idx,
-            /* mode_id */ 1,
-            sm_id, warp_id
-        );
+//         write_debug_time(
+//             debug_tensor, t_start,
+//             /* event_group_id */ 0,
+//             /* event_id */ local_expert_idx,
+//             /* mode_id */ 1,
+//             sm_id, warp_id
+//         );
 
         // NOTE modified
         // const auto src_rank = responsible_expert_idx / num_local_experts;
@@ -521,13 +521,13 @@ __forceinline__ __device__ void dispatch_recv(
             layout = -layout - 1;
             unpack2(layout, num_recv_tokens, token_start_offset);
 
-            write_debug_time(
-                debug_tensor, t_start,
-                /* event_group_id */ 1,
-                /* event_id */ local_expert_idx,
-                /* mode_id */ 1,
-                sm_id, warp_id
-            );
+//             write_debug_time(
+//                 debug_tensor, t_start,
+//                 /* event_group_id */ 1,
+//                 /* event_id */ local_expert_idx,
+//                 /* mode_id */ 1,
+//                 sm_id, warp_id
+//             );
 
             if (cooperate_idx == 0) {
                 // TODO may not need to do this extra copy - directly use the `layout_range_buffer`
@@ -597,14 +597,14 @@ __forceinline__ __device__ void dispatch_recv(
                 while ((recv_src_idx = ld_acquire_sys_global(src_src_idx)) == 0);
                 recv_src_idx = -recv_src_idx-1;
 
-                write_debug_time(
-                    debug_tensor, t_start,
-                    /* event_group_id */ 2,
-                    /* event_id */ debug_ld_token_signal_event_id,
-                    /* mode_id */ 1,
-                    sm_id, warp_id
-                );
-                debug_ld_token_signal_event_id++;
+//                 write_debug_time(
+//                     debug_tensor, t_start,
+//                     /* event_group_id */ 2,
+//                     /* event_id */ debug_ld_token_signal_event_id,
+//                     /* mode_id */ 1,
+//                     sm_id, warp_id
+//                 );
+//                 debug_ld_token_signal_event_id++;
 
 //                 if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-token-signal END recv_src_idx=%d\n", rank, sm_id, subroutine_thread_id, recv_src_idx); }
 

From 88649f5d1baf1cf558d7a2c46fca1d68bfb5d867 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 21:16:47 +0800
Subject: [PATCH 301/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 18 +++++++++---------
 1 file changed, 9 insertions(+), 9 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index aec486a7..40b6e64c 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -694,14 +694,14 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
          int num_topk, int num_experts, int rank, int num_ranks,
          // NOTE split num_warp_groups
          int num_send_warp_groups, int num_recv_warp_groups,
-         int num_warps_per_group,
+         int num_send_warps_per_group, int num_recv_warps_per_group,
          bool round_scale, int phases,
          uint32_t* dst_signals,
          uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
          int* remote_start_offset_buffer,
          int* debug_tensor) {
     const auto sm_id = static_cast<int>(blockIdx.x);
-    const auto num_send_threads = num_send_warp_groups * num_warps_per_group * 32;
+    const auto num_send_threads = num_send_warp_groups * num_send_warps_per_group * 32;
     const auto raw_thread_id = static_cast<int>(threadIdx.x);
 
     // NOTE Please keep in sync: Config.get_nvl_buffer_size_hint, LowLatencyLayout.constructor, internode_ll_v2
@@ -737,7 +737,7 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
                 next_clean, num_next_clean_int,
                 num_tokens, num_max_dispatch_tokens_per_rank,
                 num_topk, num_experts, rank, num_ranks,
-                num_warps_per_group,
+                num_send_warps_per_group,
                 round_scale, phases,
                 dst_signals,
                 count_per_expert, token_idx_and_dst_expert_flat_list,
@@ -763,7 +763,7 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
                 next_clean, num_next_clean_int,
                 num_tokens, num_max_dispatch_tokens_per_rank,
                 num_topk, num_experts, rank, num_ranks,
-                num_warps_per_group,
+                num_recv_warps_per_group,
                 round_scale, phases,
                 dst_signals,
                 count_per_expert, token_idx_and_dst_expert_flat_list,
@@ -813,14 +813,14 @@ void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
 
     // NOTE temporarily reduce num warps per group to avoid workload imbalance in dispatch_send
     // TODO may increase it later e.g. for dispatch_recv
-    const int num_warps_per_group = 32 / num_warp_groups;
-
-    EP_HOST_ASSERT(num_warp_groups > 0 and num_warps_per_group > 0);
+    const int num_send_warps_per_group = 32 / num_warp_groups;
+    const int num_recv_warps_per_group = num_send_warps_per_group;
+    EP_HOST_ASSERT(num_warp_groups > 0 and num_send_warps_per_group > 0 and num_recv_warps_per_group > 0);
 
     // NOTE no longer need one SM to send all topk destinations
     // EP_HOST_ASSERT(kNumMaxTopK + 1 <= num_warp_groups * num_warps_per_group);
 
-    const auto num_warps = num_warp_groups * num_warps_per_group;
+    const auto num_warps = num_warp_groups * (num_send_warps_per_group + num_recv_warps_per_group);
     const auto num_sms = ceil_div(num_experts, num_warp_groups);
     EP_HOST_ASSERT(num_topk <= kNumMaxTopK);
 
@@ -860,7 +860,7 @@ LAUNCH_KERNEL(&cfg, dispatch_func, \
               next_clean, num_next_clean_int, \
               num_tokens, num_max_dispatch_tokens_per_rank, \
               num_topk, num_experts, rank, num_ranks, \
-              num_send_warp_groups, num_recv_warp_groups, num_warps_per_group, \
+              num_send_warp_groups, num_recv_warp_groups, num_send_warps_per_group, num_recv_warps_per_group, \
               round_scale, phases, \
               dst_signals, \
               count_per_expert, token_idx_and_dst_expert_flat_list, remote_start_offset_buffer, \

From b1ed835715e2f87a420ad44ca0d1d67b4208ec8e Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 21:18:19 +0800
Subject: [PATCH 302/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 15 +++++++++++++--
 1 file changed, 13 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 40b6e64c..b8fcf489 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -813,10 +813,21 @@ void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
 
     // NOTE temporarily reduce num warps per group to avoid workload imbalance in dispatch_send
     // TODO may increase it later e.g. for dispatch_recv
-    const int num_send_warps_per_group = 32 / num_warp_groups;
-    const int num_recv_warps_per_group = num_send_warps_per_group;
+    int num_send_warps_per_group = 32 / num_warp_groups;
+    int num_recv_warps_per_group = num_send_warps_per_group;
     EP_HOST_ASSERT(num_warp_groups > 0 and num_send_warps_per_group > 0 and num_recv_warps_per_group > 0);
 
+    // NOTE temp hack
+    if (phases == LOW_LATENCY_SEND_PHASE) {
+        printf("HACK: give all warps to send!\n");
+        num_send_warps_per_group = 32;
+        num_recv_warps_per_group = 0;
+    } else if (phases == LOW_LATENCY_RECV_PHASE) {
+        printf("HACK: give all warps to recv!\n");
+        num_send_warps_per_group = 0;
+        num_recv_warps_per_group = 32;
+    }
+
     // NOTE no longer need one SM to send all topk destinations
     // EP_HOST_ASSERT(kNumMaxTopK + 1 <= num_warp_groups * num_warps_per_group);
 

From 077ce789fe16c5f453f0c68c57d77b4babc69170 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 21:18:33 +0800
Subject: [PATCH 303/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index b8fcf489..dabdd442 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -826,6 +826,8 @@ void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
         printf("HACK: give all warps to recv!\n");
         num_send_warps_per_group = 0;
         num_recv_warps_per_group = 32;
+    } else {
+        EP_HOST_ASSERT(false);
     }
 
     // NOTE no longer need one SM to send all topk destinations

From 15f5ea40e8074933f0d7dcda94a8260da1328458 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Fri, 29 Aug 2025 21:23:33 +0800
Subject: [PATCH 304/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index dabdd442..911bc422 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -833,10 +833,6 @@ void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
     // NOTE no longer need one SM to send all topk destinations
     // EP_HOST_ASSERT(kNumMaxTopK + 1 <= num_warp_groups * num_warps_per_group);
 
-    const auto num_warps = num_warp_groups * (num_send_warps_per_group + num_recv_warps_per_group);
-    const auto num_sms = ceil_div(num_experts, num_warp_groups);
-    EP_HOST_ASSERT(num_topk <= kNumMaxTopK);
-
     // Workspace checks
     // auto atomic_counter_per_expert = static_cast<int*>(workspace); // NOTE let users pass a zeroed buffer
     // auto atomic_finish_counter_per_expert = atomic_counter_per_expert + num_experts; // NOTE removed
@@ -848,6 +844,10 @@ void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
     const int num_send_warp_groups = num_warp_groups - 1;
     const int num_recv_warp_groups = 1;
 
+    const auto num_warps = num_send_warp_groups * num_send_warps_per_group + num_recv_warp_groups * num_recv_warps_per_group;
+    const auto num_sms = ceil_div(num_experts, num_warp_groups);
+    EP_HOST_ASSERT(num_topk <= kNumMaxTopK);
+
     // FP8 checks
     if (use_ue8m0)
         EP_HOST_ASSERT(round_scale and "UE8M0 SF requires `round_scale=True`");

From 5157097f2522728edb978ffebe596cf181c76274 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 07:48:55 +0800
Subject: [PATCH 305/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 911bc422..726af5b2 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -819,11 +819,11 @@ void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
 
     // NOTE temp hack
     if (phases == LOW_LATENCY_SEND_PHASE) {
-        printf("HACK: give all warps to send!\n");
+//         printf("HACK: give all warps to send!\n");
         num_send_warps_per_group = 32;
         num_recv_warps_per_group = 0;
     } else if (phases == LOW_LATENCY_RECV_PHASE) {
-        printf("HACK: give all warps to recv!\n");
+//         printf("HACK: give all warps to recv!\n");
         num_send_warps_per_group = 0;
         num_recv_warps_per_group = 32;
     } else {

From e6bb23980f627a96f2666488a15d103102a244f8 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 07:52:35 +0800
Subject: [PATCH 306/393] hack

---
 csrc/kernels/utils.cuh | 36 ++++++++++++++++++++++++++++++++++--
 1 file changed, 34 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/utils.cuh b/csrc/kernels/utils.cuh
index ebab4969..8cdec899 100644
--- a/csrc/kernels/utils.cuh
+++ b/csrc/kernels/utils.cuh
@@ -16,10 +16,42 @@
         for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) \
             ST_FUNC(__dst + __i + __j * 32, unrolled_values[__j]); \
     } \
-    for (int __i = ((N) / kLoopStride) * kLoopStride + (LANE_ID); __i < (N); __i += 32) \
-        ST_FUNC(__dst + __i, LD_FUNC(__src + __i)); \
+    { \
+        int __i = ((N) / kLoopStride) * kLoopStride + (LANE_ID); \
+        _Pragma("unroll") \
+        for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) { \
+            if (__i + __j * 32 < (N)) { \
+                unrolled_values[__j] = LD_FUNC(__src + __i + __j * 32); \
+            } \
+        } \
+        _Pragma("unroll") \
+        for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) { \
+            if (__i + __j * 32 < (N)) { \
+                ST_FUNC(__dst + __i + __j * 32, unrolled_values[__j]); \
+            } \
+        } \
+    } \
 }
 
+// old
+// #define UNROLLED_WARP_COPY(UNROLL_FACTOR, LANE_ID, N, DST, SRC, LD_FUNC, ST_FUNC) \
+// { \
+//     constexpr int kLoopStride = 32 * (UNROLL_FACTOR); \
+//     typename std::remove_reference<decltype(LD_FUNC((SRC) + 0))>::type unrolled_values[(UNROLL_FACTOR)]; \
+//     auto __src = (SRC); \
+//     auto __dst = (DST); \
+//     for (int __i = (LANE_ID); __i < ((N) / kLoopStride) * kLoopStride; __i += kLoopStride) { \
+//         _Pragma("unroll") \
+//         for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) \
+//             unrolled_values[__j] = LD_FUNC(__src + __i + __j * 32); \
+//         _Pragma("unroll") \
+//         for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) \
+//             ST_FUNC(__dst + __i + __j * 32, unrolled_values[__j]); \
+//     } \
+//     for (int __i = ((N) / kLoopStride) * kLoopStride + (LANE_ID); __i < (N); __i += 32) \
+//         ST_FUNC(__dst + __i, LD_FUNC(__src + __i)); \
+// }
+
 namespace deep_ep {
 
 template <int kBytes>

From 8539ab0c27dae2bcb138d28be6c5da96abfe49ae Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 09:02:38 +0800
Subject: [PATCH 307/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 726af5b2..3e5885e2 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -827,7 +827,7 @@ void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
         num_send_warps_per_group = 0;
         num_recv_warps_per_group = 32;
     } else {
-        EP_HOST_ASSERT(false);
+        // do nothing
     }
 
     // NOTE no longer need one SM to send all topk destinations

From 8846c1b1033906d0a1f2032263dd86f883b9ac8f Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 09:13:38 +0800
Subject: [PATCH 308/393] fix bug

---
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 3e5885e2..886ecbf2 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -296,7 +296,7 @@ __forceinline__ __device__ void dispatch_send(
                 // UNROLLED_WARP_COPY(8, lane_id, Consts::num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
                 UNROLLED_WARP_COPY(
                     8, lane_id,
-                    Consts::num_int4_per_msg - sizeof(int4),
+                    Consts::num_int4_per_msg - 1,
                     dst_int4_ptr + 1,
                     src_int4_ptr + 1,
                     ld_nc_global, st_na_global

From f81673505c10aa262d77d208501390905a668446 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 09:59:31 +0800
Subject: [PATCH 309/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 7 +++++--
 1 file changed, 5 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 886ecbf2..fc05f53c 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -195,8 +195,11 @@ __forceinline__ __device__ void dispatch_send(
         // TODO can speedup by prefetching, delayed checking, etc
         // TODO is this load strong enough?
         int remote_start_offset;
-        while ((remote_start_offset = ld_volatile_global(remote_start_offset_buffer + dst_expert_idx)) == 0);
-        remote_start_offset = -remote_start_offset - 1;
+        if (lane_id == 0) {
+            while ((remote_start_offset = ld_volatile_global(remote_start_offset_buffer + dst_expert_idx)) == 0);
+            remote_start_offset = -remote_start_offset - 1;
+        }
+        remote_start_offset = __shfl_sync(0xffffffff, remote_start_offset, 0);
 
         // NOTE changed, see "before-after" above
         // for (int token_idx = sm_id; token_idx < num_tokens; token_idx += num_sms) {

From 4c3388e6b66b2cc9398eb838fe1051fb9e711e35 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 10:05:31 +0800
Subject: [PATCH 310/393] Revert "more"

This reverts commit f81673505c10aa262d77d208501390905a668446.
---
 csrc/kernels/internode_ll_v2.cuh | 7 ++-----
 1 file changed, 2 insertions(+), 5 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index fc05f53c..886ecbf2 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -195,11 +195,8 @@ __forceinline__ __device__ void dispatch_send(
         // TODO can speedup by prefetching, delayed checking, etc
         // TODO is this load strong enough?
         int remote_start_offset;
-        if (lane_id == 0) {
-            while ((remote_start_offset = ld_volatile_global(remote_start_offset_buffer + dst_expert_idx)) == 0);
-            remote_start_offset = -remote_start_offset - 1;
-        }
-        remote_start_offset = __shfl_sync(0xffffffff, remote_start_offset, 0);
+        while ((remote_start_offset = ld_volatile_global(remote_start_offset_buffer + dst_expert_idx)) == 0);
+        remote_start_offset = -remote_start_offset - 1;
 
         // NOTE changed, see "before-after" above
         // for (int token_idx = sm_id; token_idx < num_tokens; token_idx += num_sms) {

From f536b27867b8445555e3dab7f0186dc7d1ac02d8 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 10:31:18 +0800
Subject: [PATCH 311/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 10 ++++++++--
 1 file changed, 8 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 886ecbf2..2b28302d 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -516,8 +516,11 @@ __forceinline__ __device__ void dispatch_recv(
         if (lane_id == 0) {
 //             if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-layout START\n", rank, sm_id, subroutine_thread_id); }
 
+            auto loop_start_time = clock64();
             int64_t layout;
-            while((layout = ld_volatile_global(layout_range_buffer + local_expert_idx * num_ranks + src_rank)) == 0);
+            while((layout = ld_volatile_global(layout_range_buffer + local_expert_idx * num_ranks + src_rank)) == 0) {
+                if ((clock64() - loop_start_time) >= 1000000000ULL) { printf("[R%d,S%d,T%d] ld-layout STUCK\n", rank, sm_id, subroutine_thread_id); }
+            }
             layout = -layout - 1;
             unpack2(layout, num_recv_tokens, token_start_offset);
 
@@ -593,8 +596,11 @@ __forceinline__ __device__ void dispatch_recv(
 //                 if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-token-signal START addr=%p delta_addr=%d token_idx=%d\n",
 //                     rank, sm_id, subroutine_thread_id, src_src_idx, (int)((int64_t)src_src_idx - (int64_t)rdma_recv_x), token_idx); }
 
+                auto loop_start_time = clock64();
                 int recv_src_idx;
-                while ((recv_src_idx = ld_acquire_sys_global(src_src_idx)) == 0);
+                while ((recv_src_idx = ld_acquire_sys_global(src_src_idx)) == 0) {
+                    if ((clock64() - loop_start_time) >= 1000000000ULL) { printf("[R%d,S%d,T%d] ld-token-signal STUCK\n", rank, sm_id, subroutine_thread_id); }
+                }
                 recv_src_idx = -recv_src_idx-1;
 
 //                 write_debug_time(

From 8fc2331df17273cbfa69275448ad3e4708aa4f9e Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 10:44:55 +0800
Subject: [PATCH 312/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 10 ++++++++--
 1 file changed, 8 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 2b28302d..a834707b 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -519,7 +519,10 @@ __forceinline__ __device__ void dispatch_recv(
             auto loop_start_time = clock64();
             int64_t layout;
             while((layout = ld_volatile_global(layout_range_buffer + local_expert_idx * num_ranks + src_rank)) == 0) {
-                if ((clock64() - loop_start_time) >= 1000000000ULL) { printf("[R%d,S%d,T%d] ld-layout STUCK\n", rank, sm_id, subroutine_thread_id); }
+                if ((clock64() - loop_start_time) >= 50000000000ULL) {
+                    printf("[R%d,S%d,T%d] ld-layout STUCK\n", rank, sm_id, subroutine_thread_id);
+                    loop_start_time = clock64(); // reset warning
+                }
             }
             layout = -layout - 1;
             unpack2(layout, num_recv_tokens, token_start_offset);
@@ -599,7 +602,10 @@ __forceinline__ __device__ void dispatch_recv(
                 auto loop_start_time = clock64();
                 int recv_src_idx;
                 while ((recv_src_idx = ld_acquire_sys_global(src_src_idx)) == 0) {
-                    if ((clock64() - loop_start_time) >= 1000000000ULL) { printf("[R%d,S%d,T%d] ld-token-signal STUCK\n", rank, sm_id, subroutine_thread_id); }
+                    if ((clock64() - loop_start_time) >= 50000000000ULL) {
+                        printf("[R%d,S%d,T%d] ld-token-signal STUCK\n", rank, sm_id, subroutine_thread_id);
+                        loop_start_time = clock64(); // reset warning
+                    }
                 }
                 recv_src_idx = -recv_src_idx-1;
 

From a163cf1e534d3406bb3a60e493540370cdc56a0c Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 11:43:47 +0800
Subject: [PATCH 313/393] layout use st_volatile_global

---
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 csrc/kernels/utils.cuh           | 5 +++++
 2 files changed, 6 insertions(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index a834707b..fcb06ab9 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -132,7 +132,7 @@ __forceinline__ __device__ void dispatch_send(
                 const auto dst_ptr = reinterpret_cast<uint64_t>(layout_range_buffer);
                 const auto dst_p2p_ptr = reinterpret_cast<int64_t*>(nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank));
                 const auto val = pack2<int, int64_t>(num_tokens_to_send, remote_start_offset);
-                dst_p2p_ptr[dst_expert_local_idx * num_ranks + rank] = -val-1;
+                st_volatile_global(dst_p2p_ptr + dst_expert_local_idx * num_ranks + rank, -val-1);
             }
 
             // 2. Write metadata to local
diff --git a/csrc/kernels/utils.cuh b/csrc/kernels/utils.cuh
index 8cdec899..5e360e2f 100644
--- a/csrc/kernels/utils.cuh
+++ b/csrc/kernels/utils.cuh
@@ -169,6 +169,11 @@ __device__ __forceinline__ uint64_t ld_na_relaxed(const uint64_t *ptr) {
     return ret;
 }
 
+// NOTE ADD
+__device__ __forceinline__ void st_volatile_global(int64_t *ptr, int64_t val) {
+    asm volatile("st.volatile.global.s64 [%0], %1;" : : "l"(ptr), "l"(val));
+}
+
 __device__  __forceinline__ int ld_volatile_global(const int *ptr) {
     int ret;
     asm volatile("ld.volatile.global.s32 %0, [%1];" : "=r"(ret) : "l"(ptr));

From 3a4bf6b5ff183407c7fb15899fdcf9d917ddf70c Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 11:54:39 +0800
Subject: [PATCH 314/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index fcb06ab9..545cf98e 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -129,10 +129,11 @@ __forceinline__ __device__ void dispatch_send(
             // 2. Write metadata to remote
             // TODO is this strong enough
             {
-                const auto dst_ptr = reinterpret_cast<uint64_t>(layout_range_buffer);
+                const auto dst_ptr = reinterpret_cast<uint64_t>(layout_range_buffer + dst_expert_local_idx * num_ranks + rank);
                 const auto dst_p2p_ptr = reinterpret_cast<int64_t*>(nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank));
                 const auto val = pack2<int, int64_t>(num_tokens_to_send, remote_start_offset);
-                st_volatile_global(dst_p2p_ptr + dst_expert_local_idx * num_ranks + rank, -val-1);
+                st_volatile_global(dst_p2p_ptr, -val-1);
+                printf("[R%d,S%d,T%d] st-layout dst_ptr=%lld delta=%d\n", rank, sm_id, subroutine_thread_id, dst_ptr, dst_ptr - layout_range_buffer);
             }
 
             // 2. Write metadata to local

From f0e44a4bcc4ee4275ee64ee95095bc8504ea167a Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 11:54:53 +0800
Subject: [PATCH 315/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 545cf98e..cdc58208 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -520,7 +520,7 @@ __forceinline__ __device__ void dispatch_recv(
             auto loop_start_time = clock64();
             int64_t layout;
             while((layout = ld_volatile_global(layout_range_buffer + local_expert_idx * num_ranks + src_rank)) == 0) {
-                if ((clock64() - loop_start_time) >= 50000000000ULL) {
+                if ((clock64() - loop_start_time) >= 20000000000ULL) {
                     printf("[R%d,S%d,T%d] ld-layout STUCK\n", rank, sm_id, subroutine_thread_id);
                     loop_start_time = clock64(); // reset warning
                 }
@@ -603,7 +603,7 @@ __forceinline__ __device__ void dispatch_recv(
                 auto loop_start_time = clock64();
                 int recv_src_idx;
                 while ((recv_src_idx = ld_acquire_sys_global(src_src_idx)) == 0) {
-                    if ((clock64() - loop_start_time) >= 50000000000ULL) {
+                    if ((clock64() - loop_start_time) >= 20000000000ULL) {
                         printf("[R%d,S%d,T%d] ld-token-signal STUCK\n", rank, sm_id, subroutine_thread_id);
                         loop_start_time = clock64(); // reset warning
                     }

From 3fe1ee9f8aa1f82e851484890b40ad2303cb33cd Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 11:55:15 +0800
Subject: [PATCH 316/393] temp revert unrolled copy

---
 csrc/kernels/utils.cuh | 68 +++++++++++++++++++++---------------------
 1 file changed, 34 insertions(+), 34 deletions(-)

diff --git a/csrc/kernels/utils.cuh b/csrc/kernels/utils.cuh
index 5e360e2f..388dbdd3 100644
--- a/csrc/kernels/utils.cuh
+++ b/csrc/kernels/utils.cuh
@@ -2,38 +2,6 @@
 
 #include "exception.cuh"
 
-#define UNROLLED_WARP_COPY(UNROLL_FACTOR, LANE_ID, N, DST, SRC, LD_FUNC, ST_FUNC) \
-{ \
-    constexpr int kLoopStride = 32 * (UNROLL_FACTOR); \
-    typename std::remove_reference<decltype(LD_FUNC((SRC) + 0))>::type unrolled_values[(UNROLL_FACTOR)]; \
-    auto __src = (SRC); \
-    auto __dst = (DST); \
-    for (int __i = (LANE_ID); __i < ((N) / kLoopStride) * kLoopStride; __i += kLoopStride) { \
-        _Pragma("unroll") \
-        for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) \
-            unrolled_values[__j] = LD_FUNC(__src + __i + __j * 32); \
-        _Pragma("unroll") \
-        for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) \
-            ST_FUNC(__dst + __i + __j * 32, unrolled_values[__j]); \
-    } \
-    { \
-        int __i = ((N) / kLoopStride) * kLoopStride + (LANE_ID); \
-        _Pragma("unroll") \
-        for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) { \
-            if (__i + __j * 32 < (N)) { \
-                unrolled_values[__j] = LD_FUNC(__src + __i + __j * 32); \
-            } \
-        } \
-        _Pragma("unroll") \
-        for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) { \
-            if (__i + __j * 32 < (N)) { \
-                ST_FUNC(__dst + __i + __j * 32, unrolled_values[__j]); \
-            } \
-        } \
-    } \
-}
-
-// old
 // #define UNROLLED_WARP_COPY(UNROLL_FACTOR, LANE_ID, N, DST, SRC, LD_FUNC, ST_FUNC) \
 // { \
 //     constexpr int kLoopStride = 32 * (UNROLL_FACTOR); \
@@ -48,10 +16,42 @@
 //         for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) \
 //             ST_FUNC(__dst + __i + __j * 32, unrolled_values[__j]); \
 //     } \
-//     for (int __i = ((N) / kLoopStride) * kLoopStride + (LANE_ID); __i < (N); __i += 32) \
-//         ST_FUNC(__dst + __i, LD_FUNC(__src + __i)); \
+//     { \
+//         int __i = ((N) / kLoopStride) * kLoopStride + (LANE_ID); \
+//         _Pragma("unroll") \
+//         for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) { \
+//             if (__i + __j * 32 < (N)) { \
+//                 unrolled_values[__j] = LD_FUNC(__src + __i + __j * 32); \
+//             } \
+//         } \
+//         _Pragma("unroll") \
+//         for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) { \
+//             if (__i + __j * 32 < (N)) { \
+//                 ST_FUNC(__dst + __i + __j * 32, unrolled_values[__j]); \
+//             } \
+//         } \
+//     } \
 // }
 
+// old
+#define UNROLLED_WARP_COPY(UNROLL_FACTOR, LANE_ID, N, DST, SRC, LD_FUNC, ST_FUNC) \
+{ \
+    constexpr int kLoopStride = 32 * (UNROLL_FACTOR); \
+    typename std::remove_reference<decltype(LD_FUNC((SRC) + 0))>::type unrolled_values[(UNROLL_FACTOR)]; \
+    auto __src = (SRC); \
+    auto __dst = (DST); \
+    for (int __i = (LANE_ID); __i < ((N) / kLoopStride) * kLoopStride; __i += kLoopStride) { \
+        _Pragma("unroll") \
+        for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) \
+            unrolled_values[__j] = LD_FUNC(__src + __i + __j * 32); \
+        _Pragma("unroll") \
+        for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) \
+            ST_FUNC(__dst + __i + __j * 32, unrolled_values[__j]); \
+    } \
+    for (int __i = ((N) / kLoopStride) * kLoopStride + (LANE_ID); __i < (N); __i += 32) \
+        ST_FUNC(__dst + __i, LD_FUNC(__src + __i)); \
+}
+
 namespace deep_ep {
 
 template <int kBytes>

From dc5e367b0c3839a0300906e1d21afe40e1510def Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 11:58:16 +0800
Subject: [PATCH 317/393] logs

---
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index cdc58208..f37f5267 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -133,7 +133,7 @@ __forceinline__ __device__ void dispatch_send(
                 const auto dst_p2p_ptr = reinterpret_cast<int64_t*>(nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank));
                 const auto val = pack2<int, int64_t>(num_tokens_to_send, remote_start_offset);
                 st_volatile_global(dst_p2p_ptr, -val-1);
-                printf("[R%d,S%d,T%d] st-layout dst_ptr=%lld delta=%d\n", rank, sm_id, subroutine_thread_id, dst_ptr, dst_ptr - layout_range_buffer);
+                printf("[R%d,S%d,T%d] st-layout dst_ptr=%lld delta=%d\n", rank, sm_id, subroutine_thread_id, dst_ptr, ((uint64_t)dst_ptr) - ((uint64_t)layout_range_buffer));
             }
 
             // 2. Write metadata to local

From 3fb1df4f7eb3daeb053e8676f07b8df26a0f9142 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 11:59:49 +0800
Subject: [PATCH 318/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 7 ++++---
 1 file changed, 4 insertions(+), 3 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index f37f5267..ccc1ac6d 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -131,9 +131,10 @@ __forceinline__ __device__ void dispatch_send(
             {
                 const auto dst_ptr = reinterpret_cast<uint64_t>(layout_range_buffer + dst_expert_local_idx * num_ranks + rank);
                 const auto dst_p2p_ptr = reinterpret_cast<int64_t*>(nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank));
-                const auto val = pack2<int, int64_t>(num_tokens_to_send, remote_start_offset);
-                st_volatile_global(dst_p2p_ptr, -val-1);
-                printf("[R%d,S%d,T%d] st-layout dst_ptr=%lld delta=%d\n", rank, sm_id, subroutine_thread_id, dst_ptr, ((uint64_t)dst_ptr) - ((uint64_t)layout_range_buffer));
+                const auto raw_val = pack2<int, int64_t>(num_tokens_to_send, remote_start_offset);
+                st_volatile_global(dst_p2p_ptr, -raw_val-1);
+                printf("[R%d,S%d,T%d] st-layout dst_ptr=%lld delta_addr=%d raw_val=%lld\n",
+                    rank, sm_id, subroutine_thread_id, dst_ptr, (int) (((uint64_t)dst_ptr) - ((uint64_t)layout_range_buffer)), raw_val);
             }
 
             // 2. Write metadata to local

From 628ab7026f7acee3d2836f2c8bac689692e6bdcc Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 12:03:22 +0800
Subject: [PATCH 319/393] Revert "temp revert unrolled copy"

This reverts commit 3fe1ee9f8aa1f82e851484890b40ad2303cb33cd.
---
 csrc/kernels/utils.cuh | 68 +++++++++++++++++++++---------------------
 1 file changed, 34 insertions(+), 34 deletions(-)

diff --git a/csrc/kernels/utils.cuh b/csrc/kernels/utils.cuh
index 388dbdd3..5e360e2f 100644
--- a/csrc/kernels/utils.cuh
+++ b/csrc/kernels/utils.cuh
@@ -2,38 +2,6 @@
 
 #include "exception.cuh"
 
-// #define UNROLLED_WARP_COPY(UNROLL_FACTOR, LANE_ID, N, DST, SRC, LD_FUNC, ST_FUNC) \
-// { \
-//     constexpr int kLoopStride = 32 * (UNROLL_FACTOR); \
-//     typename std::remove_reference<decltype(LD_FUNC((SRC) + 0))>::type unrolled_values[(UNROLL_FACTOR)]; \
-//     auto __src = (SRC); \
-//     auto __dst = (DST); \
-//     for (int __i = (LANE_ID); __i < ((N) / kLoopStride) * kLoopStride; __i += kLoopStride) { \
-//         _Pragma("unroll") \
-//         for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) \
-//             unrolled_values[__j] = LD_FUNC(__src + __i + __j * 32); \
-//         _Pragma("unroll") \
-//         for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) \
-//             ST_FUNC(__dst + __i + __j * 32, unrolled_values[__j]); \
-//     } \
-//     { \
-//         int __i = ((N) / kLoopStride) * kLoopStride + (LANE_ID); \
-//         _Pragma("unroll") \
-//         for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) { \
-//             if (__i + __j * 32 < (N)) { \
-//                 unrolled_values[__j] = LD_FUNC(__src + __i + __j * 32); \
-//             } \
-//         } \
-//         _Pragma("unroll") \
-//         for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) { \
-//             if (__i + __j * 32 < (N)) { \
-//                 ST_FUNC(__dst + __i + __j * 32, unrolled_values[__j]); \
-//             } \
-//         } \
-//     } \
-// }
-
-// old
 #define UNROLLED_WARP_COPY(UNROLL_FACTOR, LANE_ID, N, DST, SRC, LD_FUNC, ST_FUNC) \
 { \
     constexpr int kLoopStride = 32 * (UNROLL_FACTOR); \
@@ -48,10 +16,42 @@
         for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) \
             ST_FUNC(__dst + __i + __j * 32, unrolled_values[__j]); \
     } \
-    for (int __i = ((N) / kLoopStride) * kLoopStride + (LANE_ID); __i < (N); __i += 32) \
-        ST_FUNC(__dst + __i, LD_FUNC(__src + __i)); \
+    { \
+        int __i = ((N) / kLoopStride) * kLoopStride + (LANE_ID); \
+        _Pragma("unroll") \
+        for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) { \
+            if (__i + __j * 32 < (N)) { \
+                unrolled_values[__j] = LD_FUNC(__src + __i + __j * 32); \
+            } \
+        } \
+        _Pragma("unroll") \
+        for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) { \
+            if (__i + __j * 32 < (N)) { \
+                ST_FUNC(__dst + __i + __j * 32, unrolled_values[__j]); \
+            } \
+        } \
+    } \
 }
 
+// old
+// #define UNROLLED_WARP_COPY(UNROLL_FACTOR, LANE_ID, N, DST, SRC, LD_FUNC, ST_FUNC) \
+// { \
+//     constexpr int kLoopStride = 32 * (UNROLL_FACTOR); \
+//     typename std::remove_reference<decltype(LD_FUNC((SRC) + 0))>::type unrolled_values[(UNROLL_FACTOR)]; \
+//     auto __src = (SRC); \
+//     auto __dst = (DST); \
+//     for (int __i = (LANE_ID); __i < ((N) / kLoopStride) * kLoopStride; __i += kLoopStride) { \
+//         _Pragma("unroll") \
+//         for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) \
+//             unrolled_values[__j] = LD_FUNC(__src + __i + __j * 32); \
+//         _Pragma("unroll") \
+//         for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) \
+//             ST_FUNC(__dst + __i + __j * 32, unrolled_values[__j]); \
+//     } \
+//     for (int __i = ((N) / kLoopStride) * kLoopStride + (LANE_ID); __i < (N); __i += 32) \
+//         ST_FUNC(__dst + __i, LD_FUNC(__src + __i)); \
+// }
+
 namespace deep_ep {
 
 template <int kBytes>

From c27021bb753a4e24141a18f82e78c8ff2404158a Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 12:18:23 +0800
Subject: [PATCH 320/393] temp log

---
 csrc/kernels/internode_ll_v2.cuh | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index ccc1ac6d..263818cc 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -178,7 +178,7 @@ __forceinline__ __device__ void dispatch_send(
         tefl_idx < num_tokens * num_topk;
         tefl_idx += flat_worker_num, debug_iter_idx += 1
     ) {
-//         if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_send local_expert_idx=%d START \n", rank, sm_id, subroutine_thread_id, local_expert_idx); }
+//         if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_send tefl_idx=%d START \n", rank, sm_id, subroutine_thread_id, tefl_idx); }
 //         write_debug_time(
 //             debug_tensor, t_start,
 //             /* event_group_id */ 0,
@@ -377,7 +377,7 @@ __forceinline__ __device__ void dispatch_send(
 //         __syncwarp();
     }
 
-//     if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_send END\n", rank, sm_id, subroutine_thread_id); }
+    if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_send END\n", rank, sm_id, subroutine_thread_id); }
 
 //     } else if (warp_id == num_warps - 1) {
 //         EP_DEVICE_ASSERT(num_sms > 1);
@@ -687,7 +687,7 @@ __forceinline__ __device__ void dispatch_recv(
         }
     }
 
-//     if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv END\n", rank, sm_id, subroutine_thread_id); }
+    if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv END\n", rank, sm_id, subroutine_thread_id); }
 }
 
 template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>

From 69824723d10a8f0a4413193efcf44b738ba48066 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 14:25:52 +0800
Subject: [PATCH 321/393] temp hack: rm next_clean cleaning!

---
 csrc/kernels/internode_ll_v2.cuh | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 263818cc..e2172dab 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -92,9 +92,9 @@ __forceinline__ __device__ void dispatch_send(
 
     if ((sm_id == 0) and (warp_id == 0)) {
         // The first SM is also responsible for cleaning the next buffer
-        #pragma unroll
-        for (int i = lane_id; i < num_next_clean_int; i += 32)
-            next_clean[i] = 0;
+//         #pragma unroll
+//         for (int i = lane_id; i < num_next_clean_int; i += 32)
+//             next_clean[i] = 0;
 
         // TODO do we really need this? since `next_clean` will be used only in the next round of kernels
         // not needed in per-token signal approach
@@ -951,9 +951,9 @@ combine_v2(void* combined_x,
 
     // Clean up next buffer
     if (sm_id == 0 and warp_group_id == 0 and sub_warp_id == 0) {
-        #pragma unroll
-        for (int i = lane_id; i < num_next_clean_int; i += 32)
-            next_clean[i] = 0;
+//         #pragma unroll
+//         for (int i = lane_id; i < num_next_clean_int; i += 32)
+//             next_clean[i] = 0;
 
         // Notify before executing `int_p`
         __syncwarp();

From 7a4e94b2f53bee69c9b0d88517837af413988187 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 14:39:53 +0800
Subject: [PATCH 322/393] Revert "temp hack: rm next_clean cleaning!"

This reverts commit 69824723d10a8f0a4413193efcf44b738ba48066.
---
 csrc/kernels/internode_ll_v2.cuh | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index e2172dab..263818cc 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -92,9 +92,9 @@ __forceinline__ __device__ void dispatch_send(
 
     if ((sm_id == 0) and (warp_id == 0)) {
         // The first SM is also responsible for cleaning the next buffer
-//         #pragma unroll
-//         for (int i = lane_id; i < num_next_clean_int; i += 32)
-//             next_clean[i] = 0;
+        #pragma unroll
+        for (int i = lane_id; i < num_next_clean_int; i += 32)
+            next_clean[i] = 0;
 
         // TODO do we really need this? since `next_clean` will be used only in the next round of kernels
         // not needed in per-token signal approach
@@ -951,9 +951,9 @@ combine_v2(void* combined_x,
 
     // Clean up next buffer
     if (sm_id == 0 and warp_group_id == 0 and sub_warp_id == 0) {
-//         #pragma unroll
-//         for (int i = lane_id; i < num_next_clean_int; i += 32)
-//             next_clean[i] = 0;
+        #pragma unroll
+        for (int i = lane_id; i < num_next_clean_int; i += 32)
+            next_clean[i] = 0;
 
         // Notify before executing `int_p`
         __syncwarp();

From 158101cc108cabd6922245eaee09d6d12a8018d5 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 14:49:04 +0800
Subject: [PATCH 323/393] logs

---
 csrc/kernels/internode_ll_v2.cuh | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 263818cc..67016e41 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -1156,6 +1156,7 @@ combine_v2(void* combined_x,
             }
         }
     }
+    if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] combine phase=send END\n", rank, sm_id, thread_id); }
 
     // Receiving phase
     LOW_LATENCY_COMBINE_RECV:
@@ -1312,6 +1313,8 @@ combine_v2(void* combined_x,
         // Flush all stores
         tma_store_wait<0>();
     }
+
+    if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] combine phase=recv END\n", rank, sm_id, thread_id); }
 }
 
 void combine_v2(void* combined_x,

From 186c3787f8b402b1acde01d5dafbaee8127d1513 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 14:50:54 +0800
Subject: [PATCH 324/393] logs

---
 csrc/kernels/internode_ll_v2.cuh | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 67016e41..7b813a65 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -1156,7 +1156,7 @@ combine_v2(void* combined_x,
             }
         }
     }
-    if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] combine phase=send END\n", rank, sm_id, thread_id); }
+    if (thread_id % 32 == 0) { printf("[R%d,S%d,T%d] combine phase=send END\n", rank, sm_id, thread_id); }
 
     // Receiving phase
     LOW_LATENCY_COMBINE_RECV:
@@ -1314,7 +1314,7 @@ combine_v2(void* combined_x,
         tma_store_wait<0>();
     }
 
-    if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] combine phase=recv END\n", rank, sm_id, thread_id); }
+    if (thread_id % 32 == 0) { printf("[R%d,S%d,T%d] combine phase=recv END\n", rank, sm_id, thread_id); }
 }
 
 void combine_v2(void* combined_x,

From 318aabed9d6c4236dfcfbab76e7a0abcb3707ed9 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 15:32:32 +0800
Subject: [PATCH 325/393] hack: maxnreg 32

---
 csrc/kernels/internode_ll_v2.cuh | 16 ++++++++++++++--
 1 file changed, 14 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 7b813a65..0f43ceb8 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -691,7 +691,13 @@ __forceinline__ __device__ void dispatch_recv(
 }
 
 template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>
-__global__ __launch_bounds__(1024, 1) void
+__global__
+// TODO
+// TODO temp hack
+// TODO
+// __launch_bounds__(1024, 1)
+__maxnreg__(32)
+void
 dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
          int* packed_recv_src_info, int64_t* packed_recv_layout_range,
          int* packed_recv_count,
@@ -899,7 +905,13 @@ LAUNCH_KERNEL(&cfg, dispatch_func, \
 }
 
 template <bool kUseLogFMT, int kHidden, int kNumMaxTopk, int kNumMaxUnrolls>
-__global__ __launch_bounds__(1024, 1) void
+__global__
+// TODO
+// TODO temp hack
+// TODO
+// __launch_bounds__(1024, 1)
+__maxnreg__(32)
+void
 combine_v2(void* combined_x,
         void* rdma_recv_x, int* rdma_recv_flag, void* rdma_send_x,
         const void* x, const int64_t* topk_idx, const float* topk_weights,

From 98dca42b6f2af8f545b8fc2d17b161ad501b14df Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 15:33:25 +0800
Subject: [PATCH 326/393] logs

---
 csrc/kernels/internode_ll_v2.cuh | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 0f43ceb8..4e3ca903 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -88,7 +88,7 @@ __forceinline__ __device__ void dispatch_send(
     // Expert counts
     // __shared__ int shared_num_tokens_sent_per_expert[kNumMaxWarpGroups];
 
-//     if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_send START\n", rank, sm_id, subroutine_thread_id); }
+    if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_send START\n", rank, sm_id, subroutine_thread_id); }
 
     if ((sm_id == 0) and (warp_id == 0)) {
         // The first SM is also responsible for cleaning the next buffer
@@ -462,7 +462,7 @@ __forceinline__ __device__ void dispatch_recv(
     EP_STATIC_ASSERT(sizeof(packed_t) % sizeof(scale_t) == 0, "Invalid vector length");
     EP_STATIC_ASSERT(!(kUseFP8 && kUseNVFP4), "FP8 and NVFP4 cannot be used together");
 
-//     if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv START\n", rank, sm_id, subroutine_thread_id); }
+    if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv START\n", rank, sm_id, subroutine_thread_id); }
 
 // NOTE packed_recv_count zeroing is removed
 //     // For send-and-recv kernels, we need a grid sync for making `packed_recv_count` visible

From 176a082d055b17b032c8a06d3ce36e7aadd616db Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 15:42:08 +0800
Subject: [PATCH 327/393] rm logs

---
 csrc/kernels/internode_ll_v2.cuh | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 4e3ca903..2880c1a5 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -88,7 +88,7 @@ __forceinline__ __device__ void dispatch_send(
     // Expert counts
     // __shared__ int shared_num_tokens_sent_per_expert[kNumMaxWarpGroups];
 
-    if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_send START\n", rank, sm_id, subroutine_thread_id); }
+//     if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_send START\n", rank, sm_id, subroutine_thread_id); }
 
     if ((sm_id == 0) and (warp_id == 0)) {
         // The first SM is also responsible for cleaning the next buffer
@@ -462,7 +462,7 @@ __forceinline__ __device__ void dispatch_recv(
     EP_STATIC_ASSERT(sizeof(packed_t) % sizeof(scale_t) == 0, "Invalid vector length");
     EP_STATIC_ASSERT(!(kUseFP8 && kUseNVFP4), "FP8 and NVFP4 cannot be used together");
 
-    if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv START\n", rank, sm_id, subroutine_thread_id); }
+//     if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv START\n", rank, sm_id, subroutine_thread_id); }
 
 // NOTE packed_recv_count zeroing is removed
 //     // For send-and-recv kernels, we need a grid sync for making `packed_recv_count` visible
@@ -1168,7 +1168,7 @@ combine_v2(void* combined_x,
             }
         }
     }
-    if (thread_id % 32 == 0) { printf("[R%d,S%d,T%d] combine phase=send END\n", rank, sm_id, thread_id); }
+//     if (thread_id % 32 == 0) { printf("[R%d,S%d,T%d] combine phase=send END\n", rank, sm_id, thread_id); }
 
     // Receiving phase
     LOW_LATENCY_COMBINE_RECV:
@@ -1326,7 +1326,7 @@ combine_v2(void* combined_x,
         tma_store_wait<0>();
     }
 
-    if (thread_id % 32 == 0) { printf("[R%d,S%d,T%d] combine phase=recv END\n", rank, sm_id, thread_id); }
+//     if (thread_id % 32 == 0) { printf("[R%d,S%d,T%d] combine phase=recv END\n", rank, sm_id, thread_id); }
 }
 
 void combine_v2(void* combined_x,

From c24c65a6a48e310d958dfed152cb33a4d55620a5 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 15:46:09 +0800
Subject: [PATCH 328/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 2880c1a5..fb1159e0 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -377,7 +377,7 @@ __forceinline__ __device__ void dispatch_send(
 //         __syncwarp();
     }
 
-    if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_send END\n", rank, sm_id, subroutine_thread_id); }
+//     if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_send END\n", rank, sm_id, subroutine_thread_id); }
 
 //     } else if (warp_id == num_warps - 1) {
 //         EP_DEVICE_ASSERT(num_sms > 1);

From 21f8941c62b92a89f53c3c33602e32e4c1023a97 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 15:51:03 +0800
Subject: [PATCH 329/393] rm log

---
 csrc/kernels/internode_ll_v2.cuh | 7 ++++---
 1 file changed, 4 insertions(+), 3 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index fb1159e0..e229f4a6 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -133,8 +133,9 @@ __forceinline__ __device__ void dispatch_send(
                 const auto dst_p2p_ptr = reinterpret_cast<int64_t*>(nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank));
                 const auto raw_val = pack2<int, int64_t>(num_tokens_to_send, remote_start_offset);
                 st_volatile_global(dst_p2p_ptr, -raw_val-1);
-                printf("[R%d,S%d,T%d] st-layout dst_ptr=%lld delta_addr=%d raw_val=%lld\n",
-                    rank, sm_id, subroutine_thread_id, dst_ptr, (int) (((uint64_t)dst_ptr) - ((uint64_t)layout_range_buffer)), raw_val);
+
+//                 printf("[R%d,S%d,T%d] st-layout dst_ptr=%lld delta_addr=%d raw_val=%lld\n",
+//                     rank, sm_id, subroutine_thread_id, dst_ptr, (int) (((uint64_t)dst_ptr) - ((uint64_t)layout_range_buffer)), raw_val);
             }
 
             // 2. Write metadata to local
@@ -687,7 +688,7 @@ __forceinline__ __device__ void dispatch_recv(
         }
     }
 
-    if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv END\n", rank, sm_id, subroutine_thread_id); }
+//     if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv END\n", rank, sm_id, subroutine_thread_id); }
 }
 
 template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>

From daae47a598800e85ed3e9a0daada266ab3808d2a Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 16:13:43 +0800
Subject: [PATCH 330/393] rm t_start

---
 csrc/kernels/internode_ll_v2.cuh | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index e229f4a6..2e9bdcf1 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -68,7 +68,7 @@ __forceinline__ __device__ void dispatch_send(
     int64_t* layout_range_buffer, int* negotiate_offset_of_expert_buffer, int* remote_start_offset_buffer,
     int* debug_tensor
 ) {
-    uint32_t t_start = clock();
+//     uint32_t t_start = clock();
 
     using Consts = DispatchConstsTemplate<kUseFP8, kUseNVFP4, kHidden>;
     EP_DEVICE_ASSERT(Consts::num_bytes_per_msg % sizeof(int4) == 0);
@@ -441,7 +441,7 @@ __forceinline__ __device__ void dispatch_recv(
     int64_t* layout_range_buffer, int* negotiate_offset_of_expert_buffer, int* remote_start_offset_buffer,
     int* debug_tensor
 ) {
-    uint32_t t_start = clock();
+//     uint32_t t_start = clock();
 
     using Consts = DispatchConstsTemplate<kUseFP8, kUseNVFP4, kHidden>;
 

From 2f0004b371dbbc6d18628df96a3b74f430d19d61 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 16:14:12 +0800
Subject: [PATCH 331/393] rm timeout check

---
 csrc/kernels/internode_ll_v2.cuh | 20 ++++++++++----------
 1 file changed, 10 insertions(+), 10 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 2e9bdcf1..f03036d9 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -519,13 +519,13 @@ __forceinline__ __device__ void dispatch_recv(
         if (lane_id == 0) {
 //             if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-layout START\n", rank, sm_id, subroutine_thread_id); }
 
-            auto loop_start_time = clock64();
+//             auto loop_start_time = clock64();
             int64_t layout;
             while((layout = ld_volatile_global(layout_range_buffer + local_expert_idx * num_ranks + src_rank)) == 0) {
-                if ((clock64() - loop_start_time) >= 20000000000ULL) {
-                    printf("[R%d,S%d,T%d] ld-layout STUCK\n", rank, sm_id, subroutine_thread_id);
-                    loop_start_time = clock64(); // reset warning
-                }
+//                 if ((clock64() - loop_start_time) >= 20000000000ULL) {
+//                     printf("[R%d,S%d,T%d] ld-layout STUCK\n", rank, sm_id, subroutine_thread_id);
+//                     loop_start_time = clock64(); // reset warning
+//                 }
             }
             layout = -layout - 1;
             unpack2(layout, num_recv_tokens, token_start_offset);
@@ -602,13 +602,13 @@ __forceinline__ __device__ void dispatch_recv(
 //                 if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-token-signal START addr=%p delta_addr=%d token_idx=%d\n",
 //                     rank, sm_id, subroutine_thread_id, src_src_idx, (int)((int64_t)src_src_idx - (int64_t)rdma_recv_x), token_idx); }
 
-                auto loop_start_time = clock64();
+//                 auto loop_start_time = clock64();
                 int recv_src_idx;
                 while ((recv_src_idx = ld_acquire_sys_global(src_src_idx)) == 0) {
-                    if ((clock64() - loop_start_time) >= 20000000000ULL) {
-                        printf("[R%d,S%d,T%d] ld-token-signal STUCK\n", rank, sm_id, subroutine_thread_id);
-                        loop_start_time = clock64(); // reset warning
-                    }
+//                     if ((clock64() - loop_start_time) >= 20000000000ULL) {
+//                         printf("[R%d,S%d,T%d] ld-token-signal STUCK\n", rank, sm_id, subroutine_thread_id);
+//                         loop_start_time = clock64(); // reset warning
+//                     }
                 }
                 recv_src_idx = -recv_src_idx-1;
 

From c58019666c5fc449d64ca7f3424a4478c55ba4ba Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 16:15:09 +0800
Subject: [PATCH 332/393] temp revert unroll copy speedup

---
 csrc/kernels/utils.cuh | 68 +++++++++++++++++++++---------------------
 1 file changed, 34 insertions(+), 34 deletions(-)

diff --git a/csrc/kernels/utils.cuh b/csrc/kernels/utils.cuh
index 5e360e2f..388dbdd3 100644
--- a/csrc/kernels/utils.cuh
+++ b/csrc/kernels/utils.cuh
@@ -2,38 +2,6 @@
 
 #include "exception.cuh"
 
-#define UNROLLED_WARP_COPY(UNROLL_FACTOR, LANE_ID, N, DST, SRC, LD_FUNC, ST_FUNC) \
-{ \
-    constexpr int kLoopStride = 32 * (UNROLL_FACTOR); \
-    typename std::remove_reference<decltype(LD_FUNC((SRC) + 0))>::type unrolled_values[(UNROLL_FACTOR)]; \
-    auto __src = (SRC); \
-    auto __dst = (DST); \
-    for (int __i = (LANE_ID); __i < ((N) / kLoopStride) * kLoopStride; __i += kLoopStride) { \
-        _Pragma("unroll") \
-        for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) \
-            unrolled_values[__j] = LD_FUNC(__src + __i + __j * 32); \
-        _Pragma("unroll") \
-        for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) \
-            ST_FUNC(__dst + __i + __j * 32, unrolled_values[__j]); \
-    } \
-    { \
-        int __i = ((N) / kLoopStride) * kLoopStride + (LANE_ID); \
-        _Pragma("unroll") \
-        for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) { \
-            if (__i + __j * 32 < (N)) { \
-                unrolled_values[__j] = LD_FUNC(__src + __i + __j * 32); \
-            } \
-        } \
-        _Pragma("unroll") \
-        for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) { \
-            if (__i + __j * 32 < (N)) { \
-                ST_FUNC(__dst + __i + __j * 32, unrolled_values[__j]); \
-            } \
-        } \
-    } \
-}
-
-// old
 // #define UNROLLED_WARP_COPY(UNROLL_FACTOR, LANE_ID, N, DST, SRC, LD_FUNC, ST_FUNC) \
 // { \
 //     constexpr int kLoopStride = 32 * (UNROLL_FACTOR); \
@@ -48,10 +16,42 @@
 //         for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) \
 //             ST_FUNC(__dst + __i + __j * 32, unrolled_values[__j]); \
 //     } \
-//     for (int __i = ((N) / kLoopStride) * kLoopStride + (LANE_ID); __i < (N); __i += 32) \
-//         ST_FUNC(__dst + __i, LD_FUNC(__src + __i)); \
+//     { \
+//         int __i = ((N) / kLoopStride) * kLoopStride + (LANE_ID); \
+//         _Pragma("unroll") \
+//         for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) { \
+//             if (__i + __j * 32 < (N)) { \
+//                 unrolled_values[__j] = LD_FUNC(__src + __i + __j * 32); \
+//             } \
+//         } \
+//         _Pragma("unroll") \
+//         for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) { \
+//             if (__i + __j * 32 < (N)) { \
+//                 ST_FUNC(__dst + __i + __j * 32, unrolled_values[__j]); \
+//             } \
+//         } \
+//     } \
 // }
 
+// old
+#define UNROLLED_WARP_COPY(UNROLL_FACTOR, LANE_ID, N, DST, SRC, LD_FUNC, ST_FUNC) \
+{ \
+    constexpr int kLoopStride = 32 * (UNROLL_FACTOR); \
+    typename std::remove_reference<decltype(LD_FUNC((SRC) + 0))>::type unrolled_values[(UNROLL_FACTOR)]; \
+    auto __src = (SRC); \
+    auto __dst = (DST); \
+    for (int __i = (LANE_ID); __i < ((N) / kLoopStride) * kLoopStride; __i += kLoopStride) { \
+        _Pragma("unroll") \
+        for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) \
+            unrolled_values[__j] = LD_FUNC(__src + __i + __j * 32); \
+        _Pragma("unroll") \
+        for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) \
+            ST_FUNC(__dst + __i + __j * 32, unrolled_values[__j]); \
+    } \
+    for (int __i = ((N) / kLoopStride) * kLoopStride + (LANE_ID); __i < (N); __i += 32) \
+        ST_FUNC(__dst + __i, LD_FUNC(__src + __i)); \
+}
+
 namespace deep_ep {
 
 template <int kBytes>

From fa39e42cbc9d49a30a273cfbf7389a73bd92533f Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 16:15:45 +0800
Subject: [PATCH 333/393] temp use weaker set layout_range_buffer

---
 csrc/kernels/internode_ll_v2.cuh | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index f03036d9..a858b465 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -132,7 +132,9 @@ __forceinline__ __device__ void dispatch_send(
                 const auto dst_ptr = reinterpret_cast<uint64_t>(layout_range_buffer + dst_expert_local_idx * num_ranks + rank);
                 const auto dst_p2p_ptr = reinterpret_cast<int64_t*>(nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank));
                 const auto raw_val = pack2<int, int64_t>(num_tokens_to_send, remote_start_offset);
-                st_volatile_global(dst_p2p_ptr, -raw_val-1);
+                // TODO use which?
+                // st_volatile_global(dst_p2p_ptr, -raw_val-1);
+                dst_p2p_ptr[dst_expert_local_idx * num_ranks + rank] = -val-1;
 
 //                 printf("[R%d,S%d,T%d] st-layout dst_ptr=%lld delta_addr=%d raw_val=%lld\n",
 //                     rank, sm_id, subroutine_thread_id, dst_ptr, (int) (((uint64_t)dst_ptr) - ((uint64_t)layout_range_buffer)), raw_val);

From 7f1f948ff473835e407760a0246eeea12eacb361 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 16:16:05 +0800
Subject: [PATCH 334/393] temp rm maxnreg

---
 csrc/kernels/internode_ll_v2.cuh | 14 ++++----------
 1 file changed, 4 insertions(+), 10 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index a858b465..aee5fc99 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -695,11 +695,8 @@ __forceinline__ __device__ void dispatch_recv(
 
 template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>
 __global__
-// TODO
-// TODO temp hack
-// TODO
-// __launch_bounds__(1024, 1)
-__maxnreg__(32)
+__launch_bounds__(1024, 1)
+// __maxnreg__(32) // TODO
 void
 dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
          int* packed_recv_src_info, int64_t* packed_recv_layout_range,
@@ -909,11 +906,8 @@ LAUNCH_KERNEL(&cfg, dispatch_func, \
 
 template <bool kUseLogFMT, int kHidden, int kNumMaxTopk, int kNumMaxUnrolls>
 __global__
-// TODO
-// TODO temp hack
-// TODO
-// __launch_bounds__(1024, 1)
-__maxnreg__(32)
+__launch_bounds__(1024, 1)
+// __maxnreg__(32) // TODO
 void
 combine_v2(void* combined_x,
         void* rdma_recv_x, int* rdma_recv_flag, void* rdma_send_x,

From b43c25a58faf6e691ebd810a6634fdc68c9bd53f Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 16:17:37 +0800
Subject: [PATCH 335/393] fix compile

---
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index aee5fc99..9c1a03c0 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -134,7 +134,7 @@ __forceinline__ __device__ void dispatch_send(
                 const auto raw_val = pack2<int, int64_t>(num_tokens_to_send, remote_start_offset);
                 // TODO use which?
                 // st_volatile_global(dst_p2p_ptr, -raw_val-1);
-                dst_p2p_ptr[dst_expert_local_idx * num_ranks + rank] = -val-1;
+                dst_p2p_ptr[dst_expert_local_idx * num_ranks + rank] = -raw_val-1;
 
 //                 printf("[R%d,S%d,T%d] st-layout dst_ptr=%lld delta_addr=%d raw_val=%lld\n",
 //                     rank, sm_id, subroutine_thread_id, dst_ptr, (int) (((uint64_t)dst_ptr) - ((uint64_t)layout_range_buffer)), raw_val);

From bdb4c5139a96f662ceaa54e81c642931f8869826 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 16:20:41 +0800
Subject: [PATCH 336/393] maxnreg 48

---
 csrc/kernels/internode_ll_v2.cuh | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 9c1a03c0..c3acc0e5 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -695,8 +695,8 @@ __forceinline__ __device__ void dispatch_recv(
 
 template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>
 __global__
-__launch_bounds__(1024, 1)
-// __maxnreg__(32) // TODO
+// __launch_bounds__(1024, 1)
+__maxnreg__(48) // TODO
 void
 dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
          int* packed_recv_src_info, int64_t* packed_recv_layout_range,
@@ -906,8 +906,8 @@ LAUNCH_KERNEL(&cfg, dispatch_func, \
 
 template <bool kUseLogFMT, int kHidden, int kNumMaxTopk, int kNumMaxUnrolls>
 __global__
-__launch_bounds__(1024, 1)
-// __maxnreg__(32) // TODO
+// __launch_bounds__(1024, 1)
+__maxnreg__(48) // TODO
 void
 combine_v2(void* combined_x,
         void* rdma_recv_x, int* rdma_recv_flag, void* rdma_send_x,

From 227dcba3b4d0c17c1a5fc47d588b96093879c5b8 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 16:25:18 +0800
Subject: [PATCH 337/393] maxnreg 32

---
 csrc/kernels/internode_ll_v2.cuh | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index c3acc0e5..fab9ff8c 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -696,7 +696,7 @@ __forceinline__ __device__ void dispatch_recv(
 template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>
 __global__
 // __launch_bounds__(1024, 1)
-__maxnreg__(48) // TODO
+__maxnreg__(32) // TODO
 void
 dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
          int* packed_recv_src_info, int64_t* packed_recv_layout_range,
@@ -907,7 +907,7 @@ LAUNCH_KERNEL(&cfg, dispatch_func, \
 template <bool kUseLogFMT, int kHidden, int kNumMaxTopk, int kNumMaxUnrolls>
 __global__
 // __launch_bounds__(1024, 1)
-__maxnreg__(48) // TODO
+__maxnreg__(32) // TODO
 void
 combine_v2(void* combined_x,
         void* rdma_recv_x, int* rdma_recv_flag, void* rdma_send_x,

From 129b968eeedc310e1e8d7ddd20dd8230e1b9c892 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 16:57:51 +0800
Subject: [PATCH 338/393] rm (unused) debug_tensor

---
 csrc/kernels/internode_ll_v2.cuh | 19 ++++++++++---------
 1 file changed, 10 insertions(+), 9 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index fab9ff8c..0c25bbdb 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -66,7 +66,7 @@ __forceinline__ __device__ void dispatch_send(
     uint32_t* dst_signals,
     uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
     int64_t* layout_range_buffer, int* negotiate_offset_of_expert_buffer, int* remote_start_offset_buffer,
-    int* debug_tensor
+//     int* debug_tensor
 ) {
 //     uint32_t t_start = clock();
 
@@ -441,7 +441,7 @@ __forceinline__ __device__ void dispatch_recv(
     uint32_t* dst_signals,
     uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
     int64_t* layout_range_buffer, int* negotiate_offset_of_expert_buffer, int* remote_start_offset_buffer,
-    int* debug_tensor
+//     int* debug_tensor
 ) {
 //     uint32_t t_start = clock();
 
@@ -719,7 +719,8 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
          uint32_t* dst_signals,
          uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
          int* remote_start_offset_buffer,
-         int* debug_tensor) {
+//          int* debug_tensor
+         ) {
     const auto sm_id = static_cast<int>(blockIdx.x);
     const auto num_send_threads = num_send_warp_groups * num_send_warps_per_group * 32;
     const auto raw_thread_id = static_cast<int>(threadIdx.x);
@@ -761,8 +762,8 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
                 round_scale, phases,
                 dst_signals,
                 count_per_expert, token_idx_and_dst_expert_flat_list,
-                layout_range_buffer, negotiate_offset_of_expert_buffer, remote_start_offset_buffer,
-                debug_tensor
+                layout_range_buffer, negotiate_offset_of_expert_buffer, remote_start_offset_buffer
+//                 debug_tensor
             );
         }
     } else {
@@ -787,8 +788,8 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
                 round_scale, phases,
                 dst_signals,
                 count_per_expert, token_idx_and_dst_expert_flat_list,
-                layout_range_buffer, negotiate_offset_of_expert_buffer, remote_start_offset_buffer,
-                debug_tensor
+                layout_range_buffer, negotiate_offset_of_expert_buffer, remote_start_offset_buffer
+//                 debug_tensor
             );
         }
     }
@@ -896,8 +897,8 @@ LAUNCH_KERNEL(&cfg, dispatch_func, \
               num_send_warp_groups, num_recv_warp_groups, num_send_warps_per_group, num_recv_warps_per_group, \
               round_scale, phases, \
               dst_signals, \
-              count_per_expert, token_idx_and_dst_expert_flat_list, remote_start_offset_buffer, \
-              debug_tensor); } break
+              count_per_expert, token_idx_and_dst_expert_flat_list, remote_start_offset_buffer \
+              /* debug_tensor */); } break
 
     SETUP_LAUNCH_CONFIG(num_sms, num_warps * 32, stream);
     SWITCH_HIDDEN(DISPATCH_LAUNCH_CASE);

From 56cac67f17d8fec6c5e340fcd748c85e9bef69ed Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 16:59:03 +0800
Subject: [PATCH 339/393] fix compile

---
 csrc/kernels/internode_ll_v2.cuh | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 0c25bbdb..95c8d454 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -65,7 +65,7 @@ __forceinline__ __device__ void dispatch_send(
     bool round_scale, int phases,
     uint32_t* dst_signals,
     uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
-    int64_t* layout_range_buffer, int* negotiate_offset_of_expert_buffer, int* remote_start_offset_buffer,
+    int64_t* layout_range_buffer, int* negotiate_offset_of_expert_buffer, int* remote_start_offset_buffer
 //     int* debug_tensor
 ) {
 //     uint32_t t_start = clock();
@@ -440,7 +440,7 @@ __forceinline__ __device__ void dispatch_recv(
     bool round_scale, int phases,
     uint32_t* dst_signals,
     uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
-    int64_t* layout_range_buffer, int* negotiate_offset_of_expert_buffer, int* remote_start_offset_buffer,
+    int64_t* layout_range_buffer, int* negotiate_offset_of_expert_buffer, int* remote_start_offset_buffer
 //     int* debug_tensor
 ) {
 //     uint32_t t_start = clock();
@@ -718,7 +718,7 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
          bool round_scale, int phases,
          uint32_t* dst_signals,
          uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
-         int* remote_start_offset_buffer,
+         int* remote_start_offset_buffer
 //          int* debug_tensor
          ) {
     const auto sm_id = static_cast<int>(blockIdx.x);

From a69cafb9db1b2b37cc6c2e00fcaed8cedc6da15f Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 17:30:50 +0800
Subject: [PATCH 340/393] fix logical error introduced when copying yesterday

---
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 95c8d454..4a50954c 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -134,7 +134,7 @@ __forceinline__ __device__ void dispatch_send(
                 const auto raw_val = pack2<int, int64_t>(num_tokens_to_send, remote_start_offset);
                 // TODO use which?
                 // st_volatile_global(dst_p2p_ptr, -raw_val-1);
-                dst_p2p_ptr[dst_expert_local_idx * num_ranks + rank] = -raw_val-1;
+                *dst_p2p_ptr = -raw_val-1;
 
 //                 printf("[R%d,S%d,T%d] st-layout dst_ptr=%lld delta_addr=%d raw_val=%lld\n",
 //                     rank, sm_id, subroutine_thread_id, dst_ptr, (int) (((uint64_t)dst_ptr) - ((uint64_t)layout_range_buffer)), raw_val);

From aa7632b7c0ee809b5941f7f8af78039aaeb83d5c Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 17:34:48 +0800
Subject: [PATCH 341/393] maxnreg 48

---
 csrc/kernels/internode_ll_v2.cuh | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 4a50954c..1eff1997 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -696,7 +696,7 @@ __forceinline__ __device__ void dispatch_recv(
 template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>
 __global__
 // __launch_bounds__(1024, 1)
-__maxnreg__(32) // TODO
+__maxnreg__(48) // TODO
 void
 dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
          int* packed_recv_src_info, int64_t* packed_recv_layout_range,
@@ -908,7 +908,7 @@ LAUNCH_KERNEL(&cfg, dispatch_func, \
 template <bool kUseLogFMT, int kHidden, int kNumMaxTopk, int kNumMaxUnrolls>
 __global__
 // __launch_bounds__(1024, 1)
-__maxnreg__(32) // TODO
+__maxnreg__(48) // TODO
 void
 combine_v2(void* combined_x,
         void* rdma_recv_x, int* rdma_recv_flag, void* rdma_send_x,

From 48c6ea7c348768778ffd924a952977d52ea0d087 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 17:44:14 +0800
Subject: [PATCH 342/393] Revert "temp revert unroll copy speedup"

This reverts commit c58019666c5fc449d64ca7f3424a4478c55ba4ba.
---
 csrc/kernels/utils.cuh | 68 +++++++++++++++++++++---------------------
 1 file changed, 34 insertions(+), 34 deletions(-)

diff --git a/csrc/kernels/utils.cuh b/csrc/kernels/utils.cuh
index 388dbdd3..5e360e2f 100644
--- a/csrc/kernels/utils.cuh
+++ b/csrc/kernels/utils.cuh
@@ -2,38 +2,6 @@
 
 #include "exception.cuh"
 
-// #define UNROLLED_WARP_COPY(UNROLL_FACTOR, LANE_ID, N, DST, SRC, LD_FUNC, ST_FUNC) \
-// { \
-//     constexpr int kLoopStride = 32 * (UNROLL_FACTOR); \
-//     typename std::remove_reference<decltype(LD_FUNC((SRC) + 0))>::type unrolled_values[(UNROLL_FACTOR)]; \
-//     auto __src = (SRC); \
-//     auto __dst = (DST); \
-//     for (int __i = (LANE_ID); __i < ((N) / kLoopStride) * kLoopStride; __i += kLoopStride) { \
-//         _Pragma("unroll") \
-//         for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) \
-//             unrolled_values[__j] = LD_FUNC(__src + __i + __j * 32); \
-//         _Pragma("unroll") \
-//         for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) \
-//             ST_FUNC(__dst + __i + __j * 32, unrolled_values[__j]); \
-//     } \
-//     { \
-//         int __i = ((N) / kLoopStride) * kLoopStride + (LANE_ID); \
-//         _Pragma("unroll") \
-//         for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) { \
-//             if (__i + __j * 32 < (N)) { \
-//                 unrolled_values[__j] = LD_FUNC(__src + __i + __j * 32); \
-//             } \
-//         } \
-//         _Pragma("unroll") \
-//         for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) { \
-//             if (__i + __j * 32 < (N)) { \
-//                 ST_FUNC(__dst + __i + __j * 32, unrolled_values[__j]); \
-//             } \
-//         } \
-//     } \
-// }
-
-// old
 #define UNROLLED_WARP_COPY(UNROLL_FACTOR, LANE_ID, N, DST, SRC, LD_FUNC, ST_FUNC) \
 { \
     constexpr int kLoopStride = 32 * (UNROLL_FACTOR); \
@@ -48,10 +16,42 @@
         for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) \
             ST_FUNC(__dst + __i + __j * 32, unrolled_values[__j]); \
     } \
-    for (int __i = ((N) / kLoopStride) * kLoopStride + (LANE_ID); __i < (N); __i += 32) \
-        ST_FUNC(__dst + __i, LD_FUNC(__src + __i)); \
+    { \
+        int __i = ((N) / kLoopStride) * kLoopStride + (LANE_ID); \
+        _Pragma("unroll") \
+        for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) { \
+            if (__i + __j * 32 < (N)) { \
+                unrolled_values[__j] = LD_FUNC(__src + __i + __j * 32); \
+            } \
+        } \
+        _Pragma("unroll") \
+        for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) { \
+            if (__i + __j * 32 < (N)) { \
+                ST_FUNC(__dst + __i + __j * 32, unrolled_values[__j]); \
+            } \
+        } \
+    } \
 }
 
+// old
+// #define UNROLLED_WARP_COPY(UNROLL_FACTOR, LANE_ID, N, DST, SRC, LD_FUNC, ST_FUNC) \
+// { \
+//     constexpr int kLoopStride = 32 * (UNROLL_FACTOR); \
+//     typename std::remove_reference<decltype(LD_FUNC((SRC) + 0))>::type unrolled_values[(UNROLL_FACTOR)]; \
+//     auto __src = (SRC); \
+//     auto __dst = (DST); \
+//     for (int __i = (LANE_ID); __i < ((N) / kLoopStride) * kLoopStride; __i += kLoopStride) { \
+//         _Pragma("unroll") \
+//         for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) \
+//             unrolled_values[__j] = LD_FUNC(__src + __i + __j * 32); \
+//         _Pragma("unroll") \
+//         for (int __j = 0; __j < (UNROLL_FACTOR); ++ __j) \
+//             ST_FUNC(__dst + __i + __j * 32, unrolled_values[__j]); \
+//     } \
+//     for (int __i = ((N) / kLoopStride) * kLoopStride + (LANE_ID); __i < (N); __i += 32) \
+//         ST_FUNC(__dst + __i, LD_FUNC(__src + __i)); \
+// }
+
 namespace deep_ep {
 
 template <int kBytes>

From cc8cedc0c1d615e8117d6aad315ddeee30dd3411 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 17:50:57 +0800
Subject: [PATCH 343/393] temp use st_volatile_global layout_range_buffer

---
 csrc/kernels/internode_ll_v2.cuh | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 1eff1997..2679051a 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -133,8 +133,8 @@ __forceinline__ __device__ void dispatch_send(
                 const auto dst_p2p_ptr = reinterpret_cast<int64_t*>(nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank));
                 const auto raw_val = pack2<int, int64_t>(num_tokens_to_send, remote_start_offset);
                 // TODO use which?
-                // st_volatile_global(dst_p2p_ptr, -raw_val-1);
-                *dst_p2p_ptr = -raw_val-1;
+                st_volatile_global(dst_p2p_ptr, -raw_val-1);
+//                 *dst_p2p_ptr = -raw_val-1;
 
 //                 printf("[R%d,S%d,T%d] st-layout dst_ptr=%lld delta_addr=%d raw_val=%lld\n",
 //                     rank, sm_id, subroutine_thread_id, dst_ptr, (int) (((uint64_t)dst_ptr) - ((uint64_t)layout_range_buffer)), raw_val);

From 8a1763db9cbf5d9a79b0e021e13d704dd742b7b5 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 17:55:06 +0800
Subject: [PATCH 344/393] Revert "temp use st_volatile_global
 layout_range_buffer"

This reverts commit cc8cedc0c1d615e8117d6aad315ddeee30dd3411.
---
 csrc/kernels/internode_ll_v2.cuh | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 2679051a..1eff1997 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -133,8 +133,8 @@ __forceinline__ __device__ void dispatch_send(
                 const auto dst_p2p_ptr = reinterpret_cast<int64_t*>(nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank));
                 const auto raw_val = pack2<int, int64_t>(num_tokens_to_send, remote_start_offset);
                 // TODO use which?
-                st_volatile_global(dst_p2p_ptr, -raw_val-1);
-//                 *dst_p2p_ptr = -raw_val-1;
+                // st_volatile_global(dst_p2p_ptr, -raw_val-1);
+                *dst_p2p_ptr = -raw_val-1;
 
 //                 printf("[R%d,S%d,T%d] st-layout dst_ptr=%lld delta_addr=%d raw_val=%lld\n",
 //                     rank, sm_id, subroutine_thread_id, dst_ptr, (int) (((uint64_t)dst_ptr) - ((uint64_t)layout_range_buffer)), raw_val);

From 092ea745c4055812cf7a7cffcbbab8573d8d3c85 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 17:56:45 +0800
Subject: [PATCH 345/393] simp

---
 csrc/kernels/internode_ll_v2.cuh | 56 ++++++++++++++++----------------
 1 file changed, 28 insertions(+), 28 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 1eff1997..8621df92 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -288,36 +288,36 @@ __forceinline__ __device__ void dispatch_send(
                                  remote_start_offset * Consts::num_bytes_per_msg +
                                  slot_idx * Consts::num_bytes_per_msg;
             const auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
-            if (dst_p2p_ptr == 0) {
-                // NOTE remove to simplify code (and it does not handle signals etc)
-                EP_DEVICE_ASSERT(false);
-                // nvshmemi_ibgda_put_nbi_warp(dst_ptr, src_ptr, Consts::num_bytes_per_msg, dst_rank, dst_expert_local_idx, lane_id, slot_idx);
-            } else {
-                // NOTES: only 2 load iterations for 7K hidden with 8 unrolls
-                const auto* src_int4_ptr = reinterpret_cast<const int4*>(src_ptr);
-                const auto* dst_int4_ptr = reinterpret_cast<int4*>(dst_p2p_ptr);
-
-                // NOTE do *not* send the first int4, which is handled via the signal
-                // UNROLLED_WARP_COPY(8, lane_id, Consts::num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
-                UNROLLED_WARP_COPY(
-                    8, lane_id,
-                    Consts::num_int4_per_msg - 1,
-                    dst_int4_ptr + 1,
-                    src_int4_ptr + 1,
-                    ld_nc_global, st_na_global
-                );
-
-                // Send per-token signal
-                // NOTE only first 4B of 16B has value, the other 12B is not needed
-                __syncwarp();
-                if (lane_id == 0) {
-//                     if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] st-token-signal START dst_rank=%d addr=%p delta_addr=%d token_idx=%d\n",
-//                         rank, sm_id, subroutine_thread_id,
-//                         dst_rank, (int*)dst_ptr, (int)((int64_t)dst_ptr - (int64_t)rdma_recv_x), token_idx); }
 
-                    st_release_sys_global(reinterpret_cast<int*>(dst_p2p_ptr), -token_idx - 1);
-                }
+//             if (dst_p2p_ptr == 0) {
+//                 nvshmemi_ibgda_put_nbi_warp(dst_ptr, src_ptr, Consts::num_bytes_per_msg, dst_rank, dst_expert_local_idx, lane_id, slot_idx);
+//             } else {
+
+            // NOTES: only 2 load iterations for 7K hidden with 8 unrolls
+            const auto* src_int4_ptr = reinterpret_cast<const int4*>(src_ptr);
+            const auto* dst_int4_ptr = reinterpret_cast<int4*>(dst_p2p_ptr);
+
+            // NOTE do *not* send the first int4, which is handled via the signal
+            // UNROLLED_WARP_COPY(8, lane_id, Consts::num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
+            UNROLLED_WARP_COPY(
+                8, lane_id,
+                Consts::num_int4_per_msg - 1,
+                dst_int4_ptr + 1,
+                src_int4_ptr + 1,
+                ld_nc_global, st_na_global
+            );
+
+            // Send per-token signal
+            // NOTE only first 4B of 16B has value, the other 12B is not needed
+            __syncwarp();
+            if (lane_id == 0) {
+//                 if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] st-token-signal START dst_rank=%d addr=%p delta_addr=%d token_idx=%d\n",
+//                     rank, sm_id, subroutine_thread_id,
+//                     dst_rank, (int*)dst_ptr, (int)((int64_t)dst_ptr - (int64_t)rdma_recv_x), token_idx); }
+
+                st_release_sys_global(reinterpret_cast<int*>(dst_p2p_ptr), -token_idx - 1);
             }
+//             }
 
             // not needed in per-token signal approach
 //             // Increase counter after finishing

From ee223ae7c2060141ee70927c04164c10dda660dd Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 17:58:21 +0800
Subject: [PATCH 346/393] simp

---
 csrc/kernels/internode_ll_v2.cuh | 83 +++++++++++++++++---------------
 1 file changed, 44 insertions(+), 39 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 8621df92..c5c6f8d8 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -273,57 +273,62 @@ __forceinline__ __device__ void dispatch_send(
         // asm volatile("bar.sync 1, %0;" :: "r"(num_threads));
 
         // Issue IBGDA sends
-        if (dst_expert_idx >= 0) {
-            int slot_idx = lane_id == 0 ? atomicAdd(atomic_counter_per_expert + dst_expert_idx, 1) : 0;
-            slot_idx = __shfl_sync(0xffffffff, slot_idx, 0);
-            const auto dst_rank = dst_expert_idx / num_local_experts;
-            const auto dst_expert_local_idx = dst_expert_idx % num_local_experts;
-            // NOTE do not use `rdma_x` but use `x`
-            // const auto src_ptr = reinterpret_cast<uint64_t>(rdma_x_src_idx);
-            const auto src_ptr = reinterpret_cast<uint64_t>(x_src_idx);
-            const auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_x) +
-                                 dst_expert_local_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
-                                 // NOTE modified rm
-                                 // rank * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
-                                 remote_start_offset * Consts::num_bytes_per_msg +
-                                 slot_idx * Consts::num_bytes_per_msg;
-            const auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
+//         if (dst_expert_idx >= 0) {
+
+        int slot_idx = lane_id == 0 ? atomicAdd(atomic_counter_per_expert + dst_expert_idx, 1) : 0;
+        slot_idx = __shfl_sync(0xffffffff, slot_idx, 0);
+        const auto dst_rank = dst_expert_idx / num_local_experts;
+        const auto dst_expert_local_idx = dst_expert_idx % num_local_experts;
+        // NOTE do not use `rdma_x` but use `x`
+        // const auto src_ptr = reinterpret_cast<uint64_t>(rdma_x_src_idx);
+        const auto src_ptr = reinterpret_cast<uint64_t>(x_src_idx);
+        const auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_x) +
+                             dst_expert_local_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
+                             // NOTE modified rm
+                             // rank * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
+                             remote_start_offset * Consts::num_bytes_per_msg +
+                             slot_idx * Consts::num_bytes_per_msg;
+        const auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
 
 //             if (dst_p2p_ptr == 0) {
 //                 nvshmemi_ibgda_put_nbi_warp(dst_ptr, src_ptr, Consts::num_bytes_per_msg, dst_rank, dst_expert_local_idx, lane_id, slot_idx);
 //             } else {
 
-            // NOTES: only 2 load iterations for 7K hidden with 8 unrolls
-            const auto* src_int4_ptr = reinterpret_cast<const int4*>(src_ptr);
-            const auto* dst_int4_ptr = reinterpret_cast<int4*>(dst_p2p_ptr);
-
-            // NOTE do *not* send the first int4, which is handled via the signal
-            // UNROLLED_WARP_COPY(8, lane_id, Consts::num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
-            UNROLLED_WARP_COPY(
-                8, lane_id,
-                Consts::num_int4_per_msg - 1,
-                dst_int4_ptr + 1,
-                src_int4_ptr + 1,
-                ld_nc_global, st_na_global
-            );
+        // NOTES: only 2 load iterations for 7K hidden with 8 unrolls
+        const auto* src_int4_ptr = reinterpret_cast<const int4*>(src_ptr);
+        const auto* dst_int4_ptr = reinterpret_cast<int4*>(dst_p2p_ptr);
+
+        // NOTE do *not* send the first int4, which is handled via the signal
+        // UNROLLED_WARP_COPY(8, lane_id, Consts::num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
+        UNROLLED_WARP_COPY(
+            8, lane_id,
+            Consts::num_int4_per_msg - 1,
+            dst_int4_ptr + 1,
+            src_int4_ptr + 1,
+            ld_nc_global, st_na_global
+        );
 
-            // Send per-token signal
-            // NOTE only first 4B of 16B has value, the other 12B is not needed
-            __syncwarp();
-            if (lane_id == 0) {
-//                 if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] st-token-signal START dst_rank=%d addr=%p delta_addr=%d token_idx=%d\n",
-//                     rank, sm_id, subroutine_thread_id,
-//                     dst_rank, (int*)dst_ptr, (int)((int64_t)dst_ptr - (int64_t)rdma_recv_x), token_idx); }
+        // Send per-token signal
+        // NOTE only first 4B of 16B has value, the other 12B is not needed
+        __syncwarp();
+        if (lane_id == 0) {
+//             if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] st-token-signal START dst_rank=%d addr=%p delta_addr=%d token_idx=%d\n",
+//                 rank, sm_id, subroutine_thread_id,
+//                 dst_rank, (int*)dst_ptr, (int)((int64_t)dst_ptr - (int64_t)rdma_recv_x), token_idx); }
 
-                st_release_sys_global(reinterpret_cast<int*>(dst_p2p_ptr), -token_idx - 1);
-            }
+            st_release_sys_global(reinterpret_cast<int*>(dst_p2p_ptr), -token_idx - 1);
+        }
 //             }
 
-            // not needed in per-token signal approach
+        // not needed in per-token signal approach
 //             // Increase counter after finishing
 //             __syncwarp();
 //             lane_id == 0 ? atomic_add_release_global(atomic_finish_counter_per_expert + dst_expert_idx, 1) : 0;
-        }
+//         }
+
+        // NOTE: put this check this late to let dst_expert_idx be loaded
+        // for negative ones (if any), filter them out in previous kernels
+        EP_DEVICE_ASSERT(dst_expert_idx >= 0);
 
         // NOTE mv from do-once to do-per-local-expert
         // TODO what does this do? do we break something, b/c we let multi SM cooperate?

From ee618b2b0f8cbce5c314669589d0377f5b4545ee Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 17:59:57 +0800
Subject: [PATCH 347/393] extract

---
 csrc/kernels/internode_ll_v2.cuh | 9 ++++++---
 1 file changed, 6 insertions(+), 3 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index c5c6f8d8..d2448e2b 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -300,11 +300,14 @@ __forceinline__ __device__ void dispatch_send(
 
         // NOTE do *not* send the first int4, which is handled via the signal
         // UNROLLED_WARP_COPY(8, lane_id, Consts::num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
+        const int4* body_src_int4_ptr = src_int4_ptr + 1;
+        const int4* body_dst_int4_ptr = dst_int4_ptr + 1;
+        const int body_num_int4_per_msg = Consts::num_int4_per_msg - 1;
         UNROLLED_WARP_COPY(
             8, lane_id,
-            Consts::num_int4_per_msg - 1,
-            dst_int4_ptr + 1,
-            src_int4_ptr + 1,
+            body_num_int4_per_msg,
+            body_dst_int4_ptr,
+            body_src_int4_ptr,
             ld_nc_global, st_na_global
         );
 

From 5f9443a11ca9a031eb5e76cdb5df58656ff23f47 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 18:00:38 +0800
Subject: [PATCH 348/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 10 ++--------
 1 file changed, 2 insertions(+), 8 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index d2448e2b..0bafb2bb 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -299,17 +299,11 @@ __forceinline__ __device__ void dispatch_send(
         const auto* dst_int4_ptr = reinterpret_cast<int4*>(dst_p2p_ptr);
 
         // NOTE do *not* send the first int4, which is handled via the signal
-        // UNROLLED_WARP_COPY(8, lane_id, Consts::num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
         const int4* body_src_int4_ptr = src_int4_ptr + 1;
         const int4* body_dst_int4_ptr = dst_int4_ptr + 1;
         const int body_num_int4_per_msg = Consts::num_int4_per_msg - 1;
-        UNROLLED_WARP_COPY(
-            8, lane_id,
-            body_num_int4_per_msg,
-            body_dst_int4_ptr,
-            body_src_int4_ptr,
-            ld_nc_global, st_na_global
-        );
+        // UNROLLED_WARP_COPY(8, lane_id, Consts::num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
+        UNROLLED_WARP_COPY(8, lane_id, body_num_int4_per_msg, body_dst_int4_ptr, body_src_int4_ptr, ld_nc_global, st_na_global);
 
         // Send per-token signal
         // NOTE only first 4B of 16B has value, the other 12B is not needed

From 461074b4443516a303611fe7c92f179c814677c4 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 18:00:48 +0800
Subject: [PATCH 349/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 0bafb2bb..56063744 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -301,7 +301,7 @@ __forceinline__ __device__ void dispatch_send(
         // NOTE do *not* send the first int4, which is handled via the signal
         const int4* body_src_int4_ptr = src_int4_ptr + 1;
         const int4* body_dst_int4_ptr = dst_int4_ptr + 1;
-        const int body_num_int4_per_msg = Consts::num_int4_per_msg - 1;
+        constexpr int body_num_int4_per_msg = Consts::num_int4_per_msg - 1;
         // UNROLLED_WARP_COPY(8, lane_id, Consts::num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
         UNROLLED_WARP_COPY(8, lane_id, body_num_int4_per_msg, body_dst_int4_ptr, body_src_int4_ptr, ld_nc_global, st_na_global);
 

From f820a2be84194e594e5eca29560334d7e530240f Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 18:03:18 +0800
Subject: [PATCH 350/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 13 ++++++++++++-
 1 file changed, 12 insertions(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 56063744..54d0078f 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -302,8 +302,19 @@ __forceinline__ __device__ void dispatch_send(
         const int4* body_src_int4_ptr = src_int4_ptr + 1;
         const int4* body_dst_int4_ptr = dst_int4_ptr + 1;
         constexpr int body_num_int4_per_msg = Consts::num_int4_per_msg - 1;
+
         // UNROLLED_WARP_COPY(8, lane_id, Consts::num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
-        UNROLLED_WARP_COPY(8, lane_id, body_num_int4_per_msg, body_dst_int4_ptr, body_src_int4_ptr, ld_nc_global, st_na_global);
+        // UNROLLED_WARP_COPY(8, lane_id, body_num_int4_per_msg, body_dst_int4_ptr, body_src_int4_ptr, ld_nc_global, st_na_global);
+
+        int4 body_buf[body_num_int4_per_msg];
+        #pragma unroll
+        for (int i = 0; i < TODO; ++i) {
+            body_buf[i] = ld_nc_global(body_src_int4_ptr + i * 32);
+        }
+        #pragma unroll
+        for (int i = 0; i < TODO; ++i) {
+            st_na_global(body_dst_int4_ptr + i * 32, body_buf[i]);
+        }
 
         // Send per-token signal
         // NOTE only first 4B of 16B has value, the other 12B is not needed

From 134b9284b9906dfd92523759456a7044d30cba7b Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 18:03:45 +0800
Subject: [PATCH 351/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 54d0078f..7fda3a2e 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -309,11 +309,11 @@ __forceinline__ __device__ void dispatch_send(
         int4 body_buf[body_num_int4_per_msg];
         #pragma unroll
         for (int i = 0; i < TODO; ++i) {
-            body_buf[i] = ld_nc_global(body_src_int4_ptr + i * 32);
+            body_buf[i] = ld_nc_global(body_src_int4_ptr + lane_id + i * 32);
         }
         #pragma unroll
         for (int i = 0; i < TODO; ++i) {
-            st_na_global(body_dst_int4_ptr + i * 32, body_buf[i]);
+            st_na_global(body_dst_int4_ptr + lane_id + i * 32, body_buf[i]);
         }
 
         // Send per-token signal

From becde3a3b46329fe6ea99934533aecc85806afae Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 18:06:19 +0800
Subject: [PATCH 352/393] more

---
 csrc/config.hpp                  | 2 +-
 csrc/kernels/internode_ll_v2.cuh | 5 +++--
 2 files changed, 4 insertions(+), 3 deletions(-)

diff --git a/csrc/config.hpp b/csrc/config.hpp
index eac9db04..15dfbacd 100644
--- a/csrc/config.hpp
+++ b/csrc/config.hpp
@@ -6,7 +6,7 @@
 namespace deep_ep {
 
 template <typename dtype_t>
-dtype_t ceil_div(dtype_t a, dtype_t b) {
+constexpr dtype_t ceil_div(dtype_t a, dtype_t b) {
     return (a + b - 1) / b;
 }
 
diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 7fda3a2e..ed6975c4 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -307,12 +307,13 @@ __forceinline__ __device__ void dispatch_send(
         // UNROLLED_WARP_COPY(8, lane_id, body_num_int4_per_msg, body_dst_int4_ptr, body_src_int4_ptr, ld_nc_global, st_na_global);
 
         int4 body_buf[body_num_int4_per_msg];
+        constexpr int loop_num = ceil_div(body_num_int4_per_msg, 32);
         #pragma unroll
-        for (int i = 0; i < TODO; ++i) {
+        for (int i = 0; i < loop_num; ++i) {
             body_buf[i] = ld_nc_global(body_src_int4_ptr + lane_id + i * 32);
         }
         #pragma unroll
-        for (int i = 0; i < TODO; ++i) {
+        for (int i = 0; i < loop_num; ++i) {
             st_na_global(body_dst_int4_ptr + lane_id + i * 32, body_buf[i]);
         }
 

From ff3f52ac12e4569f127ceca52b6b7b955ab3d688 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 18:07:18 +0800
Subject: [PATCH 353/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 12 +++++++++---
 1 file changed, 9 insertions(+), 3 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index ed6975c4..621a4709 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -306,15 +306,21 @@ __forceinline__ __device__ void dispatch_send(
         // UNROLLED_WARP_COPY(8, lane_id, Consts::num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
         // UNROLLED_WARP_COPY(8, lane_id, body_num_int4_per_msg, body_dst_int4_ptr, body_src_int4_ptr, ld_nc_global, st_na_global);
 
-        int4 body_buf[body_num_int4_per_msg];
         constexpr int loop_num = ceil_div(body_num_int4_per_msg, 32);
+        int4 body_buf[loop_num];
         #pragma unroll
         for (int i = 0; i < loop_num; ++i) {
-            body_buf[i] = ld_nc_global(body_src_int4_ptr + lane_id + i * 32);
+            int offset = lane_id + i * 32;
+            if (offset < body_num_int4_per_msg) {
+                body_buf[i] = ld_nc_global(body_src_int4_ptr + offset);
+            }
         }
         #pragma unroll
         for (int i = 0; i < loop_num; ++i) {
-            st_na_global(body_dst_int4_ptr + lane_id + i * 32, body_buf[i]);
+            int offset = lane_id + i * 32;
+            if (offset < body_num_int4_per_msg) {
+                st_na_global(body_dst_int4_ptr + offset, body_buf[i]);
+            }
         }
 
         // Send per-token signal

From 731f2b40aac42348980c778ca11d8d7cbf40b9be Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 18:08:02 +0800
Subject: [PATCH 354/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 1 +
 1 file changed, 1 insertion(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 621a4709..ab611970 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -307,6 +307,7 @@ __forceinline__ __device__ void dispatch_send(
         // UNROLLED_WARP_COPY(8, lane_id, body_num_int4_per_msg, body_dst_int4_ptr, body_src_int4_ptr, ld_nc_global, st_na_global);
 
         constexpr int loop_num = ceil_div(body_num_int4_per_msg, 32);
+        EP_STATIC_ASSERT(loop_num == 8, "unexpected loop_num");
         int4 body_buf[loop_num];
         #pragma unroll
         for (int i = 0; i < loop_num; ++i) {

From 3962b415b5ad1a0d57341871b76282097c1b4db8 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 18:16:08 +0800
Subject: [PATCH 355/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 17 ++++++++++-------
 1 file changed, 10 insertions(+), 7 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index ab611970..f26bffc0 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -894,14 +894,17 @@ void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
     if (use_ue8m0)
         EP_HOST_ASSERT(round_scale and "UE8M0 SF requires `round_scale=True`");
 
+    EP_HOST_ASSERT(use_nvfp4 and (not use_fp8) and (not use_ue8m0));
+// auto dispatch_func = dispatch_v2<false, false, false, hidden>; \
+// if (use_fp8 and not use_ue8m0) \
+//     dispatch_func = dispatch_v2<true, false, false, hidden>; \
+// if (use_fp8 and use_ue8m0) \
+//     dispatch_func = dispatch_v2<true, true, false, hidden>; \
+// if (use_nvfp4) \
+//     dispatch_func = dispatch_v2<false, false, true, hidden>;
+
 #define DISPATCH_LAUNCH_CASE(hidden) { \
-auto dispatch_func = dispatch_v2<false, false, false, hidden>; \
-if (use_fp8 and not use_ue8m0) \
-    dispatch_func = dispatch_v2<true, false, false, hidden>; \
-if (use_fp8 and use_ue8m0) \
-    dispatch_func = dispatch_v2<true, true, false, hidden>; \
-if (use_nvfp4) \
-    dispatch_func = dispatch_v2<false, false, true, hidden>; \
+auto dispatch_func = dispatch_v2<false, false, true, hidden>; \
 LAUNCH_KERNEL(&cfg, dispatch_func, \
               packed_recv_x, packed_recv_x_scales, \
               packed_recv_src_info, packed_recv_layout_range, \

From 2f5d8dfda33183736a4fe0863244a07ab9b54234 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 18:17:47 +0800
Subject: [PATCH 356/393] more

---
 csrc/kernels/launch.cuh | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/csrc/kernels/launch.cuh b/csrc/kernels/launch.cuh
index 26df144a..2a4daabc 100644
--- a/csrc/kernels/launch.cuh
+++ b/csrc/kernels/launch.cuh
@@ -86,12 +86,12 @@ cfg.dynamicSmemBytes = smem_size;
 
 #define SWITCH_HIDDEN(case_macro) \
     switch (hidden) { \
-        case 2048: case_macro(2048); \
-        case 2560: case_macro(2560); \
-        case 4096: case_macro(4096); \
-        case 5120: case_macro(5120); \
-        case 6144: case_macro(6144); /* For qwen3 coder */ \
+        /* case 2048: case_macro(2048); */  \
+        /* case 2560: case_macro(2560); */  \
+        /* case 4096: case_macro(4096); */  \
+        /* case 5120: case_macro(5120); */  \
+        /* case 6144: case_macro(6144); */  /* For qwen3 coder */ \
         case 7168: case_macro(7168); \
-        case 8192: case_macro(8192); \
+        /* case 8192: case_macro(8192); */ \
         default: EP_HOST_ASSERT(false and "Unsupported hidden"); \
     } while (false)

From ee9e523beb3a82d8086cd21ecec699dd3a7e0900 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 18:21:10 +0800
Subject: [PATCH 357/393] mv

---
 csrc/kernels/internode_ll_v2.cuh | 20 +++++++++++---------
 1 file changed, 11 insertions(+), 9 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index f26bffc0..efed0400 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -282,13 +282,6 @@ __forceinline__ __device__ void dispatch_send(
         // NOTE do not use `rdma_x` but use `x`
         // const auto src_ptr = reinterpret_cast<uint64_t>(rdma_x_src_idx);
         const auto src_ptr = reinterpret_cast<uint64_t>(x_src_idx);
-        const auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_x) +
-                             dst_expert_local_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
-                             // NOTE modified rm
-                             // rank * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
-                             remote_start_offset * Consts::num_bytes_per_msg +
-                             slot_idx * Consts::num_bytes_per_msg;
-        const auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
 
 //             if (dst_p2p_ptr == 0) {
 //                 nvshmemi_ibgda_put_nbi_warp(dst_ptr, src_ptr, Consts::num_bytes_per_msg, dst_rank, dst_expert_local_idx, lane_id, slot_idx);
@@ -296,11 +289,9 @@ __forceinline__ __device__ void dispatch_send(
 
         // NOTES: only 2 load iterations for 7K hidden with 8 unrolls
         const auto* src_int4_ptr = reinterpret_cast<const int4*>(src_ptr);
-        const auto* dst_int4_ptr = reinterpret_cast<int4*>(dst_p2p_ptr);
 
         // NOTE do *not* send the first int4, which is handled via the signal
         const int4* body_src_int4_ptr = src_int4_ptr + 1;
-        const int4* body_dst_int4_ptr = dst_int4_ptr + 1;
         constexpr int body_num_int4_per_msg = Consts::num_int4_per_msg - 1;
 
         // UNROLLED_WARP_COPY(8, lane_id, Consts::num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
@@ -316,6 +307,17 @@ __forceinline__ __device__ void dispatch_send(
                 body_buf[i] = ld_nc_global(body_src_int4_ptr + offset);
             }
         }
+
+        const auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_x) +
+                             dst_expert_local_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
+                             // NOTE modified rm
+                             // rank * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
+                             remote_start_offset * Consts::num_bytes_per_msg +
+                             slot_idx * Consts::num_bytes_per_msg;
+        const auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
+        const auto* dst_int4_ptr = reinterpret_cast<int4*>(dst_p2p_ptr);
+        const int4* body_dst_int4_ptr = dst_int4_ptr + 1;
+
         #pragma unroll
         for (int i = 0; i < loop_num; ++i) {
             int offset = lane_id + i * 32;

From ebf0607be1315289b75eee402e274bf568d43067 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 18:22:07 +0800
Subject: [PATCH 358/393] delay remote_start_offset

---
 csrc/kernels/internode_ll_v2.cuh | 13 +++++++------
 1 file changed, 7 insertions(+), 6 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index efed0400..6373665c 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -197,12 +197,6 @@ __forceinline__ __device__ void dispatch_send(
         unpack2(token_idx_and_dst_expert, token_idx, dst_expert_idx);
         // const auto dst_rank = dst_expert_idx / num_local_experts;
 
-        // TODO can speedup by prefetching, delayed checking, etc
-        // TODO is this load strong enough?
-        int remote_start_offset;
-        while ((remote_start_offset = ld_volatile_global(remote_start_offset_buffer + dst_expert_idx)) == 0);
-        remote_start_offset = -remote_start_offset - 1;
-
         // NOTE changed, see "before-after" above
         // for (int token_idx = sm_id; token_idx < num_tokens; token_idx += num_sms) {
 
@@ -308,6 +302,13 @@ __forceinline__ __device__ void dispatch_send(
             }
         }
 
+        // NOTE this is delayed to here
+        // TODO can speedup by prefetching, delayed checking, etc
+        // TODO is this load strong enough?
+        int remote_start_offset;
+        while ((remote_start_offset = ld_volatile_global(remote_start_offset_buffer + dst_expert_idx)) == 0);
+        remote_start_offset = -remote_start_offset - 1;
+
         const auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_x) +
                              dst_expert_local_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
                              // NOTE modified rm

From 083b684816daf465997e74b6204283101e5862ae Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 18:27:07 +0800
Subject: [PATCH 359/393] Revert "delay remote_start_offset"

This reverts commit ebf0607be1315289b75eee402e274bf568d43067.
---
 csrc/kernels/internode_ll_v2.cuh | 13 ++++++-------
 1 file changed, 6 insertions(+), 7 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 6373665c..efed0400 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -197,6 +197,12 @@ __forceinline__ __device__ void dispatch_send(
         unpack2(token_idx_and_dst_expert, token_idx, dst_expert_idx);
         // const auto dst_rank = dst_expert_idx / num_local_experts;
 
+        // TODO can speedup by prefetching, delayed checking, etc
+        // TODO is this load strong enough?
+        int remote_start_offset;
+        while ((remote_start_offset = ld_volatile_global(remote_start_offset_buffer + dst_expert_idx)) == 0);
+        remote_start_offset = -remote_start_offset - 1;
+
         // NOTE changed, see "before-after" above
         // for (int token_idx = sm_id; token_idx < num_tokens; token_idx += num_sms) {
 
@@ -302,13 +308,6 @@ __forceinline__ __device__ void dispatch_send(
             }
         }
 
-        // NOTE this is delayed to here
-        // TODO can speedup by prefetching, delayed checking, etc
-        // TODO is this load strong enough?
-        int remote_start_offset;
-        while ((remote_start_offset = ld_volatile_global(remote_start_offset_buffer + dst_expert_idx)) == 0);
-        remote_start_offset = -remote_start_offset - 1;
-
         const auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_x) +
                              dst_expert_local_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
                              // NOTE modified rm

From 342fcfa2e7f740a273878a0b8388399014b5716d Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 18:27:10 +0800
Subject: [PATCH 360/393] Revert "mv"

This reverts commit ee9e523beb3a82d8086cd21ecec699dd3a7e0900.
---
 csrc/kernels/internode_ll_v2.cuh | 20 +++++++++-----------
 1 file changed, 9 insertions(+), 11 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index efed0400..f26bffc0 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -282,6 +282,13 @@ __forceinline__ __device__ void dispatch_send(
         // NOTE do not use `rdma_x` but use `x`
         // const auto src_ptr = reinterpret_cast<uint64_t>(rdma_x_src_idx);
         const auto src_ptr = reinterpret_cast<uint64_t>(x_src_idx);
+        const auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_x) +
+                             dst_expert_local_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
+                             // NOTE modified rm
+                             // rank * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
+                             remote_start_offset * Consts::num_bytes_per_msg +
+                             slot_idx * Consts::num_bytes_per_msg;
+        const auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
 
 //             if (dst_p2p_ptr == 0) {
 //                 nvshmemi_ibgda_put_nbi_warp(dst_ptr, src_ptr, Consts::num_bytes_per_msg, dst_rank, dst_expert_local_idx, lane_id, slot_idx);
@@ -289,9 +296,11 @@ __forceinline__ __device__ void dispatch_send(
 
         // NOTES: only 2 load iterations for 7K hidden with 8 unrolls
         const auto* src_int4_ptr = reinterpret_cast<const int4*>(src_ptr);
+        const auto* dst_int4_ptr = reinterpret_cast<int4*>(dst_p2p_ptr);
 
         // NOTE do *not* send the first int4, which is handled via the signal
         const int4* body_src_int4_ptr = src_int4_ptr + 1;
+        const int4* body_dst_int4_ptr = dst_int4_ptr + 1;
         constexpr int body_num_int4_per_msg = Consts::num_int4_per_msg - 1;
 
         // UNROLLED_WARP_COPY(8, lane_id, Consts::num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
@@ -307,17 +316,6 @@ __forceinline__ __device__ void dispatch_send(
                 body_buf[i] = ld_nc_global(body_src_int4_ptr + offset);
             }
         }
-
-        const auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_x) +
-                             dst_expert_local_idx * num_ranks * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
-                             // NOTE modified rm
-                             // rank * num_max_dispatch_tokens_per_rank * Consts::num_bytes_per_msg +
-                             remote_start_offset * Consts::num_bytes_per_msg +
-                             slot_idx * Consts::num_bytes_per_msg;
-        const auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
-        const auto* dst_int4_ptr = reinterpret_cast<int4*>(dst_p2p_ptr);
-        const int4* body_dst_int4_ptr = dst_int4_ptr + 1;
-
         #pragma unroll
         for (int i = 0; i < loop_num; ++i) {
             int offset = lane_id + i * 32;

From 97a3b20c1a9213a7febe7a73e5b00712fd1ce218 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 18:38:02 +0800
Subject: [PATCH 361/393] copy new nvfp4 swizzle

---
 csrc/deep_ep.cpp                 | 21 +++++++++++++++++----
 csrc/kernels/internode_ll_v2.cuh | 14 +++++++-------
 2 files changed, 24 insertions(+), 11 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 02f550a5..29e209bb 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1252,12 +1252,25 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
         packed_recv_x_scales = torch::transpose(packed_recv_x_scales.value(), 1, 2);
         packed_recv_x_scales_ptr = packed_recv_x_scales->data_ptr();
     } else if (use_nvfp4) {
-        constexpr int SF_VEC_SIZE = 16;
+        constexpr int kNumPerChannels = 16;
         constexpr int NUM_SF_ELEMS_PER_PACK = 4;
-        packed_recv_x_scales = torch::empty({num_local_experts, hidden / (SF_VEC_SIZE * NUM_SF_ELEMS_PER_PACK), num_ranks * num_max_dispatch_tokens_per_rank},
-                                            torch::dtype(torch::kInt).device(torch::kCUDA));
-        packed_recv_x_scales = torch::transpose(packed_recv_x_scales.value(), 1, 2);
+        constexpr int mTileSize_dim_0 = 32;
+        constexpr int mTileSize_dim_1 = 4;
+        constexpr int mTileSize = mTileSize_dim_0 * mTileSize_dim_1;
+
+        auto l = num_local_experts;
+        auto m = num_ranks * num_max_dispatch_tokens_per_rank;
+        auto rm = (m + 127) / 128;
+        auto rk = hidden / (kNumPerChannels * NUM_SF_ELEMS_PER_PACK);
+        // The physical layout is (l, rm, rk, 32, 4, 4).
+        packed_recv_x_scales = torch::empty({l, rm, rk, 32, 4, 4},
+                                            torch::dtype(torch::kInt8).device(torch::kCUDA));
+        // After permute, the logical shape is (32, 4, rm, 4, rk, l)
+        packed_recv_x_scales = packed_recv_x_scales.value().permute({3, 4, 1, 5, 2, 0});
+
         packed_recv_x_scales_ptr = packed_recv_x_scales->data_ptr();
+//        packed_recv_x_sf_scale = torch::empty({num_local_experts, num_ranks * num_max_dispatch_tokens_per_rank}, torch::dtype(torch::kFloat32).device(torch::kCUDA));
+//        packed_recv_x_sf_scale_ptr = packed_recv_x_sf_scale->data_ptr();
     }
 
     // Kernel launch
diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index f26bffc0..220b87d0 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -685,20 +685,20 @@ __forceinline__ __device__ void dispatch_recv(
 //                     recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
 //                 }
             } else if constexpr (kUseNVFP4) {
-                // TODO wait for new swizzle layout
-                // Equivalent CuTe layout:
-                //   (num_tokens, (num_packed, num_elems_per_pack)):(num_elems_per_pack, (num_tokens * num_elems_per_pack, 1))
+                // The physical layout is (l, rm, rk, 32, 4, 4).
                 const auto src_scales = reinterpret_cast<uint8_t*>(reinterpret_cast<uint8_t*>(src_data) + Consts::hidden_bytes);
                 const auto num_elems_per_pack = static_cast<int>(sizeof(packed_t) / sizeof(scale_t));
-                // const auto token_idx = recv_token_begin_idx + i;
-                const auto token_stride = num_elems_per_pack;
-                const auto pack_stride = num_ranks * num_max_dispatch_tokens_per_rank * num_elems_per_pack;
+                // const auto token_idx = recv_token_begin_idx + i; // NOTE changed
+                const auto token_stride = Consts::num_scales * sizeof(scale_t);
+                const auto pack_stride = num_elems_per_pack;
+                const auto rm = token_idx / 128;
+                const auto rm_res = token_idx % 128;
                 #pragma unroll
                 for (int j = lane_id; j < Consts::num_scales; j += 32) {
                     const auto pack_idx = j / num_elems_per_pack;
                     const auto elem_idx = j % num_elems_per_pack;
                     auto scale = ld_nc_global(src_scales + j);
-                    recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
+                    recv_x_scales[rm * token_stride * 128 + pack_idx * pack_stride * 128 + rm_res * pack_stride + elem_idx] = scale;
                 }
             }
 

From 8a42c16462e671f6ef421ae00bf0569876609060 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 19:40:12 +0800
Subject: [PATCH 362/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 15 +++++++++++++--
 1 file changed, 13 insertions(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 220b87d0..a254b7a7 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -693,11 +693,22 @@ __forceinline__ __device__ void dispatch_recv(
                 const auto pack_stride = num_elems_per_pack;
                 const auto rm = token_idx / 128;
                 const auto rm_res = token_idx % 128;
+
+                // TODO use int4 read
+                constexpr int loop_num = ceil_div(Consts::num_scales, 32);
+                EP_STATIC_ASSERT(loop_num == 14, "unexpected loop_num");
+                EP_STATIC_ASSERT(loop_num * 32 == Consts::num_scales, "expect even division");
+                int4 buf[loop_num];
+                #pragma unroll
+                for (int loop_idx = 0; loop_idx < loop_num; ++loop_idx) {
+                    const int j = lane_id + loop_idx * 32;
+                    buf[loop_idx] = ld_nc_global(src_scales + j);
+                }
                 #pragma unroll
-                for (int j = lane_id; j < Consts::num_scales; j += 32) {
+                for (int loop_idx = 0; loop_idx < loop_num; ++loop_idx) {
+                    const int j = lane_id + loop_idx * 32;
                     const auto pack_idx = j / num_elems_per_pack;
                     const auto elem_idx = j % num_elems_per_pack;
-                    auto scale = ld_nc_global(src_scales + j);
                     recv_x_scales[rm * token_stride * 128 + pack_idx * pack_stride * 128 + rm_res * pack_stride + elem_idx] = scale;
                 }
             }

From c438037558992fa28ab78f872867387c91136cf2 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 19:41:40 +0800
Subject: [PATCH 363/393] compile

---
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index a254b7a7..176a6c20 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -709,7 +709,7 @@ __forceinline__ __device__ void dispatch_recv(
                     const int j = lane_id + loop_idx * 32;
                     const auto pack_idx = j / num_elems_per_pack;
                     const auto elem_idx = j % num_elems_per_pack;
-                    recv_x_scales[rm * token_stride * 128 + pack_idx * pack_stride * 128 + rm_res * pack_stride + elem_idx] = scale;
+                    recv_x_scales[rm * token_stride * 128 + pack_idx * pack_stride * 128 + rm_res * pack_stride + elem_idx] = buf[loop_idx];
                 }
             }
 

From 5aa21947ccff27cecbd7fd63cfe6c36caa133124 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 19:43:10 +0800
Subject: [PATCH 364/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 176a6c20..4166d9bc 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -698,7 +698,7 @@ __forceinline__ __device__ void dispatch_recv(
                 constexpr int loop_num = ceil_div(Consts::num_scales, 32);
                 EP_STATIC_ASSERT(loop_num == 14, "unexpected loop_num");
                 EP_STATIC_ASSERT(loop_num * 32 == Consts::num_scales, "expect even division");
-                int4 buf[loop_num];
+                uint8_t buf[loop_num];
                 #pragma unroll
                 for (int loop_idx = 0; loop_idx < loop_num; ++loop_idx) {
                     const int j = lane_id + loop_idx * 32;

From 81811fd1fe83fbea9236e8281d34af16555a3064 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 20:07:14 +0800
Subject: [PATCH 365/393] token_idx_and_dst_expert_and_dst_slot_idx_flat_list

---
 csrc/deep_ep.cpp                 | 14 +++++++-------
 csrc/deep_ep.hpp                 |  2 +-
 csrc/kernels/api.cuh             |  2 +-
 csrc/kernels/internode_ll.cu     |  4 ++--
 csrc/kernels/internode_ll_v2.cuh | 28 ++++++++++++++--------------
 deep_ep/buffer.py                |  6 +++---
 6 files changed, 28 insertions(+), 28 deletions(-)

diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 29e209bb..43e794d8 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -1110,7 +1110,7 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
                              const std::optional<torch::Tensor>& zeroed_buffer_for_atomic_counter_per_expert,
                              bool use_nvfp4,
                              const std::optional<torch::Tensor>& dst_signals,
-                             const std::optional<torch::Tensor>& count_per_expert, const std::optional<torch::Tensor>& token_idx_and_dst_expert_flat_list,
+                             const std::optional<torch::Tensor>& count_per_expert, const std::optional<torch::Tensor>& token_idx_and_dst_expert_and_dst_slot_idx_flat_list,
                              const std::optional<torch::Tensor>& debug_tensor) {
 #ifndef DISABLE_NVSHMEM
     EP_HOST_ASSERT(low_latency_mode);
@@ -1168,11 +1168,11 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
 //        // EP_HOST_ASSERT(token_ids_of_expert->size(1) == ...whatever...);
 //        EP_HOST_ASSERT(token_ids_of_expert->dtype() == torch::kInt32);
 //    }
-    if (token_idx_and_dst_expert_flat_list.has_value()) {
-        EP_HOST_ASSERT(token_idx_and_dst_expert_flat_list->is_contiguous());
-        EP_HOST_ASSERT(token_idx_and_dst_expert_flat_list->dim() == 1);
-        EP_HOST_ASSERT(token_idx_and_dst_expert_flat_list->size(0) == num_tokens * num_topk);
-        EP_HOST_ASSERT(token_idx_and_dst_expert_flat_list->dtype() == torch::kInt64);
+    if (token_idx_and_dst_expert_and_dst_slot_idx_flat_list.has_value()) {
+        EP_HOST_ASSERT(token_idx_and_dst_expert_and_dst_slot_idx_flat_list->is_contiguous());
+        EP_HOST_ASSERT(token_idx_and_dst_expert_and_dst_slot_idx_flat_list->dim() == 1);
+        EP_HOST_ASSERT(token_idx_and_dst_expert_and_dst_slot_idx_flat_list->size(0) == num_tokens * num_topk);
+        EP_HOST_ASSERT(token_idx_and_dst_expert_and_dst_slot_idx_flat_list->dtype() == torch::kInt64);
     }
 
     // Buffer control
@@ -1293,7 +1293,7 @@ Buffer::low_latency_dispatch(bool enable_v2, const torch::Tensor& x, const torch
                                use_nvfp4,
                                dst_signals.has_value() ? dst_signals->data_ptr<uint32_t>() : nullptr,
                                count_per_expert.has_value() ? count_per_expert->data_ptr<uint32_t>() : nullptr,
-                               token_idx_and_dst_expert_flat_list.has_value() ? token_idx_and_dst_expert_flat_list->data_ptr<int64_t>() : nullptr,
+                               token_idx_and_dst_expert_and_dst_slot_idx_flat_list.has_value() ? token_idx_and_dst_expert_and_dst_slot_idx_flat_list->data_ptr<int64_t>() : nullptr,
 //                               token_ids_of_expert.has_value() ? token_ids_of_expert->data_ptr<int>() : nullptr,
 //                               token_ids_of_expert.has_value() ? token_ids_of_expert->stride(0) : 0,
                                remote_start_offset_buffer.has_value() ? remote_start_offset_buffer->data_ptr<int>() : nullptr,
diff --git a/csrc/deep_ep.hpp b/csrc/deep_ep.hpp
index de785c77..4de7a797 100644
--- a/csrc/deep_ep.hpp
+++ b/csrc/deep_ep.hpp
@@ -155,7 +155,7 @@ struct Buffer {
                          const std::optional<torch::Tensor>& zeroed_buffer_for_atomic_counter_per_expert,
                          bool use_nvfp4,
                          const std::optional<torch::Tensor>& dst_signals,
-                         const std::optional<torch::Tensor>& count_per_expert, const std::optional<torch::Tensor>& token_idx_and_dst_expert_flat_list,
+                         const std::optional<torch::Tensor>& count_per_expert, const std::optional<torch::Tensor>& token_idx_and_dst_expert_and_dst_slot_idx_flat_list,
                          const std::optional<torch::Tensor>& debug_tensor);
 
     std::tuple<torch::Tensor, std::optional<EventHandle>, std::optional<std::function<void()>>>
diff --git a/csrc/kernels/api.cuh b/csrc/kernels/api.cuh
index 5e37222b..03f20ca7 100644
--- a/csrc/kernels/api.cuh
+++ b/csrc/kernels/api.cuh
@@ -153,7 +153,7 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
               void* workspace, int num_device_sms,
               cudaStream_t stream, int phases,
               bool use_nvfp4, uint32_t* dst_signals,
-              uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
+              uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_and_dst_slot_idx_flat_list,
               int* remote_start_offset_buffer,
               int* zeroed_buffer_for_atomic_counter_per_expert,
               int* debug_tensor);
diff --git a/csrc/kernels/internode_ll.cu b/csrc/kernels/internode_ll.cu
index 61233c91..a56cabf1 100644
--- a/csrc/kernels/internode_ll.cu
+++ b/csrc/kernels/internode_ll.cu
@@ -352,7 +352,7 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
               void* workspace, int num_device_sms,
               cudaStream_t stream, int phases,
               bool use_nvfp4, uint32_t* dst_signals,
-              uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
+              uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_and_dst_slot_idx_flat_list,
               int* remote_start_offset_buffer,
               int* zeroed_buffer_for_atomic_counter_per_expert,
               int* debug_tensor) {
@@ -373,7 +373,7 @@ void dispatch(bool enable_v2, void* packed_recv_x, void* packed_recv_x_scales,
             workspace, num_device_sms,
             stream, phases,
             use_nvfp4, dst_signals,
-            count_per_expert, token_idx_and_dst_expert_flat_list,
+            count_per_expert, token_idx_and_dst_expert_and_dst_slot_idx_flat_list,
             remote_start_offset_buffer,
             zeroed_buffer_for_atomic_counter_per_expert,
             debug_tensor
diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 4166d9bc..54cf4caa 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -64,7 +64,7 @@ __forceinline__ __device__ void dispatch_send(
     int num_warps_per_group,
     bool round_scale, int phases,
     uint32_t* dst_signals,
-    uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
+    uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_and_dst_slot_idx_flat_list,
     int64_t* layout_range_buffer, int* negotiate_offset_of_expert_buffer, int* remote_start_offset_buffer
 //     int* debug_tensor
 ) {
@@ -176,12 +176,12 @@ __forceinline__ __device__ void dispatch_send(
     const int flat_worker_id = warp_id * num_sms + sm_id;
     const int flat_worker_num = num_warps * num_sms;
     for (
-        // "tefl" := "token_idx_and_dst_expert_flat_list"
-        int tefl_idx = flat_worker_id, debug_iter_idx = 0;
-        tefl_idx < num_tokens * num_topk;
-        tefl_idx += flat_worker_num, debug_iter_idx += 1
+        // "tesfl" := "token_idx_and_dst_expert_and_dst_slot_idx_flat_list"
+        int tesfl_idx = flat_worker_id, debug_iter_idx = 0;
+        tesfl_idx < num_tokens * num_topk;
+        tesfl_idx += flat_worker_num, debug_iter_idx += 1
     ) {
-//         if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_send tefl_idx=%d START \n", rank, sm_id, subroutine_thread_id, tefl_idx); }
+//         if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_send tesfl_idx=%d START \n", rank, sm_id, subroutine_thread_id, tesfl_idx); }
 //         write_debug_time(
 //             debug_tensor, t_start,
 //             /* event_group_id */ 0,
@@ -191,8 +191,8 @@ __forceinline__ __device__ void dispatch_send(
 //         );
 
         // TODO do prefetching if needed
-        // NOTE ldg is for read-only data cache, if token_idx_and_dst_expert_flat_list is somehow overlapped in the future we should change it
-        const auto token_idx_and_dst_expert = __ldg(token_idx_and_dst_expert_flat_list + tefl_idx);
+        // NOTE ldg is for read-only data cache, if token_idx_and_dst_expert_and_dst_slot_idx_flat_list is somehow overlapped in the future we should change it
+        const auto token_idx_and_dst_expert = __ldg(token_idx_and_dst_expert_and_dst_slot_idx_flat_list + tesfl_idx);
         int token_idx, dst_expert_idx;
         unpack2(token_idx_and_dst_expert, token_idx, dst_expert_idx);
         // const auto dst_rank = dst_expert_idx / num_local_experts;
@@ -460,7 +460,7 @@ __forceinline__ __device__ void dispatch_recv(
     int num_warps_per_group,
     bool round_scale, int phases,
     uint32_t* dst_signals,
-    uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
+    uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_and_dst_slot_idx_flat_list,
     int64_t* layout_range_buffer, int* negotiate_offset_of_expert_buffer, int* remote_start_offset_buffer
 //     int* debug_tensor
 ) {
@@ -749,7 +749,7 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
          int num_send_warps_per_group, int num_recv_warps_per_group,
          bool round_scale, int phases,
          uint32_t* dst_signals,
-         uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
+         uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_and_dst_slot_idx_flat_list,
          int* remote_start_offset_buffer
 //          int* debug_tensor
          ) {
@@ -793,7 +793,7 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
                 num_send_warps_per_group,
                 round_scale, phases,
                 dst_signals,
-                count_per_expert, token_idx_and_dst_expert_flat_list,
+                count_per_expert, token_idx_and_dst_expert_and_dst_slot_idx_flat_list,
                 layout_range_buffer, negotiate_offset_of_expert_buffer, remote_start_offset_buffer
 //                 debug_tensor
             );
@@ -819,7 +819,7 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
                 num_recv_warps_per_group,
                 round_scale, phases,
                 dst_signals,
-                count_per_expert, token_idx_and_dst_expert_flat_list,
+                count_per_expert, token_idx_and_dst_expert_and_dst_slot_idx_flat_list,
                 layout_range_buffer, negotiate_offset_of_expert_buffer, remote_start_offset_buffer
 //                 debug_tensor
             );
@@ -852,7 +852,7 @@ void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
               void* workspace, int num_device_sms,
               cudaStream_t stream, int phases,
               bool use_nvfp4, uint32_t* dst_signals,
-              uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_flat_list,
+              uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_and_dst_slot_idx_flat_list,
               int* remote_start_offset_buffer, int* zeroed_buffer_for_atomic_counter_per_expert,
               int* debug_tensor) {
     constexpr int kNumMaxTopK = 9;
@@ -932,7 +932,7 @@ LAUNCH_KERNEL(&cfg, dispatch_func, \
               num_send_warp_groups, num_recv_warp_groups, num_send_warps_per_group, num_recv_warps_per_group, \
               round_scale, phases, \
               dst_signals, \
-              count_per_expert, token_idx_and_dst_expert_flat_list, remote_start_offset_buffer \
+              count_per_expert, token_idx_and_dst_expert_and_dst_slot_idx_flat_list, remote_start_offset_buffer \
               /* debug_tensor */); } break
 
     SETUP_LAUNCH_CONFIG(num_sms, num_warps * 32, stream);
diff --git a/deep_ep/buffer.py b/deep_ep/buffer.py
index bd6ff48e..73d17609 100644
--- a/deep_ep/buffer.py
+++ b/deep_ep/buffer.py
@@ -536,7 +536,7 @@ def low_latency_dispatch(self, x: torch.Tensor, topk_idx: torch.Tensor,
                              zeroed_tensor_c: Optional[torch.Tensor] = None,
                              use_nvfp4: bool = False,
                              dst_signals: Optional[torch.Tensor] = None,
-                             count_per_expert: Optional[torch.Tensor] = None, token_idx_and_dst_expert_flat_list: Optional[torch.Tensor] = None,
+                             count_per_expert: Optional[torch.Tensor] = None, token_idx_and_dst_expert_and_dst_slot_idx_flat_list: Optional[torch.Tensor] = None,
                              debug_tensor: Optional[torch.Tensor] = None) -> \
             Tuple[Tuple[torch.Tensor, torch.Tensor], torch.Tensor, Tuple, EventOverlap, Callable]:
         """
@@ -572,7 +572,7 @@ def low_latency_dispatch(self, x: torch.Tensor, topk_idx: torch.Tensor,
     		# token_ids_of_expert: (num_global_experts, max_num_tokens)
     		# 	* for expert_id-th item, only first `count_per_expert[expert_id]` elements are valid
     		# 	* means which token ids should be sent in this expert
-    		token_idx_and_dst_expert_flat_list: TODO
+    		token_idx_and_dst_expert_and_dst_slot_idx_flat_list: TODO
 
         Returns:
             recv_x: a tensor or tuple with received tokens for each expert.
@@ -603,7 +603,7 @@ def low_latency_dispatch(self, x: torch.Tensor, topk_idx: torch.Tensor,
                                               zeroed_tensor_a, zeroed_tensor_b, zeroed_tensor_c,
                                               use_nvfp4,
                                               dst_signals,
-                                              count_per_expert, token_idx_and_dst_expert_flat_list,
+                                              count_per_expert, token_idx_and_dst_expert_and_dst_slot_idx_flat_list,
                                               debug_tensor)
         handle = (packed_recv_src_info, packed_recv_layout_range, num_max_dispatch_tokens_per_rank, x.size(1), num_experts)
         tensors_to_record = (x, topk_idx,

From 0c4d561eb3c61eb70871e92cc3e7e0cef2caffed Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 20:13:07 +0800
Subject: [PATCH 366/393] slot_idx provided by external

---
 csrc/kernels/internode_ll_v2.cuh | 12 +++++++-----
 1 file changed, 7 insertions(+), 5 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 54cf4caa..40fad35d 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -192,9 +192,9 @@ __forceinline__ __device__ void dispatch_send(
 
         // TODO do prefetching if needed
         // NOTE ldg is for read-only data cache, if token_idx_and_dst_expert_and_dst_slot_idx_flat_list is somehow overlapped in the future we should change it
-        const auto token_idx_and_dst_expert = __ldg(token_idx_and_dst_expert_and_dst_slot_idx_flat_list + tesfl_idx);
-        int token_idx, dst_expert_idx;
-        unpack2(token_idx_and_dst_expert, token_idx, dst_expert_idx);
+        const auto token_idx_and_dst_expert_and_slot_idx = __ldg(token_idx_and_dst_expert_and_dst_slot_idx_flat_list + tesfl_idx);
+        const auto ptr = (int16_t*) &token_idx_and_dst_expert_and_slot_idx;
+        const int token_idx = ptr[0], dst_expert_idx = ptr[1], slot_idx = ptr[2];
         // const auto dst_rank = dst_expert_idx / num_local_experts;
 
         // TODO can speedup by prefetching, delayed checking, etc
@@ -275,8 +275,10 @@ __forceinline__ __device__ void dispatch_send(
         // Issue IBGDA sends
 //         if (dst_expert_idx >= 0) {
 
-        int slot_idx = lane_id == 0 ? atomicAdd(atomic_counter_per_expert + dst_expert_idx, 1) : 0;
-        slot_idx = __shfl_sync(0xffffffff, slot_idx, 0);
+        // NOTE: let external give this
+        // int slot_idx = lane_id == 0 ? atomicAdd(atomic_counter_per_expert + dst_expert_idx, 1) : 0;
+        // slot_idx = __shfl_sync(0xffffffff, slot_idx, 0);
+
         const auto dst_rank = dst_expert_idx / num_local_experts;
         const auto dst_expert_local_idx = dst_expert_idx % num_local_experts;
         // NOTE do not use `rdma_x` but use `x`

From 7ec82093401cd3d11c5d1c6ac251b5375eefc6b8 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 20:14:19 +0800
Subject: [PATCH 367/393] var

---
 csrc/kernels/internode_ll_v2.cuh | 7 ++++---
 1 file changed, 4 insertions(+), 3 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 40fad35d..349159e7 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -308,19 +308,20 @@ __forceinline__ __device__ void dispatch_send(
         // UNROLLED_WARP_COPY(8, lane_id, Consts::num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
         // UNROLLED_WARP_COPY(8, lane_id, body_num_int4_per_msg, body_dst_int4_ptr, body_src_int4_ptr, ld_nc_global, st_na_global);
 
-        constexpr int loop_num = ceil_div(body_num_int4_per_msg, 32);
+        constexpr int num_threads_for_copy = 32;
+        constexpr int loop_num = ceil_div(body_num_int4_per_msg, num_threads_for_copy);
         EP_STATIC_ASSERT(loop_num == 8, "unexpected loop_num");
         int4 body_buf[loop_num];
         #pragma unroll
         for (int i = 0; i < loop_num; ++i) {
-            int offset = lane_id + i * 32;
+            int offset = lane_id + i * num_threads_for_copy;
             if (offset < body_num_int4_per_msg) {
                 body_buf[i] = ld_nc_global(body_src_int4_ptr + offset);
             }
         }
         #pragma unroll
         for (int i = 0; i < loop_num; ++i) {
-            int offset = lane_id + i * 32;
+            int offset = lane_id + i * num_threads_for_copy;
             if (offset < body_num_int4_per_msg) {
                 st_na_global(body_dst_int4_ptr + offset, body_buf[i]);
             }

From 9f38ae71528faac415749e4b2025711ff133aba1 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 20:31:58 +0800
Subject: [PATCH 368/393] print

---
 csrc/kernels/internode_ll_v2.cuh | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 349159e7..fceb3a34 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -195,6 +195,8 @@ __forceinline__ __device__ void dispatch_send(
         const auto token_idx_and_dst_expert_and_slot_idx = __ldg(token_idx_and_dst_expert_and_dst_slot_idx_flat_list + tesfl_idx);
         const auto ptr = (int16_t*) &token_idx_and_dst_expert_and_slot_idx;
         const int token_idx = ptr[0], dst_expert_idx = ptr[1], slot_idx = ptr[2];
+        // if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_send tesfl_idx=%d token_idx=%d dst_expert_idx=%d slot_idx=%d \n",
+        //     rank, sm_id, subroutine_thread_id, tesfl_idx, token_idx, dst_expert_idx, slot_idx); }
         // const auto dst_rank = dst_expert_idx / num_local_experts;
 
         // TODO can speedup by prefetching, delayed checking, etc

From ca4b82325a050d5d8ad0301d4a707e42523ed212 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 20:33:48 +0800
Subject: [PATCH 369/393] temp rm slot_idx logic

---
 csrc/kernels/internode_ll_v2.cuh | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index fceb3a34..80aa6dc8 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -194,7 +194,7 @@ __forceinline__ __device__ void dispatch_send(
         // NOTE ldg is for read-only data cache, if token_idx_and_dst_expert_and_dst_slot_idx_flat_list is somehow overlapped in the future we should change it
         const auto token_idx_and_dst_expert_and_slot_idx = __ldg(token_idx_and_dst_expert_and_dst_slot_idx_flat_list + tesfl_idx);
         const auto ptr = (int16_t*) &token_idx_and_dst_expert_and_slot_idx;
-        const int token_idx = ptr[0], dst_expert_idx = ptr[1], slot_idx = ptr[2];
+        const int token_idx = ptr[0], dst_expert_idx = ptr[1]; //, slot_idx = ptr[2];
         // if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_send tesfl_idx=%d token_idx=%d dst_expert_idx=%d slot_idx=%d \n",
         //     rank, sm_id, subroutine_thread_id, tesfl_idx, token_idx, dst_expert_idx, slot_idx); }
         // const auto dst_rank = dst_expert_idx / num_local_experts;
@@ -278,8 +278,8 @@ __forceinline__ __device__ void dispatch_send(
 //         if (dst_expert_idx >= 0) {
 
         // NOTE: let external give this
-        // int slot_idx = lane_id == 0 ? atomicAdd(atomic_counter_per_expert + dst_expert_idx, 1) : 0;
-        // slot_idx = __shfl_sync(0xffffffff, slot_idx, 0);
+        int slot_idx = lane_id == 0 ? atomicAdd(atomic_counter_per_expert + dst_expert_idx, 1) : 0;
+        slot_idx = __shfl_sync(0xffffffff, slot_idx, 0);
 
         const auto dst_rank = dst_expert_idx / num_local_experts;
         const auto dst_expert_local_idx = dst_expert_idx % num_local_experts;

From ea4be1333eb07b217bb4db93ec699c8ec5be7771 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 20:58:48 +0800
Subject: [PATCH 370/393] Revert "temp rm slot_idx logic"

This reverts commit ca4b82325a050d5d8ad0301d4a707e42523ed212.
---
 csrc/kernels/internode_ll_v2.cuh | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 80aa6dc8..fceb3a34 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -194,7 +194,7 @@ __forceinline__ __device__ void dispatch_send(
         // NOTE ldg is for read-only data cache, if token_idx_and_dst_expert_and_dst_slot_idx_flat_list is somehow overlapped in the future we should change it
         const auto token_idx_and_dst_expert_and_slot_idx = __ldg(token_idx_and_dst_expert_and_dst_slot_idx_flat_list + tesfl_idx);
         const auto ptr = (int16_t*) &token_idx_and_dst_expert_and_slot_idx;
-        const int token_idx = ptr[0], dst_expert_idx = ptr[1]; //, slot_idx = ptr[2];
+        const int token_idx = ptr[0], dst_expert_idx = ptr[1], slot_idx = ptr[2];
         // if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_send tesfl_idx=%d token_idx=%d dst_expert_idx=%d slot_idx=%d \n",
         //     rank, sm_id, subroutine_thread_id, tesfl_idx, token_idx, dst_expert_idx, slot_idx); }
         // const auto dst_rank = dst_expert_idx / num_local_experts;
@@ -278,8 +278,8 @@ __forceinline__ __device__ void dispatch_send(
 //         if (dst_expert_idx >= 0) {
 
         // NOTE: let external give this
-        int slot_idx = lane_id == 0 ? atomicAdd(atomic_counter_per_expert + dst_expert_idx, 1) : 0;
-        slot_idx = __shfl_sync(0xffffffff, slot_idx, 0);
+        // int slot_idx = lane_id == 0 ? atomicAdd(atomic_counter_per_expert + dst_expert_idx, 1) : 0;
+        // slot_idx = __shfl_sync(0xffffffff, slot_idx, 0);
 
         const auto dst_rank = dst_expert_idx / num_local_experts;
         const auto dst_expert_local_idx = dst_expert_idx % num_local_experts;

From 5cee33da5ef38cf08dd716825109da974b5bfc64 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 20:59:25 +0800
Subject: [PATCH 371/393] temp enable stuck handler

---
 csrc/kernels/internode_ll_v2.cuh | 20 ++++++++++----------
 1 file changed, 10 insertions(+), 10 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index fceb3a34..fb1ebd86 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -547,13 +547,13 @@ __forceinline__ __device__ void dispatch_recv(
         if (lane_id == 0) {
 //             if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-layout START\n", rank, sm_id, subroutine_thread_id); }
 
-//             auto loop_start_time = clock64();
+            auto loop_start_time = clock64();
             int64_t layout;
             while((layout = ld_volatile_global(layout_range_buffer + local_expert_idx * num_ranks + src_rank)) == 0) {
-//                 if ((clock64() - loop_start_time) >= 20000000000ULL) {
-//                     printf("[R%d,S%d,T%d] ld-layout STUCK\n", rank, sm_id, subroutine_thread_id);
-//                     loop_start_time = clock64(); // reset warning
-//                 }
+                if ((clock64() - loop_start_time) >= 20000000000ULL) {
+                    printf("[R%d,S%d,T%d] ld-layout STUCK\n", rank, sm_id, subroutine_thread_id);
+                    loop_start_time = clock64(); // reset warning
+                }
             }
             layout = -layout - 1;
             unpack2(layout, num_recv_tokens, token_start_offset);
@@ -630,13 +630,13 @@ __forceinline__ __device__ void dispatch_recv(
 //                 if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-token-signal START addr=%p delta_addr=%d token_idx=%d\n",
 //                     rank, sm_id, subroutine_thread_id, src_src_idx, (int)((int64_t)src_src_idx - (int64_t)rdma_recv_x), token_idx); }
 
-//                 auto loop_start_time = clock64();
+                auto loop_start_time = clock64();
                 int recv_src_idx;
                 while ((recv_src_idx = ld_acquire_sys_global(src_src_idx)) == 0) {
-//                     if ((clock64() - loop_start_time) >= 20000000000ULL) {
-//                         printf("[R%d,S%d,T%d] ld-token-signal STUCK\n", rank, sm_id, subroutine_thread_id);
-//                         loop_start_time = clock64(); // reset warning
-//                     }
+                    if ((clock64() - loop_start_time) >= 20000000000ULL) {
+                        printf("[R%d,S%d,T%d] ld-token-signal STUCK\n", rank, sm_id, subroutine_thread_id);
+                        loop_start_time = clock64(); // reset warning
+                    }
                 }
                 recv_src_idx = -recv_src_idx-1;
 

From 5e44fd93459e99a97b605841de0a3c1e62b4ecfd Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 21:02:37 +0800
Subject: [PATCH 372/393] Revert "temp enable stuck handler"

This reverts commit 5cee33da5ef38cf08dd716825109da974b5bfc64.
---
 csrc/kernels/internode_ll_v2.cuh | 20 ++++++++++----------
 1 file changed, 10 insertions(+), 10 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index fb1ebd86..fceb3a34 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -547,13 +547,13 @@ __forceinline__ __device__ void dispatch_recv(
         if (lane_id == 0) {
 //             if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-layout START\n", rank, sm_id, subroutine_thread_id); }
 
-            auto loop_start_time = clock64();
+//             auto loop_start_time = clock64();
             int64_t layout;
             while((layout = ld_volatile_global(layout_range_buffer + local_expert_idx * num_ranks + src_rank)) == 0) {
-                if ((clock64() - loop_start_time) >= 20000000000ULL) {
-                    printf("[R%d,S%d,T%d] ld-layout STUCK\n", rank, sm_id, subroutine_thread_id);
-                    loop_start_time = clock64(); // reset warning
-                }
+//                 if ((clock64() - loop_start_time) >= 20000000000ULL) {
+//                     printf("[R%d,S%d,T%d] ld-layout STUCK\n", rank, sm_id, subroutine_thread_id);
+//                     loop_start_time = clock64(); // reset warning
+//                 }
             }
             layout = -layout - 1;
             unpack2(layout, num_recv_tokens, token_start_offset);
@@ -630,13 +630,13 @@ __forceinline__ __device__ void dispatch_recv(
 //                 if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-token-signal START addr=%p delta_addr=%d token_idx=%d\n",
 //                     rank, sm_id, subroutine_thread_id, src_src_idx, (int)((int64_t)src_src_idx - (int64_t)rdma_recv_x), token_idx); }
 
-                auto loop_start_time = clock64();
+//                 auto loop_start_time = clock64();
                 int recv_src_idx;
                 while ((recv_src_idx = ld_acquire_sys_global(src_src_idx)) == 0) {
-                    if ((clock64() - loop_start_time) >= 20000000000ULL) {
-                        printf("[R%d,S%d,T%d] ld-token-signal STUCK\n", rank, sm_id, subroutine_thread_id);
-                        loop_start_time = clock64(); // reset warning
-                    }
+//                     if ((clock64() - loop_start_time) >= 20000000000ULL) {
+//                         printf("[R%d,S%d,T%d] ld-token-signal STUCK\n", rank, sm_id, subroutine_thread_id);
+//                         loop_start_time = clock64(); // reset warning
+//                     }
                 }
                 recv_src_idx = -recv_src_idx-1;
 

From 8511b3160a125d26c46cf9239eda1a989ce3563e Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 21:27:25 +0800
Subject: [PATCH 373/393] use 2 warp to send 1 token

---
 csrc/kernels/internode_ll_v2.cuh | 19 ++++++++++++++-----
 1 file changed, 14 insertions(+), 5 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index fceb3a34..d916f585 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -173,7 +173,14 @@ __forceinline__ __device__ void dispatch_send(
     //       to allow work be distributed to all SMs when few work
     // TODO is these ordering suboptimal for nvlink write or gmem read?
     // TODO may use multi warp to send one token
-    const int flat_worker_id = warp_id * num_sms + sm_id;
+
+    constexpr int num_warps_per_warp_pair = 2; // can use "warp group", but the name is already used and we want to minimize code change
+    const int warp_pair_id = warp_id / num_warps_per_warp_pair;
+    const int warp_id_inside_pair = warp_id % num_warps_per_warp_pair;
+    const int num_warp_pairs = num_warps / num_warps_per_warp_pair;
+    EP_DEVICE_ASSERT(num_warp_pairs * num_warps_per_warp_pair == num_warps);
+
+    const int flat_worker_id = warp_pair_id * num_sms + sm_id;
     const int flat_worker_num = num_warps * num_sms;
     for (
         // "tesfl" := "token_idx_and_dst_expert_and_dst_slot_idx_flat_list"
@@ -310,9 +317,9 @@ __forceinline__ __device__ void dispatch_send(
         // UNROLLED_WARP_COPY(8, lane_id, Consts::num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
         // UNROLLED_WARP_COPY(8, lane_id, body_num_int4_per_msg, body_dst_int4_ptr, body_src_int4_ptr, ld_nc_global, st_na_global);
 
-        constexpr int num_threads_for_copy = 32;
+        constexpr int num_threads_for_copy = 32 * num_warps_per_warp_pair;
         constexpr int loop_num = ceil_div(body_num_int4_per_msg, num_threads_for_copy);
-        EP_STATIC_ASSERT(loop_num == 8, "unexpected loop_num");
+        EP_STATIC_ASSERT(loop_num == 4, "unexpected loop_num");
         int4 body_buf[loop_num];
         #pragma unroll
         for (int i = 0; i < loop_num; ++i) {
@@ -331,8 +338,10 @@ __forceinline__ __device__ void dispatch_send(
 
         // Send per-token signal
         // NOTE only first 4B of 16B has value, the other 12B is not needed
-        __syncwarp();
-        if (lane_id == 0) {
+        // __syncwarp();
+        // NOTE `barrier` not `bar`, since the latter requires `.aligned` and we have other threads that do NOT satisfy this
+        asm volatile("barrier.sync %0, %1;" :: "r"(warp_pair_id), "r"(num_warps_per_warp_pair * 32));
+        if ((warp_id_inside_pair == 0) and (lane_id == 0)) {
 //             if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] st-token-signal START dst_rank=%d addr=%p delta_addr=%d token_idx=%d\n",
 //                 rank, sm_id, subroutine_thread_id,
 //                 dst_rank, (int*)dst_ptr, (int)((int64_t)dst_ptr - (int64_t)rdma_recv_x), token_idx); }

From 1fca712c64eeb4e9ccc786e190144d1986b28fcc Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 21:40:08 +0800
Subject: [PATCH 374/393] fix warppair bug

---
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index d916f585..6a38d640 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -181,7 +181,7 @@ __forceinline__ __device__ void dispatch_send(
     EP_DEVICE_ASSERT(num_warp_pairs * num_warps_per_warp_pair == num_warps);
 
     const int flat_worker_id = warp_pair_id * num_sms + sm_id;
-    const int flat_worker_num = num_warps * num_sms;
+    const int flat_worker_num = num_warp_pairs * num_sms;
     for (
         // "tesfl" := "token_idx_and_dst_expert_and_dst_slot_idx_flat_list"
         int tesfl_idx = flat_worker_id, debug_iter_idx = 0;

From 3770baa54ebae70c99b20737f9ce9819ad989c6d Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 22:15:17 +0800
Subject: [PATCH 375/393] Revert "fix warppair bug"

This reverts commit 1fca712c64eeb4e9ccc786e190144d1986b28fcc.
---
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 6a38d640..d916f585 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -181,7 +181,7 @@ __forceinline__ __device__ void dispatch_send(
     EP_DEVICE_ASSERT(num_warp_pairs * num_warps_per_warp_pair == num_warps);
 
     const int flat_worker_id = warp_pair_id * num_sms + sm_id;
-    const int flat_worker_num = num_warp_pairs * num_sms;
+    const int flat_worker_num = num_warps * num_sms;
     for (
         // "tesfl" := "token_idx_and_dst_expert_and_dst_slot_idx_flat_list"
         int tesfl_idx = flat_worker_id, debug_iter_idx = 0;

From 3b3a561f606b24a9b1423e0cb226f53edc777202 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 22:15:17 +0800
Subject: [PATCH 376/393] Revert "use 2 warp to send 1 token"

This reverts commit 8511b3160a125d26c46cf9239eda1a989ce3563e.
---
 csrc/kernels/internode_ll_v2.cuh | 19 +++++--------------
 1 file changed, 5 insertions(+), 14 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index d916f585..fceb3a34 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -173,14 +173,7 @@ __forceinline__ __device__ void dispatch_send(
     //       to allow work be distributed to all SMs when few work
     // TODO is these ordering suboptimal for nvlink write or gmem read?
     // TODO may use multi warp to send one token
-
-    constexpr int num_warps_per_warp_pair = 2; // can use "warp group", but the name is already used and we want to minimize code change
-    const int warp_pair_id = warp_id / num_warps_per_warp_pair;
-    const int warp_id_inside_pair = warp_id % num_warps_per_warp_pair;
-    const int num_warp_pairs = num_warps / num_warps_per_warp_pair;
-    EP_DEVICE_ASSERT(num_warp_pairs * num_warps_per_warp_pair == num_warps);
-
-    const int flat_worker_id = warp_pair_id * num_sms + sm_id;
+    const int flat_worker_id = warp_id * num_sms + sm_id;
     const int flat_worker_num = num_warps * num_sms;
     for (
         // "tesfl" := "token_idx_and_dst_expert_and_dst_slot_idx_flat_list"
@@ -317,9 +310,9 @@ __forceinline__ __device__ void dispatch_send(
         // UNROLLED_WARP_COPY(8, lane_id, Consts::num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
         // UNROLLED_WARP_COPY(8, lane_id, body_num_int4_per_msg, body_dst_int4_ptr, body_src_int4_ptr, ld_nc_global, st_na_global);
 
-        constexpr int num_threads_for_copy = 32 * num_warps_per_warp_pair;
+        constexpr int num_threads_for_copy = 32;
         constexpr int loop_num = ceil_div(body_num_int4_per_msg, num_threads_for_copy);
-        EP_STATIC_ASSERT(loop_num == 4, "unexpected loop_num");
+        EP_STATIC_ASSERT(loop_num == 8, "unexpected loop_num");
         int4 body_buf[loop_num];
         #pragma unroll
         for (int i = 0; i < loop_num; ++i) {
@@ -338,10 +331,8 @@ __forceinline__ __device__ void dispatch_send(
 
         // Send per-token signal
         // NOTE only first 4B of 16B has value, the other 12B is not needed
-        // __syncwarp();
-        // NOTE `barrier` not `bar`, since the latter requires `.aligned` and we have other threads that do NOT satisfy this
-        asm volatile("barrier.sync %0, %1;" :: "r"(warp_pair_id), "r"(num_warps_per_warp_pair * 32));
-        if ((warp_id_inside_pair == 0) and (lane_id == 0)) {
+        __syncwarp();
+        if (lane_id == 0) {
 //             if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] st-token-signal START dst_rank=%d addr=%p delta_addr=%d token_idx=%d\n",
 //                 rank, sm_id, subroutine_thread_id,
 //                 dst_rank, (int*)dst_ptr, (int)((int64_t)dst_ptr - (int64_t)rdma_recv_x), token_idx); }

From 061e52b3719dda423baca31f1a4b7c3ee7bc0ea7 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 21:40:08 +0800
Subject: [PATCH 377/393] re-introduce 2warp for 1token

---
 csrc/kernels/internode_ll_v2.cuh | 21 +++++++++++++++------
 1 file changed, 15 insertions(+), 6 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index fceb3a34..6a38d640 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -173,8 +173,15 @@ __forceinline__ __device__ void dispatch_send(
     //       to allow work be distributed to all SMs when few work
     // TODO is these ordering suboptimal for nvlink write or gmem read?
     // TODO may use multi warp to send one token
-    const int flat_worker_id = warp_id * num_sms + sm_id;
-    const int flat_worker_num = num_warps * num_sms;
+
+    constexpr int num_warps_per_warp_pair = 2; // can use "warp group", but the name is already used and we want to minimize code change
+    const int warp_pair_id = warp_id / num_warps_per_warp_pair;
+    const int warp_id_inside_pair = warp_id % num_warps_per_warp_pair;
+    const int num_warp_pairs = num_warps / num_warps_per_warp_pair;
+    EP_DEVICE_ASSERT(num_warp_pairs * num_warps_per_warp_pair == num_warps);
+
+    const int flat_worker_id = warp_pair_id * num_sms + sm_id;
+    const int flat_worker_num = num_warp_pairs * num_sms;
     for (
         // "tesfl" := "token_idx_and_dst_expert_and_dst_slot_idx_flat_list"
         int tesfl_idx = flat_worker_id, debug_iter_idx = 0;
@@ -310,9 +317,9 @@ __forceinline__ __device__ void dispatch_send(
         // UNROLLED_WARP_COPY(8, lane_id, Consts::num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
         // UNROLLED_WARP_COPY(8, lane_id, body_num_int4_per_msg, body_dst_int4_ptr, body_src_int4_ptr, ld_nc_global, st_na_global);
 
-        constexpr int num_threads_for_copy = 32;
+        constexpr int num_threads_for_copy = 32 * num_warps_per_warp_pair;
         constexpr int loop_num = ceil_div(body_num_int4_per_msg, num_threads_for_copy);
-        EP_STATIC_ASSERT(loop_num == 8, "unexpected loop_num");
+        EP_STATIC_ASSERT(loop_num == 4, "unexpected loop_num");
         int4 body_buf[loop_num];
         #pragma unroll
         for (int i = 0; i < loop_num; ++i) {
@@ -331,8 +338,10 @@ __forceinline__ __device__ void dispatch_send(
 
         // Send per-token signal
         // NOTE only first 4B of 16B has value, the other 12B is not needed
-        __syncwarp();
-        if (lane_id == 0) {
+        // __syncwarp();
+        // NOTE `barrier` not `bar`, since the latter requires `.aligned` and we have other threads that do NOT satisfy this
+        asm volatile("barrier.sync %0, %1;" :: "r"(warp_pair_id), "r"(num_warps_per_warp_pair * 32));
+        if ((warp_id_inside_pair == 0) and (lane_id == 0)) {
 //             if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] st-token-signal START dst_rank=%d addr=%p delta_addr=%d token_idx=%d\n",
 //                 rank, sm_id, subroutine_thread_id,
 //                 dst_rank, (int*)dst_ptr, (int)((int64_t)dst_ptr - (int64_t)rdma_recv_x), token_idx); }

From cd98732e0e15e91e2db9f2a2f9c43371c6042254 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 22:44:19 +0800
Subject: [PATCH 378/393] hack: grid sync after each signal

---
 csrc/kernels/internode_ll_v2.cuh | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 6a38d640..7f351509 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -733,6 +733,9 @@ __forceinline__ __device__ void dispatch_recv(
                     atomic_add_release_global(dst_signals + local_expert_idx, 1);
                 }
             }
+
+            // NOTE HACK
+            cg::this_grid().sync();
         }
     }
 

From 07ac7d7527148b159c93cc380b7fbee8aa4771bb Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 22:47:53 +0800
Subject: [PATCH 379/393] Revert "hack: grid sync after each signal"

This reverts commit cd98732e0e15e91e2db9f2a2f9c43371c6042254.
---
 csrc/kernels/internode_ll_v2.cuh | 3 ---
 1 file changed, 3 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 7f351509..6a38d640 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -733,9 +733,6 @@ __forceinline__ __device__ void dispatch_recv(
                     atomic_add_release_global(dst_signals + local_expert_idx, 1);
                 }
             }
-
-            // NOTE HACK
-            cg::this_grid().sync();
         }
     }
 

From 84d9c7af816111c8d3c0c2dbbdbd983b9d19f862 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 30 Aug 2025 22:47:53 +0800
Subject: [PATCH 380/393] Revert "re-introduce 2warp for 1token"

This reverts commit 061e52b3719dda423baca31f1a4b7c3ee7bc0ea7.
---
 csrc/kernels/internode_ll_v2.cuh | 21 ++++++---------------
 1 file changed, 6 insertions(+), 15 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 6a38d640..fceb3a34 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -173,15 +173,8 @@ __forceinline__ __device__ void dispatch_send(
     //       to allow work be distributed to all SMs when few work
     // TODO is these ordering suboptimal for nvlink write or gmem read?
     // TODO may use multi warp to send one token
-
-    constexpr int num_warps_per_warp_pair = 2; // can use "warp group", but the name is already used and we want to minimize code change
-    const int warp_pair_id = warp_id / num_warps_per_warp_pair;
-    const int warp_id_inside_pair = warp_id % num_warps_per_warp_pair;
-    const int num_warp_pairs = num_warps / num_warps_per_warp_pair;
-    EP_DEVICE_ASSERT(num_warp_pairs * num_warps_per_warp_pair == num_warps);
-
-    const int flat_worker_id = warp_pair_id * num_sms + sm_id;
-    const int flat_worker_num = num_warp_pairs * num_sms;
+    const int flat_worker_id = warp_id * num_sms + sm_id;
+    const int flat_worker_num = num_warps * num_sms;
     for (
         // "tesfl" := "token_idx_and_dst_expert_and_dst_slot_idx_flat_list"
         int tesfl_idx = flat_worker_id, debug_iter_idx = 0;
@@ -317,9 +310,9 @@ __forceinline__ __device__ void dispatch_send(
         // UNROLLED_WARP_COPY(8, lane_id, Consts::num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
         // UNROLLED_WARP_COPY(8, lane_id, body_num_int4_per_msg, body_dst_int4_ptr, body_src_int4_ptr, ld_nc_global, st_na_global);
 
-        constexpr int num_threads_for_copy = 32 * num_warps_per_warp_pair;
+        constexpr int num_threads_for_copy = 32;
         constexpr int loop_num = ceil_div(body_num_int4_per_msg, num_threads_for_copy);
-        EP_STATIC_ASSERT(loop_num == 4, "unexpected loop_num");
+        EP_STATIC_ASSERT(loop_num == 8, "unexpected loop_num");
         int4 body_buf[loop_num];
         #pragma unroll
         for (int i = 0; i < loop_num; ++i) {
@@ -338,10 +331,8 @@ __forceinline__ __device__ void dispatch_send(
 
         // Send per-token signal
         // NOTE only first 4B of 16B has value, the other 12B is not needed
-        // __syncwarp();
-        // NOTE `barrier` not `bar`, since the latter requires `.aligned` and we have other threads that do NOT satisfy this
-        asm volatile("barrier.sync %0, %1;" :: "r"(warp_pair_id), "r"(num_warps_per_warp_pair * 32));
-        if ((warp_id_inside_pair == 0) and (lane_id == 0)) {
+        __syncwarp();
+        if (lane_id == 0) {
 //             if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] st-token-signal START dst_rank=%d addr=%p delta_addr=%d token_idx=%d\n",
 //                 rank, sm_id, subroutine_thread_id,
 //                 dst_rank, (int*)dst_ptr, (int)((int64_t)dst_ptr - (int64_t)rdma_recv_x), token_idx); }

From e787723f351ec19c936eb3d9f8b2e0827d4c5941 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sun, 31 Aug 2025 07:51:42 +0800
Subject: [PATCH 381/393] re-introduce debug_tensor

---
 csrc/kernels/internode_ll_v2.cuh | 112 +++++++++++++++++++------------
 1 file changed, 68 insertions(+), 44 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index fceb3a34..6b4d0d27 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -12,6 +12,9 @@ namespace internode_ll {
 
 constexpr int kNumMaxWarpGroups = 32;
 
+#define ENABLE_DEBUG_TIMING_TENSOR
+
+#ifdef ENABLE_DEBUG_TIMING_TENSOR
 constexpr int DT_MAX_NUM_EVENT_GROUPS = 10;
 constexpr int DT_MAX_NUM_EVENTS_PER_GROUP = 100;
 constexpr int DT_MAX_NUM_MODES = 2;
@@ -40,6 +43,7 @@ __forceinline__ __device__ void write_debug_time(
         debug_tensor[idx] = t_delta;
     }
 }
+#endif
 
 template <bool kUseFP8, bool kUseUE8M0, bool kUseNVFP4, int kHidden>
 __forceinline__ __device__ void dispatch_send(
@@ -65,10 +69,10 @@ __forceinline__ __device__ void dispatch_send(
     bool round_scale, int phases,
     uint32_t* dst_signals,
     uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_and_dst_slot_idx_flat_list,
-    int64_t* layout_range_buffer, int* negotiate_offset_of_expert_buffer, int* remote_start_offset_buffer
-//     int* debug_tensor
+    int64_t* layout_range_buffer, int* negotiate_offset_of_expert_buffer, int* remote_start_offset_buffer,
+    int* debug_tensor
 ) {
-//     uint32_t t_start = clock();
+    uint32_t t_start = clock();
 
     using Consts = DispatchConstsTemplate<kUseFP8, kUseNVFP4, kHidden>;
     EP_DEVICE_ASSERT(Consts::num_bytes_per_msg % sizeof(int4) == 0);
@@ -182,13 +186,15 @@ __forceinline__ __device__ void dispatch_send(
         tesfl_idx += flat_worker_num, debug_iter_idx += 1
     ) {
 //         if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_send tesfl_idx=%d START \n", rank, sm_id, subroutine_thread_id, tesfl_idx); }
-//         write_debug_time(
-//             debug_tensor, t_start,
-//             /* event_group_id */ 0,
-//             /* event_id */ debug_iter_idx,
-//             /* mode_id */ 0,
-//             sm_id, warp_id
-//         );
+#ifdef ENABLE_DEBUG_TIMING_TENSOR
+        write_debug_time(
+            debug_tensor, t_start,
+            /* event_group_id */ 0,
+            /* event_id */ debug_iter_idx,
+            /* mode_id */ 0,
+            sm_id, warp_id
+        );
+#endif
 
         // TODO do prefetching if needed
         // NOTE ldg is for read-only data cache, if token_idx_and_dst_expert_and_dst_slot_idx_flat_list is somehow overlapped in the future we should change it
@@ -341,6 +347,16 @@ __forceinline__ __device__ void dispatch_send(
         }
 //             }
 
+#ifdef ENABLE_DEBUG_TIMING_TENSOR
+        write_debug_time(
+            debug_tensor, t_start,
+            /* event_group_id */ 1,
+            /* event_id */ debug_iter_idx,
+            /* mode_id */ 0,
+            sm_id, warp_id
+        );
+#endif
+
         // not needed in per-token signal approach
 //             // Increase counter after finishing
 //             __syncwarp();
@@ -466,10 +482,10 @@ __forceinline__ __device__ void dispatch_recv(
     bool round_scale, int phases,
     uint32_t* dst_signals,
     uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_and_dst_slot_idx_flat_list,
-    int64_t* layout_range_buffer, int* negotiate_offset_of_expert_buffer, int* remote_start_offset_buffer
-//     int* debug_tensor
+    int64_t* layout_range_buffer, int* negotiate_offset_of_expert_buffer, int* remote_start_offset_buffer,
+    int* debug_tensor
 ) {
-//     uint32_t t_start = clock();
+    uint32_t t_start = clock();
 
     using Consts = DispatchConstsTemplate<kUseFP8, kUseNVFP4, kHidden>;
 
@@ -511,7 +527,9 @@ __forceinline__ __device__ void dispatch_recv(
     const int cooperate_idx = flatten_id / num_ranks;
     const int src_rank = flatten_id % num_ranks;
 
-//     int debug_ld_token_signal_event_id = 0;
+#ifdef ENABLE_DEBUG_TIMING_TENSOR
+    int debug_ld_token_signal_event_id = 0;
+#endif
 
     // Receiving and packing
     // NOTE if -> for
@@ -519,13 +537,15 @@ __forceinline__ __device__ void dispatch_recv(
     EP_DEVICE_ASSERT(num_warp_groups == 1); // not consider multi warp_group case below
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
 //         if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv local_expert_idx=%d START \n", rank, sm_id, subroutine_thread_id, local_expert_idx); }
-//         write_debug_time(
-//             debug_tensor, t_start,
-//             /* event_group_id */ 0,
-//             /* event_id */ local_expert_idx,
-//             /* mode_id */ 1,
-//             sm_id, warp_id
-//         );
+#ifdef ENABLE_DEBUG_TIMING_TENSOR
+        write_debug_time(
+            debug_tensor, t_start,
+            /* event_group_id */ 0,
+            /* event_id */ local_expert_idx,
+            /* mode_id */ 1,
+            sm_id, warp_id
+        );
+#endif
 
         // NOTE modified
         // const auto src_rank = responsible_expert_idx / num_local_experts;
@@ -558,13 +578,15 @@ __forceinline__ __device__ void dispatch_recv(
             layout = -layout - 1;
             unpack2(layout, num_recv_tokens, token_start_offset);
 
-//             write_debug_time(
-//                 debug_tensor, t_start,
-//                 /* event_group_id */ 1,
-//                 /* event_id */ local_expert_idx,
-//                 /* mode_id */ 1,
-//                 sm_id, warp_id
-//             );
+#ifdef ENABLE_DEBUG_TIMING_TENSOR
+            write_debug_time(
+                debug_tensor, t_start,
+                /* event_group_id */ 1,
+                /* event_id */ local_expert_idx,
+                /* mode_id */ 1,
+                sm_id, warp_id
+            );
+#endif
 
             if (cooperate_idx == 0) {
                 // TODO may not need to do this extra copy - directly use the `layout_range_buffer`
@@ -640,14 +662,16 @@ __forceinline__ __device__ void dispatch_recv(
                 }
                 recv_src_idx = -recv_src_idx-1;
 
-//                 write_debug_time(
-//                     debug_tensor, t_start,
-//                     /* event_group_id */ 2,
-//                     /* event_id */ debug_ld_token_signal_event_id,
-//                     /* mode_id */ 1,
-//                     sm_id, warp_id
-//                 );
-//                 debug_ld_token_signal_event_id++;
+#ifdef ENABLE_DEBUG_TIMING_TENSOR
+                write_debug_time(
+                    debug_tensor, t_start,
+                    /* event_group_id */ 2,
+                    /* event_id */ debug_ld_token_signal_event_id,
+                    /* mode_id */ 1,
+                    sm_id, warp_id
+                );
+                debug_ld_token_signal_event_id++;
+#endif
 
 //                 if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-token-signal END recv_src_idx=%d\n", rank, sm_id, subroutine_thread_id, recv_src_idx); }
 
@@ -755,8 +779,8 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
          bool round_scale, int phases,
          uint32_t* dst_signals,
          uint32_t* count_per_expert, int64_t* token_idx_and_dst_expert_and_dst_slot_idx_flat_list,
-         int* remote_start_offset_buffer
-//          int* debug_tensor
+         int* remote_start_offset_buffer,
+         int* debug_tensor
          ) {
     const auto sm_id = static_cast<int>(blockIdx.x);
     const auto num_send_threads = num_send_warp_groups * num_send_warps_per_group * 32;
@@ -799,8 +823,8 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
                 round_scale, phases,
                 dst_signals,
                 count_per_expert, token_idx_and_dst_expert_and_dst_slot_idx_flat_list,
-                layout_range_buffer, negotiate_offset_of_expert_buffer, remote_start_offset_buffer
-//                 debug_tensor
+                layout_range_buffer, negotiate_offset_of_expert_buffer, remote_start_offset_buffer,
+                debug_tensor
             );
         }
     } else {
@@ -825,8 +849,8 @@ dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
                 round_scale, phases,
                 dst_signals,
                 count_per_expert, token_idx_and_dst_expert_and_dst_slot_idx_flat_list,
-                layout_range_buffer, negotiate_offset_of_expert_buffer, remote_start_offset_buffer
-//                 debug_tensor
+                layout_range_buffer, negotiate_offset_of_expert_buffer, remote_start_offset_buffer,
+                debug_tensor
             );
         }
     }
@@ -937,8 +961,8 @@ LAUNCH_KERNEL(&cfg, dispatch_func, \
               num_send_warp_groups, num_recv_warp_groups, num_send_warps_per_group, num_recv_warps_per_group, \
               round_scale, phases, \
               dst_signals, \
-              count_per_expert, token_idx_and_dst_expert_and_dst_slot_idx_flat_list, remote_start_offset_buffer \
-              /* debug_tensor */); } break
+              count_per_expert, token_idx_and_dst_expert_and_dst_slot_idx_flat_list, remote_start_offset_buffer, \
+              debug_tensor); } break
 
     SETUP_LAUNCH_CONFIG(num_sms, num_warps * 32, stream);
     SWITCH_HIDDEN(DISPATCH_LAUNCH_CASE);

From 8c209be4c1ac69d9a5fa050286f9da9f691778f6 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sun, 31 Aug 2025 09:38:08 +0800
Subject: [PATCH 382/393] disable debug

---
 csrc/kernels/internode_ll_v2.cuh | 16 ++++++++--------
 1 file changed, 8 insertions(+), 8 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 6b4d0d27..84df64de 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -12,9 +12,9 @@ namespace internode_ll {
 
 constexpr int kNumMaxWarpGroups = 32;
 
-#define ENABLE_DEBUG_TIMING_TENSOR
+#define ENABLE_DEBUG_TIMING_TENSOR 0
 
-#ifdef ENABLE_DEBUG_TIMING_TENSOR
+#if ENABLE_DEBUG_TIMING_TENSOR
 constexpr int DT_MAX_NUM_EVENT_GROUPS = 10;
 constexpr int DT_MAX_NUM_EVENTS_PER_GROUP = 100;
 constexpr int DT_MAX_NUM_MODES = 2;
@@ -186,7 +186,7 @@ __forceinline__ __device__ void dispatch_send(
         tesfl_idx += flat_worker_num, debug_iter_idx += 1
     ) {
 //         if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_send tesfl_idx=%d START \n", rank, sm_id, subroutine_thread_id, tesfl_idx); }
-#ifdef ENABLE_DEBUG_TIMING_TENSOR
+#if ENABLE_DEBUG_TIMING_TENSOR
         write_debug_time(
             debug_tensor, t_start,
             /* event_group_id */ 0,
@@ -347,7 +347,7 @@ __forceinline__ __device__ void dispatch_send(
         }
 //             }
 
-#ifdef ENABLE_DEBUG_TIMING_TENSOR
+#if ENABLE_DEBUG_TIMING_TENSOR
         write_debug_time(
             debug_tensor, t_start,
             /* event_group_id */ 1,
@@ -527,7 +527,7 @@ __forceinline__ __device__ void dispatch_recv(
     const int cooperate_idx = flatten_id / num_ranks;
     const int src_rank = flatten_id % num_ranks;
 
-#ifdef ENABLE_DEBUG_TIMING_TENSOR
+#if ENABLE_DEBUG_TIMING_TENSOR
     int debug_ld_token_signal_event_id = 0;
 #endif
 
@@ -537,7 +537,7 @@ __forceinline__ __device__ void dispatch_recv(
     EP_DEVICE_ASSERT(num_warp_groups == 1); // not consider multi warp_group case below
     for (int local_expert_idx = 0; local_expert_idx < num_local_experts; ++local_expert_idx) {
 //         if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] dispatch_recv local_expert_idx=%d START \n", rank, sm_id, subroutine_thread_id, local_expert_idx); }
-#ifdef ENABLE_DEBUG_TIMING_TENSOR
+#if ENABLE_DEBUG_TIMING_TENSOR
         write_debug_time(
             debug_tensor, t_start,
             /* event_group_id */ 0,
@@ -578,7 +578,7 @@ __forceinline__ __device__ void dispatch_recv(
             layout = -layout - 1;
             unpack2(layout, num_recv_tokens, token_start_offset);
 
-#ifdef ENABLE_DEBUG_TIMING_TENSOR
+#if ENABLE_DEBUG_TIMING_TENSOR
             write_debug_time(
                 debug_tensor, t_start,
                 /* event_group_id */ 1,
@@ -662,7 +662,7 @@ __forceinline__ __device__ void dispatch_recv(
                 }
                 recv_src_idx = -recv_src_idx-1;
 
-#ifdef ENABLE_DEBUG_TIMING_TENSOR
+#if ENABLE_DEBUG_TIMING_TENSOR
                 write_debug_time(
                     debug_tensor, t_start,
                     /* event_group_id */ 2,

From 5cb62f0a48788357cfebcc6c51120bcb7d2a6be2 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sun, 31 Aug 2025 09:38:39 +0800
Subject: [PATCH 383/393] hack: rm scale copying

---
 csrc/kernels/internode_ll_v2.cuh | 52 ++++++++++++++++----------------
 1 file changed, 26 insertions(+), 26 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 84df64de..156d32ef 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -714,32 +714,32 @@ __forceinline__ __device__ void dispatch_recv(
 //                     recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
 //                 }
             } else if constexpr (kUseNVFP4) {
-                // The physical layout is (l, rm, rk, 32, 4, 4).
-                const auto src_scales = reinterpret_cast<uint8_t*>(reinterpret_cast<uint8_t*>(src_data) + Consts::hidden_bytes);
-                const auto num_elems_per_pack = static_cast<int>(sizeof(packed_t) / sizeof(scale_t));
-                // const auto token_idx = recv_token_begin_idx + i; // NOTE changed
-                const auto token_stride = Consts::num_scales * sizeof(scale_t);
-                const auto pack_stride = num_elems_per_pack;
-                const auto rm = token_idx / 128;
-                const auto rm_res = token_idx % 128;
-
-                // TODO use int4 read
-                constexpr int loop_num = ceil_div(Consts::num_scales, 32);
-                EP_STATIC_ASSERT(loop_num == 14, "unexpected loop_num");
-                EP_STATIC_ASSERT(loop_num * 32 == Consts::num_scales, "expect even division");
-                uint8_t buf[loop_num];
-                #pragma unroll
-                for (int loop_idx = 0; loop_idx < loop_num; ++loop_idx) {
-                    const int j = lane_id + loop_idx * 32;
-                    buf[loop_idx] = ld_nc_global(src_scales + j);
-                }
-                #pragma unroll
-                for (int loop_idx = 0; loop_idx < loop_num; ++loop_idx) {
-                    const int j = lane_id + loop_idx * 32;
-                    const auto pack_idx = j / num_elems_per_pack;
-                    const auto elem_idx = j % num_elems_per_pack;
-                    recv_x_scales[rm * token_stride * 128 + pack_idx * pack_stride * 128 + rm_res * pack_stride + elem_idx] = buf[loop_idx];
-                }
+//                 // The physical layout is (l, rm, rk, 32, 4, 4).
+//                 const auto src_scales = reinterpret_cast<uint8_t*>(reinterpret_cast<uint8_t*>(src_data) + Consts::hidden_bytes);
+//                 const auto num_elems_per_pack = static_cast<int>(sizeof(packed_t) / sizeof(scale_t));
+//                 // const auto token_idx = recv_token_begin_idx + i; // NOTE changed
+//                 const auto token_stride = Consts::num_scales * sizeof(scale_t);
+//                 const auto pack_stride = num_elems_per_pack;
+//                 const auto rm = token_idx / 128;
+//                 const auto rm_res = token_idx % 128;
+//
+//                 // TODO use int4 read
+//                 constexpr int loop_num = ceil_div(Consts::num_scales, 32);
+//                 EP_STATIC_ASSERT(loop_num == 14, "unexpected loop_num");
+//                 EP_STATIC_ASSERT(loop_num * 32 == Consts::num_scales, "expect even division");
+//                 uint8_t buf[loop_num];
+//                 #pragma unroll
+//                 for (int loop_idx = 0; loop_idx < loop_num; ++loop_idx) {
+//                     const int j = lane_id + loop_idx * 32;
+//                     buf[loop_idx] = ld_nc_global(src_scales + j);
+//                 }
+//                 #pragma unroll
+//                 for (int loop_idx = 0; loop_idx < loop_num; ++loop_idx) {
+//                     const int j = lane_id + loop_idx * 32;
+//                     const auto pack_idx = j / num_elems_per_pack;
+//                     const auto elem_idx = j % num_elems_per_pack;
+//                     recv_x_scales[rm * token_stride * 128 + pack_idx * pack_stride * 128 + rm_res * pack_stride + elem_idx] = buf[loop_idx];
+//                 }
             }
 
             if (dst_signals != nullptr) {

From 25804f07e2877d343b3dc59970fc21282fa93aa0 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sun, 31 Aug 2025 09:45:57 +0800
Subject: [PATCH 384/393] Revert "hack: rm scale copying"

This reverts commit 5cb62f0a48788357cfebcc6c51120bcb7d2a6be2.
---
 csrc/kernels/internode_ll_v2.cuh | 52 ++++++++++++++++----------------
 1 file changed, 26 insertions(+), 26 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 156d32ef..84df64de 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -714,32 +714,32 @@ __forceinline__ __device__ void dispatch_recv(
 //                     recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
 //                 }
             } else if constexpr (kUseNVFP4) {
-//                 // The physical layout is (l, rm, rk, 32, 4, 4).
-//                 const auto src_scales = reinterpret_cast<uint8_t*>(reinterpret_cast<uint8_t*>(src_data) + Consts::hidden_bytes);
-//                 const auto num_elems_per_pack = static_cast<int>(sizeof(packed_t) / sizeof(scale_t));
-//                 // const auto token_idx = recv_token_begin_idx + i; // NOTE changed
-//                 const auto token_stride = Consts::num_scales * sizeof(scale_t);
-//                 const auto pack_stride = num_elems_per_pack;
-//                 const auto rm = token_idx / 128;
-//                 const auto rm_res = token_idx % 128;
-//
-//                 // TODO use int4 read
-//                 constexpr int loop_num = ceil_div(Consts::num_scales, 32);
-//                 EP_STATIC_ASSERT(loop_num == 14, "unexpected loop_num");
-//                 EP_STATIC_ASSERT(loop_num * 32 == Consts::num_scales, "expect even division");
-//                 uint8_t buf[loop_num];
-//                 #pragma unroll
-//                 for (int loop_idx = 0; loop_idx < loop_num; ++loop_idx) {
-//                     const int j = lane_id + loop_idx * 32;
-//                     buf[loop_idx] = ld_nc_global(src_scales + j);
-//                 }
-//                 #pragma unroll
-//                 for (int loop_idx = 0; loop_idx < loop_num; ++loop_idx) {
-//                     const int j = lane_id + loop_idx * 32;
-//                     const auto pack_idx = j / num_elems_per_pack;
-//                     const auto elem_idx = j % num_elems_per_pack;
-//                     recv_x_scales[rm * token_stride * 128 + pack_idx * pack_stride * 128 + rm_res * pack_stride + elem_idx] = buf[loop_idx];
-//                 }
+                // The physical layout is (l, rm, rk, 32, 4, 4).
+                const auto src_scales = reinterpret_cast<uint8_t*>(reinterpret_cast<uint8_t*>(src_data) + Consts::hidden_bytes);
+                const auto num_elems_per_pack = static_cast<int>(sizeof(packed_t) / sizeof(scale_t));
+                // const auto token_idx = recv_token_begin_idx + i; // NOTE changed
+                const auto token_stride = Consts::num_scales * sizeof(scale_t);
+                const auto pack_stride = num_elems_per_pack;
+                const auto rm = token_idx / 128;
+                const auto rm_res = token_idx % 128;
+
+                // TODO use int4 read
+                constexpr int loop_num = ceil_div(Consts::num_scales, 32);
+                EP_STATIC_ASSERT(loop_num == 14, "unexpected loop_num");
+                EP_STATIC_ASSERT(loop_num * 32 == Consts::num_scales, "expect even division");
+                uint8_t buf[loop_num];
+                #pragma unroll
+                for (int loop_idx = 0; loop_idx < loop_num; ++loop_idx) {
+                    const int j = lane_id + loop_idx * 32;
+                    buf[loop_idx] = ld_nc_global(src_scales + j);
+                }
+                #pragma unroll
+                for (int loop_idx = 0; loop_idx < loop_num; ++loop_idx) {
+                    const int j = lane_id + loop_idx * 32;
+                    const auto pack_idx = j / num_elems_per_pack;
+                    const auto elem_idx = j % num_elems_per_pack;
+                    recv_x_scales[rm * token_stride * 128 + pack_idx * pack_stride * 128 + rm_res * pack_stride + elem_idx] = buf[loop_idx];
+                }
             }
 
             if (dst_signals != nullptr) {

From ad90fe870f78997bbdf7568059dbe4a208f65b82 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sun, 31 Aug 2025 09:48:58 +0800
Subject: [PATCH 385/393] change ld_token_signal debug tensor

---
 csrc/kernels/internode_ll_v2.cuh | 13 ++++---------
 1 file changed, 4 insertions(+), 9 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 84df64de..2ae8471b 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -12,7 +12,7 @@ namespace internode_ll {
 
 constexpr int kNumMaxWarpGroups = 32;
 
-#define ENABLE_DEBUG_TIMING_TENSOR 0
+#define ENABLE_DEBUG_TIMING_TENSOR 1
 
 #if ENABLE_DEBUG_TIMING_TENSOR
 constexpr int DT_MAX_NUM_EVENT_GROUPS = 10;
@@ -527,10 +527,6 @@ __forceinline__ __device__ void dispatch_recv(
     const int cooperate_idx = flatten_id / num_ranks;
     const int src_rank = flatten_id % num_ranks;
 
-#if ENABLE_DEBUG_TIMING_TENSOR
-    int debug_ld_token_signal_event_id = 0;
-#endif
-
     // Receiving and packing
     // NOTE if -> for
     // if (responsible_expert_idx < num_experts) {
@@ -636,9 +632,9 @@ __forceinline__ __device__ void dispatch_recv(
         // Copy tokens
         // for (int i = sub_warp_id; i < num_recv_tokens; i += num_warps_per_group) {
         for (
-            int i_raw = cooperate_idx;
+            int i_raw = cooperate_idx, debug_inner_idx = 0;
             i_raw < num_recv_tokens;
-            i_raw += num_cooperate_parts
+            i_raw += num_cooperate_parts, debug_inner_idx++
         ) {
             const int token_idx = i_raw + token_start_offset;
 
@@ -666,11 +662,10 @@ __forceinline__ __device__ void dispatch_recv(
                 write_debug_time(
                     debug_tensor, t_start,
                     /* event_group_id */ 2,
-                    /* event_id */ debug_ld_token_signal_event_id,
+                    /* event_id */ local_expert_idx * 10 + debug_inner_idx,
                     /* mode_id */ 1,
                     sm_id, warp_id
                 );
-                debug_ld_token_signal_event_id++;
 #endif
 
 //                 if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] ld-token-signal END recv_src_idx=%d\n", rank, sm_id, subroutine_thread_id, recv_src_idx); }

From c45fbf159769bcdc2d3ab445cae8222fd7ed7c9a Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sun, 31 Aug 2025 12:48:30 +0800
Subject: [PATCH 386/393] add send::after_get_remote_start_offset

---
 csrc/kernels/internode_ll_v2.cuh | 12 +++++++++++-
 1 file changed, 11 insertions(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 2ae8471b..3a787f8d 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -211,6 +211,16 @@ __forceinline__ __device__ void dispatch_send(
         while ((remote_start_offset = ld_volatile_global(remote_start_offset_buffer + dst_expert_idx)) == 0);
         remote_start_offset = -remote_start_offset - 1;
 
+#if ENABLE_DEBUG_TIMING_TENSOR
+        write_debug_time(
+            debug_tensor, t_start,
+            /* event_group_id */ 1,
+            /* event_id */ debug_iter_idx,
+            /* mode_id */ 0,
+            sm_id, warp_id
+        );
+#endif
+
         // NOTE changed, see "before-after" above
         // for (int token_idx = sm_id; token_idx < num_tokens; token_idx += num_sms) {
 
@@ -350,7 +360,7 @@ __forceinline__ __device__ void dispatch_send(
 #if ENABLE_DEBUG_TIMING_TENSOR
         write_debug_time(
             debug_tensor, t_start,
-            /* event_group_id */ 1,
+            /* event_group_id */ 2,
             /* event_id */ debug_iter_idx,
             /* mode_id */ 0,
             sm_id, warp_id

From 3498db0d4872c1a3f399657eac485cbd83aa6551 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sun, 31 Aug 2025 14:07:11 +0800
Subject: [PATCH 387/393] re-introduce 2warp for 1token again

---
 csrc/kernels/internode_ll_v2.cuh | 22 ++++++++++++++++------
 1 file changed, 16 insertions(+), 6 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 3a787f8d..5d140480 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -177,8 +177,16 @@ __forceinline__ __device__ void dispatch_send(
     //       to allow work be distributed to all SMs when few work
     // TODO is these ordering suboptimal for nvlink write or gmem read?
     // TODO may use multi warp to send one token
-    const int flat_worker_id = warp_id * num_sms + sm_id;
-    const int flat_worker_num = num_warps * num_sms;
+
+    // can use "warp group", but the name is already used and we want to minimize code change
+    constexpr int num_warps_per_warp_pair = 2;
+    const int warp_pair_id = warp_id / num_warps_per_warp_pair;
+    const int warp_id_inside_pair = warp_id % num_warps_per_warp_pair;
+    const int num_warp_pairs = num_warps / num_warps_per_warp_pair;
+    EP_DEVICE_ASSERT(num_warp_pairs * num_warps_per_warp_pair == num_warps);
+
+    const int flat_worker_id = warp_pair_id * num_sms + sm_id;
+    const int flat_worker_num = num_warp_pairs * num_sms;
     for (
         // "tesfl" := "token_idx_and_dst_expert_and_dst_slot_idx_flat_list"
         int tesfl_idx = flat_worker_id, debug_iter_idx = 0;
@@ -326,9 +334,9 @@ __forceinline__ __device__ void dispatch_send(
         // UNROLLED_WARP_COPY(8, lane_id, Consts::num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
         // UNROLLED_WARP_COPY(8, lane_id, body_num_int4_per_msg, body_dst_int4_ptr, body_src_int4_ptr, ld_nc_global, st_na_global);
 
-        constexpr int num_threads_for_copy = 32;
+        constexpr int num_threads_for_copy = 32 * num_warps_per_warp_pair;
         constexpr int loop_num = ceil_div(body_num_int4_per_msg, num_threads_for_copy);
-        EP_STATIC_ASSERT(loop_num == 8, "unexpected loop_num");
+        EP_STATIC_ASSERT(loop_num == 4, "unexpected loop_num");
         int4 body_buf[loop_num];
         #pragma unroll
         for (int i = 0; i < loop_num; ++i) {
@@ -347,8 +355,10 @@ __forceinline__ __device__ void dispatch_send(
 
         // Send per-token signal
         // NOTE only first 4B of 16B has value, the other 12B is not needed
-        __syncwarp();
-        if (lane_id == 0) {
+        // __syncwarp();
+        // NOTE `barrier` not `bar`, since the latter requires `.aligned` and we have other threads that do NOT satisfy this
+        asm volatile("barrier.sync %0, %1;" :: "r"(warp_pair_id), "r"(num_warps_per_warp_pair * 32));
+        if ((warp_id_inside_pair == 0) and (lane_id == 0)) {
 //             if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] st-token-signal START dst_rank=%d addr=%p delta_addr=%d token_idx=%d\n",
 //                 rank, sm_id, subroutine_thread_id,
 //                 dst_rank, (int*)dst_ptr, (int)((int64_t)dst_ptr - (int64_t)rdma_recv_x), token_idx); }

From c1170992eb4c676214571e3f964abc072f88d671 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sun, 31 Aug 2025 15:00:09 +0800
Subject: [PATCH 388/393] more

---
 csrc/kernels/utils.cuh | 1 +
 1 file changed, 1 insertion(+)

diff --git a/csrc/kernels/utils.cuh b/csrc/kernels/utils.cuh
index 5e360e2f..a10c735a 100644
--- a/csrc/kernels/utils.cuh
+++ b/csrc/kernels/utils.cuh
@@ -625,6 +625,7 @@ __forceinline__ __device__ T warp_reduce_or(T value) {
     return warp_reduce<kNumLanesPerGroup, kIntergroupReduce, T>(value, ReduceOr<T>{});
 }
 
+// TODO wait once per thraed block, not per thread
 // TODO correct?
 __device__ __forceinline__ void wait_signal(uint32_t* addr, uint32_t expect_value) {
   while (true) {

From 3f3405306962fc3066d6105016421adf2af0ee29 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sun, 31 Aug 2025 15:28:46 +0800
Subject: [PATCH 389/393] Revert "re-introduce 2warp for 1token again"

This reverts commit 3498db0d4872c1a3f399657eac485cbd83aa6551.
---
 csrc/kernels/internode_ll_v2.cuh | 22 ++++++----------------
 1 file changed, 6 insertions(+), 16 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 5d140480..3a787f8d 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -177,16 +177,8 @@ __forceinline__ __device__ void dispatch_send(
     //       to allow work be distributed to all SMs when few work
     // TODO is these ordering suboptimal for nvlink write or gmem read?
     // TODO may use multi warp to send one token
-
-    // can use "warp group", but the name is already used and we want to minimize code change
-    constexpr int num_warps_per_warp_pair = 2;
-    const int warp_pair_id = warp_id / num_warps_per_warp_pair;
-    const int warp_id_inside_pair = warp_id % num_warps_per_warp_pair;
-    const int num_warp_pairs = num_warps / num_warps_per_warp_pair;
-    EP_DEVICE_ASSERT(num_warp_pairs * num_warps_per_warp_pair == num_warps);
-
-    const int flat_worker_id = warp_pair_id * num_sms + sm_id;
-    const int flat_worker_num = num_warp_pairs * num_sms;
+    const int flat_worker_id = warp_id * num_sms + sm_id;
+    const int flat_worker_num = num_warps * num_sms;
     for (
         // "tesfl" := "token_idx_and_dst_expert_and_dst_slot_idx_flat_list"
         int tesfl_idx = flat_worker_id, debug_iter_idx = 0;
@@ -334,9 +326,9 @@ __forceinline__ __device__ void dispatch_send(
         // UNROLLED_WARP_COPY(8, lane_id, Consts::num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
         // UNROLLED_WARP_COPY(8, lane_id, body_num_int4_per_msg, body_dst_int4_ptr, body_src_int4_ptr, ld_nc_global, st_na_global);
 
-        constexpr int num_threads_for_copy = 32 * num_warps_per_warp_pair;
+        constexpr int num_threads_for_copy = 32;
         constexpr int loop_num = ceil_div(body_num_int4_per_msg, num_threads_for_copy);
-        EP_STATIC_ASSERT(loop_num == 4, "unexpected loop_num");
+        EP_STATIC_ASSERT(loop_num == 8, "unexpected loop_num");
         int4 body_buf[loop_num];
         #pragma unroll
         for (int i = 0; i < loop_num; ++i) {
@@ -355,10 +347,8 @@ __forceinline__ __device__ void dispatch_send(
 
         // Send per-token signal
         // NOTE only first 4B of 16B has value, the other 12B is not needed
-        // __syncwarp();
-        // NOTE `barrier` not `bar`, since the latter requires `.aligned` and we have other threads that do NOT satisfy this
-        asm volatile("barrier.sync %0, %1;" :: "r"(warp_pair_id), "r"(num_warps_per_warp_pair * 32));
-        if ((warp_id_inside_pair == 0) and (lane_id == 0)) {
+        __syncwarp();
+        if (lane_id == 0) {
 //             if (subroutine_thread_id % 32 == 0) { printf("[R%d,S%d,T%d] st-token-signal START dst_rank=%d addr=%p delta_addr=%d token_idx=%d\n",
 //                 rank, sm_id, subroutine_thread_id,
 //                 dst_rank, (int*)dst_ptr, (int)((int64_t)dst_ptr - (int64_t)rdma_recv_x), token_idx); }

From 44899aa58f75ad3eea6bf606dd49192ccf78a434 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sun, 31 Aug 2025 15:34:27 +0800
Subject: [PATCH 390/393] disable debug tensor

---
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 3a787f8d..9c3d85c9 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -12,7 +12,7 @@ namespace internode_ll {
 
 constexpr int kNumMaxWarpGroups = 32;
 
-#define ENABLE_DEBUG_TIMING_TENSOR 1
+#define ENABLE_DEBUG_TIMING_TENSOR 0
 
 #if ENABLE_DEBUG_TIMING_TENSOR
 constexpr int DT_MAX_NUM_EVENT_GROUPS = 10;

From 7dedcc87d5765513cd967f4890dbeaa4d6292f1b Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sun, 31 Aug 2025 17:01:56 +0800
Subject: [PATCH 391/393] enable debug_tensor

---
 csrc/kernels/internode_ll_v2.cuh | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index 9c3d85c9..f4b59941 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -12,7 +12,8 @@ namespace internode_ll {
 
 constexpr int kNumMaxWarpGroups = 32;
 
-#define ENABLE_DEBUG_TIMING_TENSOR 0
+// to enable it, change: internode_ll_v2::define & test.py::flag
+#define ENABLE_DEBUG_TIMING_TENSOR 1
 
 #if ENABLE_DEBUG_TIMING_TENSOR
 constexpr int DT_MAX_NUM_EVENT_GROUPS = 10;

From c648269ae32549b7d7798a56a25a99bec9690551 Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sat, 6 Sep 2025 21:44:43 +0800
Subject: [PATCH 392/393] Revert "enable debug_tensor"

This reverts commit 7dedcc87d5765513cd967f4890dbeaa4d6292f1b.
---
 csrc/kernels/internode_ll_v2.cuh | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index f4b59941..9c3d85c9 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -12,8 +12,7 @@ namespace internode_ll {
 
 constexpr int kNumMaxWarpGroups = 32;
 
-// to enable it, change: internode_ll_v2::define & test.py::flag
-#define ENABLE_DEBUG_TIMING_TENSOR 1
+#define ENABLE_DEBUG_TIMING_TENSOR 0
 
 #if ENABLE_DEBUG_TIMING_TENSOR
 constexpr int DT_MAX_NUM_EVENT_GROUPS = 10;

From dc79a3ce9a3f8f1fdf5916417ced4fad478e29fd Mon Sep 17 00:00:00 2001
From: fzyzcjy <ch271828n@outlook.com>
Date: Sun, 7 Sep 2025 16:17:43 +0800
Subject: [PATCH 393/393] more

---
 csrc/kernels/internode_ll_v2.cuh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/kernels/internode_ll_v2.cuh b/csrc/kernels/internode_ll_v2.cuh
index e51a6158..a79e7a3a 100644
--- a/csrc/kernels/internode_ll_v2.cuh
+++ b/csrc/kernels/internode_ll_v2.cuh
@@ -890,7 +890,7 @@ void dispatch_v2(void* packed_recv_x, void* packed_recv_x_scales,
               int* remote_start_offset_buffer, int* zeroed_buffer_for_atomic_counter_per_expert,
               int* debug_tensor) {
 
-    EP_HOST_ASSERT(false, "should re-create deep_ep.cpp cudaMallocAndZero before using this");
+    EP_HOST_ASSERT(false); // should re-create deep_ep.cpp cudaMallocAndZero before using this
 
     constexpr int kNumMaxTopK = 9;