Implement the latest C dlpack exchange API, refer to apache/tvm-ffi#96

SigureMo · SigureMo · commit 7ac34981359f · 2025-10-11T04:51:31.000Z
diff --git a/paddle/fluid/framework/dlpack_tensor.cc b/paddle/fluid/framework/dlpack_tensor.cc
@@ -358,6 +358,22 @@ DLManagedTensorVersioned *ToDLPackVersioned(const phi::DenseTensor &src,
   return ToDLPackImpl<DLManagedTensorVersioned>(src, flags);
 }
 
+void ToDLPackNonOwningImpl(const phi::DenseTensor &tensor,
+                           ::DLTensor &out) {  // NOLINT
+  // Fill in the pre-allocated DLTensor struct with direct pointers
+  // This is a non-owning conversion - the caller owns the tensor
+  // and must keep it alive for the duration of DLTensor usage
+  out.data = const_cast<void *>(tensor.data());
+  out.device = PlaceToDLDevice(tensor.place());
+  out.ndim = static_cast<int32_t>(tensor.dims().size());
+  out.dtype = PhiDataTypeToDLDataType(tensor.dtype());
+  // sizes() and strides() return pointers to TensorImpl's stable storage
+  // which remains valid as long as the tensor is alive
+  out.shape = const_cast<int64_t *>(tensor.dims().Get());
+  out.strides = const_cast<int64_t *>(tensor.strides().Get());
+  out.byte_offset = 0;
+}
+
 template <typename T>
 phi::DenseTensor FromDLPackImpl(T *src, Deleter deleter) {
   std::vector<int64_t> shape_vec;
diff --git a/paddle/fluid/framework/dlpack_tensor.h b/paddle/fluid/framework/dlpack_tensor.h
@@ -34,10 +34,12 @@ phi::DataType DLDataTypeToPhiDataType(::DLDataType type);
 phi::Place DLDeviceToPlace(const ::DLDevice& device);
 ::DLDevice PlaceToDLDevice(const phi::Place& place);
 
-TEST_API DLManagedTensor* ToDLPack(const phi::DenseTensor& src,
-                                   uint64_t flags = 0);
+TEST_API ::DLManagedTensor* ToDLPack(const phi::DenseTensor& src,
+                                     uint64_t flags = 0);
 ::DLManagedTensorVersioned* ToDLPackVersioned(const phi::DenseTensor& src,
                                               uint64_t flags = 0);
+void ToDLPackNonOwningImpl(const phi::DenseTensor& tensor,
+                           ::DLTensor& out);  // NOLINT
 TEST_API phi::DenseTensor FromDLPack(::DLManagedTensor* src);
 phi::DenseTensor FromDLPackVersioned(::DLManagedTensorVersioned* src);
 
diff --git a/paddle/fluid/pybind/pybind.cc b/paddle/fluid/pybind/pybind.cc
@@ -763,9 +763,9 @@ class PyLayerBlockContextManager {
   PyLayerBlockContextManager() = default;
 };
 
-int DLPackFromPyObject(void *py_obj,
-                       DLManagedTensorVersioned **out,
-                       void **env_stream) {
+int DLPackFromPyObjectLegacy(void *py_obj,
+                             DLManagedTensorVersioned **out,
+                             void **env_stream) {
   try {
     py::handle handle(static_cast<PyObject *>(py_obj));
     paddle::Tensor tensor = handle.cast<paddle::Tensor>();
@@ -786,7 +786,7 @@ int DLPackFromPyObject(void *py_obj,
   }
 }
 
-int DLPackToPyObject(DLManagedTensorVersioned *src, void **py_obj_out) {
+int DLPackToPyObjectLegacy(DLManagedTensorVersioned *src, void **py_obj_out) {
   try {
     phi::DenseTensor dense_tensor = paddle::framework::FromDLPackVersioned(src);
     paddle::Tensor tensor(std::make_shared<phi::DenseTensor>(dense_tensor));
@@ -799,12 +799,12 @@ int DLPackToPyObject(DLManagedTensorVersioned *src, void **py_obj_out) {
   }
 }
 
-int DLPackTensorAllocator(::DLTensor *prototype,
-                          ::DLManagedTensorVersioned **out,
-                          void *error_ctx,
-                          void (*SetError)(void *error_ctx,
-                                           const char *kind,
-                                           const char *message)) {
+int DLPackTensorAllocatorLegacy(::DLTensor *prototype,
+                                ::DLManagedTensorVersioned **out,
+                                void *error_ctx,
+                                void (*SetError)(void *error_ctx,
+                                                 const char *kind,
+                                                 const char *message)) {
   try {
     phi::IntArray shape(prototype->shape, prototype->ndim);
     phi::Place place(paddle::framework::DLDeviceToPlace(prototype->device));
@@ -821,6 +821,108 @@ int DLPackTensorAllocator(::DLTensor *prototype,
   }
 }
 
+int DLPackDLTensorFromPyObjectNoSync(void *py_obj, DLTensor *out) {
+  try {
+    // Use handle (non-owning) to avoid unnecessary refcount operations
+    py::handle handle(static_cast<PyObject *>(py_obj));
+    paddle::Tensor tensor = handle.cast<paddle::Tensor>();
+    std::shared_ptr<phi::DenseTensor> dense_tensor =
+        std::static_pointer_cast<phi::DenseTensor>(tensor.impl());
+    paddle::framework::ToDLPackNonOwningImpl(*dense_tensor, *out);
+    return 0;
+  } catch (const std::exception &e) {
+    PyErr_SetString(PyExc_RuntimeError, e.what());
+    return -1;
+  }
+}
+
+int DLPackManagedTensorFromPyObjectNoSync(void *py_obj,
+                                          DLManagedTensorVersioned **out) {
+  try {
+    py::handle handle(static_cast<PyObject *>(py_obj));
+    paddle::Tensor tensor = handle.cast<paddle::Tensor>();
+    std::shared_ptr<phi::DenseTensor> dense_tensor =
+        std::static_pointer_cast<phi::DenseTensor>(tensor.impl());
+    *out = paddle::framework::ToDLPackVersioned(*dense_tensor);
+    return 0;
+  } catch (const std::exception &e) {
+    PyErr_SetString(PyExc_RuntimeError, e.what());
+    return -1;
+  }
+}
+
+int DLPackManagedTensorToPyObjectNoSync(DLManagedTensorVersioned *src,
+                                        void **py_obj_out) {
+  try {
+    phi::DenseTensor dense_tensor = paddle::framework::FromDLPackVersioned(src);
+    paddle::Tensor tensor(std::make_shared<phi::DenseTensor>(dense_tensor));
+    egr::EagerUtils::autograd_meta(&tensor)->SetPersistable(false);
+    *py_obj_out = ToPyObject(tensor);
+    return 0;
+  } catch (const std::exception &e) {
+    PyErr_SetString(PyExc_RuntimeError, e.what());
+    return -1;
+  }
+}
+
+int DLPackManagedTensorAllocator(::DLTensor *prototype,
+                                 ::DLManagedTensorVersioned **out,
+                                 void *error_ctx,
+                                 void (*SetError)(void *error_ctx,
+                                                  const char *kind,
+                                                  const char *message)) {
+  try {
+    phi::IntArray shape(prototype->shape, prototype->ndim);
+    phi::Place place(paddle::framework::DLDeviceToPlace(prototype->device));
+    phi::DataType dtype =
+        paddle::framework::DLDataTypeToPhiDataType(prototype->dtype);
+    paddle::Tensor tensor = paddle::empty(shape, dtype, place);
+    std::shared_ptr<phi::DenseTensor> dense_tensor =
+        std::static_pointer_cast<phi::DenseTensor>(tensor.impl());
+    *out = paddle::framework::ToDLPackVersioned(*dense_tensor);
+    return 0;
+  } catch (const std::exception &e) {
+    SetError(error_ctx, "DLPackManagedTensorAllocator", e.what());
+    return -1;
+  }
+}
+
+int DLPackCurrentWorkStream(DLDeviceType device_type,
+                            int32_t device_id,
+                            void **out_stream) {
+  try {
+#if defined(PADDLE_WITH_CUDA) || defined(PADDLE_WITH_HIP) || \
+    defined(PADDLE_WITH_CUSTOM_DEVICE)
+    if (device_type == kDLCUDA || device_type == kDLROCM) {
+      *out_stream = platform::get_current_stream(device_id)->raw_stream();
+    }
+#endif
+    return 0;
+  } catch (const std::exception &e) {
+    PyErr_SetString(PyExc_RuntimeError, e.what());
+    return -1;
+  }
+}
+
+struct PaddleDLPackExchangeAPI : public ::DLPackExchangeAPI {
+  PaddleDLPackExchangeAPI() {
+    header.version.major = DLPACK_MAJOR_VERSION;
+    header.version.minor = DLPACK_MINOR_VERSION;
+    header.prev_api = nullptr;
+    managed_tensor_allocator = DLPackManagedTensorAllocator;
+    managed_tensor_from_py_object_no_sync =
+        DLPackManagedTensorFromPyObjectNoSync;
+    managed_tensor_to_py_object_no_sync = DLPackManagedTensorToPyObjectNoSync;
+    dltensor_from_py_object_no_sync = DLPackDLTensorFromPyObjectNoSync;
+    current_work_stream = DLPackCurrentWorkStream;
+  }
+
+  static const DLPackExchangeAPI *Instance() {
+    static PaddleDLPackExchangeAPI inst;
+    return &inst;
+  }
+};
+
 // NOTE: use to load file by Mmap
 enum MMapLoadModes {
   ALLOCATOR_MAPPED_SHARED = 1,
@@ -1832,15 +1934,19 @@ PYBIND11_MODULE(libpaddle, m) {
   });
 
   m.def("dlpack_from_pyobject_ptr", []() -> int64_t {
-    return reinterpret_cast<int64_t>(DLPackFromPyObject);
+    return reinterpret_cast<int64_t>(DLPackFromPyObjectLegacy);
   });
 
   m.def("dlpack_to_pyobject_ptr", []() -> int64_t {
-    return reinterpret_cast<int64_t>(DLPackToPyObject);
+    return reinterpret_cast<int64_t>(DLPackToPyObjectLegacy);
   });
 
   m.def("dlpack_tensor_allocator_ptr", []() -> int64_t {
-    return reinterpret_cast<int64_t>(DLPackTensorAllocator);
+    return reinterpret_cast<int64_t>(DLPackTensorAllocatorLegacy);
+  });
+
+  m.def("dlpack_exchange_api_ptr", []() -> int64_t {
+    return reinterpret_cast<int64_t>(PaddleDLPackExchangeAPI::Instance());
   });
 
   m.def("from_dlpack", [](py::object data) {
diff --git a/python/paddle/base/dygraph/tensor_patch_methods.py b/python/paddle/base/dygraph/tensor_patch_methods.py
@@ -1589,6 +1589,7 @@ def __tvm_ffi_env_stream__(self) -> int:
         ("__c_dlpack_from_pyobject__", core.dlpack_from_pyobject_ptr()),
         ("__c_dlpack_to_pyobject__", core.dlpack_to_pyobject_ptr()),
         ("__c_dlpack_tensor_allocator__", core.dlpack_tensor_allocator_ptr()),
+        ("__c_dlpack_exchange_api__", core.dlpack_exchange_api_ptr()),
     ):
         setattr(core.eager.Tensor, method_name, method)
 
diff --git a/python/paddle/utils/dlpack.py b/python/paddle/utils/dlpack.py
@@ -75,6 +75,7 @@ class DLDeviceType(enum.IntEnum):
     kDLWebGPU = (15,)
     kDLHexagon = (16,)
     kDLMAIA = (17,)
+    kDLTrn = (18,)
 
 
 def to_dlpack(x: Tensor) -> CapsuleType:
@@ -215,7 +216,7 @@ def from_dlpack(
 
     if hasattr(dlpack, "__dlpack__"):
         kwargs = {}
-        kwargs["max_version"] = (1, 1)
+        kwargs["max_version"] = (1, 2)
         if copy is not None:
             kwargs["copy"] = copy
 
diff --git a/test/dygraph_to_static/test_tensor_attr_consistency.py b/test/dygraph_to_static/test_tensor_attr_consistency.py
@@ -81,6 +81,10 @@
         '__dlpack__',
         "__dlpack_device__",
         "__tvm_ffi_env_stream__",
+        "__c_dlpack_from_pyobject__",
+        "__c_dlpack_to_pyobject__",
+        "__c_dlpack_tensor_allocator__",
+        "__c_dlpack_exchange_api__",
     ]
 )
 STATIC_ONLY_TENSOR_ATTRS_ALLOW_LIST = OrderedSet(
diff --git a/third_party/dlpack b/third_party/dlpack
@@ -1 +1 @@
-Subproject commit 3ea601bb413074c49a77c4ce3218bc08f8c4703c
+Subproject commit 111736618e8d1028b23605f76dcaa6a38cfea809

Original file line number	Diff line number	Diff line change
`@@ -81,6 +81,10 @@`
`81`	`81`	`'__dlpack__',`
`82`	`82`	`"__dlpack_device__",`
`83`	`83`	`"__tvm_ffi_env_stream__",`
	`84`	`+ "__c_dlpack_from_pyobject__",`
	`85`	`+ "__c_dlpack_to_pyobject__",`
	`86`	`+ "__c_dlpack_tensor_allocator__",`
	`87`	`+ "__c_dlpack_exchange_api__",`
`84`	`88`	`]`
`85`	`89`	`)`
`86`	`90`	`STATIC_ONLY_TENSOR_ATTRS_ALLOW_LIST = OrderedSet(`