VX_RPP - Log1p augmentation support (#1503)

SundarRajan28 · Copilot · kiritigowda · web-flow · commit 28538c3b516f · 2025-05-27T14:23:33.000-07:00
* Add log1p support

* Resolving review comments

* Rename log1p extension

* Fix hipHostMalloc bug

Co-authored-by: Copilot &lt;175728472+Copilot@users.noreply.github.com&gt;

* Minor changes

* Minor changes

* Bug fixes

---------

Co-authored-by: Copilot &lt;175728472+Copilot@users.noreply.github.com&gt;
Co-authored-by: Kiriti Gowda &lt;kiritigowda@gmail.com&gt;
diff --git a/amd_openvx_extensions/amd_rpp/CMakeLists.txt b/amd_openvx_extensions/amd_rpp/CMakeLists.txt
@@ -176,6 +176,7 @@ list(APPEND SOURCES
         source/tensor/WarpAffine.cpp
         source/tensor/Slice.cpp
         source/tensor/Transpose.cpp
+        source/tensor/Log1p.cpp
         source/kernel_rpp.cpp
         source/internal_publishKernels.cpp
     )
diff --git a/amd_openvx_extensions/amd_rpp/include/internal_publishKernels.h b/amd_openvx_extensions/amd_rpp/include/internal_publishKernels.h
@@ -167,6 +167,7 @@ vx_status Slice_Register(vx_context);
 vx_status Normalize_Register(vx_context);
 vx_status MelFilterBank_Register(vx_context);
 vx_status Transpose_Register(vx_context);
+vx_status Log1p_Register(vx_context);
 
 // kernel names
 #define VX_KERNEL_RPP_NOPBATCHPD_NAME                           "org.rpp.NopbatchPD"
@@ -303,5 +304,6 @@ vx_status Transpose_Register(vx_context);
 #define VX_KERNEL_RPP_NORMALIZE_NAME                            "org.rpp.Normalize"
 #define VX_KERNEL_RPP_MELFILTERBANK_NAME                        "org.rpp.MelFilterBank"
 #define VX_KERNEL_RPP_TRANSPOSE_NAME                            "org.rpp.Transpose"
+#define VX_KERNEL_RPP_LOG1P_NAME                                "org.rpp.Log1p"
 
 #endif //_AMDVX_EXT__PUBLISH_KERNELS_H_
diff --git a/amd_openvx_extensions/amd_rpp/include/internal_rpp.h b/amd_openvx_extensions/amd_rpp/include/internal_rpp.h
@@ -72,7 +72,9 @@ enum vxTensorLayout {
     VX_NFCHW = 3,
     VX_NHW = 4,     // Audio/2D layout
     VX_NFT = 5,     // Frequency major, Used for Spectrogram/MelFilterBank
-    VX_NTF = 6      // Time major, Used for Spectrogram/MelFilterBank
+    VX_NTF = 6,      // Time major, Used for Spectrogram/MelFilterBank
+    VX_NDHWC = 7,
+    VX_NCDHW = 8
 };
 
 const std::map<vxTensorLayout, RpptLayout> tensorLayoutMapping = {
@@ -83,8 +85,10 @@ const std::map<vxTensorLayout, RpptLayout> tensorLayoutMapping = {
 #if RPP_AUDIO
     {vxTensorLayout::VX_NHW, RpptLayout::NHW},
     {vxTensorLayout::VX_NFT, RpptLayout::NFT},
-    {vxTensorLayout::VX_NTF, RpptLayout::NTF}
+    {vxTensorLayout::VX_NTF, RpptLayout::NTF},
 #endif
+    {vxTensorLayout::VX_NDHWC, RpptLayout::NDHWC},
+    {vxTensorLayout::VX_NCDHW, RpptLayout::NCDHW}
 };
 
 //! Brief The utility functions
diff --git a/amd_openvx_extensions/amd_rpp/include/kernels_rpp.h b/amd_openvx_extensions/amd_rpp/include/kernels_rpp.h
@@ -159,7 +159,8 @@ extern "C"
         VX_KERNEL_RPP_SLICE = VX_KERNEL_BASE(VX_ID_AMD, VX_LIBRARY_RPP) + 0x7c,
         VX_KERNEL_RPP_NORMALIZE = VX_KERNEL_BASE(VX_ID_AMD, VX_LIBRARY_RPP) + 0x7d,
         VX_KERNEL_RPP_MELFILTERBANK = VX_KERNEL_BASE(VX_ID_AMD, VX_LIBRARY_RPP) + 0x7e,
-        VX_KERNEL_RPP_TRANSPOSE = VX_KERNEL_BASE(VX_ID_AMD, VX_LIBRARY_RPP) + 0x7f
+        VX_KERNEL_RPP_TRANSPOSE = VX_KERNEL_BASE(VX_ID_AMD, VX_LIBRARY_RPP) + 0x7f,
+        VX_KERNEL_RPP_LOG1P = VX_KERNEL_BASE(VX_ID_AMD, VX_LIBRARY_RPP) + 0x80
     };
 
 #ifdef __cplusplus
diff --git a/amd_openvx_extensions/amd_rpp/include/vx_ext_rpp.h b/amd_openvx_extensions/amd_rpp/include/vx_ext_rpp.h
@@ -2042,6 +2042,17 @@ extern "C"
 	 */
 	SHARED_PUBLIC vx_node VX_API_CALL vxExtRppTranspose(vx_graph graph, vx_tensor pSrc, vx_tensor pSrcRoi, vx_tensor pDst, vx_array pPerm, vx_scalar inputLayout, vx_scalar outputLayout, vx_scalar roiType);
 
+	/*! \brief [Graph] Computes the natural logarithm of 1 + input element-wise and returns the output.
+	 * \ingroup group_amd_rpp
+	 * \param [in] graph The handle to the graph.
+	 * \param [in] pSrc The input tensor in <tt>\ref VX_TYPE_INT16</tt> format data.
+	 * \param [in] pSrcRoi The input tensor of batch size in <tt>unsigned int</tt> containing the roi values for the input.
+	 * \param [out] pDst The output tensor in <tt>\ref VX_TYPE_FLOAT32</tt> format data.
+	 * \param [in] inputLayout The input layout in <tt>\ref VX_TYPE_INT32</tt> denotes the layout of input tensor.
+	 * \return A node reference <tt>\ref vx_node</tt>. Any possible errors preventing a successful creation should be checked using <tt>\ref vxGetStatus</tt>.
+	 */
+	SHARED_PUBLIC vx_node VX_API_CALL vxExtRppLog1p(vx_graph graph, vx_tensor pSrc, vx_tensor pSrcRoi, vx_tensor pDst, vx_scalar inputLayout);
+
 #ifdef __cplusplus
 }
 #endif
diff --git a/amd_openvx_extensions/amd_rpp/source/internal_publishKernels.cpp b/amd_openvx_extensions/amd_rpp/source/internal_publishKernels.cpp
@@ -172,6 +172,7 @@ vx_status get_kernels_to_publish()
     STATUS_ERROR_CHECK(ADD_KERNEL(Normalize_Register));
     STATUS_ERROR_CHECK(ADD_KERNEL(MelFilterBank_Register));
     STATUS_ERROR_CHECK(ADD_KERNEL(Transpose_Register));
+    STATUS_ERROR_CHECK(ADD_KERNEL(Log1p_Register));
     return status;
 }
 
diff --git a/amd_openvx_extensions/amd_rpp/source/kernel_rpp.cpp b/amd_openvx_extensions/amd_rpp/source/kernel_rpp.cpp
@@ -2795,6 +2795,23 @@ VX_API_ENTRY vx_node VX_API_CALL vxExtRppTranspose(vx_graph graph, vx_tensor pSr
     return node;
 }
 
+VX_API_ENTRY vx_node VX_API_CALL vxExtRppLog1p(vx_graph graph, vx_tensor pSrc, vx_tensor pSrcRoi, vx_tensor pDst, vx_scalar inputLayout) {
+    vx_node node = NULL;
+    vx_context context = vxGetContext((vx_reference)graph);
+    if (vxGetStatus((vx_reference)context) == VX_SUCCESS) {
+        vx_uint32 devtype = getGraphAffinity(graph);
+        vx_scalar deviceType = vxCreateScalar(vxGetContext((vx_reference)graph), VX_TYPE_UINT32, &devtype);
+        vx_reference params[] = {
+            (vx_reference)pSrc,
+            (vx_reference)pSrcRoi,
+            (vx_reference)pDst,
+            (vx_reference)inputLayout,
+            (vx_reference)deviceType};
+        node = createNode(graph, VX_KERNEL_RPP_LOG1P, params, 5);
+    }
+    return node;
+}
+
 RpptDataType getRpptDataType(vx_enum vxDataType) {
     switch(vxDataType) {
         case vx_type_e::VX_TYPE_FLOAT32:
@@ -2803,6 +2820,8 @@ RpptDataType getRpptDataType(vx_enum vxDataType) {
             return RpptDataType::F16;
         case vx_type_e::VX_TYPE_INT8:
             return RpptDataType::I8;
+        case vx_type_e::VX_TYPE_INT16:
+            return RpptDataType::I16;
         default:
             return RpptDataType::U8;
     }
@@ -2923,6 +2942,22 @@ void fillGenericDescriptionPtrfromDims(RpptGenericDescPtr &genericDescPtr, vxTen
             genericDescPtr->strides[3] = 1;
             break;
         }
+        case vxTensorLayout::VX_NCDHW:
+        case vxTensorLayout::VX_NDHWC: {
+            genericDescPtr->numDims = 5;
+            genericDescPtr->dims[0] = tensorDims[0];
+            genericDescPtr->dims[1] = tensorDims[1];
+            genericDescPtr->dims[2] = tensorDims[2];
+            genericDescPtr->dims[3] = tensorDims[3];
+            genericDescPtr->dims[4] = tensorDims[4];
+
+            genericDescPtr->strides[0] = genericDescPtr->dims[1] * genericDescPtr->dims[2] * genericDescPtr->dims[3] * genericDescPtr->dims[4];
+            genericDescPtr->strides[1] = genericDescPtr->dims[2] * genericDescPtr->dims[3] * genericDescPtr->dims[4];
+            genericDescPtr->strides[2] = genericDescPtr->dims[3] * genericDescPtr->dims[4];
+            genericDescPtr->strides[3] = genericDescPtr->dims[4];
+            genericDescPtr->strides[4] = 1;
+            break;
+        }
         case vxTensorLayout::VX_NHW:
         case vxTensorLayout::VX_NFT:
         case vxTensorLayout::VX_NTF: {
diff --git a/amd_openvx_extensions/amd_rpp/source/tensor/Log1p.cpp b/amd_openvx_extensions/amd_rpp/source/tensor/Log1p.cpp
@@ -0,0 +1,237 @@
+/*
+Copyright (c) 2025 Advanced Micro Devices, Inc. All rights reserved.
+
+Permission is hereby granted, free of charge, to any person obtaining a copy
+of this software and associated documentation files (the "Software"), to deal
+in the Software without restriction, including without limitation the rights
+to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+copies of the Software, and to permit persons to whom the Software is
+furnished to do so, subject to the following conditions:
+
+The above copyright notice and this permission notice shall be included in
+all copies or substantial portions of the Software.
+
+THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT.  IN NO EVENT SHALL THE
+AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN
+THE SOFTWARE.
+*/
+
+#include "internal_publishKernels.h"
+
+struct Log1pLocalData {
+    vxRppHandle *handle;
+    Rpp32u deviceType;
+    RppPtr_t pSrc;
+    RppPtr_t pDst;
+    RpptGenericDescPtr pSrcGenericDesc;
+    RpptGenericDescPtr pDstGenericDesc;
+    Rpp32u *pSrcRoi;
+    vxTensorLayout inputLayout;
+    size_t inputTensorDims[RPP_MAX_TENSOR_DIMS];
+    size_t outputTensorDims[RPP_MAX_TENSOR_DIMS];
+};
+
+static vx_status VX_CALLBACK refreshLog1p(vx_node node, const vx_reference *parameters, vx_uint32 num, Log1pLocalData *data) {
+    vx_status status = VX_SUCCESS;
+    void *roi_tensor_ptr;
+    if (data->deviceType == AGO_TARGET_AFFINITY_GPU) {
+#if ENABLE_OPENCL
+        return VX_ERROR_NOT_IMPLEMENTED;
+#elif ENABLE_HIP
+        STATUS_ERROR_CHECK(vxQueryTensor((vx_tensor)parameters[0], VX_TENSOR_BUFFER_HIP, &data->pSrc, sizeof(data->pSrc)));
+        STATUS_ERROR_CHECK(vxQueryTensor((vx_tensor)parameters[1], VX_TENSOR_BUFFER_HIP, &roi_tensor_ptr, sizeof(roi_tensor_ptr)));
+        STATUS_ERROR_CHECK(vxQueryTensor((vx_tensor)parameters[2], VX_TENSOR_BUFFER_HIP, &data->pDst, sizeof(data->pDst)));
+#endif
+    } else if (data->deviceType == AGO_TARGET_AFFINITY_CPU) {
+        STATUS_ERROR_CHECK(vxQueryTensor((vx_tensor)parameters[0], VX_TENSOR_BUFFER_HOST, &data->pSrc, sizeof(data->pSrc)));
+        STATUS_ERROR_CHECK(vxQueryTensor((vx_tensor)parameters[1], VX_TENSOR_BUFFER_HOST, &roi_tensor_ptr, sizeof(roi_tensor_ptr)));
+        STATUS_ERROR_CHECK(vxQueryTensor((vx_tensor)parameters[2], VX_TENSOR_BUFFER_HOST, &data->pDst, sizeof(data->pDst)));
+    }
+    data->pSrcRoi = static_cast<unsigned *>(roi_tensor_ptr);
+    return status;
+}
+
+static vx_status VX_CALLBACK validateLog1p(vx_node node, const vx_reference parameters[], vx_uint32 num, vx_meta_format metas[]) {
+    vx_status status = VX_SUCCESS;
+    vx_enum scalar_type;
+
+    STATUS_ERROR_CHECK(vxQueryScalar((vx_scalar)parameters[3], VX_SCALAR_TYPE, &scalar_type, sizeof(scalar_type)));
+    if (scalar_type != VX_TYPE_INT32)
+        return ERRMSG(VX_ERROR_INVALID_TYPE, "validate: Parameter: #3 type=%d (must be size)\n", scalar_type);
+    STATUS_ERROR_CHECK(vxQueryScalar((vx_scalar)parameters[4], VX_SCALAR_TYPE, &scalar_type, sizeof(scalar_type)));
+    if (scalar_type != VX_TYPE_UINT32)
+        return ERRMSG(VX_ERROR_INVALID_TYPE, "validate: Parameter: #4 type=%d (must be size)\n", scalar_type);
+
+    // Check for input parameters
+    size_t num_tensor_dims;
+    STATUS_ERROR_CHECK(vxQueryTensor((vx_tensor)parameters[0], VX_TENSOR_NUMBER_OF_DIMS, &num_tensor_dims, sizeof(num_tensor_dims)));
+    if (num_tensor_dims < 3) return ERRMSG(VX_ERROR_INVALID_DIMENSION, "validate: Log1p: tensor: #0 dimensions=%lu (must be greater than or equal to 3)\n", num_tensor_dims);
+
+    // Check for output parameters
+    vx_uint8 tensor_fixed_point_position;
+    size_t tensor_dims[RPP_MAX_TENSOR_DIMS];
+    vx_enum tensor_datatype;
+    STATUS_ERROR_CHECK(vxQueryTensor((vx_tensor)parameters[2], VX_TENSOR_NUMBER_OF_DIMS, &num_tensor_dims, sizeof(num_tensor_dims)));
+    if (num_tensor_dims < 3) return ERRMSG(VX_ERROR_INVALID_DIMENSION, "validate: Log1p: tensor: #2 dimensions=%lu (must be greater than or equal to 3)\n", num_tensor_dims);
+
+    STATUS_ERROR_CHECK(vxQueryTensor((vx_tensor)parameters[2], VX_TENSOR_DIMS, &tensor_dims, sizeof(tensor_dims)));
+    STATUS_ERROR_CHECK(vxQueryTensor((vx_tensor)parameters[2], VX_TENSOR_DATA_TYPE, &tensor_datatype, sizeof(tensor_datatype)));
+    STATUS_ERROR_CHECK(vxQueryTensor((vx_tensor)parameters[2], VX_TENSOR_FIXED_POINT_POSITION, &tensor_fixed_point_position, sizeof(tensor_fixed_point_position)));
+    STATUS_ERROR_CHECK(vxSetMetaFormatAttribute(metas[2], VX_TENSOR_NUMBER_OF_DIMS, &num_tensor_dims, sizeof(num_tensor_dims)));
+    STATUS_ERROR_CHECK(vxSetMetaFormatAttribute(metas[2], VX_TENSOR_DIMS, &tensor_dims, sizeof(tensor_dims)));
+    STATUS_ERROR_CHECK(vxSetMetaFormatAttribute(metas[2], VX_TENSOR_DATA_TYPE, &tensor_datatype, sizeof(tensor_datatype)));
+    STATUS_ERROR_CHECK(vxSetMetaFormatAttribute(metas[2], VX_TENSOR_FIXED_POINT_POSITION, &tensor_fixed_point_position, sizeof(tensor_fixed_point_position)));
+    return status;
+}
+
+static vx_status VX_CALLBACK processLog1p(vx_node node, const vx_reference *parameters, vx_uint32 num) {
+    RppStatus rpp_status = RPP_SUCCESS;
+    vx_status return_status = VX_SUCCESS;
+    Log1pLocalData *data = NULL;
+    STATUS_ERROR_CHECK(vxQueryNode(node, VX_NODE_LOCAL_DATA_PTR, &data, sizeof(data)));
+    refreshLog1p(node, parameters, num, data);
+    if (data->deviceType == AGO_TARGET_AFFINITY_GPU) {
+#if ENABLE_OPENCL
+        return_status = VX_ERROR_NOT_IMPLEMENTED;
+#elif ENABLE_HIP
+        rpp_status = rppt_log1p_gpu(data->pSrc, data->pSrcGenericDesc, data->pDst, data->pDstGenericDesc, data->pSrcRoi, data->handle->rppHandle);
+        return_status = (rpp_status == RPP_SUCCESS) ? VX_SUCCESS : VX_FAILURE;
+#endif
+    }
+    if (data->deviceType == AGO_TARGET_AFFINITY_CPU) {
+        rpp_status = rppt_log1p_host(data->pSrc, data->pSrcGenericDesc, data->pDst, data->pDstGenericDesc, data->pSrcRoi, data->handle->rppHandle);
+        return_status = (rpp_status == RPP_SUCCESS) ? VX_SUCCESS : VX_FAILURE;
+    }
+    return return_status;
+}
+
+static vx_status VX_CALLBACK initializeLog1p(vx_node node, const vx_reference *parameters, vx_uint32 num) {
+    Log1pLocalData *data = new Log1pLocalData;
+    if (data) {
+        memset(data, 0, sizeof(Log1pLocalData));
+
+        vx_enum input_tensor_dtype, output_tensor_dtype;
+        vx_int32 input_layout;
+        STATUS_ERROR_CHECK(vxCopyScalar((vx_scalar)parameters[3], &input_layout, VX_READ_ONLY, VX_MEMORY_TYPE_HOST));
+        STATUS_ERROR_CHECK(vxCopyScalar((vx_scalar)parameters[4], &data->deviceType, VX_READ_ONLY, VX_MEMORY_TYPE_HOST));
+        data->inputLayout = static_cast<vxTensorLayout>(input_layout);
+
+        if (data->deviceType == AGO_TARGET_AFFINITY_CPU) {
+            data->pSrcGenericDesc = new RpptGenericDesc;
+            data->pDstGenericDesc = new RpptGenericDesc;
+        } else if (data->deviceType == AGO_TARGET_AFFINITY_GPU) {
+#if ENABLE_HIP
+            hipHostMalloc(&data->pSrcGenericDesc, sizeof(RpptGenericDesc));
+            hipHostMalloc(&data->pDstGenericDesc, sizeof(RpptGenericDesc));
+#endif
+        }
+        // Querying for input tensor
+        STATUS_ERROR_CHECK(vxQueryTensor((vx_tensor)parameters[0], VX_TENSOR_NUMBER_OF_DIMS, &data->pSrcGenericDesc->numDims, sizeof(data->pSrcGenericDesc->numDims)));
+        STATUS_ERROR_CHECK(vxQueryTensor((vx_tensor)parameters[0], VX_TENSOR_DIMS, &data->inputTensorDims, sizeof(vx_size) * data->pSrcGenericDesc->numDims));
+        STATUS_ERROR_CHECK(vxQueryTensor((vx_tensor)parameters[0], VX_TENSOR_DATA_TYPE, &input_tensor_dtype, sizeof(input_tensor_dtype)));
+        data->pSrcGenericDesc->dataType = getRpptDataType(input_tensor_dtype);
+        data->pSrcGenericDesc->offsetInBytes = 0;
+        fillGenericDescriptionPtrfromDims(data->pSrcGenericDesc, data->inputLayout, data->inputTensorDims);
+
+        // Querying for output tensor
+        STATUS_ERROR_CHECK(vxQueryTensor((vx_tensor)parameters[2], VX_TENSOR_NUMBER_OF_DIMS, &data->pDstGenericDesc->numDims, sizeof(data->pDstGenericDesc->numDims)));
+        STATUS_ERROR_CHECK(vxQueryTensor((vx_tensor)parameters[2], VX_TENSOR_DIMS, &data->outputTensorDims, sizeof(vx_size) * data->pDstGenericDesc->numDims));
+        STATUS_ERROR_CHECK(vxQueryTensor((vx_tensor)parameters[2], VX_TENSOR_DATA_TYPE, &output_tensor_dtype, sizeof(output_tensor_dtype)));
+        data->pDstGenericDesc->dataType = getRpptDataType(output_tensor_dtype);
+        data->pDstGenericDesc->offsetInBytes = 0;
+        fillGenericDescriptionPtrfromDims(data->pDstGenericDesc, data->inputLayout, data->outputTensorDims);
+
+        refreshLog1p(node, parameters, num, data);
+        STATUS_ERROR_CHECK(createRPPHandle(node, &data->handle, data->inputTensorDims[0], data->deviceType));
+        STATUS_ERROR_CHECK(vxSetNodeAttribute(node, VX_NODE_LOCAL_DATA_PTR, &data, sizeof(data)));
+        return VX_SUCCESS;
+    } else {
+        return VX_FAILURE;
+    }
+}
+
+static vx_status VX_CALLBACK uninitializeLog1p(vx_node node, const vx_reference *parameters, vx_uint32 num) {
+    Log1pLocalData *data;
+    STATUS_ERROR_CHECK(vxQueryNode(node, VX_NODE_LOCAL_DATA_PTR, &data, sizeof(data)));
+    STATUS_ERROR_CHECK(releaseRPPHandle(node, data->handle, data->deviceType));
+    if (data->deviceType == AGO_TARGET_AFFINITY_GPU) {
+#if ENABLE_HIP
+        if (data->pSrcGenericDesc) {
+            hipError_t err = hipHostFree(data->pSrcGenericDesc);
+            if (err != hipSuccess)
+                std::cerr << "\n[ERR] hipHostFree failed  " << std::to_string(err) << "\n";
+        }
+        if (data->pDstGenericDesc) {
+            hipError_t err = hipHostFree(data->pDstGenericDesc);
+            if (err != hipSuccess)
+                std::cerr << "\n[ERR] hipHostFree failed  " << std::to_string(err) << "\n";
+        }
+#endif
+    } else if (data->deviceType == AGO_TARGET_AFFINITY_CPU) {
+        if (data->pSrcGenericDesc) delete data->pSrcGenericDesc;
+        if (data->pDstGenericDesc) delete data->pDstGenericDesc;
+    }
+    if (data) delete data;
+    return VX_SUCCESS;
+}
+
+//! \brief The kernel target support callback.
+// TODO::currently the node is setting the same affinity as context. This needs to change when we have hybrid modes in the same graph
+static vx_status VX_CALLBACK query_target_support(vx_graph graph, vx_node node,
+                                                  vx_bool use_opencl_1_2,               // [input]  false: OpenCL driver is 2.0+; true: OpenCL driver is 1.2
+                                                  vx_uint32 &supported_target_affinity  // [output] must be set to AGO_TARGET_AFFINITY_CPU or AGO_TARGET_AFFINITY_GPU or (AGO_TARGET_AFFINITY_CPU | AGO_TARGET_AFFINITY_GPU)
+) {
+    vx_context context = vxGetContext((vx_reference)graph);
+    AgoTargetAffinityInfo affinity;
+    vxQueryContext(context, VX_CONTEXT_ATTRIBUTE_AMD_AFFINITY, &affinity, sizeof(affinity));
+    if (affinity.device_type == AGO_TARGET_AFFINITY_GPU)
+        supported_target_affinity = AGO_TARGET_AFFINITY_GPU;
+    else
+        supported_target_affinity = AGO_TARGET_AFFINITY_CPU;
+
+    return VX_SUCCESS;
+}
+
+vx_status Log1p_Register(vx_context context) {
+    vx_status status = VX_SUCCESS;
+    // Add kernel to the context with callbacks
+    vx_kernel kernel = vxAddUserKernel(context, "org.rpp.Log1p",
+                                       VX_KERNEL_RPP_LOG1P,
+                                       processLog1p,
+                                       5,
+                                       validateLog1p,
+                                       initializeLog1p,
+                                       uninitializeLog1p);
+    ERROR_CHECK_OBJECT(kernel);
+    AgoTargetAffinityInfo affinity;
+    vxQueryContext(context, VX_CONTEXT_ATTRIBUTE_AMD_AFFINITY, &affinity, sizeof(affinity));
+#if ENABLE_HIP
+    vx_bool enableBufferAccess = vx_true_e;
+    if (affinity.device_type == AGO_TARGET_AFFINITY_GPU)
+        STATUS_ERROR_CHECK(vxSetKernelAttribute(kernel, VX_KERNEL_ATTRIBUTE_AMD_GPU_BUFFER_ACCESS_ENABLE, &enableBufferAccess, sizeof(enableBufferAccess)));
+#else
+    vx_bool enableBufferAccess = vx_false_e;
+#endif
+    amd_kernel_query_target_support_f query_target_support_f = query_target_support;
+
+    if (kernel) {
+        STATUS_ERROR_CHECK(vxSetKernelAttribute(kernel, VX_KERNEL_ATTRIBUTE_AMD_QUERY_TARGET_SUPPORT, &query_target_support_f, sizeof(query_target_support_f)));
+        PARAM_ERROR_CHECK(vxAddParameterToKernel(kernel, 0, VX_INPUT, VX_TYPE_TENSOR, VX_PARAMETER_STATE_REQUIRED));
+        PARAM_ERROR_CHECK(vxAddParameterToKernel(kernel, 1, VX_INPUT, VX_TYPE_TENSOR, VX_PARAMETER_STATE_REQUIRED));
+        PARAM_ERROR_CHECK(vxAddParameterToKernel(kernel, 2, VX_OUTPUT, VX_TYPE_TENSOR, VX_PARAMETER_STATE_REQUIRED));
+        PARAM_ERROR_CHECK(vxAddParameterToKernel(kernel, 3, VX_INPUT, VX_TYPE_SCALAR, VX_PARAMETER_STATE_REQUIRED));
+        PARAM_ERROR_CHECK(vxAddParameterToKernel(kernel, 4, VX_INPUT, VX_TYPE_SCALAR, VX_PARAMETER_STATE_REQUIRED));
+        PARAM_ERROR_CHECK(vxFinalizeKernel(kernel));
+    }
+    if (status != VX_SUCCESS) {
+    exit:
+        vxRemoveKernel(kernel);
+        return VX_FAILURE;
+    }
+
+    return status;
+}
diff --git a/cmake/FindAMDRPP.cmake b/cmake/FindAMDRPP.cmake

Original file line number	Diff line number	Diff line change
`@@ -176,6 +176,7 @@ list(APPEND SOURCES`
`176`	`176`	`source/tensor/WarpAffine.cpp`
`177`	`177`	`source/tensor/Slice.cpp`
`178`	`178`	`source/tensor/Transpose.cpp`
	`179`	`+ source/tensor/Log1p.cpp`
`179`	`180`	`source/kernel_rpp.cpp`
`180`	`181`	`source/internal_publishKernels.cpp`
`181`	`182`	`)`
Original file line number	Diff line number	Diff line change
`@@ -172,6 +172,7 @@ vx_status get_kernels_to_publish()`
`172`	`172`	`STATUS_ERROR_CHECK(ADD_KERNEL(Normalize_Register));`
`173`	`173`	`STATUS_ERROR_CHECK(ADD_KERNEL(MelFilterBank_Register));`
`174`	`174`	`STATUS_ERROR_CHECK(ADD_KERNEL(Transpose_Register));`
	`175`	`+ STATUS_ERROR_CHECK(ADD_KERNEL(Log1p_Register));`
`175`	`176`	`return status;`
`176`	`177`	`}`
`177`	`178`