uxlfoundation · Alexsandruss · Oct 22, 2024 · Sep 10, 2024 · Sep 13, 2024 · Sep 23, 2024
@@ -26,6 +26,7 @@
 #define __SERVICE_STAT_REF_H__
 
 #include "src/externals/service_memory.h"
+#include "src/externals/service_blas_ref.h"
 
 typedef void (*func_type)(DAAL_INT, DAAL_INT, DAAL_INT, void *);
 extern "C"
@@ -174,6 +175,56 @@ struct RefStatistics<double, cpu>
                    __int64 method)
     {
         int errcode = 0;
+        daal::internal::ref::OpenBlas<double, cpu> blasInst;
+        double accWtOld = *nPreviousObservations;
+        double accWt    = *nPreviousObservations + nVectors;
+        DAAL_INT one    = 1;
+        char transa     = 'N';
+        char transb     = 'N';
+        double beta     = 0.0;
+        double alpha;
+        if (accWtOld != 0)
+        {
+            double * sumOld = daal::services::internal::service_malloc<double, cpu>(nFeatures, sizeof(double));
-            double * sumOld = daal::services::internal::service_malloc<double, cpu>(nFeatures, sizeof(double));
+            double* const sumOld = daal::services::internal::service_malloc<double, cpu>(nFeatures, sizeof(double));
-            double * sumOld = daal::services::internal::service_malloc<double, cpu>(nFeatures, sizeof(double));
+            double* const sumOld = daal::services::internal::service_malloc<double, cpu>(nFeatures, sizeof(double));
+            DAAL_CHECK_MALLOC(sumOld);
+            for (DAAL_INT i = 0; i < nFeatures; ++i)
+            {
+                sumOld[i] = sum[i];
+            }
+            // S_old S_old^t/accWtOld
+            alpha = 1.0 / accWtOld;
+            beta  = 1.0;
+            blasInst.xgemm(&transa, &transb, &nFeatures, &nFeatures, &one, &alpha, sumOld, &nFeatures, sumOld, &one, &beta, crossProduct, &nFeatures);
+            daal::services::daal_free(sumOld);
+        }
+        for (DAAL_INT i = 0; i < nVectors; ++i)
+        {
+            for (DAAL_INT j = 0; j < nFeatures; ++j) // if accWtOld = 0, overwrite sum
+            {
+                if (accWtOld != 0)
+                {
+                    sum[j] += data[i * nFeatures + j];
+                }
+                else
+                {
+                    if (i == 0)
+                        sum[j] = data[i * nFeatures + j]; //overwrite the current sum
+                    else
+                        sum[j] += data[i * nFeatures + j];
+                }
+            }
+        }
+
+        // -S S^t/accWt
+        alpha = -1.0 / accWt;
+        blasInst.xgemm(&transa, &transb, &nFeatures, &nFeatures, &one, &alpha, sum, &nFeatures, sum, &one, &beta, crossProduct, &nFeatures);
+
+        // X X^t
+        transb = 'T';
+        alpha  = 1.0;
+        beta   = 1.0;
+        blasInst.xgemm(&transa, &transb, &nFeatures, &nFeatures, &nVectors, &alpha, data, &nFeatures, data, &nFeatures, &beta, crossProduct,
+                       &nFeatures);
-        transb = 'T';
-        alpha  = 1.0;
-        beta   = 1.0;
-        blasInst.xgemm(&transa, &transb, &nFeatures, &nFeatures, &nVectors, &alpha, data, &nFeatures, data, &nFeatures, &beta, crossProduct,
-                       &nFeatures);
+        {
+            constexpr char transb = 'T';
+            constexpr double alpha  = 1.0;
+            constexpr double beta   = 1.0;
+            blasInst.xgemm(&transa, &transb, &nFeatures, &nFeatures, &nVectors, &alpha, data, &nFeatures, data, &nFeatures, &beta, crossProduct,
+                       &nFeatures);
+        }
-        transb = 'T';
-        alpha  = 1.0;
-        beta   = 1.0;
-        blasInst.xgemm(&transa, &transb, &nFeatures, &nFeatures, &nVectors, &alpha, data, &nFeatures, data, &nFeatures, &beta, crossProduct,
-                       &nFeatures);
+        {
+            constexpr char transb = 'T';
+            constexpr double alpha  = 1.0;
+            constexpr double beta   = 1.0;
+            blasInst.xgemm(&transa, &transb, &nFeatures, &nFeatures, &nVectors, &alpha, data, &nFeatures, data, &nFeatures, &beta, crossProduct,
+                       &nFeatures);
+        }
 
         return errcode;
     }
@@ -285,6 +336,56 @@ struct RefStatistics<float, cpu>
                    __int64 method)
     {
         int errcode = 0;
+        daal::internal::ref::OpenBlas<float, cpu> blasInst;
+        float accWtOld = *nPreviousObservations;
+        float accWt    = *nPreviousObservations + nVectors;
+        DAAL_INT one   = 1;
+        char transa    = 'N';
+        char transb    = 'N';
+        float beta     = 0.0;
+        float alpha;
+        if (accWtOld != 0)
+        {
+            float * sumOld = daal::services::internal::service_malloc<float, cpu>(nFeatures, sizeof(float));
+            DAAL_CHECK_MALLOC(sumOld);
+            for (DAAL_INT i = 0; i < nFeatures; ++i)
+            {
+                sumOld[i] = sum[i];
+            }
+            // S_old S_old^t/accWtOld
+            alpha = 1.0 / accWtOld;
+            beta  = 1.0;
+            blasInst.xgemm(&transa, &transb, &nFeatures, &nFeatures, &one, &alpha, sumOld, &nFeatures, sumOld, &one, &beta, crossProduct, &nFeatures);
+            daal::services::daal_free(sumOld);
+        }
+        for (DAAL_INT i = 0; i < nVectors; ++i)
+        {
+            for (DAAL_INT j = 0; j < nFeatures; ++j) // if accWtOld = 0, overwrite sum
+            {
+                if (accWtOld != 0)
+                {
+                    sum[j] += data[i * nFeatures + j];
+                }
+                else
+                {
+                    if (i == 0)
+                        sum[j] = data[i * nFeatures + j]; //overwrite the current sum
+                    else
+                        sum[j] += data[i * nFeatures + j];
+                }
+            }
+        }
+
+        // -S S^t/accWt
+        alpha = -1.0 / accWt;
+        blasInst.xgemm(&transa, &transb, &nFeatures, &nFeatures, &one, &alpha, sum, &nFeatures, sum, &one, &beta, crossProduct, &nFeatures);
+
+        // X X^t
+        transb = 'T';
+        alpha  = 1.0;
+        beta   = 1.0;
+        blasInst.xgemm(&transa, &transb, &nFeatures, &nFeatures, &nVectors, &alpha, data, &nFeatures, data, &nFeatures, &beta, crossProduct,
+                       &nFeatures);
 
         return errcode;
     }