kokkos · amklinv-nnl · May 16, 2023 · May 25, 2023 · May 31, 2023 · May 31, 2023
diff --git a/CMakeLists.txt b/CMakeLists.txt
@@ -130,6 +130,15 @@ if(LINALG_ENABLE_KOKKOS)
   find_package(KokkosKernels REQUIRED)
 endif()
 
+find_package(TBB)
+option(LINALG_ENABLE_TBB
+  "Enable Threaded Building Blocks for tests. Default: autodetect TBB installation."
+  ${TBB_FOUND}
+)
+if(LINALG_ENABLE_TBB)
+  find_package(TBB REQUIRED)
+endif()
+
 ################################################################################
 
 CONFIGURE_FILE(include/experimental/__p1673_bits/linalg_config.h.in
@@ -152,6 +161,10 @@ if(LINALG_ENABLE_KOKKOS)
   )
 endif()
 
+if(LINALG_ENABLE_TBB)
+  target_link_libraries(linalg INTERFACE TBB::tbb)
+endif()
+
 target_include_directories(linalg INTERFACE
   $<BUILD_INTERFACE:${CMAKE_CURRENT_SOURCE_DIR}/include>
   $<INSTALL_INTERFACE:include>

diff --git a/examples/01_scale.cpp b/examples/01_scale.cpp
@@ -13,7 +13,7 @@
 // Make mdspan less verbose
 using std::experimental::mdspan;
 using std::experimental::extents;
-using std::experimental::dynamic_extent;
+using std::dynamic_extent;
 
 int main(int argc, char* argv[]) {
   std::cout << "Scale" << std::endl;
@@ -26,7 +26,7 @@ int main(int argc, char* argv[]) {
     // With CTAD working we could do, GCC 11.1 works but some others are buggy
     // mdspan x(x_vec.data(), N);
     mdspan<double, extents<std::size_t, dynamic_extent>> x(x_vec.data(),N);
-    for(int i=0; i<x.extent(0); i++) x(i) = i;
+    for(int i=0; i<x.extent(0); i++) x[i] = i;
 
     // Call linalg::scale x = 2.0*x;
     std::experimental::linalg::scale(2.0, x);
@@ -36,6 +36,6 @@ int main(int argc, char* argv[]) {
     std::experimental::linalg::scale(2.0, x);
 #endif
 
-    for(int i=0; i<x.extent(0); i+=5) std::cout << i << " " << x(i) << std::endl;
+    for(int i=0; i<x.extent(0); i+=5) std::cout << i << " " << x[i] << std::endl;
   }
 }
diff --git a/examples/02_matrix_vector_product_basic.cpp b/examples/02_matrix_vector_product_basic.cpp
@@ -13,7 +13,7 @@
 // Make mdspan less verbose
 using std::experimental::mdspan;
 using std::experimental::extents;
-using std::experimental::dynamic_extent;
+using std::dynamic_extent;
 
 int main(int argc, char* argv[]) {
   std::cout << "Matrix Vector Product Basic" << std::endl;
@@ -31,11 +31,11 @@ int main(int argc, char* argv[]) {
     mdspan<double, extents<std::size_t, dynamic_extent>> y(y_vec.data(),N);
     for(int i=0; i<A.extent(0); i++)
       for(int j=0; j<A.extent(1); j++)
-        A(i,j) = 100.0*i+j;
+        A[i,j] = 100.0*i+j;
     for(int i=0; i<x.extent(0); i++)
-      x(i) = 1. * i;
+      x[i] = 1. * i;
     for(int i=0; i<y.extent(0); i++)
-      y(i) = -1. * i;
+      y[i] = -1. * i;
 
     // y = A * x
     std::experimental::linalg::matrix_vector_product(A, x, y);
@@ -50,6 +50,6 @@ int main(int argc, char* argv[]) {
        std::experimental::linalg::scaled(2.0, A), x,
        std::experimental::linalg::scaled(0.5, y), y);
 #endif
-    for(int i=0; i<y.extent(0); i+=5) std::cout << i << " " << y(i) << std::endl;
+    for(int i=0; i<y.extent(0); i+=5) std::cout << i << " " << y[i] << std::endl;
   }
 }
diff --git a/examples/03_matrix_vector_product_mixedprec.cpp b/examples/03_matrix_vector_product_mixedprec.cpp
@@ -5,9 +5,9 @@
 // Make mdspan less verbose
 using std::experimental::mdspan;
 using std::experimental::extents;
-using std::experimental::dynamic_extent;
+using std::dynamic_extent;
 using std::experimental::submdspan;
-using std::experimental::full_extent;
+using std::full_extent;
 
 int main(int argc, char* argv[]) {
   std::cout << "Matrix Vector Product MixedPrec" << std::endl;
@@ -25,13 +25,13 @@ int main(int argc, char* argv[]) {
     for(int m=0; m<A.extent(0); m++)
       for(int i=0; i<A.extent(1); i++)
         for(int j=0; j<A.extent(2); j++)
-        A(m,i,j) = 1000.0 * m + 100.0 * i + j;
+        A[m,i,j] = 1000.0 * m + 100.0 * i + j;
     for(int i=0; i<x.extent(0); i++)
       for(int m=0; m<x.extent(1); m++)
-        x(i,m) = 33. * i + 0.33 * m;
+        x[i,m] = 33. * i + 0.33 * m;
     for(int m=0; m<y.extent(0); m++)
       for(int i=0; i<y.extent(1); i++)
-        y(m,i) = 33. * m + 0.33 * i;
+        y[m,i] = 33. * m + 0.33 * i;
 
     for(int m = 0; m < M; m++) {
       auto A_m = submdspan(A, m, full_extent, full_extent);
@@ -41,7 +41,7 @@ int main(int argc, char* argv[]) {
       std::experimental::linalg::matrix_vector_product(A_m, x_m, y_m);
     }
 
-    for(int i=0; i<y.extent(0); i+=5) std::cout << i << " " << y(i,1) << std::endl;
+    for(int i=0; i<y.extent(0); i+=5) std::cout << i << " " << y[i,1] << std::endl;
   }
 }
 
diff --git a/examples/kokkos-based/add_kokkos.cpp b/examples/kokkos-based/add_kokkos.cpp
@@ -30,7 +30,7 @@ int main(int argc, char* argv[])
     value_type* y_ptr = y_view.data();
     value_type* z_ptr = z_view.data();
 
-    using dyn_1d_ext_type = std::experimental::extents<std::experimental::dynamic_extent>;
+    using dyn_1d_ext_type = std::experimental::extents<std::dynamic_extent>;
     using mdspan_type  = std::experimental::mdspan<value_type, dyn_1d_ext_type>;
     mdspan_type x(x_ptr,N);
     mdspan_type y(y_ptr,N);

diff --git a/examples/kokkos-based/dot_kokkos.cpp b/examples/kokkos-based/dot_kokkos.cpp
@@ -16,7 +16,7 @@ int main(int argc, char* argv[])
     value_type* a_ptr = a_view.data();
     value_type* b_ptr = b_view.data();
 
-    using dyn_1d_ext_type = std::experimental::extents<std::experimental::dynamic_extent>;
+    using dyn_1d_ext_type = std::experimental::extents<std::dynamic_extent>;
     using mdspan_type  = std::experimental::mdspan<value_type, dyn_1d_ext_type>;
     mdspan_type a(a_ptr,N);
     mdspan_type b(b_ptr,N);

diff --git a/examples/kokkos-based/dotc_kokkos.cpp b/examples/kokkos-based/dotc_kokkos.cpp
@@ -16,7 +16,7 @@ int main(int argc, char* argv[])
     value_type* a_ptr = a_view.data();
     value_type* b_ptr = b_view.data();
 
-    using dyn_1d_ext_type = std::experimental::extents<std::experimental::dynamic_extent>;
+    using dyn_1d_ext_type = std::experimental::extents<std::dynamic_extent>;
     using mdspan_type  = std::experimental::mdspan<value_type, dyn_1d_ext_type>;
     mdspan_type a(a_ptr,N);
     mdspan_type b(b_ptr,N);

diff --git a/examples/kokkos-based/scale_kokkos.cpp b/examples/kokkos-based/scale_kokkos.cpp
@@ -15,7 +15,7 @@ int main(int argc, char* argv[])
 
     // Requires CTAD working, GCC 11.1 works but some others are buggy
     // std::experimental::mdspan a(a_ptr,N);
-    std::experimental::mdspan<double,std::experimental::extents<std::experimental::dynamic_extent>> a(a_ptr,N);
+    std::experimental::mdspan<double,std::experimental::extents<std::dynamic_extent>> a(a_ptr,N);
     for(std::size_t i=0; i<a.extent(0); i++) a(i) = i;
 
     // This forwards to KokkosKernels (https://github.com/kokkos/kokkos-kernels

diff --git a/examples/kokkos-based/vector_abs_sum_kokkos.cpp b/examples/kokkos-based/vector_abs_sum_kokkos.cpp
@@ -13,7 +13,7 @@ int main(int argc, char* argv[])
     Kokkos::View<value_type*> x_view("x",N);
     value_type* x_ptr = x_view.data();
 
-    using dyn_1d_ext_type = std::experimental::extents<std::experimental::dynamic_extent>;
+    using dyn_1d_ext_type = std::experimental::extents<std::dynamic_extent>;
     using mdspan_type  = std::experimental::mdspan<value_type, dyn_1d_ext_type>;
     mdspan_type x(x_ptr,N);
     for(std::size_t i=0; i<x.extent(0); i++){

diff --git a/examples/kokkos-based/vector_norm2_kokkos.cpp b/examples/kokkos-based/vector_norm2_kokkos.cpp
@@ -13,7 +13,7 @@ int main(int argc, char* argv[])
     Kokkos::View<value_type*> x_view("x",N);
     value_type* x_ptr = x_view.data();
 
-    using dyn_1d_ext_type = std::experimental::extents<std::experimental::dynamic_extent>;
+    using dyn_1d_ext_type = std::experimental::extents<std::dynamic_extent>;
     using mdspan_type  = std::experimental::mdspan<value_type, dyn_1d_ext_type>;
     mdspan_type x(x_ptr,N);
     for(std::size_t i=0; i<x.extent(0); i++){

diff --git a/examples/kokkos-based/vector_sum_of_squares_kokkos.cpp b/examples/kokkos-based/vector_sum_of_squares_kokkos.cpp
@@ -13,7 +13,7 @@ int main(int argc, char* argv[])
     Kokkos::View<value_type*> x_view("x",N);
     value_type* x_ptr = x_view.data();
 
-    using dyn_1d_ext_type = std::experimental::extents<std::experimental::dynamic_extent>;
+    using dyn_1d_ext_type = std::experimental::extents<std::dynamic_extent>;
     using mdspan_type  = std::experimental::mdspan<value_type, dyn_1d_ext_type>;
     mdspan_type x(x_ptr,N);
     for(std::size_t i=0; i<x.extent(0); i++){

diff --git a/include/experimental/__p1673_bits/blas1_dot.hpp b/include/experimental/__p1673_bits/blas1_dot.hpp
@@ -43,6 +43,7 @@
 #ifndef LINALG_INCLUDE_EXPERIMENTAL___P1673_BITS_BLAS1_DOT_HPP_
 #define LINALG_INCLUDE_EXPERIMENTAL___P1673_BITS_BLAS1_DOT_HPP_
 
+#include <ranges>
 #include <type_traits>
 
 namespace std {
@@ -90,7 +91,7 @@ template<class ElementType1,
          class Accessor2,
          class Scalar>
 Scalar dot(
-  std::experimental::linalg::impl::inline_exec_t&& /* exec */,
+  std::experimental::linalg::impl::inline_exec_t&& exec,
   std::experimental::mdspan<ElementType1, std::experimental::extents<SizeType1, ext1>, Layout1, Accessor1> v1,
   std::experimental::mdspan<ElementType2, std::experimental::extents<SizeType2, ext2>, Layout2, Accessor2> v2,
   Scalar init)
@@ -100,10 +101,18 @@ Scalar dot(
                 v1.static_extent(0) == v2.static_extent(0));
 
   using size_type = std::common_type_t<SizeType1, SizeType2>;
-  for (size_type k = 0; k < v1.extent(0); ++k) {
-    init += v1(k) * v2(k);
-  }
-  return init;
+  using scalar_type = std::common_type_t<ElementType1, ElementType2, Scalar>;
+  using std::ranges::iota_view;
+  using std::ranges::begin;
+  using std::ranges::end;
+
+  iota_view range{size_type{}, v1.extent(0)};
+
+  Scalar sum = std::transform_reduce(exec, begin(range), end(range), init,
-  Scalar sum = std::transform_reduce(exec, begin(range), end(range), init,
+  Scalar sum = std::transform_reduce(begin(range), end(range), init,
-  Scalar sum = std::transform_reduce(exec, begin(range), end(range), init,
+  Scalar sum = std::transform_reduce(begin(range), end(range), init,
+    std::plus<void>{},
+    [=](size_type i) { return v1[i] * v2[i]; });
+
+  return sum;
 }
 
 template<class ExecutionPolicy,
@@ -155,7 +164,7 @@ Scalar dot(std::experimental::mdspan<ElementType1, std::experimental::extents<Si
            std::experimental::mdspan<ElementType2, std::experimental::extents<SizeType2, ext2>, Layout2, Accessor2> v2,
            Scalar init)
 {
-  return dot(std::experimental::linalg::impl::default_exec_t(), v1, v2, init);
+  return dot(std::experimental::linalg::impl::default_exec(), v1, v2, init);
 }
 
 template<class ElementType1,
@@ -217,7 +226,7 @@ namespace dot_detail {
   auto dot_return_type_deducer(
     std::experimental::mdspan<ElementType1, std::experimental::extents<SizeType1, ext1>, Layout1, Accessor1> x,
     std::experimental::mdspan<ElementType2, std::experimental::extents<SizeType2, ext2>, Layout2, Accessor2> y)
-  -> decltype(x(0) * y(0));
+  -> decltype(x[0] * y[0]);
 } // namespace dot_detail
 
 

diff --git a/include/experimental/__p1673_bits/blas1_givens.hpp b/include/experimental/__p1673_bits/blas1_givens.hpp
@@ -399,9 +399,9 @@ void givens_rotation_apply(
   using index_type = ::std::common_type_t<SizeType1, SizeType2>;
   const auto x_extent_0 = static_cast<index_type>(x.extent(0));
   for (index_type i = 0; i < x_extent_0; ++i) {
-    const auto dtemp = c * x(i) + s * y(i);
-    y(i) = c * y(i) - s * x(i);
-    x(i) = dtemp;
+    const auto dtemp = c * x[i] + s * y[i];
+    y[i] = c * y[i] - s * x[i];
+    x[i] = dtemp;
   }
 }
 
@@ -496,9 +496,9 @@ void givens_rotation_apply(
   using index_type = ::std::common_type_t<SizeType1, SizeType2>;
   const auto x_extent_0 = static_cast<index_type>(x.extent(0));
   for (index_type i = 0; i < x_extent_0; ++i) {
-    const auto dtemp = c * x(i) + s * y(i);
-    y(i) = c * y(i) - conj(s) * x(i);
-    x(i) = dtemp;
+    const auto dtemp = c * x[i] + s * y[i];
+    y[i] = c * y[i] - conj(s) * x[i];
+    x[i] = dtemp;
   }
 }
 

diff --git a/include/experimental/__p1673_bits/blas1_linalg_add.hpp b/include/experimental/__p1673_bits/blas1_linalg_add.hpp
@@ -82,7 +82,7 @@ void add_rank_1(
 
   using size_type = std::common_type_t<SizeType_x, SizeType_y, SizeType_z>;
   for (size_type i = 0; i < z.extent(0); ++i) {
-    z(i) = x(i) + y(i);
+    z[i] = x[i] + y[i];
   }
 }
 
@@ -132,7 +132,7 @@ void add_rank_2(
   using size_type = std::common_type_t<SizeType_x, SizeType_y, SizeType_z>;
   for (size_type j = 0; j < x.extent(1); ++j) {
     for (size_type i = 0; i < x.extent(0); ++i) {
-      z(i,j) = x(i,j) + y(i,j);
+      z[i,j] = x[i,j] + y[i,j];
-      z[i,j] = x[i,j] + y[i,j];
+#if (MDSPAN_USE_PAREN_OPERATOR > 0)
+      z(i,j) = x(i,j) + y(i,j);
+#else
+      z[i,j] = x[i,j] + y[i,j];
+#endif
-      z[i,j] = x[i,j] + y[i,j];
+#if defined(__cpp_multidimensional_subscript)
+      z[i,j] = x[i,j] + y[i,j];
+#else
+      z(i,j) = x(i,j) + y(i,j);
+#endif
-      z[i,j] = x[i,j] + y[i,j];
+#if (MDSPAN_USE_PAREN_OPERATOR > 0)
+      z(i,j) = x(i,j) + y(i,j);
+#else
+      z[i,j] = x[i,j] + y[i,j];
+#endif
-      z[i,j] = x[i,j] + y[i,j];
+#if defined(__cpp_multidimensional_subscript)
+      z[i,j] = x[i,j] + y[i,j];
+#else
+      z(i,j) = x(i,j) + y(i,j);
+#endif
     }
   }
 }

diff --git a/include/experimental/__p1673_bits/blas1_linalg_copy.hpp b/include/experimental/__p1673_bits/blas1_linalg_copy.hpp
@@ -69,7 +69,7 @@ void copy_rank_1(
                 x.static_extent(0) == y.static_extent(0));
   using size_type = std::common_type_t<SizeType_x, SizeType_y>;
   for (size_type i = 0; i < y.extent(0); ++i) {
-    y(i) = x(i);
+    y[i] = x[i];
   }
 }
 
@@ -98,7 +98,7 @@ void copy_rank_2(
   using size_type = std::common_type_t<SizeType_x, SizeType_y>;
   for (size_type j = 0; j < y.extent(1); ++j) {
     for (size_type i = 0; i < y.extent(0); ++i) {
-      y(i,j) = x(i,j);
+      y[i,j] = x[i,j];
     }
   }
 }

diff --git a/include/experimental/__p1673_bits/blas1_linalg_swap.hpp b/include/experimental/__p1673_bits/blas1_linalg_swap.hpp
@@ -74,7 +74,7 @@ void swap_rank_1(
   using size_type = std::common_type_t<SizeType_x, SizeType_y>;
 
   for (size_type i = 0; i < y.extent(0); ++i) {
-    swap(x(i), y(i));
+    swap(x[i], y[i]);
   }
 }
 
@@ -106,7 +106,7 @@ void swap_rank_2(
 
   for (size_type j = 0; j < y.extent(1); ++j) {
     for (size_type i = 0; i < y.extent(0); ++i) {
-      swap(x(i,j), y(i,j));
+      swap(x[i,j], y[i,j]);
     }
   }
 }

diff --git a/include/experimental/__p1673_bits/blas1_matrix_inf_norm.hpp b/include/experimental/__p1673_bits/blas1_matrix_inf_norm.hpp
@@ -100,14 +100,14 @@ Scalar matrix_inf_norm(
     return result;
   }
   else if(A.extent(0) == size_type(1) && A.extent(1) == size_type(1)) {
-    result += abs(A(0, 0));
+    result += abs(A[0, 0]);
     return result;
   }
 
   for (size_type i = 0; i < A.extent(0); ++i) {
     auto row_sum = init;
     for (size_type j = 0; j < A.extent(1); ++j) {
-      row_sum += abs(A(i,j));
+      row_sum += abs(A[i,j]);
     }
     result = max(row_sum, result);
   }
@@ -170,7 +170,7 @@ namespace matrix_inf_norm_detail {
     class Layout,
     class Accessor>
   auto matrix_inf_norm_return_type_deducer(
-    std::experimental::mdspan<ElementType, std::experimental::extents<SizeType, numRows, numCols>, Layout, Accessor> A) -> decltype(abs(A(0,0)));
+    std::experimental::mdspan<ElementType, std::experimental::extents<SizeType, numRows, numCols>, Layout, Accessor> A) -> decltype(abs(A[0,0]));
 
 } // namespace matrix_inf_norm_detail
 

diff --git a/include/experimental/__p1673_bits/blas1_matrix_one_norm.hpp b/include/experimental/__p1673_bits/blas1_matrix_one_norm.hpp
@@ -101,7 +101,7 @@ Scalar matrix_one_norm(
     return result;
   }
   else if(A.extent(0) == size_type(1) && A.extent(1) == size_type(1)) {
-    result += abs(A(0, 0));
+    result += abs(A[0, 0]);
     return result;
   }
 
@@ -110,7 +110,7 @@ Scalar matrix_one_norm(
   for (size_type j = 0; j < A.extent(1); ++j) {
     auto col_sum = init;
     for (size_type i = 0; i < A.extent(0); ++i) {
-      col_sum += abs(A(i,j));
+      col_sum += abs(A[i,j]);
     }
     result = max(col_sum, result);
   }
@@ -171,7 +171,7 @@ namespace matrix_one_norm_detail {
     class Layout,
     class Accessor>
   auto matrix_one_norm_return_type_deducer(
-    std::experimental::mdspan<ElementType, std::experimental::extents<SizeType, numRows, numCols>, Layout, Accessor> A) -> decltype(abs(A(0,0)));
+    std::experimental::mdspan<ElementType, std::experimental::extents<SizeType, numRows, numCols>, Layout, Accessor> A) -> decltype(abs(A[0,0]));
 
 } // namespace matrix_one_norm_detail
 

diff --git a/include/experimental/__p1673_bits/blas1_scale.hpp b/include/experimental/__p1673_bits/blas1_scale.hpp
@@ -61,7 +61,7 @@ void linalg_scale_rank_1(
   std::experimental::mdspan<ElementType, std::experimental::extents<SizeType, ext0>, Layout, Accessor> x)
 {
   for (SizeType i = 0; i < x.extent(0); ++i) {
-    x(i) *= alpha;
+    x[i] *= alpha;
   }
 }
 
@@ -78,7 +78,7 @@ void linalg_scale_rank_2(
 {
   for (SizeType j = 0; j < A.extent(1); ++j) {
     for (SizeType i = 0; i < A.extent(0); ++i) {
-      A(i,j) *= alpha;
+      A[i,j] *= alpha;
     }
   }
 }