Temp fix for cubecl strategy

tracel-ai · nathanielsimard · Nov 29, 2024 · Oct 19, 2024 · Oct 19, 2024 · Oct 19, 2024
commit 135d256c3ffcee752c72d359598a9fe5a859efd5
diff --git a/crates/burn-jit/src/kernel/conv/conv2d/im2col.rs b/crates/burn-jit/src/kernel/conv/conv2d/im2col.rs
@@ -5,7 +5,7 @@ use burn_tensor::{
 use cubecl::{calculate_cube_count_elemwise, linalg::matmul, prelude::*};
 
 use crate::{
-    kernel::into_contiguous,
+    kernel::{into_contiguous, matmul::cube_strategy},
     ops::{numeric::empty_device, reshape, swap_dims},
     tensor::JitTensor,
     FloatElement, IntElement, JitBackend, JitRuntime,
@@ -298,7 +298,7 @@ fn execute<R: JitRuntime, E: FloatElement>(
     let weight = reshape(weight, Shape::new([groups, out_c_per_group, col_shape_0]));
 
     matmul::launch_ref::<R, E>(
-        &Default::default(),
+        &cube_strategy::<R>(&client),
         &client,
         weight.as_handle_ref(),
         columns.as_handle_ref(),

diff --git a/crates/burn-jit/src/kernel/matmul/base.rs b/crates/burn-jit/src/kernel/matmul/base.rs
@@ -1,7 +1,12 @@
 use super::{init_matmul_output, matmul_simple};
 use crate::{tensor::JitTensor, FloatElement, JitRuntime};
 use burn_tensor::Shape;
-use cubecl::prelude::*;
+use cubecl::{
+    ir::{Elem, FloatKind},
+    linalg::matmul::Strategy,
+    prelude::*,
+    Feature,
+};
 
 #[cfg(feature = "autotune")]
 use super::matmul_autotune;
@@ -49,8 +54,9 @@ pub fn matmul<R: JitRuntime, E: FloatElement>(
             let out = init_matmul_output::<R, E>(&lhs, &rhs);
 
             let client = &lhs.client;
+
             cubecl::linalg::matmul::launch_ref::<R, E>(
-                &Default::default(),
+                &cube_strategy::<R>(client),
                 client,
                 lhs.as_handle_ref(),
                 rhs.as_handle_ref(),
@@ -63,6 +69,26 @@ pub fn matmul<R: JitRuntime, E: FloatElement>(
     }
 }
 
+pub(crate) fn cube_strategy<R: JitRuntime>(
+    client: &ComputeClient<R::Server, R::Channel>,
+) -> Strategy {
+    // TODO: Replace with auto option once cubecl has one
+    let cmma_available = client.properties().feature_enabled(Feature::Cmma {
+        a: Elem::Float(FloatKind::F16),
+        b: Elem::Float(FloatKind::F16),
+        c: Elem::Float(FloatKind::F32),
+        m: 16,
+        k: 16,
+        n: 16,
+    });
+    let plane_available = client.properties().feature_enabled(Feature::Plane);
+    match (cmma_available, plane_available) {
+        (true, _) => Strategy::Accelerated,
+        (false, true) => Strategy::PlaneMma,
+        _ => Strategy::Tiling2D(Default::default()),
+    }
+}
+
 pub(crate) fn simple_cube_count(
     lhs_shape: &Shape,
     rhs_shape: &Shape,

diff --git a/crates/burn-jit/src/kernel/matmul/tune/base.rs b/crates/burn-jit/src/kernel/matmul/tune/base.rs
@@ -5,7 +5,10 @@ use cubecl::tune::{local_tuner, AutotuneOperation, AutotuneOperationSet, LocalTu
 
 use crate::{
     element::FloatElement,
-    kernel::{matmul::utils::init_matmul_output, prng::random_like_uniform},
+    kernel::{
+        matmul::{cube_strategy, utils::init_matmul_output},
+        prng::random_like_uniform,
+    },
     ops::numeric::empty_device,
     tensor::JitTensor,
     tune_key::JitAutotuneKey,
@@ -149,8 +152,9 @@ matmul_tune_ops!(SimpleMatmul16x16, |lhs, rhs, out| {
 matmul_tune_ops!(
     MatmulCube,
     |lhs: JitTensor<R>, rhs: JitTensor<R>, out: JitTensor<R>| {
+        let strategy = cube_strategy::<R>(&lhs.client);
         cubecl::linalg::matmul::launch_ref::<R, E>(
-            &Default::default(),
+            &strategy,
             &lhs.client,
             lhs.as_handle_ref(),
             rhs.as_handle_ref(),