diff --git a/.github/workflows/scripts/formatScan/clangtidy.sh b/.github/workflows/scripts/formatScan/clangtidy.sh
index a3795d6fc..e776c1ef2 100644
--- a/.github/workflows/scripts/formatScan/clangtidy.sh
+++ b/.github/workflows/scripts/formatScan/clangtidy.sh
@@ -11,7 +11,7 @@ log_path=${log_dir}/clangtidy.log
 cd ${REPO_DIR}
 mkdir build
 cd build
-cmake .. -G Ninja -DNS_USE_CLANG_TIDY=CHECK -DBTLA_USE_OPENMP=OFF
+cmake .. -G Ninja -DNS_USE_CLANG_TIDY=CHECK -DBTLA_ENABLE_OPENMP=OFF -DNS_USE_OMP=OFF
 ninja 2>&1 | tee ${log_path}
 
 if [[ ! -f ${log_path} ]] || [[ $(grep -c "warning:" ${log_path}) != 0 ]] || [[ $(grep -c "error" ${log_path}) != 0 ]]; then
diff --git a/CMakeLists.txt b/CMakeLists.txt
index c8e4d6c82..c341d83c7 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -60,9 +60,9 @@ option(NS_AVX512_VBMI            "neural_speed: enable AVX512-VBMI"
 option(NS_AVX512_VNNI            "neural_speed: enable AVX512-VNNI"                             OFF)
 option(NS_FMA                    "neural_speed: enable FMA"                                     ON)
 option(NS_AMX                    "neural_speed: enable AMX"                                     OFF)
+option(NS_USE_OMP                "neural_speed: use OpenMP thread pool."                        ON)
 
 option(NS_BUILD_TESTS            "neural_speed: build tests"                       ${NS_STANDALONE})
-option(NS_BTLA_UT                "enable BesTLA's unit tests"                                   OFF)
 option(NS_BUILD_EXAMPLES         "neural_speed: build examples"                    ${NS_STANDALONE})
 option(NS_USE_CLANG_TIDY         "neural_speed: clang-tidy check"                               OFF)
 
@@ -135,12 +135,13 @@ if (NS_PYTHON_API)
   add_subdirectory(third_party/pybind11)
 endif()
 
-if (NS_BTLA_UT)
-  set(BTLA_UT_ALL ON)
+if(NS_USE_OMP)
+  include(FindOpenMP)
+  # compile BesTLA's OMPTheading class, then it can be used in ne_layers
+  set(BTLA_ENABLE_OPENMP ON CACHE BOOL "BesTLA enable compiling OpenMP threading")
+  add_compile_definitions(NS_USE_OMP)
 endif()
-include(FindOpenMP)
 
-set(BTLA_USE_OPENMP ON CACHE BOOL "BesTLA use OpenMP")
 add_subdirectory(bestla)
 
 add_subdirectory(neural_speed)
diff --git a/CMakePresets.json b/CMakePresets.json
index 2ba85fd8f..a9343e484 100644
--- a/CMakePresets.json
+++ b/CMakePresets.json
@@ -23,6 +23,16 @@
       "inherits": "linux-debug",
       "cacheVariables": { "CMAKE_BUILD_TYPE": "Release" }
     },
+    {
+      "name": "linux-release-thread",
+      "displayName": "Linux Release Thread Pool",
+      "description": "Release",
+      "inherits": "linux-debug",
+      "cacheVariables": {
+        "CMAKE_BUILD_TYPE": "Release",
+        "NS_USE_OMP": "OFF"
+      }
+    },
     {
       "name": "windows-base",
       "description": "Target Windows with the Visual Studio development environment.",
@@ -49,23 +59,51 @@
         "value": "x64",
         "strategy": "external"
       },
-      "cacheVariables": { "CMAKE_BUILD_TYPE": "Debug" }
+      "cacheVariables": {
+        "CMAKE_BUILD_TYPE": "Debug",
+        "NS_PROFILING": "ON",
+        "NS_USE_OMP": "ON",
+        "BTLA_UT_DEBUG": "ON"
+      }
     },
     {
       "name": "x64-release",
       "displayName": "x64 Release",
       "description": "Target Windows (64-bit) with the Visual Studio development environment. (RelWithDebInfo)",
       "inherits": "x64-debug",
-      "cacheVariables": { "CMAKE_BUILD_TYPE": "Release" }
+      "cacheVariables": {
+        "CMAKE_BUILD_TYPE": "Release",
+        "BTLA_UT_DEBUG": "OFF"
+      }
+    },
+    {
+      "name": "x64-release-thread",
+      "displayName": "x64 Release without OpenMP",
+      "description": "Target Windows (64-bit) with the Visual Studio development environment. (RelWithDebInfo)",
+      "inherits": "x64-release",
+      "cacheVariables": {
+        "NS_USE_OMP": "OFF"
+      }
     },
     {
       "name": "x64-bestla-UT",
       "displayName": "x64 BesTLA unit test",
       "description": "Target Windows (64-bit) with the Visual Studio development environment. (RelWithDebInfo)",
-      "inherits": "x64-debug",
+      "inherits": "x64-release",
       "cacheVariables": {
-        "CMAKE_BUILD_TYPE": "Release",
-        "NS_BTLA_UT": "ON"
+        "CMAKE_BUILD_TYPE": "RelWithDebInfo",
+        "BTLA_UT_ALL": "ON",
+        "BTLA_UT_BENCHMARK": "ON",
+        "BTLA_UT_OPENMP": "ON"
+      }
+    },
+    {
+      "name": "x64-ut-thread",
+      "displayName": "x64 BesTLA UT without OpenMP",
+      "description": "Target Windows (64-bit) with the Visual Studio development environment. (RelWithDebInfo)",
+      "inherits": "x64-bestla-UT",
+      "cacheVariables": {
+        "BTLA_UT_OPENMP": "OFF"
       }
     }
   ]
diff --git a/bestla/CMakeLists.txt b/bestla/CMakeLists.txt
index 2b17a8603..a3082acca 100644
--- a/bestla/CMakeLists.txt
+++ b/bestla/CMakeLists.txt
@@ -4,7 +4,7 @@ project(bestla LANGUAGES CXX VERSION 0.1.0)
 file(GLOB headers ${PROJECT_NAME}/*.h ${PROJECT_NAME}/*.hpp)
 file(GLOB xbyak_headers ${PROJECT_NAME}/xbyak/*.h ${PROJECT_NAME}/xbyak/*.hpp)
 
-option(BTLA_USE_OPENMP "Enable OpenMP thread pool" OFF)
+option(BTLA_ENABLE_OPENMP "Compile OpenMP thread pool if OMP can be found" OFF)
 
 option(BTLA_UT_ALL "Enable all unit tests" OFF)
 option(BTLA_UT_DEBUG "Enable debug unit tests" OFF)
@@ -19,7 +19,7 @@ option(BTLA_UT_KERNEL_INTRIN "Enable unit test for intrinsic kernels" OFF)
 option(BTLA_UT_KERNEL_WRAPPER "Enable unit test for runtime ISA kernels" OFF)
 option(BTLA_UT_NOASAN "Disable sanitize" OFF)
 option(BTLA_UT_BENCHMARK "Benchmark ON may take a long time to finish all tests" OFF)
-option(BTLA_UT_OPENMP "Use OpenMP" ON)
+option(BTLA_UT_OPENMP "Use OpenMP for UT tests" OFF)
 
 add_library(${PROJECT_NAME} INTERFACE)
 add_library(neural_speed::${PROJECT_NAME} ALIAS ${PROJECT_NAME})
@@ -30,10 +30,10 @@ target_include_directories(
 )
 
 
-if(BTLA_USE_OPENMP)
-  message(STATUS "BesTLA using OpenMP")
+if(BTLA_ENABLE_OPENMP)
+  message(STATUS "BesTLA enable OpenMP ThreadPool")
   target_compile_definitions(${PROJECT_NAME} INTERFACE BTLA_USE_OPENMP)
-endif(BTLA_USE_OPENMP)
+endif(BTLA_ENABLE_OPENMP)
 
 if(WIN32)
 	target_compile_definitions(${PROJECT_NAME} INTERFACE _CRT_SECURE_NO_WARNINGS NOMINMAX)
@@ -64,12 +64,14 @@ endif()
 
 function(add_ut_flag UT_OPTION)
 	if(${${UT_OPTION}})
-	  target_compile_definitions(${PROJECT_NAME}_ut PRIVATE ${UT_OPTION})
+	  # target_compile_definitions(${PROJECT_NAME}_ut PRIVATE ${UT_OPTION})
+    add_compile_definitions(${UT_OPTION})
 	endif()
 endfunction()
 
 if(UT_BUILD)
 	file(GLOB srcs ${PROJECT_NAME}/ut/*.cc ${PROJECT_NAME}/ut/*.cpp) #compile everything even run parts of UTs
+  list(REMOVE_ITEM srcs ${CMAKE_CURRENT_SOURCE_DIR}/${PROJECT_NAME}/ut/bestla_benchmark.cpp)
 	file(GLOB ut_headers ${PROJECT_NAME}/ut/*.h)
   include_directories(${PROJECT_NAME})
 	add_executable(${PROJECT_NAME}_ut ${srcs} ${headers} ${ut_headers})
@@ -96,8 +98,21 @@ if(UT_BUILD)
 	add_ut_flag(BTLA_UT_KERNEL_INTRIN)
 	add_ut_flag(BTLA_UT_KERNEL_JIT)
 	add_ut_flag(BTLA_UT_KERNEL_WRAPPER)
-	add_ut_flag(BTLA_UT_BENCHMARK)
-
 	target_link_libraries(${PROJECT_NAME}_ut PRIVATE ${PROJECT_NAME})
 endif(UT_BUILD)
 
+if(BTLA_UT_BENCHMARK)
+  file(GLOB srcs ${PROJECT_NAME}/ut/bestla_benchmark.cpp) #compile everything even run parts of UTs
+  file(GLOB ut_headers ${PROJECT_NAME}/ut/*.h)
+  include_directories(${PROJECT_NAME})
+	add_executable(${PROJECT_NAME}_benchmark ${srcs} ${headers} ${ut_headers})
+  if(BTLA_UT_OPENMP)
+    include(FindOpenMP)
+    target_compile_definitions(${PROJECT_NAME} INTERFACE BTLA_USE_OPENMP)
+    target_link_libraries(${PROJECT_NAME}_benchmark PRIVATE OpenMP::OpenMP_CXX)
+  endif()
+  if(NOT WIN32)
+		target_link_options(${PROJECT_NAME}_benchmark PRIVATE -lpthread)
+	endif()
+  target_link_libraries(${PROJECT_NAME}_benchmark PRIVATE ${PROJECT_NAME})
+endif(BTLA_UT_BENCHMARK)
diff --git a/bestla/bestla/bestla.h b/bestla/bestla/bestla.h
index d3327a656..7942eb6b7 100644
--- a/bestla/bestla/bestla.h
+++ b/bestla/bestla/bestla.h
@@ -31,6 +31,7 @@ enum class BTLA_ISA : uint8_t {
   AMX_INT8,
   AVX512_FP16,
   AVX512_BF16,
+  ISA_COUNT,
 };
 enum class BTLA_DTYPE : uint32_t {
   EleBitsMask = 0xff,
diff --git a/bestla/bestla/bestla_device.h b/bestla/bestla/bestla_device.h
index 921305e7c..ca161fd6d 100644
--- a/bestla/bestla/bestla_device.h
+++ b/bestla/bestla/bestla_device.h
@@ -215,6 +215,7 @@ class CpuDevice {
  public:
   inline int getThreads() { return numthreads; }
   inline int getCores() { return numcores; }
+  inline uint32_t getL3CacheSize() { return L3Cache; }
   inline uint32_t getL2CacheSize() { return L2Cache; }
   inline uint32_t getL1CacheSize() { return L1Cache; }
   inline uint32_t getL2CacheSize_E() { return E_L2Cache; }
@@ -228,7 +229,7 @@ class CpuDevice {
   inline bool AMX_BF16() { return mHasAMX_BF16; }
   inline bool AVX512_BF16() { return mHasAVX512_BF16; }
   inline bool AVX512_FP16() { return mHasAVX512_FP16; }
-  inline float getPE() { return (P_core.size() * P_power) / (E_core.size() * E_power); }
+  inline float* const getPE() { return PE; }
   inline size_t getPcoreNum() { return P_core.size(); }
   inline size_t getEcoreNum() { return E_core.size(); }
   inline size_t getSMTcoreNum() { return SMT_core.size(); }
@@ -328,12 +329,40 @@ class CpuDevice {
         }
       }
       numcores = P_core.size() + E_core.size();
-      numthreads = P_core.size() * 2 + E_core.size();
+      numthreads = P_core.size() + E_core.size() + SMT_core.size();
+
+      {
+        // set PE
+        uint32_t tmp[4];
+        _cpu.getCpuid(1, tmp);
+        if (p) printf("!!!\t%x\t%x\t%x\t%x!!!\n", tmp[0], tmp[1], tmp[2], tmp[3]);
+        const int famliy = (tmp[0] >> 8) & ((1u << 4) - 1);          // cpu.extractBit(a[0], 8, 11);
+        const int extendedModel = (tmp[0] >> 16) & ((1u << 4) - 1);  // cpu.extractBit(a[0], 16, 24);
+        {
+          for (int i = 0; i < int(BTLA_ISA::ISA_COUNT); i++) PE[i] = 1.0f;
+          // CPU identification refer to: https://en.wikichip.org/wiki/intel/cpuid
+          if (famliy == 6) switch (extendedModel) {
+              case 9:  // ALD
+                PE[int(BTLA_ISA::AVX2)] = 3.0f;
+                PE[int(BTLA_ISA::AVX_VNNI)] = 5.0f;
+                break;
+              case 10:  // MTL
+                PE[int(BTLA_ISA::AVX2)] = 2.2f;
+                PE[int(BTLA_ISA::AVX_VNNI)] = 3.0f;
+                break;
+              case 11:  // RPL
+                PE[int(BTLA_ISA::AVX2)] = 1.8f;
+                PE[int(BTLA_ISA::AVX_VNNI)] = 2.6f;
+                break;
+            }
+        }
+      }
     } else {
       L1Cache = _cpu.getDataCacheSize(0);
       L2Cache = _cpu.getDataCacheSize(1);
       numthreads = numcores;
     }
+    L3Cache = _cpu.getDataCacheSize(2);
 #if FIXED_CACHE
     L2Cache = L2Cache >= FIXED_CACHE_SIZE ? FIXED_CACHE_SIZE : L2Cache;
     E_L2Cache = E_L2Cache >= FIXED_CACHE_SIZE ? FIXED_CACHE_SIZE : E_L2Cache;
@@ -357,7 +386,7 @@ class CpuDevice {
     Xbyak::util::Cpu cpu;
     uint32_t tmp[4];
     cpu.getCpuid(0x1A, tmp);
-    int core_type = (tmp[0] >> 24) & ((1u << 7) - 1);  // cpu.extractBit(a[0], 24, 31);
+    int core_type = (tmp[0] >> 24) & ((1u << 8) - 1);  // cpu.extractBit(a[0], 24, 31);
     switch (core_type) {
       case 32:
         // printf("Atom\n");
@@ -407,7 +436,7 @@ class CpuDevice {
   }
   static void core_bond(int core) {
 #ifdef _WIN32
-    SetThreadAffinityMask(GetCurrentThread(), 1 << core);
+    SetThreadAffinityMask(GetCurrentThread(), 1LL << core);
 #else
     cpu_set_t cpuset;
     CPU_ZERO(&cpuset);
@@ -420,7 +449,7 @@ class CpuDevice {
   static void core_bond(std::thread& thread, int core) {
 #ifdef _WIN32
     HANDLE handle = thread.native_handle();
-    SetThreadAffinityMask(handle, 1 << core);
+    SetThreadAffinityMask(handle, 1LL << core);
 #else
     cpu_set_t cpuset;
     CPU_ZERO(&cpuset);
@@ -434,7 +463,7 @@ class CpuDevice {
   bool isHybrid() { return mHybrid; }
 
  protected:
-  uint32_t L2Cache, L1Cache;
+  uint32_t L2Cache, L1Cache, L3Cache;
   bool mHybrid = false;
   bool mHasAVX2, mHasAVX_VNNI, mHasAVX, mHasAVX512_VNNI, mHasAMX_INT8, mHasAMX_BF16, mHasAVX512F, mHasAVX512_BF16,
       mHasAVX512_FP16;
@@ -442,21 +471,61 @@ class CpuDevice {
   int numthreads;
   std::vector<int> P_core, E_core, SMT_core;
   uint32_t E_L2Cache, E_L1Cache;
-  float P_power = 4.8, E_power = 2.3;
+  float PE[int(BTLA_ISA::ISA_COUNT)];
 };
 
 #define GetCPUDevice() auto _cd = bestla::device::CpuDevice::getInstance();
 
-class CpuBase {
+class CpuRuntime {
  public:
-  CpuBase() {
+  CpuRuntime() = default;
+  static CpuRuntime& getInstance(int thread) {
+    static std::map<int, CpuRuntime> instances;
+    if (instances.count(thread) == 0) instances[thread] = CpuRuntime(thread);
+    return instances[thread];
+  }
+
+  inline float getPE(const BTLA_ISA isa) {
+    // printf("GET:%d\t%f\n",int(isa), *cur_PE);
+    return PE[int(isa)] * P_core_num / E_core_num;
+  }
+
+  inline void adjustPE(const BTLA_ISA isa, const float PE_) {
+    // printf("Adjust:%d,%f\n",int(isa),PE_);
+    PE[int(isa)] *= PE_;
+  }
+
+  size_t mL2Cache, mL1Cache, mL2Cache_P = 0, mL1Cache_P = 0, mL2Cache_E = 0, mL1Cache_E = 0;
+  int P_core_num = 0, E_core_num = 0;
+  bool mHybrid = false;
+
+ private:
+  CpuRuntime(int thread) {
     GetCPUDevice();
     mL2Cache = _cd->getL2CacheSize();
     mL1Cache = _cd->getL1CacheSize();
-    mNumThreads = _cd->getThreads();
+    maxThreads = _cd->getThreads();
+    mHybrid = false;
+    if (_cd->isHybrid() && thread > _cd->getPcoreNum()) {
+      if (thread > _cd->getPcoreNum() + _cd->getEcoreNum()) {
+        mL1Cache_P = mL1Cache / 2;
+        mL2Cache_P = mL2Cache / 2;
+        P_core_num = _cd->getPcoreNum();
+        E_core_num = _cd->getEcoreNum();
+      } else {
+        mL1Cache_P = mL1Cache;
+        mL2Cache_P = mL2Cache;
+        P_core_num = _cd->getPcoreNum();
+        E_core_num = thread - P_core_num;
+      }
+      mL1Cache_E = _cd->getL1CacheSize_E();
+      mL2Cache_E = _cd->getL2CacheSize_E();
+      mHybrid = true;
+      memcpy(PE, _cd->getPE(), int(BTLA_ISA::ISA_COUNT) * sizeof(float));
+    }
   }
-  size_t mL2Cache, mL1Cache;
-  int mNumThreads;
+  float PE[int(BTLA_ISA::ISA_COUNT)];
+  int maxThreads;
 };
 }  // namespace device
 }  // namespace bestla
diff --git a/bestla/bestla/bestla_parallel.h b/bestla/bestla/bestla_parallel.h
index c780aa4cf..7a996ae05 100644
--- a/bestla/bestla/bestla_parallel.h
+++ b/bestla/bestla/bestla_parallel.h
@@ -12,6 +12,7 @@
 //  See the License for the specific language governing permissions and
 //  limitations under the License.
 #pragma once
+#include <atomic>
 #include <functional>
 #include <thread>
 #include <vector>
@@ -23,10 +24,244 @@
 
 namespace bestla {
 namespace parallel {
+
+using thread_func = std::function<void(int tid)>;
+
+class IThreading {
+ public:
+  explicit IThreading(int nthreads, bool supportPE) : mThreadNum(nthreads), isSupportPE(supportPE) {}
+  virtual void parallel_for(const thread_func& func) = 0;
+  virtual inline void sync(int tidx, int idx = 0) = 0;
+  virtual int num_threads() const { return mThreadNum; };
+  virtual int is_support_PE() const { return isSupportPE; };
+  virtual void set_threads(int nthreads) = 0;
+  virtual std::pair<float, float> get_PEtime() const { return {0.0f, 0.0f}; };
+
+ protected:
+  int mThreadNum;
+  const bool isSupportPE;
+};
+
+#if BTLA_OPENMP
+class OMPThreading : public IThreading {
+ public:
+  explicit OMPThreading(int nthreads) : IThreading(nthreads, false) {
+    // printf("Using OMP\n");
+    omp_set_num_threads(nthreads);
+  }
+  void parallel_for(const thread_func& func) override {
+    if (mThreadNum > 1) {
+#pragma omp parallel
+      {
+        int tidx = omp_get_thread_num();
+        func(tidx);
+      }
+    } else {
+      func(0);
+    }
+  }
+  virtual void set_threads(int nthreads) override {
+    mThreadNum = nthreads;
+    omp_set_num_threads(nthreads);
+  }
+  virtual inline void sync(int tidx, int idx = 0) override {
+    (void)(tidx);
+    (void)(idx);
+#pragma omp barrier
+    (void)(0);  // make msvc happy with c++20
+  }
+};
+#endif
+
+class StdThreading : public IThreading {
+ public:
+  using Timer_T = utils::timer<utils::microseconds>;
+  explicit StdThreading(int nthreads) : IThreading(nthreads, true) {
+    // printf("Using Std\n");
+    cr = &device::CpuRuntime::getInstance(nthreads);
+    create_threads();
+  }
+  void parallel_for(const thread_func& func) override {
+    time_per_p = 0;
+    time_per_e = 0;
+    Timer_T tm;
+    if (mThreadNum > 1) {
+      running.store(mThreadNum - 1);
+      for (int i = 0; i < 10; i++) flag[i].store(mThreadNum);
+      if (cr->mHybrid) {
+        int time_p = 0, time_e = 0;
+
+        for (size_t i = 0; i < mThreadNum - 1; i++) func_[i] = &func;
+        thread_time[0] = 0;
+        tm.start();
+        func(0);
+        thread_time[0] += int(tm.stop());
+        while (true) {
+          if (running.load() == 0)
+            break;
+          else
+            _mm_pause();
+        }
+        for (int i = 0; i < mThreadNum; i++)
+          if (i >= cr->P_core_num && i < cr->P_core_num + cr->E_core_num)
+            time_e += thread_time[i];
+          else
+            time_p += thread_time[i];
+        time_per_p = (time_p) / (1.0 * (mThreadNum - cr->E_core_num));
+        time_per_e = (time_e) / (1.0 * cr->E_core_num);
+        // printf("%d %d %f %f\n", time_p, time_e, time_per_p, time_per_e);
+      } else {
+        for (size_t i = 0; i < mThreadNum - 1; i++) {
+          func_[i] = &func;
+        }
+        func(0);
+        while (true) {
+          if (running.load() == 0)
+            break;
+          else
+            _mm_pause();
+        }
+      }
+    } else {
+      func(0);
+    }
+  }
+
+  void set_threads(int nthreads) override {
+    if (nthreads != mThreadNum) {
+      stop_threads();
+      mThreadNum = nthreads;
+      cr = &device::CpuRuntime::getInstance(nthreads);
+      create_threads();
+    }
+  }
+
+  inline void sync(int tidx, int idx = 0) override {
+    flag[idx].fetch_sub(1);
+    if (cr->mHybrid) {
+      Timer_T tm;
+      tm.start();
+      while (true) {
+        if (flag[idx].load() == 0)
+          break;
+        else
+          _mm_pause();
+      }
+      thread_time[tidx] -= int(tm.stop());
+    } else {
+      while (true) {
+        if (flag[idx].load() == 0)
+          break;
+        else
+          _mm_pause();
+      }
+    }
+  }
+
+  std::pair<float, float> get_PEtime() const override { return {time_per_p, time_per_e}; };
+
+  ~StdThreading() { stop_threads(); }
+
+ private:
+  void stop_threads() {
+    stop = true;
+    for (int i = 0; i < mThreadNum - 1; i++) thdset[i].join();
+    thdset.clear();
+    // printf("stop %d\n", mThreadNum);
+  }
+  void create_threads() {
+    // printf("create %d\n", mThreadNum);
+    thdset.resize(mThreadNum - 1);
+    stop = false;
+    GetCPUDevice();
+    std::vector<int> core_order;
+    if (_cd->isHybrid()) {
+      core_order.resize(_cd->getThreads());
+      memcpy(reinterpret_cast<void*>(core_order.data()), reinterpret_cast<void*>(_cd->getPCores()),
+             _cd->getPcoreNum() * sizeof(int));
+      memcpy(reinterpret_cast<void*>(core_order.data() + _cd->getPcoreNum()), reinterpret_cast<void*>(_cd->getECores()),
+             _cd->getEcoreNum() * sizeof(int));
+      memcpy(reinterpret_cast<void*>(core_order.data() + _cd->getPcoreNum() + _cd->getEcoreNum()),
+             reinterpret_cast<void*>(_cd->getSMTCores()), _cd->getSMTcoreNum() * sizeof(int));
+    } else {
+      core_order.resize(mThreadNum);
+      for (int i = 0; i < mThreadNum; i++) core_order[i] = i;
+    }
+    _cd->core_bond(core_order[0]);
+    if (cr->mHybrid) {
+      thread_time.resize(mThreadNum);
+      for (size_t i = 0; i < mThreadNum - 1; i++) {
+        thdset[i] = std::thread(
+            [&](int tidx, int core_id) {
+              _cd->core_bond(core_id);
+              Timer_T tm;
+              while (true) {
+                if (stop.load() == true) break;
+                if (func_[tidx] != nullptr) {
+                  thread_time[tidx + 1] = 0;
+                  tm.start();
+                  (*func_[tidx])(tidx + 1);
+                  func_[tidx] = nullptr;
+                  thread_time[tidx + 1] += int(tm.stop());
+                  running.fetch_sub(1);
+                } else {
+                  _mm_pause();
+                }
+              }
+            },
+            int(i), core_order[i + 1]);
+      }
+    } else
+      for (size_t i = 0; i < mThreadNum - 1; i++) {
+        thdset[i] = std::thread(
+            [&](int tidx, int core_id) {
+              _cd->core_bond(core_id);
+              while (true) {
+                if (stop.load() == true) break;
+                if (func_[tidx] != nullptr) {
+                  (*func_[tidx])(tidx + 1);
+                  func_[tidx] = nullptr;
+                  running.fetch_sub(1);
+                } else {
+                  _mm_pause();
+                }
+              }
+            },
+            int(i), core_order[i + 1]);
+      }
+  }
+  device::CpuRuntime* cr;
+  std::vector<int> thread_time;
+  float time_per_p, time_per_e;
+  std::vector<std::thread> thdset;
+  std::atomic_bool stop;
+  std::atomic_int running;
+  std::atomic_int flag[10];
+  const thread_func* func_[100];
+};
+
+class SingleThread : public IThreading {
+ public:
+  SingleThread() : IThreading(1, false) {}
+
+  void set_threads(int nthreads) override {
+    assert(0);
+    (void)(nthreads);
+  }
+
+  inline void parallel_for(const thread_func& func) override { func(0); }
+
+  inline void sync(int tidx, int idx = 0) override {
+    (void)(tidx);
+    (void)(idx);
+  }
+};
+
 struct Config2D {
   int threads;
   int size[2];
   int step[2];
+  int offset[2];
 };
 struct ThreadProblem2D {
   int tid;
@@ -60,6 +295,8 @@ class Scheduler2D {
     problem.loc[1] = problem.tidx[1] * mThdSize[1];
     problem.size[0] = utils::remainsize(problem.loc[0], mSize[0], mThdSize[0]);
     problem.size[1] = utils::remainsize(problem.loc[1], mSize[1], mThdSize[1]);
+    problem.loc[0] += moffset[0];
+    problem.loc[1] += moffset[1];
     problem.valid = true;
   }
 
@@ -68,10 +305,13 @@ class Scheduler2D {
     for (size_t i = 0; i < 2; i++) {
       mSize[i] = config.size[i];
       mStep[i] = config.step[i];
+      moffset[i] = config.offset[i];
     }
     schedule();
   }
 
+  constexpr static BTLA_ISA gemm_ISA() { return BTLA_ISA::NoSIMD; }
+
   void print() {
     printf("Thread Block:(%d,%d)\n", mThdSize[0], mThdSize[1]);
     printf("Thread in use:%d of %d, Nx%d\n", mThdValid, mThdCount, mThdPerRow);
@@ -111,6 +351,7 @@ class Scheduler2D {
   int mThdPerRow = 0;
   int mThdValid = 0;
   int mThdCount = 0;
+  int moffset[2] = {0, 0};
 
  private:
   int mThdSize[2] = {0, 0};
@@ -123,6 +364,7 @@ namespace gemm {
 struct Config {
   const int threads;
   const utils::GemmProblem problem;
+  const int offset[2];
   const size_t l2cache = 1024ULL * 1024;
   const size_t l1cache = 32ULL * 1024;
 };
@@ -156,6 +398,8 @@ class SchedulerBase : public Scheduler2D {
     mThdCount = config.threads;
     mL2Size = config.l2cache;
     mL1Size = config.l1cache;
+    Scheduler2D::moffset[0] = config.offset[0];
+    Scheduler2D::moffset[1] = config.offset[1];
     if (mSize[0] <= 0 || mSize[1] <= 0 || mSize[2] <= 0) {
       return;
     }
@@ -166,6 +410,8 @@ class SchedulerBase : public Scheduler2D {
     assert(this->mBlock[2] > 0);
   }
 
+  constexpr static BTLA_ISA gemm_ISA() { return _GemmCore_T::ISA; }
+
   constexpr int valid_theads() { return mThdValid; }
 
   virtual void print() {
@@ -175,6 +421,9 @@ class SchedulerBase : public Scheduler2D {
     printf("Cache Size:%zu used:%zu\n", mL2Size, mL2Use);
   }
 
+  template <class T>
+  friend class SchedulerDispatcher;
+
  protected:
   virtual void schedule() {
     int rownum = utils::updiv(mSize[0], mStep[0]);
@@ -204,7 +453,7 @@ class SchedulerBase : public Scheduler2D {
     mL2Use += static_cast<size_t>(mBlock[1]) * mBlock[2] * mEleSize[1];
     mL2Use += static_cast<size_t>(mStep[0]) * mBlock[2] * mEleSize[0];
   }
-  const float DensityThres = 16;
+  static float constexpr DensityThres = 16;
   static size_t constexpr ReservedSize = 32ULL * 1024ULL;
 
   virtual float calculate_score() {
@@ -279,8 +528,6 @@ class SchedulerBase : public Scheduler2D {
 
   size_t mL2Size = 0, mL1Size = 0, mL2Use = 0;
   float mDensity = 0.f;
-
- protected:
   int mSize[3] = {0, 0, 0};
   int mThdSize[3] = {0, 0, 0};
   static constexpr int mStep[3] = {_GemmCore_T::MTILE, _GemmCore_T::NTILE, _GemmCore_T::KTILE};
@@ -315,6 +562,8 @@ class SchedulerKBlock : public Scheduler2D {
     mThdCount = config.threads;
     mL2Size = config.l2cache;
     mL1Size = config.l1cache;
+    moffset[0] = config.offset[0];
+    moffset[1] = config.offset[1];
     mKBlock = config.problem.dims[4];
     if (mSize[0] <= 0 || mSize[1] <= 0 || mSize[2] <= 0) {
       return;
@@ -326,6 +575,8 @@ class SchedulerKBlock : public Scheduler2D {
     assert(this->mBlock[2] > 0);
   }
 
+  constexpr static BTLA_ISA gemm_ISA() { return _GemmCore_T::ISA; }
+
   constexpr int valid_theads() { return mThdValid; }
 
   void print() {
@@ -335,6 +586,9 @@ class SchedulerKBlock : public Scheduler2D {
     printf("Cache Size:%zu used:%zu\n", mL2Size, mL2Use);
   }
 
+  template <class T>
+  friend class SchedulerDispatcher;
+
  protected:
   void schedule() {
     int rownum = utils::updiv(mSize[0], mStep[0]);
@@ -364,7 +618,7 @@ class SchedulerKBlock : public Scheduler2D {
     mL2Use += static_cast<size_t>(mBlock[1]) * mBlock[2] * mEleSize[1];
     mL2Use += static_cast<size_t>(mStep[0]) * mBlock[2] * mEleSize[0];
   }
-  const float DensityThres = 16;
+  static float constexpr DensityThres = 16;
 
   float calculate_score() {
     int tmpnstep = mThdSize[1] < _GemmCore_T::PREFERRED_N ? mThdSize[1] : _GemmCore_T::PREFERRED_N;
@@ -495,8 +749,13 @@ class SchedulerKBlockS : public SchedulerBase<_GemmCore_T> {
     assert(this->mBlock[2] % _GemmCore_T::KTILE == 0);
   }
 
+  constexpr static BTLA_ISA gemm_ISA() { return _GemmCore_T::ISA; }
+
+  template <class T>
+  friend class SchedulerDispatcher;
+
  protected:
-  const float DensityThres = 16;
+  static float constexpr DensityThres = 16;
   static size_t constexpr ReservedSize = 32ULL * 1024ULL;
 
   void cache_blocking_compute() override {
@@ -581,84 +840,127 @@ class SchedulerKBlockS : public SchedulerBase<_GemmCore_T> {
   int mKBlock{0};
 };
 
-}  // namespace gemm
-using thread_func = std::function<void(int tid)>;
-
-class IThreading {
- public:
-  explicit IThreading(int nthreads) : mThreadNum(nthreads) {}
-  virtual void parallel_for(const thread_func& func) const = 0;
-  virtual inline void sync() const { assert(0); };
-  virtual int num_threads() const { return mThreadNum; };
-  virtual void set_threads(int nthreads) = 0;
-
- protected:
-  int mThreadNum;
-};
-#if BTLA_OPENMP
-class OMPThreading : public IThreading {
+template <class Scheduler>
+class SchedulerDispatcher {
  public:
-  explicit OMPThreading(int nthreads) : IThreading(nthreads) { omp_set_num_threads(nthreads); }
-  void parallel_for(const thread_func& func) const override {
-    if (mThreadNum > 1) {
-#pragma omp parallel
-      {
-        int tidx = omp_get_thread_num();
-        func(tidx);
-      }
+  using ThreadProblem = ThreadProblemBase;
+  SchedulerDispatcher() = default;
+  ~SchedulerDispatcher() {
+    std::pair<float, float> PEtime = th_->get_PEtime();
+    if (needDispach && int(PEtime.first) > 0 && int(PEtime.second) > 0)
+      cr->adjustPE(Scheduler::gemm_ISA(), PEtime.second / PEtime.first);
+  }
+  SchedulerDispatcher(const IThreading* th, const utils::GemmProblem& problem) {
+    th_ = th;
+    cr = &device::CpuRuntime::getInstance(th->num_threads());
+    needDispach = cr->mHybrid && th->is_support_PE();
+    if (!needDispach) {
+      Scheduler_P = std::move(Scheduler({th->num_threads(), problem, {0, 0}, cr->mL2Cache, cr->mL1Cache}));
     } else {
-      func(0);
+      Pcore_num = cr->P_core_num;
+      Ecore_num = cr->E_core_num;
+      utils::GemmProblem problem_P = problem, problem_E = problem;
+      const int N = problem.dims[2];
+      auto PE_Ratio = cr->getPE(Scheduler::gemm_ISA());
+      const int N_offset = utils::padto(N - int(N / (1 + PE_Ratio)), Scheduler::mStep[1]);
+      problem_P.dims[2] = N_offset;
+      Scheduler_P =
+          std::move(Scheduler({th->num_threads() - cr->E_core_num, problem_P, {0, 0}, cr->mL2Cache_P, cr->mL1Cache_P}));
+      problem_E.dims[2] = N - N_offset;
+      Scheduler_E = std::move(Scheduler({cr->E_core_num, problem_E, {0, N_offset}, cr->mL2Cache_E, cr->mL1Cache_E}));
     }
   }
-  virtual void set_threads(int nthreads) override {
-    mThreadNum = nthreads;
-    omp_set_num_threads(nthreads);
+
+  void getIndex(ThreadProblem& problem) {
+    if (!needDispach) {
+      Scheduler_P.getIndex(problem);
+    } else {
+      if (problem.tid >= Pcore_num + Ecore_num) {
+        problem.tid -= Ecore_num;
+        Scheduler_P.getIndex(problem);
+      } else if (problem.tid >= Pcore_num) {
+        problem.tid -= Pcore_num;
+        Scheduler_E.getIndex(problem);
+      } else {
+        Scheduler_P.getIndex(problem);
+      }
+    }
   }
-  virtual inline void sync() const override {
-#pragma omp barrier
-    (void)(0);  // make msvc happy with c++20
+
+  void print() {
+    printf("dispatch to hybrid:%d\n", needDispach);
+    Scheduler_P.print();
+    if (needDispach) Scheduler_E.print();
   }
+
+ private:
+  Scheduler Scheduler_P, Scheduler_E;
+  const IThreading* th_;
+  device::CpuRuntime* cr;
+  bool needDispach = false;
+  int Pcore_num = 0, Ecore_num = 0;
 };
-#endif
 
-class StdThreading : public IThreading {
+template <>
+class SchedulerDispatcher<Scheduler2D> {
  public:
-  explicit StdThreading(int nthreads) : IThreading(nthreads) {}
-  void parallel_for(const thread_func& func) const override {
-    if (mThreadNum > 1) {
-      std::vector<std::thread> thdset(mThreadNum - 1);
-      for (size_t i = 0; i < mThreadNum - 1; i++) {
-        thdset[i] = std::thread([&](int tidx) { func(tidx); }, int(i + 1));
-      }
-      func(0);
-      for (size_t i = 0; i < mThreadNum - 1; i++) {
-        thdset[i].join();
-      }
+  using ThreadProblem = ThreadProblem2D;
+  SchedulerDispatcher() = default;
+  ~SchedulerDispatcher() {}
+  SchedulerDispatcher(const IThreading* th, const Config2D& config) {
+    device::CpuRuntime& cr = device::CpuRuntime::getInstance(config.threads);
+    needDispach = cr.mHybrid && th->is_support_PE();
+    if (!needDispach) {
+      Scheduler_P = std::move(Scheduler2D(config));
     } else {
-      func(0);
+      Pcore_num = cr.P_core_num;
+      Ecore_num = cr.E_core_num;
+      Config2D config_P = config, config_E = config;
+      const int N = config.size[1];
+      const int N_offset = utils::padto(N - int(N / (1 + cr.getPE(BTLA_ISA::NoSIMD))), config.step[1]);
+      config_P.threads = config.threads - cr.E_core_num;
+      config_P.size[1] = N_offset;
+      Scheduler_P = std::move(Scheduler2D(config_P));
+      config_E.threads = cr.E_core_num;
+      config_E.size[1] = N - N_offset;
+      config_E.offset[1] += N_offset;
+      Scheduler_E = std::move(Scheduler2D(config_E));
     }
   }
 
-  void set_threads(int nthreads) override { mThreadNum = nthreads; }
+  void getIndex(ThreadProblem& problem) {
+    if (!needDispach) {
+      Scheduler_P.getIndex(problem);
+    } else {
+      if (problem.tid >= Pcore_num + Ecore_num) {
+        problem.tid -= Ecore_num;
+        Scheduler_P.getIndex(problem);
+      } else if (problem.tid >= Pcore_num) {
+        problem.tid -= Pcore_num;
+        Scheduler_E.getIndex(problem);
+      } else {
+        Scheduler_P.getIndex(problem);
+      }
+    }
+  }
 
-  inline void sync() const override { assert(0); }
+  void print() {
+    printf("dispatch to hybrid:%d\n", needDispach);
+    Scheduler_P.print();
+    if (needDispach) Scheduler_E.print();
+  }
 
  private:
+  Scheduler2D Scheduler_P, Scheduler_E;
+  bool needDispach = false;
+  int Pcore_num = 0, Ecore_num = 0;
 };
 
-class SingleThread : public StdThreading {
- public:
-  SingleThread() : StdThreading(1) {}
-
-  void set_threads(int nthreads) override { (void)(nthreads); }
-
-  inline void sync() const override {}
-};
+}  // namespace gemm
 
 template <class Parallel_T, class Launch_T>
 void GemmRun(Launch_T& launcher, const typename Launch_T::Param& args, parallel::IThreading* th) {
-  device::CpuBase cb;
-  Parallel_T para({th->num_threads(), args.problem, cb.mL2Cache, cb.mL1Cache});
+  gemm::SchedulerDispatcher<Parallel_T> para(th, args.problem);
   static bool flag = false;
   if (flag) {
     printf("%s\n", __FUNCTION__);
@@ -676,10 +978,9 @@ void GemmRun(Launch_T& launcher, const typename Launch_T::Param& args, parallel:
 
 template <class Parallel_T, class Launch_T>
 void GemmRunWithA(Launch_T& launcher, const typename Launch_T::Param& args, parallel::IThreading* th) {
-  device::CpuBase cb;
-  Parallel_T para({th->num_threads(), args.problem, cb.mL2Cache, cb.mL1Cache});
+  gemm::SchedulerDispatcher<Parallel_T> para(th, args.problem);
   using AParall = typename Launch_T::PrologueA::Parallel;
-  auto apara = launcher.mProA.createParallel(th->num_threads(), args.problem);
+  AParall apara = launcher.mProA.createParallel(th->num_threads(), args.problem);
   static bool flag = false;
   if (flag) {
     printf("%s\n", __FUNCTION__);
@@ -692,7 +993,7 @@ void GemmRunWithA(Launch_T& launcher, const typename Launch_T::Param& args, para
     if (thdpA.valid) {
       launcher.mProA.run(args.paramA, thdpA);
     }
-    th->sync();
+    th->sync(tidx);
     typename Parallel_T::ThreadProblem thdp{tidx};
     para.getIndex(thdp);
     if (thdp.valid) {
diff --git a/bestla/bestla/bestla_utils.h b/bestla/bestla/bestla_utils.h
index 8804a4436..e6636ff74 100644
--- a/bestla/bestla/bestla_utils.h
+++ b/bestla/bestla/bestla_utils.h
@@ -405,7 +405,7 @@ inline float get_mxfp_maxnorm(const BTLA_DTYPE t, int ebits, int mantissa_bits)
   } else {
     max_norm *= 1.75;
   }
-  return max_norm;
+  return static_cast<float>(max_norm);
 }
 
 #ifndef _WIN32
@@ -667,12 +667,13 @@ class timer_statistics_logger {
   }
   float min_val, max_val, avg_val;
 
- private:
   void record() {
     min_val = statis.min_val / log_ratio;
     max_val = statis.max_val / log_ratio;
     avg_val = statis.avg_val / log_ratio;
   }
+
+ private:
   float log_ratio;
   char str[256];
   timer<_PRECISION> tm;
@@ -727,28 +728,30 @@ static float nf4_dequant_fp32_LUT[] = {0.f,
 // For more details pls refer
 // (8-Bit Approximations for Parallelism in Deep Learning)[https://arxiv.org/abs/1511.04561]
 static float dq8_bnb_LUT[] = {
-    -0.99297, -0.97891, -0.96484, -0.95078, -0.93672, -0.92266, -0.90859, -0.89453, -0.88047, -0.86641, -0.85234,
-    -0.83828, -0.82422, -0.81016, -0.79609, -0.78203, -0.76797, -0.75391, -0.73984, -0.72578, -0.71172, -0.69766,
-    -0.68359, -0.66953, -0.65547, -0.64141, -0.62734, -0.61328, -0.59922, -0.58516, -0.57109, -0.55703, -0.54297,
-    -0.52891, -0.51484, -0.50078, -0.48672, -0.47266, -0.45859, -0.44453, -0.43047, -0.41641, -0.40234, -0.38828,
-    -0.37422, -0.36016, -0.34609, -0.33203, -0.31797, -0.30391, -0.28984, -0.27578, -0.26172, -0.24766, -0.23359,
-    -0.21953, -0.20547, -0.19141, -0.17734, -0.16328, -0.14922, -0.13516, -0.12109, -0.10703, -0.09859, -0.09578,
-    -0.09297, -0.09016, -0.08734, -0.08453, -0.08172, -0.07891, -0.07609, -0.07328, -0.07047, -0.06766, -0.06484,
-    -0.06203, -0.05922, -0.05641, -0.05359, -0.05078, -0.04797, -0.04516, -0.04234, -0.03953, -0.03672, -0.03391,
-    -0.03109, -0.02828, -0.02547, -0.02266, -0.01984, -0.01703, -0.01422, -0.01141, -0.00972, -0.00916, -0.00859,
-    -0.00803, -0.00747, -0.00691, -0.00634, -0.00578, -0.00522, -0.00466, -0.00409, -0.00353, -0.00297, -0.00241,
-    -0.00184, -0.00128, -0.00094, -0.00083, -0.00072, -0.00061, -0.00049, -0.00038, -0.00027, -0.00016, -0.00009,
-    -0.00007, -0.00004, -0.00002, -0.00001, -0.00000, -0.00000, 0.00000,  0.00000,  0.00000,  0.00001,  0.00002,
-    0.00004,  0.00007,  0.00009,  0.00016,  0.00027,  0.00038,  0.00049,  0.00061,  0.00072,  0.00083,  0.00094,
-    0.00128,  0.00184,  0.00241,  0.00297,  0.00353,  0.00409,  0.00466,  0.00522,  0.00578,  0.00634,  0.00691,
-    0.00747,  0.00803,  0.00859,  0.00916,  0.00972,  0.01141,  0.01422,  0.01703,  0.01984,  0.02266,  0.02547,
-    0.02828,  0.03109,  0.03391,  0.03672,  0.03953,  0.04234,  0.04516,  0.04797,  0.05078,  0.05359,  0.05641,
-    0.05922,  0.06203,  0.06484,  0.06766,  0.07047,  0.07328,  0.07609,  0.07891,  0.08172,  0.08453,  0.08734,
-    0.09016,  0.09297,  0.09578,  0.09859,  0.10703,  0.12109,  0.13516,  0.14922,  0.16328,  0.17734,  0.19141,
-    0.20547,  0.21953,  0.23359,  0.24766,  0.26172,  0.27578,  0.28984,  0.30391,  0.31797,  0.33203,  0.34609,
-    0.36016,  0.37422,  0.38828,  0.40234,  0.41641,  0.43047,  0.44453,  0.45859,  0.47266,  0.48672,  0.50078,
-    0.51484,  0.52891,  0.54297,  0.55703,  0.57109,  0.58516,  0.59922,  0.61328,  0.62734,  0.64141,  0.65547,
-    0.66953,  0.68359,  0.69766,  0.71172,  0.72578,  0.73984,  0.75391,  0.76797,  0.78203,  0.79609,  0.81016,
-    0.82422,  0.83828,  0.85234,  0.86641,  0.88047,  0.89453,  0.90859,  0.92266,  0.93672,  0.95078,  0.96484,
-    0.97891,  0.99297,  1.00000};
+    -0.99297f, -0.97891f, -0.96484f, -0.95078f, -0.93672f, -0.92266f, -0.90859f, -0.89453f, -0.88047f, -0.86641f,
+    -0.85234f, -0.83828f, -0.82422f, -0.81016f, -0.79609f, -0.78203f, -0.76797f, -0.75391f, -0.73984f, -0.72578f,
+    -0.71172f, -0.69766f, -0.68359f, -0.66953f, -0.65547f, -0.64141f, -0.62734f, -0.61328f, -0.59922f, -0.58516f,
+    -0.57109f, -0.55703f, -0.54297f, -0.52891f, -0.51484f, -0.50078f, -0.48672f, -0.47266f, -0.45859f, -0.44453f,
+    -0.43047f, -0.41641f, -0.40234f, -0.38828f, -0.37422f, -0.36016f, -0.34609f, -0.33203f, -0.31797f, -0.30391f,
+    -0.28984f, -0.27578f, -0.26172f, -0.24766f, -0.23359f, -0.21953f, -0.20547f, -0.19141f, -0.17734f, -0.16328f,
+    -0.14922f, -0.13516f, -0.12109f, -0.10703f, -0.09859f, -0.09578f, -0.09297f, -0.09016f, -0.08734f, -0.08453f,
+    -0.08172f, -0.07891f, -0.07609f, -0.07328f, -0.07047f, -0.06766f, -0.06484f, -0.06203f, -0.05922f, -0.05641f,
+    -0.05359f, -0.05078f, -0.04797f, -0.04516f, -0.04234f, -0.03953f, -0.03672f, -0.03391f, -0.03109f, -0.02828f,
+    -0.02547f, -0.02266f, -0.01984f, -0.01703f, -0.01422f, -0.01141f, -0.00972f, -0.00916f, -0.00859f, -0.00803f,
+    -0.00747f, -0.00691f, -0.00634f, -0.00578f, -0.00522f, -0.00466f, -0.00409f, -0.00353f, -0.00297f, -0.00241f,
+    -0.00184f, -0.00128f, -0.00094f, -0.00083f, -0.00072f, -0.00061f, -0.00049f, -0.00038f, -0.00027f, -0.00016f,
+    -0.00009f, -0.00007f, -0.00004f, -0.00002f, -0.00001f, -0.00000f, -0.00000f, 0.00000f,  0.00000f,  0.00000f,
+    0.00001f,  0.00002f,  0.00004f,  0.00007f,  0.00009f,  0.00016f,  0.00027f,  0.00038f,  0.00049f,  0.00061f,
+    0.00072f,  0.00083f,  0.00094f,  0.00128f,  0.00184f,  0.00241f,  0.00297f,  0.00353f,  0.00409f,  0.00466f,
+    0.00522f,  0.00578f,  0.00634f,  0.00691f,  0.00747f,  0.00803f,  0.00859f,  0.00916f,  0.00972f,  0.01141f,
+    0.01422f,  0.01703f,  0.01984f,  0.02266f,  0.02547f,  0.02828f,  0.03109f,  0.03391f,  0.03672f,  0.03953f,
+    0.04234f,  0.04516f,  0.04797f,  0.05078f,  0.05359f,  0.05641f,  0.05922f,  0.06203f,  0.06484f,  0.06766f,
+    0.07047f,  0.07328f,  0.07609f,  0.07891f,  0.08172f,  0.08453f,  0.08734f,  0.09016f,  0.09297f,  0.09578f,
+    0.09859f,  0.10703f,  0.12109f,  0.13516f,  0.14922f,  0.16328f,  0.17734f,  0.19141f,  0.20547f,  0.21953f,
+    0.23359f,  0.24766f,  0.26172f,  0.27578f,  0.28984f,  0.30391f,  0.31797f,  0.33203f,  0.34609f,  0.36016f,
+    0.37422f,  0.38828f,  0.40234f,  0.41641f,  0.43047f,  0.44453f,  0.45859f,  0.47266f,  0.48672f,  0.50078f,
+    0.51484f,  0.52891f,  0.54297f,  0.55703f,  0.57109f,  0.58516f,  0.59922f,  0.61328f,  0.62734f,  0.64141f,
+    0.65547f,  0.66953f,  0.68359f,  0.69766f,  0.71172f,  0.72578f,  0.73984f,  0.75391f,  0.76797f,  0.78203f,
+    0.79609f,  0.81016f,  0.82422f,  0.83828f,  0.85234f,  0.86641f,  0.88047f,  0.89453f,  0.90859f,  0.92266f,
+    0.93672f,  0.95078f,  0.96484f,  0.97891f,  0.99297f,  1.00000f};
 }  // namespace bestla
diff --git a/bestla/bestla/ut/bestla_benchmark.cpp b/bestla/bestla/ut/bestla_benchmark.cpp
new file mode 100644
index 000000000..eadb03511
--- /dev/null
+++ b/bestla/bestla/ut/bestla_benchmark.cpp
@@ -0,0 +1,914 @@
+#include <stdio.h>
+#include "bestla_wrapper.h"
+#include "bestla_ut.h"
+
+namespace bestla {
+using namespace utils;
+namespace ut {
+int constexpr TestMs = 500;
+class Benchmark_Fp32Fp32 {
+ public:
+  Benchmark_Fp32Fp32() {
+    UT_START();
+    benchmark_all(1, 4096, 4096);
+    benchmark_all(1024, 4096, 4096);
+    benchmark_all(2048, 4096, 4096);
+  }
+
+  using AType = float;
+  using BType = float;
+  using CType = float;
+  template <typename Core_T, typename LOG_T>
+  void benchmark(int m, int n, int k, int batch, AType* A, BType* B, CType* C, float timems, int threads) {
+    LOG_T log;
+    using Parallel = parallel::gemm::SchedulerBase<Core_T>;
+    using Launcher =
+        wrapper::gemm::LauncherBase<Core_T::ISA, Core_T, prologue_a::gemm::ActivationBase, prologue_b::gemm::WeightPack,
+                                    epilogue::gemm::AccumulatorWriteBackFp32>;
+    Launcher kernel;
+    UT_Threading::set_threads(threads);
+    auto corestr = gemm::CoreAttr::to_str(Core_T::ID);
+    utils::timer<std::chrono::milliseconds> tm;
+    auto tmpB = kernel.mProB.createStorage(n, k);
+    std::vector<storage::gemm::StoragePackedWeight> packBs(batch, 0);
+    avector<int8_t> bufB(tmpB.mSize * batch);
+    for (size_t i = 0; i < batch; i++) {
+      packBs[i] = tmpB;
+      packBs[i].assign(bufB.data() + i * tmpB.mSize);
+      kernel.mProB.packWeight(n, k, {B + i * n * k, n, &packBs[i]}, UT_Threading::get());
+    }
+    auto psize = (size_t)m * n * k * 2;
+    tm.start();
+    while (tm.stop() < timems) {
+      for (size_t i = 0; i < batch; i++) {
+        log.start();
+        utils::GemmProblem gp(1, m, n, k);
+        typename Launcher::Param args{gp, {A + i * m * k, k}, {0, 0, &packBs[i]}, {C + i * m * n, n}};
+        parallel::GemmRun<Parallel>(kernel, args, UT_Threading::get());
+        log.stop();
+        if (tm.stop() >= timems) {
+          break;
+        }
+      }
+    }
+    log.record();
+    double flops = double(psize) / log.min_val / 1e6;
+    printf("Threads %d %s %s Flops:%.3f PerCoreFlops:%.3f\n", threads, corestr, log.get_log_str(), flops,
+           flops / threads);
+  }
+
+  void benchmark_all(int m, int n, int k) {
+    auto memsize = gemm_memsize(m, n, k, BTLA_DTYPE::F32, BTLA_DTYPE::F32, BTLA_DTYPE::F32);
+    auto batch = auto_batch(memsize);
+    printf("%d %d %d %d %s %s %s\n", m, n, k, batch, bestla_dtype_str(BTLA_DTYPE::F32),
+           bestla_dtype_str(BTLA_DTYPE::F32), bestla_dtype_str(BTLA_DTYPE::F32));
+    avector<AType> A(size_t(m) * k * batch);
+    avector<BType> B(size_t(k) * n * batch);
+    avector<CType> C(size_t(m) * n * batch, 0);
+    fill_buffer_randn(A.data(), m * k, -0.5f, 0.5f);
+    fill_buffer_randn(B.data(), n * k, -0.5f, 0.5f);
+    for (size_t i = 0; i < batch - 1; i++) {
+      memcpy(A.data() + i * m * k, A.data(), m * k * sizeof(AType));
+      memcpy(B.data() + i * n * k, B.data(), n * k * sizeof(BType));
+    }
+    using LOG = timer_statistics_logger<TestMs * 2>;
+    float testtime = float(TestMs);
+    GetCPUDevice();
+    auto threads_cfg = UT_Threading::get_threads_config();
+    for (auto threads : threads_cfg) {
+      if (_cd->AVX512F()) {
+        benchmark<sAVX512F, LOG>(m, n, k, batch, A.data(), B.data(), C.data(), testtime, threads);
+      }
+      if (_cd->AVX2()) {
+        benchmark<sAVX2, LOG>(m, n, k, batch, A.data(), B.data(), C.data(), testtime, threads);
+      }
+    }
+  }
+};
+#ifdef BTLA_UT_WRAPPER
+static Benchmark_Fp32Fp32 sBenchmark_Fp32Fp32;
+#endif
+
+class Benchmark_U8S8S32 {
+ public:
+  Benchmark_U8S8S32() {
+    UT_START();
+    benchmark_all(1, 4096, 4096);
+    benchmark_all(1024, 4096, 4096);
+    benchmark_all(2048, 4096, 4096);
+  }
+
+  using AType = uint8_t;
+  using BType = int8_t;
+  using CType = int;
+  template <typename Core_T, typename LOG_T>
+  void benchmark(int m, int n, int k, int batch, AType* A, BType* B, CType* C, float timems, int threads) {
+    LOG_T log;
+    using Parallel = parallel::gemm::SchedulerBase<Core_T>;
+    using Launcher =
+        wrapper::gemm::LauncherBase<Core_T::ISA, Core_T, prologue_a::gemm::ActivationBase, prologue_b::gemm::WeightPack,
+                                    epilogue::gemm::AccumulatorWriteBackInt32>;
+    static Launcher kernel;
+    UT_Threading::set_threads(threads);
+    auto corestr = gemm::CoreAttr::to_str(Core_T::ID);
+    utils::timer<std::chrono::milliseconds> tm;
+    auto tmpB = kernel.mProB.createStorage(n, k);
+    std::vector<storage::gemm::StoragePackedWeight> packBs(batch, 0);
+    avector<int8_t> bufB(tmpB.mSize * batch);
+    for (size_t i = 0; i < batch; i++) {
+      packBs[i] = tmpB;
+      packBs[i].assign(bufB.data() + i * tmpB.mSize);
+      kernel.mProB.packWeight(n, k, {B + i * n * k, n, &packBs[i]}, UT_Threading::get());
+    }
+    auto psize = (size_t)m * n * k * 2;
+    tm.start();
+    while (tm.stop() < timems) {
+      for (size_t i = 0; i < batch; i++) {
+        log.start();
+        utils::GemmProblem gp(1, m, n, k);
+        typename Launcher::Param args{gp, {A + i * m * k, k}, {0, 0, &packBs[i]}, {C + i * m * n, n}};
+        parallel::GemmRun<Parallel>(kernel, args, UT_Threading::get());
+        log.stop();
+        if (tm.stop() >= timems) {
+          break;
+        }
+      }
+    }
+    log.record();
+    double flops = double(psize) / log.min_val / 1e6;
+    printf("Threads %d %s %s Flops:%.3f PerCoreFlops:%.3f\n", threads, corestr, log.get_log_str(), flops,
+           flops / threads);
+  }
+
+  void benchmark_all(int m, int n, int k) {
+    auto memsize = gemm_memsize(m, n, k, BTLA_DTYPE::U8, BTLA_DTYPE::S8, BTLA_DTYPE::S32);
+    auto batch = auto_batch(memsize);
+    printf("%d %d %d %d %s %s %s\n", m, n, k, batch, bestla_dtype_str(BTLA_DTYPE::U8), bestla_dtype_str(BTLA_DTYPE::S8),
+           bestla_dtype_str(BTLA_DTYPE::S32));
+    avector<AType> A(size_t(m) * k * batch);
+    avector<BType> B(size_t(k) * n * batch);
+    avector<CType> C(size_t(m) * n * batch);
+    fill_buffer_randn(A.data(), m * k, AType(0), AType(255));
+    fill_buffer_randn(B.data(), k * n, BType(-127), BType(127));
+    for (size_t i = 0; i < batch - 1; i++) {
+      memcpy(A.data() + i * m * k, A.data(), m * k * sizeof(AType));
+      memcpy(B.data() + i * n * k, B.data(), n * k * sizeof(BType));
+    }
+    using LOG = timer_statistics_logger<TestMs * 2>;
+    float testtime = float(TestMs);
+    GetCPUDevice();
+    auto threads_cfg = UT_Threading::get_threads_config();
+    for (auto threads : threads_cfg) {
+      if (_cd->AMX_INT8()) {
+        benchmark<gemm::ICoreRowNAmxint8<32, 32>, LOG>(m, n, k, batch, A.data(), B.data(), C.data(), testtime, threads);
+        benchmark<gemm::ICoreRowNAmxint8<48, 16>, LOG>(m, n, k, batch, A.data(), B.data(), C.data(), testtime, threads);
+        benchmark<gemm::ICoreRowNAmxint8<64, 16>, LOG>(m, n, k, batch, A.data(), B.data(), C.data(), testtime, threads);
+      }
+      if (_cd->AVX512_VNNI()) {
+        benchmark<gemm::ICoreRowNAvx512vnni<64, 6>, LOG>(m, n, k, batch, A.data(), B.data(), C.data(), testtime,
+                                                         threads);
+        benchmark<gemm::ICoreRowNAvx512vnni<48, 8>, LOG>(m, n, k, batch, A.data(), B.data(), C.data(), testtime,
+                                                         threads);
+      }
+      if (_cd->AVX_VNNI()) {
+        benchmark<gemm::ICoreRowNAvxvnni<48, 2>, LOG>(m, n, k, batch, A.data(), B.data(), C.data(), testtime, threads);
+        benchmark<gemm::ICoreRowNAvxvnni<24, 4>, LOG>(m, n, k, batch, A.data(), B.data(), C.data(), testtime, threads);
+      }
+    }
+  }
+};
+#ifdef BTLA_UT_WRAPPER
+static Benchmark_U8S8S32 sBenchmark_U8S8S32;
+#endif
+
+class Benchmark_S8S8S32 {
+ public:
+  Benchmark_S8S8S32() {
+    UT_START();
+    benchmark_all(1, 4096, 4096);
+    benchmark_all(1024, 4096, 4096);
+    benchmark_all(2048, 4096, 4096);
+  }
+
+  using AType = int8_t;
+  using BType = int8_t;
+  using CType = int;
+  template <typename Core_T, typename LOG_T>
+  void benchmark(int m, int n, int k, int batch, AType* A, BType* B, CType* C, float timems, int threads) {
+    LOG_T log;
+    using Parallel = parallel::gemm::SchedulerBase<Core_T>;
+    using Launcher =
+        wrapper::gemm::LauncherBase<Core_T::ISA, Core_T, prologue_a::gemm::ActivationBase, prologue_b::gemm::WeightPack,
+                                    epilogue::gemm::AccumulatorWriteBackInt32>;
+    Launcher kernel;
+    UT_Threading::set_threads(threads);
+    auto corestr = gemm::CoreAttr::to_str(Core_T::ID);
+    utils::timer<std::chrono::milliseconds> tm;
+    auto tmpB = kernel.mProB.createStorage(n, k);
+    std::vector<storage::gemm::StoragePackedWeight> packBs(batch, 0);
+    avector<int8_t> bufB(tmpB.mSize * batch);
+    for (size_t i = 0; i < batch; i++) {
+      packBs[i] = tmpB;
+      packBs[i].assign(bufB.data() + i * tmpB.mSize);
+      kernel.mProB.packWeight(n, k, {B + i * n * k, n, &packBs[i]}, UT_Threading::get());
+    }
+    auto psize = (size_t)m * n * k * 2;
+    tm.start();
+    while (tm.stop() < timems) {
+      for (size_t i = 0; i < batch; i++) {
+        log.start();
+        utils::GemmProblem gp(1, m, n, k);
+        typename Launcher::Param args{gp, {A + i * m * k, k}, {0, 0, &packBs[i]}, {C + i * m * n, n}};
+        parallel::GemmRun<Parallel>(kernel, args, UT_Threading::get());
+        log.stop();
+        if (tm.stop() >= timems) {
+          break;
+        }
+      }
+    }
+    log.record();
+    double flops = double(psize) / log.min_val / 1e6;
+    printf("Threads %d %s %s Flops:%.3f PerCoreFlops:%.3f\n", threads, corestr, log.get_log_str(), flops,
+           flops / threads);
+  }
+
+  void benchmark_all(int m, int n, int k) {
+    auto memsize = gemm_memsize(m, n, k, BTLA_DTYPE::S8, BTLA_DTYPE::S8, BTLA_DTYPE::S32);
+    auto batch = auto_batch(memsize);
+    printf("%d %d %d %d %s %s %s\n", m, n, k, batch, bestla_dtype_str(BTLA_DTYPE::S8), bestla_dtype_str(BTLA_DTYPE::S8),
+           bestla_dtype_str(BTLA_DTYPE::S32));
+    avector<AType> A(size_t(m) * k * batch);
+    avector<BType> B(size_t(k) * n * batch);
+    avector<CType> C(size_t(m) * n * batch);
+    fill_buffer_randn(A.data(), m * k, AType(0), AType(255));
+    fill_buffer_randn(B.data(), k * n, BType(-127), BType(127));
+    for (size_t i = 0; i < batch - 1; i++) {
+      memcpy(A.data() + i * m * k, A.data(), m * k * sizeof(AType));
+      memcpy(B.data() + i * n * k, B.data(), n * k * sizeof(AType));
+    }
+    using LOG = timer_statistics_logger<TestMs * 2>;
+    float testtime = float(TestMs);
+    GetCPUDevice();
+    auto threads_cfg = UT_Threading::get_threads_config();
+    for (auto threads : threads_cfg) {
+      if (_cd->AMX_INT8()) {
+        benchmark<gemm::ICoreRowNAmxint8SS<32, 32>, LOG>(m, n, k, batch, A.data(), B.data(), C.data(), testtime,
+                                                         threads);
+        benchmark<gemm::ICoreRowNAmxint8SS<48, 16>, LOG>(m, n, k, batch, A.data(), B.data(), C.data(), testtime,
+                                                         threads);
+        benchmark<gemm::ICoreRowNAmxint8SS<64, 16>, LOG>(m, n, k, batch, A.data(), B.data(), C.data(), testtime,
+                                                         threads);
+      }
+    }
+  }
+};
+#ifdef BTLA_UT_WRAPPER
+static Benchmark_S8S8S32 sBenchmark_S8S8S32;
+#endif
+
+class Benchmark_Bf16Bf16Fp32 {
+ public:
+  Benchmark_Bf16Bf16Fp32() {
+    UT_START();
+    benchmark_all(1, 4096, 4096);
+    benchmark_all(1024, 4096, 4096);
+    benchmark_all(2048, 4096, 4096);
+  }
+
+  using AType = utils::bf16;
+  using BType = utils::bf16;
+  using CType = float;
+  template <typename Core_T, typename LOG_T>
+  void benchmark(int m, int n, int k, int batch, AType* A, BType* B, CType* C, float timems, int threads) {
+    LOG_T log;
+    using Parallel = parallel::gemm::SchedulerBase<Core_T>;
+    using Launcher =
+        wrapper::gemm::LauncherBase<Core_T::ISA, Core_T, prologue_a::gemm::ActivationBase, prologue_b::gemm::WeightPack,
+                                    epilogue::gemm::AccumulatorWriteBackFp32>;
+    Launcher kernel;
+    UT_Threading::set_threads(threads);
+    auto corestr = gemm::CoreAttr::to_str(Core_T::ID);
+    utils::timer<std::chrono::milliseconds> tm;
+    auto tmpB = kernel.mProB.createStorage(n, k);
+    std::vector<storage::gemm::StoragePackedWeight> packBs(batch, 0);
+    avector<int8_t> bufB(tmpB.mSize * batch);
+    for (size_t i = 0; i < batch; i++) {
+      packBs[i] = tmpB;
+      packBs[i].assign(bufB.data() + i * tmpB.mSize);
+      kernel.mProB.packWeight(n, k, {B + i * n * k, n, &packBs[i]}, UT_Threading::get());
+    }
+    auto psize = (size_t)m * n * k * 2;
+    tm.start();
+    while (tm.stop() < timems) {
+      for (size_t i = 0; i < batch; i++) {
+        log.start();
+        utils::GemmProblem gp(1, m, n, k);
+        typename Launcher::Param args{gp, {A + i * m * k, k}, {0, 0, &packBs[i]}, {C + i * m * n, n}};
+        parallel::GemmRun<Parallel>(kernel, args, UT_Threading::get());
+        log.stop();
+        if (tm.stop() >= timems) {
+          break;
+        }
+      }
+    }
+    log.record();
+    double flops = double(psize) / log.min_val / 1e6;
+    printf("Threads %d %s %s Flops:%.3f PerCoreFlops:%.3f\n", threads, corestr, log.get_log_str(), flops,
+           flops / threads);
+  }
+
+  void benchmark_all(int m, int n, int k) {
+    auto memsize = gemm_memsize(m, n, k, BTLA_DTYPE::BF16, BTLA_DTYPE::BF16, BTLA_DTYPE::F32);
+    auto batch = auto_batch(memsize);
+    printf("%d %d %d %d %s %s %s\n", m, n, k, batch, bestla_dtype_str(BTLA_DTYPE::BF16),
+           bestla_dtype_str(BTLA_DTYPE::BF16), bestla_dtype_str(BTLA_DTYPE::F32));
+    avector<AType> A(size_t(m) * k * batch);
+    avector<BType> B(size_t(k) * n * batch);
+    avector<CType> C(size_t(m) * n * batch);
+    fill_buffer_randn(A.data(), k * m, AType(-0.5f), AType(0.5f));
+    fill_buffer_randn(B.data(), k * n, BType(-0.5f), BType(0.5f));
+    for (size_t i = 0; i < batch - 1; i++) {
+      memcpy(A.data() + i * m * k, A.data(), m * k * sizeof(AType));
+      memcpy(B.data() + i * n * k, B.data(), n * k * sizeof(BType));
+    }
+    using LOG = timer_statistics_logger<TestMs * 2>;
+    float testtime = float(TestMs);
+    GetCPUDevice();
+    auto threads_cfg = UT_Threading::get_threads_config();
+    for (auto threads : threads_cfg) {
+      if (_cd->AMX_BF16()) {
+        benchmark<gemm::HCoreRowNAmxbf16<32, 32>, LOG>(m, n, k, batch, A.data(), B.data(), C.data(), testtime, threads);
+        benchmark<gemm::HCoreRowNAmxbf16<48, 16>, LOG>(m, n, k, batch, A.data(), B.data(), C.data(), testtime, threads);
+        benchmark<gemm::HCoreRowNAmxbf16<64, 16>, LOG>(m, n, k, batch, A.data(), B.data(), C.data(), testtime, threads);
+      }
+    }
+  }
+};
+#ifdef BTLA_UT_WRAPPER
+static Benchmark_Bf16Bf16Fp32 sBenchmark_Bf16Bf16Fp32;
+#endif
+
+class Benchmark_Fp16Fp16Fp16 {
+ public:
+  Benchmark_Fp16Fp16Fp16() {
+    UT_START();
+    benchmark_all(1, 4096, 4096);
+    benchmark_all(1024, 4096, 4096);
+    benchmark_all(2048, 4096, 4096);
+  }
+
+  using AType = utils::fp16;
+  using BType = utils::fp16;
+  using CType = utils::fp16;
+  template <typename Core_T, typename LOG_T>
+  void benchmark(int m, int n, int k, int batch, AType* A, BType* B, CType* C, float timems, int threads) {
+    LOG_T log;
+    using Parallel = parallel::gemm::SchedulerBase<Core_T>;
+    using Launcher =
+        wrapper::gemm::LauncherBase<Core_T::ISA, Core_T, prologue_a::gemm::ActivationBase, prologue_b::gemm::WeightPack,
+                                    epilogue::gemm::AccumulatorWriteBackFp16>;
+    Launcher kernel;
+    UT_Threading::set_threads(threads);
+    auto corestr = gemm::CoreAttr::to_str(Core_T::ID);
+    utils::timer<std::chrono::milliseconds> tm;
+    auto tmpB = kernel.mProB.createStorage(n, k);
+    std::vector<storage::gemm::StoragePackedWeight> packBs(batch, 0);
+    avector<int8_t> bufB(tmpB.mSize * batch);
+    for (size_t i = 0; i < batch; i++) {
+      packBs[i] = tmpB;
+      packBs[i].assign(bufB.data() + i * tmpB.mSize);
+      kernel.mProB.packWeight(n, k, {B + i * n * k, n, &packBs[i]}, UT_Threading::get());
+    }
+    auto psize = (size_t)m * n * k * 2;
+    tm.start();
+    while (tm.stop() < timems) {
+      for (size_t i = 0; i < batch; i++) {
+        log.start();
+        GemmProblem gp(1, m, n, k);
+        typename Launcher::Param args{gp, {A + i * m * k, k}, {0, 0, &packBs[i]}, {C + i * m * n, n}};
+        parallel::GemmRun<Parallel>(kernel, args, UT_Threading::get());
+        log.stop();
+        if (tm.stop() >= timems) {
+          break;
+        }
+      }
+    }
+    log.record();
+    double flops = double(psize) / log.min_val / 1e6;
+    printf("Threads %d %s %s Flops:%.3f PerCoreFlops:%.3f\n", threads, corestr, log.get_log_str(), flops,
+           flops / threads);
+  }
+
+  void benchmark_all(int m, int n, int k) {
+    auto memsize = gemm_memsize(m, n, k, BTLA_DTYPE::F16, BTLA_DTYPE::F16, BTLA_DTYPE::F16);
+    auto batch = auto_batch(memsize);
+    printf("%d %d %d %d %s %s %s\n", m, n, k, batch, bestla_dtype_str(BTLA_DTYPE::F16),
+           bestla_dtype_str(BTLA_DTYPE::F16), bestla_dtype_str(BTLA_DTYPE::F16));
+    avector<AType> A(size_t(m) * k * batch);
+    avector<BType> B(size_t(k) * n * batch);
+    avector<CType> C(size_t(m) * n * batch);
+    fill_buffer_randn(A.data(), k * m, AType(-0.5f), AType(0.5f));
+    fill_buffer_randn(B.data(), k * n, AType(-0.5f), AType(0.5f));
+    for (size_t i = 0; i < batch - 1; i++) {
+      memcpy(A.data() + i * m * k, A.data(), m * k * sizeof(AType));
+      memcpy(B.data() + i * n * k, B.data(), n * k * sizeof(BType));
+    }
+    using LOG = timer_statistics_logger<TestMs * 2>;
+    float testtime = float(TestMs);
+    GetCPUDevice();
+    auto threads_cfg = UT_Threading::get_threads_config();
+    for (auto threads : threads_cfg) {
+      if (_cd->AVX512_FP16()) {
+        benchmark<sAVX512_FP16, LOG>(m, n, k, batch, A.data(), B.data(), C.data(), testtime, threads);
+        benchmark<gemm::HCoreRowNAvx512fp16<64, 12>, LOG>(m, n, k, batch, A.data(), B.data(), C.data(), testtime,
+                                                          threads);
+      }
+    }
+  }
+};
+#ifdef BTLA_UT_WRAPPER
+static Benchmark_Fp16Fp16Fp16 sBenchmark_Fp16Fp16Fp16;
+#endif
+
+class UTWOQ_CompFp32 {
+ public:
+  UTWOQ_CompFp32() {
+    UT_START();
+    ut_s4();
+    ut_s8();
+    ut_f4();
+  }
+
+  void ut_s4() {
+    benchmark_all<prologue_b::gemm::WeightKBlockNInteger, utils::bf16>(1, 4096, 4096, BTLA_DTYPE::S4_CLIP);
+    benchmark_all<prologue_b::gemm::WeightKBlockNInteger, utils::bf16>(1024, 4096, 4096, BTLA_DTYPE::S4_CLIP);
+  }
+
+  void ut_s8() {
+    benchmark_all<prologue_b::gemm::WeightKBlockNInteger, utils::bf16>(1, 4096, 4096, BTLA_DTYPE::S8);
+    benchmark_all<prologue_b::gemm::WeightKBlockNInteger, utils::bf16>(1024, 4096, 4096, BTLA_DTYPE::S8);
+  }
+
+  void ut_f4() {
+    benchmark_all<prologue_b::gemm::WeightKBlockNFloat, utils::bf16>(1, 4096, 4096, BTLA_DTYPE::F4_BNB);
+    benchmark_all<prologue_b::gemm::WeightKBlockNFloat, utils::bf16>(1024, 4096, 4096, BTLA_DTYPE::F4_BNB);
+  }
+
+  template <typename Core_T, typename LOG_T, template <class _T, BTLA_ISA> class Wei, typename Scale_T>
+  void benchmark(int m, int n, int k, int batch, int blocksize, float* A, float* B, float* C, float timems, int threads,
+                 BTLA_DTYPE qtype) {
+    LOG_T log;
+    using Parallel = parallel::gemm::SchedulerBase<Core_T>;
+    using Launcher = wrapper::gemm::LauncherBase<Core_T::ISA, Core_T, prologue_a::gemm::ActivationBase, Wei,
+                                                 epilogue::gemm::AccumulatorWriteBackFp32>;
+    Launcher kernel;
+    UT_Threading::set_threads(threads);
+    auto corestr = gemm::CoreAttr::to_str(Core_T::ID);
+    utils::timer<std::chrono::milliseconds> tm;
+    using WType = typename Wei<Core_T, Core_T::ISA>::StorageWeight;
+    WType tmpB(0);
+    if constexpr (std::is_same_v<Wei<Core_T, Core_T::ISA>,
+                                 prologue_b::gemm::WeightKBlockNInteger<Core_T, Core_T::ISA>>) {
+      tmpB = kernel.mProB.createStorage(n, k, blocksize, qtype, bestla_dtype<Scale_T>, bestla_dtype<float>, false);
+
+    } else if constexpr (std::is_same_v<Wei<Core_T, Core_T::ISA>,
+                                        prologue_b::gemm::WeightKBlockNFloat<Core_T, Core_T::ISA>>) {
+      tmpB = kernel.mProB.createStorage(n, k, blocksize, qtype, bestla_dtype<Scale_T>);
+    }
+    std::vector<WType> packBs(batch, 0);
+    avector<int8_t> bufB(tmpB.mSize * batch);
+    for (size_t i = 0; i < batch; i++) {
+      packBs[i] = tmpB;
+      packBs[i].assign(bufB.data() + i * tmpB.mSize);
+    }
+    kernel.mProB.packWeight(n, k, B, n, &packBs[0], UT_Threading::get());
+    for (size_t i = 1; i < batch; i++) {
+      memcpy(packBs[i].template WPtr<void>(), packBs[0].template WPtr<void>(), packBs[0].template WSize<char>());
+      memcpy(packBs[i].template SPtr<void>(), packBs[0].template SPtr<void>(), packBs[0].CSize() * sizeof(Scale_T));
+    }
+    auto psize = (size_t)m * n * k * 2;
+    auto memsize = (size_t)packBs[0].mSize + (m * k + m * n) * sizeof(float);
+    tm.start();
+    while (tm.stop() < timems) {
+      for (int i = 0; i < batch; i++) {
+        log.start();
+        GemmProblem gp(1, m, n, k);
+        typename Launcher::Param args{gp, {A + i * m * k, k}, {&packBs[i]}, {C + i * m * n, n}};
+        parallel::GemmRun<Parallel>(kernel, args, UT_Threading::get());
+        log.stop();
+        if (tm.stop() >= timems) {
+          break;
+        }
+      }
+    }
+    log.record();
+    double flops = double(psize) / log.min_val / 1e6;
+    double band = double(memsize) / log.min_val / 1e6;
+    printf("Threads %d Block %d %s %s Flops:%.3fG PerCoreFlops:%.3fG MemoryBandwidth:%.3fGB/s\n", threads, blocksize,
+           corestr, log.get_log_str(), flops, flops / threads, band);
+  }
+
+  template <typename Core_T, typename LOG_T, template <class _T, BTLA_ISA> class Wei, typename Scale_T>
+  void benchmark_mem(int m, int n, int k, int batch, int blocksize, float* A, float* B, float* C, float timems,
+                     int threads, BTLA_DTYPE qtype) {
+    LOG_T log;
+    using Parallel = parallel::gemm::SchedulerKBlock<Core_T>;
+    using Launcher =
+        wrapper::gemm::LauncherKBlock<Core_T::ISA, Core_T, prologue_a::gemm::ActivationBase, Wei,
+                                      epilogue::gemm::CompFp32BlockEpilogue, epilogue::gemm::AccumulatorWriteBackFp32>;
+    Launcher kernel;
+    UT_Threading::set_threads(threads);
+    auto corestr = gemm::CoreAttr::to_str(Core_T::ID);
+    utils::timer<std::chrono::milliseconds> tm;
+    using WType = typename Wei<Core_T, Core_T::ISA>::StorageWeight;
+    WType tmpB(0);
+    if constexpr (std::is_same_v<Wei<Core_T, Core_T::ISA>,
+                                 prologue_b::gemm::WeightKBlockNInteger<Core_T, Core_T::ISA>>) {
+      tmpB = kernel.mProB.createStorage(n, k, blocksize, qtype, bestla_dtype<Scale_T>, bestla_dtype<float>, false);
+
+    } else if constexpr (std::is_same_v<Wei<Core_T, Core_T::ISA>,
+                                        prologue_b::gemm::WeightKBlockNFloat<Core_T, Core_T::ISA>>) {
+      tmpB = kernel.mProB.createStorage(n, k, blocksize, qtype, bestla_dtype<Scale_T>);
+    }
+    auto memsize = (size_t)tmpB.mSize + (m * k + m * n) * sizeof(float);
+    std::vector<WType> packBs(batch, 0);
+    avector<int8_t> bufB(tmpB.mSize * batch);
+    for (size_t i = 0; i < batch; i++) {
+      packBs[i] = tmpB;
+      packBs[i].assign(bufB.data() + i * tmpB.mSize);
+    }
+    kernel.mProB.packWeight(n, k, B, n, &packBs[0], UT_Threading::get());
+    for (size_t i = 1; i < batch; i++) {
+      memcpy(packBs[i].template WPtr<void>(), packBs[0].template WPtr<void>(), packBs[0].template WSize<char>());
+      memcpy(packBs[i].template SPtr<void>(), packBs[0].template SPtr<void>(), packBs[0].CSize() * sizeof(Scale_T));
+    }
+    auto psize = (size_t)m * n * k * 2;
+    tm.start();
+    while (tm.stop() < timems) {
+      log.start();
+      for (size_t i = 0; i < batch; i++) {
+        GemmProblem gp(1, m, n, k, blocksize);
+        typename Launcher::Param args{gp,
+                                      {A + i * m * k, k},
+                                      {&packBs[i]},
+                                      {packBs[i].template SPtr<int8_t>(), packBs[i].SDtype(), packBs[i].CStep()},
+                                      {C + i * m * n, n}};
+        parallel::GemmRun<Parallel>(kernel, args, UT_Threading::get());
+      }
+      log.stop();
+    }
+    log.record();
+    double t = log.min_val / batch;
+    double flops = double(psize) / t / 1e6;
+    double band = double(memsize) / t / 1e6;
+    printf("Threads %d Block %d %s Flops:%.3fG PerCoreFlops:%.3fG MemoryBandwidth:%.3fGB/s\n", threads, blocksize,
+           corestr, flops, flops / threads, band);
+  }
+
+  template <template <class _T, BTLA_ISA> class Wei, typename Scale_T>
+  void benchmark_all(int m, int n, int k, BTLA_DTYPE qtype) {
+    auto memsize = gemm_memsize(m, n, k, BTLA_DTYPE::F32, qtype, BTLA_DTYPE::F32);
+    int batch = auto_batch(memsize);
+    printf("%d %d %d %d %s %s %s\n", m, n, k, batch, bestla_dtype_str(BTLA_DTYPE::F32), bestla_dtype_str(qtype),
+           bestla_dtype_str(BTLA_DTYPE::F32));
+    avector<float> A(size_t(m) * k * batch);
+    avector<float> B(size_t(k) * n);
+    avector<float> C(size_t(m) * n * batch);
+    fill_buffer_randn(A.data(), k * m, (-0.5f), (0.5f));
+    fill_buffer_randn(B.data(), k * n, (-0.5f), (0.5f));
+    for (int i = 1; i < batch; i++) {
+      memcpy(A.data() + i * m * k, A.data(), m * k * sizeof(float));
+    }
+    using LOG = timer_statistics_logger<TestMs * 2>;
+    float testtime = float(TestMs);
+    GetCPUDevice();
+    auto threads_cfg = UT_Threading::get_threads_config();
+    for (auto threads : threads_cfg) {
+      for (auto blocksize : {32, 128}) {
+        if (_cd->AVX512F()) {
+          if (m > 4) {
+            benchmark<gemm::SCoreRowNAvx512f<48, 8>, LOG, Wei, Scale_T>(m, n, k, batch, blocksize, A.data(), B.data(),
+                                                                        C.data(), testtime, threads, qtype);
+          } else {
+            benchmark_mem<gemm::SCoreRowNAvx512f<48, 8>, LOG, Wei, Scale_T>(
+                m, n, k, batch, blocksize, A.data(), B.data(), C.data(), testtime, threads, qtype);
+            benchmark_mem<gemm::SCoreRowNAvx512f<96, 4>, LOG, Wei, Scale_T>(
+                m, n, k, batch, blocksize, A.data(), B.data(), C.data(), testtime, threads, qtype);
+          }
+        }
+        if (_cd->AVX2()) {
+          if (m > 4) {
+            benchmark<gemm::SCoreRowNAvx2<24, 4>, LOG, Wei, Scale_T>(m, n, k, batch, blocksize, A.data(), B.data(),
+                                                                     C.data(), testtime, threads, qtype);
+          } else {
+            benchmark_mem<gemm::SCoreRowNAvx2<24, 4>, LOG, Wei, Scale_T>(m, n, k, batch, blocksize, A.data(), B.data(),
+                                                                         C.data(), testtime, threads, qtype);
+            benchmark_mem<gemm::SCoreRowNAvx2<48, 2>, LOG, Wei, Scale_T>(m, n, k, batch, blocksize, A.data(), B.data(),
+                                                                         C.data(), testtime, threads, qtype);
+          }
+        }
+      }
+    }
+  }
+};
+#ifdef BTLA_UT_PROLOGUE_B
+static UTWOQ_CompFp32 sUTWOQ_CompFp32;
+#endif
+
+class UTWOQ_CompBf16 {
+ public:
+  UTWOQ_CompBf16() {
+    UT_START();
+    ut_s4();
+    ut_s8();
+    ut_f4();
+  }
+
+  void ut_s4() {
+    benchmark_all<prologue_b::gemm::WeightKBlockNInteger, utils::bf16>(1, 4096, 4096, BTLA_DTYPE::S4_CLIP);
+    benchmark_all<prologue_b::gemm::WeightKBlockNInteger, utils::bf16>(1024, 4096, 4096, BTLA_DTYPE::S4_CLIP);
+    benchmark_all<prologue_b::gemm::WeightKBlockNInteger, utils::bf16>(2048, 4096, 4096, BTLA_DTYPE::S4_CLIP);
+  }
+
+  void ut_s8() {
+    benchmark_all<prologue_b::gemm::WeightKBlockNInteger, utils::bf16>(1, 4096, 4096, BTLA_DTYPE::S8);
+    benchmark_all<prologue_b::gemm::WeightKBlockNInteger, utils::bf16>(1024, 4096, 4096, BTLA_DTYPE::S8);
+    benchmark_all<prologue_b::gemm::WeightKBlockNInteger, utils::bf16>(2048, 4096, 4096, BTLA_DTYPE::S8);
+  }
+
+  void ut_f4() {
+    benchmark_all<prologue_b::gemm::WeightKBlockNFloat, utils::bf16>(1, 4096, 4096, BTLA_DTYPE::F4_BNB);
+    benchmark_all<prologue_b::gemm::WeightKBlockNFloat, utils::bf16>(1024, 4096, 4096, BTLA_DTYPE::F4_BNB);
+    benchmark_all<prologue_b::gemm::WeightKBlockNFloat, utils::bf16>(2048, 4096, 4096, BTLA_DTYPE::F4_BNB);
+  }
+
+  template <typename Core_T, typename LOG_T, template <class _T, BTLA_ISA> class Wei, typename Scale_T>
+  void benchmark(int m, int n, int k, int batch, int blocksize, float* A, float* B, float* C, float timems, int threads,
+                 BTLA_DTYPE qtype) {
+    LOG_T log;
+    using Parallel = parallel::gemm::SchedulerBase<Core_T>;
+    using Launcher = wrapper::gemm::LauncherBase<Core_T::ISA, Core_T, prologue_a::gemm::ActivationConverterFp32, Wei,
+                                                 epilogue::gemm::AccumulatorWriteBackFp32>;
+    Launcher kernel;
+    UT_Threading::set_threads(threads);
+    auto corestr = gemm::CoreAttr::to_str(Core_T::ID);
+    utils::timer<std::chrono::milliseconds> tm;
+    using WType = typename Wei<Core_T, Core_T::ISA>::StorageWeight;
+    WType tmpB(0);
+    if constexpr (std::is_same_v<Wei<Core_T, Core_T::ISA>,
+                                 prologue_b::gemm::WeightKBlockNInteger<Core_T, Core_T::ISA>>) {
+      tmpB = kernel.mProB.createStorage(n, k, blocksize, qtype, bestla_dtype<Scale_T>, bestla_dtype<float>, false);
+
+    } else if constexpr (std::is_same_v<Wei<Core_T, Core_T::ISA>,
+                                        prologue_b::gemm::WeightKBlockNFloat<Core_T, Core_T::ISA>>) {
+      tmpB = kernel.mProB.createStorage(n, k, blocksize, qtype, bestla_dtype<Scale_T>);
+    }
+    std::vector<WType> packBs(batch, 0);
+    avector<int8_t> bufB(tmpB.mSize * batch);
+    for (size_t i = 0; i < batch; i++) {
+      packBs[i] = tmpB;
+      packBs[i].assign(bufB.data() + i * tmpB.mSize);
+    }
+    kernel.mProB.packWeight(n, k, B, n, &packBs[0], UT_Threading::get());
+    for (size_t i = 1; i < batch; i++) {
+      memcpy(packBs[i].template WPtr<void>(), packBs[0].template WPtr<void>(), packBs[0].template WSize<char>());
+      memcpy(packBs[i].template SPtr<void>(), packBs[0].template SPtr<void>(), packBs[0].CSize() * sizeof(Scale_T));
+    }
+    auto psize = (size_t)m * n * k * 2;
+    auto memsize = (size_t)packBs[0].mSize + (m * k + m * n) * sizeof(float);
+    tm.start();
+    while (tm.stop() < timems) {
+      for (int i = 0; i < batch; i++) {
+        log.start();
+        GemmProblem gp(1, m, n, k);
+        typename Launcher::Param args{gp, {A + i * m * k, k}, {&packBs[i]}, {C + i * m * n, n}};
+        parallel::GemmRun<Parallel>(kernel, args, UT_Threading::get());
+        log.stop();
+        if (tm.stop() >= timems) {
+          break;
+        }
+      }
+    }
+    log.record();
+    double flops = double(psize) / log.min_val / 1e6;
+    double band = double(memsize) / log.min_val / 1e6;
+    printf("Threads %d Block %d %s %s Flops:%.3fG PerCoreFlops:%.3fG MemoryBandwidth:%.3fGB/s\n", threads, blocksize,
+           corestr, log.get_log_str(), flops, flops / threads, band);
+  }
+
+  template <typename Core_T, typename LOG_T, template <class _T, BTLA_ISA> class Wei, typename Scale_T>
+  void benchmark_mem(int m, int n, int k, int batch, int blocksize, float* A, float* B, float* C, float timems,
+                     int threads, BTLA_DTYPE qtype) {
+    LOG_T log;
+    using Parallel = parallel::gemm::SchedulerKBlock<Core_T>;
+    using Launcher =
+        wrapper::gemm::LauncherKBlock<Core_T::ISA, Core_T, prologue_a::gemm::ActivationConverterFp32, Wei,
+                                      epilogue::gemm::CompFp32BlockEpilogue, epilogue::gemm::AccumulatorWriteBackFp32>;
+    Launcher kernel;
+    UT_Threading::set_threads(threads);
+    auto corestr = gemm::CoreAttr::to_str(Core_T::ID);
+    utils::timer<std::chrono::milliseconds> tm;
+    using WType = typename Wei<Core_T, Core_T::ISA>::StorageWeight;
+    WType tmpB(0);
+    if constexpr (std::is_same_v<Wei<Core_T, Core_T::ISA>,
+                                 prologue_b::gemm::WeightKBlockNInteger<Core_T, Core_T::ISA>>) {
+      tmpB = kernel.mProB.createStorage(n, k, blocksize, qtype, bestla_dtype<Scale_T>, bestla_dtype<float>, false);
+
+    } else if constexpr (std::is_same_v<Wei<Core_T, Core_T::ISA>,
+                                        prologue_b::gemm::WeightKBlockNFloat<Core_T, Core_T::ISA>>) {
+      tmpB = kernel.mProB.createStorage(n, k, blocksize, qtype, bestla_dtype<Scale_T>);
+    }
+    auto memsize = (size_t)tmpB.mSize + (m * k + m * n) * sizeof(float);
+    std::vector<WType> packBs(batch, 0);
+    avector<int8_t> bufB(tmpB.mSize * batch);
+    for (size_t i = 0; i < batch; i++) {
+      packBs[i] = tmpB;
+      packBs[i].assign(bufB.data() + i * tmpB.mSize);
+    }
+    kernel.mProB.packWeight(n, k, B, n, &packBs[0], UT_Threading::get());
+    for (size_t i = 1; i < batch; i++) {
+      memcpy(packBs[i].template WPtr<void>(), packBs[0].template WPtr<void>(), packBs[0].template WSize<char>());
+      memcpy(packBs[i].template SPtr<void>(), packBs[0].template SPtr<void>(), packBs[0].CSize() * sizeof(Scale_T));
+    }
+    auto psize = (size_t)m * n * k * 2;
+    tm.start();
+    while (tm.stop() < timems) {
+      log.start();
+      for (size_t i = 0; i < batch; i++) {
+        GemmProblem gp(1, m, n, k, blocksize);
+        typename Launcher::Param args{gp,
+                                      {A + i * m * k, k},
+                                      {&packBs[i]},
+                                      {packBs[i].template SPtr<int8_t>(), packBs[i].SDtype(), packBs[i].CStep()},
+                                      {C + i * m * n, n}};
+        parallel::GemmRun<Parallel>(kernel, args, UT_Threading::get());
+      }
+      log.stop();
+    }
+    log.record();
+    double t = log.min_val / batch;
+    double flops = double(psize) / t / 1e6;
+    double band = double(memsize) / t / 1e6;
+    printf("Threads %d %s Flops:%.3fG PerCoreFlops:%.3fG MemoryBandwidth:%.3fGB/s\n", threads, corestr, flops,
+           flops / threads, band);
+  }
+
+  template <template <class _T, BTLA_ISA> class Wei, typename Scale_T>
+  void benchmark_all(int m, int n, int k, BTLA_DTYPE qtype) {
+    auto memsize = gemm_memsize(m, n, k, BTLA_DTYPE::F32, qtype, BTLA_DTYPE::F32);
+    int batch = auto_batch(memsize);
+    printf("%d %d %d %d %s %s %s\n", m, n, k, batch, bestla_dtype_str(BTLA_DTYPE::F32), bestla_dtype_str(qtype),
+           bestla_dtype_str(BTLA_DTYPE::F32));
+    avector<float> A(size_t(m) * k * batch);
+    avector<float> B(size_t(k) * n);
+    avector<float> C(size_t(m) * n * batch);
+    fill_buffer_randn(A.data(), k * m, (-0.5f), (0.5f));
+    fill_buffer_randn(B.data(), k * n, (-0.5f), (0.5f));
+    for (int i = 1; i < batch; i++) {
+      memcpy(A.data() + i * m * k, A.data(), m * k * sizeof(float));
+    }
+    using LOG = timer_statistics_logger<TestMs * 2>;
+    float testtime = float(TestMs);
+    GetCPUDevice();
+    auto threads_cfg = UT_Threading::get_threads_config();
+    for (auto threads : threads_cfg) {
+      for (auto blocksize : {32, 128}) {
+        if (_cd->AMX_BF16()) {
+          if (m > 4) {
+            benchmark<gemm::HCoreRowNAmxbf16<64, 16>, LOG, Wei, Scale_T>(m, n, k, batch, blocksize, A.data(), B.data(),
+                                                                         C.data(), testtime, threads, qtype);
+          } else {
+            benchmark_mem<gemm::HCoreRowNAmxbf16<64, 16>, LOG, Wei, Scale_T>(
+                m, n, k, batch, blocksize, A.data(), B.data(), C.data(), testtime, threads, qtype);
+            benchmark_mem<gemm::HCoreRowNAvx512bf16<96, 4>, LOG, Wei, Scale_T>(
+                m, n, k, batch, blocksize, A.data(), B.data(), C.data(), testtime, threads, qtype);
+          }
+        }
+      }
+    }
+  }
+};
+#ifdef BTLA_UT_PROLOGUE_B
+static UTWOQ_CompBf16 sUTWOQ_CompBf16;
+#endif
+
+class UTWOQ_CompInt8 {
+ public:
+  UTWOQ_CompInt8() {
+    UT_START();
+    ut_s4();
+    ut_s8();
+  }
+
+  void ut_s4() {
+    benchmark_all<prologue_b::gemm::WeightKBlockNInteger, utils::bf16>(1, 4096, 4096, BTLA_DTYPE::S4_CLIP);
+    benchmark_all<prologue_b::gemm::WeightKBlockNInteger, utils::bf16>(1024, 4096, 4096, BTLA_DTYPE::S4_CLIP);
+    benchmark_all<prologue_b::gemm::WeightKBlockNInteger, utils::bf16>(2048, 4096, 4096, BTLA_DTYPE::S4_CLIP);
+  }
+
+  void ut_s8() {
+    benchmark_all<prologue_b::gemm::WeightKBlockNInteger, utils::bf16>(1, 4096, 4096, BTLA_DTYPE::S8);
+    benchmark_all<prologue_b::gemm::WeightKBlockNInteger, utils::bf16>(1024, 4096, 4096, BTLA_DTYPE::S8);
+    benchmark_all<prologue_b::gemm::WeightKBlockNInteger, utils::bf16>(2048, 4096, 4096, BTLA_DTYPE::S8);
+  }
+
+  template <typename Core_T, typename LOG_T, template <class _T, BTLA_ISA> class Wei, typename Scale_T>
+  void benchmark(int m, int n, int k, int batch, int blocksize, float* A, float* B, float* C, float timems, int threads,
+                 BTLA_DTYPE qtype) {
+    LOG_T log;
+    using Parallel = parallel::gemm::SchedulerKBlockS<Core_T>;
+    using Launcher =
+        wrapper::gemm::LauncherIntKBlock<Core_T::ISA, Core_T, prologue_a::gemm::ActivationF32KBlockQuantize, Wei,
+                                         epilogue::gemm::AccumulatorWriteBackFp32>;
+    Launcher kernel;
+    UT_Threading::set_threads(threads);
+    auto corestr = gemm::CoreAttr::to_str(Core_T::ID);
+    utils::timer<std::chrono::milliseconds> tm;
+    using WType = typename Wei<Core_T, Core_T::ISA>::StorageWeight;
+    WType tmpB = kernel.mProB.createStorage(n, k, blocksize, qtype, bestla_dtype<Scale_T>, bestla_dtype<float>, false);
+    std::vector<WType> packBs(batch, 0);
+    avector<int8_t> bufB(tmpB.mSize * batch);
+    for (size_t i = 0; i < batch; i++) {
+      packBs[i] = tmpB;
+      packBs[i].assign(bufB.data() + i * tmpB.mSize);
+    }
+    kernel.mProB.packWeight(n, k, B, n, &packBs[0], UT_Threading::get());
+    for (size_t i = 1; i < batch; i++) {
+      memcpy(packBs[i].template WPtr<void>(), packBs[0].template WPtr<void>(), packBs[0].template WSize<char>());
+      memcpy(packBs[i].template SPtr<void>(), packBs[0].template SPtr<void>(), packBs[0].CSize() * sizeof(Scale_T));
+    }
+    auto quanA = kernel.mProA.createStorage(m, k, blocksize, false);
+    utils::avector<int8_t> bufferA(quanA.mSize);
+    quanA.assign(bufferA.data());
+    auto psize = (size_t)m * n * k * 2;
+    auto memsize = (size_t)packBs[0].mSize + (m * k + m * n) * sizeof(float);
+    tm.start();
+    while (tm.stop() < timems) {
+      for (int i = 0; i < batch; i++) {
+        log.start();
+        GemmProblem gp(1, m, n, k, blocksize);
+        typename Launcher::Param args{gp, {A + i * m * k, k, &quanA}, {&packBs[i]}, {C + i * m * n, n}};
+        parallel::GemmRunWithA<Parallel>(kernel, args, UT_Threading::get());
+        log.stop();
+        if (tm.stop() >= timems) {
+          break;
+        }
+      }
+    }
+    log.record();
+    double flops = double(psize) / log.min_val / 1e6;
+    double band = double(memsize) / log.min_val / 1e6;
+    printf("Threads %d Block %d %s %s Flops:%.3fG PerCoreFlops:%.3fG MemoryBandwidth:%.3fGB/s\n", threads, blocksize,
+           corestr, log.get_log_str(), flops, flops / threads, band);
+  }
+
+  template <template <class _T, BTLA_ISA> class Wei, typename Scale_T>
+  void benchmark_all(int m, int n, int k, BTLA_DTYPE qtype) {
+    auto memsize = gemm_memsize(m, n, k, BTLA_DTYPE::F32, qtype, BTLA_DTYPE::F32);
+    int batch = auto_batch(memsize);
+    printf("%d %d %d %d %s %s %s\n", m, n, k, batch, bestla_dtype_str(BTLA_DTYPE::F32), bestla_dtype_str(qtype),
+           bestla_dtype_str(BTLA_DTYPE::F32));
+    avector<float> A(size_t(m) * k * batch);
+    avector<float> B(size_t(k) * n);
+    avector<float> C(size_t(m) * n * batch);
+    fill_buffer_randn(A.data(), k * m, (-0.5f), (0.5f));
+    fill_buffer_randn(B.data(), k * n, (-0.5f), (0.5f));
+    for (int i = 1; i < batch; i++) {
+      memcpy(A.data() + i * m * k, A.data(), m * k * sizeof(float));
+    }
+    using LOG = timer_statistics_logger<TestMs * 2>;
+    float testtime = float(TestMs);
+    GetCPUDevice();
+    auto threads_cfg = UT_Threading::get_threads_config();
+    for (auto threads : threads_cfg) {
+      for (auto blocksize : {32, 128}) {
+        if (_cd->AMX_INT8()) {
+          benchmark<gemm::ICoreRowNAmxint8KBlock<64, 16>, LOG, Wei, Scale_T>(
+              m, n, k, batch, blocksize, A.data(), B.data(), C.data(), testtime, threads, qtype);
+        }
+        if (_cd->AVX512_VNNI()) {
+          benchmark<gemm::ICoreRowNAvx512vnniKBlock<48, 4>, LOG, Wei, Scale_T>(
+              m, n, k, batch, blocksize, A.data(), B.data(), C.data(), testtime, threads, qtype);
+          benchmark<gemm::ICoreRowNAvx512vnniKBlock<96, 2>, LOG, Wei, Scale_T>(
+              m, n, k, batch, blocksize, A.data(), B.data(), C.data(), testtime, threads, qtype);
+        }
+        if (_cd->AVX_VNNI()) {
+          benchmark<gemm::ICoreRowNAvxvnniKBlock<24, 2>, LOG, Wei, Scale_T>(
+              m, n, k, batch, blocksize, A.data(), B.data(), C.data(), testtime, threads, qtype);
+          benchmark<gemm::ICoreRowNAvxvnniKBlock<48, 1>, LOG, Wei, Scale_T>(
+              m, n, k, batch, blocksize, A.data(), B.data(), C.data(), testtime, threads, qtype);
+        }
+      }
+    }
+  }
+};
+#ifdef BTLA_UT_PROLOGUE_B
+static UTWOQ_CompInt8 sUTWOQ_CompInt8;
+#endif
+
+}  // namespace ut
+}  // namespace bestla
+int main() {
+  printf("BesTLA Benchmark done\n");
+  return 0;
+}
diff --git a/bestla/bestla/ut/bestla_epilogue.cpp b/bestla/bestla/ut/bestla_epilogue.cpp
index 3d83035c3..d1d293b26 100644
--- a/bestla/bestla/ut/bestla_epilogue.cpp
+++ b/bestla/bestla/ut/bestla_epilogue.cpp
@@ -1,6 +1,7 @@
 #include "bestla_epilogue.h"
 #include "bestla_ut.h"
 
+#ifdef BTLA_UT_EPILOGUE
 namespace bestla {
 using namespace utils;
 namespace ut {
@@ -139,3 +140,4 @@ static UT_AlphaBetaProcessFp32 sUT_AlphaBetaProcessFp32;
 #endif
 }  // namespace ut
 }  // namespace bestla
+#endif
diff --git a/bestla/bestla/ut/bestla_gemm.cpp b/bestla/bestla/ut/bestla_gemm.cpp
index 43d86eab0..9a686126f 100644
--- a/bestla/bestla/ut/bestla_gemm.cpp
+++ b/bestla/bestla/ut/bestla_gemm.cpp
@@ -2,6 +2,7 @@
 #include "bestla_utils.h"
 #include "bestla_ut.h"
 
+#ifdef BTLA_UT_GEMM
 namespace bestla {
 using namespace utils;
 
@@ -1115,3 +1116,4 @@ static UT_GEMM_AMXINT8 sUT_GEMM_AMXINT8;
 #endif
 }  // namespace ut
 }  // namespace bestla
+#endif
diff --git a/bestla/bestla/ut/bestla_parallel.cpp b/bestla/bestla/ut/bestla_parallel.cpp
index 81e4eb899..93a47a898 100644
--- a/bestla/bestla/ut/bestla_parallel.cpp
+++ b/bestla/bestla/ut/bestla_parallel.cpp
@@ -4,6 +4,8 @@
 #include "bestla_gemm.h"
 #include "bestla_ut.h"
 #include "bestla_prologue_a.h"
+
+#ifdef BTLA_UT_PARALLEL
 namespace bestla {
 using namespace utils;
 namespace ut {
@@ -24,8 +26,8 @@ class UT_OMPThreading {
     int ld_src = col, ld_dst = row;
     kernel::wrapper::Transpose2D<float>::template forward<BTLA_ISA::AVX512F>(src.data(), ref.data(), row, col, col,
                                                                              row);
-    parallel::Scheduler2D _para({threads, row, col, 1, 1});
-    DefaultThreading.parallel_for([&](int tidx) {
+    parallel::Scheduler2D _para({threads, row, col, 1, 1, 0, 0});
+    UT_Threading::get()->parallel_for([&](int tidx) {
       parallel::ThreadProblem2D thdp{tidx};
       _para.getIndex(thdp);
       if (thdp.valid) {
@@ -58,8 +60,8 @@ class UT_StdThreading {
     int ld_src = col, ld_dst = row;
     kernel::wrapper::Transpose2D<float>::template forward<BTLA_ISA::AVX512F>(src.data(), ref.data(), row, col, col,
                                                                              row);
-    parallel::Scheduler2D _para({threads, row, col, 1, 1});
-    DefaultThreading.parallel_for([&](int tidx) {
+    parallel::Scheduler2D _para({threads, row, col, 1, 1, 0, 0});
+    UT_Threading::get()->parallel_for([&](int tidx) {
       parallel::ThreadProblem2D thdp{tidx};
       _para.getIndex(thdp);
       if (thdp.valid) {
@@ -88,7 +90,7 @@ class UT_Scheduler2D {
   void ut(int row, int col, int threads) {
     printf("%s %d %d %d\n", __FUNCTION__, row, col, threads);
     parallel::Scheduler2D sch;
-    sch.update({threads, row, col, 1, 1});
+    sch.update({threads, row, col, 1, 1, 0, 0});
     sch.print();
     parallel::ThreadProblem2D prb{threads - 1};
     sch.getIndex(prb);
@@ -115,8 +117,8 @@ class UT_SchedulerGemmBase {
     parallel::gemm::SchedulerBase<GemmCore_T> sch;
     GetCPUDevice();
     utils::GemmProblem gp(1, m, n, k);
-    sch.update(
-        {threads, gp, l2cache == 0 ? _cd->getL2CacheSize() : l2cache, l1cache == 0 ? _cd->getL1CacheSize() : l1cache});
+    sch.update({threads, gp, 0, 0, l2cache == 0 ? _cd->getL2CacheSize() : l2cache,
+                l1cache == 0 ? _cd->getL1CacheSize() : l1cache});
     sch.print();
     parallel::gemm::ThreadProblemBase prb{sch.valid_theads() - 1};
     sch.getIndex(prb);
@@ -154,7 +156,7 @@ class UT_SchedulerGemmKBlock {
     parallel::gemm::SchedulerKBlock<GemmCore_T> sch;
     GetCPUDevice();
     utils::GemmProblem gp(1, m, n, k, kblock);
-    sch.update({threads, gp, _cd->getL2CacheSize(), l1cache == 0 ? _cd->getL1CacheSize() : l1cache});
+    sch.update({threads, gp, 0, 0, _cd->getL2CacheSize(), l1cache == 0 ? _cd->getL1CacheSize() : l1cache});
     sch.print();
     parallel::gemm::ThreadProblemBase prb{sch.valid_theads() - 1};
     sch.getIndex(prb);
@@ -194,7 +196,7 @@ class UT_SchedulerGemmKBlockNew {
     parallel::gemm::SchedulerKBlockS<GemmCore_T> sch;
     GetCPUDevice();
     utils::GemmProblem gp(1, m, n, k, kblock);
-    sch.update({threads, gp, _cd->getL2CacheSize(), l1cache == 0 ? _cd->getL1CacheSize() : l1cache});
+    sch.update({threads, gp, 0, 0, _cd->getL2CacheSize(), l1cache == 0 ? _cd->getL1CacheSize() : l1cache});
     sch.print();
     parallel::gemm::ThreadProblemBase prb{sch.valid_theads() - 1};
     sch.getIndex(prb);
@@ -206,3 +208,4 @@ static UT_SchedulerGemmKBlockNew sUT_SchedulerGemmKBlockNew;
 #endif
 }  // namespace ut
 }  // namespace bestla
+#endif
diff --git a/bestla/bestla/ut/bestla_prologue_a.cpp b/bestla/bestla/ut/bestla_prologue_a.cpp
index 7cb4b6379..5f7795479 100644
--- a/bestla/bestla/ut/bestla_prologue_a.cpp
+++ b/bestla/bestla/ut/bestla_prologue_a.cpp
@@ -2,6 +2,7 @@
 #include "bestla_ut.h"
 #include "kernel_avx512f.h"
 
+#ifdef BTLA_UT_PROLOGUE_A
 namespace bestla {
 using namespace utils;
 namespace ut {
@@ -130,7 +131,7 @@ class UT_ActivationU8KBlockQuantize {
     auto quanAct = actA.createStorage(m, k, kblock, hasreduce);
     avector<int8_t> bufA(quanAct.mSize);
     quanAct.assign(bufA.data());
-    actA.quantize({raw.data(), lda, &quanAct}, m, k, &DefaultThreading);
+    actA.quantize({raw.data(), lda, &quanAct}, m, k, UT_Threading::get());
 
     ut::buffer_error(q.data(), quanAct.template APtr<uint8_t>(), q.size(), uint8_t(1));
     ut::buffer_error(zp.data(), quanAct.template ZPtr<uint8_t>(), zp.size(), uint8_t(1));
@@ -185,7 +186,7 @@ class UT_ActivationS8KBlockQuantize {
     auto quanAct = actA.createStorage(m, k, kblock, hasreduce);
     avector<int8_t> bufA(quanAct.mSize);
     quanAct.assign(bufA.data());
-    actA.quantize({raw.data(), k, &quanAct}, m, k, &DefaultThreading);
+    actA.quantize({raw.data(), k, &quanAct}, m, k, UT_Threading::get());
     ut::buffer_error(q.data(), quanAct.template APtr<int8_t>(), q.size(), int8_t(1));
     if (hasreduce) {
       avector<float> redref(reduce.size(), 0.f), redqref(reduce.size(), 0.f);
@@ -234,7 +235,7 @@ class UT_ShuffleActivationKblock {
     auto reordA = kernel.createReorderStorage(m, k, 32);
     avector<int8_t> bufA(reordA.mSize);
     reordA.assign(bufA.data());
-    kernel.preprocess({src.data(), k, nullptr, indices.data(), &reordA}, m, k, 32, &DefaultThreading);
+    kernel.preprocess({src.data(), k, nullptr, indices.data(), &reordA}, m, k, 32, UT_Threading::get());
 
     kernel.getActivation(&dstptr, &dststride, {src.data(), k, nullptr, indices.data(), &reordA}, m, kpad, 0, 0, cache,
                          CacheSize);
@@ -271,7 +272,7 @@ class UT_ShuffleActivationKblock {
     avector<int8_t> bufA(quanAct.mSize + reordAct.mSize);
     quanAct.assign(bufA.data());
     reordAct.assign(bufA.data() + quanAct.mSize);
-    actA.quantize({raw_cp.data(), k, &quanAct, indices.data(), &reordAct}, m, k, &DefaultThreading);
+    actA.quantize({raw_cp.data(), k, &quanAct, indices.data(), &reordAct}, m, k, UT_Threading::get());
     ut::buffer_error(quanAct.template APtr<int8_t>(), q.data(), q.size(), int8_t(1));
     if (hasreduce) {
       avector<float> redref(reduce.size(), 0.f), redqref(reduce.size(), 0.f);
@@ -292,3 +293,4 @@ static UT_ShuffleActivationKblock sUT_ShuffleActivationKblock;
 #endif
 }  // namespace ut
 }  // namespace bestla
+#endif
\ No newline at end of file
diff --git a/bestla/bestla/ut/bestla_prologue_b.cpp b/bestla/bestla/ut/bestla_prologue_b.cpp
index 29e18e35d..27170b33f 100644
--- a/bestla/bestla/ut/bestla_prologue_b.cpp
+++ b/bestla/bestla/ut/bestla_prologue_b.cpp
@@ -5,6 +5,7 @@
 #include "bestla_wrapper.h"
 #include "bestla_ut.h"
 
+#ifdef BTLA_UT_PROLOGUE_B
 namespace bestla {
 using namespace utils;
 namespace ut {
@@ -68,11 +69,11 @@ class UT_BlockQunatize_INT8 {
     auto ptr = kernel.createStorage(n, k, blocksize, BTLA_DTYPE::S8, bestla_dtype<float>, bestla_dtype<float>, asym);
     avector<int8_t> buffer(ptr.mSize);
     ptr.assign(buffer.data());
-    kernel.packWeight(n, k, dequanRef.data(), ldb, &ptr, &DefaultThreading);
+    kernel.packWeight(n, k, dequanRef.data(), ldb, &ptr, UT_Threading::get());
     avector<float> dequant(n * k);
-    kernel.unpackWeight(n, k, &ptr, dequant.data(), n, &DefaultThreading);
+    kernel.unpackWeight(n, k, &ptr, dequant.data(), n, UT_Threading::get());
     avector<int8_t> ws8(n * k);
-    kernel.unpackWeight(n, k, &ptr, ws8.data(), n, &DefaultThreading);
+    kernel.unpackWeight(n, k, &ptr, ws8.data(), n, UT_Threading::get());
     ut::buffer_error(quanW.data(), ws8.data(), ws8.size(), (int8_t)1);
     ut::buffer_error(dequanRef.data(), dequant.data(), dequanRef.size(), 0.01f);
   }
@@ -118,13 +119,13 @@ class UT_BlockQunatize_INT8 {
     auto ptr = kernel.createStorage(n, k, blocksize, BTLA_DTYPE::S8, bestla_dtype<float>, bestla_dtype<float>, asym);
     avector<int8_t> buffer(ptr.mSize);
     ptr.assign(buffer.data());
-    kernel.packTransposeWeight(n, k, dequanT.data(), k, &ptr, &DefaultThreading);
+    kernel.packTransposeWeight(n, k, dequanT.data(), k, &ptr, UT_Threading::get());
     avector<float> dequant(n * k), tardequanT(k * n);
-    kernel.unpackWeight(n, k, &ptr, dequant.data(), n, &DefaultThreading);
-    kernel.unpackTransposeWeight(n, k, &ptr, tardequanT.data(), k, &DefaultThreading);
+    kernel.unpackWeight(n, k, &ptr, dequant.data(), n, UT_Threading::get());
+    kernel.unpackTransposeWeight(n, k, &ptr, tardequanT.data(), k, UT_Threading::get());
     ut::buffer_error(dequanT.data(), tardequanT.data(), tardequanT.size(), 0.01f);
     avector<int8_t> ws8(n * k);
-    kernel.unpackWeight(n, k, &ptr, ws8.data(), n, &DefaultThreading);
+    kernel.unpackWeight(n, k, &ptr, ws8.data(), n, UT_Threading::get());
     ut::buffer_error(quanW.data(), ws8.data(), ws8.size(), (int8_t)1);
     ut::buffer_error(dequanRef.data(), dequant.data(), dequanRef.size(), 0.01f);
   }
@@ -159,12 +160,12 @@ class UT_BlockQunatize_F8 {
     avector<int8_t> ref_buffer(ptr.mSize);
     ptr.assign(buffer.data());
     ref_ptr.assign(ref_buffer.data());
-    kernel.packWeight(n, k, raw.data(), ldb, &ptr, &DefaultThreading);
-    ref_ker.packWeight(n, k, raw.data(), ldb, &ref_ptr, &DefaultThreading);
+    kernel.packWeight(n, k, raw.data(), ldb, &ptr, UT_Threading::get());
+    ref_ker.packWeight(n, k, raw.data(), ldb, &ref_ptr, UT_Threading::get());
     avector<float> dequant(n * k, 0);
     avector<float> ref_dequant(n * k, 0);
-    kernel.unpackWeight(n, k, &ptr, dequant.data(), n, &DefaultThreading);
-    ref_ker.unpackWeight(n, k, &ref_ptr, ref_dequant.data(), n, &DefaultThreading);
+    kernel.unpackWeight(n, k, &ptr, dequant.data(), n, UT_Threading::get());
+    ref_ker.unpackWeight(n, k, &ref_ptr, ref_dequant.data(), n, UT_Threading::get());
     ut::buffer_error(ref_dequant.data(), dequant.data(), dequant.size(), 0.01f);
   }
 };
@@ -185,7 +186,7 @@ class UT_S3_WOQ {
 
   template <class GemmCore_T, BTLA_ISA ISA>
   void ut(int m, int n, int k, int blocksize, int enable_thr) {
-    DefaultThreading.set_threads(enable_thr);
+    UT_Threading::set_threads(enable_thr);
     printf("%s:%d %d %d %d\n", __FUNCTION__, m, n, k, blocksize);
     int ldb = n;
 
@@ -206,8 +207,8 @@ class UT_S3_WOQ {
     avector<int8_t> buffer_ref(ptr_ref.mSize);
     ptr.assign(buffer.data());
     ptr_ref.assign(buffer_ref.data());
-    kernel.packQWeight(n, k, quanW.data(), ldb, scales.data(), nullptr, &ptr, &DefaultThreading);
-    kernel.packQWeight(n, k, quanW.data(), ldb, scales.data(), nullptr, &ptr_ref, &DefaultThreading);
+    kernel.packQWeight(n, k, quanW.data(), ldb, scales.data(), nullptr, &ptr, UT_Threading::get());
+    kernel.packQWeight(n, k, quanW.data(), ldb, scales.data(), nullptr, &ptr_ref, UT_Threading::get());
     using Launcher =
         wrapper::gemm::LauncherKBlock<ISA, GemmCore_T, prologue_a::gemm::ActivationBase,
                                       prologue_b::gemm::WeightKBlockNInteger, epilogue::gemm::CompFp32BlockEpilogue,
@@ -222,26 +223,26 @@ class UT_S3_WOQ {
       utils::GemmProblem gp(1, m, n, k, blocksize);
       typename Launcher::Param args{
           gp, {matAf32.data(), k}, {&ptr}, {ptr.template SPtr<int8_t>(), ptr.SDtype(), ptr.CStep()}, {matC.data(), n}};
-      parallel::GemmRun<Parallel>(launcher, args, &DefaultThreading);
+      parallel::GemmRun<Parallel>(launcher, args, UT_Threading::get());
       typename Launcher::Param args_ref{gp,
                                         {matAf32.data(), k},
                                         {&ptr_ref},
                                         {ptr_ref.template SPtr<int8_t>(), ptr_ref.SDtype(), ptr_ref.CStep()},
                                         {refC.data(), n}};
-      parallel::GemmRun<Parallel>(launcher, args_ref, &DefaultThreading);
+      parallel::GemmRun<Parallel>(launcher, args_ref, UT_Threading::get());
     } else if constexpr (ISA == BTLA_ISA::AMX_BF16) {
       avector<utils::bf16> matAbf16(m * k);
       fill_buffer_randn(matAbf16.data(), matAbf16.size(), utils::bf16(-0.5f), utils::bf16(0.5f));
       GemmProblem gp(1, m, n, k, blocksize);
       typename Launcher::Param args{
           gp, {matAbf16.data(), k}, {&ptr}, {ptr.template SPtr<int8_t>(), ptr.SDtype(), ptr.CStep()}, {matC.data(), n}};
-      parallel::GemmRun<Parallel>(launcher, args, &DefaultThreading);
+      parallel::GemmRun<Parallel>(launcher, args, UT_Threading::get());
       typename Launcher::Param args_ref{gp,
                                         {matAbf16.data(), k},
                                         {&ptr_ref},
                                         {ptr_ref.template SPtr<int8_t>(), ptr_ref.SDtype(), ptr_ref.CStep()},
                                         {refC.data(), n}};
-      parallel::GemmRun<Parallel>(launcher, args_ref, &DefaultThreading);
+      parallel::GemmRun<Parallel>(launcher, args_ref, UT_Threading::get());
     } else {
       using Launcher2 = wrapper::gemm::LauncherIntKBlock<ISA, GemmCore_T, prologue_a::gemm::ActivationF32KBlockQuantize,
                                                          prologue_b::gemm::WeightKBlockNInteger,
@@ -258,9 +259,9 @@ class UT_S3_WOQ {
       quanA_ref.assign(bufferA_ref.data());
       GemmProblem gp(1, m, n, k, blocksize);
       typename Launcher2::Param args{gp, {matAf32.data(), k, &quanA}, {&ptr}, {matC.data(), n}};
-      parallel::GemmRunWithA<Parallel2>(launcher, args, &DefaultThreading);
+      parallel::GemmRunWithA<Parallel2>(launcher, args, UT_Threading::get());
       typename Launcher2::Param args_ref{gp, {matAf32.data(), k, &quanA_ref}, {&ptr_ref}, {refC.data(), n}};
-      parallel::GemmRunWithA<Parallel2>(launcher, args_ref, &DefaultThreading);
+      parallel::GemmRunWithA<Parallel2>(launcher, args_ref, UT_Threading::get());
     }
     buffer_error(matC.data(), refC.data(), matC.size(), 0.001f);
   }
@@ -350,10 +351,10 @@ class UT_TransposeBlockQuantize_F4 {
     avector<int8_t> buf(packedW.mSize), buf1(packedW1.mSize);
     packedW.assign(buf.data());
     packedW1.assign(buf1.data());
-    kernel.packTransposeWeight(n, k, dequanRef.data(), k, &packedW, &DefaultThreading);
-    kernel.packQWeight(n, k, quanW.data(), ldb, scales.data(), nullptr, &packedW1, &DefaultThreading);
+    kernel.packTransposeWeight(n, k, dequanRef.data(), k, &packedW, UT_Threading::get());
+    kernel.packQWeight(n, k, quanW.data(), ldb, scales.data(), nullptr, &packedW1, UT_Threading::get());
     avector<float> dequant(n * k);
-    kernel.unpackTransposeWeight(n, k, &packedW1, dequant.data(), k, &DefaultThreading);
+    kernel.unpackTransposeWeight(n, k, &packedW1, dequant.data(), k, UT_Threading::get());
     if (SCA_T != BTLA_DTYPE::DQ8_BNB) {
       ut::buffer_error(packedW.SPtr<float>(), packedW1.SPtr<float>(), packedW1.CSize());
       ut::buffer_error(dequanRef.data(), dequant.data(), dequant.size());
@@ -416,11 +417,11 @@ class UT_BlockQuantize_INT4 {
     auto packedW = kernel.createStorage(n, k, blocksize, qtype, bestla_dtype<float>, bestla_dtype<float>, asym);
     avector<int8_t> buffer(packedW.mSize);
     packedW.assign(buffer.data());
-    kernel.packWeight(n, k, dequant.data(), ldb, &packedW, &DefaultThreading);
+    kernel.packWeight(n, k, dequant.data(), ldb, &packedW, UT_Threading::get());
     avector<float> unpackf32(dequant.size());
     avector<float> unpack512f32(dequant.size());
-    kernel.unpackWeight(n, k, &packedW, unpackf32.data(), n, &DefaultThreading);
-    kernel512.unpackWeight(n, k, &packedW, unpack512f32.data(), n, &DefaultThreading);
+    kernel.unpackWeight(n, k, &packedW, unpackf32.data(), n, UT_Threading::get());
+    kernel512.unpackWeight(n, k, &packedW, unpack512f32.data(), n, UT_Threading::get());
     ut::buffer_error(unpackf32.data(), unpack512f32.data(), unpackf32.size(), 0.01f);
   }
   void ut_512vnni(int n, int k, int blocksize, BTLA_DTYPE qtype, bool asym = false) {
@@ -458,9 +459,9 @@ class UT_BlockQuantize_INT4 {
     auto packedW = kernel.createStorage(n, k, blocksize, qtype, bestla_dtype<float>, bestla_dtype<float>, asym);
     avector<int8_t> buffer(packedW.mSize);
     packedW.assign(buffer.data());
-    kernel.packWeight(n, k, dequant.data(), ldb, &packedW, &DefaultThreading);
+    kernel.packWeight(n, k, dequant.data(), ldb, &packedW, UT_Threading::get());
     avector<float> unpackf32(dequant.size());
-    kernel.unpackWeight(n, k, &packedW, unpackf32.data(), n, &DefaultThreading);
+    kernel.unpackWeight(n, k, &packedW, unpackf32.data(), n, UT_Threading::get());
     int lsb = 16;
     float err_thres = lsb * 0.01f;  // lsb*max_scale
     ut::buffer_error(dequant.data(), unpackf32.data(), dequant.size(), err_thres);
@@ -548,7 +549,7 @@ class UT_ShuffleIndices {
     }
     avector<int8_t> buf0(packedW.mSize), buf1(packedW.mSize);
     packedW.assign(buf0.data());
-    ProWei.setShuffleIndices(groupindices.data(), &packedW, &DefaultThreading);
+    ProWei.setShuffleIndices(groupindices.data(), &packedW, UT_Threading::get());
     buffer_error(reflut.data(), packedW.ShfIndice(), reflut.size());
 
     storage::gemm::StorageWeightKBlockNInteger tmp(GemmCore::ID);
@@ -584,7 +585,7 @@ class UT_ShuffleIndices {
       rordA.assign(bufA.data());
       typename Launcher::Param args{
           gp, {aarray.data(), k, nullptr, wptr_->ShfIndice(), &rordA}, {wptr_}, {output.data(), n}};
-      parallel::GemmRunWithA<parallel::gemm::SchedulerBase<GemmCore>>(kernel, args, &DefaultThreading);
+      parallel::GemmRunWithA<parallel::gemm::SchedulerBase<GemmCore>>(kernel, args, UT_Threading::get());
 
     } else {
       using Launcher =
@@ -602,7 +603,7 @@ class UT_ShuffleIndices {
           redA.template RPtr<float>(),    redA.lda};
       typename Launcher::Param args{
           gp, {aarray.data(), k, &redA, wptr_->ShfIndice(), &rordA}, {wptr_}, blkargs, {output.data(), n}};
-      parallel::GemmRunWithA<parallel::gemm::SchedulerKBlock<GemmCore>>(kernel, args, &DefaultThreading);
+      parallel::GemmRunWithA<parallel::gemm::SchedulerKBlock<GemmCore>>(kernel, args, UT_Threading::get());
     }
 
     ut::buffer_error(output.data(), oarray.data(), output.size());
@@ -740,9 +741,9 @@ class UT_CompFp32 {
     avector<float> matBf32(k * n), matAf32(m * k), matC(m * n), refC(m * n), refCupk(m * n);
     fill_buffer_randn(matBf32.data(), matBf32.size(), -0.5f, 0.5f);
     fill_buffer_randn(matAf32.data(), matAf32.size(), -0.5f, 0.5f);
-    launcher.mProB.packWeight(n, k, matBf32.data(), n, &packedw, &DefaultThreading);
+    launcher.mProB.packWeight(n, k, matBf32.data(), n, &packedw, UT_Threading::get());
     gemmref_fp32fp32fp32(m, n, k, matAf32.data(), matBf32.data(), refC.data(), k, n, n);
-    launcher.mProB.unpackWeight(n, k, &packedw, matBf32.data(), n, &DefaultThreading);
+    launcher.mProB.unpackWeight(n, k, &packedw, matBf32.data(), n, UT_Threading::get());
     gemmref_fp32fp32fp32(m, n, k, matAf32.data(), matBf32.data(), refCupk.data(), k, n, n);
     utils::GemmProblem gp(1, m, n, k, blocksize);
     typename Launcher::Param args{gp,
@@ -750,7 +751,7 @@ class UT_CompFp32 {
                                   {&packedw},
                                   {packedw.template SPtr<int8_t>(), packedw.SDtype(), packedw.CStep()},
                                   {matC.data(), n}};
-    parallel::GemmRun<Parallel>(launcher, args, &DefaultThreading);
+    parallel::GemmRun<Parallel>(launcher, args, UT_Threading::get());
     auto err = INT8_ERR;
     auto dbits = bestla_dtype_bits(qtype);
     auto type = bestla_dtype_type(qtype);
@@ -787,9 +788,9 @@ class UT_CompFp32 {
     avector<float> matBf32(k * n), matAf32(m * k), matC(m * n), refC(m * n), refCupk(m * n);
     fill_buffer_randn(matBf32.data(), matBf32.size(), -0.5f, 0.5f);
     fill_buffer_randn(matAf32.data(), matAf32.size(), -0.5f, 0.5f);
-    launcher.mProB.packWeight(n, k, matBf32.data(), n, &packedw, &DefaultThreading);
+    launcher.mProB.packWeight(n, k, matBf32.data(), n, &packedw, UT_Threading::get());
     gemmref_fp32fp32fp32(m, n, k, matAf32.data(), matBf32.data(), refC.data(), k, n, n);
-    launcher.mProB.unpackWeight(n, k, &packedw, matBf32.data(), n, &DefaultThreading);
+    launcher.mProB.unpackWeight(n, k, &packedw, matBf32.data(), n, UT_Threading::get());
     gemmref_fp32fp32fp32(m, n, k, matAf32.data(), matBf32.data(), refCupk.data(), k, n, n);
     GemmProblem gp(1, m, n, k, blocksize);
     typename Launcher::Param args{gp,
@@ -797,7 +798,7 @@ class UT_CompFp32 {
                                   {&packedw},
                                   {packedw.template SPtr<int8_t>(), packedw.SDtype(), packedw.CStep()},
                                   {matC.data(), n}};
-    parallel::GemmRun<Parallel>(launcher, args, &DefaultThreading);
+    parallel::GemmRun<Parallel>(launcher, args, UT_Threading::get());
     auto err = FP4_ERR;
 
     if (qtype == BTLA_DTYPE::F8_E5M2 || qtype == BTLA_DTYPE::F8_E4M3) err = F8_ERR;
@@ -810,201 +811,6 @@ class UT_CompFp32 {
 static UT_CompFp32 sUT_CompFp32;
 #endif
 
-class UTBenchmark_CompFp32 {
- public:
-  UTBenchmark_CompFp32() {
-    UT_START();
-    CheckISA(AVX512F);
-    ut_s4();
-    /*   ut_s8();
-       ut_f4();*/
-  }
-
-  void ut_s4() {
-    // benchmark_all<prologue_b::gemm::WeightKBlockNInteger, float>(1, 4096, 4096, 128, BTLA_DTYPE::S4_CLIP);
-    benchmark_all<prologue_b::gemm::WeightKBlockNInteger, utils::bf16>(32, 4096, 4096, 128, BTLA_DTYPE::S3_CLIP);
-    benchmark_all<prologue_b::gemm::WeightKBlockNInteger, utils::bf16>(32, 4096, 4096, 128, BTLA_DTYPE::S4_CLIP);
-    // benchmark_all<prologue_b::gemm::WeightKBlockNInteger, utils::bf16>(1024, 4096, 4096, 128, BTLA_DTYPE::S3_CLIP);
-    // benchmark_all<prologue_b::gemm::WeightKBlockNInteger, utils::bf16>(1024, 4096, 4096, 128, BTLA_DTYPE::S4_CLIP);
-    // benchmark_all<prologue_b::gemm::WeightKBlockS4, float>(2048, 4096, 4096, 128, BTLA_DTYPE::S4_CLIP);
-    // benchmark_all<prologue_b::gemm::WeightKBlockS4, float>(4096, 4096, 11008, 128, BTLA_DTYPE::S4_CLIP);
-    //  benchmark_all<prologue_b::gemm::WeightKBlockS4, float>(2, 4096, 4096, 32, BTLA_DTYPE::S4_FULLRANGE);
-    //  benchmark_all<prologue_b::gemm::WeightKBlockS4, float>(2, 4096, 4096, 128, BTLA_DTYPE::S4_FULLRANGE);
-    //  benchmark_all<prologue_b::gemm::WeightKBlockS4, float>(2, 4096, 4096, -1, BTLA_DTYPE::S4_FULLRANGE);
-    //  benchmark_all<prologue_b::gemm::WeightKBlockS4, utils::bf16>(2, 4096, 4096, 32, BTLA_DTYPE::S4_CLIP);
-    //  benchmark_all<prologue_b::gemm::WeightKBlockS4, utils::bf16>(2, 4096, 4096, 32,
-    //  BTLA_DTYPE::S4_FULLRANGE);
-  }
-
-  // void ut_s8() {
-  //   ut<sAMX_BF16, prologue_b::gemm::WeightKBlockS8, float>(2, 4096, 4096, 32, BTLA_DTYPE::S8);
-  //   ut<sAMX_BF16, prologue_b::gemm::WeightKBlockS8, float>(2, 4096, 4096, 128, BTLA_DTYPE::S8);
-  //   ut<sAMX_BF16, prologue_b::gemm::WeightKBlockS8, float>(2, 4096, 4096, -1, BTLA_DTYPE::S8);
-  //   ut<sAMX_BF16, prologue_b::gemm::WeightKBlockS8, utils::bf16>(2, 4096, 4096, 32, BTLA_DTYPE::S8);
-  // }
-
-  // void ut_f4() {
-  //   ut<sAMX_BF16, prologue_b::gemm::WeightKBlockF4, float>(2, 4096, 4096, 32, BTLA_DTYPE::F4_BNB);
-  //   ut<sAMX_BF16, prologue_b::gemm::WeightKBlockF4, float>(2, 4096, 4096, -1, BTLA_DTYPE::F4_BNB);
-  //   ut<sAMX_BF16, prologue_b::gemm::WeightKBlockF4, float>(2, 4096, 4096, 32, BTLA_DTYPE::F4_E2M1);
-  //   ut<sAMX_BF16, prologue_b::gemm::WeightKBlockF4, float>(2, 4096, 4096, -1, BTLA_DTYPE::F4_E2M1);
-  //   ut<sAMX_BF16, prologue_b::gemm::WeightKBlockF4, float>(2, 4096, 4096, 32, BTLA_DTYPE::F4_NF4);
-  //   ut<sAMX_BF16, prologue_b::gemm::WeightKBlockF4, float>(2, 4096, 4096, -1, BTLA_DTYPE::F4_NF4);
-  //   ut<sAMX_BF16, prologue_b::gemm::WeightKBlockF4, utils::bf16>(2, 4096, 4096, 32, BTLA_DTYPE::F4_BNB);
-  //   ut<sAMX_BF16, prologue_b::gemm::WeightKBlockF4, utils::bf16>(2, 4096, 4096, 32, BTLA_DTYPE::F4_E2M1);
-  //   ut<sAMX_BF16, prologue_b::gemm::WeightKBlockF4, utils::bf16>(2, 4096, 4096, 32, BTLA_DTYPE::F4_NF4);
-  // }
-
-  template <typename Core_T, typename LOG_T, template <class _T, BTLA_ISA> class Wei, typename Scale_T>
-  void benchmark(int m, int n, int k, int blocksize, int batch, float* A, float* B, float* C, float timems, int threads,
-                 BTLA_DTYPE qtype) {
-    LOG_T log;
-    using Parallel = parallel::gemm::SchedulerBase<Core_T>;
-    using Launcher = wrapper::gemm::LauncherBase<Core_T::ISA, Core_T, prologue_a::gemm::ActivationBase, Wei,
-                                                 epilogue::gemm::AccumulatorWriteBackFp32>;
-    Launcher kernel;
-    DefaultThreading.set_threads(threads);
-    auto corestr = gemm::CoreAttr::to_str(Core_T::ID);
-    utils::timer<std::chrono::milliseconds> tm;
-    using WType = typename Wei<Core_T, Core_T::ISA>::StorageWeight;
-    WType tmpB(0);
-    if constexpr (std::is_same_v<Wei<Core_T, Core_T::ISA>,
-                                 prologue_b::gemm::WeightKBlockNInteger<Core_T, Core_T::ISA>>) {
-      tmpB = kernel.mProB.createStorage(n, k, blocksize, qtype, bestla_dtype<Scale_T>, bestla_dtype<float>, false);
-
-    } else if constexpr (std::is_same_v<Wei<Core_T, Core_T::ISA>,
-                                        prologue_b::gemm::WeightKBlockNFloat<Core_T, Core_T::ISA>>) {
-      tmpB = kernel.mProB.createStorage(n, k, blocksize, qtype, bestla_dtype<Scale_T>);
-    }
-    std::vector<WType> packBs(batch, 0);
-    std::vector<int8_t> bufB(tmpB.mSize * batch);
-    for (size_t i = 0; i < batch; i++) {
-      packBs[i] = tmpB;
-      packBs[i].assign(bufB.data() + i * tmpB.mSize);
-    }
-    kernel.mProB.packWeight(n, k, B, n, &packBs[0], &DefaultThreading);
-    for (size_t i = 1; i < batch; i++) {
-      memcpy(packBs[i].template WPtr<void>(), packBs[0].template WPtr<void>(), packBs[0].template WSize<char>());
-      memcpy(packBs[i].template SPtr<void>(), packBs[0].template SPtr<void>(), packBs[0].CSize() * sizeof(Scale_T));
-    }
-    auto psize = (size_t)m * n * k * 2;
-    auto memsize = (size_t)packBs[0].mSize + (m * k + m * n) * sizeof(float);
-    tm.start();
-    while (tm.stop() < timems) {
-      for (size_t i = 0; i < batch; i++) {
-        log.start();
-        GemmProblem gp(1, m, n, k);
-        typename Launcher::Param args{gp, {A + i * m * k, k}, {&packBs[i]}, {C + i * m * n, n}};
-        parallel::GemmRun<Parallel>(kernel, args, &DefaultThreading);
-        if (log.stop()) {
-          double flops = double(psize) / log.avg_val / 1e6;
-          double band = double(memsize) / log.avg_val / 1e6;
-          printf("Threads %d %s %s Flops:%.3fG PerCoreFlops:%.3fG MemoryBandwidth:%.3fGB/s\n", threads, corestr,
-                 log.get_log_str(), flops, flops / threads, band);
-        }
-      }
-    }
-  }
-
-  template <typename Core_T, typename LOG_T, template <class _T, BTLA_ISA> class Wei, typename Scale_T>
-  void benchmark_mem(int m, int n, int k, int blocksize, int batch, float* A, float* B, float* C, float timems,
-                     int threads, BTLA_DTYPE qtype) {
-    LOG_T log;
-    using Parallel = parallel::gemm::SchedulerKBlock<Core_T>;
-    // using Launcher =
-    //     wrapper::gemm::LauncherKBlock<Core_T::ISA, Core_T, prologue_a::gemm::ActivationBase, Wei,
-    //                                   epilogue::gemm::CompFp32BlockEpilogue,
-    //                                   epilogue::gemm::AccumulatorWriteBackFp32>;
-    using Launcher =
-        wrapper::gemm::LauncherIntKBlock<Core_T::ISA, Core_T, prologue_a::gemm::ActivationF32KBlockQuantize,
-                                         prologue_b::gemm::WeightKBlockNInteger,
-                                         epilogue::gemm::AccumulatorWriteBackFp32>;
-    Launcher kernel;
-    DefaultThreading.set_threads(threads);
-    auto corestr = gemm::CoreAttr::to_str(Core_T::ID);
-    utils::timer<std::chrono::milliseconds> tm;
-    using WType = typename Wei<Core_T, Core_T::ISA>::StorageWeight;
-    WType tmpB(0);
-    if constexpr (std::is_same_v<Wei<Core_T, Core_T::ISA>,
-                                 prologue_b::gemm::WeightKBlockNInteger<Core_T, Core_T::ISA>>) {
-      tmpB = kernel.mProB.createStorage(n, k, blocksize, qtype, bestla_dtype<Scale_T>, bestla_dtype<float>, false);
-
-    } else if constexpr (std::is_same_v<Wei<Core_T, Core_T::ISA>,
-                                        prologue_b::gemm::WeightKBlockNFloat<Core_T, Core_T::ISA>>) {
-      tmpB = kernel.mProB.createStorage(n, k, blocksize, qtype, bestla_dtype<Scale_T>);
-    }
-    std::vector<WType> packBs(batch, 0);
-    std::vector<int8_t> bufB(tmpB.mSize * batch);
-    auto quanA = kernel.mProA.createStorage(m, k, blocksize, false);
-    utils::avector<int8_t> bufferA(quanA.mSize);
-    quanA.assign(bufferA.data());
-    for (size_t i = 0; i < batch; i++) {
-      packBs[i] = tmpB;
-      packBs[i].assign(bufB.data() + i * tmpB.mSize);
-    }
-    kernel.mProB.packWeight(n, k, B, n, &packBs[0], &DefaultThreading);
-    for (size_t i = 1; i < batch; i++) {
-      memcpy(packBs[i].template WPtr<void>(), packBs[0].template WPtr<void>(), packBs[0].template WSize<char>());
-      memcpy(packBs[i].template SPtr<void>(), packBs[0].template SPtr<void>(), packBs[0].CSize() * sizeof(Scale_T));
-    }
-    auto psize = (size_t)m * n * k * 2;
-    auto memsize = (size_t)packBs[0].mSize + (m * k + m * n) * sizeof(float);
-    tm.start();
-    while (tm.stop() < timems) {
-      log.start();
-      for (size_t i = 0; i < batch; i++) {
-        GemmProblem gp(1, m, n, k, blocksize);
-        typename Launcher::Param args{gp,
-                                      {A + i * m * k, k, &quanA},
-                                      {&packBs[i]},
-                                      // {packBs[i].template SPtr<int8_t>(), packBs[i].SDtype(), packBs[i].CStep()},
-                                      {C + i * m * n, n}};
-        // parallel::GemmRun<Parallel>(kernel, args, &DefaultThreading);
-        parallel::GemmRunWithA<Parallel>(kernel, args, &DefaultThreading);
-      }
-      if (log.stop()) {
-        double t = log.avg_val / batch;
-        double flops = double(psize) / t / 1e6;
-        double band = double(memsize) / t / 1e6;
-        printf("Threads %d %s Flops:%.3fG PerCoreFlops:%.3fG MemoryBandwidth:%.3fGB/s\n", threads, corestr, flops,
-               flops / threads, band);
-      }
-    }
-  }
-
-  template <template <class _T, BTLA_ISA> class Wei, typename Scale_T>
-  void benchmark_all(size_t m, size_t n, size_t k, size_t batch, BTLA_DTYPE qtype) {
-    printf("%s %d %d %d %d\n", __FUNCTION__, int(m), int(n), int(k), int(batch));
-    avector<float> A(m * k * batch);
-    avector<float> B(k * n);
-    avector<float> C(m * n * batch);
-    fill_buffer_randn(A.data(), k * m, (-0.5f), (0.5f));
-    fill_buffer_randn(B.data(), k * n, (-0.5f), (0.5f));
-    for (size_t i = 1; i < batch; i++) {
-      memcpy(A.data() + i * m * k, A.data(), m * k * sizeof(float));
-    }
-    using LOG = timer_statistics_logger<100>;
-    float testtime = 500.f;
-    GetCPUDevice();
-    if (_cd->AVX512F()) {
-      // int blocksize = 32;
-      // benchmark<gemm::SCoreRowNAvx512f<48, 8>, LOG, Wei, Scale_T>(m, n, k, blocksize, batch, A.data(), B.data(),
-      //                                                             C.data(), testtime, 48, qtype);
-      // benchmark_mem<gemm::SCoreRowNAvx512f<48, 8>, LOG, Wei, Scale_T>(m, n, k, blocksize, batch, A.data(), B.data(),
-      //                                                                 C.data(), testtime, 48, qtype);
-      int blocksize = 128;
-      // benchmark<gemm::SCoreRowNAvx512f<48, 8>, LOG, Wei, Scale_T>(m, n, k, blocksize, batch, A.data(), B.data(),
-      //                                                             C.data(), testtime, 48, qtype);
-      // benchmark_mem<gemm::SCoreRowNAvx512f<48, 8>, LOG, Wei, Scale_T>(m, n, k, blocksize, batch, A.data(), B.data(),
-      benchmark_mem<gemm::ICoreRowNAmxint8KBlock<48, 16>, LOG, Wei, Scale_T>(m, n, k, blocksize, batch, A.data(),
-                                                                             B.data(), C.data(), testtime, 56, qtype);
-    }
-  }
-};
-#ifdef BTLA_UT_PROLOGUE_B_
-static UTBenchmark_CompFp32 sUTBenchmark_CompFp32;
-#endif
-
 class UT_CompInt8 {
  public:
   UT_CompInt8() {
@@ -1138,16 +944,16 @@ class UT_CompInt8 {
         reduceAf32[i * kblks + j / blocksize] += matAf32[i * k + j];
       }
     }
-    launcher.mProB.packWeight(n, k, matBf32.data(), n, &packedw, &DefaultThreading);
+    launcher.mProB.packWeight(n, k, matBf32.data(), n, &packedw, UT_Threading::get());
     gemmref_fp32fp32fp32(m, n, k, matAf32.data(), matBf32.data(), refC.data(), k, n, n);
-    launcher.mProB.unpackWeight(n, k, &packedw, matBf32.data(), n, &DefaultThreading);
+    launcher.mProB.unpackWeight(n, k, &packedw, matBf32.data(), n, UT_Threading::get());
     gemmref_fp32fp32fp32(m, n, k, matAf32.data(), matBf32.data(), refCupk.data(), k, n, n);
     auto quanA = launcher.mProA.createStorage(m, k, blocksize, isAsym);
     utils::avector<int8_t> bufferA(quanA.mSize);
     quanA.assign(bufferA.data());
     GemmProblem gp(1, m, n, k, blocksize);
     typename Launcher::Param args{gp, {matAf32.data(), k, &quanA}, {&packedw}, {matC.data(), n}};
-    parallel::GemmRunWithA<Parallel>(launcher, args, &DefaultThreading);
+    parallel::GemmRunWithA<Parallel>(launcher, args, UT_Threading::get());
     auto err = INT8_ERR;
     auto dbits = bestla_dtype_bits(qtype);
     auto type = bestla_dtype_type(qtype);
@@ -1203,9 +1009,9 @@ class UT_CompInt8 {
         reduceAf32[i * kblks + j / blocksize] += matAf32[i * k + j];
       }
     }
-    launcher.mProB.packWeight(n, k, matBf32.data(), n, &packedw, &DefaultThreading);
+    launcher.mProB.packWeight(n, k, matBf32.data(), n, &packedw, UT_Threading::get());
     gemmref_fp32fp32fp32(m, n, k, matAf32.data(), matBf32.data(), refC.data(), k, n, n);
-    launcher.mProB.unpackWeight(n, k, &packedw, matBf32.data(), n, &DefaultThreading);
+    launcher.mProB.unpackWeight(n, k, &packedw, matBf32.data(), n, UT_Threading::get());
     gemmref_fp32fp32fp32(m, n, k, matAf32.data(), matBf32.data(), refCupk.data(), k, n, n);
     GemmProblem gp(1, m, n, k, blocksize);
     typename Launcher::Param args{
@@ -1216,7 +1022,7 @@ class UT_CompInt8 {
          packedw.template RPtr<void>(), packedw.RDtype(), isAsym ? packedw.template ZPtr<int8_t>() : nullptr,
          isAsym ? reduceAf32.data() : nullptr, blocksize},
         {matC.data(), n}};
-    parallel::GemmRun<Parallel>(launcher, args, &DefaultThreading);
+    parallel::GemmRun<Parallel>(launcher, args, UT_Threading::get());
     auto err = INT8_ERR;
     auto dbits = bestla_dtype_bits(qtype);
     auto type = bestla_dtype_type(qtype);
@@ -1271,9 +1077,9 @@ class UT_CompInt8 {
         reduceAf32[i * kblks + j / blocksize] += matAf32[i * k + j];
       }
     }
-    launcher.mProB.packWeight(n, k, matBf32.data(), n, &packedw, &DefaultThreading);
+    launcher.mProB.packWeight(n, k, matBf32.data(), n, &packedw, UT_Threading::get());
     gemmref_fp32fp32fp32(m, n, k, matAf32.data(), matBf32.data(), refC.data(), k, n, n);
-    launcher.mProB.unpackWeight(n, k, &packedw, matBf32.data(), n, &DefaultThreading);
+    launcher.mProB.unpackWeight(n, k, &packedw, matBf32.data(), n, UT_Threading::get());
     gemmref_fp32fp32fp32(m, n, k, matAf32.data(), matBf32.data(), refCupk.data(), k, n, n);
     GemmProblem gp(1, m, n, k, blocksize);
     typename Launcher::Param args{
@@ -1284,7 +1090,7 @@ class UT_CompInt8 {
          quanA.CStep(), quanA.template ZPtr<uint8_t>(), packedw.template RPtr<void>(), packedw.RDtype(),
          packedw.template ZPtr<int8_t>(), quanA.template RPtr<float>(), blocksize},
         {matC.data(), n}};
-    parallel::GemmRunWithA<Parallel>(launcher, args, &DefaultThreading);
+    parallel::GemmRunWithA<Parallel>(launcher, args, UT_Threading::get());
     auto err = INT8_ERR;
     auto dbits = bestla_dtype_bits(qtype);
     auto type = bestla_dtype_type(qtype);
@@ -1333,9 +1139,9 @@ class UT_CompInt8 {
         reduceAf32[i * kblks + j / blocksize] += matAf32[i * k + j];
       }
     }
-    launcher.mProB.packWeight(n, k, matBf32.data(), n, &packedw, &DefaultThreading);
+    launcher.mProB.packWeight(n, k, matBf32.data(), n, &packedw, UT_Threading::get());
     gemmref_fp32fp32fp32(m, n, k, matAf32.data(), matBf32.data(), refC.data(), k, n, n);
-    launcher.mProB.unpackWeight(n, k, &packedw, matBf32.data(), n, &DefaultThreading);
+    launcher.mProB.unpackWeight(n, k, &packedw, matBf32.data(), n, UT_Threading::get());
     gemmref_fp32fp32fp32(m, n, k, matAf32.data(), matBf32.data(), refCupk.data(), k, n, n);
     GemmProblem gp(1, m, n, k, blocksize);
     typename Launcher::Param args{
@@ -1345,7 +1151,7 @@ class UT_CompInt8 {
         {packedw.template SPtr<int8_t>(), packedw.SDtype(), packedw.CStep(), scaleAf32.data(), kblks, nullptr, nullptr,
          bestla_dtype<float>, packedw.template ZPtr<int8_t>(), reduceAf32.data(), blocksize},
         {matC.data(), n}};
-    parallel::GemmRun<Parallel>(launcher, args, &DefaultThreading);
+    parallel::GemmRun<Parallel>(launcher, args, UT_Threading::get());
     auto err = INT8_ERR;
     auto dbits = bestla_dtype_bits(qtype);
     auto type = bestla_dtype_type(qtype);
@@ -1445,9 +1251,9 @@ class UT_CompBf16 {
     for (size_t i = 0; i < matBf32.size(); i++) {
       matBf32[i] = matBbf16[i];
     }
-    launcher.mProB.packWeight(n, k, matBf32.data(), n, &packedw, &DefaultThreading);
+    launcher.mProB.packWeight(n, k, matBf32.data(), n, &packedw, UT_Threading::get());
     gemmref_bf16bf16fp32(m, n, k, matAbf16.data(), matBbf16.data(), refC.data(), k, n, n);
-    launcher.mProB.unpackWeight(n, k, &packedw, matBf32.data(), n, &DefaultThreading);
+    launcher.mProB.unpackWeight(n, k, &packedw, matBf32.data(), n, UT_Threading::get());
     for (size_t i = 0; i < matBf32.size(); i++) {
       matBbf16[i] = static_cast<utils::bf16>(matBf32[i]);
     }
@@ -1458,7 +1264,7 @@ class UT_CompBf16 {
                                   {&packedw},
                                   {packedw.template SPtr<int8_t>(), packedw.SDtype(), packedw.CStep()},
                                   {matC.data(), n}};
-    parallel::GemmRun<Parallel>(launcher, args, &DefaultThreading);
+    parallel::GemmRun<Parallel>(launcher, args, UT_Threading::get());
     auto err = get_ut_err(qtype);
     buffer_error(refC.data(), matC.data(), refC.size(), err);
     buffer_error(refCupk.data(), matC.data(), refCupk.size(), 0.05f);
@@ -1468,126 +1274,6 @@ class UT_CompBf16 {
 static UT_CompBf16 sUT_CompBf16;
 #endif
 
-class UTBenchmark_CompBf16 {
- public:
-  UTBenchmark_CompBf16() {
-    UT_START();
-    CheckISA(AMX_BF16);
-    request_perm_xtile_data();
-    ut_s4();
-    /*   ut_s8();
-       ut_f4();*/
-  }
-
-  void ut_s4() {
-    benchmark_all<prologue_b::gemm::WeightKBlockNInteger, float>(1, 4096, 4096, 128, BTLA_DTYPE::S4_CLIP);
-    benchmark_all<prologue_b::gemm::WeightKBlockNInteger, utils::bf16>(1, 4096, 4096, 128, BTLA_DTYPE::S4_CLIP);
-    benchmark_all<prologue_b::gemm::WeightKBlockNInteger, float>(2048, 4096, 4096, 128, BTLA_DTYPE::S4_CLIP);
-    benchmark_all<prologue_b::gemm::WeightKBlockNInteger, float>(4096, 4096, 11008, 128, BTLA_DTYPE::S4_CLIP);
-    // benchmark_all<prologue_b::gemm::WeightKBlockS4, float>(2, 4096, 4096, 32, BTLA_DTYPE::S4_FULLRANGE);
-    // benchmark_all<prologue_b::gemm::WeightKBlockS4, float>(2, 4096, 4096, 128, BTLA_DTYPE::S4_FULLRANGE);
-    // benchmark_all<prologue_b::gemm::WeightKBlockS4, float>(2, 4096, 4096, -1, BTLA_DTYPE::S4_FULLRANGE);
-    // benchmark_all<prologue_b::gemm::WeightKBlockS4, utils::bf16>(2, 4096, 4096, 32, BTLA_DTYPE::S4_CLIP);
-    // benchmark_all<prologue_b::gemm::WeightKBlockS4, utils::bf16>(2, 4096, 4096, 32,
-    // BTLA_DTYPE::S4_FULLRANGE);
-  }
-
-  // void ut_s8() {
-  //   ut<sAMX_BF16, prologue_b::gemm::WeightKBlockS8, float>(2, 4096, 4096, 32, BTLA_DTYPE::S8);
-  //   ut<sAMX_BF16, prologue_b::gemm::WeightKBlockS8, float>(2, 4096, 4096, 128, BTLA_DTYPE::S8);
-  //   ut<sAMX_BF16, prologue_b::gemm::WeightKBlockS8, float>(2, 4096, 4096, -1, BTLA_DTYPE::S8);
-  //   ut<sAMX_BF16, prologue_b::gemm::WeightKBlockS8, utils::bf16>(2, 4096, 4096, 32, BTLA_DTYPE::S8);
-  // }
-
-  // void ut_f4() {
-  //   ut<sAMX_BF16, prologue_b::gemm::WeightKBlockF4, float>(2, 4096, 4096, 32, BTLA_DTYPE::F4_BNB);
-  //   ut<sAMX_BF16, prologue_b::gemm::WeightKBlockF4, float>(2, 4096, 4096, -1, BTLA_DTYPE::F4_BNB);
-  //   ut<sAMX_BF16, prologue_b::gemm::WeightKBlockF4, float>(2, 4096, 4096, 32, BTLA_DTYPE::F4_E2M1);
-  //   ut<sAMX_BF16, prologue_b::gemm::WeightKBlockF4, float>(2, 4096, 4096, -1, BTLA_DTYPE::F4_E2M1);
-  //   ut<sAMX_BF16, prologue_b::gemm::WeightKBlockF4, float>(2, 4096, 4096, 32, BTLA_DTYPE::F4_NF4);
-  //   ut<sAMX_BF16, prologue_b::gemm::WeightKBlockF4, float>(2, 4096, 4096, -1, BTLA_DTYPE::F4_NF4);
-  //   ut<sAMX_BF16, prologue_b::gemm::WeightKBlockF4, utils::bf16>(2, 4096, 4096, 32, BTLA_DTYPE::F4_BNB);
-  //   ut<sAMX_BF16, prologue_b::gemm::WeightKBlockF4, utils::bf16>(2, 4096, 4096, 32, BTLA_DTYPE::F4_E2M1);
-  //   ut<sAMX_BF16, prologue_b::gemm::WeightKBlockF4, utils::bf16>(2, 4096, 4096, 32, BTLA_DTYPE::F4_NF4);
-  // }
-
-  template <typename Core_T, typename LOG_T, template <class _T, BTLA_ISA> class Wei, typename Scale_T>
-  void benchmark(int m, int n, int k, int blocksize, int batch, float* A, float* B, float* C, float timems, int threads,
-                 BTLA_DTYPE qtype) {
-    LOG_T log;
-    using Parallel = parallel::gemm::SchedulerBase<Core_T>;
-    using Launcher = wrapper::gemm::LauncherBase<Core_T::ISA, Core_T, prologue_a::gemm::ActivationConverterFp32, Wei,
-                                                 epilogue::gemm::AccumulatorWriteBackFp32>;
-    Launcher kernel;
-    DefaultThreading.set_threads(threads);
-    auto corestr = gemm::CoreAttr::to_str(Core_T::ID);
-    utils::timer<std::chrono::milliseconds> tm;
-    using WType = typename Wei<Core_T, Core_T::ISA>::StorageWeight;
-    WType tmpB(0);
-    if constexpr (std::is_same_v<Wei<Core_T, Core_T::ISA>,
-                                 prologue_b::gemm::WeightKBlockNInteger<Core_T, Core_T::ISA>>) {
-      tmpB = kernel.mProB.createStorage(n, k, blocksize, qtype, bestla_dtype<Scale_T>, bestla_dtype<float>, false);
-    } else if constexpr (std::is_same_v<Wei<Core_T, Core_T::ISA>,
-                                        prologue_b::gemm::WeightKBlockNFloat<Core_T, Core_T::ISA>>) {
-      tmpB = kernel.mProB.createStorage(n, k, blocksize, qtype, bestla_dtype<Scale_T>);
-    }
-    std::vector<WType> packBs(batch, 0);
-    std::vector<int8_t> bufB(tmpB.mSize * batch);
-    for (size_t i = 0; i < batch; i++) {
-      packBs[i] = tmpB;
-      packBs[i].assign(bufB.data() + i * tmpB.mSize);
-      kernel.mProB.packWeight(n, k, B + i * n * k, n, &packBs[i], &DefaultThreading);
-    }
-    auto psize = (size_t)m * n * k * 2;
-    auto memsize = (size_t)packBs[0].mSize + (m * k + m * n) * sizeof(float);
-    tm.start();
-    while (tm.stop() < timems) {
-      for (size_t i = 0; i < batch; i++) {
-        log.start();
-        GemmProblem gp(1, m, n, k);
-        typename Launcher::Param args{gp, {A + i * m * k, k}, {&packBs[i]}, {C + i * m * n, n}};
-        parallel::GemmRun<Parallel>(kernel, args, &DefaultThreading);
-        if (log.stop()) {
-          double flops = double(psize) / log.avg_val / 1e6;
-          double band = double(memsize) / log.avg_val / 1e6;
-          printf("Threads %d %s %s Flops:%.3fG PerCoreFlops:%.3fG MemoryBandwidth:%.3fGB/s\n", threads, corestr,
-                 log.get_log_str(), flops, flops / threads, band);
-        }
-      }
-    }
-  }
-
-  template <template <class _T, BTLA_ISA> class Wei, typename Scale_T>
-  void benchmark_all(size_t m, size_t n, size_t k, size_t batch, BTLA_DTYPE qtype) {
-    printf("%s %d %d %d %d\n", __FUNCTION__, int(m), int(n), int(k), int(batch));
-    avector<float> A(m * k * batch);
-    avector<float> B(k * n * batch);
-    avector<float> C(m * n * batch);
-    fill_buffer_randn(A.data(), k * m, (-0.5f), (0.5f));
-    fill_buffer_randn(B.data(), k * n, (-0.5f), (0.5f));
-    for (size_t i = 0; i < batch - 1; i++) {
-      memcpy(A.data() + i * m * k, A.data(), m * k * sizeof(float));
-      memcpy(B.data() + i * n * k, B.data(), n * k * sizeof(float));
-    }
-    using LOG = timer_statistics_logger<100>;
-    float testtime = 500.f;
-    GetCPUDevice();
-    if (_cd->AMX_BF16()) {
-      request_perm_xtile_data();
-      int blocksize = 32;
-      benchmark<gemm::HCoreRowNAmxbf16<32, 32>, LOG, Wei, Scale_T>(m, n, k, blocksize, batch, A.data(), B.data(),
-                                                                   C.data(), testtime, 48, qtype);
-      benchmark<gemm::HCoreRowNAmxbf16<48, 16>, LOG, Wei, Scale_T>(m, n, k, blocksize, batch, A.data(), B.data(),
-                                                                   C.data(), testtime, 48, qtype);
-      benchmark<gemm::HCoreRowNAmxbf16<64, 16>, LOG, Wei, Scale_T>(m, n, k, blocksize, batch, A.data(), B.data(),
-                                                                   C.data(), testtime, 48, qtype);
-    }
-  }
-};
-#ifdef BTLA_UT_PROLOGUE_B_
-static UTBenchmark_CompBf16 sUTBenchmark_CompBf16;
-#endif
-
 class UT_ORT_NBits {
  public:
   UT_ORT_NBits() {
@@ -1656,7 +1342,7 @@ class UT_ORT_NBits {
         }
       }
       rA.assign(tmpA.data());
-      launcher.mProA.reduce({matAf32.data(), k, &rA}, m, k, blocksize, &DefaultThreading);  // for reduce UT
+      launcher.mProA.reduce({matAf32.data(), k, &rA}, m, k, blocksize, UT_Threading::get());  // for reduce UT
       buffer_error(reduceA.data(), rA.template RPtr<float>(), reduceA.size(), FP32_ERR);
       memset(tmpA.data(), 0, tmpA.size());  // clear
     }
@@ -1674,11 +1360,11 @@ class UT_ORT_NBits {
       }
     }
     launcher.mProB.packNbitsWeightQ4(n, k, isasym, (uint8_t*)matBs4.data(), k, scalesB.data(), (uint8_t*)zpBs4.data(),
-                                     &packedw, &DefaultThreading);
-    launcher.mProB.reduceWeight(&packedw, &DefaultThreading);
+                                     &packedw, UT_Threading::get());
+    launcher.mProB.reduceWeight(&packedw, UT_Threading::get());
     gemmref_fp32fp32fp32(m, n, k, matAf32.data(), matBf32.data(), refC.data(), k, n, n);
     avector<float> revB(matBf32.size());
-    launcher.mProB.unpackWeight(n, k, &packedw, revB.data(), n, &DefaultThreading);
+    launcher.mProB.unpackWeight(n, k, &packedw, revB.data(), n, UT_Threading::get());
     buffer_error(matBf32.data(), revB.data(), revB.size(), FP32_ERR);
     gemmref_fp32fp32fp32(m, n, k, matAf32.data(), revB.data(), refCupk.data(), k, n, n);
     GemmProblem gp(1, m, n, k, blocksize);
@@ -1690,9 +1376,9 @@ class UT_ORT_NBits {
          isasym ? packedw.template ZPtr<int8_t>() : nullptr, rA.template RPtr<float>(), rA.lda},
         {matC.data(), n}};
     if (isasym) {
-      parallel::GemmRunWithA<Parallel>(launcher, args, &DefaultThreading);
+      parallel::GemmRunWithA<Parallel>(launcher, args, UT_Threading::get());
     } else {
-      parallel::GemmRun<Parallel>(launcher, args, &DefaultThreading);
+      parallel::GemmRun<Parallel>(launcher, args, UT_Threading::get());
     }
     auto err = INT4_ERR;
     buffer_error(refC.data(), matC.data(), refC.size(), err);
@@ -1737,7 +1423,7 @@ class UT_ORT_NBits {
         }
       }
       rA.assign(tmpA.data());
-      launcher.mProA.reduce({matAf32.data(), k, &rA}, m, k, blocksize, &DefaultThreading);  // for reduce UT
+      launcher.mProA.reduce({matAf32.data(), k, &rA}, m, k, blocksize, UT_Threading::get());  // for reduce UT
       buffer_error(reduceA.data(), rA.template RPtr<float>(), reduceA.size(), FP32_ERR);
       memset(tmpA.data(), 0, tmpA.size());  // clear
     }
@@ -1747,7 +1433,7 @@ class UT_ORT_NBits {
       }
     }
 
-    launcher.mProB.packQWeight(n, k, qdata.data(), n, sdata.data(), zdata.data(), &packedw, &DefaultThreading);
+    launcher.mProB.packQWeight(n, k, qdata.data(), n, sdata.data(), zdata.data(), &packedw, UT_Threading::get());
 
     auto bfile = readFile2Buffer<int8_t>("bestla_w3.weight.bin");
     WType packedfile(0);
@@ -1757,7 +1443,7 @@ class UT_ORT_NBits {
     buffer_error(packedw.ZPtr<int8_t>(), packedfile.ZPtr<int8_t>(), packedw.CSize());
     gemmref_fp32fp32fp32(m, n, k, matAf32.data(), matBf32.data(), refC.data(), k, n, n);
     avector<float> revB(matBf32.size());
-    launcher.mProB.unpackWeight(n, k, &packedw, revB.data(), n, &DefaultThreading);
+    launcher.mProB.unpackWeight(n, k, &packedw, revB.data(), n, UT_Threading::get());
     buffer_error(matBf32.data(), revB.data(), revB.size(), FP32_ERR);
     gemmref_fp32fp32fp32(m, n, k, matAf32.data(), revB.data(), refCupk.data(), k, n, n);
     GemmProblem gp(1, m, n, k, blocksize);
@@ -1769,9 +1455,9 @@ class UT_ORT_NBits {
          isasym ? packedw.template ZPtr<int8_t>() : nullptr, rA.template RPtr<float>(), rA.lda},
         {matC.data(), n}};
     if (isasym) {
-      parallel::GemmRunWithA<Parallel>(launcher, args, &DefaultThreading);
+      parallel::GemmRunWithA<Parallel>(launcher, args, UT_Threading::get());
     } else {
-      parallel::GemmRun<Parallel>(launcher, args, &DefaultThreading);
+      parallel::GemmRun<Parallel>(launcher, args, UT_Threading::get());
     }
     auto err = INT4_ERR;
     buffer_error(refC.data(), matC.data(), refC.size(), err);
@@ -1855,9 +1541,9 @@ class UT_CompFp16 {
     for (size_t i = 0; i < matBf32.size(); i++) {
       matBf32[i] = matBbf16[i];
     }
-    launcher.mProB.packWeight(n, k, matBf32.data(), n, &packedw, &DefaultThreading);
+    launcher.mProB.packWeight(n, k, matBf32.data(), n, &packedw, UT_Threading::get());
     gemmref_bf16bf16fp32(m, n, k, matAbf16.data(), matBbf16.data(), refC.data(), k, n, n);
-    launcher.mProB.unpackWeight(n, k, &packedw, matBf32.data(), n, &DefaultThreading);
+    launcher.mProB.unpackWeight(n, k, &packedw, matBf32.data(), n, UT_Threading::get());
     for (size_t i = 0; i < matBf32.size(); i++) {
       matBbf16[i] = static_cast<utils::bf16>(matBf32[i]);
     }
@@ -1889,3 +1575,4 @@ static UT_CompFp16 sUT_CompFp16;
 #endif
 }  // namespace ut
 }  // namespace bestla
+#endif
diff --git a/bestla/bestla/ut/bestla_ut.cpp b/bestla/bestla/ut/bestla_ut.cpp
index c3d00a944..a2ac93714 100644
--- a/bestla/bestla/ut/bestla_ut.cpp
+++ b/bestla/bestla/ut/bestla_ut.cpp
@@ -1,4 +1,5 @@
 #include <stdio.h>
+#include <bestla_parallel.h>
 
 int main() {
   printf("BesTLA UT done\n");
diff --git a/bestla/bestla/ut/bestla_ut.h b/bestla/bestla/ut/bestla_ut.h
index 9a7e3eefd..b9e40f54e 100644
--- a/bestla/bestla/ut/bestla_ut.h
+++ b/bestla/bestla/ut/bestla_ut.h
@@ -1,3 +1,5 @@
+#pragma once
+
 #include <random>
 #include <stdexcept>
 #include "bestla_utils.h"
@@ -24,11 +26,46 @@ using sAVX512_VNNI = gemm::ICoreRowNAvx512vnni<48, 8>;
 using sAMX_INT8_US = gemm::ICoreRowNAmxint8<64, 16>;
 using sAMX_INT8_SS = gemm::ICoreRowNAmxint8SS<64, 16>;
 using sAVX2 = gemm::SCoreRowNAvx2<24, 4>;
-#ifdef _OPENMP
-static parallel::OMPThreading DefaultThreading(4);
+
+class UT_Threading {
+ public:
+  static bestla::parallel::IThreading* get() {
+#if BTLA_OPENMP
+    static bestla::parallel::OMPThreading DefaultThreading(4);
 #else
-static parallel::StdThreading DefaultThreading(4);
+    static bestla::parallel::StdThreading DefaultThreading(4);
 #endif  // _OPNEMP
+    return &DefaultThreading;
+  }
+
+  static void set_threads(int n_thread) { get()->set_threads(n_thread); }
+
+  static std::vector<int> get_threads_config() {
+    GetCPUDevice();
+    if (_cd->isHybrid()) {
+      return std::vector<int>{_cd->getThreads(), _cd->getCores(), int(_cd->getPcoreNum())};
+    }
+    if (_cd->getThreads() == 56) {
+      return std::vector<int>{48, 56};
+    }
+    return std::vector<int>{_cd->getThreads()};
+  }
+};
+static inline size_t gemm_memsize(int m, int n, int k, BTLA_DTYPE dtA, BTLA_DTYPE dtB, BTLA_DTYPE dtC) {
+  size_t total = 0;
+  total += size_t(m) * k * utils::bestla_dtype_bits(dtA);
+  total += size_t(n) * k * utils::bestla_dtype_bits(dtB);
+  total += size_t(m) * n * utils::bestla_dtype_bits(dtC);
+  return total / 8;
+}
+
+static inline int auto_batch(size_t memsize) {
+  GetCPUDevice();
+  auto L3 = _cd->getL3CacheSize();
+  size_t constexpr Enlarge = 4;
+  auto batch = L3 * Enlarge / memsize;
+  return batch > 1 ? batch : 2;
+}
 
 constexpr size_t CacheSize = size_t(100) << 10;
 static int8_t cache[CacheSize];
@@ -127,11 +164,11 @@ utils::aligned_vector<_T> readFile2Buffer(const char* filepath) {
   return buf;
 }
 
-#define UT_START()                                       \
-  {                                                      \
-    GetCPUDevice();                                      \
-    ut::DefaultThreading.set_threads(_cd->getThreads()); \
-    printf("Test Class: %s\n", __FUNCTION__);            \
+#define UT_START()                                    \
+  {                                                   \
+    GetCPUDevice();                                   \
+    ut::UT_Threading::set_threads(_cd->getThreads()); \
+    printf("Test Class: %s\n", __FUNCTION__);         \
   }
 template <typename _T>
 static double buffer_error(_T* ref, _T* tar, size_t size, _T thres = _T(0)) {
diff --git a/bestla/bestla/ut/bestla_wrapper.cpp b/bestla/bestla/ut/bestla_wrapper.cpp
index 9e97d04c1..2a219c528 100644
--- a/bestla/bestla/ut/bestla_wrapper.cpp
+++ b/bestla/bestla/ut/bestla_wrapper.cpp
@@ -7,12 +7,6 @@ class UT_Fp32Fp32 {
  public:
   UT_Fp32Fp32() {
     UT_START();
-#ifdef JBLAS_UT_BENCHMARK
-    benchmark_all(1, 4096, 4096, 32);
-    benchmark_all(1024, 4096, 4096, 32);
-    benchmark_all(2048, 4096, 4096, 32);
-#endif  // JBLAS_UT_BENCHMARK
-
     CheckISA(AVX2);
     ut<sAVX2>(1, 1, 1);
     ut<sAVX2>(8, 48, 2);
@@ -47,76 +41,14 @@ class UT_Fp32Fp32 {
     auto packw = launcher.mProB.createStorage(n, k);
     avector<int8_t> buffer(packw.mSize);
     packw.assign(buffer.data());
-    launcher.mProB.packWeight(n, k, {matB.data(), n, &packw}, &DefaultThreading);
+    launcher.mProB.packWeight(n, k, {matB.data(), n, &packw}, UT_Threading::get());
     utils::GemmProblem gp(1, m, n, k);
     typename Launcher::Param args{gp, {matA.data(), k}, {matB.data(), n, &packw}, {matC.data(), n}};
-    parallel::GemmRun<Parallel>(launcher, args, &DefaultThreading);
+    parallel::GemmRun<Parallel>(launcher, args, UT_Threading::get());
     ut::buffer_error(ref.data(), matC.data(), ref.size(), 0.001f);
   }
-
-  using AType = float;
-  using BType = float;
-  using CType = float;
-  template <typename Core_T, typename LOG_T>
-  void benchmark(int m, int n, int k, int batch, AType* A, BType* B, CType* C, float timems, int threads) {
-    LOG_T log;
-    using Parallel = parallel::gemm::SchedulerBase<Core_T>;
-    using Launcher =
-        wrapper::gemm::LauncherBase<Core_T::ISA, Core_T, prologue_a::gemm::ActivationBase, prologue_b::gemm::WeightPack,
-                                    epilogue::gemm::AccumulatorWriteBackFp32>;
-    Launcher kernel;
-    DefaultThreading.set_threads(threads);
-    auto corestr = gemm::CoreAttr::to_str(Core_T::ID);
-    utils::timer<std::chrono::milliseconds> tm;
-    auto tmpB = kernel.mProB.createStorage(n, k);
-    std::vector<storage::gemm::StoragePackedWeight> packBs(batch, 0);
-    std::vector<int8_t> bufB(tmpB.mSize * batch);
-    for (size_t i = 0; i < batch; i++) {
-      packBs[i] = tmpB;
-      packBs[i].assign(bufB.data() + i * tmpB.mSize);
-      kernel.mProB.packWeight(n, k, {B + i * n * k, n, &packBs[i]}, &DefaultThreading);
-    }
-    auto psize = (size_t)m * n * k * 2;
-    tm.start();
-    while (tm.stop() < timems) {
-      for (size_t i = 0; i < batch; i++) {
-        log.start();
-        utils::GemmProblem gp(1, m, n, k);
-        typename Launcher::Param args{gp, {A + i * m * k, k}, {0, 0, &packBs[i]}, {C + i * m * n, n}};
-        parallel::GemmRun<Parallel>(kernel, args, &DefaultThreading);
-        if (log.stop()) {
-          double flops = double(psize) / log.avg_val / 1e6;
-          printf("%s %s Flops:%.3f PerCoreFlops:%.3f\n ", corestr, log.get_log_str(), flops, flops / threads);
-        }
-      }
-    }
-  }
-
-  void benchmark_all(size_t m, size_t n, size_t k, size_t batch) {
-    printf("%s %d %d %d %d\n", __FUNCTION__, int(m), int(n), int(k), int(batch));
-    avector<AType> A(m * k * batch);
-    avector<BType> B(k * n * batch);
-    avector<CType> C(m * n * batch, 0), RefC(m * n * batch, 0);
-    fill_buffer_randn(A.data(), m * k, -0.5f, 0.5f);
-    fill_buffer_randn(B.data(), n * k, -0.5f, 0.5f);
-    for (size_t i = 0; i < batch - 1; i++) {
-      memcpy(A.data() + i * m * k, A.data(), m * k * sizeof(AType));
-      memcpy(B.data() + i * n * k, B.data(), n * k * sizeof(BType));
-    }
-    using LOG = timer_statistics_logger<100>;
-
-    float testtime = 500.f;
-    GetCPUDevice();
-    if (_cd->AVX512F()) {
-      benchmark<sAVX512F, LOG>(m, n, k, batch, A.data(), B.data(), C.data(), testtime, 48);
-      benchmark<sAVX512F, LOG>(m, n, k, batch, A.data(), B.data(), C.data(), testtime, 56);
-    }
-    if (_cd->AVX2()) {
-      benchmark<sAVX2, LOG>(m, n, k, batch, A.data(), B.data(), C.data(), testtime, 56);
-    }
-  }
 };
-#ifdef JBLAS_UT_WRAPPER
+#ifdef BTLA_UT_WRAPPER
 static UT_Fp32Fp32 sUT_Fp32Fp32;
 #endif
 
@@ -125,10 +57,6 @@ class UT_U8S8S32 {
   UT_U8S8S32() {
     UT_START();
     GetCPUDevice();
-#ifdef JBLAS_UT_BENCHMARK
-    benchmark_all(1024, 4096, 4096, 32);
-    benchmark_all(2048, 4096, 4096, 32);
-#endif
     if (_cd->AVX512_VNNI()) {
       ut<sAVX512_VNNI>(4, 48, 4);
       ut<sAVX512_VNNI>(1, 1, 1);
@@ -190,86 +118,18 @@ class UT_U8S8S32 {
     auto packw = launcher.mProB.createStorage(n, k);
     avector<int8_t> buffer(packw.mSize);
     packw.assign(buffer.data());
-    launcher.mProB.packWeight(n, k, {matBs8.data(), n, &packw}, &DefaultThreading);
+    launcher.mProB.packWeight(n, k, {matBs8.data(), n, &packw}, UT_Threading::get());
     utils::GemmProblem gp(1, m, n, k);
     typename Launcher::Param args{
         gp,
         {matAu8.data(), k},
         {matBs8.data(), n, &packw},
         {matC.data(), n, 1, scaleAf32.data(), scaleBf32.data(), zpAu8.data(), reduceB.data()}};
-    parallel::GemmRun<Parallel>(launcher, args, &DefaultThreading);
+    parallel::GemmRun<Parallel>(launcher, args, UT_Threading::get());
     ut::buffer_error(refC.data(), matC.data(), refC.size(), 0.001f);
   }
-
-  using AType = uint8_t;
-  using BType = int8_t;
-  using CType = int;
-  template <typename Core_T, typename LOG_T>
-  void benchmark(int m, int n, int k, int batch, AType* A, BType* B, CType* C, float timems, int threads) {
-    LOG_T log;
-    using Parallel = parallel::gemm::SchedulerBase<Core_T>;
-    using Launcher =
-        wrapper::gemm::LauncherBase<Core_T::ISA, Core_T, prologue_a::gemm::ActivationBase, prologue_b::gemm::WeightPack,
-                                    epilogue::gemm::AccumulatorWriteBackInt32>;
-    Launcher kernel;
-    DefaultThreading.set_threads(threads);
-    auto corestr = gemm::CoreAttr::to_str(Core_T::ID);
-    utils::timer<std::chrono::milliseconds> tm;
-    auto tmpB = kernel.mProB.createStorage(n, k);
-    std::vector<storage::gemm::StoragePackedWeight> packBs(batch, 0);
-    std::vector<int8_t> bufB(tmpB.mSize * batch);
-    for (size_t i = 0; i < batch; i++) {
-      packBs[i] = tmpB;
-      packBs[i].assign(bufB.data() + i * tmpB.mSize);
-      kernel.mProB.packWeight(n, k, {B + i * n * k, n, &packBs[i]}, &DefaultThreading);
-    }
-    auto psize = (size_t)m * n * k * 2;
-    tm.start();
-    while (tm.stop() < timems) {
-      for (size_t i = 0; i < batch; i++) {
-        log.start();
-        utils::GemmProblem gp(1, m, n, k);
-        typename Launcher::Param args{gp, {A + i * m * k, k}, {0, 0, &packBs[i]}, {C + i * m * n, n}};
-        parallel::GemmRun<Parallel>(kernel, args, &DefaultThreading);
-        if (log.stop()) {
-          double flops = double(psize) / log.avg_val / 1e6;
-          printf("Threads %d %s %s Flops:%.3f PerCoreFlops:%.3f\n", threads, corestr, log.get_log_str(), flops,
-                 flops / threads);
-        }
-      }
-    }
-  }
-
-  void benchmark_all(size_t m, size_t n, size_t k, size_t batch) {
-    printf("%s %d %d %d %d\n", __FUNCTION__, int(m), int(n), int(k), int(batch));
-    avector<AType> A(m * k * batch);
-    avector<BType> B(k * n * batch);
-    avector<CType> C(m * n * batch), RefC(m * n * batch);
-    fill_buffer_randn(A.data(), m * k, AType(0), AType(255));
-    fill_buffer_randn(B.data(), k * n, BType(-127), BType(127));
-    for (size_t i = 0; i < batch - 1; i++) {
-      memcpy(A.data() + i * m * k, A.data(), m * k * sizeof(AType));
-      memcpy(B.data() + i * n * k, B.data(), n * k * sizeof(BType));
-    }
-    using LOG = timer_statistics_logger<100>;
-    float testtime = 500.f;
-    GetCPUDevice();
-    if (_cd->AMX_INT8()) {
-      request_perm_xtile_data();
-      benchmark<gemm::ICoreRowNAmxint8<32, 32>, LOG>(m, n, k, batch, A.data(), B.data(), C.data(), testtime, 48);
-      benchmark<gemm::ICoreRowNAmxint8<48, 16>, LOG>(m, n, k, batch, A.data(), B.data(), C.data(), testtime, 48);
-      benchmark<gemm::ICoreRowNAmxint8<64, 16>, LOG>(m, n, k, batch, A.data(), B.data(), C.data(), testtime, 48);
-    }
-    if (_cd->AVX512_VNNI()) {
-      benchmark<gemm::ICoreRowNAvx512vnni<48, 8>, LOG>(m, n, k, batch, A.data(), B.data(), C.data(), testtime, 48);
-    }
-    if (_cd->AVX_VNNI()) {
-      benchmark<gemm::ICoreRowNAvxvnni<48, 2>, LOG>(m, n, k, batch, A.data(), B.data(), C.data(), testtime, 48);
-      benchmark<gemm::ICoreRowNAvxvnni<24, 4>, LOG>(m, n, k, batch, A.data(), B.data(), C.data(), testtime, 48);
-    }
-  }
 };
-#ifdef JBLAS_UT_WRAPPER
+#ifdef BTLA_UT_WRAPPER
 static UT_U8S8S32 sUT_U8S8S32;
 #endif
 
@@ -278,10 +138,6 @@ class UT_S8S8S32 {
   UT_S8S8S32() {
     UT_START();
     GetCPUDevice();
-#ifdef JBLAS_UT_BENCHMARK
-    benchmark_all(1024, 4096, 4096, 32);
-    benchmark_all(2048, 4096, 4096, 32);
-#endif
     if (_cd->AMX_INT8()) {
       request_perm_xtile_data();
       ut<sAMX_INT8_SS>(1, 1, 1);
@@ -324,76 +180,15 @@ class UT_S8S8S32 {
     auto packw = launcher.mProB.createStorage(n, k);
     avector<int8_t> buffer(packw.mSize);
     packw.assign(buffer.data());
-    launcher.mProB.packWeight(n, k, {matBs8.data(), n, &packw}, &DefaultThreading);
+    launcher.mProB.packWeight(n, k, {matBs8.data(), n, &packw}, UT_Threading::get());
     utils::GemmProblem gp(1, m, n, k);
     typename Launcher::Param args{
         gp, {matAu8.data(), k}, {matBs8.data(), n, &packw}, {matC.data(), n, 1, scaleAf32.data(), scaleBf32.data()}};
-    parallel::GemmRun<Parallel>(launcher, args, &DefaultThreading);
+    parallel::GemmRun<Parallel>(launcher, args, UT_Threading::get());
     ut::buffer_error(refC.data(), matC.data(), refC.size(), 0.001f);
   }
-
-  using AType = int8_t;
-  using BType = int8_t;
-  using CType = int;
-  template <typename Core_T, typename LOG_T>
-  void benchmark(int m, int n, int k, int batch, AType* A, BType* B, CType* C, float timems, int threads) {
-    LOG_T log;
-    using Parallel = parallel::gemm::SchedulerBase<Core_T>;
-    using Launcher =
-        wrapper::gemm::LauncherBase<Core_T::ISA, Core_T, prologue_a::gemm::ActivationBase, prologue_b::gemm::WeightPack,
-                                    epilogue::gemm::AccumulatorWriteBackInt32>;
-    Launcher kernel;
-    DefaultThreading.set_threads(threads);
-    auto corestr = gemm::CoreAttr::to_str(Core_T::ID);
-    utils::timer<std::chrono::milliseconds> tm;
-    auto tmpB = kernel.mProB.createStorage(n, k);
-    std::vector<storage::gemm::StoragePackedWeight> packBs(batch, 0);
-    std::vector<int8_t> bufB(tmpB.mSize * batch);
-    for (size_t i = 0; i < batch; i++) {
-      packBs[i] = tmpB;
-      packBs[i].assign(bufB.data() + i * tmpB.mSize);
-      kernel.mProB.packWeight(n, k, {B + i * n * k, n, &packBs[i]}, &DefaultThreading);
-    }
-    auto psize = (size_t)m * n * k * 2;
-    tm.start();
-    while (tm.stop() < timems) {
-      for (size_t i = 0; i < batch; i++) {
-        log.start();
-        utils::GemmProblem gp(1, m, n, k);
-        typename Launcher::Param args{gp, {A + i * m * k, k}, {0, 0, &packBs[i]}, {C + i * m * n, n}};
-        parallel::GemmRun<Parallel>(kernel, args, &DefaultThreading);
-        if (log.stop()) {
-          double flops = double(psize) / log.avg_val / 1e6;
-          printf("Threads %d %s %s Flops:%.3f PerCoreFlops:%.3f\n", threads, corestr, log.get_log_str(), flops,
-                 flops / threads);
-        }
-      }
-    }
-  }
-
-  void benchmark_all(size_t m, size_t n, size_t k, size_t batch) {
-    printf("%s %d %d %d %d\n", __FUNCTION__, int(m), int(n), int(k), int(batch));
-    avector<AType> A(m * k * batch);
-    avector<BType> B(k * n * batch);
-    avector<CType> C(m * n * batch), RefC(m * n * batch);
-    fill_buffer_randn(A.data(), m * k, AType(0), AType(255));
-    fill_buffer_randn(B.data(), k * n, BType(-127), BType(127));
-    for (size_t i = 0; i < batch - 1; i++) {
-      memcpy(A.data() + i * m * k, A.data(), m * k * sizeof(AType));
-      memcpy(B.data() + i * n * k, B.data(), n * k * sizeof(AType));
-    }
-    using LOG = timer_statistics_logger<100>;
-    float testtime = 500.f;
-    GetCPUDevice();
-    if (_cd->AMX_INT8()) {
-      request_perm_xtile_data();
-      benchmark<gemm::ICoreRowNAmxint8SS<32, 32>, LOG>(m, n, k, batch, A.data(), B.data(), C.data(), testtime, 48);
-      benchmark<gemm::ICoreRowNAmxint8SS<48, 16>, LOG>(m, n, k, batch, A.data(), B.data(), C.data(), testtime, 48);
-      benchmark<gemm::ICoreRowNAmxint8SS<64, 16>, LOG>(m, n, k, batch, A.data(), B.data(), C.data(), testtime, 48);
-    }
-  }
 };
-#ifdef JBLAS_UT_WRAPPER
+#ifdef BTLA_UT_WRAPPER
 static UT_S8S8S32 sUT_S8S8S32;
 #endif
 
@@ -402,11 +197,6 @@ class UT_Bf16Bf16Fp32 {
   UT_Bf16Bf16Fp32() {
     UT_START();
     CheckISA(AMX_BF16);
-    request_perm_xtile_data();
-#ifdef JBLAS_UT_BENCHMARK
-    benchmark_all(1024, 4096, 4096, 32);
-    benchmark_all(2048, 4096, 4096, 32);
-#endif
     ut<sAMX_BF16>(1, 1, 1);
     ut<sAMX_BF16>(8, 48, 2);
     ut<sAMX_BF16>(8, 4096, 4096);
@@ -430,76 +220,15 @@ class UT_Bf16Bf16Fp32 {
     fill_buffer_randn(matAbf16.data(), matAbf16.size(), utils::bf16(-0.5f), utils::bf16(0.5f));
     fill_buffer_randn(matBbf16.data(), matBbf16.size(), utils::bf16(-0.5f), utils::bf16(0.5f));
     avector<float> matC(m * n), refC(m * n);
-    launcher.mProB.packWeight(n, k, {matBbf16.data(), n, &packw}, &DefaultThreading);
+    launcher.mProB.packWeight(n, k, {matBbf16.data(), n, &packw}, UT_Threading::get());
     gemmref_bf16bf16fp32(m, n, k, matAbf16.data(), matBbf16.data(), refC.data(), k, n, n);
     utils::GemmProblem gp(1, m, n, k);
     typename Launcher::Param args{gp, {matAbf16.data(), k}, {matBbf16.data(), n, &packw}, {matC.data(), n}};
-    parallel::GemmRun<Parallel>(launcher, args, &DefaultThreading);
+    parallel::GemmRun<Parallel>(launcher, args, UT_Threading::get());
     buffer_error(refC.data(), matC.data(), refC.size(), 0.05f);
   }
-
-  using AType = utils::bf16;
-  using BType = utils::bf16;
-  using CType = float;
-  template <typename Core_T, typename LOG_T>
-  void benchmark(int m, int n, int k, int batch, AType* A, BType* B, CType* C, float timems, int threads) {
-    LOG_T log;
-    using Parallel = parallel::gemm::SchedulerBase<Core_T>;
-    using Launcher =
-        wrapper::gemm::LauncherBase<Core_T::ISA, Core_T, prologue_a::gemm::ActivationBase, prologue_b::gemm::WeightPack,
-                                    epilogue::gemm::AccumulatorWriteBackFp32>;
-    Launcher kernel;
-    DefaultThreading.set_threads(threads);
-    auto corestr = gemm::CoreAttr::to_str(Core_T::ID);
-    utils::timer<std::chrono::milliseconds> tm;
-    auto tmpB = kernel.mProB.createStorage(n, k);
-    std::vector<storage::gemm::StoragePackedWeight> packBs(batch, 0);
-    std::vector<int8_t> bufB(tmpB.mSize * batch);
-    for (size_t i = 0; i < batch; i++) {
-      packBs[i] = tmpB;
-      packBs[i].assign(bufB.data() + i * tmpB.mSize);
-      kernel.mProB.packWeight(n, k, {B + i * n * k, n, &packBs[i]}, &DefaultThreading);
-    }
-    auto psize = (size_t)m * n * k * 2;
-    tm.start();
-    while (tm.stop() < timems) {
-      for (size_t i = 0; i < batch; i++) {
-        log.start();
-        utils::GemmProblem gp(1, m, n, k);
-        typename Launcher::Param args{gp, {A + i * m * k, k}, {0, 0, &packBs[i]}, {C + i * m * n, n}};
-        parallel::GemmRun<Parallel>(kernel, args, &DefaultThreading);
-        if (log.stop()) {
-          double flops = double(psize) / log.avg_val / 1e6;
-          printf("Threads %d %s %s Flops:%.3f PerCoreFlops:%.3f\n", threads, corestr, log.get_log_str(), flops,
-                 flops / threads);
-        }
-      }
-    }
-  }
-
-  void benchmark_all(size_t m, size_t n, size_t k, size_t batch) {
-    printf("%s %d %d %d %d\n", __FUNCTION__, int(m), int(n), int(k), int(batch));
-    avector<AType> A(m * k * batch);
-    avector<BType> B(k * n * batch);
-    avector<CType> C(m * n * batch), RefC(m * n * batch);
-    fill_buffer_randn(A.data(), k * m, AType(-0.5f), AType(0.5f));
-    fill_buffer_randn(B.data(), k * n, BType(-0.5f), BType(0.5f));
-    for (size_t i = 0; i < batch - 1; i++) {
-      memcpy(A.data() + i * m * k, A.data(), m * k * sizeof(AType));
-      memcpy(B.data() + i * n * k, B.data(), n * k * sizeof(BType));
-    }
-    using LOG = timer_statistics_logger<100>;
-    float testtime = 500.f;
-    GetCPUDevice();
-    if (_cd->AMX_BF16()) {
-      request_perm_xtile_data();
-      benchmark<gemm::HCoreRowNAmxbf16<32, 32>, LOG>(m, n, k, batch, A.data(), B.data(), C.data(), testtime, 48);
-      benchmark<gemm::HCoreRowNAmxbf16<48, 16>, LOG>(m, n, k, batch, A.data(), B.data(), C.data(), testtime, 48);
-      benchmark<gemm::HCoreRowNAmxbf16<64, 16>, LOG>(m, n, k, batch, A.data(), B.data(), C.data(), testtime, 48);
-    }
-  }
 };
-#ifdef JBLAS_UT_WRAPPER
+#ifdef BTLA_UT_WRAPPER
 static UT_Bf16Bf16Fp32 sUT_Bf16Bf16Fp32;
 #endif
 
@@ -508,10 +237,6 @@ class UT_Fp16Fp16Fp16 {
   UT_Fp16Fp16Fp16() {
     UT_START();
     CheckISA(AVX512_FP16);
-#ifdef JBLAS_UT_BENCHMARK
-    benchmark_all(1024, 4096, 4096, 32);
-    benchmark_all(2048, 4096, 4096, 32);
-#endif
     ut<sAVX512_FP16>(1, 1, 1);
     ut<sAVX512_FP16>(8, 48, 2);
     ut<sAVX512_FP16>(8, 4096, 4096);
@@ -534,75 +259,15 @@ class UT_Fp16Fp16Fp16 {
     avector<utils::fp16> matAbf16(m * k), matBbf16(k * n), matC(m * n), refC(m * n);
     fill_buffer_randn(matAbf16.data(), matAbf16.size(), utils::fp16(-0.5f), utils::fp16(0.5f));
     fill_buffer_randn(matBbf16.data(), matBbf16.size(), utils::fp16(-0.5f), utils::fp16(0.5f));
-    launcher.mProB.packWeight(n, k, {matBbf16.data(), n, &packw}, &DefaultThreading);
+    launcher.mProB.packWeight(n, k, {matBbf16.data(), n, &packw}, UT_Threading::get());
     gemmref_fp16fp16fp16(m, n, k, matAbf16.data(), matBbf16.data(), refC.data(), k, n, n);
     GemmProblem gp(1, m, n, k);
     typename Launcher::Param args{gp, {matAbf16.data(), k}, {matBbf16.data(), n, &packw}, {matC.data(), n}};
-    parallel::GemmRun<Parallel>(launcher, args, &DefaultThreading);
+    parallel::GemmRun<Parallel>(launcher, args, UT_Threading::get());
     buffer_error(refC.data(), matC.data(), refC.size(), utils::fp16(0.0002f * k));
   }
-
-  using AType = utils::fp16;
-  using BType = utils::fp16;
-  using CType = utils::fp16;
-  template <typename Core_T, typename LOG_T>
-  void benchmark(int m, int n, int k, int batch, AType* A, BType* B, CType* C, float timems, int threads) {
-    LOG_T log;
-    using Parallel = parallel::gemm::SchedulerBase<Core_T>;
-    using Launcher =
-        wrapper::gemm::LauncherBase<Core_T::ISA, Core_T, prologue_a::gemm::ActivationBase, prologue_b::gemm::WeightPack,
-                                    epilogue::gemm::AccumulatorWriteBackFp16>;
-    Launcher kernel;
-    DefaultThreading.set_threads(threads);
-    auto corestr = gemm::CoreAttr::to_str(Core_T::ID);
-    utils::timer<std::chrono::milliseconds> tm;
-    auto tmpB = kernel.mProB.createStorage(n, k);
-    std::vector<storage::gemm::StoragePackedWeight> packBs(batch, 0);
-    std::vector<int8_t> bufB(tmpB.mSize * batch);
-    for (size_t i = 0; i < batch; i++) {
-      packBs[i] = tmpB;
-      packBs[i].assign(bufB.data() + i * tmpB.mSize);
-      kernel.mProB.packWeight(n, k, {B + i * n * k, n, &packBs[i]}, &DefaultThreading);
-    }
-    auto psize = (size_t)m * n * k * 2;
-    tm.start();
-    while (tm.stop() < timems) {
-      for (size_t i = 0; i < batch; i++) {
-        log.start();
-        GemmProblem gp(1, m, n, k);
-        typename Launcher::Param args{gp, {A + i * m * k, k}, {0, 0, &packBs[i]}, {C + i * m * n, n}};
-        parallel::GemmRun<Parallel>(kernel, args, &DefaultThreading);
-        if (log.stop()) {
-          double flops = double(psize) / log.avg_val / 1e6;
-          printf("Threads %d %s %s Flops:%.3f PerCoreFlops:%.3f\n", threads, corestr, log.get_log_str(), flops,
-                 flops / threads);
-        }
-      }
-    }
-  }
-
-  void benchmark_all(size_t m, size_t n, size_t k, size_t batch) {
-    printf("%s %d %d %d %d\n", __FUNCTION__, int(m), int(n), int(k), int(batch));
-    avector<AType> A(m * k * batch);
-    avector<BType> B(k * n * batch);
-    avector<CType> C(m * n * batch), RefC(m * n * batch);
-    fill_buffer_randn(A.data(), k * m, AType(-0.5f), AType(0.5f));
-    fill_buffer_randn(B.data(), k * n, AType(-0.5f), AType(0.5f));
-    for (size_t i = 0; i < batch - 1; i++) {
-      memcpy(A.data() + i * m * k, A.data(), m * k * sizeof(AType));
-      memcpy(B.data() + i * n * k, B.data(), n * k * sizeof(BType));
-    }
-    using LOG = timer_statistics_logger<100>;
-    float testtime = 500.f;
-    GetCPUDevice();
-    if (_cd->AVX512_FP16()) {
-      benchmark<sAVX512_FP16, LOG>(m, n, k, batch, A.data(), B.data(), C.data(), testtime, 56);
-      benchmark<gemm::HCoreRowNAvx512fp16<64, 12>, LOG>(m, n, k, batch, A.data(), B.data(), C.data(), testtime, 56);
-      benchmark<sAVX512_FP16, LOG>(m, n, k, batch, A.data(), B.data(), C.data(), testtime, 48);
-    }
-  }
 };
-#ifdef JBLAS_UT_WRAPPER
+#ifdef BTLA_UT_WRAPPER
 static UT_Fp16Fp16Fp16 sUT_Fp16Fp16Fp16;
 #endif
 }  // namespace ut
diff --git a/bestla/bestla/ut/kernel_jit.cpp b/bestla/bestla/ut/kernel_jit.cpp
index ce1198c99..93a4fbaa9 100644
--- a/bestla/bestla/ut/kernel_jit.cpp
+++ b/bestla/bestla/ut/kernel_jit.cpp
@@ -27,9 +27,9 @@ class UT_Memcpy2D_AVX512F {
       kernel::jit::JitMemcpy2DAvx512f::forward<float, float>(src.data(), dst.data(), row, col, srcstep, dststep);
     }
     tm.start();
-    parallel::Scheduler2D para({DefaultThreading.num_threads(), row, col, 4, 64});
+    parallel::Scheduler2D para({UT_Threading::get()->num_threads(), row, col, 4, 64, 0, 0});
     for (size_t i = 0; i < TestLoop; i++) {
-      DefaultThreading.parallel_for([&](int tidx) {
+      UT_Threading::get()->parallel_for([&](int tidx) {
         parallel::ThreadProblem2D thdp{tidx};
         para.getIndex(thdp);
         if (thdp.valid) {
@@ -47,7 +47,7 @@ class UT_Memcpy2D_AVX512F {
 
     tm.start();
     for (size_t i = 0; i < TestLoop; i++) {
-      DefaultThreading.parallel_for([&](int tidx) {
+      UT_Threading::get()->parallel_for([&](int tidx) {
         parallel::ThreadProblem2D thdp{tidx};
         para.getIndex(thdp);
         if (thdp.valid) {
diff --git a/neural_speed/application/main_run.cpp b/neural_speed/application/main_run.cpp
index 48ed7d1a8..7a74197e4 100644
--- a/neural_speed/application/main_run.cpp
+++ b/neural_speed/application/main_run.cpp
@@ -68,6 +68,15 @@ void sigint_handler(int signo) {
 
 int main(int argc, char** argv) {  // NOLINT
   gpt_params params;
+#ifdef _WIN32
+  if (!SetPriorityClass(GetCurrentProcess(), HIGH_PRIORITY_CLASS)) {
+    auto dwError = GetLastError();
+    NE_PRINT_DEBUG("ERR: failed to set Procss Priority\n");
+    assert(dwError == ERROR_SUCCESS);
+  } else {
+    NE_PRINT_DEBUG("Set this process to high priority\n");
+  }
+#endif
 #ifdef MODEL_NAME
   params.model_name = MODEL_NAME;
   std::cout << "Welcome to use the " << params.model_name << " on the ITREX! " << std::endl;
diff --git a/neural_speed/cmake/Common.cmake b/neural_speed/cmake/Common.cmake
index 891bbbd38..98272b05f 100644
--- a/neural_speed/cmake/Common.cmake
+++ b/neural_speed/cmake/Common.cmake
@@ -52,7 +52,9 @@ endfunction()
 
 function(add_executable_w_warning TARGET)
     add_executable(${TARGET} ${ARGN})
-    target_link_libraries(${TARGET} PUBLIC OpenMP::OpenMP_CXX OpenMP::OpenMP_C)
+    if(NS_USE_OMP)
+      target_link_libraries(${TARGET} PUBLIC OpenMP::OpenMP_CXX OpenMP::OpenMP_C)
+    endif()
     set_target_properties(${TARGET} PROPERTIES C_STANDARD 11 C_STANDARD_REQUIRED ON C_EXTENSIONS OFF)
     set_target_properties(${TARGET} PROPERTIES CXX_STANDARD 11 CXX_STANDARD_REQUIRED ON CXX_EXTENSIONS OFF)
     warning_check(${TARGET})
@@ -60,7 +62,9 @@ endfunction()
 
 function(add_library_w_warning_ TARGET)
     add_library(${TARGET} ${ARGN})
-    target_link_libraries(${TARGET} PUBLIC OpenMP::OpenMP_CXX OpenMP::OpenMP_C)
+    if(NS_USE_OMP)
+      target_link_libraries(${TARGET} PUBLIC OpenMP::OpenMP_CXX OpenMP::OpenMP_C)
+    endif()
     set_target_properties(${TARGET} PROPERTIES C_STANDARD 11 C_STANDARD_REQUIRED ON C_EXTENSIONS OFF)
     set_target_properties(${TARGET} PROPERTIES CXX_STANDARD 11 CXX_STANDARD_REQUIRED ON CXX_EXTENSIONS OFF)
     warning_check(${TARGET})
diff --git a/neural_speed/core/CMakeLists.txt b/neural_speed/core/CMakeLists.txt
index 427bb8aa0..3c5eb694b 100644
--- a/neural_speed/core/CMakeLists.txt
+++ b/neural_speed/core/CMakeLists.txt
@@ -35,6 +35,8 @@ endif()
 
 if(NOT WIN32)
   target_link_libraries(ne_layers PUBLIC rt)
+else()
+  target_link_options(ne_layers PUBLIC /STACK:5242880)
 endif()
 
 if (NS_BUILD_TESTS)
diff --git a/neural_speed/core/layers/bestla_common.hpp b/neural_speed/core/layers/bestla_common.hpp
index bd62adc31..4a889d8df 100644
--- a/neural_speed/core/layers/bestla_common.hpp
+++ b/neural_speed/core/layers/bestla_common.hpp
@@ -26,7 +26,7 @@ namespace ne_bestla {
 class ne_threading {
  public:
   static bestla::parallel::IThreading* get() {
-#if BTLA_OPENMP
+#ifdef NS_USE_OMP
     static bestla::parallel::OMPThreading DefaultThreading(4);
 #else
     static bestla::parallel::StdThreading DefaultThreading(4);
diff --git a/neural_speed/core/layers/ip_fusion_ffn.cpp b/neural_speed/core/layers/ip_fusion_ffn.cpp
index ec950ee42..5875bc5bd 100644
--- a/neural_speed/core/layers/ip_fusion_ffn.cpp
+++ b/neural_speed/core/layers/ip_fusion_ffn.cpp
@@ -31,9 +31,8 @@ namespace ffn_2w {
 template <class Parallel_T, class Launch_T1, class Launch_T2>
 void GemmRunWithA_ffn(Launch_T1* launcher1, Launch_T2* launcher2, const typename Launch_T1::Param& args1,
                       const typename Launch_T2::Param& args2, parallel::IThreading* th) {
-  device::CpuBase cb;
-  Parallel_T para1({th->num_threads(), args1.problem, cb.mL2Cache, cb.mL1Cache});
-  Parallel_T para2({th->num_threads(), args2.problem, cb.mL2Cache, cb.mL1Cache});
+  parallel::gemm::SchedulerDispatcher<Parallel_T> para1({th, args1.problem});
+  parallel::gemm::SchedulerDispatcher<Parallel_T> para2({th, args2.problem});
   using AParall1 = typename Launch_T1::PrologueA::Parallel;
   using AParall2 = typename Launch_T2::PrologueA::Parallel;
   auto apara1 = launcher1->mProA.createParallel(th->num_threads(), args1.problem);
@@ -51,19 +50,19 @@ void GemmRunWithA_ffn(Launch_T1* launcher1, Launch_T2* launcher2, const typename
     if (thdpA1.valid) {
       launcher1->mProA.run(args1.paramA, thdpA1);
     }
-    th->sync();
+    th->sync(tidx, 0);
     typename Parallel_T::ThreadProblem thdp1{tidx};
     para1.getIndex(thdp1);
     if (thdp1.valid) {
       launcher1->run(args1, thdp1);
     }
-    th->sync();
+    th->sync(tidx, 1);
     typename AParall2::ThreadProblem thdpA2{tidx};
     apara2.getIndex(thdpA2);
     if (thdpA2.valid) {
       launcher2->mProA.run(args2.paramA, thdpA2);
     }
-    th->sync();
+    th->sync(tidx, 2);
     typename Parallel_T::ThreadProblem thdp2{tidx};
     para2.getIndex(thdp2);
     if (thdp2.valid) {
@@ -75,9 +74,8 @@ void GemmRunWithA_ffn(Launch_T1* launcher1, Launch_T2* launcher2, const typename
 template <class Parallel_T, class Launch_T1, class Launch_T2>
 void GemmRun_ffn(Launch_T1* launcher1, Launch_T2* launcher2, const typename Launch_T1::Param& args1,
                  const typename Launch_T2::Param& args2, parallel::IThreading* th) {
-  device::CpuBase cb;
-  Parallel_T para1({th->num_threads(), args1.problem, cb.mL2Cache, cb.mL1Cache});
-  Parallel_T para2({th->num_threads(), args2.problem, cb.mL2Cache, cb.mL1Cache});
+  parallel::gemm::SchedulerDispatcher<Parallel_T> para1({th, args1.problem});
+  parallel::gemm::SchedulerDispatcher<Parallel_T> para2({th, args2.problem});
   static bool flag = false;
   if (flag) {
     printf("%s\n", __FUNCTION__);
@@ -91,7 +89,7 @@ void GemmRun_ffn(Launch_T1* launcher1, Launch_T2* launcher2, const typename Laun
     if (thdp1.valid) {
       launcher1->run(args1, thdp1);
     }
-    th->sync();
+    th->sync(tidx);
     typename Parallel_T::ThreadProblem thdp2{tidx};
     para2.getIndex(thdp2);
     if (thdp2.valid) {
@@ -348,9 +346,8 @@ template <class Parallel_T, class Launch_T1, class Launch_T2, class Launch_T3>
 void GemmRunWithA_ffn(Launch_T1* launcher1, Launch_T2* launcher2, Launch_T3* launcher3,
                       const typename Launch_T1::Param& args1, const typename Launch_T2::Param& args2,
                       const typename Launch_T3::Param& args3, parallel::IThreading* th) {
-  device::CpuBase cb;
-  Parallel_T para1({th->num_threads(), args1.problem, cb.mL2Cache, cb.mL1Cache});
-  Parallel_T para3({th->num_threads(), args3.problem, cb.mL2Cache, cb.mL1Cache});
+  parallel::gemm::SchedulerDispatcher<Parallel_T> para1({th, args1.problem});
+  parallel::gemm::SchedulerDispatcher<Parallel_T> para3({th, args3.problem});
   using AParall1 = typename Launch_T1::PrologueA::Parallel;
   using AParall3 = typename Launch_T3::PrologueA::Parallel;
   auto apara1 = launcher1->mProA.createParallel(th->num_threads(), args1.problem);
@@ -368,20 +365,20 @@ void GemmRunWithA_ffn(Launch_T1* launcher1, Launch_T2* launcher2, Launch_T3* lau
     if (thdpA1.valid) {
       launcher1->mProA.run(args1.paramA, thdpA1);
     }
-    th->sync();
+    th->sync(tidx, 0);
     typename Parallel_T::ThreadProblem thdp1{tidx};
     para1.getIndex(thdp1);
     if (thdp1.valid) {
       launcher1->run(args1, thdp1);
       launcher2->run(args2, thdp1);
     }
-    th->sync();
+    th->sync(tidx, 1);
     typename AParall3::ThreadProblem thdpA3{tidx};
     apara3.getIndex(thdpA3);
     if (thdpA3.valid) {
       launcher3->mProA.run(args3.paramA, thdpA3);
     }
-    th->sync();
+    th->sync(tidx, 2);
     typename Parallel_T::ThreadProblem thdp3{tidx};
     para3.getIndex(thdp3);
     if (thdp3.valid) {
@@ -394,9 +391,8 @@ template <class Parallel_T, class Launch_T1, class Launch_T2, class Launch_T3>
 void GemmRun_ffn(Launch_T1* launcher1, Launch_T2* launcher2, Launch_T3* launcher3,
                  const typename Launch_T1::Param& args1, const typename Launch_T2::Param& args2,
                  const typename Launch_T3::Param& args3, parallel::IThreading* th) {
-  device::CpuBase cb;
-  Parallel_T para1({th->num_threads(), args1.problem, cb.mL2Cache, cb.mL1Cache});
-  Parallel_T para3({th->num_threads(), args3.problem, cb.mL2Cache, cb.mL1Cache});
+  parallel::gemm::SchedulerDispatcher<Parallel_T> para1({th, args1.problem});
+  parallel::gemm::SchedulerDispatcher<Parallel_T> para3({th, args3.problem});
   static bool flag = false;
   if (flag) {
     printf("%s\n", __FUNCTION__);
@@ -411,7 +407,7 @@ void GemmRun_ffn(Launch_T1* launcher1, Launch_T2* launcher2, Launch_T3* launcher
       launcher1->run(args1, thdp1);
       launcher2->run(args2, thdp1);
     }
-    th->sync();
+    th->sync(tidx);
     typename Parallel_T::ThreadProblem thdp3{tidx};
     para3.getIndex(thdp3);
     if (thdp3.valid) {
diff --git a/neural_speed/core/layers/ip_fusion_qkv.cpp b/neural_speed/core/layers/ip_fusion_qkv.cpp
index 73b592076..f695a4ee2 100644
--- a/neural_speed/core/layers/ip_fusion_qkv.cpp
+++ b/neural_speed/core/layers/ip_fusion_qkv.cpp
@@ -21,8 +21,7 @@ namespace ip_qkv {
 
 template <class Parallel_T, class Launch_T>
 void GemmRun_QKV(Launch_T* launcher, const typename Launch_T::Param* args, parallel::IThreading* th) {
-  device::CpuBase cb;
-  Parallel_T para({th->num_threads(), args[0].problem, cb.mL2Cache, cb.mL1Cache});
+  parallel::gemm::SchedulerDispatcher<Parallel_T> para({th, args[0].problem});
   static bool flag = false;
   if (flag) {
     printf("%s\n", __FUNCTION__);
@@ -42,8 +41,7 @@ void GemmRun_QKV(Launch_T* launcher, const typename Launch_T::Param* args, paral
 
 template <class Parallel_T, class Launch_T>
 void GemmRunWithA_QKV(Launch_T* launcher, const typename Launch_T::Param* args, parallel::IThreading* th) {
-  device::CpuBase cb;
-  Parallel_T para({th->num_threads(), args[0].problem, cb.mL2Cache, cb.mL1Cache});
+  parallel::gemm::SchedulerDispatcher<Parallel_T> para({th, args[0].problem});
   using AParall = typename Launch_T::PrologueA::Parallel;
   auto apara = launcher->mProA.createParallel(th->num_threads(), args[0].problem);
   static bool flag = false;
@@ -58,7 +56,7 @@ void GemmRunWithA_QKV(Launch_T* launcher, const typename Launch_T::Param* args,
     if (thdpA.valid) {
       launcher->mProA.run(args[0].paramA, thdpA);
     }
-    th->sync();
+    th->sync(tidx);
     typename Parallel_T::ThreadProblem thdp{tidx};
     para.getIndex(thdp);
     if (thdp.valid) {
diff --git a/neural_speed/core/layers/mha_dense_wrapper.h b/neural_speed/core/layers/mha_dense_wrapper.h
index be586a305..9d416ce13 100644
--- a/neural_speed/core/layers/mha_dense_wrapper.h
+++ b/neural_speed/core/layers/mha_dense_wrapper.h
@@ -644,7 +644,7 @@ class mha_interface_t {
 
   static_assert(GemmQK::MTILE == GemmPV::MTILE, "2 GEMM should have the same M_TILE.");
 
-  BTLA_CODE compute(const attn_fwd_args_t<Q_T, K_T, V_T, DST_T>& p, const parallel::IThreading& th) {
+  BTLA_CODE compute(const attn_fwd_args_t<Q_T, K_T, V_T, DST_T>& p, parallel::IThreading& th) {
     static constexpr auto M_TILE = GemmQK::MTILE;
     assert(p.Q_sc == 1 && p.K_sc == 1 && p.V_sc == 1 && p.dst_sc == 1);
     assert(p.Q_layout == ATTN_FWD_LAYOUT_PLAIN && p.K_layout == ATTN_FWD_LAYOUT_PLAIN &&
@@ -652,7 +652,7 @@ class mha_interface_t {
     assert(p.step_v_head_size == 1);
     assert(p.step_k_head_size == 1 || p.step_k_sl == 1);
     const auto num_heads = p.batch_size * p.head_num;  // Total number of heads
-    device::CpuBase cb;                                // Note: DO NOT use cb.mNumThreads; use th.num_threads() instead
+    GetCPUDevice();
 
     const bool is_causal = (p.attn_flags & NE_ATTN_FLAG_IS_CAUSAL) != 0;
     const bool is_alibi = (p.attn_flags & NE_ATTN_FLAG_IS_ALIBI8) != 0;
@@ -698,7 +698,7 @@ class mha_interface_t {
     const mha_problem_t problem = {p.batch_size, p.head_num, p.heads_kv, p.head_size, p.sl_q, p.sl_kv};
     const auto m_tiles = updiv(p.sl_q, M_TILE);
     const auto num_tasks = num_heads * m_tiles;
-    const Scheduler2D parl({th.num_threads(), {num_tasks, 1}, {1, 1}});
+    const Scheduler2D parl({th.num_threads(), {num_tasks, 1}, {1, 1}, {0, 0}});
 
     th.parallel_for([&](int tid) {
       {  // reorder K & V
@@ -723,7 +723,7 @@ class mha_interface_t {
             thdpV, step_batch_v);
       }
 
-      th.sync();
+      th.sync(tid);
 
       // calculate mm + softmax + mm
       {
@@ -760,8 +760,8 @@ class mha_interface_t {
           typename parallel::gemm::ThreadProblemBase tpQK{
               /* ThreadProblem2D */ {tid, {}, {i_m, 0}, {m_size, unmasked_size_pad_qk}, true},
               /* .block = */ {M_TILE, GemmQK::NTILE, p.head_size},
-              /* .stacksize = */ cb.mL2Cache,
-              /* .tmpcachesize = */ cb.mL2Cache,
+              /* .stacksize = */ _cd->getL2CacheSize(),
+              /* .tmpcachesize = */ _cd->getL2CacheSize(),
           };
           const auto bf16_tmp = reinterpret_cast<bf16*>(tmp);
           l_expsum.run(  // QxK => S ==exp==> P
@@ -791,8 +791,8 @@ class mha_interface_t {
           typename parallel::gemm::ThreadProblemBase tpPV{
               /* ThreadProblem2D */ {tid, {}, {0, 0}, {m_size, p.head_size}, true},
               /* .block = */ {M_TILE, GemmPV::NTILE, unmasked_size_pad_qk},
-              /* .stacksize = */ cb.mL2Cache,
-              /* .tmpcachesize = */ cb.mL2Cache,
+              /* .stacksize = */ _cd->getL2CacheSize(),
+              /* .tmpcachesize = */ _cd->getL2CacheSize(),
           };
           l_scale.run(  // PxV => O
               PVArgs{
@@ -1574,7 +1574,7 @@ class mha_stable_interface_t {
   static_assert(GemmQK::MTILE == GemmPV::MTILE, "2 GEMM should have the same M_TILE.");
   static constexpr auto M_TILE = GemmQK::MTILE;
 
-  BTLA_CODE compute(const attn_fwd_args_t<Q_T, K_T, V_T, DST_T>& p, const parallel::IThreading& th) {
+  BTLA_CODE compute(const attn_fwd_args_t<Q_T, K_T, V_T, DST_T>& p, parallel::IThreading& th) {
     assert((std::is_same<Q_T, int8_t>::value || p.Q_sc == 1));
     assert((std::is_same<K_T, int8_t>::value || p.K_sc == 1));
     assert((std::is_same<V_T, int8_t>::value || p.V_sc == 1));
@@ -1603,7 +1603,7 @@ class mha_stable_interface_t {
     assert((p.K_layout != ATTN_FWD_LAYOUT_PLAIN || p.step_v_head_size == 1));
     assert((p.V_layout != ATTN_FWD_LAYOUT_PLAIN || p.step_k_sl == 1));
     const auto num_heads = p.batch_size * p.head_num;  // Total number of heads
-    device::CpuBase cb;                                // Note: DO NOT use cb.mNumThreads; use th.num_threads() instead
+    GetCPUDevice();
     const bool is_causal = (p.attn_flags & NE_ATTN_FLAG_IS_CAUSAL) != 0;
     const bool is_alibi = (p.attn_flags & NE_ATTN_FLAG_IS_ALIBI8) != 0;
     const bool prefer_fp32 = (p.attn_flags & NE_ATTN_FLAG_PREFER_FP32) != 0;
@@ -1637,7 +1637,7 @@ class mha_stable_interface_t {
     const auto num_tasks = num_heads * m_tiles;
 
     using Scheduler2D = bestla::parallel::Scheduler2D;
-    const Scheduler2D parl({th.num_threads(), {num_tasks, 1}, {1, 1}});  // main parallel scheduler
+    const Scheduler2D parl({th.num_threads(), {num_tasks, 1}, {1, 1}, {0, 0}});  // main parallel scheduler
 
     th.parallel_for([&](int tid) {
       const int tmp_s_size = M_TILE * padto(padto(p.sl_kv, GemmQK::NTILE), GemmPV::KTILE);
@@ -1694,8 +1694,8 @@ class mha_stable_interface_t {
           typename parallel::gemm::ThreadProblemBase tpQK{
               /* ThreadProblem2D */ {tid, {}, {i_m, 0}, {m_size, unmasked_size_pad_qk}, true},
               /* .block = */ {M_TILE, GemmQK::NTILE, p.head_size},
-              /* .stacksize = */ cb.mL2Cache,
-              /* .tmpcachesize = */ cb.mL2Cache,
+              /* .stacksize = */ _cd->getL2CacheSize(),
+              /* .tmpcachesize = */ _cd->getL2CacheSize(),
           };
           l_qk.run(  // QxK => S ==exp==> P
               QKArgs{
@@ -1749,8 +1749,8 @@ class mha_stable_interface_t {
           typename parallel::gemm::ThreadProblemBase tpPV{
               /* ThreadProblem2D */ {tid, {}, {0, 0}, {m_size, p.head_size}, true},
               /* .block = */ {M_TILE, GemmPV::NTILE, unmasked_size_pad_pv},
-              /* .stacksize = */ cb.mL2Cache,
-              /* .tmpcachesize = */ cb.mL2Cache,
+              /* .stacksize = */ _cd->getL2CacheSize(),
+              /* .tmpcachesize = */ _cd->getL2CacheSize(),
           };
           l_pv.run(  // PxV => O
               PVArgs{
diff --git a/neural_speed/core/layers/ne_bestla.cpp b/neural_speed/core/layers/ne_bestla.cpp
index 3f617ea20..52517bfba 100644
--- a/neural_speed/core/layers/ne_bestla.cpp
+++ b/neural_speed/core/layers/ne_bestla.cpp
@@ -39,6 +39,38 @@ int bestla_set_threads(int _nth) {
 
 void* bestla_get_thread_handle() { return ne_bestla::ne_threading::get(); }
 
+void bestla_parallel_for(forward_compute_fptr fcomp, ne_compute_params* mainparams, ne_tensor* node) {
+  auto threading = ne_bestla::ne_threading::get();
+  if (mainparams->nth == 1) {
+    struct ne_compute_params params = *mainparams;
+    params.type = NE_TASK_INIT;
+    fcomp(&params, node);
+    params.type = NE_TASK_COMPUTE;
+    fcomp(&params, node);
+    params.type = NE_TASK_FINALIZE;
+    fcomp(&params, node);
+  } else {
+    threading->parallel_for([&](int tidx) {
+      struct ne_compute_params params = *mainparams;
+      params.ith = tidx;
+      params.type = NE_TASK_INIT;
+      if (tidx == 0) {
+        fcomp(&params, node);
+      }
+      threading->sync(tidx, 0);
+      params.type = NE_TASK_COMPUTE;
+      if (params.ith < params.nth) {
+        fcomp(&params, node);
+      }
+      threading->sync(tidx, 1);
+      params.type = NE_TASK_FINALIZE;
+      if (params.ith < params.nth) {
+        fcomp(&params, node);
+      }
+    });
+  }
+}
+
 void bestla_unpackweight_fp32(void* wptr, int n, int k, float* fp32data, int ld) {
   BTLAGemmUnPackB(fp32data, wptr, static_cast<size_t>(n), static_cast<size_t>(k), static_cast<size_t>(ld),
                   ne_bestla::ne_threading::get());
diff --git a/neural_speed/core/ne_bestla.h b/neural_speed/core/ne_bestla.h
index c2c77d2b8..a9ad0a5ea 100644
--- a/neural_speed/core/ne_bestla.h
+++ b/neural_speed/core/ne_bestla.h
@@ -13,7 +13,7 @@
 //  limitations under the License.
 #ifndef NE_CORE_GRAPH_INNER_PRODUCT_H
 #define NE_CORE_GRAPH_INNER_PRODUCT_H
-
+#include "ne.h"
 #ifdef __cplusplus
 extern "C" {
 #endif
@@ -24,6 +24,10 @@ int bestla_set_threads(int _nth);
 
 void* bestla_get_thread_handle();
 
+typedef void (*forward_compute_fptr)(struct ne_compute_params*, struct ne_tensor*);
+
+void bestla_parallel_for(forward_compute_fptr, struct ne_compute_params*, struct ne_tensor*);
+
 void bestla_init();
 
 unsigned long long bestla_f32f32_get_workspace_size(int _m, int _n, int _k, void* wptr);
diff --git a/neural_speed/core/ne_layers.c b/neural_speed/core/ne_layers.c
index a493f2b47..9030e67cd 100644
--- a/neural_speed/core/ne_layers.c
+++ b/neural_speed/core/ne_layers.c
@@ -96,10 +96,6 @@ static int sched_yield(void) {
 typedef void* thread_ret_t;
 #endif
 
-#ifdef _OPENMP
-#include <omp.h>
-#endif
-
 static_assert(sizeof(block_q4_0) == sizeof(ne_fp16_t) + QK4_0 / 2, "wrong q4_0 block size/padding");
 static_assert(sizeof(block_q4_1) == 2 * sizeof(ne_fp16_t) + QK4_1 / 2, "wrong q4_1 block size/padding");
 static_assert(sizeof(block_q5_0) == sizeof(ne_fp16_t) + sizeof(uint32_t) + QK5_0 / 2, "wrong q5_0 block size/padding");
@@ -11135,172 +11131,10 @@ struct ne_cgraph ne_build_backward(struct ne_context* ctx, struct ne_cgraph* gf,
 // I tried using spin locks, but not sure how to use them correctly - the things I tried were slower than busy loops
 //
 
-#ifdef __APPLE__
-
-// #include <os/lock.h>
-//
-// typedef os_unfair_lock ne_lock_t;
-//
-// #define ne_lock_init(x)    UNUSED(x)
-// #define ne_lock_destroy(x) UNUSED(x)
-// #define ne_lock_lock       os_unfair_lock_lock
-// #define ne_lock_unlock     os_unfair_lock_unlock
-//
-// #define NE_LOCK_INITIALIZER OS_UNFAIR_LOCK_INIT
-
-typedef int ne_lock_t;
-
-#define ne_lock_init(x) UNUSED(x)
-#define ne_lock_destroy(x) UNUSED(x)
-#define ne_lock_lock(x) UNUSED(x)
-#define ne_lock_unlock(x) UNUSED(x)
-
-#define NE_LOCK_INITIALIZER 0
-
-typedef pthread_t ne_thread_t;
-
-#define ne_thread_create pthread_create
-#define ne_thread_join pthread_join
-
-#else
-
-// typedef pthread_spinlock_t ne_lock_t;
-
-// #define ne_lock_init(x) pthread_spin_init(x, PTHREAD_PROCESS_PRIVATE)
-// #define ne_lock_destroy pthread_spin_destroy
-// #define ne_lock_lock    pthread_spin_lock
-// #define ne_lock_unlock  pthread_spin_unlock
-
-typedef int ne_lock_t;
-
-#define ne_lock_init(x) UNUSED(x)
-#define ne_lock_destroy(x) UNUSED(x)
-#if defined(__x86_64__) || (defined(_MSC_VER) && defined(_M_AMD64))
-#define ne_lock_lock(x) _mm_pause()
-#else
-#define ne_lock_lock(x) UNUSED(x)
-#endif
-#define ne_lock_unlock(x) UNUSED(x)
-
-#define NE_LOCK_INITIALIZER 0
-
-typedef pthread_t ne_thread_t;
-
-#define ne_thread_create pthread_create
-#define ne_thread_join pthread_join
-
-#endif
-
-struct ne_compute_state_shared {
-  ne_lock_t spin;
-
-  int n_threads;
-
-  // synchronization primitives
-  atomic_int n_ready;
-  atomic_bool has_work;
-  atomic_bool stop;  // stop all threads
-};
-
-struct ne_compute_state {
-  ne_thread_t thrd;
-
-  struct ne_compute_params params;
-  struct ne_tensor* node;
-
-  struct ne_compute_state_shared* shared;
-};
-
-static thread_ret_t ne_graph_compute_thread(void* data) {
-  struct ne_compute_state* state = (struct ne_compute_state*)data;
-
-  const int n_threads = state->shared->n_threads;
-
-  while (true) {
-    if (atomic_fetch_add(&state->shared->n_ready, 1) == n_threads - 1) {
-      atomic_store(&state->shared->has_work, false);
-    } else {
-      while (atomic_load(&state->shared->has_work)) {
-        if (atomic_load(&state->shared->stop)) {
-          return 0;
-        }
-        ne_lock_lock(&state->shared->spin);
-        ne_lock_unlock(&state->shared->spin);
-      }
-    }
-
-    atomic_fetch_sub(&state->shared->n_ready, 1);
-
-    // wait for work
-    while (!atomic_load(&state->shared->has_work)) {
-      if (atomic_load(&state->shared->stop)) {
-        return 0;
-      }
-      ne_lock_lock(&state->shared->spin);
-      ne_lock_unlock(&state->shared->spin);
-    }
-
-    // check if we should stop
-    if (atomic_load(&state->shared->stop)) {
-      break;
-    }
-
-    if (state->node) {
-      if (state->params.ith < state->params.nth) {
-        ne_compute_forward(&state->params, state->node);
-      }
-
-      state->node = NULL;
-    } else {
-      break;
-    }
-  }
-
-  return 0;
-}
-
 void ne_graph_compute(struct ne_context* ctx, struct ne_cgraph* cgraph) {
   int n_threads = cgraph->n_threads;
 
-  struct ne_compute_state_shared state_shared = {
-      /*.spin      =*/NE_LOCK_INITIALIZER,
-      /*.n_threads =*/n_threads,
-      /*.n_ready   =*/0,
-      /*.has_work  =*/false,
-      /*.stop      =*/false,
-  };
-  struct ne_compute_state* workers = n_threads > 1 ? alloca(sizeof(struct ne_compute_state) * (n_threads - 1)) : NULL;
-#ifndef _OPENMP
-  // create thread pool
-  if (n_threads > 1) {
-    ne_lock_init(&state_shared.spin);
-
-    atomic_store(&state_shared.has_work, true);
-
-    for (int j = 0; j < n_threads - 1; j++) {
-      workers[j] = (struct ne_compute_state){
-          .thrd = 0,
-          .params =
-              {
-                  .type = NE_TASK_COMPUTE,
-                  .ith = j + 1,
-                  .nth = n_threads,
-                  .wsize = cgraph->work ? ne_nbytes(cgraph->work) : 0,
-                  .wdata = cgraph->work ? cgraph->work->data : NULL,
-              },
-          .node = NULL,
-          .shared = &state_shared,
-      };
-
-      int rc = ne_thread_create(&workers[j].thrd, NULL, ne_graph_compute_thread, &workers[j]);
-      NE_ASSERT(rc == 0);
-      UNUSED(rc);
-    }
-  }
-#else
-  n_threads = bestla_set_threads(n_threads);  // prevent from using two sockets
-  omp_set_num_threads(n_threads);
-#endif
+  n_threads = bestla_set_threads(n_threads);
   // initialize tasks + work buffer
   {
     size_t work_size = 0;
@@ -11603,7 +11437,6 @@ void ne_graph_compute(struct ne_context* ctx, struct ne_cgraph* cgraph) {
 #if NE_DEBUG
     bestla_timer(true);
 #endif
-#ifndef _OPENMP
     // INIT
     struct ne_compute_params params = {
         /*.type  =*/NE_TASK_INIT,
@@ -11613,154 +11446,7 @@ void ne_graph_compute(struct ne_context* ctx, struct ne_cgraph* cgraph) {
         /*.wdata =*/cgraph->work ? cgraph->work->data : NULL,
     };
 
-    ne_compute_forward(&params, node);
-
-    // COMPUTE
-    if (node->n_tasks > 1) {
-      if (atomic_fetch_add(&state_shared.n_ready, 1) == n_threads - 1) {
-        atomic_store(&state_shared.has_work, false);
-      }
-
-      while (atomic_load(&state_shared.has_work)) {
-        ne_lock_lock(&state_shared.spin);
-        ne_lock_unlock(&state_shared.spin);
-      }
-
-      // launch thread pool
-      for (int j = 0; j < n_threads - 1; j++) {
-        workers[j].params = (struct ne_compute_params){
-            .type = NE_TASK_COMPUTE,
-            .ith = j + 1,
-            .nth = node->n_tasks,
-            .wsize = cgraph->work ? ne_nbytes(cgraph->work) : 0,
-            .wdata = cgraph->work ? cgraph->work->data : NULL,
-        };
-        workers[j].node = node;
-      }
-
-      atomic_fetch_sub(&state_shared.n_ready, 1);
-
-      while (atomic_load(&state_shared.n_ready) > 0) {
-        ne_lock_lock(&state_shared.spin);
-        ne_lock_unlock(&state_shared.spin);
-      }
-
-      atomic_store(&state_shared.has_work, true);
-    }
-
-    params.type = NE_TASK_COMPUTE;
-    ne_compute_forward(&params, node);
-
-    // wait for thread pool
-    if (node->n_tasks > 1) {
-      if (atomic_fetch_add(&state_shared.n_ready, 1) == n_threads - 1) {
-        atomic_store(&state_shared.has_work, false);
-      }
-
-      while (atomic_load(&state_shared.has_work)) {
-        ne_lock_lock(&state_shared.spin);
-        ne_lock_unlock(&state_shared.spin);
-      }
-
-      atomic_fetch_sub(&state_shared.n_ready, 1);
-
-      while (atomic_load(&state_shared.n_ready) != 0) {
-        ne_lock_lock(&state_shared.spin);
-        ne_lock_unlock(&state_shared.spin);
-      }
-    }
-    // FINALIZE
-    if (node->n_tasks > 1) {
-      if (atomic_fetch_add(&state_shared.n_ready, 1) == n_threads - 1) {
-        atomic_store(&state_shared.has_work, false);
-      }
-
-      while (atomic_load(&state_shared.has_work)) {
-        ne_lock_lock(&state_shared.spin);
-        ne_lock_unlock(&state_shared.spin);
-      }
-
-      // launch thread pool
-      for (int j = 0; j < n_threads - 1; j++) {
-        workers[j].params = (struct ne_compute_params){
-            .type = NE_TASK_FINALIZE,
-            .ith = j + 1,
-            .nth = node->n_tasks,
-            .wsize = cgraph->work ? ne_nbytes(cgraph->work) : 0,
-            .wdata = cgraph->work ? cgraph->work->data : NULL,
-        };
-        workers[j].node = node;
-      }
-
-      atomic_fetch_sub(&state_shared.n_ready, 1);
-
-      while (atomic_load(&state_shared.n_ready) > 0) {
-        ne_lock_lock(&state_shared.spin);
-        ne_lock_unlock(&state_shared.spin);
-      }
-
-      atomic_store(&state_shared.has_work, true);
-    }
-
-    params.type = NE_TASK_FINALIZE;
-    ne_compute_forward(&params, node);
-
-    // wait for thread pool
-    if (node->n_tasks > 1) {
-      if (atomic_fetch_add(&state_shared.n_ready, 1) == n_threads - 1) {
-        atomic_store(&state_shared.has_work, false);
-      }
-
-      while (atomic_load(&state_shared.has_work)) {
-        ne_lock_lock(&state_shared.spin);
-        ne_lock_unlock(&state_shared.spin);
-      }
-
-      atomic_fetch_sub(&state_shared.n_ready, 1);
-
-      while (atomic_load(&state_shared.n_ready) != 0) {
-        ne_lock_lock(&state_shared.spin);
-        ne_lock_unlock(&state_shared.spin);
-      }
-    }
-#else
-    // INIT
-    struct ne_compute_params params = {
-        /*.type  =*/NE_TASK_INIT,
-        /*.ith   =*/0,
-        /*.nth   =*/node->n_tasks,
-        /*.wsize =*/cgraph->work ? ne_nbytes(cgraph->work) : 0,
-        /*.wdata =*/cgraph->work ? cgraph->work->data : NULL,
-    };
-    ne_compute_forward(&params, node);
-    if (node->n_tasks == 1) {
-      params.type = NE_TASK_COMPUTE;
-      ne_compute_forward(&params, node);
-      params.type = NE_TASK_FINALIZE;
-      ne_compute_forward(&params, node);
-
-    } else {
-#pragma omp parallel
-      {
-        struct ne_compute_params params = {
-            /*.type  =*/NE_TASK_COMPUTE,
-            /*.ith   =*/omp_get_thread_num(),
-            /*.nth   =*/node->n_tasks,
-            /*.wsize =*/cgraph->work ? ne_nbytes(cgraph->work) : 0,
-            /*.wdata =*/cgraph->work ? cgraph->work->data : NULL,
-        };
-        if (params.ith < node->n_tasks) {
-          ne_compute_forward(&params, node);
-        }
-#pragma omp barrier
-        params.type = NE_TASK_FINALIZE;
-        if (params.ith < node->n_tasks) {
-          ne_compute_forward(&params, node);
-        }
-      }
-    }
-
-#endif
+    bestla_parallel_for(ne_compute_forward, &params, node);
 #if NE_DEBUG
     printf("Node %d ", node->op);
     bestla_timer(false);
@@ -11776,22 +11462,6 @@ void ne_graph_compute(struct ne_context* ctx, struct ne_cgraph* cgraph) {
     }
   }
 
-  // join thread pool
-#ifndef _OPENMP
-  if (n_threads > 1) {
-    atomic_store(&state_shared.stop, true);
-    atomic_store(&state_shared.has_work, true);
-
-    for (int j = 0; j < n_threads - 1; j++) {
-      int rc = ne_thread_join(workers[j].thrd, NULL);
-      NE_ASSERT(rc == 0);
-      UNUSED(rc);
-    }
-
-    ne_lock_destroy(&state_shared.spin);
-  }
-#endif
-
   // performance stats (graph)
   {
     int64_t perf_cycles_cur = ne_perf_cycles() - perf_start_cycles;
diff --git a/neural_speed/models/model_utils/quant_utils.cpp b/neural_speed/models/model_utils/quant_utils.cpp
index 849578400..05d5fc158 100644
--- a/neural_speed/models/model_utils/quant_utils.cpp
+++ b/neural_speed/models/model_utils/quant_utils.cpp
@@ -45,9 +45,7 @@
 #include "core/layers/mha_dense.h"
 #include "core/ne_layers.h"
 #include "core/layers/bestla_gemm.h"
-#include "bestla/bestla_parallel.h"
-// #include "jblas/jblas/jit_blas_weight_compression.h"
-// #include "models/model_utils/model_config.h"
+#include "core/ne_bestla.h"
 
 #include "models/model_utils/model_files.h"
 #include "models/whisper/whisper.h"
@@ -275,11 +273,9 @@ size_t bestla_quantize(const float* f32ptr, void* dstpr, const quant_params_inte
                        size_t k) {
   auto ctype = quant2ne_comp_type(params.compute_dtype);
   auto dstbptr = reinterpret_cast<int8_t*>(dstpr);
-#ifdef __OPENMP
-  bestla::parallel::OMPThreading threading(nthread);
-#else
-  bestla::parallel::StdThreading threading(nthread);
-#endif
+  bestla_set_threads(nthread);
+  auto thdptr = bestla_get_thread_handle();
+
   BTLA_DTYPE quant_type = BTLA_DTYPE::S4_CLIP;
   if (params.bits == quant_bits::q3) {
     quant_type = BTLA_DTYPE::S3_CLIP;
@@ -327,7 +323,7 @@ size_t bestla_quantize(const float* f32ptr, void* dstpr, const quant_params_inte
   bool constexpr IsTrans_TorchWeight = true;
   if (size) {
     if (!BTLAGemmQuantPackB(dstpr, f32ptr, n, k, k, gsize, quant_type, scale_type, params.alg == quant_alg::asym, ctype,
-                            IsTrans_TorchWeight, &threading)) {
+                            IsTrans_TorchWeight, thdptr)) {
       printf("Failed to quant this weight\n");
       return 0;
     }