ModelCloud · Qubitium · Dec 4, 2024 · Dec 4, 2024 · Dec 4, 2024 · Dec 4, 2024
diff --git a/examples/quantization/transformers_usage.py b/examples/quantization/transformers_usage.py
@@ -10,4 +10,4 @@
 
 model = AutoModelForCausalLM.from_pretrained("./opt-125m-gptq", device_map="auto")
 
-print(tokenizer.decode(model.generate(**tokenizer("gptqmodel is", return_tensors="pt").to(model.device))[0]))
+print(tokenizer.decode(model.generate(**tokenizer("gptqmodel is", return_tensors="pt").to(model.device))[0]))
diff --git a/gptqmodel/nn_modules/qlinear/qlinear_bitblas.py b/gptqmodel/nn_modules/qlinear/qlinear_bitblas.py
@@ -11,8 +11,8 @@
 import torch.nn as nn
 from gptqmodel.nn_modules.qlinear import BaseQuantLinear
 
-from ...utils.logger import setup_logger
 from ...models._const import DEVICE
+from ...utils.logger import setup_logger
 
 logger = setup_logger()
 

diff --git a/gptqmodel/nn_modules/qlinear/qlinear_cuda.py b/gptqmodel/nn_modules/qlinear/qlinear_cuda.py
@@ -1,7 +1,7 @@
 import torch
-from gptqmodel.nn_modules.qlinear import BaseQuantLinear
-from gptqmodel.utils.logger import setup_logger
 from gptqmodel.nn_modules.qlinear.qlinear_torch import TorchQuantLinear
+from gptqmodel.utils.logger import setup_logger
+
 from ...models._const import DEVICE
 
 logger = setup_logger()

diff --git a/gptqmodel/nn_modules/qlinear/qlinear_exllama.py b/gptqmodel/nn_modules/qlinear/qlinear_exllama.py
@@ -9,6 +9,7 @@
 import torch.nn.functional as F
 import transformers
 from gptqmodel.nn_modules.qlinear import BaseQuantLinear
+
 from ...models._const import DEVICE
 
 exllama_import_exception = None

diff --git a/gptqmodel/nn_modules/qlinear/qlinear_exllamav2.py b/gptqmodel/nn_modules/qlinear/qlinear_exllamav2.py
@@ -6,8 +6,8 @@
 import torch.nn.functional as F
 from gptqmodel.nn_modules.qlinear import BaseQuantLinear
 
-from ...utils.logger import setup_logger
 from ...models._const import DEVICE
+from ...utils.logger import setup_logger
 
 exllama_v2_import_exception = None
 try:

diff --git a/gptqmodel/nn_modules/qlinear/qlinear_marlin.py b/gptqmodel/nn_modules/qlinear/qlinear_marlin.py
@@ -5,9 +5,9 @@
 
 import numpy as np
 import torch
+from gptqmodel.nn_modules.qlinear import BaseQuantLinear
 from torch.nn.parameter import Parameter
 
-from gptqmodel.nn_modules.qlinear import BaseQuantLinear
 from ...models._const import DEVICE
 
 marlin_import_exception = None

diff --git a/gptqmodel/nn_modules/qlinear/qlinear_torch.py b/gptqmodel/nn_modules/qlinear/qlinear_torch.py
@@ -4,10 +4,10 @@
 import torch
 import torch.nn as nn
 import transformers
-
 from gptqmodel.models._const import DEVICE
 from gptqmodel.nn_modules.qlinear import BaseQuantLinear
 from gptqmodel.utils.logger import setup_logger
+
 from ...models._const import DEVICE
 
 logger = setup_logger()

diff --git a/gptqmodel/nn_modules/qlinear/qlinear_tritonv2.py b/gptqmodel/nn_modules/qlinear/qlinear_tritonv2.py
@@ -6,10 +6,10 @@
 import transformers
 from packaging import version
 
+from ...models._const import DEVICE
 from ...utils.logger import setup_logger
 from ..triton_utils.mixin import TritonModuleMixin
 from . import BaseQuantLinear
-from ...models._const import DEVICE
 
 try:
     from triton import __version__ as triton_version

diff --git a/gptqmodel/utils/importer.py b/gptqmodel/utils/importer.py
@@ -1,18 +1,19 @@
 from collections import OrderedDict
-import torch
 from typing import Optional, Union
 
-from .backend import BACKEND
+import torch
+
 from ..nn_modules.qlinear.qlinear_bitblas import BitBLASQuantLinear
 from ..nn_modules.qlinear.qlinear_cuda import CudaQuantLinear
 from ..nn_modules.qlinear.qlinear_exllama import ExllamaQuantLinear
 from ..nn_modules.qlinear.qlinear_exllamav2 import ExllamaV2QuantLinear
 from ..nn_modules.qlinear.qlinear_ipex import IPEXQuantLinear
 from ..nn_modules.qlinear.qlinear_marlin import MarlinQuantLinear
-from ..nn_modules.qlinear.qlinear_tritonv2 import TRITON_AVAILABLE, TRITON_INSTALL_HINT, TritonV2QuantLinear
 from ..nn_modules.qlinear.qlinear_torch import TorchQuantLinear
+from ..nn_modules.qlinear.qlinear_tritonv2 import TRITON_AVAILABLE, TRITON_INSTALL_HINT, TritonV2QuantLinear
 from ..quantization import FORMAT
 from ..utils.logger import setup_logger
+from .backend import BACKEND
 
 logger = setup_logger()
 
@@ -125,10 +126,12 @@ def select_quant_linear(
         if hasattr(torch, "xpu") and torch.xpu.is_available():
             return IPEXQuantLinear
 
-        # Fallback to IPEX/CPU if cpu supports AVX512
+        # Fallback to IPEX/CPU
         from device_smi import Device
-        if "avx512_vnni" not in Device("cpu").features:
-            raise ValueError("IPEX/CPU requires minimum avx512_vnni support.")
+
+        cpu_vendor = Device("cpu").vendor
+        if cpu_vendor != "intel":
+            logger.warning(f"Intel/IPEX cpu kernel is only validated and optimized for Intel cpu. Running on non-Intel cpu is not guaranteed. Current cpu vendor: `{cpu_vendor}`.")
 
         return IPEXQuantLinear
     elif backend == BACKEND.TORCH:

diff --git a/gptqmodel/utils/marlin.py b/gptqmodel/utils/marlin.py
@@ -4,11 +4,11 @@
 import torch
 from accelerate.utils import find_tied_parameters
 
-from .model import recurse_getattr, recurse_setattr
-from .progress import ProgressBar
 from ..nn_modules.qlinear.qlinear_marlin import MarlinQuantLinear, _get_perms, unpack_qzeros
 from ..quantization import FORMAT, QuantizeConfig
 from ..utils.logger import setup_logger
+from .model import recurse_getattr, recurse_setattr
+from .progress import ProgressBar
 
 logger = setup_logger()
 

diff --git a/gptqmodel/utils/model.py b/gptqmodel/utils/model.py
@@ -20,18 +20,17 @@
 from transformers import AutoConfig, PretrainedConfig
 from transformers.utils.hub import cached_file
 
-from .backend import BACKEND
-from .exllama import exllama_set_max_input_length
-from .importer import select_quant_linear
-from .logger import setup_logger
-from .progress import ProgressBar
 from ..models._const import CPU, EXLLAMA_DEFAULT_MAX_INPUT_LENGTH, EXPERT_INDEX_PLACEHOLDER, SUPPORTED_MODELS
 from ..nn_modules.qlinear import BaseQuantLinear
 from ..nn_modules.qlinear.qlinear_exllama import ExllamaQuantLinear
 from ..nn_modules.qlinear.qlinear_exllamav2 import ExllamaV2QuantLinear
-from ..nn_modules.qlinear.qlinear_marlin import MarlinQuantLinear
 from ..nn_modules.qlinear.qlinear_ipex import IPEXQuantLinear
+from ..nn_modules.qlinear.qlinear_marlin import MarlinQuantLinear
 from ..quantization import FORMAT, QuantizeConfig
+from .backend import BACKEND
+from .importer import select_quant_linear
+from .logger import setup_logger
+from .progress import ProgressBar
 
 logger = setup_logger()
 

diff --git a/tests/test_transformers_integration.py b/tests/test_transformers_integration.py
@@ -1,4 +1,5 @@
 import unittest
+
 from transformers import AutoModelForCausalLM, AutoTokenizer, GPTQConfig
 
 
@@ -68,4 +69,4 @@ def test_quantize_ipex(self):
         self._test_quantize(device_map="cpu")
 
     def test_quantize_cuda(self):
-        self._test_quantize(device_map="cuda")
+        self._test_quantize(device_map="cuda")
Original file line number	Diff line number	Diff line change
Expand Up		@@ -10,4 +10,4 @@

		model = AutoModelForCausalLM.from_pretrained("./opt-125m-gptq", device_map="auto")

		print(tokenizer.decode(model.generate(**tokenizer("gptqmodel is", return_tensors="pt").to(model.device))[0]))
		print(tokenizer.decode(model.generate(**tokenizer("gptqmodel is", return_tensors="pt").to(model.device))[0]))