[Bugfix] Enable loading FP8 checkpoints for gpt_bigcode models (vllm-…

…project#5460) Signed-off-by: Thomas Parnell <[email protected]>
xjpang · Jul 8, 2024 · de6975c · de6975c
1 parent c0d00cd
commit de6975c
Showing 1 changed file with 7 additions and 1 deletion.
diff --git a/vllm/model_executor/models/gpt_bigcode.py b/vllm/model_executor/models/gpt_bigcode.py
@@ -299,4 +299,10 @@ def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
             param = params_dict[name]
             weight_loader = getattr(param, "weight_loader",
                                     default_weight_loader)
-            weight_loader(param, loaded_weight)
+            # TODO (@robertgshaw2-neuralmagic): move to fp8 linear method
+            if "c_attn.input_scale" in name or "c_attn.weight_scale" in name:
+                weight_loader(param, loaded_weight, 'q')
+                weight_loader(param, loaded_weight, 'k')
+                weight_loader(param, loaded_weight, 'v')
+            else:
+                weight_loader(param, loaded_weight)