Does flash-attn support FP8 inference on L40-48G? #1355

LinJianping · 2024-11-25T08:42:08Z

In this issue I found that FA3 doesn't support L40. In my case, I'm using vLLM for FP8 model, I'm curious if Flash-Attention 2 utilizes FP8 for inference on L40-48G?

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Does flash-attn support FP8 inference on L40-48G? #1355

Does flash-attn support FP8 inference on L40-48G? #1355

LinJianping commented Nov 25, 2024

Does flash-attn support FP8 inference on L40-48G? #1355

Does flash-attn support FP8 inference on L40-48G? #1355

Comments

LinJianping commented Nov 25, 2024