HabanaAI · michalkuligowski · Dec 6, 2024 · Nov 18, 2024
@@ -8,5 +8,5 @@ pandas
 tabulate
 setuptools>=61
 setuptools-scm>=8
-vllm-hpu-extension @ git+https://github.com/HabanaAI/vllm-hpu-extension.git@070591a
+vllm-hpu-extension @ git+https://github.com/HabanaAI/vllm-hpu-extension.git@41ff369
 neural-compressor @ git+https://github.com/intel/neural-compressor.git@b196432
@@ -8,7 +8,8 @@
 
 import torch
 import vllm_hpu_extension.ops as ops
-from vllm_hpu_extension.utils import Matmul, Softmax, VLLMKVCache
+from vllm_hpu_extension.utils import (Matmul, ModuleFusedSDPA, Softmax,
+                                      VLLMKVCache)
 
 from vllm.attention.backends.abstract import (AttentionBackend, AttentionImpl,
                                               AttentionMetadata, AttentionType)
@@ -20,6 +21,14 @@
 
 logger = init_logger(__name__)
 
+HPUFusedSDPA = None
+try:
+    from habana_frameworks.torch.hpex.kernels import FusedSDPA
+    HPUFusedSDPA = FusedSDPA
+except ImportError:
+    logger.warning("Could not import HPU FusedSDPA kernel. "
+                   "vLLM will use native implementation.")
+
 
 class HPUAttentionBackend(AttentionBackend):
 
@@ -117,6 +126,8 @@ def __init__(
         self.block2batch_matmul = Matmul()
         self.k_cache = VLLMKVCache()
         self.v_cache = VLLMKVCache()
+        self.fused_scaled_dot_product_attention = None if HPUFusedSDPA is None \
+            else ModuleFusedSDPA(HPUFusedSDPA)
         self.num_kv_heads = num_heads if num_kv_heads is None else num_kv_heads
         self.sliding_window = sliding_window
         self.alibi_slopes = alibi_slopes
@@ -222,6 +233,7 @@ def forward(
                     softmax_op=self.softmax,
                     matmul_av_op=self.matmul_av,
                     valid_seq_lengths=attn_metadata.seq_lens_tensor,
+                    fsdpa_op=self.fused_scaled_dot_product_attention,
                 )
             else:
                 # TODO: enable FusedSDPA

@@ -201,7 +201,8 @@ def stop_profile(self) -> None:
         self.driver_worker.stop_profile()
 
     def shutdown(self) -> None:
-        if hasattr(self.driver_worker, 'shutdown_inc'):
+        if hasattr(self, "driver_worker") and hasattr(self.driver_worker,
+                                                      'shutdown_inc'):
             self.driver_worker.shutdown_inc()