调用flash attn内核的sdpa失败 #1321

czydfj · 2024-11-07T11:55:45Z

UserWarning: Memory efficient kernel not used because: (Triggered internally at ../aten/src/ATen/native/transformers/cuda/sdp_utils.cpp:718.)
torch.nn.functional.scaled_dot_product_attention(
test_sdpa.py:14: UserWarning: Memory Efficient attention has been runtime disabled. (Triggered internally at ../aten/src/ATen/native/transformers/sdp_utils_cpp.h:495.)
torch.nn.functional.scaled_dot_product_attention(
test_sdpa.py:14: UserWarning: Flash attention kernel not used because: (Triggered internally at ../aten/src/ATen/native/transformers/cuda/sdp_utils.cpp:720.)
torch.nn.functional.scaled_dot_product_attention(
test_sdpa.py:14: UserWarning: Flash Attention does not support non-null attn_mask. (Triggered internally at ../aten/src/ATen/native/transformers/sdp_utils_cpp.h:269.)
torch.nn.functional.scaled_dot_product_attention(
test_sdpa.py:14: UserWarning: CuDNN attention kernel not used because: (Triggered internally at ../aten/src/ATen/native/transformers/cuda/sdp_utils.cpp:722.)
torch.nn.functional.scaled_dot_product_attention(
test_sdpa.py:14: UserWarning: The CuDNN backend needs to be enabled by setting the enviornment variableTORCH_CUDNN_SDPA_ENABLED=1 (Triggered internally at ../aten/src/ATen/native/transformers/cuda/sdp_utils.cpp:496.)
torch.nn.functional.scaled_dot_product_attention(
Traceback (most recent call last):
File "test_sdpa.py", line 14, in
torch.nn.functional.scaled_dot_product_attention(
RuntimeError: No available kernel. Aborting execution.

The text was updated successfully, but these errors were encountered:

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

调用flash attn内核的sdpa失败 #1321

调用flash attn内核的sdpa失败 #1321

czydfj commented Nov 7, 2024

调用flash attn内核的sdpa失败 #1321

调用flash attn内核的sdpa失败 #1321

Comments

czydfj commented Nov 7, 2024