Add padding to encoder_seq_lens #610

kdamaszk · 2024-12-10T16:15:30Z

Without this change we can observe below error:

[rank0]:   File "/software/users/kdamaszke/repos/vllm-fork/vllm/model_executor/models/mllama.py", line 959, in forward
[rank0]:     full_text_row_masked_out_mask = full_text_row_masked_out_mask.view(
[rank0]: RuntimeError: shape '[4, -1, 1]' is invalid for input of size 3

It occurs when one of the requests is removed from the batch earlier. In that case, language model is still working on the shapes padded to the bucketed batch size, while encoder input doesn't. This change is aligning the batch size on encoder_seq_lens to the expected one.

yisonzhu · 2024-12-11T08:37:59Z

LGTM.

…seq-lens

vllm/worker/hpu_enc_dec_model_runner.py

Add padding to encoder_seq_lens

db8f480

kdamaszk requested review from kzawora-intel, madamczykhabana, michalkuligowski and mgawarkiewicz as code owners December 10, 2024 16:15

format.sh

e4142e8

kdamaszk requested a review from jkaniecki December 10, 2024 16:26

Merge branch 'habana_main' into dev/kdamaszke/fix-padding-on-encoder-…

6d428f0

…seq-lens

jkaniecki reviewed Dec 12, 2024

View reviewed changes

vllm/worker/hpu_enc_dec_model_runner.py Outdated Show resolved Hide resolved

Use real_batch_size

c957f3b

michalkuligowski approved these changes Dec 12, 2024

View reviewed changes

michalkuligowski merged commit 449a89d into habana_main Dec 12, 2024
10 checks passed

michalkuligowski deleted the dev/kdamaszke/fix-padding-on-encoder-seq-lens branch December 12, 2024 08:41

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add padding to encoder_seq_lens #610

Add padding to encoder_seq_lens #610

kdamaszk commented Dec 10, 2024 •

edited by github-actions bot

Loading

yisonzhu commented Dec 11, 2024

Add padding to encoder_seq_lens #610

Add padding to encoder_seq_lens #610

Conversation

kdamaszk commented Dec 10, 2024 • edited by github-actions bot Loading

yisonzhu commented Dec 11, 2024

kdamaszk commented Dec 10, 2024 •

edited by github-actions bot

Loading