Limit decode block size #532

mfylcek · 2024-11-21T09:27:36Z

Limit decode bucket size to num_hpu_blocks

vllm/worker/hpu_model_runner.py

vllm/worker/hpu_worker.py

vllm/worker/hpu_model_runner.py

kdamaszk · 2024-11-22T15:23:43Z

@mfylcek PR #534 is already merged and entire bucketing logic is moved to vllm-hpu-extension. I'm afraid that your changes in hpu_model_runner have to be moved into that repo.

mfylcek · 2024-11-22T15:38:40Z

PR in vllm-hpu-extension: HabanaAI/vllm-hpu-extension#41

Fixed

Limit bucket size

300db1c

mfylcek marked this pull request as draft November 21, 2024 09:27

mfylcek added 2 commits November 21, 2024 11:52

Limit bucket size for flat PA

90a963c

Limit in find_bucket

7f61b91

mfylcek mentioned this pull request Nov 21, 2024

[BUG_FIX] 405B WARMUP failed on "FATAL ERROR :: MODULE:PT_LAZY Error, ValidateSyncInputTensors tensor_data is empty" #529

Closed

madamczykhabana requested changes Nov 21, 2024

View reviewed changes

vllm/worker/hpu_model_runner.py Outdated Show resolved Hide resolved

mfylcek added 2 commits November 22, 2024 12:04

Update decode block limit in hpu_worker

e6ef1bf

Merge branch 'habana_main' into dev/mfylcek/limit_cpa_bucket_size

1c8f4ca

mfylcek marked this pull request as ready for review November 22, 2024 10:09

mypy

2bbe059

mfylcek marked this pull request as draft November 22, 2024 11:10

michalkuligowski reviewed Nov 22, 2024

View reviewed changes

vllm/worker/hpu_worker.py Outdated Show resolved Hide resolved

mfylcek added 5 commits November 22, 2024 14:20

Merge with HPUBucketingContext

b6cc6c2

Fix assert

1384519

Set limit for bucketing context inside _prepare_decode

beecb2f

Remove the line from hpu_worker

ada5ee9

Remove unnecessary

b0c60b6

mfylcek marked this pull request as ready for review November 22, 2024 13:21

mfylcek requested a review from madamczykhabana November 22, 2024 13:25

madamczykhabana previously requested changes Nov 22, 2024

View reviewed changes

vllm/worker/hpu_model_runner.py Outdated Show resolved Hide resolved

Set it in hpu_worker

34f3c1f

mfylcek added 2 commits November 22, 2024 17:32

Update requirements

5fc2d25

Merge branch 'habana_main' into dev/mfylcek/limit_cpa_bucket_size

17a561b

Update reqs

18b6dac

mfylcek changed the title ~~Limit contiguous PA bucket size~~ Limit decode block size Nov 25, 2024

michalkuligowski approved these changes Nov 25, 2024

View reviewed changes

michalkuligowski requested a review from madamczykhabana November 25, 2024 08:35

michalkuligowski merged commit 39c6b6c into habana_main Nov 25, 2024
12 checks passed

michalkuligowski deleted the dev/mfylcek/limit_cpa_bucket_size branch November 25, 2024 08:36

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Limit decode block size #532

Limit decode block size #532

mfylcek commented Nov 21, 2024 •

edited

Loading

kdamaszk commented Nov 22, 2024

mfylcek commented Nov 22, 2024

Limit decode block size #532

Limit decode block size #532

Conversation

mfylcek commented Nov 21, 2024 • edited Loading

kdamaszk commented Nov 22, 2024

mfylcek commented Nov 22, 2024

mfylcek commented Nov 21, 2024 •

edited

Loading