Split by rows instead of layers for llama.cpp multi-gpu #5435

Ph0rk0z · 2024-02-04T16:05:31Z

On some cards, the new splitting by layer causes performance. Even on 3090s, the utilization goes from over 50 to 43. P40s actually have demonstrable losses. This parameter lets you split by rows like theoriginal behavior and should fix those speed issues. Default behavior should still be splitting by layers.

Merge dev branch

Merge dev branch (oobabooga#5257)

Merge dev branch

oobabooga · 2024-02-04T21:16:11Z

Is there a reason to not have split by rows by default if it leads to better performance?

Ph0rk0z · 2024-02-05T01:30:26Z

I kept the default behavior of l.cpp and also have no way to test 4090 or all different combinations. I can say P40 gains its 2 or 3 t/s back and 3090 goes from 40% utilization per GPU to over 5X%.

Nothing makes it like pre ggerganov/llama.cpp#4606 unfortunately.

oobabooga · 2024-02-05T02:35:50Z

Fair enough

oobabooga and others added 30 commits December 14, 2023 22:39

Merge pull request oobabooga#4927 from oobabooga/dev

c3e0fcf

Merge dev branch

Merge pull request oobabooga#4937 from oobabooga/dev

443be39

Merge dev branch

Merge pull request oobabooga#4961 from oobabooga/dev

7be0983

Merge dev branch

Merge pull request oobabooga#4980 from oobabooga/dev

b28020a

Merge dev branch

Merge pull request oobabooga#4988 from oobabooga/dev

781367b

Merge dev branch

Merge pull request oobabooga#5002 from oobabooga/dev

71eb744

Merge dev branch

Merge pull request oobabooga#5005 from oobabooga/dev

5b791ca

Merge dev branch

Merge pull request oobabooga#5011 from oobabooga/dev

c1f78db

Merge dev branch

Merge pull request oobabooga#5012 from oobabooga/dev

489f4a2

Merge dev branch

Merge pull request oobabooga#5022 from oobabooga/dev

11288d1

Merge dev branch

Merge pull request oobabooga#5039 from oobabooga/dev

4b25acf

Merge dev branch

Merge pull request oobabooga#5073 from oobabooga/dev

af87609

Merge dev branch

Merge pull request oobabooga#5078 from oobabooga/dev

19d1374

Merge dev branch

Merge pull request oobabooga#5100 from oobabooga/dev

3fd7073

Merge dev branch

Merge pull request oobabooga#5132 from oobabooga/dev

3e3a66e

Merge dev branch

Merge pull request oobabooga#5152 from oobabooga/dev

3f28925

Merge dev branch

Merge pull request oobabooga#5163 from oobabooga/dev

c54d1da

Merge dev branch

Merge pull request oobabooga#5181 from oobabooga/dev

8ea3f31

Merge dev branch

Merge pull request oobabooga#5195 from oobabooga/dev

e169993

Merge dev branch

Merge pull request oobabooga#5199 from oobabooga/dev

ad1ff53

Merge dev branch

Merge pull request oobabooga#5220 from oobabooga/dev

2dc8db8

Merge dev branch

Merge pull request oobabooga#5253 from oobabooga/dev

61e4bfe

Merge dev branch

Merge pull request oobabooga#5266 from oobabooga/dev

d8c3a5b

Merge dev branch (oobabooga#5257)

Merge pull request oobabooga#5347 from oobabooga/dev

1343aa3

Merge dev branch

Merge pull request oobabooga#5348 from oobabooga/dev

837bd88

Merge dev branch

Merge pull request oobabooga#5379 from oobabooga/dev

e7a760e

Merge dev branch

Merge pull request oobabooga#5404 from oobabooga/dev

4f3fdf1

Merge dev branch

Change shared.py

fea8315

Update llamacpp_hf.py

572ab05

Update llamacpp_model.py

b8c17a5

Ph0rk0z added 3 commits February 4, 2024 10:00

Update loaders.py

f35b723

Update ui.py

2b21b86

Update ui_model_menu.py

c86f447

oobabooga changed the base branch from main to dev February 5, 2024 02:36

oobabooga merged commit 2a45620 into oobabooga:dev Feb 5, 2024

PoetOnTheRun pushed a commit to PoetOnTheRun/text-generation-webui that referenced this pull request Feb 22, 2024

Split by rows instead of layers for llama.cpp multi-gpu (oobabooga#5435)

a06b979

Ph0rk0z deleted the patch-4 branch May 12, 2024 17:39

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Split by rows instead of layers for llama.cpp multi-gpu #5435

Split by rows instead of layers for llama.cpp multi-gpu #5435

Ph0rk0z commented Feb 4, 2024

oobabooga commented Feb 4, 2024

Ph0rk0z commented Feb 5, 2024

oobabooga commented Feb 5, 2024

Split by rows instead of layers for llama.cpp multi-gpu #5435

Split by rows instead of layers for llama.cpp multi-gpu #5435

Conversation

Ph0rk0z commented Feb 4, 2024

oobabooga commented Feb 4, 2024

Ph0rk0z commented Feb 5, 2024

oobabooga commented Feb 5, 2024