[CCLBackend] Using parallel memcpy for inference_all_reduce #4404

delock · 2023-09-26T15:59:08Z

This PR introduce a parallel version of memcpy and use it in inference_all_reduce. This allows memcpy fully utilize host memory bandwidth and improve performance. For some typical message size, this PR improve their performance as follows: (Tested on 2 socket 4th Gen Xeon Scalable system)
32KB: 26us -->23us
128KB: 59us --> 29us
512KB: 210us --> 40us

Besides, we improved handling of large message size. Now a fixed size shared memory can support any message size. This would help first token of a long input sequence.

…dai#4404) * use parallel version of memcpy * include max buf size to 16MB per rank * support any input buffer size * fix format error

delock added 3 commits September 21, 2023 00:39

use parallel version of memcpy

11e1dcc

include max buf size to 16MB per rank

0ede0af

support any input buffer size

da784b9

delock requested review from RezaYazdaniAminabadi, awan-10, jeffra, cmikeh2 and arashb as code owners September 26, 2023 15:59

delock and others added 2 commits September 27, 2023 00:56

fix format error

e4ac57c

Merge branch 'master' into gma/ccl_parallel_memcpy

35a602d

tjruwase approved these changes Oct 3, 2023

View reviewed changes

tjruwase added this pull request to the merge queue Oct 3, 2023

Merged via the queue into deepspeedai:master with commit 9a55291 Oct 3, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[CCLBackend] Using parallel memcpy for inference_all_reduce #4404

[CCLBackend] Using parallel memcpy for inference_all_reduce #4404

delock commented Sep 26, 2023

[CCLBackend] Using parallel memcpy for inference_all_reduce #4404

[CCLBackend] Using parallel memcpy for inference_all_reduce #4404

Conversation

delock commented Sep 26, 2023