Integrate LLVM at llvm/llvm-project@3e713575 #18155

hanhanW · 2024-08-08T16:40:59Z

Cherry-pick commits:

llvm/llvm-project@d96ccc2

Signed-off-by: hanhanW <[email protected]>

hanhanW · 2024-08-08T18:13:16Z

llvm/llvm-project@da8778e does not handle the transposition with all unit dims case, I'm working on a fix in upstream.

hanhanW · 2024-08-08T18:31:15Z

llvm/llvm-project#102518 should fix the issue, cherry-picking the fix now.

Signed-off-by: hanhanW <[email protected]>

github-actions · 2024-08-08T19:21:18Z

Abbreviated Benchmark Summary

@ commit d8638e0dd1a0684e0510f4b7baf08d8418f475de (vs. base 8545650e0744a24919a3dc6d419c1ebfceef345e)

Data-Tiling Comparison Table

Click to show

Name	No-DT (baseline)	DT-Only	DT-UK
BertLargeTF(stablehlo) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[30-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	765.832 (1.0X)	283.705 (2.7X)	228.205 (3.4X)
DeepLabV3_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[8-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	7.033 (1.0X)	9.314 (0.8X)	8.542 (0.8X)
EfficientNetV2STF(stablehlo) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[15-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	35.875 (1.0X)	36.266 (1.0X)	34.490 (1.0X)
EfficientNet_int8(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[8-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	5.865 (1.0X)	10.993 (0.5X)	5.053 (1.2X)
GPT2_117M_TF_1X1XI32(stablehlo) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[15-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	9.192 (1.0X)	8.523 (1.1X)	8.518 (1.1X)
GPT2_117M_TF_1X4XI32(stablehlo) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[15-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	11.063 (1.0X)	9.093 (1.2X)	8.969 (1.2X)
MiniLML12H384Uncased(stablehlo) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[15-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	11.989 (1.0X)	15.508 (0.8X)	13.812 (0.9X)
MobileBertSquad_fp16(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[15-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	33.847 (1.0X)	65.523 (0.5X)	61.570 (0.5X)
MobileBertSquad_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[15-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	34.281 (1.0X)	66.382 (0.5X)	61.742 (0.6X)
MobileBertSquad_int8(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[15-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	69.283 (1.0X)	134.169 (0.5X)	64.507 (1.1X)
MobileNetV1_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[8-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	4.890 (1.0X)	5.347 (0.9X)	4.584 (1.1X)
MobileNetV2_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[8-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	3.821 (1.0X)	5.359 (0.7X)	4.928 (0.8X)
MobileNetV2_int8(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[8-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	5.934 (1.0X)	9.585 (0.6X)	5.462 (1.1X)
MobileNetV3Small_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	2.922 (1.0X)	3.442 (0.8X)	2.814 (1.0X)
MobileSSD_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[8-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	8.621 (1.0X)	11.025 (0.8X)	10.025 (0.9X)
PersonDetect_int8(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	0.788 (1.0X)	1.395 (0.6X)	0.657 (1.2X)
PoseNet_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[8-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	4.208 (1.0X)	5.928 (0.7X)	5.321 (0.8X)
matmul_256x256x2048_i8_i4_i32_tile_config_default(linalg) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_sync(embedded_elf)[full-inference,default-flags] with default @ c2-standard-60[cpu]	7.577 (1.0X)	7.567 (1.0X)	7.564 (1.0X)
matmul_256x256x2048_i8_i8_i32_tile_config_default(linalg) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_sync(embedded_elf)[full-inference,default-flags] with default @ c2-standard-60[cpu]	6.661 (1.0X)	13.340 (0.5X)	1.811 (3.7X)
BertForMaskedLMTF(stablehlo) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[30-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	216.217 (1.0X)	137.353 (1.6X)	107.206 (2.0X)
DeepLabV3_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	32.549 (1.0X)	36.366 (0.9X)	30.102 (1.1X)
EfficientNetV2STF(stablehlo) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	278.824 (1.0X)	260.053 (1.1X)	229.744 (1.2X)
EfficientNet_int8(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	26.981 (1.0X)	51.504 (0.5X)	13.111 (2.1X)
GPT2_117M_TF_1X1XI32(stablehlo) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	70.136 (1.0X)	38.710 (1.8X)	38.665 (1.8X)
GPT2_117M_TF_1X4XI32(stablehlo) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	88.122 (1.0X)	41.928 (2.1X)	40.977 (2.2X)
MiniLML12H384Uncased(stablehlo) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	79.662 (1.0X)	78.099 (1.0X)	59.044 (1.3X)
MobileBertSquad_fp16(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	180.305 (1.0X)	248.399 (0.7X)	186.979 (1.0X)
MobileBertSquad_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	181.735 (1.0X)	252.405 (0.7X)	191.767 (0.9X)
MobileBertSquad_int8(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	520.530 (1.0X)	1088.054 (0.5X)	244.470 (2.1X)
MobileNetV1_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	25.762 (1.0X)	22.486 (1.1X)	17.808 (1.4X)
MobileNetV2_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	12.169 (1.0X)	14.829 (0.8X)	11.620 (1.0X)
MobileNetV2_int8(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	21.778 (1.0X)	42.449 (0.5X)	11.884 (1.8X)
MobileNetV3Small_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_sync(embedded_elf)[full-inference,default-flags] with default @ c2-standard-60[cpu]	2.788 (1.0X)	3.264 (0.9X)	2.691 (1.0X)
MobileSSD_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	33.737 (1.0X)	39.183 (0.9X)	31.498 (1.1X)
PersonDetect_int8(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_sync(embedded_elf)[full-inference,default-flags] with default @ c2-standard-60[cpu]	0.715 (1.0X)	1.300 (0.6X)	0.578 (1.2X)
PoseNet_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	18.162 (1.0X)	23.844 (0.8X)	19.686 (0.9X)
matmul_1x256x2048_i8_i4_i32_tile_config_default(linalg) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_sync(embedded_elf)[full-inference,default-flags] with default @ c2-standard-60[cpu]	0.055 (1.0X)	0.055 (1.0X)	0.055 (1.0X)
matmul_1x256x2048_i8_i8_i32_tile_config_default(linalg) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_sync(embedded_elf)[full-inference,default-flags] with default @ c2-standard-60[cpu]	0.043 (1.0X)	0.226 (0.2X)	0.022 (2.0X)

No improved or regressed benchmarks 🏖️

Improved Total Dispatch Sizes 🎉

Benchmark Name	Total Dispatch Size (bytes)
MobileBertSquad\_fp16(tflite) [x86\_64-cascadelake-linux\_gnu-llvm\_cpu][experimental-flags,dt-only,compile-stats]	48496 (vs. 53552, 9.44%↓)
MobileBertSquad\_fp32(tflite) [x86\_64-cascadelake-linux\_gnu-llvm\_cpu][experimental-flags,dt-only,compile-stats]	48880 (vs. 53968, 9.43%↓)
GPT2\_117M\_TF\_1X1XI32(stablehlo) [x86\_64-cascadelake-linux\_gnu-llvm\_cpu][experimental-flags,dt-only,compile-stats]	10272 (vs. 11280, 8.94%↓)

For more information:

Source Workflow Run

hanhanW · 2024-08-08T19:23:08Z

The cherry-pick commit will be dropped in the next integrate. It is not merged into upstream repo yet, still waiting for LLVM CI jobs finished.

Integrate LLVM at llvm/llvm-project@3e713575

47926a4

Signed-off-by: hanhanW <[email protected]>

cherry-pick llvm/llvm-project@d96ccc2

057453b

Signed-off-by: hanhanW <[email protected]>

hanhanW requested review from MaheshRavishankar and ScottTodd August 8, 2024 19:22

ScottTodd approved these changes Aug 8, 2024

View reviewed changes

hanhanW merged commit 052c000 into main Aug 8, 2024
53 checks passed

hanhanW deleted the integrates/llvm-20240808 branch August 8, 2024 20:24

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Integrate LLVM at llvm/llvm-project@3e713575 #18155

Integrate LLVM at llvm/llvm-project@3e713575 #18155

hanhanW commented Aug 8, 2024 •

edited

Loading

hanhanW commented Aug 8, 2024

hanhanW commented Aug 8, 2024

github-actions bot commented Aug 8, 2024

hanhanW commented Aug 8, 2024

Integrate LLVM at llvm/llvm-project@3e713575 #18155

Integrate LLVM at llvm/llvm-project@3e713575 #18155

Conversation

hanhanW commented Aug 8, 2024 • edited Loading

hanhanW commented Aug 8, 2024

hanhanW commented Aug 8, 2024

github-actions bot commented Aug 8, 2024

Abbreviated Benchmark Summary

Data-Tiling Comparison Table

Improved Total Dispatch Sizes 🎉

hanhanW commented Aug 8, 2024

hanhanW commented Aug 8, 2024 •

edited

Loading