Turing RK1 [Llama 2 7B] #14

b4rtaz · 2024-03-11T19:59:05Z

b4rtaz
Mar 11, 2024
Maintainer

I promised to share results of Turing RK1 module. It arrived yesterday so I took the chance to run distributed llama on it.
Capability: 8 cores, 32 GB RAM. Storage: 1 TB NVMe SSD
OS: custom Ubuntu Server
Model: llama-2-7b

Command

sudo nice -n -20 ./main inference \
  --model /mnt/bigdata/llama-2-7b/dllama_llama-2-7b_q40.bin \
  --tokenizer ./tokenizer.bin \
  --weights-float-type q40 \
  --buffer-float-type q80 \
  --prompt "Hello world" \
  --steps 16 \
  --nthreads 4

Result

💡 dim: 4096
💡 hiddenDim: 11008
💡 nLayers: 32
💡 nHeads: 32
💡 nKvHeads: 32
💡 vocabSize: 32000
💡 seqLen: 2048
💡 nSlices: 1
⏩ Loaded 4242882560 bytes
🔶 G  372 ms I  372 ms T    0 ms S      0 kB R      0 kB Hello
🔶 G  378 ms I  378 ms T    0 ms S      0 kB R      0 kB  world
🔶 G  369 ms I  367 ms T    1 ms S      0 kB R      0 kB ,
🔶 G  379 ms I  379 ms T    0 ms S      0 kB R      0 kB  I
🔶 G  424 ms I  397 ms T   27 ms S      0 kB R      0 kB '
🔶 G  376 ms I  376 ms T    0 ms S      0 kB R      0 kB m
🔶 G  378 ms I  377 ms T    0 ms S      0 kB R      0 kB  E
🔶 G  407 ms I  407 ms T    0 ms S      0 kB R      0 kB .
🔶 G  383 ms I  380 ms T    0 ms S      0 kB R      0 kB  січня
🔶 G  372 ms I  371 ms T    1 ms S      0 kB R      0 kB  
🔶 G  379 ms I  378 ms T    0 ms S      0 kB R      0 kB 2
🔶 G  374 ms I  373 ms T    0 ms S      0 kB R      0 kB 0
🔶 G  382 ms I  381 ms T    0 ms S      0 kB R      0 kB 1
🔶 G  375 ms I  373 ms T    2 ms S      0 kB R      0 kB 8
🔶 G  378 ms I  377 ms T    1 ms S      0 kB R      0 kB  at
🔶 G  382 ms I  382 ms T    0 ms S      0 kB R      0 kB  
Generated tokens:    16
Avg generation time: 381.75 ms
Avg inference time:  379.25 ms
Avg transfer time:   2.00 ms

80Builder80 · 2024-05-06T05:27:42Z

80Builder80
May 6, 2024

If you get bored and need something to do, I would love to see a side by side comparison between the RPI5 and the RK1. It would be interesting to see how the RK3588 stacks up against the A76.

1 reply

kami4ka Jun 4, 2024

It would be awesome to have a support of TPU and GPU.
I'm building my cluster with Orange Pi 5 and Nvidia Jetson products to use as much as possible of ARM.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Turing RK1 [Llama 2 7B] #14

{{title}}

Replies: 1 comment 1 reply

{{title}}

{{title}}

Select a reply

Turing RK1 [Llama 2 7B] #14

b4rtaz Mar 11, 2024 Maintainer

Command

Result

Replies: 1 comment · 1 reply

80Builder80 May 6, 2024

kami4ka Jun 4, 2024

b4rtaz
Mar 11, 2024
Maintainer

Replies: 1 comment 1 reply

80Builder80
May 6, 2024