llama1-3 模型结构详解 - Zhang #209

2025-02-01T06:18:22Z

giscus[bot]
bot Feb 1, 2025

从事 LLM 推理部署、视觉算法开发、模型压缩部署以及算法SDK开发工作,终身学习践行者。Transformerllama1-3 模型结构代码如何实现，模型结构分析。

BranikaLi · 2025-02-01T06:18:24Z

d 输入 tokens 的数量，大小为 batch_size * seq_len
d不是embedding的长度吗

0 replies

BranikaLi · 2025-02-01T17:06:22Z

MQA 和 GQA如果这样可以减少KV内存，不就意味着Q和KV的隐藏层长度是不一样的，一般的attention里面，QKV的linea layer是一样大小的，MQA 和 GQA的话，是不是Q和KV的linear layer是不一样大小的。

0 replies