11 Dec 06:33

jinminxi104

dlinfer release v0.1.3.post1 Latest

Latest

华为
- 支持int8的kv cache
- 修复w4a16方面的bug
沐曦
- 支持w4a16
- 支持多种数据排布的Linear计算
- 支持最新沐曦软件栈
- 修复多轮对话

Assets 2

18 Nov 08:58

jinminxi104

dlinfer release v0.1.2

华为
- support multi-card on graph mode
- support mistral8x7b on graph mode
- support more models on eager mode
沐曦
- code refinement

Assets 2

28 Oct 14:27

jinminxi104

dlinfer release v0.1.1.post2

版本

v0.1.1.post2

更新内容

支持沐曦C500加速卡
支持华为图模式（llama3-8B/llama2-7B/Qwen2-7B）
华为支持W4A16量化与推理
其他华为与沐曦平台优化

Assets 2

11 Sep 02:05

jinminxi104

dlinfer release v0.1.0.post1

版本

v0.1.0.post1

更新内容

适配lmdeploy的0.6.0。
华为后端性能优化

Assets 2

30 Aug 10:04

MiaoYYu

dlinfer v0.1.0 releasenote

大家好！我们很高兴的宣布dlinfer仓库正式开源，并发布v0.1.0版本。
dlinfer提供了一套将国产硬件接入大模型推理框架的解决方案。对上承接大模型推理框架，对下在eager模式下调用各厂商的融合算子，在graph模式下调用厂商的图引擎。在dlinfer中，我们根据主流大模型推理框架与主流硬件厂商的融合算子粒度，定义了大模型推理的融合算子接口。

版本

v0.1.0

主要功能

将对接框架与对接厂商融合算子在适配工程中有效解耦；
同时支持算子模式和图模式；
图模式下的图获取更加精确匹配，提高最终端到端性能；
同时支持LLM推理和VLM推理。
华为Atlas 800T A2在LMDeploy上支持如下模型推理（算子模式）：InternLM2.5-7B/20B，InternLM2-7B/20B，InternVL2-2B，InternVL1-5，Llama3-8B，Mixtral8x7B，Qwen2-7B，Qwen2-57B-A14B，CogVLM。

Assets 2