Releases: DeepLink-org/dlinfer
Releases · DeepLink-org/dlinfer
dlinfer release v0.1.3.post1
-
华为
- 支持int8的kv cache
- 修复w4a16方面的bug
-
沐曦
- 支持w4a16
- 支持多种数据排布的Linear计算
- 支持最新沐曦软件栈
- 修复多轮对话
dlinfer release v0.1.2
- 华为
- support multi-card on graph mode
- support mistral8x7b on graph mode
- support more models on eager mode
- 沐曦
- code refinement
dlinfer release v0.1.1.post2
版本
v0.1.1.post2
更新内容
- 支持沐曦C500加速卡
- 支持华为图模式(llama3-8B/llama2-7B/Qwen2-7B)
- 华为支持W4A16量化与推理
- 其他华为与沐曦平台优化
dlinfer release v0.1.0.post1
版本
v0.1.0.post1
更新内容
- 适配lmdeploy的0.6.0。
- 华为后端性能优化
dlinfer v0.1.0 releasenote
大家好!我们很高兴的宣布dlinfer仓库正式开源,并发布v0.1.0版本。
dlinfer提供了一套将国产硬件接入大模型推理框架的解决方案。 对上承接大模型推理框架,对下在eager模式下调用各厂商的融合算子,在graph模式下调用厂商的图引擎。 在dlinfer中,我们根据主流大模型推理框架与主流硬件厂商的融合算子粒度,定义了大模型推理的融合算子接口。
版本
v0.1.0
主要功能
- 将对接框架与对接厂商融合算子在适配工程中有效解耦;
- 同时支持算子模式和图模式;
- 图模式下的图获取更加精确匹配,提高最终端到端性能;
- 同时支持LLM推理和VLM推理。
- 华为Atlas 800T A2在LMDeploy上支持如下模型推理(算子模式):InternLM2.5-7B/20B,InternLM2-7B/20B,InternVL2-2B,InternVL1-5,Llama3-8B,Mixtral8x7B,Qwen2-7B,Qwen2-57B-A14B,CogVLM。